jak uprawiać badania oświatowe

Transkrypt

JAK UPRAWIAĆ
B A D A N I A
O Ś W I AT O W E
METODOLOGIA
P R A K T YC Z NA
Krzysztof Konarzewski
JAK UPRAWIAĆ
B A D A N I A
O Ś W I AT O W E
METODOLOGIA
P R A K T YC Z NA
Warszawa
Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna
Projekt okładki i strony tytułowej
Tadeusz Nuckowski
Redaktor
Mieczysława Decewicz
Redaktor techniczny
Janina Soboń
ISBN 83-02-07784-4
© Copyright by Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna
Warszawa 2000
Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna
00-950 Warszawa, pl. Dąbrowskiego 8
www.wsip.com.pl
Warszawa
Wydanie drugie poprawione
SPIS TREŚCI
Wstęp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Rozdział 1. Projektowanie badania: Typy, schematy i metody. . . . . . . . . . . . . . 11
Typy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metody. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Projektowanie badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kwerenda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Projekt badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Moralne aspekty badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Techniczne aspekty badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
14
15
15
15
18
22
24
Rozdział 2. Badania ilościowe i jakościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Liczby i teksty. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zainteresowanie kontekstem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kryzys reprezentacji. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wiarygodność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rzetelność i trafność . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Triangulacja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Indukcja analityczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Uogólnianie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Współpraca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
27
29
30
30
32
33
34
35
Rozdział 3. Badania uogólniające. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Zmienna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Typy zmiennych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Związki badania z teorią. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hipoteza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wskaźniki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pytanie badawcze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prawomocność wniosków. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania eksperymentalne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trafność eksperymentu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trafność wewnętrzna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trafność zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy badań eksperymentalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy grup niezależnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy porównań wewnątrzosobniczych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy złożone. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schematy eksperymentów naturalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania porównawcze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania poprzeczne i podłużne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania przeglądowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Niektóre zastosowania badań przeglądowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
39
42
42
45
47
48
49
51
51
50
55
55
57
59
63
66
68
69
71
Rozdział 4. Badania indywidualizujące. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Eksperyment jednoosobowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Badania jakościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Studium przypadku. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania etnograficzne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania historyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
79
82
85
Rozdział 5. Badania praktyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Od problemu do pytania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania rozpoznawcze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badania oceniające. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ocena z punktu widzenia usługodawcy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ocena z punktu widzenia usługobiorcy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ocena z punktu widzenia społeczeństwa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Polityczne aspekty oceniania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Badanie w działaniu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
90
91
92
93
94
95
97
Rozdział 6. Metody doboru próbki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Populacja i próbka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Próbki losowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Losowanie nieograniczone indywidualne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Losowanie warstwowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Losowanie grupowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Wielkość próbki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Próbki nielosowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Dobór przypadkowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Dobór kwotowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Dobór celowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Rozdział 7. Metody zbierania danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Metody zbierania danych jakościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obserwacja jakościowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obserwacja etnograficzna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obserwacja zdarzeń krytycznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad indywidualny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad skoncentrowany na subiektywnych teoriach. . . . . . . . . . . . . . . . . . . . . . .
Wywiad skoncentrowany na materiale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad narracyjny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad etnograficzny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad zbiorowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wywiad grupowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Narracja grupowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grupa tematyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Przeszukiwanie archiwów. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metody zbierania danych ilościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obserwacja ilościowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Redukowanie spostrzeżeń. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rejestrowanie spostrzeżeń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Krytyka danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ankieta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pozycje kwestionariusza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Układ kwestionariusza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
112
109
116
117
120
121
122
123
123
124
124
124
127
129
131
131
132
137
139
141
144
Trafność kwestionariusza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pomiar zmiennych nieobserwowalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Testy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Skale psychologiczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metody projekcyjne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pomiar behawioralny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trafność i rzetelność pomiaru zmiennych nieobserwowalnych. . . . . . . . . . . . . . . .
Trafność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rzetelność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Teoria odpowiedzi na pozycję testu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
147
149
151
152
156
157
158
159
160
164
Rozdział 8. Metody analizy danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Dane jakościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Od danych do protokołu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kodowanie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kodowanie teoretyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kodowanie tematyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analiza treści. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analiza sekwencyjna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wydobywanie regularności. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Komputer w badaniach jakościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dane ilościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Przygotowanie danych do analizy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Statystyka opisowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rozkład liczebności. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miary wartości centralnej. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miary zróżnicowania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miary współzmienności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analiza czynnikowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Statystyka indukcyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estymacja parametrów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sprawdzanie hipotez statystycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
166
166
169
169
171
172
173
175
181
182
178
185
185
187
187
189
193
195
197
204
Rozdział 9. Doniesienie naukowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Kompozycja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tytuł. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Streszczenie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metoda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wyniki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wyniki jakościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wyniki ilościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Przypisy i spis literatury. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Standard europejski. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Standard amerykański. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aneks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Język. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
215
215
216
217
218
219
219
221
228
220
231
233
233
234
Literatura cytowana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
WSTĘP
„Wstęp” pisze się zwykle z myślą o tym, by jak najwięcej czytelników doprowadzić do „Zakończenia”. Apetyt czytelnika mają zaostrzyć zwłaszcza zapewnienia o
błogosławionych skutkach zapoznania się z dziełem. Wbrew temu zwyczajowi powiem od razu: studiowanie podręcznika metodologii z nikogo nie zrobi badacza.
Badać to korzystać z tego, co już wiemy, by poznać coś, czego nie wiemy. Jest to
najpierw kwestia pewnej postawy – rzadkiej, bo wymagającej pogodzenia sprzecznych wymagań. Oto niektóre z nich:
Ciekawość szczegółu i zainteresowanie syntezą. Badacz to ktoś, kto potrafi
zatrzymać się przy zjawiskach, które inni mijają obojętnie, i pytać, skąd się wzięły,
dlaczego są takie, jakie są? Ale badacz nie zadowala się rozwikłaniem jednostkowej
zagadki, nie jest kolekcjonerem oderwanych ciekawostek – akumuluje odkrycia,
by móc lepiej zrozumieć inne zjawiska. Zaspokajając ciekawość w sprawach jednostkowych, dąży do powiększenia zdolności rozumienia szerszych klas zjawisk.
Ścisłość i swoboda. Badacz operuje jasnym i jednoznacznym językiem, niemal
obsesyjnie kontroluje wszystkie etapy postępowania badawczego i zabiega o powtarzalność doświadczeń. Ale jego umysł nie jest suchy i pedantyczny, stać go na
wzloty wyobraźni.
Sceptycyzm i optymizm. Badacz wie, że uznane prawa mogą upaść, a żelazne
fakty okazać się złudne. Gdy teoretyzuje, zawsze pamięta o różnicy między modelem a rzeczywistością, gdy coś odkrywa, po wielekroć sprawdza, czy nie jest to
artefakt. Ale wierzy, że poznanie, jakkolwiek trudne, jest możliwe. Badanie jest dla
niego ożywczym kontaktem z rzeczywistością, a nie przykrym ćwiczeniem w wypełnianiu obowiązków zawodowych.
Bezstronność i odpowiedzialność. Badacz nie służy żadnej sprawie oprócz
sprawy poznania. Wyrzeka się świadomego manipulowania danymi w celu udowodnienia z góry powziętej tezy, tropi stereotypy we własnym myśleniu, powstrzymuje się od wartościowania badanych obiektów. Ale czuje się odpowiedzialny za
konsekwencje wynikające z prowadzenia badań i ogłaszania ich wyników.
Wstęp 9
Tej postawie powinna towarzyszyć wiedza o przedmiocie. Badacz musi być wypełniony wiedzą – zarówno książkową, jak i bezpośrednią, płynącą z uczestnictwa
w praktykach życia codziennego. To dzięki tej wiedzy badacz skutecznie się dziwi: zatrzymuje się przy jednym z wielu zdarzeń, nadstawia ucha na pewne słowa.
Dzięki niej układa elementy łamigłówki tak, by mówiły jak najwięcej.
Metodologia nie ukształtuje tej postawy ani nie da tej wiedzy, nie jest też zbiorem recept na płodne badanie naukowe. Metodologia schematyzuje proces badania, dzieli na stadia, porządkuje. Po cóż więc ją studiować? Moja odpowiedź
brzmi: po to, by badacz mógł lepiej porozumiewać się z sobą samym, z innymi
badaczami i z odbiorcami jego wytworów.
Proces badawczy to twórcza wymiana sugestii płynących ze świata teorii i świata empirii. Wizja końca wpływa na jego początek, a początkowe przedzałożenia
wpływają na koniec. Świadome uczestnictwo w tym procesie jest niemożliwe bez
skutecznego porozumiewania się, czyli ujmowania tego, co intuicyjne i mgliste,
w intersubiektywnych pojęciach, tak by stało się jasne i wyraźne, ujawniło swoje
mocne i słabe strony. W tym sensie badacz musi najpierw porozumieć się ze sobą:
powiedzieć sobie, jak rozumie badany fragment świata, co chce osiągnąć przez
badanie i jak uzasadnia środki, którymi zamierza się posłużyć. Badacz porozumiewa się też z innymi, by przekonać ich do swojego pomysłu i zyskać poparcie, od
którego często zależy, czy jego pomysł przyoblecze się w ciało, poznać ich obiekcje,
skorzystać z dobrych rad, wreszcie – by przekazać im wyniki swojej pracy. W tych
procesach porozumiewania się metodologia służy bezcenną pomocą, ponieważ
oferuje przemyślaną strukturę pojęciową procesu badawczego i wyrażający ją język. Zamiast mozolnie wykładać swoje pomysły w języku potocznym, ryzykując
niezliczone nieporozumienia, badacz używa fachowego języka do wyczerpującego
przedstawienia swojego zamiaru i tym samym ułatwia zbadanie jego ukrytych,
niejasnych podstaw.
Są różne książki metodologiczne. Jedne tworzą logiczne i matematyczne podstawy procesu badawczego w ogóle, czyli rozwijają, by tak rzec, metodologię teoretyczną (np. Nagel, 1970, Popper, 1971, Kmita, 1973), inne wywodzą z nich
szczegółowe normy postępowania badawczego w określonej dyscyplinie naukowej. W tej drugiej grupie, tworzącej metodologię praktyczną, znajdują się dzieła
bardziej i mniej przydatne do udoskonalania procesu porozumiewania się.
Książki mniej przydatne to przede wszystkim te, które obszernie definiują intuicyjnie oczywiste terminy, wprowadzają pedantyczne rozróżnienia pojęciowe
i rozbudowują nazewnictwo, nie pytając, czy opanowanie przez czytelnika tej wiedzy zwiększy jego zdolność komunikowania i krytykowania własnych zamiarów
badawczych. Jakiż pożytek może płynąć z takiej oto definicji „metod badawczych”:
ogólne systemy reguł, dotyczące organizowania określonej działalności badawczej [...]
Jest to szereg operacji poznawczych i praktycznych, ustawionych w odpowiedniej kolejności, oraz szereg środków i działań skierowanych z góry na założony cel badawczy.
Po odsianiu mętnego słownictwa definicja ta mówi, że metoda to sposób osiągania celu – czyli coś, co każdy wiedział przed przystąpieniem do lektury. Inny
10 Wstęp
przykład pozornej wiedzy to rozbudowane rozróżnienia pojęciowe. Odróżnia się
na przykład „metodę badania” od „techniki badania”, a tę od „narzędzia badawczego”. Metoda to „całość postępowania badacza, zmierzającego do rozwiązania
określonego problemu naukowego”, technika to „praktyczna czynność badawcza”,
a narzędzie to „przedmiot służący do realizacji wybranej techniki”. Student planujący badanie ankietowe wśród nauczycieli w gminie głowi się, czy jego narzędziem
jest kwestionariusz, czy może ołówek, którym będzie zapisywał odpowiedzi, zamiast zastanawiać się, czy dobrze ułożył pytania i czy uzyska dane pozwalające
osiągnąć cel badania.
Ten podręcznik chce być przydatny. Za cel stawia sobie zapoznanie czytelnika
z językiem, w którym będzie mógł mówić o swoich i cudzych badaniach: zarówno
o ich nadrzędnej strukturze, jak i o szczegółowych zabiegach badawczych. Nie jest
to jednak poradnik, do którego sięga się w konkretnych kłopotach, ponieważ jego
części są zbyt silnie powiązane ze sobą w ramach nadrzędnej struktury pojęciowej. Ta cecha może utrudnić lekturę osobom dopiero rozpoczynającym edukację
metodologiczną, często bowiem zrozumienie nowego terminu będzie wymagać
zrozumienia terminów wprowadzonych wcześniej albo i później. Osobom tym
mogę poradzić, by wróciły do niejasnych rozdziałów po przeczytaniu wszystkich.
Czy podręcznik osiągnął cel – oceni czytelnik. Jeśli zyska aprobatę, podzielę się
nią z drem Romanem Dolatą, wnikliwym recenzentem pierwszej wersji książki,
oraz z moimi najbliższymi, których anielska cierpliwość pozwoliła mi w spokoju
ślęczeć nad tekstem. Dezaprobatę w całości wezmę na siebie.
Rozdział 1
PROJEKTOWANIE BADANIA:
TYPY, SCHEMATY I METODY
U podłoża badań prowadzonych w pedagogice i w innych naukach społecznych
leży splątany konglomerat struktur myślenia i działania. Splątany – ponieważ powstał z nawarstwiania się struktur służących różnym zamierzeniom badawczym.
Wprowadzane pospiesznie i bez nadrzędnego planu, struktury te noszą przypadkowe nazwy, które sugerują nieistniejące stosunki logiczne. Wskutek tego gmach
wiedzy metodologicznej staje się coraz mniej przejrzysty i coraz trudniejszy do
opanowania. Język metodologii, zamiast pomagać w porozumiewaniu się badaczy,
zaczyna im w tym przeszkadzać.
Chcąc temu zaradzić, liczni autorzy podejmują mniej lub bardziej udane próby uporządkowania języka, w którym mówimy o badaniach naukowych. Próba,
którą tu przedstawiam, zakłada, że wyczerpujący opis badania1 wymaga trzech
hierarchicznie uporządkowanych pojęć: typu, schematu i metody. Wytyczają one
trzy pola wyboru: badacz mający pełną świadomość metodologiczną najpierw sytuuje swój projekt w obrębie jednego z typów, potem wybiera jeden ze schematów, a wreszcie dobiera szczegółowe metody. Ponieważ ten sam schemat może być
stosowany w badaniach różnego typu, a ta sama metoda w różnych schematach,
trzy pojęcia muszą być ułożone hierarchicznie. Szkicuję je poniżej, a szczegółowo
rozwijam w dalszych rozdziałach.
Typy
Podziału badań na typy dokonuje się ze względu na ich cele. Słowo cel bywa używane rozmaicie – czasem tak, że można się bez niego doskonale obyć. Gdy badacz pisze: „Celem mojego badania jest dostarczenie odpowiedzi na postawione
1
Wbrew rozpowszechnionemu zwyczajowi będę używał tego słowa w liczbie pojedynczej, ilekroć mowa o pojedynczym studium („Jan przeprowadził badanie postaw młodzieży”). Liczbę mnogą rezerwuję dla zbioru badań („Nasze badania źródeł agresji ludzkiej
wykazały...”).
12 Rozdział 1. Projektowanie badania: Typy, schematy i metody
pytanie”, to nie informuje o niczym nowym, jasne jest bowiem, że po to się stawia
pytanie, by na nie odpowiedzieć. Co innego, gdy badacz pisze, po co chce poznać
odpowiedź na swoje pytanie, czyli jaki użytek zamierza z niej zrobić. To właśnie
nazywam celem badania. Najogólniej, cel badania może być teoretyczny lub praktyczny. Mamy więc dwa typy badań.
Typ teoretyczny. Badania tego typu podejmuje się w celu budowania teorii
naukowej. Teoria to uznana konstrukcja umysłowa, która pozwala zrozumieć
związki między zjawiskami. Ta prosta definicja zwraca uwagę na kilka ważnych
spraw. Po pierwsze, teoria przypomina model, tzn. pomniejszoną i uproszczoną
kopię oryginału. Model naśladuje niektóre aspekty działania oryginału – teoria
odtwarza w pojęciach niektóre aspekty rzeczywistych zjawisk. Na modelu można
eksperymentować: poddawać go różnym oddziaływaniom i rejestrować zmiany
w jego działaniu – z teorii można wysnuwać przewidywania co do tego, jak pewne
zmiany wpłyną na przebieg zjawisk. Model może być bardziej lub mniej wierny,
a teoria bardziej lub mniej adekwatna, ale model nigdy nie jest tożsamy z oryginałem, a teoria – z rzeczywistością.
Po drugie, poziom teorii jest oddzielony od poziomu empirii. Teoria nie jest
podsumowaniem obserwacji, lecz dziełem myśli twórczo wykraczającej poza
zgromadzone dane. Teorii nie dyktują fakty – to raczej teoria wpływa na sposób,
w jaki spostrzegamy fakty. Dlatego właśnie – dowodzi Kuhn (1968) – spadający
kamień, rzecz najzwyklejsza pod słońcem, przedstawiał się Arystotelesowi inaczej
niż Galileuszowi. Pierwszy widział ciało zbliżające się do miejsca naturalnego spoczynku, a jego prędkość uzależniał od drogi, która pozostawała do przebycia, tak
jakby prędkość rosła w miarę zbliżania się do celu. Drugi – dzięki nowemu pojęciu
przestrzeni: izotropowej, nieskończonej przestrzeni geometrycznej – widział ciało
oddalające się od punktu wyjścia z prędkością zależną od przebytej drogi. Każda
rewolucyjna teoria, taka jak Kopernika czy Darwina, wymaga głębokiej reorganizacji obrazu świata i dlatego z trudem toruje sobie drogę do ludzkiej świadomości. W naukach społecznych samo uświadomienie sobie szczególnego kostiumu,
w który teoria stroi jakieś zjawisko, często zwiastuje postęp poznawczy.
Po trzecie, teoria jest konstrukcją umysłową, która została uznana przez społeczność uczonych. To uznanie ma wiele wspólnego z uzasadnieniem, jakiego dostarczają jej twórcy. W naukach społecznych jest to najczęściej uzasadnienie empiryczne: wykazanie, że wybrane przewidywania teorii zgadzają się z faktami. Jakkolwiek
więc teoria może być swobodnym tworem wyobraźni, to jednak jej uznanie wymaga, by w ważnych punktach nawiązywała do faktów i była z nimi zgodna.
Po czwarte, teoria służy zrozumieniu związków między zjawiskami. Praca teoretyka, nawet dopingowana marzeniami o zastosowaniach praktycznych, ma wiele
wspólnego z tym, co każe dziecku rozkładać zegar, by zrozumieć, jak działa, lub
w skupieniu dopasowywać do siebie elementy układanki – z nadzieją na swoistą
przyjemność, którą daje zapanowanie nad chaotyczną rzeczywistością. Przejawem
zrozumienia związków jest możność wyjaśnienia i przewidzenia różnych zjawisk.
Badania omawianego typu służą dziełu budowania teorii na dwa sposoby –
jako badania eksploracyjne i weryfikacyjne. Pierwsze dostarczają wskazówek co
Typy 13
do budowy teorii, drugie sprawdzają przewidywania teorii z myślą o jej potwierdzeniu lub podważeniu. Badania teoretyczne można też dzielić ze względu na rodzaj teorii. Warto odróżniać teorie ogólne, odnoszące się całej klasy obiektów (np.
teoria dysonansu poznawczego, która odnosi się do ludzi w ogóle) i jednostkowe,
odnoszące się do pojedynczego obiektu (np. teoria Rewolucji Francuskiej). Jakkolwiek w tym drugim przykładzie słowo „teoria” brzmi obco, trzeba pamiętać, że
wiedza o Rewolucji Francuskiej jest nie tyle chronologicznym zestawieniem udokumentowanych faktów historycznych, ile rekonstrukcją teoretyczną, która scala
dostępne fakty i wypełnia nieuniknione luki w faktografii. Z tego punktu widzenia
będziemy mówić o badaniach uogólniających i indywidualizujących.
Typ praktyczny. Badania tego typu podejmuje się nie po to, by stworzyć lub
udoskonalić jakąś teorię, lecz by dostarczyć impulsów do rozwoju pewnej dziedziny praktyki społecznej: kształcenia, leczenia, transportu itp. Są to badania naukowe w tym sensie, że opierają się na wiedzy teoretycznej (m.in. zawartej w metodach badawczych), nie są jednak projektowane z myślą o włączeniu się w dyskurs
teoretyczny. U podłoża każdego badania tego typu leży praktyczna trudność domagająca się usunięcia. Jeśli ma charakter nierutynowy (tzn. nie daje się usunąć za
pomocą znanych podmiotowi działań), nazywa się ją problemem (np. „Dyrektor
stanął przed problemem, jak zmniejszyć zakłócenia procesu kształcenia”). Żaden
jednak problem nie ukierunkowuje badania, dopóki nie zostanie przełożony na
pytania badawcze (np. „Kto najbardziej przeszkadza na lekcji?”, „Czy zadania wymagające samodzielnego wykonania redukują przeszkadzanie?”). Dlatego nie włączymy „problemu” do słownika metodologii2.
TYPY BADAŃ NAUKOWYCH
teoretyczne
eksploracyjne weryfikacyjne
uogólniające indywidualizujące
praktyczne
rozpoznawcze oceniające
Rysunek 1.1. Typy badań naukowych
Badanie praktyczne jest zaadresowane do konkretnego odbiorcy, a nie – jak
badania teoretyczne – do nieokreślonego członka społeczności uczonych. Ten odbiorca najczęściej jest też sponsorem badania. Podziału badań praktycznych trzeba zatem dokonywać z jego punktu widzenia. Najważniejszym kryterium podziału
Zbędność „problemu” najlepiej pokazują takie definicje: „Problem badawczy to tyle,
co pewne pytanie lub zespół pytań, na które odpowiedzi ma dostarczyć badanie” (Nowak,
1970, s. 214).
2
jest wkład, jaki wnosi badanie w rozwiązanie trudności, przed którą stoi odbiorca.
W grę wchodzą dwie możliwości: badanie może albo dookreślić samą trudność
i jej społeczne tło, albo sprawdzić skuteczność zastosowanych środków. Będziemy
zatem mówić o badaniach rozpoznawczych i oceniających. Pierwsze dostarczają odbiorcy informacji o rodzaju, zasięgu i głębokości praktycznej trudności (np.
o niezaspokojonych potrzebach, wadach obecnego rozwiązania, zasobach, które
można by wykorzystać, przeszkodach, na które można natrafić). Drugie dostarczają wiedzy o zamierzonych i niezamierzonych następstwach programu działania. Wyniki powyższej analizy zbiera rys. 1.1.
Schematy
Badanie to zbiór skoordynowanych czynności, które przynoszą nową wiedzę. Płynie stąd ważne rozróżnienie: badanie można opisywać na poziomie koordynacji
czynności albo na poziomie samych czynności.
Na poziomie koordynacji będziemy mówić o schematach badawczych (research designs). Wyodrębnimy 5 takich schematów, nie upierając się, rzecz jasna,
przy tej liczbie:
• eksperyment, czyli ujawnianie skutków ściśle określonych oddziaływań
w sztucznych populacjach eksperymentalnych,
• badanie porównawcze, czyli ujawnianie różnic między realnymi populacjami,
• badanie przeglądowe (survey), czyli poznawanie własności obiektów należących do pojedynczej realnej populacji i ujawnianie związków między tymi
własnościami,
• badanie etnograficzne, czyli zbieranie i przetwarzanie różnorodnych danych
o kulturowych sposobach życia realnej grupy społecznej,
• studium przypadku, czyli zbieranie i przetwarzanie różnorodnych danych
o pojedynczym obiekcie reprezentującym zjawisko ogólne.
Dwa ostatnie schematy zalicza się do badań jakościowych.
Przedstawiony podział ma doniosłe znaczenie, ponieważ nie każdy schemat
uprawnia do takiej samej interpretacji wyników badania. Na oko jest inaczej,
zwłaszcza w badaniach ilościowych. Wszystkie schematy ilościowe przynoszą podobnie wyglądające dane, podobne są też metody statystyczne, którymi się je analizuje. To sprzyja przenoszeniu interpretacji właściwych jednemu schematowi na
inny schemat. Ale to błąd. Bock (1975, s. 20) tak o tym pisze:
Metodologie eksperymentów, badań porównawczych i badań przeglądowych uprawniają do wyraźnie odmiennych typów wnioskowania, nie można więc zastępować jednych
drugimi. Eksperyment nie opisuje realnej populacji, a badanie porównawcze czy przeglądowe nie ujawnia skutków, które wywołuje oddziaływanie eksperymentalne.
Z drugiej jednak strony nigdy bodaj nie jest tak, by do zasobów wiedzy naukowej wchodził sam wynik badania. Nauka nie jest kolekcją wyników, lecz kolekcją
twierdzeń teoretycznych. Przystępując do badania, coś już wiemy o badanych zjawiskach, a coś podejrzewamy. Ta wiedza kształtuje sens wyniku. Wynik, który lai-
Metody 15
kowi wydaje się skromny, uczony może uznać za doniosły. W procesie interpretacji
teoretycznej następuje więc wyjście poza to, do czego upoważnia schemat badania.
Jeśli pracujemy nad częściowo już zweryfikowaną teorią, która postuluje związek
przyczynowy między dwoma zjawiskami, to nawet wynik badania przeglądowego
można traktować jako jej potwierdzenie lub obalenie – mimo że sam w sobie nie
powinien być tak interpretowany. Dlatego związki między typami badań a schematami badawczymi nie są zbyt ścisłe (więcej o tym u Karpińskiego, 1985).
Metody
Każdy schemat badania koordynuje kilka odrębnych czynności. Takie same czynności występują w różnych schematach i dlatego dają się opisywać niezależnie od
nich. Ustalony i zaaprobowany przez społeczność naukową sposób wykonywania
każdej z tych czynności będziemy nazywać metodą. W najogólniejszym ujęciu
mówimy o trzech klasach metod:
• metodach doboru próbki3,
• metodach zbierania danych,
• metodach analizowania danych.
Jak zobaczymy, te klasy mogą zawierać dziesiątki szczegółowych metod.
Zgodnie z przedstawioną konwencją: żeby wyczerpująco scharakteryzować
badanie, należy podać jego cel, schemat i metody. Tego samego wymaga się od
projektu badania.
Projektowanie badania
Badanie naukowe jest tak złożone, że tylko laik może przystępować do niego a vista. Każde badanie powinno być zaprojektowane w formie pisemnej. Konkursy na
projekty badawcze skłaniają do tego, by się tej sztuki dobrze nauczyć.
Każde badanie rozpoczyna się od mniej lub bardziej luźnego pomysłu. Nie ma
recepty na owocny pomysł. Ale warto pamiętać, że dobry pomysł ma coś wspólnego z luką w teorii lub trudnością w praktyce. W obu przypadkach wymagane są
uprzednia znajomość teorii lub praktyki oraz umiejętność dziwienia się.
Kwerenda
Projektowanie badań rozpoczyna się od kwerendy, czyli zapoznania się z istniejącym piśmiennictwem w interesującej nas dziedzinie. To ogniwo jest u nas notorycznie zaniedbywane. Badacz poprzestaje na podręcznikowych syntezach albo
przejrzeniu kilku książek, które ma na półce. Kłopot w tym, że podręczniki przedstawiają stan wiedzy sprzed kilkudziesięciu lat w sposób z konieczności skrótowy
i podporządkowany autorskiej koncepcji. To samo można powiedzieć o przypad3
Wybieram „próbkę” zamiast dwuznacznej „próby” (próba to zarazem sprawdzenie
czegoś i część reprezentująca całość). Dla dwóch znaczeń lepiej mieć dwa wyrazy niż jeden
(sample i trial w angielskim, échantillon i essai we francuskim). Są one zresztą rozdzielone
w formie czasownikowej: próbować nie znaczy próbkować.
kowo dobranych monografiach. Poprzestając na nich, badacz staje się niewolnikiem cudzego punktu widzenia (a czasem i cudzego niedbalstwa), nieświadomym
wielkich obszarów dyskusji teoretycznych i metodologicznych. Odcina się też od
wyników najnowszych badań, które podważają stereotypowe poglądy zarówno na
rzeczywistość oświatową, jak i na stanowiska zajmowane przez autorów dzieł pedagogicznych.
Kwerenda polega na studiowaniu monografii teoretycznych i doniesień z badań. Docenia ją każdy badacz, który dzięki niej dowiedział się, że na jego pytanie
już dawno udzielono odpowiedzi lub że wymyślona przez niego metoda została
gruntownie skrytykowana i zmodyfikowana.
Kwerenda powinna wykraczać poza proste zestawienie tego, co już wiadomo
w danej sprawie. W formie zaawansowanej ujawnia historię centralnych pojęć. Jak
to się stało, że zaczęto stawiać takie pytania, skąd wzięło się pojęcie wyrażające tę
niepewność, jak ewoluowało, czy i kto usiłował je zakwestionować i zrewidować?
Pojęcia, w których formułujemy nasze pytania, nie spadają z nieba, lecz są dziełem
ludzi uwikłanych w tradycję naukową. Jeśli badacz nie podejmuje się wyśledzić
całej historii swoich pojęć, to przynajmniej powinien dać dowód, że rozumie ich
genezę. Taka kwerenda pozwala ujawnić pęknięcia w szacownej teorii (np. gdy
różni badacze wysnuwają z niej niezgodne ze sobą przewidywania) lub zrozumieć
jakąś głęboką kontrowersję teoretyczną, czasem zaś prowadzi do porzucenia pomysłu badawczego (gdy wykazuje, że pytanie jest źle postawione).
Pogłębiona kwerenda wymaga nie tylko czytania, ale i liczenia. Gdy badacz
wertuje doniesienia z badań, często natrafia na niezgodne ze sobą wyniki. Może
to być zachętą do podjęcia własnego badania. Ale jeśli liczba takich badań idzie
w dziesiątki, to dodanie jeszcze jednego niewiele wniesie do naszej wiedzy, bez
względu na jego wynik. Dlatego lepiej podjąć próbę sprawdzenia hipotezy za pomocą scalenia istniejących wyników, czyli przeprowadzenia metaanalizy (Glass
i in., 1981, Schmidt, 1995).
Najprostszy sposób polega na liczbowym zestawieniu wyników: w 7 badaniach
hipoteza została przyjęta, 2 doprowadziły do przyjęcia hipotezy odwrotnej, a w 3
nie stwierdzono żadnych różnic. Ten sposób nie jest jednak dość precyzyjny. Jeśli
są to badania eksperymentalne lub porównawcze, lepiej obliczyć dla każdego badania wielkość efektu:
x − xK
∆= E
,
sK
gdzie x-E to średnia w grupie eksperymentalnej, x-E – średnia w grupie kontrolnej,
a sK – odchylenie standardowe w grupie kontrolnej. Ważona średnia tych wielkości4 tworzy rozkład zbliżony do normalnego o średniej 0 i odchyleniu standardowym 1. Jej wartość jest najlepszym oszacowaniem kierunku i wielkości wpływu
zmiennej niezależnej na zmienną zależną.
Przykładu takiej metaanalizy dostarczają Hyde i in. (1990). Przejrzeli oni 100
badań, w których porównywano wyniki osiągane przez kobiety i mężczyzn w stanWartość Δ mnoży się przez liczbę osób biorących udział w danym badaniu, te iloczyny
dodaje, a sumę dzieli przez liczbę osób biorących udział we wszystkich badaniach.
4
Projektowanie badania 17
daryzowanych testach wiedzy matematycznej. Wbrew powszechnej opinii średnia
wielkość efektu wyniosła zaledwie 0,20 na korzyść mężczyzn. Rzut oka na tabelę
rozkładu normalnego pozwala stwierdzić, że przeciętny mężczyzna wyprzedza jedynie 58% kobiet. Taki wynik mówi więcej, niżby powiedziało jedno nowe badanie.
Kwerendę trudno prowadzić bez pomocy specjalistycznych wydawnictw. Jeśli zagadnienie, którym chcemy się zająć, jest nam mało znane, dobrze zacząć od
zorientowania się, w jakich kontekstach dotąd występowało. Temu celowi służą
wydawnictwa o charakterze encyklopedycznym. Polski czytelnik ma do dyspozycji przedwojenną Encyklopedię Wychowania, współczesną Encyklopedię pedagogiczną pod redakcją W. Pomykały i wiele wydawnictw obcojęzycznych, zwłaszcza
The International Encyclopedia of Education: Research and Studies pod redakcją
T. Huséna i T. N. Postlethwaite’a.
Encyklopedia odeśle nas do podstawowej literatury przedmiotu, ale nie do
pojedynczych raportów badawczych. Chcąc się dowiedzieć, jakie badania przeprowadzono w danej sprawie i gdzie je opublikowano, musimy posłużyć się przewodnikami bibliograficznymi. W Polsce nie ma, niestety, wydawnictwa, które systematycznie informowałoby o krajowych publikacjach pedagogicznych. Czasem
może pomóc trzytomowa, staranna Bibliografia prac psychologicznych pod redakcją L. Wołoszynowej, ale obejmuje ona jedynie publikacje z lat 1946–1978. Ostatnią deską ratunku może być wizyta w Ośrodku Informacji przy Instytucie Badań
Edukacyjnych w Warszawie. Na Zachodzie badaczowi łatwiej poruszać się w gąszczu publikacji. Pomocne jest zwłaszcza trójjęzyczne wydawnictwo UNESCO Current Bibliographical Sources in Education.
Wielką popularnością cieszą się wydawnictwa dostarczające nie tylko informacji bibliograficznych o opublikowanych pracach, lecz także zwięźle wprowadzające
w ich treść. Najbardziej znane na świecie są trzy wydawnictwa amerykańskiego
Educational Resources Information Center (ERIC): Current Index to Journals in
Education (CIJE), Resources in Education (RIE) oraz Exceptional Child Education Resources (ECER). Pierwsze z nich zamieszcza kilku lub kilkunastozdaniowe
streszczenia poszczególnych artykułów pochodzących z ponad 800 czasopism pedagogicznych. Drugie informuje o samodzielnych raportach z badań finansowanych przez rząd federalny, ważniejszych referatach przedłożonych towarzystwom
naukowym, przewodnikach i materiałach związanych z programami kształcenia
itp. Trzecie jest poświęcone publikacjom dotyczącym kształcenia dzieci niezwykłych (poniżej i powyżej normy oświatowej). Wszystkie wydawnictwa ERIC są
dziś dostępne w formie komputerowych baz danych na dyskietkach optycznych
(CD-ROM), co niezmiernie ułatwia ich przeszukiwanie. To samo można powiedzieć o wydawnictwach w pokrewnych dyscyplinach, np. o Psychological Abstracts, Dissertation Abstracts International czy Sociological Abstracts. W Polsce można
je znaleźć w bibliotekach większych ośrodków akademickich.
Najbardziej przetworzonych przeglądów wiedzy, mających formę autorskich
artykułów, dostarczają wyspecjalizowane czasopisma. W Polsce ich nie ma, nie ma
też tradycji pisania artykułów przedstawiających stan badań w określonej dziedzinie. W Stanach Zjednoczonych od 1931 r. jest wydawany Review of Educational
Research, który zamieszcza całościowe przeglądy i interpretacje piśmiennictwa
pedagogicznego pod względem merytorycznym i metodologicznym. W dziedzinie psychologii wydawane są Psychological Bulletin i Annual Review of Psychology.
Zapoznanie się z wybranymi artykułami pozwala badaczowi oszczędzić tygodni
poszukiwań w bibliotekach.
Coraz ważniejszym źródłem informacji staje się Internet. Polecam zwłaszcza
bazy danych Educational Research Abstracts (www.tandf.co.uk/era), Scholarly
Articles Research Alerting (www.carfax.co.uk), Annual Reviews (arjournals.annualreviews.org) i ERIC (ericae.net).
Projekt badania
Łatwo rozpoznać projekt, który ma szansę zyskać uznanie i środki finansowe. Niezależnie od tego, czy jest to nieformalny plan studenckiej pracy rocznej, „konspekt” pracy doktorskiej lub wielostronicowa propozycja skierowana do Komitetu
Badań Naukowych, dobry projekt jasno dowodzi, że autor jest świadom, czego
chce się dowiedzieć, dlaczego chce się tego dowiedzieć i jak chce się tego dowiedzieć. Rozwinięty projekt badawczy powinien odpowiadać przynajmniej na osiem
pytań.
• Do jakiego typu należy badanie? Czy jego cel jest praktyczny czy teoretyczny,
eksploracyjny czy weryfikacyjny? Niejeden badacz unika jasnej deklaracji, zapewniając, że jego badanie przyniesie korzyści zarówno teorii, jak i praktyce. Ale
badanie teoretyczne organizuje się inaczej niż praktyczne, toteż dążyć do obu
celów w jednym badaniu to, zgodnie z przysłowiem, dwie sroki za ogon chwytać.
Wprawdzie jest możliwe, że eksperyment weryfikujący twierdzenie teoretyczne
rzuci nieco światła na nową metodykę (np. nauczania języka niemieckiego) lub
że badanie oceniające nową metodykę podsunie pomysł uściślenia twierdzenia,
ale są to owoce uśmiechu losu – wpisać ich do projektu niepodobna.
• Jaka jest hipoteza (w badaniu weryfikacyjnym) lub pytanie (w badaniu eksploracyjnym lub praktycznym)? W stosowaniu tych terminów panuje wielki
zamęt. Niektórzy wszędzie mówią o hipotezie, nie bacząc, że ma ona sens tylko
wtedy, gdy jest wnioskiem z istniejącej teorii. Takiej teorii nie ma w badaniu
eksploracyjnym, toteż może je ukierunkować jedynie bardziej lub mniej otwarte pytanie. Nie można też mówić o hipotezie w badaniach praktycznych:
tym, co je ukierunkowuje, jest pytanie wyrastające z trudności praktycznej. Są
autorzy, którzy uważają, że każde badanie wymaga postawienia problemu, pytania i hipotezy. Stając przed niewykonalnym zdaniem, trzykrotnie powtarzają
tę samą myśl, tyle że innymi słowami.
• Na jakich obiektach będzie prowadzone badanie? Czy będą to osoby (np. uczniowie), grupy (np. oddziały klasowe), czy organizacje (np. szkoły)? Jak zostanie wyłoniona próbka tych obiektów? Jak będzie liczna?
• Jaki schemat badania zostanie zastosowany? Odpowiedź na to pytanie dostarcza czytelnikowi ogólnej orientacji, jak badacz zamierza skoordynować różnorodne czynności badawcze.
Projekt badania 19
• Jakimi metodami będą zbierane dane? W grę wchodzi, jak zobaczymy, wiele
różnych metod. Jedne służą zbieraniu danych jakościowych (obserwacja jakościowa i wywiad), inne – danych ilościowych (obserwacja ilościowa, testowanie,
ankieta itp.). Jakkolwiek łączenie w jednym badaniu metod ilościowych i jakościowych nie jest zakazane, wymaga to sporej biegłości metodologicznej, dlatego
początkujący badacz zrobi lepiej, decydując się na metody jednego rodzaju.
• Jakimi metodami będą analizowane dane? Metody analizy muszą być dostosowane do rodzaju danych: ilościowe wymagają metod statystycznych, jakościowe – analizy jakościowej (czasem wspieranej przez metody ilościowe).
Niektórzy powstrzymują się od wyboru metod analizy, sądząc, że na decyzję
będzie czas po zebraniu danych. Jest to nierozważne, może się bowiem okazać,
że zebraliśmy dane, których nie potrafimy zanalizować.
• Jaki jest harmonogram (podział badania na poszczególne zadania badawcze
i ich porządek w czasie) oraz kosztorys badania?
• W jakiej postaci zostaną ogłoszone wyniki badania: referatu, artykułu w czasopiśmie naukowym, książki?
Forma odpowiadania na te pytania jest równie ważna, jak treść. Już w pierwszym akapicie projektu należy zwięźle, lecz jasno, w języku zrozumiałym także dla
niespecjalisty, określić cel badania oraz sformułować hipotezę lub pytanie. Typowym błędem jest rozpoczynanie od szerokiego kontekstu badania, np. od uogólnień na temat współczesnej cywilizacji, transformacji ustrojowej, globalnych tendencji i sporów w nauce, ogólnych rozważań pojęciowych (np. czym jest, a czym
nie jest edukacja) lub gołosłownego krytykowania praktyki. Istota propozycji autora nie zostaje dostatecznie wyodrębniona lub ginie w dywagacjach.
Drugą częścią projektu powinien być selektywny przegląd literatury naukowej.
Autor wskazuje teorie, z których wywodzi się hipoteza, lub tradycje badawcze,
w których w przeszłości stawiano podobne pytania czy problemy. Przedstawia też
istotne dla swojego przedsięwzięcia badania empiryczne (zarówno ich wyniki, jak
i metody).
Trzeba pamiętać, że celem przeglądu nie jest pochwalenie się erudycją, lecz
uzasadnienie własnego zamierzenia badawczego. Badacz powinien wydobyć niezgodności przewidywań wyprowadzonych z różnych teorii, luki w zgromadzonej
wiedzy, sprzeczności między wynikami wcześniejszych badań, słabości stosowanych schematów i metod badania itp. – a wszystko po to, by wykazać, że projektowane badanie pomoże je usunąć. Jeśli badanie ma cel praktyczny, przegląd
literatury służy lepszemu scharakteryzowaniu samej trudności oraz ukazaniu dotychczasowych prób poradzenia sobie z nią.
Do typowych błędów tej części projektu należy, z jednej strony, pracowite
streszczanie raportów z wcześniejszych badań w kolejności ich ogłaszania, a z drugiej – ograniczenie się do wymienienia nazwisk badaczy (czasem w porządku alfabetycznym), którzy „zajmowali się tym zagadnieniem”. Innym błędem są erudycyjne eseje z dziesiątkami przypisów lub szczegółowe, a pozbawione bezpośredniego
związku z projektem analizy zalet i wad poszczególnych badań. Bywa wreszcie, że
badacz, nie dokonując przeglądu literatury, poprzestaje na stwierdzeniu, że po-
dobnych badań dotąd nie prowadzono. W większości przypadków znaczy to, że
albo kwerenda została przeprowadzona niedbale, albo sama hipoteza lub pytanie
badawcze są trywialne lub nierozstrzygalne.
Następna, techniczna część projektu powinna jasno ukazać, jak badacz zamierza zabrać się do dzieła. Utarło się zaczynać od opisu zbioru obiektów, które zostaną poddane badaniu, czyli próbki: jakie osoby (zbiorowości) wejdą w jej skład, jak
będzie dobrana i jak liczna. Następnie trzeba przedstawić schemat badania. Gdy
badanie ma charakter złożonego eksperymentu, trzeba opisać rodzaj oddziaływania eksperymentalnego, sposoby kontrolowania zmiennych ubocznych itp. Jeśli
badanie składa się z kilku etapów, trzeba wytłumaczyć, czemu każdy z nich służy.
W tej części przedstawia się też metody gromadzenia danych. Jeśli badacz zamierza posłużyć się znanymi i wypróbowanymi metodami, wystarczy wymienić
ich nazwy; w przeciwnym razie powinien przedstawić założenia swoich metod
oraz informacje o ich trafności i rzetelności. Jeśli zamierza stosować złożone
wskaźniki pojęć teoretycznych, powinien napisać, jak będą zbudowane. Opisując
metody analizy, powinien pamiętać, że niewiele jest pożytku z wyliczenia kilku
standardowych metod analizy statystycznej: to potrafi każdy, kto przejrzał spis
treści dowolnego podręcznika statystyki. Lepiej powiązać analizę z hipotezą lub
pytaniem, np.: „Hipoteza zostanie przyjęta, jeśli dwuczynnikowa analiza wariancji
ujawni istotny wpływ interakcji obu zmiennych niezależnych na zmienną zależną”.
Najczęstszą wadą tej części projektu jest ogólnikowość. Badacz informuje na
przykład, że w celu znalezienia odpowiedzi na postawione pytania przeprowadzi „szeroko zakrojone badania na uczniach ostatniej klasy szkoły podstawowej”
i określi, jakie są ich aspiracje oświatowe, inteligencja, warunki domowe itd. Jest
oczywiste, że na podstawie podobnych informacji nie sposób wyrobić sobie opinii
o poprawności projektu, toteż trudno się dziwić, że ma on małą szansę na przyjęcie.
W zakończeniu projektu warto w kilku zdaniach wyeksponować nowatorstwo
badania, podnieść kwestię teoretycznej lub praktycznej użyteczności wyników,
które ono przyniesie, a także zadeklarować gotowość upowszechnienia wyników
(np. w postaci artykułu w prestiżowym czasopiśmie lub referatu na ważnej konferencji). Warto też przekonać recenzentów, że badacz ma dostateczne kwalifikacje
do przeprowadzenia badania (np. że w przeszłości uczestniczył w badaniu zbliżonych zagadnień, ma dostęp do terenu badania, potrafi posłużyć się zaawansowanymi metodami analizy danych). Do projektu należy dodać harmonogram prac
i kosztorys badania w formie wymaganej przez potencjalnego sponsora.
Przejrzystość projektu to zaleta, którą trudno przecenić: niejeden wartościowy
pomysł nie doczekał się realizacji, ponieważ recenzent przeoczył kluczowe informacje lub nie w pełni uchwycił pomysł autora. Ale przejrzystość nie zastąpi metodologicznej spójności. Projekt jest spójny, jeśli wszystkie jego elementy pasują do
siebie. By się o tym upewnić, trzeba sobie odpowiedzieć na kilka podstawowych
pytań:
• Czy hipoteza jest falsyfikowalna? Falsyfikowalność nie ma nic wspólnego z fałszywością. Hipoteza jest falsyfikowalna, jeśli można sobie wyobrazić wynik badania, który świadczyłby przeciw niej.
Projekt badania 21
• C
zy hipoteza jest sprawdzalna, tj. czy istnieje techniczna możliwość jej sprawdzenia? Hipoteza: „Życie w ustroju demokratycznym zwiększa w ludziach poczucie
odpowiedzialności za własny los” wymagałaby eksperymentowania na całych narodach i dlatego należy do sfery science fiction. Trzeba też zapytać, czy środkami
naukowymi można w ogóle odpowiedzieć na pytanie badawcze. Na pytanie „Jak
reforma edukacji wpłynie na przygotowanie do życia młodego pokolenia Polaków?” żadne badania nie przyniosą odpowiedzi, bo rzecz dotyczy przyszłości.
• Jeśli hipoteza lub pytanie nie mają powyższej wady, trzeba się upewnić, że
przyjęto właściwy schemat badania. Nagminnym błędem jest planowanie
schematu przeglądowego do zagadnień, które mógłby rozstrzygnąć jedynie
eksperyment. Najłatwiej je rozpoznać po tym, że zawierają słowo „wpływ”,
jak w hipotezie: „Obcowanie ze sztuką wpływa na rozwój osobowości dziecka”. Jeśli badacz zamierza ją sprawdzić przez zestawienie wyników inwentarza
osobowości z odpowiedziami na pytania o formy uczestnictwa w kulturze, to
w najlepszym wypadku może wykazać, że pewien sposób wypełnienia kwestionariusza współwystępuje z pewną cechą osobowości, nigdy jednak – że pewne
doświadczenie wpływa na tę cechę. Innym błędem, ostatnio coraz częstszym,
jest dobieranie badania w schemacie indywidualizującym do zagadnienia, które wymaga uogólnienia. W dalszych rozdziałach tej książki czytelnik znajdzie
obszerny przegląd typowych schematów badania wraz z informacją, do jakich
celów można je stosować, a do jakich nie.
• Czy próbka odpowiada hipotezie lub pytaniu co do zakresu, liczebności i losowości? Jeśli pytanie ma postać ogólną (np. „Czy osiągnięcia uczniów szkół
wiejskich są niższe niż osiągnięcia uczniów szkół miejskich?”), to jest jasne, że
ograniczenie próbki do uczniów z dwóch sąsiadujących ze sobą gmin czy nawet województw nie dostarczy na nie odpowiedzi. Trzeba się też upewnić, czy
w próbce można będzie użyć wybranej metody zbierania danych (np. wśród
pierwszoklasistów nie można planować pomiaru socjometrycznego).
• Czy przyjęte metody zbierania danych i wskaźniki pojęć teoretycznych są dopasowane do hipotezy lub pytania? Z jaskrawym przykładem niedopasowania
mamy do czynienia wtedy, gdy złożone zjawiska psychologiczne chce się mierzyć za pomocą ankiety lub poznawać styl dydaktyczny nauczyciela za pomocą
wywiadu z dyrektorem szkoły.
• Czy metody analizy danych są dostosowane do rodzaju danych? Błędem jest
zarówno planowanie metod zbyt mocnych (np. współczynników korelacji
Pearsona do danych w skali porządkowej), jak i zbyt słabych (np. rozkładów
procentowych lub tablic liczebności do danych, które pozwalają na wieloczynnikową analizę wariancji).
• Czy korzyści z przeprowadzenia badania usprawiedliwiają jego koszty? Trzeba
pamiętać, że badanie wymaga publicznych pieniędzy, a także prywatnego czasu i wysiłku badacza oraz współpracujących z nim osób (np. nauczycieli lub
rodziców). Jeśli wyniki badania miałyby dostarczyć potwierdzenia rzeczy powszechnie znanych lub pozornych (bo niewykonalnych) zaleceń dla praktyki,
lepiej byłoby przeznaczyć środki na bardziej pożyteczną działalność.
Rozwinięty projekt badawczy powinien być zawsze przedyskutowany w gronie kolegów badacza, nie ma bowiem takiego głupstwa, do którego nie doszedłby
człowiek długo rozmyślający nad czymś w samotności. W wielu organizacjach naukowych istnieje obyczaj recenzowania projektów badawczych. Wszelkie zastrzeżenie recenzentów – nawet te, które wydają się badaczowi napastliwe i nieuzasadnione – trzeba wziąć sobie do serca, by nie odkryć poniewczasie, że było w nich
racjonalne jądro. Zdarza się, że tym, co powstrzymuje badacza przed wydaniem
swojego projektu na publiczną krytykę, jest obawa, czy nie zostaną naruszone jego
prawa autorskie. Nie od rzeczy będzie więc przypomnieć, że kradzież pomysłu jest
nie mniej odrażająca niż kradzież gotowego wytworu.
Moralne aspekty badania
Podejmując badanie, badacz zaciąga zobowiązanie moralne wobec badanych i wobec wspólnoty naukowej. Pierwszych zobowiązuje się nie skrzywdzić, drugich –
nie wprowadzić w błąd. Badacz może skrzywdzić badanych na wiele sposobów.
Po pierwsze, gdy pozwala, by informacje, które zebrał, zostały użyte przeciw nim.
Z własnej inicjatywy badacz rzadko powiadamia nauczyciela o wybrykach ucznia
na ulicy lub mówi dyrektorowi szkoły, jak często nauczyciel spóźniał się na lekcje.
Zdarza się jednak, że wskutek jego niedbalstwa istotne informacje o badanych docierają do niepożądanych uszu.
Powiedzmy wyraźnie: badacza obowiązuje dochowanie tajemnicy. Nie może
on nikomu udostępnić danych w formie umożliwiającej identyfikację badanej
osoby, grupy czy organizacji. Szczególnie naganne jest uleganie naciskom sponsora badania, który chciałby się dowiedzieć, kto wygłosił tę czy inną krytyczną
uwagę, uzyskał niski wynik w teście itp. Dobrym zwyczajem jest niszczenie danych osobowych (nazwisk, adresów itp.) zaraz po zebraniu wszystkich informacji.
W doniesieniu naukowym nazwy własne (nazwiska badanych, nazwy organizacji,
a nawet nazwy mniejszych miejscowości) muszą być zmienione lub zastąpione
pseudonimami.
Po drugie, badacz krzywdzi badanych, gdy przyczynia się do tego, że dostają
usługi gorszej jakości. Prowadząc eksperyment, badacz może podwyższyć poziom
nauczania w pewnych oddziałach klasowych, ale nie wolno mu go obniżyć. Może
wywoływać efekt Galatei (tj. bezpodstawnie informować nauczyciela o dużych
możliwościach rozwojowych ucznia), ale wywoływanie efektu Golema (tj. przekonywanie nauczyciela, że uczeń źle rokuje) jest niemoralne.
Po trzecie, badacz nie może narażać badanych na szkody psychiczne. Taką
szkodą jest trwałe obniżenie samooceny, obniżenie odporności na pokusy lub
ogólniej: rozluźnienie hamulców moralnych, narażenie na silne, negatywne przeżycia (np. upokorzenie, wstyd), podważenie światopoglądu lub lojalności wobec
grupy itp. Dlatego badaczowi wolno stosować tylko takie oddziaływania eksperymentalne, które mogłyby samorzutnie pojawić się w codziennym życiu badanych.
Po czwarte wreszcie, badacz nie powinien traktować badanych przedmiotowo. Prowadzenie badania jest rodzajem interakcji społecznej, a każda interakcja
Moralne aspekty badania 23
wymaga obopólnego zaufania. Jeśli badacz z góry zakłada, że będzie oszukiwał
i wykorzystywał badanych do własnych celów, to choćby nawet badani mieli się
o tym nigdy nie dowiedzieć, nadużywa ich zaufania. Dlatego ilekroć badanie wymaga wprowadzenia badanych w błąd (np. co do natury zadania, które mają wykonać, albo reakcji ze strony innych uczestników), trzeba po zakończeniu badań
sprostować fałszywe informacje, usprawiedliwić je i przeprosić tych, którzy czują
się dotknięci.
Niezbędne jest uświadomienie badanemu, że tylko od niego zależy, czy weźmie
udział w badaniu, i że w każdej chwili może się z niego wycofać. W USA badani
podpisują formalne oświadczenie, że godzą się na przedstawione im warunki badania i wykorzystania danych oraz zobowiązują się zachować w tajemnicy wszystko,
czego dowiedziały się o innych osobach w trakcie badania. Bez takiego kontraktu
badanie jest nielegalne. Gdy badanym jest dziecko, decyzja przysługuje jego rodzicom. Trzeba poinformować rodziców, że ich dziecko zostało wybrane do badania,
i prosić o zgodę. Używanie instytucjonalnego przymusu jest niedopuszczalne. Poszanowanie prawa wyboru wymaga, by badany został poinformowany o celu badania, choć trzeba pamiętać, że zbytnia szczerość często przekreśla wartość wyników.
Wiele wskazuje na to, że beztroskie wystawianie badanych na ryzyko w myśl
zasady, że cel uświęca środki, należy już do przeszłości. Coraz częściej powołuje się
komisje etyczne, bez których zgody nie można rozpocząć badania, i opracowuje
kodeksy etyczne (np. Kodeks etyczno-zawodowy psychologa, 1992). Mniej uwagi
poświęca się natomiast obowiązkom badacza wobec wspólnoty naukowej.
Badacz narusza swoje zobowiązanie wobec kolegów po pierwsze wtedy, gdy
fałszuje dane lub naciąga wnioski. Wymyślanie danych przy biurku zdarza się na
szczęście bardzo rzadko. Mniej jaskrawe, ale nie mniej szkodliwe są nadużycia
w fazie analizy danych. Badacz może wyłączyć z analizy obiekty zachowujące się
niezgodnie z hipotezą, zawyżyć liczebność próbki, ukryć niewygodne fakty (np.
świadectwa nierzetelności pomiarów lub nietrwałości rezultatu oddziaływania),
formułować wnioski, które nie mają pokrycia w wynikach analizy itp. W celu zapewnienia wspólnocie naukowej kontroli nad procesem badawczym badacz ma
obowiązek przechowywać protokoły pomiarów przez kilka lat od chwili opublikowania badania i udostępniać je polemistom na żądanie.
Po drugie, badacz występuje przeciw społeczności uczonych, gdy przywłaszcza
sobie cudze osiągnięcia lub je przemilcza. Mam na myśli nie tylko zwykły plagiat,
ale i niezamieszczenie informacji, że hipoteza została wcześniej wysunięta przez
kogoś innego, że podobna metoda pomiaru była już stosowana itp. Ignorowanie
w tekście doniesienia naukowego prac pewnych badaczy wskutek animozji między
ośrodkami naukowymi jest niemoralne, a także świadczy o zaściankowości autora.
Po trzecie, badacz nie powinien publikować tekstów poznawczo i praktycznie
jałowych. Badacz, który z rozmysłem rozdziela wątłe odkrycie na jeszcze wątlejsze
fragmenty i publikuje je jako osobne artykuły, nadużywa zaufania innych członków wspólnoty naukowej. Czytelnik, który przystępuje do lektury z nadzieją, że
dowie się czegoś nowego, spostrzega poniewczasie, że zmarnował czas. Co gorsza,
duża liczba takich pozornych doniesień tworzy szum informacyjny, który utrud-
nia wyłowienie wartościowych artykułów. Dlatego goniący za liczbą publikacji
sprzeniewierzają się etyce zawodowej.
Techniczne aspekty badania
Do badania trzeba się przygotować. Przy większych projektach należy przede
wszystkim dokonać podziału pracy i obsadzić poszczególne zadania. Warto też
zadbać o właściwą organizację dokumentacji. W badaniach na dużych próbkach
sterta papierów rośnie szybko. By się w nich nie zgubić, trzeba każdemu obiektowi
nadać niepowtarzalny identyfikator (najlepiej numer) i stosować go we wszystkich zestawieniach. Wszystkie protokoły, kwestionariusze itp. powinny być dobrze
oznaczone i przechowywane w z góry ustalonych miejscach (np. w oznaczonych
szufladach). Przy zakładaniu komputerowych plików danych nie należy improwizować, lecz posługiwać się wcześniej ustalonym systemem nazw, by później nie
zastanawiać się, co też może zawierać plik o nazwie „ZAD1.DAT” lub gdzie może
być potrzebny fragment danych.
By się przekonać, jak dobrze jesteśmy przygotowani do stojących przed nami
zadań, warto przeprowadzić próbę kostiumową, czyli badanie pilotażowe – zminiaturyzowaną wersję właściwego badania lub jego wybranych etapów. Celem badania pilotażowego jest sprawdzenie, czy:
• jest możliwe zebranie zaplanowanych danych (np. czy obserwator może usłyszeć, co się mówi w badanym zespole, czy zapis magnetofonowy jest czytelny,
stopa zwrotów ankiety pocztowej wystarczająca),
• oddziaływania eksperymentalne są skuteczne, a zaplanowane pomiary trafne
w badanej populacji,
• instrukcje stosowane w pomiarach grupowych są jednoznaczne i zrozumiałe,
• zadania stawiane badanym nie są zbyt męczące i czy z tego powodu nie są wykonywane niedbale,
• na wyniki nie mają wpływu uboczne okoliczności badania (np. miejsce badania lub częste w badaniach oświatowych informowanie się badanych o tym,
czego się od nich wymaga).
Prowadząc zaplanowane czynności, uzupełniamy je obserwacją i wywiadami
z badanymi, by się dowiedzieć, jak pojmowali cel badania i swoją w nim rolę, i co
czuli podczas badania (zwłaszcza co ich irytowało lub rozpraszało). Badanie pilotażowe często podpowiada, co zmienić w projekcie: zastąpić pomiar grupowy indywidualnym lub odwrotnie, podzielić jedną długą sesję na dwie krótsze, zmienić
kolejność pomiarów, przenieść badanie w inne miejsce (np. ze szkolnego ambulatorium do harcówki) itd.
Rozdział 2
BADANIA ILOŚCIOWE I JAKOŚCIOWE
O podziale na badania ilościowe i jakościowe napisano tomy. Wielu autorów zakłada, że jest to podział podstawowy, definiujący dwa zwalczające się obozy, i że
każdy badacz musi podjąć osobistą decyzję, do którego z nich się przyłączyć. Na
czym polega ten podział? Niestety, pisze się o tym językiem raczej ideologii niż logiki, a sądy formułuje w tak skrajny sposób, że często powstaje wrażenie, jakby cechą rozpoznawczą obozu jakościowego było to, że w ogóle odrzuca on etos nauki.
Stosunek do teorii. Powiada się, że badania jakościowe nie rozpoczynają się
od teorii, lecz od danych. Idzie o to, by badany obiekt mógł sam się wypowiedzieć (np. by ludzie mogli powiedzieć, jak spostrzegają i odczuwają swoją sytuację). „Badacz jakościowy” szuka sensu zachowań, który jest konstruowany przez
uczestnika w ramach pewnego kontekstu (np. instytucjonalnego), chce zobrazować złożone wzorce studiowanego obiektu i udostępnić je komuś, kto ich nie doświadczył. Natomiast „badacz ilościowy” już w punkcie wyjścia przyjmuje teorię
i korespondującą z nią metodę, narzuca obiektom własne pojęcia, rejestruje fakty
społeczne wyprane z subiektywnych sensów i wyjaśnia zaobserwowane zjawiska
jako konkretyzacje (przypadki) ogólnego prawa.
Stosunek do obiektywizmu. Powiada się, że w badaniach jakościowych badacz
nie ucieka od własnych wrażeń, uczuć i wartości, lecz wprost przyznaje, że badanie to ciąg jego osobistych wyborów. W szczególności pozwala, by jego wartości
(np. feminizm) wchodziły w interakcję z wartościami badanego terenu, a on sam
w osobiste interakcję z osobami badanymi (Wyka, 1990). Niektórzy pod wpływem
postmodernizmu mówią wprost, że nauka to przedsięwzięcie retoryczne, a kult
bezstronności badawczej to tylko nieudolna próba zamaskowania tej prawdy. Wytworem badania mają być symulakra (kopie niemające oryginałów) pozbawione
epistemologicznego oparcia. Natomiast „badacz ilościowy” ucieka w mechaniczną procedurę, by zabezpieczyć swoje wnioski przed wpływem własnych wartości
i wartości badanych osób.
Te dwie cechy właściwie eliminowałyby badania jakościowe z rodziny badań
naukowych. Według takich wskazówek może powstać reportaż (subiektywna narracja dziennikarza o losach i przeżyciach innych ludzi). Reportaż może być ciekawy i dawać do myślenia, ale trudno go nazwać doniesieniem naukowym. Na
szczęście istnieją bardziej zrównoważone ujęcia.
26 Rozdział 2. Badania ilościowe i jakościowe
Liczby i teksty
Najbardziej uchwytna różnica między badaniem ilościowym a jakościowym tkwi
w rodzaju surowych danych, które badacz gromadzi. W badaniu ilościowym dane
mają postać liczb (np. zbiór ilorazów inteligencji). W badaniu jakościowym dane
mają postać tekstu (np. korespondencja, pamiętnik, pełny zapis wywiadu, szczegółowy opis epizodu interakcyjnego). Stąd bierze się różnica w metodach analizy:
zbiory liczb można analizować metodami statystycznymi, zbiory tekstów wymagają innych zabiegów.
Różnica między liczbą a tekstem może się komuś wydać powierzchowna. Teksty można zamieniać na liczby, czyli poddawać kwantyfikacji: np. obliczyć częstość
względną określonych słów i fraz w wypowiedziach badanej osoby lub częstość
określonych interakcji podczas lekcji. W klasycznym badaniu wpływu, jaki wywiera społeczna aprobata dla indywidualnych osiągnięć na rozwój gospodarczy
kraju, McClelland (1961) przekształcił teksty czytanek szkolnych i innych książek
dla dzieci w ilościową miarę obecności motywu osiągnięć w kulturze, zagregował
ją dla każdego z badanych krajów, po czym zastosował statystyczną metodę analizy regresji, by wykazać, że im częściej dzieci danego kraju stykały się z motywem
osiągnięć, tym więcej energii produkował ten kraj w następnym dwudziestopięcioleciu. Podobnie, choć z większym trudem, można zamieniać liczby na tekst:
np. wyobrażać sobie, co myśleli w pewnej sytuacji badani mający wysokie wyniki
w skali autorytaryzmu.
A jednak różnica między danymi liczbowymi i tekstowymi pozostaje w mocy.
Sens liczby pochodzi z narzędzia, które zastosowaliśmy w pomiarze. Sens tekstu pochodzi z sytuacji, w której tekst został wytworzony i zarejestrowany. Gdy
zbieramy dane liczbowe, chcąc nie chcąc przyjmujemy wszystkie założenia leżące
u podstaw metody zbierania danych. Gdy zbieramy teksty, założenia co do warunków ich sensowności ograniczamy do minimum. Znaczenie tekstu jest bowiem
pochodną wielu okoliczności towarzyszących badaniu. W przypadku wywiadu na
te okoliczności składają się: kto pyta (np. kobieta czy mężczyzna?), o co (o sprawy
osobiste czy o ogólne poglądy?), jak (czy badacz przejawia pewność siebie, czy
skrępowanie?), kogo (czy badany czuje się jak uczeń na egzaminie, czy raczej jak
informator, który przekazuje badaczowi wartościowe wiadomości), jakie wrażenie
badany chce wywołać na badaczu (zaimponować mu, zwieść, zbyć?), gdzie odbywa się rozmowa (w miejscu pracy, w domu, w kawiarni) itd.
To samo dotyczy interakcji między ludźmi. Dość wspomnieć, z jak różnymi intencjami uczniowie zgłaszają się w klasie do odpowiedzi: jedni chcą zrobić przyjemność nauczycielce, inni – odciągnąć jej uwagę od kolegi, jeszcze inni – zaimponować
rówieśnikom. Kto by chciał po prostu zsumować akty zgłaszania się do odpowiedzi
i traktować ten agregat jako wskaźnik aktywności klasy, musiałby w punkcie startu
zignorować te odmienności, uznać – wbrew oczywistości – że wszystkie akty są
nierozróżnialną manifestacją aktywności w ogóle. Skutkiem zakorzenienia danych
jakościowych w kontekście jest więc to, że nie można ich zliczać, tj. reprezentować
zbiorowości za pomocą sum, średnich czy innych agregatów.
Zainteresowanie kontekstem 27
Najłatwiej agregować liczby. Jeśli na przykład zmierzymy wzrost pewnego
rocznika dzieci za pomocą miarki centymetrowej, to jest jasne, że możemy obliczyć, ile dzieci w próbce miało 130 cm, 131 cm itd., a ponadto znaleźć statystyki
rozkładu (średnią, odchylenie standardowe itp.). Zliczać można także dane nieliczbowe, jeśli są traktowane w sposób ilościowy. Załóżmy, że za pomocą wywiadu
zbieramy dane o sposobach przeżywania własnej płci. Dane o płci biologicznej
(wywnioskowane przez badacza na podstawie wyglądu osoby badanej) można
zliczać (np. powiedzieć: „przeprowadzono wywiady z 10 kobietami i 5 mężczyznami”). Wynik zliczania informuje o badanej zbiorowości i pozwala ją porównać
z inną zbiorowością.
Ale odpowiedzi badanych na pytanie: „Jak pani przeżywa fakt, że jest pani
kobietą?” nie da się w ten sposób zliczyć. Każda wypowiedź jest jedyna w swoim rodzaju (gdyby zdarzyły się dwie identyczne, bylibyśmy pewni, że to pomyłka
osoby prowadzącej wywiady). Można je oczywiście zredukować do pojedynczych
znaczeń, np.: „jest dumna, że jest kobietą”, „żałuje, że jest kobietą” i „ma mieszane
uczucia”. Teraz dane stają się ilościowe, ponieważ można je zliczać (np. powiedzieć: „6 kobiet i 4 mężczyzn wyraziło dumę z faktu należenia do własnej płci”).
Ale oczywiście nie są to już te same dane. Mnóstwo wątków utracono, a ogólne znaczenie narzucono; można to podejrzewać zwłaszcza wtedy, gdy kategoria
„mieszane uczucia” jest liczebnie duża.
A teraz wyobraźmy sobie, że budujemy psychologiczną skalę akceptacji własnej
płci. Kwestionariusz jest zbiorem pytań, a więc daje zbiór odpowiedzi, który łącznie moglibyśmy nazwać wypowiedzią. Tym razem istnieje jednak gotowa metoda
zliczania. Każda wypowiedź jest z góry zaliczona do jednego ze stopni akceptacji
własnej płci (na podstawie liczby odpowiedzi uznanych za diagnostyczne). Można
łatwo policzyć, ile wypowiedzi zawiera jedną odpowiedź diagnostyczną, ile dwie itd.
Takie zestawienie charakteryzuje daną zbiorowość i pozwala ją porównać z inną.
Wniosek z tego taki: dane uznaje się za jakościowe, gdy nie istnieje gotowy
schemat klasyfikacji przypadków. Taki schemat tworzy się „od dołu”, szukając podobieństw i różnic między wypowiedziami (jeśli dwie wypowiedzi są pod jakimś
względem podobne do siebie, np. powołują się na postaci wielkich ludzi z własnej
płci, i różne od trzeciej, to ten wzgląd jest kandydatem na kategorię w klasyfikacji).
Tworzenie schematu klasyfikacji wymaga namysłu nad znaczeniem poszczególnych składników wypowiedzi, dlatego utarło się łączyć dane jakościowe ze znaczeniem, a dane ilościowe ze składem (strukturą). Nie jest jednak tak, iżby dane
ilościowe nie wymagały namysłu nad ich znaczeniem. Ten namysł przeprowadzono podczas konstruowania narzędzia pomiaru: to wtedy ustalono znaczenia odpowiedzi na poszczególne pytania.
Zainteresowanie kontekstem
Z faktu, że kontakt badacza z empirią polega na zbieraniu tekstów, wynika wzmożone zainteresowanie kontekstem. Mówiąc o kontekście, mam na myśli wszystkie
okoliczności towarzyszące wytwarzaniu danego tekstu: zarówno językowe (np. to,
co badany i badacz mówili przed i po głównej wypowiedzi), jak i parajęzykowe
(np. mimika, gestykulacja) i pozajęzykowe (związane z całą sytuacją, w której badacz kontaktuje się z badanym). W badaniu ilościowym kontekst jest zawadą, toteż idzie o to, by go zneutralizować.
Wskutek zainteresowania kontekstem badanie jakościowe przebiega w miejscach mających dla badanego ustalony sens (np. w izbie szkolnej, a nie w laboratorium), badanych wybiera się z pewną myślą (a nie losuje z populacji), a ich zbiór
rozszerza lub zwęża w trakcie badania. Inny jest też przebieg badania. W badaniach
ilościowych najpierw planuje się oddziaływania i pomiary, potem rygorystycznie
wykonuje ten plan w odniesieniu do wszystkich obiektów próbki, a na końcu analizuje zebrane dane. Odpowiada temu typowy podział pracy w zespole badawczym:
kierownik zespołu planuje badanie i interpretuje wyniki, podwładni zbierają i przetwarzają dane. Trudno o lepszy dowód pomijania kontekstu: pierwotny kontakt
z empirią zapewnia tu osoba, która trzyma się takiej samej instrukcji w odniesieniu
do wszystkich obiektów, ale nie wie, po co zbiera dane i dlaczego właśnie te.
W badaniu jakościowym osoby zbierające dane są wprowadzone we wszystkie tajniki programu badawczego i wolno im modyfikować plan zbierania danych
w miarę postępów pracy. Zaczynając od ogólnego pytania, np.: „Jak nauczyciele
radzą sobie ze stresem zawodowym?”, badacz najpierw gruntownie zaznajamia się
ze szkołą, obserwuje nauczycieli i rozmawia z nimi, potem może skupić uwagę na
zachowaniach i punktach widzenia tylko kilkorga z nich, i to w wybranych sytuacjach, by ponownie rozszerzyć ją na członków rodzin wybranych nauczycieli itd.
Nie czeka też z przetwarzaniem informacji, aż zbierze wszystkie dane, lecz nieustannie analizuje narastającą masę tekstów. Szukając w nich odpowiedzi na początkowe pytanie, dopuszcza możliwość, że jego dane lepiej odpowiadają na inne,
inaczej postawione pytanie. Wskutek takiego przeformułowywania pytania końcowy rezultat badania często odbiega, i to znacznie, od początkowego zamiaru.
Jak widać, w badaniu jakościowym badacz nie tyle odżegnuje się od teorii, ile
nie pozwala, by uprzednia teoria odcięła go od całości badanego obiektu, zmusiła
obiekt, by mówił tylko „tak” i „nie” w odpowiedzi na ścisłe pytania. Obiekt nie
jest jednym z przypadków, które mają potwierdzić jakiś porządek poza nim; to
w samym obiekcie jest porządek, który czeka na odkrycie. Nie ma więc liniowej
sekwencji: teoria – hipoteza – metoda – wynik, lecz jest kołowość: pytanie prowadzi do danych, dane – do innego pytania itd. Badacz nieustannie przepatruje całe
swoje przedsięwzięcie oraz każdy jego etap w świetle poprzednich etapów i podejmuje decyzje metodologiczne, jak postępować w następnym etapie. Zawsze pyta,
w jakim stopniu użyte dotąd metody, kategorie i teorie pasują do obiektu. Teoria
jest więc końcem, a nie początkiem badania. Taką teorię Glaser i Strauss (1967)
nazywają ugruntowaną (grounded).
Związek z kontekstem widać też w formie doniesienia badawczego. Trzonem
doniesienia z badania ilościowego są zestawienia wysoce przetworzonych liczb
w formie współczynników, tabel i wykresów. Doniesienie z badania jakościowego
jest natomiast szczegółową narracją o myślach i czynach badanych osób czy grup.
Badacz nie ukrywa się za bezosobowym językiem, lecz otwarcie mówi o swoich
Zainteresowanie kontekstem 29
próbach nawiązania kontaktu z badanymi, szczęśliwych i nieszczęśliwych pomysłach interpretacyjnych, wrażeniach i ocenach.
Kryzys reprezentacji
Powiedzieliśmy, że badanie jakościowe polega na zbieraniu tekstów i przekształcaniu ich w inne teksty (zwłaszcza w tekst końcowego doniesienia). Ale tekst to nie
fakt, lecz relacja – zawsze czyjaś. Trudno więc twierdzić, że zbierając i przetwarzając teksty, dotykamy rzeczywistości. Badacz, np. etnograf, nie chwyta żywego doświadczenia, on je tworzy w tekście swojego doniesienia. Czy to nie kompromituje
badań jakościowych, nie odbiera im znamienia naukowości?
Trudność ta prowadzi do ataku na pojęcie rzeczywistości jako czegoś, co istnieje poza subiektywnymi, podzielanymi społecznie punktami widzenia. Nie ma
takiej rzeczywistości – powiada się – są tylko ludzkie spojrzenia i ludzkie relacje.
Trzeba badać, co ludzie mają za rzeczywiste, w czym się wyrażają te mniemania,
jak na nie wpływa fakt, że są obserwowani, co sam obserwator uważa za rzeczywiste i od czego to zależy. Badacz nie bada zatem świata, lecz jedynie tworzy własną
wersję świata, jedną z wielu (może tylko bardziej sformalizowaną i abstrakcyjną),
opartą na innych wersjach, z którymi zapoznał się w terenie.
Ten pogląd uzasadnia się wszechobecnością mimesis: przekształcania tego, co
naturalne, w to, co symboliczne. Mimesis to warunek wszelkiego zrozumienia.
Najpierw badany przekształca własne doświadczenie w tekst, potem badacz przekształca te teksty w jakiś supertekst, czyli teorię, która na końcu tego cyklu wraca
w świat doświadczenia. W żadnym punkcie podmiot nie kontaktuje się z gołą rzeczywistością, już bowiem samo doświadczenie jest nasycone przedrozumieniem
(np. co do tego, czym różni się oddziaływanie w świecie ludzi od oddziaływania
w świecie rzeczy). Bruner (1990) wyraża to prosto: żyć to opowiadać samemu sobie życie. Narracja imituje życie, życie imituje narrację.
Jeśli tak, to zamiast spierać się o istnienie obiektywnej rzeczywistości, trzeba
zapytać, czy jest jakiś powód tworzenia tekstu z tekstów? Odpowiedź jest prosta:
nowe teksty tworzy się po to, by doświadczyć świata w nowy sposób. Każda teoria
jest tymczasową i względną wersją świata. Gdy powstanie, daje badaczowi i czytelnikom jego doniesienia nową perspektywę, z której mogą patrzeć na swój świat.
Stąd wynika naczelne kryterium wartości badania jakościowego: musi przynosić
wyniki, które zaskakują, problematyzują oczywistości, burzą stereotypy, otwierają nowe perspektywy. Dzięki dobremu badaniu badacz nie tylko dowiaduje się
czegoś, ale mądrzeje, tzn. ujawnia i rewiduje przedrozumienie, z którym przystępował do pracy. Lyotard (1984) powiada: celem nauki nie jest utrzymanie odpowiedniości z rzeczywistością, lecz odkrywanie różnic i sprzeczności w naszych
wersjach świata.
Teoria mimesis jest dominującą próbą uprawomocnienia badań jakościowych.
Natomiast ukierunkowują je, tj. określają ich przedmiot i metody, pewne paradygmaty teoretyczne. Najczęściej wymienia się trzy:
• symboliczny interakcjonizm: program badania subiektywnych znaczeń,
• etnometodologia: program badania interakcji ludzkich,
• paradygmat modeli kulturowych („obiektywna hermeneutyka”): program badania głębokich struktur tekstu.
Wielu metodologów uważa te paradygmaty raczej za uzupełniające się niż konkurencyjne (Flick, 1998). W konkretnym badaniu można je łączyć i w ten sposób
głębiej wnikać w świat tekstów (rys. 2.1).
Badanie osoby B
i jej punktu widzenia
◀
◀
Analiza interakcji
i dyskursu
◀
Badanie osoby A
◀
i jej punktu widzenia
◀
Badanie kulturowych ram praktyki
Rysunek 2.1. Paradygmaty badawcze w badaniach jakościowych. Źródło: Flick (1998, s. 25)
Wiarygodność
Wielkim problemem badania jakościowego jest wiarygodność jego wyników. Badanie ilościowe wykorzystuje narzędzia o ustalonej rzetelności i trafności, a osoba
zbierająca dane nie może nieświadomie ukierunkowywać zachowania badanych,
ponieważ nie zna założeń badania, a zwłaszcza hipotezy, którą ma ono sprawdzić.
Także analiza danych, prowadzona standardowymi technikami statystycznymi,
a często skomputeryzowana, znacznie ogranicza możliwość stronniczych ingerencji w układ wyników. Wiarygodność jest tu więc produktem automatyzacji procedury badawczej. Dzięki automatyzacji osoba badacza: jego poglądy, pragnienia,
styl porozumiewania się z ludźmi itp. zostaje oddzielona od danych.
W badaniu jakościowym automatyzacja jest wykluczona. Badacz angażuje się
w badaną rzeczywistość, co znaczy, że może świadomie lub nieświadomie narzucać badanym swój punkt widzenia. Gdy analizuje zbiór tekstów, czyni to zawsze
z pewną myślą, a to znaczy – selektywnie. Luźna kompozycja doniesienia naukowego sprzyja eksponowaniu tekstów (np. cytatów, opisów interakcji) uderzająco
zgodnych z proponowanym rozumieniem badanego zjawiska i pomniejszaniu
wagi lub wręcz pomijaniu tekstów niezgodnych. Czytelnik doniesienia może być
pewny, że to, o czym czyta, rzeczywiście się zdarzyło, nie wie jednak, co działo się
ponadto, a nie mając kontaktu z całym materiałem, nie może kontrolować poprawności wniosków, jakie mu badacz podsuwa.
Rzetelność i trafność
Trudność tę dobrze rozumieją niektórzy zwolennicy badań jakościowych i by jej
zaradzić, wprowadzają odpowiedniki pojęć używanych do oceny wiarygodności
badań ilościowych. Najdalej poszli tą drogą Kirk i Miller (1986) w książce pod
znamiennym tytułem Rzetelność i trafność w badaniach jakościowych1. Mówiąc
1
Jak zobaczymy, rzetelność i trafność to nierozłączna para bohaterów każdego doniesienia z badań ilościowych.
Wiarygodność 31
o rzetelności, rozważają kilka jej rodzajów. Wymaganie stałości wyników uzyskiwanych tą samą metodą nazywają rzetelnością nierealistyczną (quixotic), jeśli bowiem dostajemy ciągle taki sam obraz, powinniśmy raczej podejrzewać badacza
o zamierzoną stronniczość. Wymaganie stałości wyników w czasie to rzetelność
diachroniczna – też wątpliwa, bo rzeczywistość nie jest niezmienna. Wymaganie
zbieżności wyników uzyskanych różnymi metodami, który nazywają rzetelnością
synchroniczną, pokrywa się z triangulacją, o której za chwilę. We wszystkich tych
przypadkach rzetelność łączy się z odtwarzalnością wyniku, co jest właściwe raczej
potocznej niż naukowej odmianie tego pojęcia.
Z pewnością natomiast rzetelność jest sprawą redukcji przypadkowości we wszystkich etapach badania. Służą temu standaryzacja procedury i szkolenie osób mających
prowadzić wywiady lub obserwacje. Przyjmuje się jednolitą formę notatek terenowych (zwłaszcza gdy badanie prowadzi kilka osób). Regularnie przegląda się protokoły z wywiadu lub obserwacji, by zapobiec bezwiednym zmianom stylu pytań lub
formy rejestracji. W fazie analizy i interpretacji sprawdza się wyłaniające się kategorie
na innych fragmentach tekstu lub innych tekstach. Zawsze zachowuje się wyraźną
granicę między tym, co zostało powiedziane lub zaobserwowane w terenie, a tym, co
badacz z tego wywnioskował. Wreszcie wymaga się, by całe postępowanie było dokumentowane w dzienniku terenowym. Trafność Kirk i Miller (1986) sprowadzają do
pytania, czy badacz widzi to, co myśli, że widzi. Trzy błędy wchodzą tu w grę:
• badacz spostrzega coś, czego nie ma,
• badacz nie spostrzega czegoś, co jest,
• badacz stawia nietrafne pytania wobec tego, co jest.
Stosunku między badaną rzeczywistością a jej wersją dostarczoną przez badacza nie da się definitywnie określić, zresztą w badaniu jakościowym idzie nie tyle
o odzwierciedlenie rzeczywistości, ile o jej przedstawienie. Można jednak pytać,
w jakim stopniu konstrukcje badacza są zakorzenione w konstrukcjach osób badanych i w jakim stopniu to zakorzenienie jest widoczne dla czytelnika. Pierwszą
przesłanką oceny trafności są warunki, w jakich powstają dane.
W odniesieniu do wywiadu sprawdza się, czy sytuacja badania gwarantuje autentyczność danych. Na przykład jeśli w protokole z wywiadu narracyjnego (o którym więcej w rozdz. 7) jest mało narracji, to znak, że badanego coś krępowało.
Ogólniej – można pytać, czy treść wypowiedzi jest poprawna, sensowna i szczera.
Jeśli natrafi się na ślad, że badany miał powód do skonstruowania stronniczej wersji swojego doświadczenia, dane uważa się za nieautentyczne.
Niektórzy radzą, by po zrobieniu protokołu z pierwszej sesji zorganizować drugie spotkanie z badanym, pokazać mu protokół wraz z uwagami i prosić o ustosunkowanie się. Jest jednak wątpliwe, czy aprobata badanego może rozstrzygać
o autentyczności, zwłaszcza w tych punktach, które umykają jego świadomości.
Wielekroć się przekonałem, z jaką energią nauczyciele odrzucają przypuszczenie,
jakoby odmiennie traktowali uczniów i uczennice, mimo że sami wcześniej dostarczyli mu mocnych podstaw.
Inna rada to śledzić w protokole wywiadu ślady wzajemnego dogadywania się
badacza i badanego co do intencji ich słów. Czasem te ślady są widoczne (bada-
ny prosi o wyjaśnienie pytania, badacz parafrazuje wypowiedź badanego, by się
upewnić, że dobrze ją zrozumiał itp.), czasem nie (badacz nie reaguje na mylne
zrozumienie pytania przez badanego). Jeśli nie widać, by obaj troszczyli się o wiarygodność powstającego tekstu, można mieć wątpliwości co do jego autentyczności.
W odniesieniu do badań etnograficznych Wollcot (1990, s. 127n) radzi, by
w terenie badacz powstrzymywał się od przemawiania, a nastawił na słuchanie,
robił możliwie najdokładniejsze notatki, nie zwlekał z pisaniem doniesienia i robił
to tak plastycznie, by czytelnik mógł zobaczyć to, co widział badacz. Doniesienie
powinno być kompletne, bezstronne i zrównoważone. Trzeba je pokazać ludziom
z badanego terenu, a przynajmniej innym badaczom, i prosić o krytykę.
Sprawie trafności służy świadomość badaczy, że oni sami są ważnym elementem kontekstu, przeto wpływają na treść wytwarzanych tekstów. Taką świadomość
nazywa się refleksyjnością. Badacz refleksyjny zawsze bierze pod uwagę możliwość, że on sam mógł się przyczynić do tego, że badany okazał raczej współczucie
niż oburzenie, raczej kooperował niż rywalizował z innymi itp., i dlatego sprawdza
swoje spostrzeżenia, np. ponawiając pytanie w zmienionej formie czy podejmując
obserwację w innych warunkach.
Zauważmy na koniec, że trafność badania jakościowego wchodzi w konflikt z jego
rzetelnością. Rzetelność wymaga standaryzacji, trafność – odchodzenia od standaryzacji. Jeśli badacz troszczy się o autentyczność tekstu, to słucha badanego z pewną
dozą krytycyzmu, gotów zawsze upewnić się co do znaczenia, sprawdzić szczerość itd.
To jednak znaczy, że nie trzyma się ustalonej procedury i otwiera wrota przypadkowi.
Z tej trudności, nieznanej badaczom stosującym podejście ilościowe, płynie
wniosek, że trzeba ostrożniej kopiować pojęcia. Klasyczne pojęcie rzetelności niezbyt się nadaje do oceny badań, w których granica między tym, co należy do samej
rzeczy, a tym, co zewnętrzne i przypadkowe, jest z istoty zatarta. Lepiej więc byłoby mówić nie tyle o rzetelności, ile o zwykłej staranności.
Sprawdzanie takiej właśnie staranności proponuje się czasem powierzyć niezależnemu audytorowi. Jeśli każdy krok przedsięwzięcia badawczego jest udokumentowany, to audytor może ocenić wszystko: staranność zbierania i rejestrowania surowych danych, redukowania i rekonstrukcji danych, integracji teoretycznej
oraz doniesienia naukowego. Audytor sprawdza, czy właściwie dobrano osoby do
badania, czy starannie zebrano dane, dobrze osadzono kategorie w danych, przeprowadzono poprawne wnioskowania, uwzględniono alternatywne wyjaśnienia
itd. Szczególną uwagę zwraca na ślady możliwej stronniczości badacza – sympatyzowanie z jedną tylko stroną, niejawne redefinicje przedmiotu w trakcie badania,
przedwczesne zamknięcie poszukiwań, pozostawienie niezanalizowanych danych,
a zwłaszcza pominięcie przypadków niemieszczących się w kategoriach czy hipotezie itd. Ocenia też poziom bieżącej ewaluacji badania.
Triangulacja
Nie tylko rzetelność, ale i trafność uważają niektórzy za pojęcie mało użyteczne w badaniach jakościowych. Trafność wiąże się z oceną wyniku: pytaniem,
czy odniesienie przedmiotowe doniesienia naukowego koresponduje z samym
Wiarygodność 33
przedmiotem, lub prościej – czy opis zgadza się z rzeczywistością. Ale w tradycji jakościowej o rzeczywistości mówi się niechętnie z racji kryzysu reprezentacji.
Ważniejsze niż trafność jest więc ugruntowanie wiedzy. Ugruntowanie jest związane z cechami procesu wytwarzania wiedzy: otwartością i brakiem stronniczości.
Wytwórca wiedzy ugruntowanej zbiera fakty i trzyma się faktów, choć ciągle jest
świadomy, że wiele może przeoczyć, że jego fakty mogą być artefaktami lub że
mogą nie przystawać do jego pojęć.
Kontrola ugruntowania polega na porównywaniu różnych wersji badanego
miejsca. Nazywa się ją triangulacją, przez analogię do geodezyjnej metody wyznaczania położenia pewnego punktu przez obserwowanie go z dwóch innych punktów. Denzin (1989, s. 237n) wyróżnia 4 typy triangulacji:
• Triangulacja źródeł – porównuje się dane pochodzące od różnych osób, z różnych miejsc terenu i z różnego czasu.
• Triangulacja badaczy – porównuje się wnioski, do których dochodzi kilku badaczy pracujących w tym samym terenie. Jeśli dwie osoby niezależnie zbierające dane o życiu młodzieży w pewnej dzielnicy miasta dochodzą do podobnych
wniosków, ich wiarygodność wzrasta. W przeciwnym razie rodzi się podejrzenie, że wnioski odzwierciedlają indywidualne nastawienia badaczy.
• Triangulacja metod – porównuje się dane zebrane różnymi metodami, np. za
pomocą ankiety i wywiadu.
• Triangulacja teorii – porównuje się interpretacje danych w różnych perspektywach teoretycznych.
Te odmiany triangulacji mogą współwystępować ze sobą. Jeśli chcemy poznać
relacje współpracy i antagonizmu w klasie szkolnej, możemy wybrać kilka oddziałów z różnych szkół (źródła), zatrudnić dwóch badaczy (badacze), zaplanować obserwacje na przerwach oraz wywiady z uczniami (metoda), uzupełnić je
wywiadami z nauczycielami (źródła), a zebrany materiał przeszukiwać pod kątem
subiektywnych definicji współpracy i antagonizmu (interakcjonizm symboliczny)
oraz społecznych metod podtrzymywania współpracy i antagonizmu (etnometodologia) (teoria). Byłoby naiwnością spodziewać się, że obraz badanych relacji
zawsze będzie taki sam, jednak tam, gdzie pojawią się poważne rozbieżności, powinniśmy podejrzewać niedostatek ugruntowania.
Indukcja analityczna
Indukcja analityczna to jeszcze bardziej radykalny sposób podniesienia wiarygodności wyników. Jak każda indukcja, polega ona na wyprowadzaniu hipotez z danych i sprawdzaniu ich na danych (Robinson, 1951). Obóz badań jakościowych
cofa się tym samym do przedpopperowskiego, pozytywistycznego okresu świadomości naukowej2 . Inaczej jednak rozkłada się akcenty: przypadki wyłamujące się
z hipotezy nie są pomijane, lecz uwydatniane.
2
Jak zobaczymy w rozdz. 3, we współczesnej tradycji ilościowej inaczej rozumie się
hipotezę. Wielu zwolenników tradycji jakościowej świadomie zwraca się do indukcji, by
pozbyć się teorii stojącej między badaczem a badanym światem. Nie przeszkadza to prozelitom oskarżać tradycję ilościową o związki z pozytywizmem.
Indukcja analityczna zaleca, by sformułowawszy hipotezę, sprawdzać ją przypadek po przypadku. Jeśli któryś z rzędu zaprzeczy hipotezie, trzeba albo przeformułować hipotezę, albo tak zredefiniować badane zjawisko, że nieposłuszny
przypadek przestaje się mieścić w jego zakresie i można go wyłączyć z analizy.
Po każdym takim zabiegu sprawdzanie trzeba zacząć od początku, jest bowiem
możliwe, że przypadki potwierdzające starą wersję hipotezy nie potwierdzą nowej albo nie mieszczą się w nowej definicji przedmiotu badania. W końcu jednak
niezgodne przypadki przestaną się pojawiać. Hipoteza zyskuje wtedy status teorii
doskonale ugruntowanej w danych.
Uogólnianie
W tradycji ilościowej nic tak nie wpływa na wiarygodność wyników, jak odtworzenie się ich w niezależnym badaniu. Jeśli inni badacze nie są w stanie uzyskać
takich wyników, jak moje, wiarygodność moich wyników jest wątpliwa, choćbym
zastosował nieskazitelnie poprawną procedurę badawczą. W tradycji jakościowej
sprawa jest bardziej złożona.
Jeśli badanie przeprowadzono bezbłędnie, wyniki badania można uznać za wiarygodne. Można je ogłosić, ponieważ powiększają naszą wiedzę o zbadanych terenach
czy osobach. Co jednak z innymi terenami i osobami – czy wykryte prawidłowości
stosują się także do nich? Czy tradycja jakościowa pozwala uogólniać wyniki badania?
Zwolennicy tej tradycji zajmują tu niezbyt konsekwentne stanowisko. Przyznając,
że uogólnianie wyników nie ma uzasadnienia, dopuszczają jednak możliwość „przenoszenia” (transferability) wyników uzyskanych w jednym kontekście na inne konteksty, jeśli tylko są one podobne do pierwszego. Niestety, „przenoszenie” i „uogólnianie”
to niemal synonimy. Obiekty podobne do siebie pod pewnym względem zawsze można nazwać desygnatami jednego pojęcia, a jeśli tak, to przenoszenie jest równoznaczne z wnioskowaniem „z niektórych o wszystkich”. Co gorsza, podobieństwo między
obiektami tak złożonymi jak szkoły czy biografie ludzkie jest pojęciem nieobiektywnym. Mówiąc, że dwa obiekty są podobne, ponieważ zajmują zbliżone pozycje na jednym lub kilku wymiarach znaczeniowych, ignorujemy fakt, że zajmują one odmienne
pozycje na wielu innych wymiarach. Wystarczy zmienić perspektywę, by obiekty podobne stały się niepodobne, a obiekty odmienne zbliżyły do siebie. Można się pocieszać, że pierwsze z tych wymiarów są ważniejsze niż drugie, ale skąd to wiadomo?
Świadomi tej trudności zwolennicy badań jakościowych powiadają, że trzeba
systematycznie badać wpływ różnych wymiarów kontekstu na wykrytą prawidłowość. Stwierdziwszy na przykład, że w małej szkole wyznaniowej najlepsi uczniowie są najsilniej związani z ortodoksją religijną, badacz powinien następnie poszukać tej prawidłowości w dużej szkole wyznaniowej, potem w małej i dużej szkole
świeckiej itd. Niestety, potencjalnie istotnych wymiarów szkoły jest zbyt dużo.
Gdybyśmy chcieli sprawdzić każdą kombinację (np. szkoła duża, świecka, niepubliczna, współpracująca z lokalnym uniwersytetem itd.), musielibyśmy w nieskończoność powtarzać to samo badanie, wskutek czego przestałoby się ono różnić
od standardowego badania ilościowego. Mimo to nigdy nie mielibyśmy pewności,
czy prawidłowością nie rządzi jakiś nieuwzględniony dotąd aspekt szkoły.
Współpraca 35
Systematyczne badanie wpływu kontekstu jest wątpliwe także dlatego, że
oprócz błędów systematycznych występują błędy losowe. Przypisując pewną własność Q obiektom mającym cechę A zamiast obiektom mającym zarazem cechy
A i B, popełniam błąd systematyczny, polegający na nieuwzględnieniu cechy B.
Błąd ten skoryguję, jeśli odkryję przypadek A niemający Q i domyślę się roli B.
Błędów losowych tak łatwo skorygować się nie da. Ten sam człowiek dziś błyszczy
inteligencją, jutro wydaje się zupełnie przeciętny. W tej samej szkole raz panuje
atmosfera sennego przygnębienia, innym razem – radosnego ożywienia. Na błędy
losowe jest tylko jeden sposób: powtarzać i uśredniać pomiary. Przed tym jednak
tradycja jakościowa broni się najbardziej, wtedy bowiem rozpuściłaby się w tradycji ilościowej. Lepiej więc, żeby się wyrzekła ambicji uogólniania swoich wyników.
Współpraca
Okazuje się, że mimo wszystkich odmienności obóz badań jakościowych nie jest
wrogi celom nauki – odrzucając bowiem jedne ograniczenia, wprowadza inne,
w trosce o prawomocność, wiarygodność i precyzję sądów. Odmienności te zresztą są tyleż epistemologiczne, ile psychologiczne: duża ich część wiąże się z postawą
wobec zawodu badacza.
Jak wszędzie, tak i w nauce są „rzemieślnicy” i „artyści”. Artysta to ktoś otwarty, ciekawy szczegółu, a przede wszystkim niechętny rutynie. Pracuje bez
reguł i dopiero gdy rzecz ukończy, formułuje reguły, których się trzymał. Mniej
dba o procedurę niż o końcowe wrażenie, jakie zrobi swoim doniesieniem. Chce
jednak zrobić wrażenie nie elegancją języka i walorami retorycznymi testu (choć
i o to zabiega), lecz nową wiedzą, która byłaby czymś więcej niż projekcją jego
wyobrażeń i postaw.
Jest zrozumiałe, że tacy artyści zasilają obóz badań jakościowych. Dlatego –
zauważmy na marginesie – nie mogą się powieść próby wprowadzenia sztywnego
schematu oceniania badania jakościowego. Wystarczy zresztą rzut oka na publikowane propozycje, by się przekonać o ich bezużyteczności. Z jednej strony – wdzierają się w proces myślenia badacza (np. „Jak wybrano kategorię centralną, dlaczego tę, czy wyboru dokonano nagle, czy stopniowo, czy był on trudny, czy łatwy?”),
z drugiej – są tak ogólnikowe, że niczego nie mogą zdyskwalifikować (np. „Czy
szersze warunki, które wpływają na badane zjawisko, zostały wbudowane w jego
wyjaśnienie?”). W badaniach jakościowych nie warto mnożyć reguł – zastępuje je
zwiększona odpowiedzialność badacza za wynik jego pracy.
Ten aspekt badań jakościowych powinien nieco chłodzić entuzjazm początkujących badaczy (np. magistrantów czy doktorantów). Podejście jakościowe może
się im wydać pociągające, ponieważ przypomina codzienny proces poznania społecznego, no i nie wymaga znajomości statystyki. Ale może się okazać, że po miesiącach ciężkiej pracy przygniata ich góra danych, z których nie wyłania się żadne
odkrycie. Zabrakło przebłysku intuicji, która jest niezbędna, by podjąć trafną decyzję, jakie dane zbierać i jak je analizować. Ta intuicja jest sprawą szczęśliwego
trafu, który jednak częściej się zdarza badaczom o dużej wiedzy i wrażliwości.
Z powyższego płynie wniosek, że różnice między oboma obozami nie wykluczają
współpracy. Dialog rzemieślnika z artystą pozostaje możliwy i płodny, bo obaj zmierzają do podobnych celów, tyle że wychodzą z odmiennych przesłanek. Ogólne cele
badania jakościowego nie są inne niż cele badania ilościowego. Badanie jakościowe
może mieć cel praktyczny: dostarczyć przesłanek do decyzji lub oceny. Może też mieć
cel teoretyczny: gromadzić wskazówki co do budowy teorii lub sprawdzać teorię.
Większość badań jakościowych to badania eksploracyjne, weryfikacyjne albo
eksploracyjno-weryfikacyjne. Mogą występować samodzielnie lub w połączeniu
z badaniami ilościowymi. Niżej kilka typowych wariantów. Inne znajdzie czytelnik
w podręcznikach Denzina i Lincoln (1994) oraz Milesa i Hubermana (1984).
Badanie jakościowe prowadzące do teorii jednostkowej. Może to być teoria
jednej organizacji (np. hospicjum lub szkoły), społeczności (np. gangu młodzieżowego), przedsięwzięcia społecznego (np. reformy oświaty) czy nawet jednej
historii życia. Wprawdzie takiej teorii nie można uogólnić na inne obiekty, ale
wzbogaca ona – jeśli tylko jest dobrze zakorzeniona w danych – nasz repertuar wyjaśnień, uświadamia, że istnieje jeszcze jeden wariant ludzkiej odpowiedzi
na nieskończenie złożony strumień życia. Nie bez racji powiada się, że kolekcja
takich wyjaśnień lepiej służy zrozumieniu społecznego świata niż jedno proste
uogólnienie, które właśnie ze względu na swoją prostotę i ogólność niebezpiecznie zbliża się do stereotypu.
Badanie jakościowe prowadzące do typologii. Od czasów M. Webera typem
idealnym nazywa się wewnętrznie spójny obiekt wzorcowy utworzony przez połączenie cech przysługujących w różnym stopniu rzeczywistym obiektom. Rzeczywiste obiekty uważa się za realizacje typu (w podobnym sensie, w jakim się mówi,
że każde wykonanie na przykład Symfonii pastoralnej jest realizacją partytury
Beethovena), tj. przyjmuje się, że ich idealność jest „zanieczyszczona” przez szczególne warunki, w jakich powstały i istnieją. Po dołączeniu dwóch relacji: równości
i przewyższania typ może służyć szeregowaniu rzeczywistych obiektów ze względu
na liczbę i nasilenie cech wzorca. Pojedynczy typ zwiększa precyzję terminologii
naukowej (np. pozwala odróżnić kościół od sekty), a zbiór typów tworzy typologię (np. rodziny, praktyk oświatowych). Te korzyści poznawcze zależą jednak od
prawomocności typu. Ponieważ z reguły nie ma on desygnatów, nie można go
sprawdzić przez proste odwołanie się do rzeczywistości. Jego prawomocność zależy więc od tego, jak dobrze znaliśmy rzeczywiste obiekty, z których go wywiedliśmy. Jeśli mieliśmy o nich jedynie potoczną wiedzę, typ jest fikcją – przypadkową,
jedną z wielu równie możliwych, a więc bezużyteczną. W im większym stopniu
rozumiemy jednostkowe obiekty, tym mniej arbitralny jest typ. Dlatego użyteczne
typologie wyrastają z badań jakościowych, a badania ilościowe jedynie kontrolują
ich zupełność i niesprzeczność.
Badanie jakościowe jako wstęp do badania ilościowego. Można to rozumieć
tak, że wnioski z badań jakościowych są źródłem wartościowych hipotez dla badania ilościowego. Sprawdzać można przewidywania teorii jednego przypadku lub
przewidywania wynikające z prób pogodzenia kilku sprzecznych teorii jednostkowych. W innym sensie badanie jakościowe pomaga zaplanować badanie ilościowe
Współpraca 37
i opracować narzędzia pomiaru. Często na przykład prowadzi się najpierw swobodne wywiady lub grupy tematyczne z udziałem nielicznych, celowo dobranych
osób, by dowiedzieć się, o co i jakimi słowami zapytać badanych w kwestionariuszu. Gotowy kwestionariusz stosuje się następnie na próbce reprezentatywnej,
a odpowiedzi badanych analizuje metodami statystyki indukcyjnej.
Badanie jakościowe pomagające zrozumieć wyniki badania ilościowego. Jeśli
w badaniu ilościowym wykrywa się intrygującą regularność, to badanie jakościowe, uwzględniające pełny kontekst zjawiska, może pozwolić ją zrozumieć. Dotyczy to zwłaszcza regularności makrospołecznych (np. nierówności oświatowych),
o których można sądzić, że są wytwarzane na poziomie mikrospołecznym (np.
w życiu rodzinnym, sąsiedzkim lub szkolnym). Literatura pedagogiczna wielokrotnie odnotowywała z dezaprobatą spadek liczby dzieci objętych wychowaniem
przedszkolnym w Polsce lat dziewięćdziesiątych, nikt jednak, o ile wiem, nie próbował wyjaśnić tego faktu na poziomie mikrospołecznym, bez czego trudno myśleć o skutecznych strategiach zaradczych.
Wiele lat temu jeden z moich studentów, zapoznawszy się z wynikami badania ilościowego, które świadczyły, że osoby altruistyczne są zarazem poznawczo zależne od
otoczenia, zapytał z pozorną naiwnością, czy nie było wyjątków od tej prawidłowości.
Kiedy wyjaśniłem, że wyjątki zdarzają się zawsze, bo w naukach społecznych współczynniki korelacji nigdy nie zbliżają się do jedności, powiedział, że prawidłowość ilościowa pozostanie niejasna, dopóki nie przyjrzymy się każdemu wyjątkowi z osobna i nie
zrozumiemy, skąd się wzięła jego wyjątkowość. Wtedy takie postępowanie nie mieściło
się w kanonie metodologicznym. Dziś wydaje się programem godnym polecenia.
Badanie ilościowe sprawdzające wyniki badania jakościowego. Związki ujawnione w badaniu jakościowym można niekiedy sprawdzić za pomocą kwantyfikacji tekstów i poddania ich bezstronnym metodom analizy statystycznej. Jeśli analiza ilościowa potwierdzi związek, staje się on bardziej wiarygodny, niż gdy opiera
się jedynie na zapewnieniach autora i garści cytatów lub obserwacji.
Jakościowe i ilościowe metody analizy danych można łączyć w jednym przedsięwzięciu badawczym. Jeśli badacz zaczyna od zbierania tekstów, może je poddać
kwantyfikacji i szukać interesujących związków ilościowych, a znalazłszy – powrócić do tekstów, by zrozumieć, co je wytwarza. Może też zacząć od badania
ilościowego, po czym – jak chciał mój student – przyglądać się przypadkom wyłamującym się z wykrytej regularności.
Badanie jakościowe i ilościowe jako niezależne i uzupełniające się przedsięwzięcia naukowe. Wiele zagadnień oświatowych ma dwa aspekty: obiektywny
(rozkłady cech i działań w populacji) i subiektywny (indywidualne doświadczenia, poglądy, uczucia i działania). Załóżmy, że chcemy stworzyć pedagogiczną
teorię niepełnosprawności umysłowej. Aspekt subiektywny: doświadczenia osób
upośledzonych może ujawnić jedynie badanie jakościowe. Aspekt obiektywny:
skuteczność szkolnictwa specjalnego w przygotowywaniu tych osób do życia
w społeczeństwie wymaga badania ilościowego (np. porównawczego badania losów życiowych reprezentatywnej próbki absolwentów tych szkół). Poprzestanie na
badaniu jednego rodzaju grozi jednostronnością wniosków.
Rozdział 3
BADANIA UOGÓLNIAJĄCE
W tym rozdziale zajmiemy się badaniami, w których badacz zbiera dane o pojedynczych obiektach po to, by wypowiadać się o całym ich zbiorze, czyli populacji.
Istotą badań uogólniających jest dezindywidualizacja badanych obiektów. Poddając pomiarom zachowanie Jana czy Piotra, abstrahujemy od wszystkiego, co ich
wyróżnia spośród innych ludzi, interesują nas bowiem nie oni sami, lecz wszyscy
ludzie podobni do nich pod pewnym względem.
Kiedyś dokonałem następującego odkrycia: w pewnym zadaniu umysłowym
Jan i kilkunastu jego rówieśników z IV klasy popełnili dużo więcej błędów niż
Piotr i kilkunastu jego rówieśników z klasy zerowej (Konarzewski, 1985). Wynik
ten nic nie mówi o Janie czy Piotrze – twierdzę bowiem, że ktokolwiek byłby na ich
miejscu, wynik byłby taki sam. Nie mówi też nic o konkretnym zadaniu, które postawiłem dzieciom. O czym więc mówi? O zmianach, które zachodzą w populacji
rozwijających się dzieci (dokładniej: o pojawieniu się pojęcia niezmiennika w stadium operacji konkretnych). Jest to typowy przykład badania uogólniającego.
Badania tego rodzaju mają kilka charakterystycznych cech:
• są ukierunkowane przez gotową lub tworzącą się teorię,
• są prowadzone na próbkach, czyli względnie małych zbiorach obiektów reprezentujących większe (czasem nieskończone) zbiory obiektów,
• redukują właściwości obiektów biorących udział w badaniu do niewielkiej liczby zmiennych,
• zawierają specjalne zabezpieczenia służące obronie prawomocności wniosków.
Omówimy dokładniej te cechy z wyjątkiem pojęcia próbki, któremu jest poświęcony cały rozdz. 6.
Zmienna
W języku potocznym mówimy o cechach, a w języku badań ilościowych o zmiennych. Kryje się za tym głęboka różnica pojęciowa. Cecha to atrybut obiektu, coś,
co obiekt ma. Zmienna to zbiór stanów, w których obiekt może być. Stany te są
rozłączne, a ich zbiór jest wyczerpujący, tzn. pozwala scharakteryzować każdy
obiekt należący do rozpatrywanego zbioru obiektów. Sens pojedynczego stanu
zależy od pozostałych. Gdy słyszę o Janie, że jest przyzwoitym człowiekiem, nie
Zmienna 39
mogę być pewny, co to znaczy, dopóki nie poznam innych określeń stosowanych
przez moich rozmówców do oceniania moralności. Załóżmy, że pierwszy z nich
stosuje tylko dwa określenia: „łobuz” i „przyzwoity”, a drugi trzy: „łobuz”, „przyzwoity” i „szlachetny”. Od razu widać, że pierwszy ma wyższe mniemanie o Janie
niż drugi, mimo że obaj użyli identycznego słowa.
W matematyce, skąd wywodzi się pojęcie zmiennej, poszczególne stany nazywa się wartościami. Możemy więc powiedzieć, że zmienna to nazwa plus ustalony zbiór wartości. Zdefiniować zmienną to tyle, co wskazać ten zbiór. Płeć zatem
to zmienna o dwóch wartościach: {kobieta, mężczyzna}, wiek ucznia w badaniu
osiągnięć szkolnych szóstoklasistów to zmienna mogąca przyjmować wartości ze
zbioru {132 ...180 miesięcy}. W tej książce zmienne będziemy oznaczać dużymi
literami (np. X), a ich wartości małymi literami z subskryptami (x1, x2,..., xk).
Typy zmiennych
W badaniach społecznych zmienne dzieli się na obserwowalne i nieobserwowalne
oraz na ustalone i losowe. Pierwszy podział odnosi się do sposobu poznawania
wartości, jakie zmienna przybiera w poszczególnych obiektach. Zmienną nazywa
się obserwowalną, jeśli jej wartości można dokładnie określić. To, czy biorą w tym
udział gołe oko lub ucho, czy zmysły uzbrojone w przyrząd pomiarowy, jest obojętne. Zmiennymi obserwowalnymi są zatem zarówno trzeciorzędne (widoczne),
jak i pierwszorzędne (niewidoczne) cechy płciowe, podobnie jak liczba poprawnych odpowiedzi w teście osiągnięć szkolnych, temperatura ciała itp.
Zmienną nazywa się nieobserwowalną, jeśli jej wartości są dostępne jedynie za
pośrednictwem zmiennych obserwowalnych. Mówimy wówczas o szacowaniu (estymacji) wartości zmiennej. Ponieważ pula zmiennych obserwowalnych jest zawsze
niepełna, każdemu oszacowaniu towarzyszy błąd, którego wielkość nie jest znana.
Przykładem zmiennej nieobserwowalnej jest poparcie dla pewnej partii w populacji
wyborców, jeśli jej wartość (odsetek wyborców gotowych na nią głosować) szacuje
się na podstawie deklaracji próbki wyborców. Innym przykładem są zmienne psychologiczne: zdolności (np. inteligencja) lub skłonności (np. neurotyzm). Wartość,
jaką przyjmują u poszczególnych ludzi, można jedynie oszacować na podstawie
zmiennych obserwowalnych (np. wyniku testowania). W obu przykładach szacunki
są obarczone niedającym się usunąć błędem. Statystycy zwykli oznaczać zmienne
nieobserwowalne literami greckimi, a obserwowalne – łacińskimi.
Drugi podział odnosi się do niepewności co do wartości, jaką zmienna może
przyjąć w obiekcie. Zmienną nazywamy losową, jeśli może swobodnie przyjmować każdą wartość z określonego zbioru z określonym prawdopodobieństwem.
Taką zmienną jest na przykład odpowiedź uczniów na zadanie z testu osiągnięć
szkolnych. Wiadomo, że każdy badany może odpowiedzieć na dwa sposoby: poprawnie lub niepoprawnie, i wiadomo, jakie jest prawdopodobieństwo każdej
z tych wartości (tj. jaka jest trudność zadania), ale z góry nie wiadomo, jakiej odpowiedzi udzieli Jan czy Piotr. Zmienną nazywamy ustaloną, jeśli jej zmienność
została ograniczona, zwykle decyzją badacza, tak że z góry wiadomo, jaką wartość
przyjmuje w danym obiekcie.
40 Rozdział 3. Badania uogólniające
Krzyżując ze sobą oba podziały, otrzymujemy 4 typy zmiennych.
Zmienne niezależne to zmienne obserwowalne i ustalone. Odnoszą się one do
oddziaływań lub właściwości badanych obiektów, które pozostają pod kontrolą badacza. Chcąc zbadać, powiedzmy, wpływ liczby powtórzeń pewnego tekstu na jego
zrozumienie, musimy ustalić zmienną powtarzania – na przykład zdecydować, że
jednej grupie uczniów tekst zostanie zaprezentowany raz, drugiej – trzy razy itd.
Chcąc się dowiedzieć, jak dobrze rozumieją pewien tekst uczniowie w różnym wieku, musimy ustalić zmienną wieku, czyli przedstawić tekst 7-, 8- i 9-latkom. Zarówno liczba powtórzeń, jak wiek są zmiennymi obserwowalnymi, a nazywamy je
ustalonymi, ponieważ z góry wiemy, jaką wartość przyjmą w każdym przypadku.
Zmienne zależne to zmienne obserwowalne i losowe. Odnoszą się one do jawnego zachowania się lub jawnych cech obiektów scharakteryzowanych przez wartości zmiennych niezależnych. W powyższym przykładzie zmienną zależną jest
liczba poprawnych odpowiedzi w teście rozumienia.
Parametry to zmienne nieobserwowalne i ustalone. Parametrami są wartości
różnych agregatów (np. proporcji lub średniej) w populacji, a także dyspozycje
jednostek. Są one ustalone, ponieważ zakładamy, że istnieje prawdziwa wartość
odpowiadająca społecznemu poparciu dla partii politycznej czy inteligencji Jana.
Są jednak nieobserwowalne, ponieważ nie możemy bezpośrednio określić wartości, którą przyjmują w populacji lub osobie (dyspozycję osoby pojmuje się jako
wartość oczekiwaną populacji wyników pomiaru tym samym narzędziem), i musimy się uciec do szacowania.
Błędy to zmienne nieobserwowalne i losowe. Kiedy szacujemy parametr na
podstawie wartości zmiennych obserwowalnych stwierdzonych w ograniczonej
liczbie obiektów lub w ograniczonej liczbie sytuacji, nigdy nie możemy mieć pewności, że nasz szacunek pokryje się z prawdziwą wartością parametru w populacji.
Socjolog stwierdził na przykład, że z 1000 dorosłych Polaków 600 zadeklarowało
poparcie dla pewnej partii. Twierdząc, że w całej populacji dorosłych Polaków jest
60% zwolenników tej partii, naraża się na błąd zwany błędem próbkowania. Wielkości tego błędu nie da się określić, można jedynie oszacować jego zróżnicowanie.
Jak zobaczymy w rozdz. 6, jest to podstawa wnioskowania o przedziale, w jakim
może leżeć prawdziwa wartość parametru.
Z czterech typów zmiennych najwięcej wątpliwości budzi rozpoznawanie
w projektach badawczych zmiennych niezależnych i zależnych. Pogłębiają ją niektóre książki o metodologii badań społecznych. Częstym błędem jest wiązanie podziału na zmienne zależne i niezależne z wyobrażeniami o naturze rzeczywistości.
Pewien autor twierdził, że zmienne „niezależne” to te, które nie podlegają woli
człowieka, a „zależne” to te, które jej podlegają. Płeć czy pochodzenie społeczne
ucznia byłyby w tym sensie „zmiennymi niezależnymi”, bo żadnym sposobem nie
można ich zmienić, a jego osiągnięcia szkolne – „zmienną zależną”, bo mogą się
zmieniać w zależności od ludzkich wysiłków.
Inny błąd z tej samej parafii to utożsamienie zmiennych niezależnych z przyczynami zmiennych zależnych. Ten błąd przytrafia się nawet wytrawnym autorom
prac metodologicznych. Ary i in. (1996, s. 363) dzielą badania porównawcze na
Zmienna 41
dwa rodzaje. Pierwszy miałby polegać na tym, że tworzy się grupy badanych według wartości zmiennej „niezależnej” (np. w jednej umieszcza się uczniów z rodzin pełnych, w drugiej z rodzin niepełnych) i patrzy, czy te grupy różnią się pod
względem zmiennej „zależnej” (np. czasu spędzanego na wagarach). W badaniach
drugiego rodzaju miałoby się tworzyć grupy badanych według wartości zmiennej
„zależnej” (np. jedną z osób, które skończyły szkołę średnią, drugą z tych, które
przedwcześnie przerwały naukę) i sprawdzać, czy grupy te różnią się pod względem zmiennych „niezależnych” (np. jasności celów życiowych i samodyscypliny).
Podobnie rzecz ujmuje Brzeziński (1997, s. 224-5). Jeśli wybieramy dwie próbki
dzieci: zdrowych i dotkniętych zespołem Downa i badamy, w jakim wieku były
ich matki w chwili porodu, to wiek matki w tych badaniach miałby być zmienną
„niezależną”, a stan zdrowia dzieci zmienną „zależną”.
W obu przykładach omawiany podział traci sens techniczny i odwołuje się do
domniemanych związków przyczynowych w świecie. Jasność celów życiowych lub
wiek matki nazywa badacz zmiennymi niezależnymi, ponieważ wydaje się mu, że
są związane z przyczyną wytrwałego kontynuowania nauki lub przyjścia na świat
potomka z zespołem Downa. Ale nasze stereotypowe przekonania o przyczynowo-skutkowej strukturze świata nie powinny być sankcjonowane w technicznym
języku badania. Kłopot, jaki stąd wynika, widać w fazie analizy danych. Żeby
odpowiedzieć na pytanie, czy wiek matki ma coś wspólnego z zespołem Downa
u dziecka, trzeba przeprowadzić analizę wariancji, w której grupy porównawcze
(dzieci z zespołem Downa i dzieci normalne) reprezentują dwie wartości zmiennej
ustalonej, czyli niezależnej, a wiek matki jest wielowartościową zmienną losową,
czyli zależną. Prowadzi to do wewnętrznie sprzecznego zdania, że zmienna niezależna jest zmienną zależną. Sprzeczność ta jest wynikiem ekwiwokacji, czyli użycia
tych samych słów w dwóch różnych znaczeniach: technicznym i teoretycznym.
Powtórzmy zatem: zmienna niezależna to taka zmienna, której wartości ustala
sam badacz. Najłatwiej to zobaczyć w schemacie eksperymentalnym. Powiedzmy,
że badacz chce się dowiedzieć, czy wielkość nagrody ma wpływ na wykonanie
zadania. Wielkość nagrody jest zmienną niezależną, ponieważ badacz sam ustala
jej wartości: decyduje, ile będzie miała wartości (np. trzy: mała, średnia i duża),
i przyporządkowuje każdego badanego do jednej z nich. Jakość wykonania zadania jest natomiast zmienną zależną, czyli swobodną: badacz nie ma wpływu na to,
jak dobrze wykona zadanie Jan czy Piotr. Jeśli jakość wykonania zadania w trzech
grupach będzie się wyraźnie różnić, uznamy, że nagroda jest jedną z jej przyczyn.
Jest to jednak wniosek z badania, a nie założenie, z którym przystępuje się do
pracy.
W schemacie porównawczym, w którym porównuje się próbki pobrane z ustalonych populacji (np. populacji dzieci zdrowych i populacji chorych), zmienną
niezależną jest kryterium wyróżniające te populacje: {zdrowie, choroba}, a zmienną zależną – cechy, pod względem których są one porównywane. W sprawdzaniu
hipotez przyczynowych możemy równie dobrze wychodzić od domniemanych
przyczyn, co od domniemanych skutków. Żeby sprawdzić hipotezę: „P jest jedną
z przyczyn Q” (w sensie: ilekroć P, to Q), możemy zebrać przypadki P i nie-P i zo-
baczyć, czy różnią się pod względem Q, albo zebrać przypadki Q i nie-Q i zobaczyć, czy różnią się pod względem P. W obu podejściach spodziewamy się różnicy,
ponieważ prawdziwość hipotezy przesądza o niewystępowaniu przypadków, które
są zarazem P i nie-Q. Które podejście wybierzemy, zależy od wygody i kosztu pomiaru P i Q: grupy porównawcze tworzymy zwykle za pomocą tańszego pomiaru.
W badaniach przeglądowych, w których szuka się związków między zmiennymi losowymi w jednej próbce, po to by móc przewidywać Y na podstawie X,
zmienną X uważa się za niezależną, ponieważ jej wartości muszą być ustalone, jeśli
ma w ogóle dojść do przewidywania. Jeśli jednak badacz poprzestaje na współczynnikach korelacji, wyróżnianie zmiennych niezależnych i zależnych traci sens.
W wielu doniesieniach z badań pedagogicznych oprócz zmiennych niezależnych i zależnych spotyka się zmienne „pośredniczące”, „interweniujące”, „modyfikujące” itp. To jeszcze jedna odmiana błędu, który polega na wiązaniu zmiennych
z wyobrażeniami badacza o naturze rzeczywistości. Pewien badacz zdefiniowawszy cztery zmienne: ekstrawersję, umiejscowienie kontroli, motywację do nauki
i osiągnięcia szkolne, oświadczył, że pierwsza jest niezależna, druga pośrednicząca, a trzecia i czwarta to zmienne zależne. Taki zabieg nazywa się szumnie budowaniem modelu. Jeśli jednak nie ma teorii uczenia się w szkole, która mówiłaby
coś o związkach między zjawiskami wewnętrznymi i zewnętrznymi, taki model
jest najzupełniej arbitralny, zatem bezwartościowy. Język zmiennych pośredniczących, interweniujących itp. jest surogatem takiej teorii i (jak każdy surogat)
pozwala się bez niej obejść. Ponieważ podważa to sensowność pracy naukowej,
zmienne z takimi przydawkami powinny zniknąć z naszych doniesień.
Związki badania z teorią
Badania uogólniające najczęściej wyrastają z zainteresowania teoretycznego. Czasem u początków badania stoi rozwinięta, sformalizowana teoria, czasem tylko
luźny domysł czy przeczucie – zawsze jednak twór myśli wykraczającej poza bezpośrednie spostrzeżenia. Planując badanie, chcemy osiągnąć jeden z dwóch celów:
zweryfikować twierdzenie teoretyczne lub uzyskać wskazówki co do treści twierdzenia teoretycznego. W pierwszym przypadku tym, co steruje planowaniem, jest
hipoteza. W drugim – pytanie badawcze.
Hipoteza
Wokół pojęcia hipotezy panuje niezłe zamieszanie. Jedni, dziś w mniejszości,
w ogóle nie używają tego pojęcia, twierdząc, że badanie naukowe polega na uogólnianiu jednostkowych obserwacji. Uczony miałby najpierw badać pojedyncze
obiekty, notując swoje spostrzeżenia („Ten kruk jest czarny”), a zebrawszy dostateczną ich liczbę, zbudować twierdzenie ogólne („Zatem wszystkie kruki są czarne”). Takie stanowisko nazywa się indukcjonizmem. Inni, dziś w większości, nie
rozstają się z tym pojęciem, twierdząc, że bez hipotezy nie ma badania naukowego,
badanie bowiem miałoby się składać z trzech koniecznych kroków:
Związki badania z teorią 43
• wykrycie i sformułowanie problemu,
• wysunięcie hipotetycznego rozwiązania problemu,
• sprawdzenie hipotezy.
Trudno nie zapytać, czym sobie zasłużyła hipoteza na takie uznanie. Dużą rolę
odegrała tu powierzchownie odczytana książka J. Deweya (1988) Jak myślimy? Jej
autor wykazał, że w pełnym akcie myślenia nie może zabraknąć intuicyjnego przypuszczenia, skoku od tego, co zaobserwowane, do tego, co niezaobserwowane (np.
od zjawiska do przyczyny, od wytworu do powodu) – w przeciwnym bowiem razie
nasza myśl mogłaby tylko porządkować dostarczone informacje, od czego jednak
nie przybywałoby wiedzy, podobnie jak nie przybywa słodyczy w herbacie pod
wpływem jej mieszania. Wystarczy nazwać te przypuszczenia „hipotezami”, by
dojść do wniosku, że musi je generować każdy myśliciel, a więc i badacz. Dlaczego
jednak miałby się nimi dzielić z czytelnikiem? Czy doniesienie naukowe jest zapisem procesu myślowego badacza, rodzajem dziennika wewnętrznego? Przecież to
nie badacz znajduje się w centrum uwagi. Jako czytelnika interesuje mnie rozwiązanie problemu, a nie prowadzące do niego operacje myślowe badacza.
Zresztą akceptowanemu doniesieniu daleko do dziennika. Po pierwsze, zawiera tylko jedną hipotezę, mimo że Dewey napomina, by nie ograniczać się do
jednego przypuszczenia („kultywowanie jak najróżnorodniejszych pomysłów jest
bardzo ważnym czynnikiem dobrego myślenia”, s. 106). Po drugie, nie zawiera
przypuszczeń nietrafnych, bo nie ma zwyczaju ogłaszania hipotez niepotwierdzonych przez wyniki badania.
Jaką więc rolę odgrywa hipoteza w doniesieniu naukowym? Jeśli wyniki, mimo
że niezgodne z hipotezą, wydają się interesujące, to zawsze można zmienić hipotezę, tak by się z nimi zgadzała. Czy to naganne? Nie, bo rzecz dotyczy prywatnych
domysłów badacza, a celem badania nigdy nie jest sprawdzenie, czy miał on rację.
Upierać się przy hipotezie może tylko ten, kto ją pojmuje na podobieństwo zakładu na wyścigach konnych. Zmienić zakład po biegu to oszustwo. Ale badanie nie
jest biegiem mającym rozstrzygnąć czyjkolwiek zakład.
Trzeba zatem inaczej zdefiniować hipotezę i lepiej osadzić ją w planie badania.
Hipoteza to nie jest domysł lub przypuszczenie badacza, lecz wniosek logiczny
z teorii, który odnosi się do dającego się zaobserwować stanu rzeczy. Gdy nie ma
teorii, nie ma i hipotezy. Rolą zaś hipotezy nie jest bynajmniej ukierunkowanie
procesu myślenia, lecz umożliwienie weryfikacji teorii.
Rzecz w tym, że każda teoria jest bezpośrednio niesprawdzalna. Każde twierdzenie teoretyczne (np. „Ludzie reagują agresją na frustrację”), zawiera pojęcia
nienaoczne (niefenomenalistyczne) i dlatego nie sposób stwierdzić, czy jest tak,
jak ono głosi. Jedyny sposób to „ukonkretnić” twierdzenie, czyli wyprowadzić
z niego wniosek pozbawiony pojęć nieobserwowalnych. Wnioskowanie przebiega
według następującego schematu: Jeśli twierdzenie teoretyczne T jest prawdziwe,
to w warunkach X da się zaobserwować stan rzeczy Y. Następnik w tej implikacji
(w warunkach X da się zaobserwować Y) to właśnie hipoteza.
W odniesieniu do podanego wyżej twierdzenia wnioskowanie może biec następująco: „Jeśli jest prawdą, że ludzie reagują agresją na frustrację, to studenci,
których poinformuję, że nie zaliczyli pracy seminaryjnej, uzyskają wyższe wyniki
w skali agresywności Bussa niż studenci, którym powiem, że pracę zaliczyli”. Czytelnik zechce zauważyć, że hipoteza wynika logicznie z twierdzenia pod warunkiem,
że zostanie ono wzbogacone o dodatkowe przesłanki dotyczące oddziaływań lub
pomiarów, np. „Poinformowanie studenta, że nie zaliczył pracy, wywołuje w nim
frustrację” i „Skala Bussa mierzy skłonność do agresji w sposób trafny i rzetelny”.
Prawdziwość hipotezy można sprawdzić: wystarczy zrealizować opisane warunki, dokonać wskazanych pomiarów i porównać ich wyniki. Wtedy mamy jedno
z dwojga:
• Jeśli hipoteza okazuje się fałszywa, to albo samo twierdzenie, albo któraś
z przesłanek towarzyszących jest fałszywa. Wprawdzie nie wiemy, czy fałszywe
jest twierdzenie, czy przesłanki, czy twierdzenie i przesłanki naraz, ale możemy
być pewni, że gdzieś kryje się błąd.
• Jeśli hipoteza okazuje się prawdziwa, to teoria nie musi być prawdziwa, ale możemy mieć do niej większe zaufanie niż przed przeprowadzeniem badania1.
Stawianie hipotez często bywa rażąco błędne. Hipoteza formalnie błędna to
hipoteza niesprawdzalna lub niefalsyfikowalna. Niesprawdzalność, polegająca na
tym, że projektowane badanie nie jest w stanie potwierdzić hipotezy, bierze się
z niechęci do suchego języka zmiennych obserwowalnych. W doniesieniach pedagogicznych roi się od hipotez w stylu „Partnerskie stosunki między nauczycielem
a uczniami umożliwiają pełniejszy rozwój osobowości dzieci niż stosunki dyrektywne”. Jak porównywać „pełnię rozwoju” osobowości dzieci w obu grupach? Po
czym poznać, że stosunki partnerskie „umożliwiają” rozwój? Autor takiej hipotezy
ma zwykle jej roboczą wersję, ale zachowuje ją dla siebie. Czytelnik musi ją sam
zrekonstruować na podstawie zastosowanego schematu badania i metod pomiaru.
Z reguły okazuje się ona odległa od wyrażonej na piśmie2.
Hipoteza jest niefalsyfikowalna, gdy nie istnieje wynik, który mógłby ją obalić.
Weźmy hipotezę: „Dzieci pochodzące ze wsi podejmują wyższe studia rzadziej niż
dzieci pochodzące z miasta”. By ją odrzucić, wystarczy, żeby odsetek młodzieży ze
wsi w jakimś roczniku studentów przewyższał odsetek młodzieży ze wsi w populacji młodzieży kraju sprzed 12 lat. Jaki jednak wynik zmusiłyby nas do odrzucenia hipotezy o stosunkach umożliwiających rozwój osobowości? Czy brak różnic
w wynikach inwentarza osobowości w obu grupach? Nie – autor mógłby mimo
to twierdzić, że te stosunki czynią rozwój możliwym. Ponieważ udowodnić niemożliwość można jedynie w naukach formalnych (niemożliwe jest kwadratowe
koło), hipotezy nie może obalić żaden wynik empiryczny. Taka hipoteza nie może
patronować żadnemu przedsięwzięciu naukowemu.
Schemat zdaniowy ((T ^ P) → H) ^ H) → (T ^ P) nie jest tautologią, czyli prawem
rachunku zdań, ale schemat ((T ^ P) → H) ^ ~H) → ~(T ^ P) jest. Dlatego z prawdziwości
hipotezy nie możemy niezawodnie wnioskować o prawdziwości T ani P, ale z fałszywości
hipotezy możemy niezawodnie wnioskować, że fałszywa jest T lub P, lub obie naraz.
2
Niektóre poradniki wzmacniają ten zwyczaj, zalecając, by badacz najpierw sformułował „hipotezę teoretyczną”, a potem „roboczą”. Jest to w najlepszym przypadku zbędne
mnożenie pojęć, w najgorszym zaś sprowadza badanie na manowce.
1
Wskaźniki
Hipoteza jest, jak widzieliśmy, pomostem między światem teorii a światem empirii. W świecie teorii występują pojęcia teoretyczne, a w świecie empirii – zmienne
obserwowalne. Hipoteza przekłada twierdzenia teoretyczne na język związków
między zmiennymi obserwowalnymi, dzięki czemu empiria może wziąć udział
w dyskusji nad prawomocnością teorii.
Wynika stąd, że w stawianiu hipotezy zawiera się czynność opisywana w podręcznikach metodologii jako operacjonalizacja lub dobieranie wskaźników. W naszym przykładzie dwuwartościowa zmienna: {poinformowanie studenta o niezaliczeniu, poinformowanie o zaliczeniu} odpowiada pojęciu frustracji, a zmienna
wielowartościowa: wynik pomiaru skalą Bussa odpowiada pojęciu agresywności.
Nie ma więc powodu, by rozwodzić nad rodzajami wskaźników i sztuką ich dobierania. Wystarczy rozpatrzyć kilka typowych zagadnień. Zacznijmy od przypadku
najtrudniejszego: wskaźników zmiennych nieobserwowalnych.
Dyspozycje psychiczne. Wskaźnikiem takich pojęć jak wiadomości, umiejętności, postawy, inteligencja czy neurotyzm jest wynik pomiaru zmiennej nieobserwowalnej (rozdz. 7). Zadanie badacza sprowadza się na ogół do wyszukania
gotowego narzędzia, puszczając się bowiem na budowanie własnego, musiałby
zapewnić mu odpowiednie właściwości psychometryczne (głównie trafność i rzetelność), co może pochłonąć więcej czasu i pieniędzy niż właściwe badanie. Kto by
zaś podarował sobie tę pracę, popełniłby dyskwalifikujący błąd.
Pewien badacz wymyślił świetny, jak mu się zdawało, wskaźnik pojęcia „identyfikacja ucznia z zespołem klasowym”: prosił dyrektora, by wzywał ucznia do
swego gabinetu i pytał go, kim jest. Gdy uczeń podawał nazwę oddziału („Jestem
z IVb”), uznawano go za identyfikującego się. Gdy opuszczał nazwę oddziału
(„Jestem Tomek Kowalski”) – za nieidentyfikującego się. Niestety, doniesienie autora zostało przyjęte kwaśno, ponieważ nie dostarczył on żadnych dowodów, że
wzmianka o oddziale jest zachowaniem nieprzypadkowym i że ma coś wspólnego
z identyfikowaniem się z zespołem klasowym.
Procesy lub stany wewnętrzne. Wskaźnikiem takich pojęć jak frustracja czy motywacja jest oddziaływanie eksperymentalne. Wskaźnikiem pobudzenia motywacji do
osiągnięć może być instrukcja wiążąca zadanie z poczuciem własnej wartości, wskaźnikiem niepokoju – zapowiedź bolesnych lub nieprzyjemnych doświadczeń, wskaźnikiem koncentracji na „ja” – ustawienie przed badanym lustra. W badaniach z udziałem
zwierząt wskaźnikiem siły motywacji jest czas deprywacji jakiejś potrzeby (np. liczba
godzin bez jedzenia). Od takich wskaźników wymaga się skuteczności, toteż badacz
musi udowodnić, że jego oddziaływania rzeczywiście wywołują spodziewane procesy
czy stany. Taki dowód najczęściej opiera się na wynikach pomiaru zmiennych nieobserwowalnych (chwilowy niepokój mierzy skala Spielbergera, motyw osiągnięć – liczba
projekcji związanych z odnoszeniem sukcesu w metodzie McClellanda). W pozostałych przypadkach wskaźniki wywodzą się wprost z definicji terminów teoretycznych.
Cechy jawnego zachowania się badanych. Pierwszym krokiem jest staranne
zdefiniowanie zachowania, które interesuje badacza. Na przykład oszukiwanie to
korzystanie z niedozwolonych środków dla własnej korzyści. Ten warunek spełnia
dziecko poprawiające ukradkiem błąd w swoim arkuszu testowym, który dano mu
wraz z kluczem w celu samodzielnego obliczenia wyniku. Liczbę takich poprawek
można równie dobrze nazwać wskaźnikiem, co miarą oszukiwania.
Procesy lub stany zbiorowości. Wskaźnikiem jest zagregowana wartość indywidualnych pomiarów. Porządna definicja terminu teoretycznego powie, co i jak
agregować. Wskaźnikiem ekonomicznej produktywności społeczeństwa jest wartość produktu krajowego brutto. Wskaźnikiem powszechności nauczania w społeczeństwie jest współczynnik skolaryzacji brutto lub netto (współczynnik brutto
to wyrażony procentowo stosunek wszystkich osób uczących się w szkołach danego szczebla do populacji osób w wieku urzędowo przypisanym temu szczeblowi).
Drugoroczność to odsetek uczniów powtarzających klasę. Dyskryminacja oświatowa danej grupy społecznej to odsetek dzieci z tej grupy w zbiorowości uczniów
odniesiony do odsetka dzieci tej grupy w społeczeństwie. W badaniach systemu
oświaty na ogół lepiej korzystać ze wskaźników przyjętych przez społeczność badaczy, niż wymyślać własne, ponieważ przekreśla to porównywalność wyników.
Definicje wielu takich wskaźników znajdują się w wydawnictwie International
Education Indicators (Paris 1991, OECD/CERI). Jeśli pomiarem objęliśmy wszystkie obiekty zbiorowości, to wskaźnik jest tożsamy z pojęciem, jeśli zaś tylko próbkę obiektów, to wskaźnik jest szacunkiem obarczonym błędem próbkowania.
Złożona własność obserwowalna. Jeśli pojęcie teoretyczne oznacza własność
będącą konstelacją innych własności, to wskaźnikiem pojęcia może być jeden czy
kilka jego składników. Gdyby ktoś chciał, mógłby go nazwać metonimicznym
(pars pro toto). Na przykład zamożność to różnica między wartością rynkową posiadanych dóbr a wartością zobowiązań. Nie mogąc zrobić kompletnego bilansu
zamożności każdego badanego, możemy wybrać tylko jeden składnik (np. wartość
samochodu). Pozycja społeczna ucznia w klasie to liczba pozytywnych ustosunkowań się do niego ze strony rówieśników. Ich próbkę możemy pozyskać metodą
obserwacji lub socjometrii (rozdz. 7).
Im jaśniejsze pojęcie, tym łatwiej ocenić trafność wskaźnika. Co składa się na
poparcie reformy oświaty? Znajomość jej rozwiązań, pozytywna ocena rozwiązań,
przygotowywanie się do wprowadzenia ich w życie, bronienie ich w publicznych
dyskusjach. Możemy zdobyć dane o wszystkich tych składnikach i zbudować pełny wskaźnik poparcia. Możemy też wybrać jeden składnik, zdając sobie sprawę, że
pierwszy jest mniej trafny niż czwarty.
Nowak (1970) proponuje ponadto tzw. wskaźniki empiryczne. Są to zmienne
związane ze zmienną wskazywaną nie analitycznie (mocą definicji), lecz empirycznie. Jest to wątpliwa propozycja. Można by na nią przystać, gdy dwie zmienne
łączy związek przyczynowy. T. Tyszka zauważył, że dobrym wskaźnikiem przedsiębiorczości jednostki jest samodzielne obliczanie przez nią swojego podatku dochodowego. Jest tak dlatego, że osoba przedsiębiorcza skutecznie wyszukuje różne
źródła zarobkowania, wskutek czego nie może zlecić wypełnienia swojego PIT-u
pracodawcy (chyba że oszukuje fiskusa). Jeśli jednak związek jest korelacyjny,
wnioskowanie o jednej zmiennej z drugiej bywa zawodne. Wiadomo, że ilość pie-
niędzy na koncie jest dodatnio skorelowana z poziomem konsumpcji, czy można
jednak – jak chce Nowak (s. 103) – uznać zasobność konta za wskaźnik poziomu
konsumpcji? Co z ludźmi, którzy dochodzą do pieniędzy, ponieważ odmawiają
sobie różnych dóbr konsumpcyjnych? Gdyby współczynnik korelacji znajdował
się w okolicy 0,90, moglibyśmy zaryzykować błąd, ale tak wysokie współczynniki
nie zdarzają się w badaniach społecznych.
Generalnie – wynik badania powinien być sformułowany w terminach zmiennych, które faktycznie zmierzyliśmy. Jeśli zmierzyliśmy stan konta, nie wypowiadamy się o poziomie konsumpcji. Jeśli zmierzyliśmy opinie dyrektora o jakości pracy
nauczyciela, nie wypowiadamy się o jakości pracy nauczyciela. Jeśli zmierzyliśmy zainteresowanie przedmiotem nauczania, nie wypowiadamy się o osiągnięciach w tym
przedmiocie. Przybliżone ekwiwalencje są źródłem sprzeczności w wynikach badań.
Im więcej mamy takich wyników, tym mniej jesteśmy pewni, jak się rzeczy mają.
Pytanie badawcze
W badaniach eksploracyjnych hipotez się nie stawia. To zrozumiałe: hipoteza jest
wnioskiem z twierdzenia teoretycznego, a tu takiego twierdzenia jeszcze nie ma.
Zamiast hipotezy stawiamy wówczas pytanie badawcze. Pytanie określa, czego się
chcemy dowiedzieć, i w ten sposób ukierunkowuje planowanie badania.
Nie znaczy to, że badanie eksploracyjne obywa się bez założeń teoretycznych.
W istocie, badanie bezzałożeniowe jest niemożliwe, bo badać to korzystać z tego,
co już wiemy, by poznać coś, czego jeszcze nie wiemy. Badanie eksploracyjne opiera się na teorii, tyle że niedostatecznie rozwiniętej: mającej fragmenty ogólnikowe, nieokreślone lub niedokładne. Pytania badawcze określają rodzaj informacji,
dzięki którym dałoby się usunąć te wady. Większość pytań można zatem zaliczyć
do jednej z trzech klas.
Pytania dopełnienia. Stawia się je wtedy, gdy teoria wiąże pewne pojęcie
z całą rodziną pojęć, zamiast z określonymi pojęciami z tej rodziny. Oto przykład.
Zgodnie z teorią bezradności umysłowej najważniejszą przyczyną bezradności
uczniów w jakimś przedmiocie nauczania są cechy praktyki dydaktycznej (Sędek,
1995). Teoria ta nie wskazuje jednak szczegółowych zachowań nauczyciela, które są odpowiedzialne za ten stan. By usunąć tę ogólnikowość, przeprowadziłem
wraz z Sędkiem badanie, w którym wzięliśmy pod uwagę zarówno spostrzeżenia
uczniów o pracy ich nauczycieli, jak i wyniki niezależnej obserwacji nauczycieli na lekcji. Badanie było podporządkowane pytaniu: „Czym różni się praktyka
oświatowa nauczycieli mających wielu bezradnych uczniów od praktyki nauczycieli mających niewielu bezradnych uczniów?” Nazywamy je pytaniem dopełnienia, ponieważ wstawienie określonej cechy (np. „Tym, że pierwsi mówią dużo,
niepewnie i niekonkluzywnie”) przekształca je w zdanie prawdziwe lub fałszywe.
Badania eksploracyjne z pytaniem dopełnienia są bodaj najczęstszym rodzajem
badań oświatowych.
Pytania rozstrzygnięcia. Stawia się je wtedy, gdy w jakiejś sprawie teoria jest
nieokreślona, tzn. dopuszcza odmienne przewidywania. Na przykład teoria wypalenia zawodowego dopuszcza różne przewidywania co do tego, w jakich sytu-
acjach przejawia się wypalenie nauczycieli. Jest możliwe, że wypalenie ogranicza
się do sytuacji szkolnych, ale jest też możliwe, że sięga życia prywatnego. Badanie,
które mogłoby pomóc w rozstrzygnięciu tej wątpliwości, byłoby podporządkowane pytaniu: „Czy życie prywatne nauczyciela wypalonego zawodowo różni się od
życia prywatnego nauczyciela niewypalonego?”
Pytania ilościowe. Stawia się je wtedy, gdy teoria mówi, że jedno zjawisko
wpływa na inne, ale dopuszczając oddziaływania ze strony innych zjawisk, nie jest
w stanie przewidzieć, jak silny jest ten wpływ. Wiadomo na przykład, że na osiągnięcia szkolne ucznia wpływa status socjoekonomiczny jego rodziny. Ale trudno
przewidzieć, jak silny jest ten wpływ, ponieważ wiadomo też, że na osiągnięcia
wpływa wiele innych czynników. Pytanie badawcze brzmi: „Jaki procent zróżnicowania wyników testu osiągnięć szkolnych wyjaśnia status socjoekonomiczny
rodziny niezależnie od innych czynników?”
Zauważmy, że w podanych przykładach hipoteza musiałaby być albo ogólnikowa, albo bezpodstawna. Zauważmy też, że jakkolwiek większość pytań wywodzi się z teorii naukowych, tyle że niedostatecznie rozwiniętych, są też możliwe
pytania pochodzące z osobistej teorii (czyli doświadczenia życiowego) badacza.
Odpowiedzi pomagają przekształcić taką osobistą teorię w teorię naukową.
Niezależnie od źródła, z którego pochodzi pytanie badawcze, powinno być ono
przemyślane i (podobnie jak hipoteza) sformułowane w terminach zmiennych obserwowalnych. Pełne zastosowanie mają tu wcześniejsze uwagi o wskaźnikach.
Analiza danych z badania eksploracyjnego polega na pracowitym przekładaniu
wyników tak długo, aż pojawi się wyraźny, dający się opowiedzieć obraz. Niczego się tu z góry nie ustala: ani porządku przyczynowego (możemy zacząć analizę
od przypuszczenia, że X jest przyczyną Y, a potem wypróbować odwrotne przypuszczenie), ani nawet znaczenia pomiarów (możemy je redefiniować). Ale trzeba
pamiętać, że badanie eksploracyjne dostarcza wiedzy niepewnej. Podsuwa pomysł
na teorię, ale jej nie weryfikuje.
Badanie weryfikacyjne często przynosi rozczarowanie. Obdarzony wyobraźnią
badacz może na podstawie pewnego zbioru danych opowiedzieć piękną historię,
która jednak nie daje się uogólnić. Nic dziwnego: im więcej wyników wykorzystuje ta historia, tym bardziej niepowtarzalny staje się ich zbiór i tym mniej jest
prawdopodobne, że odtworzy się w następnym badaniu. Nie znaczy to, że wnioski
badacza muszą być fałszywe. Jeśli mają solidne oparcie w zebranych danych, są
prawdziwe dla zbadanych przypadków. Pytanie, co wyróżnia te przypadki spośród
wszystkich, bywa drogą do interesujących odkryć.
Prawomocność wniosków
Każde badanie przynosi wynik i wniosek. Nie są to rzeczy tożsame. Wynikiem
(efektem) badania będziemy nazywać zdanie podsumowujące analizę danych, np.
że dwie grupy badanych różnią się pod względem zmiennej zależnej lub że dwie
zmienne są ze sobą skorelowane. Wnioskiem będziemy nazywać wynik odniesiony do teorii, czyli zinterpretowany teoretycznie. Wniosek różni się od wyniku pod
Badania eksperymentalne 49
dwoma względami. Po pierwsze, zastępuje nazwy zmiennych obserwowalnych
pojęciami, które nazwy te wskazują. Po drugie, rozciąga wynik na obiekty, których
nie badano. Wynik opisuje fakty, a wniosek wykracza poza fakty.
Skoro wniosek wykracza poza to, co zrobiliśmy i zaobserwowaliśmy, musi być
obarczony niepewnością. Jest jasne, że nie możemy jej rozproszyć przez skonfrontowanie wniosku z rzeczywistością – gdyby to było możliwe, badania byłyby niepotrzebne. Niepewność można więc zmniejszyć tylko w jeden sposób: wykazać, że
wniosek ma mocne oparcie w wyniku, tzn. że konkurencyjne interpretacje wyniku
są albo niemożliwe, albo mało prawdopodobne. Taki dowód opiera się na zabezpieczeniach, które wbudowujemy w schemat badania.
Badanie, które zostało tak zaplanowane, że umożliwia obalenie konkurencyjnych wniosków, nazywa się trafnym. Za Campbellem (Campbell i Stanley, 1966)
wyróżnia się dwie odmiany trafności: wewnętrzną i zewnętrzną. Od trafności
wewnętrznej zależy prawomocność przekładu wyniku na wniosek. Jest to sprawa
właściwego schematu badania i trafnych metod pomiaru. Od trafności zewnętrznej zależy prawomocność uogólnienia wyniku na szersze zbiorowości. Jest to sprawa reprezentatywności oddziaływań i próbek.
Jest oczywiste, że zapewnienie trafności badania wymaga antycypowania zarzutów wobec wniosku. Planując badanie, badacz powinien powiedzieć sobie: Załóżmy,
że uzyskuję wynik, który chciałbym uzyskać, i wyprowadzam zeń wniosek, o który mi chodzi. Jakie zarzuty mogą wysunąć przeciwko temu wnioskowi potencjalni
krytycy? Może powiedzą, że skala, którą zastosowałem, nie mierzy tego, co moim
zdaniem mierzy? Może powiedzą, że korelacja dwóch zmiennych jest pozorna?
Może uznają, że we wniosku nie wolno mówić o ludziach, skoro badaniem objąłem
tylko mężczyzn? Co powinienem zrobić, by móc odeprzeć te zarzuty, jak się zabezpieczyć przed tą krytyką? Uprzedzając wątpliwości, możemy zwiększyć prawomocność naszego wniosku, choć całkowitej pewności nigdy nie zdołamy osiągnąć.
Badania eksperymentalne
Istotą eksperymentu jest badanie reakcji obiektów na oddziaływania lub warunki,
które zostały stworzone przez badacza. U podłoża tego schematu leży wnioskowanie, które J. S. Mill nazwał kanonem jedynej różnicy. W wersji, jaką nadał mu
Ajdukiewicz (1965, s. 152n), jest to wnioskowanie dedukcyjne, w którym wniosek
wynika logicznie (niezawodnie) z przesłanek. Zaczynamy od przesłanki ogólnej:
„(Każde X1 jest przyczyną Y) lub (Każde X2 jest przyczyną Y) lub ... (Każde Xk jest
przyczyną Y)”. Następnie realizujemy dwie sytuacje. W jednej występują wszystkie
zdarzenia X wyliczone w przesłance ogólnej: X1 i X2 i ... Xk. W drugiej – wszystkie
oprócz jednej, np. tylko X2 i ... Xk. Jeśli Y zachodzi w pierwszej sytuacji, ale nie
w drugiej, mamy prawo twierdzić, że X1 jest przyczyną lub składnikiem przyczyny
Y. Jest tak dlatego, że niezajście Y w drugiej sytuacji obala (eliminuje) wszystkie
człony alternatywy poza pierwszym. W badaniach społecznych wynik jest zawsze
probabilistyczny, toteż zadowalamy się różnicą – byle dostatecznie dużą – w częstości względnej lub nasileniu Y w obu sytuacjach.
Zacznijmy od prostego przykładu. Jedna z moich studentek, zapoznawszy się z teorią modelowania zachowań agresywnych, wysunęła hipotezę, że obejrzenie filmu
zawierającego sceny grozy i okrucieństwa zwiększy agresywne zachowania dzieci.
Chcąc ją sprawdzić, przeprowadziła eksperyment z udziałem 18 uczniów z jednego
oddziału klasy II. Uczniów podzieliła na dwie grupy (x1 i x2) w następujący sposób:
Brała pary kolejnych nazwisk z dziennika i podrzucała monetę. Jeśli wypadł orzeł,
pierwsze dziecko wchodziło do grupy x1, a drugie do grupy x2, jeśli reszka – odwrotnie. Tak powstały dwie dziewięcioosobowe grupy. Pewnego dnia powiedziała dzieciom, że obejrzą film o dinozaurach. Tłumacząc się ciasnotą, zaprowadziła każdą
grupę do osobnego pomieszczenia. Grupa x1 obejrzała pełen grozy film Pradawny
ląd D. Blutha, a grupa x2 – pogodny film Smok Dino M. Striblinga. Zaraz po projekcji wszystkie dzieci przeszły do sali gimnastycznej na lekcję wychowania fizycznego.
Zachowanie się dzieci w czasie lekcji obserwowały dwie osoby, nie wiedząc, jaki film
obejrzało każde dziecko. Obserwatorzy dostali arkusz obserwacji w postaci tabeli.
Siedem kolumn tej tabeli odpowiadało różnym aktom niespokojnego i agresywnego
zachowania się (np. „krzyczy”, „hałasuje przedmiotami”, „kopie, szczypie, popycha,
podstawia nogę”), a 9 wierszy odpowiadało dzieciom. Kolejność dzieci w tabeli ustalono w następujący sposób: brano parę nazwisk z dziennika (jedno przydzielone do
x1, drugie do x2) i rzucano monetą. Jeśli wypadł orzeł, na pierwszym miejscu wpisywano dziecko z grupy x1, a na drugim z grupy x2. Jeśli reszka – odwrotnie. W ten sposób każdy obserwator miał obserwować dziewięcioro dzieci w kolejności: x1, x2, x2, x1,
x2, x1, x2, x1, x2. Każde dziecko było obserwowane przez 5 minut. Ilekroć w tym czasie
dziecko zachowywało się w sposób opisany w kolumnach tabeli, obserwator stawiał
kreskę w odpowiedniej rubryce. Po zakończeniu eksperymentu obliczono średnią
i odchylenie standardowe liczby aktów agresywnych w obu grupach. W grupie x1
średnia wyniosła 3,67 (przy odchyleniu standardowym równym 1,58), a w grupie x2
1,22 (0,83). Ponieważ test statystyczny t wykazał, że różnica między średnimi jest
dostatecznie duża, badaczka uznała, że wynik eksperymentu potwierdził jej hipotezę.
Zauważmy, że w eksperymencie sam badacz wytwarza jedyną różnicę, toteż
jest w stanie stwierdzić, jakie czynniki są, a jakie nie są konieczne dla wystąpienia mierzonych zachowań. Eksperyment jest zatem jedynym schematem, który
pozwala na interpretację przyczynową wyniku. Mówiąc dokładniej: eksperyment
pozwala zweryfikować twierdzenie teoretyczne, że stan rzeczy P należy do zbioru
przyczyn stanu rzeczy Q. Może to znaczyć, że:
• P jest warunkiem wystarczającym i koniecznym Q (ilekroć jest P, to jest Q,
a ilekroć nie ma P, nie ma też Q).
• P jest warunkiem wystarczającym Q (ilekroć jest P, jest też Q, ale brak P nie wyklucza
Q – co można rozumieć tak, że Q może być wywołane także przez inne czynniki),
• P jest warunkiem koniecznym Q (jeśli nie ma P, nie ma też Q, ale pojawienie
się P nie przesądza o pojawieniu się Q – co można rozumieć tak, że Q zależy od
łącznego działania P i innych czynników),
• P jest warunkiem sprzyjającym Q (P nie gwarantuje pojawienia się Q, a brak P
nie gwarantuje braku Q, ale prawdopodobieństwo warunkowe pojawienia się
Q przy P jest większe niż prawdopodobieństwo pojawienia się Q przy braku P).
W eksperymentalnych badaniach oświatowych pierwszy z wymienionych związków występuje najrzadziej, a ostatni – najczęściej. Zawsze jednak jest to związek
przyczynowy, który najprościej poznać po tym, że zmiana P pociąga za sobą zmianę
Q. Taki związek jest czymś więcej niż zwykłym współwystępowaniem P i Q.
Ary i in. (s. 370) opisują zabawny przykład pomieszania związku przyczynowego
ze współwystępowaniem. W 1958 r. rada szkoły średniej w Rexburg zabroniła uczniom przyjeżdżać do szkoły samochodem, ponieważ stwierdzono, że nie robił tego ani
jeden uczeń mający piątki, a robiło aż 83% uczniów dostających jedynki. Najwyraźniej
uznano, że powstrzymanie uczniów od przyjeżdżania samochodem do szkoły może
poprawić ich stopnie. Pewien polski badacz doniósł niedawno, że umiejętność odczytywania przez ucznia wykresów zależy od liczby książek w jego domu. Czyżby wierzył,
że ta umiejętność wzrośnie, gdy matka dokupi kilka książek do domowej biblioteczki?
Trzeba więc rozważnie używać słów. Takie słowa, jak wpływ czy zależność,
oznaczają związki przyczynowe. Wnioskując, że oczekiwania nauczyciela wpływają na osiągnięcia ucznia, że osiągnięcia zależą od oczekiwań nauczyciela lub są
spowodowane przez te oczekiwania, twierdzimy, że gdy nauczyciel zmieni swoje
oczekiwania, zmienią się też osiągnięcia jego uczniów. Jeśli nie ma do tego podstaw, powinniśmy poprzestać na stwierdzeniu, że zmienne są związane ze sobą.
Trafność eksperymentu
Powiedzieliśmy, że badanie przynosi wynik i wniosek. Wynik opisanego wyżej
eksperymentu można ująć w zdaniu: „U dzieci, które obejrzały film ze scenami
grozy i okrucieństwa, zaobserwowano istotnie więcej aktów agresji niż u dzieci,
które obejrzały pogodny film na podobny temat”, a wniosek w zdaniu: „Obserwowanie scen grozy i okrucieństwa podwyższa w człowieku motywację do zachowań agresywnych”. Jakiej krytyki może się spodziewać autor tego wniosku? W grę
wchodzą zarzuty dwojakiego rodzaju:
• Wniosek fałszywie przedstawia związek między wartościami zmiennej niezależnej i zmiennej zależnej. Krytyk mógłby na przykład zauważyć, że w grupie
x1 użyto starszego magnetowidu, więc dzieci z tej grupy oglądały obraz niższej jakości niż dzieci z grupy x2. Podwyższona liczba zachowań agresywnych
w grupie x1 mogła być skutkiem nie tyle treści filmu, ile niskiej jakości obrazu.
Zatem – konkludowałby krytyk – należałoby wnioskować, że agresję wywołuje
nie tyle obserwowanie okrucieństwa, ile frustracja.
• Wniosek jest sformułowany zbyt szeroko. Krytyk mógłby dowodzić, że opisany wynik odnosi się jedynie do dzieci przed 12. rokiem życia, a nie do ludzi
w ogóle. Mówiąc inaczej – mógłby twierdzić, że nie należy się spodziewać, by
odtworzył się w podobnym eksperymencie z udziałem studentów.
Pierwszy zarzut godzi w trafność wewnętrzną, drugi w trafność zewnętrzną
eksperymentu.
Trafność wewnętrzna
Nietrafność wewnętrzna może być związana z nietrafnością pomiarów, o czym
piszę w rozdz. 8, lub z niedostatecznym zabezpieczeniem się przed działaniem
czynników ubocznych. Załóżmy, że między grupami porównawczymi zaszła oczekiwana różnica. Wynik ten nie przemawia na rzecz teorii, jeśli można go przypisać
czynnikom, które niechcący i bezwiednie uaktywniliśmy podczas realizacji eksperymentu. A teraz załóżmy, że nie stwierdziliśmy różnicy. Ten wynik też może być
niekonkluzywny, jeśli są powody, by przypuszczać, że różnica została zamaskowana przez inne czynniki, utonęła w wytworzonym przez nie szumie.
Campbell i Stanley (1966) wyliczają osiem klas zmiennych ubocznych, które
zagrażają wewnętrznej trafności eksperymentu:
• zdarzenia, które zaszły przed lub w trakcie eksperymentu,
• zmiany zachodzące w badanych obiektach wskutek upływu czasu,
• zabiegi pomiarowe, którym są poddawane obiekty,
• zmiany dokonujące się w narzędziach pomiaru (np. zmęczenie obserwatora,
zużywanie się urządzeń),
• samorzutne zmiany skrajnych wyników pierwszego pomiaru w kierunku wyników typowych (tzw. regresja do średniej),
• zmienne indywidualne różniące obiekty wybrane do badania,
• ubywanie obiektów w trakcie badania.
• interakcje zmiennych indywidualnych z niezależnymi zdarzeniami, zmianami
zachodzącymi pod wpływem czasu itp.3 Autorzy mają tu na myśli możliwość,
że z nałożenia się zewnętrznego zdarzenia na skład grupy powstaje „nowa jakość”, która bardziej zagraża trafności niż oba te składniki osobno. Powiedzmy,
że prowadzimy eksperyment na dwóch oddziałach klasy VI. W trakcie eksperymentu odchodzi z pracy dyrektor szkoły. Jeśli uczył on kiedyś w jednym
z tych oddziałów, to mamy interakcję: wpływ zdarzenia (odejście dyrektora) na
zmienną zależną jest w tym oddziale większy niż w innych oddziałach.
Zmienne uboczne mogą być skorelowane lub nieskorelowane ze zmienną niezależną4. Jeśli są nieskorelowane (tzn. jeśli ich rozkłady nie różnią się w poszczególnych grupach porównawczych), to tworzą szum maskujący właściwy efekt, czyli obniżają czułość eksperymentu. Taki eksperyment nie jest stanie wykryć słabych
skutków oddziaływania. Widziałem wiele planów eksperymentów oświatowych,
które z góry były skazane na porażkę, ponieważ miały przebiegać w warunkach
naturalnych, operować słabymi lub krótkotrwałymi oddziaływaniami i mierzyć
zmienne zależne w sposób mało rzetelny. Rozczarowany wynikiem badacz zaczyna powątpiewać o swojej teorii albo o prawomocności badań empirycznych
w ogóle, zamiast jedynie o własnych umiejętnościach badawczych.
Jeśli zmienne uboczne są skorelowane ze zmienną niezależną, tzn. jeśli ich rozkłady różnią się w poszczególnych grupach porównawczych, będziemy je nazywać uwikłanymi5. Często cytowanym przykładem działania zmiennej uwikłanej
Dwie zmienne są w interakcji ze względu na trzecią, jeśli wpływ pierwszej na trzecią
zależy od wartości, jaką przyjmuje druga. Więcej o tym w rozdz. 8.
4
Dwie zmienne są skorelowane, jeśli pewne kombinacje ich wartości są częstsze, a inne
rzadsze, niżby to wynikało z przypadku. Szczegóły w rozdz. 8.
5
Po angielsku confounding lub confounded, czemu odpowiadają polskie „wikłająca” i „uwikłana”. Zmienne te są zarazem uwikłane w schemat badania i wikłają interpretację wyniku.
3
jest efekt Hawthorne. W Hawthorne znajdowała się elektrownia. Przeprowadzono
w niej eksperyment, który wykazał m.in., że po zwiększeniu oświetlenia w hali
fabrycznej wzrosła wydajność pracy. Później jednak okazało się, że przyczyną tej
zmiany była raczej świadomość robotników, że ktoś się nimi zainteresował, wybierając ich do udziału w eksperymencie. Mamy tu zatem zmienną uboczną (zdarzenie), która działa w grupie eksperymentalnej, a nie działa w grupie kontrolnej.
Trafność zewnętrzna
Zewnętrzna trafność eksperymentu decyduje o tym, jak szeroko można uogólnić
wynik; mówiąc inaczej – czy są podstawy, by oczekiwać, że wynik odtworzy się
w innych warunkach. W zależności od tego, jak rozumiemy tę inność, mamy trzy
rodzaje trafności zewnętrznej.
Trafność populacyjna: czy wynik odtworzy się w innych populacjach? W eksperymencie grupy porównawcze reprezentują sztuczne populacje zdefiniowane przez
wartości zmiennej niezależnej. Ale kandydaci, z których tworzy się grupy, należą
do populacji realnej (np. szóstoklasiści ze szkoły w Kożuszkach). Dlatego ma sens
pytanie, czy wynik eksperymentu w Kożuszkach wolno uogólnić na wszystkich szóstoklasistów w kraju. Odpowiedź na to pytanie zależy od tego, czy dzieci z Kożuszek wyróżniają się pod względem jakiejś zmiennej, która wchodzi w interakcję ze
zmienną niezależną. Jeśli tak, to odkrycie nie odtworzy się poza Kożuszkami.
Załóżmy, że badamy wpływ warunków, w których uczniowie wypowiadają
się o swojej szkole, na poziom krytycyzmu ich wypowiedzi. Eksperyment w Kożuszkach przyniósł wyraźny wynik: wypowiedzi anonimowe były znacznie bardziej krytyczne niż wypowiedzi, które trzeba było podpisać. Ale w dużej szkole
warszawskiej taka różnica mogłaby się nie pojawić, gdyby tamtejsze dzieci mniej
obawiały się kary za jawne wyrażenie krytyki. Jak pokazuje rys. 3.1, obawa przed
karą wchodzi w interakcję ze zmienną niezależną: warunki wypowiedzi inaczej
wpływają na krytycyzm, gdy obawa jest niska, niż gdy obawa jest wysoka. W tym
samym duchu kwestionuje się trafność wielu eksperymentów z udziałem studentów, ponieważ uważa się, że mają oni wyższe poczucie panowania nad swoim życiem niż ich pracujący rówieśnicy, a ta zmienna wchodzi w interakcję z licznymi
zmiennymi niezależnymi.
Jak widać, odtworzeniu się wyniku w innych populacjach zagraża nie każda
różnica między populacją eksperymentalną a tymi populacjami, lecz tylko różnica
pod względem zmiennych, które wchodzą w interakcję ze zmienną niezależną.
Trudno z góry wykluczyć taką interakcję, toteż trafność populacyjna eksperymentu jest zawsze problematyczna.
Trafność ekologiczna: czy wynik odtworzy się w innych okolicznościach niż
te, które stworzył badacz? Nie jest wcale pewne, czy eksperymentalnie sprawdzona metoda nauczania okaże się lepsza w zwykłej klasie, gdzie jest więcej uczniów,
więcej hałasu, nauczyciel nie zawsze jest cierpliwy itp. W eksperymentach psychologicznych oddziaływania mogą być mało realistyczne. Gdyby słynne badanie
S. Milgrama było studium okrucieństwa, to byłoby nietrafne ekologicznie, ponieważ wiadomo, że ludzie, którzy wymierzali dotkliwe uderzenia prądem „ucznio-
25
Krytycyzm
20
15
10
5
Obawa wysoka
Obawa niska
0
jawne
anonimowe
Warunki wypowiadania się
Rysunek 3.1. Średnie krytycyzmu wypowiedzi w czterech grupach uczniów.
wi” w laboratorium, wcale nie musieli stosować surowych kar wobec własnych
dzieci nierobiących postępów w nauce. Badanie Milgrama jest natomiast ekologicznie trafne jako studium posłuszeństwa.
Nie od wszystkich eksperymentów wymagamy trafności ekologicznej. Jeśli
sprawdzamy wyrafinowaną hipotezę dotyczącą na przykład procesów pobierania
i przetwarzania informacji, z reguły umieszczamy badanych w warunkach tak
niezwykłych (np. w izolowanej kabinie, przed okularem tachistoskopu czy przed
monitorem), że samo pytanie, czy zachowaliby się oni podobnie w codziennym
życiu, nie ma sensu.
Trafność operacyjna: czy wynik odtworzy się przy innych operacjonalizacjach
pojęć teoretycznych? W pewnym eksperymencie badającym skutki frustracji wywoływano u dzieci frustrację przez zakaz dotykania atrakcyjnych zabawek. Czy
można się spodziewać, że wynik odtworzy się, gdy frustracja zostanie wywołana
przez nierozwiązywalne zadanie?
Z powyższych przykładów wynika, że trafność zewnętrzną można oszacować
tylko na podstawie powtarzania eksperymentu: z udziałem różnych badanych, różnych eksperymentatorów, różnie zrealizowanych oddziaływań i różnie mierzonych
skutków. Ma to obosieczne działanie. Z jednej strony – nie pozwala się chełpić autorowi jednego udanego eksperymentu, ale z drugiej – chroni go przed napastliwą
krytyką. W dyskursie naukowym istnieje norma nakazująca przyjmować założenie
ciągłości (Shaughnessy i Zechmeister, 1994, s. 189). Założenie to mówi: wykryte zachowanie uważa się za ciągłe względem czasu, miejsc i osób, chyba że są dowody na
jego nieciągłość. Znaczy to, że ciężar dowodu (onus probandi) spoczywa na krytyku. Jeśli utrzymuje, że uogólnienie wyniku na młodych ludzi jest błędne, ponieważ
zbadano jedynie studentów, powinien przytoczyć dane, które popierają tę opinię,
a najlepiej powtórzyć eksperyment z udziałem młodzieży pracującej.
Schematy badań eksperymentalnych
Jak pamiętamy, największym zagrożeniem trafności wewnętrznej eksperymentu
są zmienne uboczne. Zmienne te badacz stara się kontrolować. Po polsku lepiej
byłoby powiedzieć, że badacz stara się nad nimi zapanować, tzn. ustalić albo ich
wartości, albo ich rozkłady.
Ustalenie wartości (fixing) polega na zadbaniu, by zmienna uboczna miała tę
samą wartość we wszystkich grupach porównawczych. Gdy tak się stanie, łatwo
obalić każdą próbę wyjaśnienia za jej pomocą różnic w zmiennej zależnej. Staramy
się więc, żeby osoby z każdej grupy były badane przez tego samego badacza, w tym
samym pomieszczeniu, o tej samej porze dnia itd. Układamy przekonującą instrukcję, by wszystkie osoby podobnie myślały o celu eksperymentu i o swojej roli.
Zmienne uboczne powinny być ustalone na możliwie niskim poziomie w imię
czułości eksperymentu (jeśli na przykład podejrzewamy, że hałas może wpływać
na zmienną zależną, powinniśmy nie tylko wyrównać jego poziom we wszystkich
grupach, ale i zredukować go). Jest oczywiste, że ustala się tylko wybrane zmienne, nie zaś wszystkie (nie znam eksperymentu, w którym ustalono by na przykład
wielkość ciśnienia atmosferycznego).
Ustalenie rozkładów, czyli równoważenie (balancing), polega na zadbaniu, by
zmienna uboczna miała taki sam rozkład we wszystkich grupach porównawczych.
Jeśli musimy prowadzić eksperyment w dwóch pomieszczeniach, to dbamy o to,
by w każdej grupie odsetek osób badanych w każdym z tych pomieszczeń był taki
sam. Równoważenie jest jedyną metodą kontroli zmiennych indywidualnych.
Zauważmy, że ludzie to wyjątkowo niewdzięczne obiekty badania uogólniającego, ponieważ już w punkcie startu bardzo różnią się między sobą. Można powiedzieć, że wnoszą do eksperymentu zróżnicowane dyspozycje psychiczne: jedni
są bardziej, inni mniej bystrzy, agresywni, skłonni do współpracy, lękliwi itd. Cóż
z tego, że badacz ustali wartość zmiennej niezależnej, skoro w tych samych warunkach jedna osoba zachowa się tak, a druga inaczej? Tych zmiennych indywidualnych ustalić niepodobna, można je tylko równoważyć za pomocą specjalnych
metod doboru badanych do grup porównawczych. Definiują one schematy badań
eksperymentalnych. Na najwyższym poziomie dzielimy je na schematy niezależnych grup (independent groups designs) i schematy porównań wewnątrzosobniczych (within-subjects designs).
Schematy grup niezależnych
Najprostszy schemat tego rodzaju zawiera dwie duże (od 30 osób wzwyż) grupy
utworzone przez niezależne losowanie. Każda z tych grup realizuje jedną wartość
zmiennej niezależnej. Jedną lub więcej zmiennych zależnych mierzy się tylko raz.
Kluczowe znaczenie ma tu losowanie: dzięki niemu możemy mieć nadzieję, że
wszystkie zmienne indywidualne (znane lub nieznane badaczowi) zostaną zrównoważone (np. że w obu grupach będą podobne odsetki osób lękliwych). Zrównoważenie osiąga się za pomocą doboru losowego (random selection), przydziału
losowego (random assignment) lub upodabniania grup (matched groups design).
Dobór losowy. Mając do dyspozycji osoby należące do tej samej, dobrze zdefiniowanej populacji, możemy niezależnie wylosować dowolną liczbę próbek (np.
za pomocą tablicy liczb losowych). Te próbki przydziela się – też losowo, np. za
pomocą rzutu monetą – wartościom zmiennej niezależnej. Tak utworzone grupy
porównawcze są statystycznie równoważne.
Przydział losowy. Gdy populacja, którą tworzą kandydaci do eksperymentu, nie ma teoretycznego znaczenia (np. gdy są to studenci, którzy odpowiedzieli
na ogłoszenie), stosujemy przydział losowy – najczęściej randomizację blokową.
Oznaczmy przez k liczbę grup (wartości zmiennej niezależnej), a przez n – liczbę
osób w każdej grupie. Każde k kolejnych osób zgłaszających się na badanie tworzy
jeden blok. Znajdujemy n losowych sekwencji k wartości zmiennej niezależnej:
x1, x2,..., xk i przyporządkowujemy je blokom. Pierwszą osobę w bloku przydziela
się do pierwszej grupy w przyporządkowanej mu sekwencji, drugą do drugiej itd.
Blok
Nr badanego
Grupa
1
1
2
3
x2
x3
x1
2
4
5
6
x3
x1
x2
...
...
...
10
28
29
30
x1
x3
x2
Nazwisko
J. Kowalski
A. Wieczorek
B. Radwan
...
Nazwisko
M. Szulc
...
Powiedzmy, że prowadzimy eksperyment z trzema grupami (k = 3) i że w każdej
grupie chcemy mieć 10 osób (n = 10). Musimy znaleźć 10 losowych sekwencji trzech
wartości, np. x2, x3, x1; x3, x1, x2 itd. i wpisać je w kolumnie „Grupa” powyższego
formularza. Nazwisko pierwszej osoby, która przyszła na badanie, wpisujemy pod
numerem 1 i przydzielamy ją do grupy x2, nazwisko drugiej wpisujemy pod numerem 2 i przydzielamy ją do grupy x3 itd. Jeśli osoba nie kończy badania (B. Radwan),
na jej miejscu umieszczamy następną (M. Szulc), a powód opisujemy na odwrocie
formularza (np. awaria urządzenia, zmęczenie, zniechęcenie). Musimy znać powody
nieukończenia badania, ponieważ niektóre z nich – związane ze zmiennymi indywidualnymi – kwestionują równoważność grup. Zaletą randomizacji blokowej jest
to, że przydziału osób nie trzeba dokonywać przed eksperymentem, więc gdy nie
przychodzą one w umówionym terminie, nie rujnuje nam to badania.
Tę metodę można stosować nie tylko do zrównoważenia zmiennych indywidualnych. Powiedzmy, że chcąc szybciej ukończyć eksperyment, zatrudniamy dwóch
badaczy. Ale każdy badacz to wiązka dodatkowych zmiennych ubocznych: np. jeden jest bardziej, drugi mniej zdystansowany. Gdybyśmy pierwszemu powierzyli grupę x1, a drugiemu x2, pogwałcilibyśmy zasadę równoważności. Lepiej więc
przypisać każdemu po 5 bloków badanych. Trzeba się jednak liczyć ze wzrostem
zróżnicowania wyników wewnątrz grup, czyli ze spadkiem czułości eksperymentu.
Upodabnianie grup. W tej odmianie schematu grup niezależnych idzie
o zwiększenie podobieństwa między grupami porównawczymi. Zamiast zdać się
na los, staramy się sami wyrównać rozkłady pewnych zmiennych ubocznych. Zaczynamy od pomiaru wstępnego, czyli pretestu. Najczęściej mierzymy zmienną
zależną. Jeśli badamy wpływ organizacji tekstu na jego zrozumienie, zaczynamy
od testu czytania. Możemy też mierzyć zmienne indywidualne (np. osiągnięcia
szkolne, iloraz inteligencji, cechy osobowości). Mając wyniki pretestu, dzielimy
osoby na bloki o liczebności k, tak by w każdym bloku znalazły się osoby z podobnym wynikiem. Następnie przydzielamy osoby z każdego bloku do jednej z k grup
porównawczych według losowej sekwencji liczb od 1 do k.
Jest oczywiste, że najstaranniejsze upodabnianie grup nie gwarantuje podobieństwa pod wszystkimi względami. Co gorsza, wprowadzenie pretestu może
dawać niemiłe skutki uboczne. Po pierwsze, pretest może wchodzić w interakcję
ze zmienną niezależną (np. aktywizować umiejętności, do których odwołuje się
oddziaływanie). Po drugie, przy dwukrotnym testowaniu tym samym narzędziem
zachodzi zjawisko regresji do średniej. Polega ono na tym, że zdarzenia nietypowe (tu: skrajne wyniki pomiaru) są rzadsze, czyli mniej prawdopodobne, niż zdarzenia typowe. Osoby, które w pierwszym pomiarze wypadły gorzej niż zwykle,
w drugim wypadają lepiej, a osoby, które w pierwszym pomiarze wypadły lepiej
niż zwykle, w drugim wracają do typowego dla siebie poziomu. W pewnych warunkach ten samorzutny ruch można pomylić ze skutkiem oddziaływania.
Schematy porównań wewnątrzosobniczych
Kłopoty związane z nierównoważnością grup porównawczych można ominąć
w prosty sposób: przydzielić te same osoby do wszystkich oddziaływań. Taki schemat ma wiele zalet: eliminuje indywidualne zmienne uboczne, zmniejsza zróżnicowanie wyników wewnątrz grup (a tym samym podwyższa czułość eksperymentu), no i wymaga mniejszej liczby badanych. Jest niezastąpiony, gdy zmienna
zależna jest zdefiniowana jako różnica pewnych zmiennych (np. gdy bada się
zmiany zachowania się tej samej osoby pod wpływem zmian w oddziaływaniu).
Słabą stroną tego schematu jest to, że tę samą osobę trzeba kilkakrotnie poddawać pomiarowi. Te pomiary nie są oczywiście niezależne od siebie. Badany może
nabywać wprawy, wskutek czego będzie uzyskiwać coraz lepsze wyniki. Może się
męczyć lub nudzić, wskutek czego jego wyniki będą coraz gorsze. Tego rodzaju zmiany nazywamy efektami ćwiczenia (praktyki). Jeśli ich nie zrównoważymy,
eksperyment będzie nietrafny.
W pewnym eksperymencie przeprowadzonym w schemacie porównań wewnątrzosobniczych badano, jak dzieci w różnym wieku spostrzegają odcienie różnych kolorów. Eksperyment wykazał, że wiek różnicuje rozpoznawanie odcieni
koloru niebieskiego: błędnie szeregowała je połowa trzylatków, a tylko 11% dziesięciolatków. Już po opublikowaniu wyniku krytycy zauważyli, że odcienie koloru niebieskiego zawsze eksponowano jako ostatnie. Dzieci, zwłaszcza młodsze, mogły być
już znużone powtarzającym się zadaniem. Powtórzenie badania ze zrównoważoną
kolejnością kolorów potwierdziło to przypuszczenie. Odkrycie okazało się pozorne.
Równoważenie kolejności oddziaływań może być zupełne lub niezupełne.
Równoważenie zupełne. Możemy tu zastosować znaną już metodę randomizacji blokowej. Załóżmy, że zmienna niezależna ma 3 wartości i że każda wartość jest
eksponowana każdej osobie 18 razy. Jedna osoba wykonuje zatem serię 54 prób. Trzy
kolejne próby tworzą jeden blok. W każdym bloku występują 3 wartości zmiennej
niezależnej w porządku losowym. Wskutek tego w całej sekwencji 54 prób każda
wartość X ma średnio taką samą pozycję. Łatwo to sprawdzić, obliczając średnią
pozycję każdej wartości (tj. sumując numery miejsc zajmowanych przez tę wartość
i dzieląc sumę przez 18). Efekty ćwiczenia zostały w ten sposób zneutralizowane.
Metody tej nie należy stosować, gdy seria prób jest krótka. Bezpieczniejsze jest
wtedy tzw. równoważenie ABBA, czyli uzupełnianie sekwencji wartości zmiennej
niezależnej przez jej odwrotność. Jeśli w pierwszym bloku wartości występowały
w kolejności x2, x1, x3, w drugim wystąpią w kolejności x3, x1, x2. Metoda ta zapewnia pełną kontrolę efektów ćwiczenia, jeśli rosną one równomiernie z próby
na próbę. Jeśli natomiast efekty te są skokowe (np. w kilku pierwszych próbach
następuje duży przyrost wprawy, a w następnych mały), można po prostu usunąć
początkowe bloki z analizy.
Równoważenie niezupełne. Stosuje się je wówczas, gdy badany wykonuje tylko jedną próbę w każdym z warunków eksperymentalnych – np. ma ocenić cztery
sylwetki nauczycieli pod względem „kompetencji wychowawczej”. Oceny jednej
osoby są niezrównoważone, ale można je zrównoważyć w całej próbce badanych.
Zasada jest prosta: każda sylwetka (wartość zmiennej niezależnej) musi pojawiać
się jednakowo często na miejscu pierwszym, drugim, trzecim i czwartym. Można
wypisać wszystkie możliwe porządki czterech liczb i losowo przydzielić je badanym. Przy czterech wartościach takich porządków jest 24 (ogólnie k!), więc w eksperymencie muszą wziąć udział przynajmniej 24 osoby lub dowolna wielokrotność tej liczby. Ale liczba porządków szybko rośnie wraz ze wzrostem k (np. gdy
k = 6, to n = 720), więc gdy zmienna niezależna ma więcej niż 4 wartości, musimy
ograniczyć się do niektórych porządków. Jak je wybrać?
W takich wypadkach najczęściej stosuje się kwadrat łaciński. Wartościom X
przyporządkowujemy losowo liczby od 1 do k, budujemy kwadrat k × k i wypełniamy go porządkami wiersz po wierszu. Pierwszy wiersz kwadratu powstaje według ogólnej reguły: 1, 2, k, 3, k–1, 4, k–2, 5, k–3 itd. Każdy następny powstaje
z dodania jedności do liczby w poprzednim wierszu, przy czym k + 1 równa się 1.
Oto kwadrat łaciński dla k = 6:
1
2
3
4
5
6
2
3
4
5
6
1
6
1
2
3
4
5
3
4
5
6
1
2
5
6
1
2
3
4
4
5
6
1
2
3
Jeśli k jest liczbą nieparzystą, równoważenie wymaga dodania drugiego kwadratu, którego wiersze zawierają liczby w odwrotnej kolejności. Dla k = 5 mamy
zatem kwadrat:
1
2
3
4
5
2
3
4
5
1
5
1
2
3
4
3
4
5
1
2
4
5
1
2
3
4
5
1
2
3
3
4
5
1
2
5
1
2
3
4
2
3
4
5
1
1
2
3
4
5
Każdy wiersz kwadratu przydziela się losowo jednej osobie badanej, skąd wynika, że liczba badanych musi być wielokrotnością k.
Inną metodą równoważenia niezupełnego jest rotacja. Pierwszy porządek
k wartości uzyskuje się przez losowanie, a następne tworzy przez przesuwanie
liczb w lewo o jedno miejsce. W ten sposób z porządku 2, 3, 1, 4 otrzymujemy trzy
nowe: 3, 1, 4, 2; 1, 4, 2, 3 i 4, 2, 3, 1.
Trzeba pamiętać, że nie wszystkie efekty ćwiczenia dają się zrównoważyć. Każda metoda równoważenia zawiedzie, jeśli wprawa przenosi się w sposób zróżnicowany: bardziej z xi na xj niż z xj na xi. Weźmy najprostszą, dwuwartościową zmienną niezależną, w której x1 to nowa, hipotetycznie lepsza metoda nauczania, a x2 to
jej tradycyjny odpowiednik. Jeśli ta nowa metoda jest rzeczywiście skuteczna, to
będzie wywierać wpływ na uczenie się pod kierunkiem metody tradycyjnej, natomiast metoda tradycyjna niewiele wniesie do uczenia się pod kierunkiem nowej.
Wskutek tego wyniki nauczania metodą x2 będą zawyżone, a różnica między x1 i x2
mniejsza, niż jest w rzeczywistości.
Ilekroć podejrzewamy, że zachodzi zróżnicowany przepływ (transfer) wprawy,
powinniśmy się posłużyć schematem grup niezależnych. Czytelnik zechce zauważyć, że gdy stosujemy metodę wszystkich porządków k wartości w próbce badanych o liczebności n (równej wielokrotności k!: n = ak!), to pierwsza próba każdej
osoby tworzy eksperyment w schemacie k grup niezależnych z a (k – 1)! osobami
w grupie. Dane tego subeksperymentu analizuje się osobno, a wyniki porównuje
z wynikami całego eksperymentu. Jeśli są między nimi istotne różnice, to znaczy,
że istnieje zróżnicowany transfer wprawy. Eksperyment w schemacie porównań
wewnątrzosobnicznych należy wówczas uznać za nietrafny.
Schematy złożone
Dotąd rozpatrywaliśmy schematy z jedną zmienną niezależną. Gdy jest ich więcej,
mówimy o schematach złożonych (wieloczynnikowych). Każda zmienna niezależna może być zrealizowana albo w schemacie grup niezależnych, albo w schemacie
porównań międzyosobniczych.
Schematy złożone są niezbędne, gdy weryfikujemy twierdzenia teoretyczne
mówiące o łącznym wpływie kilku zmiennych niezależnych na zmienną zależną.
Jedno z takich twierdzeń mówi, że zachowanie agresywne jest wywoływane przez
frustrację połączoną ze spostrzeżeniem skutków cudzej agresji. W eksperymencie
sprawdzającym stosowną hipotezę potrzebujemy dwóch zmiennych niezależnych
(w najprostszym przypadku dwuwartościowych) i jednej zmiennej zależnej. Załóżmy, że na wielkość frustracji wpływamy za pomocą rzekomo nieprzeznaczonego
dla uszu osoby badanej komentarza na jej temat: neutralnego lub obraźliwego. Na
treść spostrzeżenia wpływamy za pomocą jednego z dwóch filmów przedstawiających agresywną grę w koszykówkę: pokazującego agresywne akty napastników
lub oznaki cierpienia ofiar napaści. Wielkość agresji w zachowaniu się badanego
szacujemy za pomocą iloczynu napięcia i czasu trwania szoków elektrycznych wymierzanych przezeń innemu badanemu w rzekomym eksperymencie nad rolą kar
w uczeniu się. Mamy zatem dwie zmienne niezależne:
• treść komentarza: {neutralny, obraźliwy},
• treść filmu: {agresja napastnika, cierpienie ofiary},
i jedną zmienną zależną:
• suma iloczynów napięcia i czasu trwania wymierzanych szoków elektrycznych.
Mając dwie dwuwartościowe zmienne niezależne, musimy utworzyć 2 × 2,
czyli 4 grupy porównawcze. Jeśli w każdej ma być po 10 osób, potrzebujemy 40
osób. Z tych osób najpierw tworzymy (np. metodą randomizacji blokowej) dwie
20-osobowe grupy różniące się pod względem podsłuchanego komentarza, a potem z każdej z nich tworzymy tą sama metodą dwie 10-osobowe grupy różniące
się pod względem treści filmu. Średnie arytmetyczne zmiennej zależnej mogłyby
się ułożyć tak, jak w poniższej tabeli6.
Komentarz
neutralny
obraźliwy
Średni efekt
filmu
Napastnik
54,9
58,0
56,5
Ofiara
41,7
78,0
59,9
Średni efekt komentarza
48,3
68,0
Treść filmu
Tabela zawiera średnie z czterech grup porównawczych oraz średnie brzegowe
z grup odpowiadających wartościom jednej zmiennej niezależnej. Takie dane pozwalają zdefiniować trzy rodzaje efektów:
• Efekt główny zmiennej niezależnej: odnosi się do różnic między średnimi,
które odpowiadają wartościom tej zmiennej bez względu na wartości innych
zmiennych. Nasze dane pokazują, że główny efekt komentarza (19,7) jest
znacznie większy niż główny efekt treści filmu (3,4).
• Efekt prosty zmiennej niezależnej: odnosi się do różnic między średnimi w obrębie jednej wartości innej zmiennej niezależnej. Zmienna komentarza ma
dwa efekty proste: większy przy filmie eksponującym cierpienia ofiary (36,3),
mniejszy przy filmie eksponującym akcje napastnika (3,1). Podobnie dwa efekty proste ma zmienna treści filmu (–13,2 i 20,0).
• Efekt interakcyjny dwóch (lub więcej) zmiennych niezależnych: odnosi się do
różnic między efektami prostymi tej samej zmiennej. Im większe są te różnice,
6
Ten układ danych nie jest całkiem fikcyjny (por. Hartmann 1969).
w tym większym stopniu obie zmienne niezależne współdziałają ze sobą w wytwarzaniu wartości zmiennej zależnej.
Efekt interakcyjny zasługuje na szersze omówienie. Gdybyśmy w naszym przykładzie ograniczyli się do efektów głównych, to stwierdzilibyśmy, że treść filmu nie
wpływa na zachowanie agresywne. Byłby to jednak wniosek fałszywy7. Treść filmu
wpływa na to zachowanie, tyle że w interakcji z komentarzem. By to lepiej zrozumieć, warto sporządzić wykres średnich (rys. 3.2). Można go czytać tak, jakby
przedstawiał wyniki dwóch eksperymentów z jedną zmienną niezależną (treścią komentarza). Widać, że oba eksperymenty prowadzą do różnych wniosków: pierwszy
(„cierpienie ofiary”) mówi: jest wyraźna zależność między rodzajem komentarza
a agresją w zachowaniu się, drugi mówi: nie ma zależności między rodzajem komentarza a agresją. Taka rozbieżność jest świadectwem istnienia interakcji.
90
Średnia iloczynu
80
70
60
Cierpienie ofiary
50
Akcja napastnika
40
30
neutralny
obraźliwy
Rozdzaj komunikatu
Rysunek 3.2. Średnie dotkliwości szoków elektrycznych w zależności od rodzaju komunikatu i treści filmu
Graficznym odpowiednikiem interakcji jest nierównoległość linii reprezentujących poszczególne eksperymenty8. Taka nierównoległość powstaje wtedy, gdy
w pewnych punktach wykresu (czyli w pewnych grupach porównawczych) dzieje
się coś szczególnego: splot pewnych wartości zmiennych niezależnych wytwarza
nową jakość, która podwyższa lub obniża wartości zmiennej zależnej. Interpretacja interakcji polega zwykle na wskazaniu takiego punktu i wyjaśnieniu, jakie siły
w nim działają. W naszym przykładzie takim szczególnym punktem zdaje się ten,
Ogólniej – brak głównego efektu dowolnej zmiennej nigdy nie jest dostatecznym powodem uznania jej za obojętną wobec danej zmiennej zależnej, zawsze bowiem pozostaje
możliwość, że wchodzi ona w interakcję z jakąś nieznaną zmienną niezależną.
8
Jest tak pod warunkiem, że nierównoległość nie jest wytworzona przez ograniczenie
zmiennej zależnej od góry („efekt sufitowy”) lub od dołu („efekt podłogowy”). Źródłem
takich ograniczeń jest zbyt krótka skala pomiaru zmiennej zależnej, wskutek czego większość badanych osiąga maksymalne albo minimalne wyniki.
7
w którym dochodzi do spotkania chęci zaszkodzenia innemu z demonstracją skuteczności szkodzenia: ta kombinacja prowadzi do większej erupcji agresji, niżby to
wynikało z samego dodania obu składników.
Schematy złożone mogą mieć dowolną liczbę zmiennych niezależnych
(czynników), a każda zmienna dowolną liczbę wartości. Jeśli wszystkie są zrealizowane w schemacie grup niezależnych, to łączna liczba grup porównawczych
(w żargonie środowiskowym: „kratek”) jest równa iloczynowi liczby wartości
wszystkich czynników, liczba głównych efektów – liczbie czynników, liczba
interakcji dwóch zmiennych – liczbie par czynników, liczba interakcji trzech
zmiennych – liczbie trójek czynników itd. Powiedzmy, że prowadzimy eksperyment mający trzy czynniki – siła motywacji (3 wartości), trudność zadania
(2 wartości) i wielkość potrzeby stymulacji (2 wartości) oraz jedną zmienną zależną – jakość wykonania zadania. Taki eksperyment opisuje formuła 3 × 2 ×
2 (znak „×” czyta się „na”). Analiza polega na oszacowaniu i zinterpretowaniu
trzech efektów głównych, trzech interakcji dwóch zmiennych i jednej interakcji
trzech zmiennych.
Oprócz sprawdzania hipotez wieloczynnikowych schematy złożone służą też
do kontrolowania zmiennych ubocznych. Dotąd omówiliśmy dwie takie metody:
ustalanie i równoważenie. Obie mają wady. Ustalając zmienną, ograniczamy trafność zewnętrzną eksperymentu. Na przykład badając uczenie się, musimy kontrolować trudność zadania. Jeśli użyjemy wyłącznie zadań łatwych, pozostanie wątpliwość, czy wynik odtworzy się przy zadaniach trudnych. Równoważąc zmienną,
zwiększamy zróżnicowanie wyników w grupach porównawczych, a przez to
zmniejszamy czułość eksperymentu. Schemat złożony pozwala wbudować zmienną uboczną jako dodatkową (kontrolowaną) zmienną niezależną.
Typową zmienną uboczną jest płeć badanych. Możemy ją ustalić, prowadząc
eksperyment z udziałem tylko dziewcząt lub tylko chłopców. Możemy ją równoważyć, dbając, by proporcja dziewcząt była taka sama we wszystkich grupach.
Możemy wreszcie wprowadzić płeć jako dodatkową dwuwartościową zmienną
niezależną. Opisany wyżej eksperyment dotyczący czynników agresywnego zachowania się obejmował jedynie młodych mężczyzn. Gdyby dodać 4 identyczne
grupy z udziałem młodych kobiet (czyli stworzyć schemat 2 × 2 × 2), dowiedzielibyśmy się, czy oba efekty (komentarza i filmu) pojawiają się także w populacji
kobiet. Gdybyśmy wykryli istotną interakcję płci z innymi czynnikami eksperymentalnymi, ogólne twierdzenie (zachowanie agresywne wzmaga frustracja połączona ze spostrzeżeniem skutków cudzej agresji) przyszłoby ograniczyć do mężczyzn. Sprawdzając istotność głównego efektu płci, dowiedzielibyśmy się ponadto,
czy kobiety są mniej agresywne, tzn. czy wymierzają, średnio rzecz biorąc, słabsze
i krótsze uderzenia prądem niż mężczyźni.
Schematy eksperymentów naturalnych
Eksperymenty zwykło się dzielić na laboratoryjne i naturalne, zwane też terenowymi. Pierwsze przebiegają w specjalnie urządzonych, odizolowanych od resz-
ty świata pomieszczeniach, drugie w miejscach codziennego życia badanych (w
szkole, zakładzie pracy, szpitalu itp.). W pierwszych stosuje się oddziaływania,
które nie występują na co dzień, w drugich – oddziaływania właściwe miejscu (np.
różne metody nauczania, organizacji pracy czy leczenia).
Eksperymenty naturalne prowadzi się z różnych powodów. Czasem po to, by
sprawdzić przewidywanie, które dotyczy zmian długofalowych (np. skutków określonej diety), albo po to, by określić trafność zewnętrzną eksperymentu laboratoryjnego. Częściej jednak eksperymenty naturalne podejmuje się z intencją praktyczną: by sprawdzić skuteczność nowej metody praktycznego działania.
Eksperymenty naturalne podlegają wielu ograniczeniom. Najważniejsze to
niemożność losowego tworzenia grup porównawczych. Trudno oczekiwać, że dyrektor szkoły zgodzi się utworzyć dwa nowe oddziały klasy VI według wskazań
badacza. Zaprotestować mogą też potencjalni badani. Ponieważ trzeba ich poinformować o celu badania, to ci, którzy wierzą uczonym, mogą nie zgodzić się na udział
w grupie kontrolnej, a ci, którzy nie wierzą – w grupie eksperymentalnej. Zresztą
dobór losowy mógłby obniżyć zewnętrzną trafność eksperymentu. Wyniki badania
skuteczności nowej metody nauczania w sztucznym oddziale klasowym nie musiałyby się wcale odtworzyć w naturalnych oddziałach. Trzeba więc pracować na
grupach naturalnych, które powstały na długo przed eksperymentem, np. na całych
oddziałach klasowych, zespołach pracowniczych czy oddziałach szpitalnych.
Innym ograniczeniem jest efekt Hawthorne. Nauczyciele wybrani do eksperymentu czują się wyróżnieni i pracują inaczej niż zwykle. Uczniowie, nawet jeśli nie
powiedziano im, że biorą udział w eksperymencie, mogą się tego domyślać, widząc
zmiany w codziennej rutynie. Jeszcze innym – zanieczyszczenie eksperymentu (contamination). Nazywamy tak zakłócenia biorące się stąd, że uczestnicy eksperymentu
informują się o tym, co się dzieje w ich grupach. Jeśli osoby z grupy kontrolnej dowiedzą się, że w grupie eksperymentalnej dzieją się ciekawe rzeczy, mogą stracić zapał do
pracy lub poczuć się oszukani. Może się też wywiązać rywalizacja między grupami.
W eksperymentach naturalnych wątpliwa bywa trafność zewnętrzna, a to dlatego że zmienne miejsca, np. tradycja danej szkoły, często wchodzą w interakcję z oddziaływaniami. Wskutek tego metoda projektów może się sprawdzić w szkole stawiającej na samodzielność, ale nie sprawdzić w szkole wymagającej posłuszeństwa.
Dlatego większość eksperymentów naturalnych to quasi-eksperymenty. Nie
znaczy to, że nie należy ich prowadzić. Wyniki nawet ułomnych badań mają większą wartość niż gołosłowna propaganda. Na zakończenie przedstawię kilka najczęściej używanych schematów eksperymentów naturalnych wraz z uwagami o ich
ograniczeniach, by czytelnik mógł wybrać najlepiej dostosowany do jego celu.
Zacznijmy od najbardziej bodaj popularnego schematu. Mamy dwie grupy naturalne (nielosowe): „eksperymentalną” i „kontrolną”. W pierwszej
stosuje się oddziaływanie (X), i pomiar zmiennej zależnej (P), a w drugiej
pomiar bez oddziaływania. Na przykład w jednym oddziale nauczyciel ilustruje
lekcję filmem, a w drugim nie, po czym daje uczniom stosowny test wiadomości.
X–P
P
Niestety, schemat ten ma same wady. Oddziały klasowe różnią się od siebie
pod wieloma względami, więc nie mogą być uznane za równoważne. Losowy wybór oddziału eksperymentalnego w niczym tego nie zmienia. Wprowadzenie jakiejkolwiek nowości może wywrzeć wpływ na zapamiętanie treści, ponieważ uczniowie są zaciekawieni, czują się wyróżnieni itp., więc bardziej uważają na lekcji.
Także nauczyciel staranniej przygotowuje się do lekcji „eksperymentalnej” niż do
„kontrolnej”. Podobnie chorzy mogą się poczuć lepiej na samą wiadomość o tym,
że dostali nowy lek.
W tym schemacie mamy tylko jedną grupę naturalną i dwa pomiary: przed i po oddziaływaniu. O wpływie X wnioskuje się z różnicy
między P2 i P1. Trafność wewnętrzna tego schematu jest niedopuszczalnie niska.
Nie wiadomo, w jakim stopniu wynik zależy od składu grupy i kwalifikacji nauczyciela, zastosowania pretestu (lepszy wynik w drugim pomiarze może być po
prostu efektem ćwiczenia), zdarzeń ubocznych (np. innych zajęć szkolnych) lub
ubywania dzieci w czasie eksperymentu (np. wskutek choroby).
P1–X– P2
Udoskonalona wersja poprzedniego schematu: dwie nierównoważne
grupy naturalne. W grupie eksperymentalnej mamy dwa pomiary:
przed i po oddziaływaniu, w grupie kontrolnej – takie same pomiary
bez oddziaływania. Porównanie P1 w obu grupach informuje o ich podobieństwie,
a porównanie P2 z P1 w grupie kontrolnej o tym, czy różnica P2 – P1 w grupie eksperymentalnej nie jest wywołana przez czynniki uboczne (np. zewnętrzne zdarzenia
lub zmiany rozwojowe).
Niestety, brak różnicy w pretestach nie wyklucza możliwości, że grupy różnią
się pod innymi ważnymi względami (np. pod względem szybkości uczenia się czy
wytrwałości). Wiadomo, że oddziały klasowe często tworzy się w sposób nielosowy (np. według osiągnięć, trudności wychowawczych czy pochodzenia społecznego
uczniów). Podobnie brak różnicy między oboma pomiarami w grupie kontrolnej
nie wyklucza, że różnica w grupie eksperymentalnej została wywołana przez jakieś
lokalne wydarzenie (np. wyjazd na wycieczkę, zwycięstwo w jakimś konkursie).
Nie kontroluje się tu także regresji do średniej, a może ona istotnie obniżyć
trafność eksperymentu, jeśli badacz sztucznie wyrówna wyniki pretestu. Gdy
jeden oddział okazuje się w preteście lepszy niż drugi, badacz może po prostu
uwzględnić w analizie tylko tych uczniów z pierwszego oddziału, którzy uzyskali
gorsze wyniki, i tylko tych z drugiego, którzy uzyskali lepsze. Ale w drugim pomiarze można się spodziewać podwyższenia średniej w pierwszej grupie i obniżenia średniej w drugiej wyłącznie wskutek regresji. Jeśli pierwszy oddział jest
grupą eksperymentalną, grozi to przyjęciem hipotezy fałszywej. Jeśli jest grupą
kontrolną, grozi to odrzuceniem hipotezy prawdziwej.
Początkowe różnice między grupami próbuje się czasem zniwelować przez
redefinicję zmiennej zależnej. Zamiast porównywać średnie P2 w obu grupach,
proponuje się porównywać średnie wskaźnika zmiany (tj. różnice P2 – P1 dla każdej osoby). Jeśli różnica między średnimi zmiany jest istotna, wynik można sforP1–X– P2
P1– – P2
mułować tak: „Uczniowie z grupy eksperymentalnej zmienili swoje zachowanie
bardziej niż uczniowie z grupy kontrolnej, niezależnie od stanu początkowego”.
Kłopot w tym, że wskaźnik zmiany jest mało rzetelny, a ponadto zwykle ujemnie
skorelowany z wynikiem pretestu, ponieważ spektakularny postęp łatwiej osiąga
nowicjusz niż ekspert (u drugiego z nich zachodzi efekt sufitowy). Łatwiej więc
potwierdzić hipotezę, gdy grupą eksperymentalną jest oddział gorszy w preteście,
niż gdy jest nią oddział lepszy w preteście.
Udoskonalona wersja drugiego schematu: schemat szeregów czasowych. Mamy
tu jedną grupę naturalną. Dokonujemy szeregu pomiarów zmiennej zależnej
w ustalonych odstępach czasu (tu: 5), wprowadzamy oddziaływanie i kontynuujemy pomiary. O wpływie oddziaływania wnioskujemy na podstawie zmiany wartości następujących po nim pomiarów. Na przykład przez kilka tygodni rejestrujemy
liczbę spóźniających się uczniów, następnie wprowadzamy pewną innowację (np.
premię za punktualność) i znów przez kilka tygodni liczymy spóźnialskich. Hipotezę o skuteczności innowacji uznaje się za potwierdzoną, jeśli od momentu jej
wprowadzenia widać natychmiastowy lub odroczony spadek spóźnień. Liczne pomiary przed i po oddziaływaniu eliminują konkurencyjne wnioski odwołujące się
do zmian zachodzących samorzutnie w badanych, do regresji lub wpływu zabiegów pomiarowych. W wielu praktycznych zastosowaniach tego schematu pomiary zastępuje się danymi archiwalnymi. Można na przykład oszacować skuteczność
nakazu jeżdżenia z włączonymi światłami w ciągu doby przez porównanie liczby
wypadków drogowych zarejestrowanych przez policję przed i po wprowadzeniu
nakazu.
P1–P2–P3–P4–P5–X–P6–P7–P8–P9–P10
Lepsza wersja poprzedniego schematu,
wzbogacona o nierównoważną grupę
kontrolną. Poprzedni schemat pozostawiał wątpliwość, czy zmiany w pomiarach następujących po oddziaływaniu nie
biorą się z innych źródeł. Spóźnienia, podobnie jak wagary, samorzutnie zmniejszają się zimą, a wzrastają wiosną. Pracowitość studentów rośnie w miarę zbliżania
się sesji egzaminacyjnej. Wprowadzenie grupy kontrolnej (sąsiedniej szkoły czy
sąsiedniego państwa) pozwala wyeliminować tę wątpliwość. Można też wprowadzić, a po kilku pomiarach usunąć oddziaływanie. Jeśli zmienna zależna powróci do stanu początkowego, będzie to silny dowód, że jest przyczynowo związana
z oddziaływaniem.
Zauważmy na zakończenie, że doskonałym remedium na nierównoważność
grup są schematy porównań wewnątrzosobniczych. Jeśli chcemy sprawdzić czytelność trzech podręczników: x1, x2, x3, musimy jedynie zrównoważyć kolejność,
w jakiej uczniowie będą się z nimi zapoznawać. Przydaje się tu rotacja. Schemat
pokazuje poniższa tabela. Uczniowie nie mogą, oczywiście, trzykrotnie czytać
o tym samym, gdyż wywoływałoby to zróżnicowany transfer wprawy, który niweczy trafność eksperymentu.
P1–P2–P3–P4–P5–X–P6–P7–P8–P9–P10
P1–P2–P3–P4–P5– –P6–P7–P8–P9–P10
Oddział
VIa
VIb
VIc
Kolejność
I
II
III
x1
x3
x2
x3
x2
x1
x2
x1
x3
Badania porównawcze
Badania porównawcze pod pewnym względem przypominają eksperyment: tu też
tworzy się grupy reprezentujące wartości zmiennej niezależnej, definiuje zmienną
zależną i porównuje jej rozkłady w grupach w celu wykrycia związków między
zmienną niezależną a zależną. Ale inaczej niż w eksperymencie badacz nie wytwarza warunków czy oddziaływań, lecz korzysta ze zróżnicowania, które wytworzyło
samo życie.
Badania porównawcze są substytutem badań eksperymentalnych. Stosujemy
je wtedy, gdy eksperymentowanie jest trudne lub niemożliwe. Jeśli chcemy sprawdzić hipotezę o wpływie powodzi na stosunki społeczne na wsi, o wpływie amputacji kończyny na poczucie własnej wartości pacjenta lub o wpływie rozwodu
rodziców na zaburzenia emocjonalne u potomstwa, nie możemy wywołać powodzi, dokonać amputacji czy sprowokować rozwodu. Możemy natomiast utworzyć
grupy porównawcze złożone odpowiednio: ze wsi, które doświadczyły, i wsi, które
nie doświadczyły powodzi, z młodych ludzi, którzy w ciągu ostatniego miesiąca
przeszli amputację, i ich rówieśników nie dotkniętych tym nieszczęściem, z dzieci
z rodzin rozbitych i pełnych. Z tego powodu schemat badań porównawczych jest
szeroko stosowany przez socjologów, antropologów kultury, psychologów rozwojowych i klinicystów, a także wielu pedagogów.
W badaniach porównawczych zmienną niezależną jest kryterium doboru porównywanych populacji. Każda wartość zmiennej niezależnej odnosi się do jednej
realnej populacji, np. {polskie dzieci z rodzin rozbitych, polskie dzieci z rodzin
pełnych}. Z każdej populacji pobieramy metodą niezależnego losowania próbkę o wielkości tak dobranej, by uzyskać pożądaną dokładność porównania (por.
rozdz. 6). W próbkach mierzymy jedną lub więcej zmiennych zależnych, po czym
szacujemy efekty główne, proste i interakcyjne.
Mimo że badania porównawcze są podobne do eksperymentalnych, nie dają
one równie mocnych podstaw do wnioskowania przyczynowego. Po pierwsze,
w eksperymencie wartość zmiennej zależnej jest zawsze odpowiedzią badanego
na wytworzone warunki, a zatem zdarzeniem późniejszym niż wartość zmiennej
niezależnej. Jeśli damy badanym z jednej grupy serię nierozwiązywalnych zadań,
a z drugiej – serię podobnych, lecz rozwiązywalnych zadań i stwierdzimy, że większość pierwszych zareagowała zespołem wyuczonej bezradności, możemy uznać,
że to bezproduktywny wysiłek umysłowy jest przyczyną wyuczonej bezradności,
a nie na odwrót. Ale w badaniach porównawczych stosunki czasowe między obiema zmiennymi mogą być rozmaite.
Badania porównawcze 67
Bywa, że pewne wartości zmiennej zależnej ukształtowały się wcześniej niż
wartości zmiennej niezależnej. Załóżmy, że wylosowaliśmy dwie próbki: bezrobotnych i mających stałe zatrudnienie, zmierzyliśmy różne cechy osobowości
tworzących je osób i stwierdziliśmy, że osoby z pierwszej próbki mają poczucie
mniejszego panowania nad własnym życiem niż osoby z drugiej próbki. Wniosek,
że bezrobocie jest przyczyną spadku poczucia panowania, byłyby jednak pochopny – jest bowiem możliwe, że u bezrobotnych poczucie to było obniżone jeszcze
przed utratą pracy, wskutek czego mniej aktywnie zabiegali o jej utrzymanie i zostali zwolnieni.
Gdy nie ma wątpliwości, że zmienna zależna ukształtowała się później niż zmienna niezależna, wniosek, że pierwsza jest skutkiem drugiej, obronić łatwiej. Wiadomo, że uczniowie pochodzący z rodzin o wysokim statusie socjoekonomicznym
mają wyższe osiągnięcia szkolne niż uczniowie z rodzin o niskim statusie. Ponieważ
jest mało prawdopodobne, by osiągnięcia szkolne wpływały na status rodziny ucznia, wolno twierdzić, że jakieś zmienne składające się na status (choć oczywiście nie
wiadomo, jakie) należą do zbioru przyczyn powodzenia oświatowego.
Zauważmy przy okazji, że schemat badań porównawczych dopuszcza pewną
dowolność, którą ze zmiennych ustalimy, tj. uznamy za niezależną. Wybór wpływa
jednak na prawomocność wniosków przyczynowych i dlatego powinien być poprzedzony analizą stosunków czasowych między zmiennymi. Wyobraźmy sobie,
że chcemy sprawdzić fragment teorii socjalizacji, która głosi, że niepowodzenia
szkolne odpychają ucznia od „większościowej” wspólnoty normatywnej, że zatem
szuka on innej, z konieczności „mniejszościowej” wspólnoty, która mogłaby go zaakceptować, i że często bywa to grupa przestępcza. Mamy do wyboru dwie drogi:
• możemy wylosować próbkę dobrych uczniów i próbkę złych uczniów, po czym
porównać ich stosunek do norm prawnych,
• możemy wylosować próbkę młodzieży łamiącej normy prawne i próbkę młodzieży przestrzegającej norm, po czym porównać ich osiągnięcia szkolne.
W pierwszym wariancie ograniczamy się tylko do uczniów. Zmienna niezależna może być ustalona jako górny i dolny kwartyl średniej stopni szkolnych.
Zmienną zależną mogą być opinie nauczycieli lub zarejestrowane akty łamania
norm (np. kradzieże lub maltretowanie słabszych kolegów). Gdy stwierdzimy różnicę, możemy sformułować wniosek: „Dobrzy uczniowie mają na koncie mniej
wykrytych aktów łamania prawa niż źli uczniowie”.
W drugim wariancie populacją generalną jest kohorta (np. rocznik osiemnastolatków). Zmienną niezależną ustalamy na podstawie rejestrów policyjnych lub
sądowych. Zmienną zależną jest średnia stopni szkolnych z, powiedzmy, dwóch
ostatnich klas szkoły podstawowej. Gdy stwierdzimy różnicę, możemy powiedzieć: „Młodzież, która weszła w konflikt z prawem, dostawała w przeszłości niższe stopnie niż młodzież, która nie miała konfliktów z prawem”.
Z tych dwóch wniosków jeden mówi o bieżącym zdrowiu moralnym dobrych
i złych uczniów, a drugi o przeszłości oświatowej młodzieży normalnej i wykolejonej. Ponieważ nasza teoria zakłada, że niepowodzenia szkolne są jedną z przyczyn
wykolejenia się, lepiej wybrać wariant drugi, w którym niepowodzenia są wcześ-
niejsze w stosunku do wykolejenia. Wariant pierwszy – choć znacznie łatwiejszy
do przeprowadzenia – pozostawia wątpliwość, czy stan zdrowia moralnego należy
do zbioru skutków, czy do zbioru przyczyn tego, jak się uczniowi wiedzie w szkole.
Drugi powód tego, że wnioskowanie przyczynowe jest zawsze wątpliwe, wiąże
się z niepełną kontrolą zmiennych ubocznych. Próbki pobrane z realnych populacji są zawsze heterogeniczne. Osoby należące do poszczególnych próbek różnią się
od siebie pod wieloma względami. Dobór losowy kontroluje część różnic indywidualnych, ale nie wszystkie – zawodzi w odniesieniu do tych zmiennych, które są
skorelowane ze zmienną niezależną.
Weźmy prosty przykład. Chcemy sprawdzić hipotezę, że osoby zajmujące stanowiska kierownicze cechuje wyższy indywidualizm niż osoby na stanowiskach
podporządkowanych. Pobrawszy dwie losowe próbki (kierowników i podwładnych), aplikujemy badanym stosowną skalę psychologiczną i stwierdzamy, że
w pierwszej próbce średnia indywidualizmu jest istotnie wyższa niż w drugiej. Do
jakiego wniosku uprawnia taki wynik?
Wiemy już, że nie uprawnia do wniosku, że stanowisko jest przyczyną indywidualizmu, równie dobrze bowiem może być odwrotnie. Ale nawet ostrożny wniosek, że obie zmienne są ze sobą związane, może być nieuzasadniony, jeśliby się
okazało, że w tym schemacie jest uwikłana zmienna płci (tj. że na stanowiskach
kierowniczych są nadreprezentowani mężczyźni). Recenzent doniesienia miałby
prawo utrzymywać, że różnica średnich indywidualizmu została wytworzona raczej przez płeć niż przez stanowisko, więc że wyniki nie rozstrzygają o prawdziwości hipotezy.
Nie ma metody, która pozwoliłaby się zabezpieczyć przed wszelką krytyką tego
rodzaju. Gdy badanie ma charakter eksploracyjny, niepewność co do prawdziwej przyczyny zaobserwowanych różnic może być bardzo dotkliwa. Prowadząc
badania weryfikacyjne, jesteśmy w lepszej sytuacji. Nie przystępujemy do pracy
z ogólnikowym pytaniem: „Od czego to może zależeć?”, lecz z określonym przewidywaniem. Im bardziej rozwinięta jest teoria, tym bardziej szczegółowe i nieoczywiste są te przewidywania. Jeśli się potwierdzą, będzie bardzo trudno przypisać
je jakimś zmiennym uwikłanym. W tym sensie szczegółowość i nieoczywistość
przewidywań to najlepsza obrona przed krytyką.
Badania poprzeczne i podłużne
Badania porównawcze, podobnie jak przeglądowe, o których pomówimy za chwilę, występują we dwóch wariantach: poprzecznym i podłużnym (longitudinal).
Badania poprzeczne polegają na jednorazowym pomiarze zmiennej zależnej
w wybranych próbkach. Można sobie wyobrazić, że tniemy je poprzecznie, jak
makowiec, i porównujemy przekroje. Wszystkie dotychczasowe przykłady należały właśnie do tej kategorii. Badania podłużne polegają na tym, że w pobranych
próbkach zmienną zależną mierzy się kilkakrotnie w ustalonych odstępach czasowych. Analizie poddaje się wówczas dynamikę zmiennej zależnej w próbkach.
Wyobraźmy sobie, że młodzież z dwóch próbek: ze szkół zawodowych i liceum
ogólnokształcącego pytamy dwukrotnie: w klasie I i III czy chodzi do teatru. Jeśli
Badania przeglądowe 69
w pierwszej próbce liczba obejrzanych sztuk wzrasta, a w drugiej maleje, mamy
większe podstawy do twierdzenia, że za uczestnictwo w kulturze wysokiej odpowiada program kształcenia, niż gdybyśmy poprzestali tylko na jednym pomiarze.
Niestety, nawet schemat podłużny nie wyklucza możliwości, że na różnicę wpływają jakieś zmienne uwikłane.
Wiele badań podłużnych ma charakter retrospektywny, tzn. wykorzystuje dane
archiwalne. Powiedzmy, że chcemy sprawdzić hipotezę – dla wielu będącą pewnikiem – że pobyt dziecka w przedszkolu ułatwia mu start szkolny. W grę wchodzą
dwa warianty badania.
Pierwszy polega na tym, że populację siedmiolatków dzielimy na trzy subpopulacje: dzieci, które spędziły cztery lata w przedszkolu, dzieci, które do przedszkola chodziły tylko przez ostatni rok, i dzieci, które w ogóle nie chodziły do
przedszkola. Wylosowawszy trzy niezależne próbki, cierpliwie gromadzimy dane
o postępach szkolnych dzieci na przykład przez trzy lata (w odstępach semestralnych), po czym przystępujemy do analizy. Drugi wariant wykorzystuje fakt, że
szkoła archiwizuje dane o osiągnięciach dzieci. Zamiast populacji siedmiolatków
wybieramy populację dziesięciolatków i losujemy trzy próbki zdefiniowane jak
wyżej. Teraz wystarczy zajrzeć do dzienników klasowych, by stwierdzić, jakie stopnie dostawały dzieci w ciągu sześciu semestrów nauki. Choć takie badanie możemy przeprowadzić w ciągu miesiąca, są to porównawcze badania podłużne, ponieważ śledzimy tu losy zbiorowości reprezentujących z góry określone populacje.
Rzecz jasna, dane archiwalne mogą być nietrafne lub nierzetelne. W powyższym
przykładzie powinniśmy jednak je uznać, ponieważ stopnie i opinie nauczycieli są
definicyjnym wskaźnikiem powodzenia szkolnego ucznia.
Badania przeglądowe
Schemat, do którego teraz przechodzimy, po angielsku nazywa się survey (to
survey znaczy tyle, co przyglądać się czemuś, dokonywać przeglądu), po polsku
zaś – sondaż lub schemat korelacyjny. Nie są to najszczęśliwsze nazwy, dlatego
proponuję nową: badania przeglądowe. Nazwa ta dokładnie odpowiada charakterowi tych badań: dostarczają one bowiem przeglądu wielu zmiennych losowych
w jednej próbce pobranej z realnie istniejącej populacji – podobnie jak odpowiednio zabarwiony preparat przeglądany pod mikroskopem ujawnia strukturę tkanki,
z której pochodzi.
Najbardziej znane są przeglądy (sondaże) opinii publicznej. Fachowo przeprowadzony przegląd zaczyna się od wylosowania próbki reprezentującej populację
dorosłych Polaków. W tej próbce zbiera się dane za pomocą kwestionariusza zawierającego pytania typu: „Gdyby wybory prezydenckie odbywały się dzisiaj, to na
kogo by Pani/Pan głosował/a?” Wynikiem badania jest rozkład głosów oddanych
na poszczególnych kandydatów.
Rozwinięte badania przeglądowe nie poprzestają na tak skromnym wyniku,
idzie w nich bowiem nie tylko o poznanie rozkładów zmiennych, ale i związków
między nimi. Zwykły kwestionariusz opinii publicznej zawiera często pytania
demograficzne (o płeć, wiek, miejsce zamieszkania, wykształcenie, stan cywilny
itd.), po to by można było wykryć korelacje między tymi zmiennymi a opiniami.
Wiedza, że kandydata X najczęściej stawiają na pierwszym miejscu młodzi ludzie
z maturą, nieco rzadziej – starsi robotnicy, a prawie nigdy – kobiety mieszkające
na wsi, ma duże znaczenie dla zespołu, który przygotowuje kampanię wyborczą.
W złożonych badaniach przeglądowych mierzy się jednocześnie wiele zmiennych – postawy, fakty biograficzne itp. W znanych badaniach Jessora i in. (1980)
reprezentatywną próbkę amerykańskich nastolatków pytano o palenie marihuany i picie alkoholu. Analiza korelacyjna wykazała, że osoby często palące marihuanę spodziewały się miernych osiągnięć w nauce, miały większą tolerancję dla
różnych wykroczeń, miały przyjaciół dezaprobowanych przez rodziców, a także przypisywały niezależności większą wartość niż osiągnięciom szkolnym. Takie zmienne skorelowane z interesującą nas zmienną nazywa się korelatami tej
zmiennej.
Nazwa „korelat” ma przypominać o podstawowym ograniczeniu badań przeglądowych: braku podstaw do wnioskowań przyczynowych. W korelatach nie
można upatrywać ani przyczyn, ani skutków interesującej nas zmiennej. Mimo
wysokiego współczynnika korelacji między dwiema zmiennymi związek może
być pozorny. Na przykład w Europie utrzymywała się przez wiele lat ujemna korelacja między stopą urodzeń a liczbą śmiertelnych wypadków drogowych, z czego bynajmniej nie wynika, że działania pobudzające rozrodczość mogły zmniejszyć liczbę wypadków. Obie te zmienne pozostawały pod wpływem właściwych
im przyczyn (odpowiednio: upowszechniania się nowego wzoru kariery życiowej
i wzrostu intensywności ruchu drogowego), a korelacja między nimi wynikała po
prostu stąd, że obie przyczyny były skorelowane ze zmienną czasu. W prostszym
przypadku dwie zmienne są pozornie skorelowane ze sobą, gdy mają wspólną
przyczynę. Wiadomo na przykład, że zachodzi istotna korelacja między liczbą
strażaków i liczbą pożarów w mieście. Odpowiada za nią trzecia zmienna: wielkość miasta.
Nawet gdyby za jakąś korelacją stał związek przyczynowy, często nie bylibyśmy w stanie rozstrzygnąć, która zmienna jest przyczyną, a która skutkiem. Nieostrożny badacz wykrył korelację między agresywnym zachowaniem się dziecka
w przedszkolu a stosowaniem kar fizycznych w domu, po czym oznajmił: bicie
dzieci podwyższa w nich skłonność do agresji. Wniosek brzmi rozsądnie, ale nie
wynika z danych. Z równym uzasadnieniem można by twierdzić, że to skłonność
dziecka do agresji zwiększa częstość kar fizycznych.
Pamiętając o ograniczeniach schematu badań przeglądowych, możemy go stosować do znajdowania odpowiedzi na rozmaite pytania:
• o różnice między częściami próbki pod względem jakiejś zmiennej (np. Kto
dostaje lepsze stopnie: dziewczynki czy chłopcy?),
• o różnice między rozkładami zmiennych w całej próbce (np. Z jakiego przedmiotu stawia się wyższe stopnie: z matematyki czy z nauki o środowisku?),
• o związki między zmiennymi w całej próbce lub w dowolnej jej części (np.
Jaki jest współczynnik korelacji między wynikiem testu inteligencji i stopniami
szkolnymi? lub Czy ten współczynnik w grupie chłopców ma podobną wielkość, co w grupie dziewczynek?9).
Czytelnik zechce zauważyć, że takiej swobody nie dawał schemat badań porównawczych. Porównując dwie próbki pobrane z dwóch populacji pod względem
dwóch zmiennych, nie mogliśmy połączyć próbek, by obliczyć współczynnik korelacji między zmiennymi. Łączenie niezależnych próbek o arbitralnych liczebnościach nie ma sensu, ponieważ połączona próbka nie reprezentuje żadnej populacji10. Tu natomiast liczebności części próbki nie są arbitralne, można je więc
dowolnie tworzyć i łączyć, nie odrywając się od rzeczywistości. Zauważmy też, że
na każdej próbce z badania porównawczego można prowadzić osobne badanie
przeglądowe.
Niektóre zastosowania badań przeglądowych
Typowym wynikiem badania przeglądowego jest współczynnik korelacji lub – gdy
mierzymy większą liczbę zmiennych – macierz współczynników korelacji. Do czego można wykorzystać taki wynik? Oto kilka możliwości.
Przewidywanie. Jest oczywiste, że jeśli między dwiema zmiennymi istnieje wysoka korelacja, to znając wartość jednej zmiennej (zwanej predyktorem), możemy
przewidywać wartość drugiej zmiennej. Ma to sens praktyczny, gdy jedna zmienna jest bardziej doniosła i zarazem mniej dostępna niż druga. Tak bywa w zadaniach selekcji – uczniów do określonej szkoły, kandydatów do pracy itd. Zmienne
powodzenia w nauce lub w pracy są dobrze zdefiniowane, ale by się przekonać,
jakie wartości przyjmą u konkretnego kandydata, trzeba go przyjąć i cierpliwie
czekać. Ponieważ jest to kosztowne, szuka się zmiennych silnie skorelowanych ze
zmiennymi powodzenia i łatwych do zmierzenia, by na ich podstawie podejmować decyzje o przyjęciu lub odrzucenia kandydatów.
Szuka się też zmiennych, które pozwoliłyby przewidzieć niepożądane zachowania. W cytowanym badaniu Jessora i in. (1980) wykryto trzy predyktory palenia
marihuany przez nastolatków: posiadanie palących marihuanę przyjaciół, liczba
przypadków nadużycia alkoholu w ciągu ostatniego roku oraz udział w czynach
zabronionych przez normy prawne lub moralne.
Trzeba zwrócić uwagę, że dla przewidywania nie jest istotne, czy predyktor
jest związany ze zmienną zależną związkiem przyczynowym, a tym bardziej zrozumienie tego związku. Przewidujący działa na czysto empirycznej podstawie,
mówiąc sobie, że skoro dotąd obserwowano współwystępowanie wartości dwóch
zmiennych, zapewne będzie tak nadal. Nie trzeba dodawać, że taka postawa może
być usprawiedliwiona w świecie praktyki, ale nie nauki.
Sprawą kluczową jest natomiast wielkość współczynnika korelacji. Słabe korelacje prowadzą do przewidywań, których trafność niewiele odbiega od zwykłego
9
Na to drugie pytanie odpowiedź jest przecząca, co ma interesujące konsekwencje teoretyczne (Konarzewski, 1995).
10
Chyba że podział populacji generalnej był wyczerpujący, a proporcja każdej populacji
w populacji generalnej znana. Wtedy można oszacować parametr w populacji generalnej,
ważąc tymi proporcjami mierniki parametru w próbkach.
zgadywania. Metoda, która pozwala przekształcić zmienne w predyktory i oszacować błąd przewidywania, to analiza regresji. Poznamy ją w rozdz. 8.
Szczególnym przypadkiem przewidywania jest przewidywanie miejsca, które zajmie obiekt w pewnej klasyfikacji. Często chcielibyśmy zawczasu wiedzieć,
czy Jan znajdzie się w populacji dobrych czy złych studentów, sprawnych czy nieudolnych pracowników itp., by podjąć uzasadnioną decyzję o jego przyjęciu lub
odrzuceniu. W tym celu oblicza się wskaźnik będący liniową kombinacją wielu
predyktorów (funkcję dyskryminacyjną) – taki, który maksymalizuje różnice między populacjami. Porównując klasyfikację przewidywaną z rzeczywistą, możemy
obliczyć odsetek błędnie sklasyfikowanych obiektów i na tej podstawie zdecydować, czy wskaźnik może być używany do celów praktycznych. Metoda analizy dyskryminacyjnej wchodzi w skład większych pakietów programów statystycznych
(np. SPSS-PC).
Budowanie i weryfikacja typologii. Zbiór k zmiennych przedziałowych zmierzonych w badaniu przeglądowym prowadzi do macierzy k (k – 1) / 2 współczynników korelacji. W takiej macierzy jest zazwyczaj pewien ukryty porządek. Tworzy go kilka nieobserwowalnych zmiennych wyższego rzędu, które odpowiadają
za zaobserwowane współczynniki. Te zmienne często mają znaczenie teoretyczne
jako pojęcia porządkujące zmienne empiryczne (np. typy idealne). Istnieją metody, które pozwalają je ujawnić w nawet w obszernych zbiorach zmiennych (rodzina analiz czynnikowych). Szczegółowo omawia je Zakrzewska (1994).
Weryfikacja twierdzeń przyczynowych. Jeśli dwie zmienne są skorelowane, to
nie muszą być związane przyczynowo, ale jeśli są związane przyczynowo, to muszą
być skorelowane. Z twierdzenia przyczynowego wynika więc hipoteza o wielkości
współczynnika korelacji.
Załóżmy, że nasza teoria głosi: lęk obniża wykonanie testów osiągnięć mających limit czasowy (tzw. testów szybkości). Wynika z niej następująca hipoteza: bezwzględna wartość współczynnika korelacji między wynikiem skali lęku
Spielbergera a wynikiem testowania z limitem czasowym jest istotnie większa
niż między wynikiem skali Spielbergera a wynikiem testowania bez limitu czasowego. Jeśli ta hipoteza się potwierdzi, nie wolno, rzecz jasna, napisać: „Badanie
wykazało, że lęk jest przyczyną porażki w testach szybkości”, ponieważ badanie
przeglądowe tego wykazać nie może. Ale potwierdzenie hipotezy z pewnością
zwiększa zaufanie do teorii. Jeszcze więcej wnosi niepotwierdzenie hipotezy.
Trzeba wtedy ponownie przemyśleć twierdzenie teoretyczne lub zastosowane
metody pomiaru.
Badanie zmian. Badań przeglądowych często używa się do śledzenia zmian
zachodzących w populacji. Można do tego stosować zarówno schemat poprzeczny,
jak i podłużny. Jak pamiętamy, w badaniu poprzecznym jednokrotnie mierzymy
zbiór zmiennych w próbce. Takie badanie można jednak powtarzać w ustalonych
odstępach czasu na nowych próbkach losowanych z tej samej populacji. Uzyskujemy wtedy szereg niezależnych przekrojów poprzecznych. Porównując je, widzimy
zmiany, jakie zachodzą w populacji – wzrost lub spadek zaufania do rządu, zadowolenia z życia, wartości przypisywanej życiu rodzinnemu itp.
Ten schemat ma swoje ograniczenia. Po pierwsze, nie można wnioskować
o ciągłości lub zmianie na poziomie jednostek, ponieważ bada się coraz to nowe
osoby. Stwierdziwszy, że w pierwszym pomiarze za integracją z UE opowiedziało się 60%, a w drugim 55% respondentów, nie możemy napisać: „Ludzie trwają
w przekonaniu, że...”, ponieważ nie można wykluczyć, że wielu z nich zmieniło
zdanie (ci, którzy najpierw opowiadali się za integracją, teraz mogą być jej przeciwni, i odwrotnie). Stałość opinii w pewnej populacji nie implikuje stałości jej
zwolenników. Schemat dopuszcza natomiast wniosek w formie: „Integracja jest
ciągle popularna: liczba popierających ją osób prawie się nie zmieniła”.
Po drugie, pewne populacje mają z definicji zmienny skład, np. populacja
polskich gimnazjalistów co roku wymienia z grubsza trzecią część swego składu.
Zmniejsza to użyteczność przekrojów poprzecznych, trudno bowiem mieć pewność, czemu przypisać zmianę wartości pomiarów: zmianie warunków pracy gimnazjów czy wejściu nowego rocznika uczniów o szczególnych doświadczeniach
życiowych.
W badaniu podłużnym powtarzamy pomiary na osobach z tej samej próbki.
Dzięki temu możemy się wypowiadać o kierunku i zakresie zmian w jednostkach,
a także – wiedząc, co działo się między pomiarami – wnioskować o wpływie tych
zdarzeń na jednostki. Jeśli na przykład w części badanych rodzin zdarzył się rozwód rodziców, możemy pokazać, jak to odbija się na potomstwie. Warto zwrócić
uwagę, że inaczej niż w schemacie porównawczym, dysponujemy tu wiedzą o stanie poprzedzającym wydarzenie. Jeśli porównawszy dwie próbki uczniów: z rodzin pełnych i rozbitych, stwierdzimy, że drudzy są bardziej agresywni niż pierwsi,
możemy się spotkać z zarzutem, że ta różnica mogła się ukształtować grubo przed
rozwodem rodziców. Badanie podłużne pozwala obalić taki zarzut. Pozwala też
śledzić rozwój zaburzeń, w miarę jak rodzina zbliża się do rozpadu.
Badania podłużne są rzadsze, niżby tego wymagały pytania badawcze. Nic
dziwnego: badanie, które trwa latami, niełatwo zorganizować, niełatwo też otrzymać zgodę wylosowanych osób na wielokrotne zakłócanie ich prywatności. Sporym problemem jest zmniejszanie się próbki, czyli dosłowna i przenośna śmiertelność. Pół biedy, jeśli ubytki mają charakter losowy. Jeśli jednak z pola widzenia
badacza znikają osoby należące do określonej kategorii, to fakt ten najprawdopodobniej wpłynie, choć w nieznany sposób, na bieżący obraz próbki. W pewnych
przypadkach same pomiary mogą wpływać na opinie badanych (pytania kwestionariusza mogą uwrażliwiać ich na pewne zjawiska) i na następne pomiary (badani
mogą się czuć związani odpowiedziami, których kiedyś udzielili).
Rozdział 4
BADANIA INDYWIDUALIZUJĄCE
Istotą badań indywidualizujących jest założenie o niepowtarzalności każdego obiektu. Stąd wynika założenie o nieporównywalności pomiarów: każdy wynik jest zależny
od kontekstu. Nie zakłada się żadnej całości wyższego rzędu (ponadindywidualnej),
w związku z czym agregowanie danych indywidualnych (np. obliczanie średniej dla
grupy badanych) traci sens. Nie ma „rewolucji w ogóle”, są tylko pojedyncze rewolucje.
Poznanie rewolucji angielskiej nie pomaga zrozumieć rewolucji francuskiej. Związek
między dwiema zmiennymi wykryty w jednym oddziale klasowym nie musi się pojawić w innym oddziale. Pewien uczeń może regularnie reagować w określony sposób
na pewną sytuację, ale to nie znaczy, że podobnie będzie reagować inny uczeń.
Wbrew pozorom takie badania mogą mieć cel teoretyczny: dostarczać wskazówek co do szczegółów twierdzenia teoretycznego lub nawet weryfikować teorię pojedynczego obiektu (idiograficzną). Badanie indywidualizujące mogłoby
też weryfikować teorię ogólną, gdyby nie to, że w naukach społecznych ma ona
zawsze sens probabilistyczny. Jakkolwiek kierując się wygodą, mówimy: „Frustracja wywołuje agresję”, to nie mamy na myśli, że każdy, kto doświadczy frustracji, zachowa się agresywnie w ciągu kilku najbliższych godzin, lecz jedynie że
prawdopodobieństwo agresywnego zachowania się jest większe w populacji osób
sfrustrowanych niż w populacji niesfrustrowanych. Wynika stąd natychmiast, że
żaden pojedynczy przypadek nie może obalić teorii ogólnej – rzecz trudna do zrozumienia dla początkujących badaczy.
Teoria jednostkowa może dotyczyć splotu przyczyn pewnego wydarzenia, reguł
współżycia społecznego w pewnej grupie, skutków pewnego doświadczenia itd. Jeśli podejrzewam, że pewien kryzys polityczny był wynikiem spisku, szukam świadectw wzajemnych kontaktów między hipotetycznymi spiskowcami; jeśli sądzę, że czyjaś choroba
ma charakter psychosomatyczny, badam okoliczności, w których dochodzi do ataków.
Nie jest więc tak, by w badaniu indywidualizującym nie dochodziło do uogólnień. Powiedzmy wyraźnie: ktoś, kogo bez reszty pochłaniają zjawiska obserwowane w konkretnych miejscach i czasie, w ogóle nie prowadzi badania naukowego.
Spostrzeżenie ma znaczenie naukowe, jeśli mówi coś więcej niż to, że tego a tego
dnia ten a ten zrobił to a to. Mówić więcej znaczy tyle, co wpływać na nasz stosunek do innych spostrzeżeń. Skoro badany zrobił to a to w obecności obserwatora, zapewne musiał to robić w przeszłości lub zrobi to w przyszłości. Spostrzeże-
Eksperyment jednoosobowy 75
nie przenosi się na sytuacje nieobserwowane, co jest klasycznym uogólnieniem.
Pojedyncze spostrzeżenie może też wpływać na zrozumienie czegoś, co stało się
wcześniej lub później. Jeśli ktoś nieoczekiwanie upił się tuż po rozmowie ze swoim
zwierzchnikiem, to znaczy, że przeżył ją silniej, niżby to wynikało z jego słów. To
też jest uogólnienie (podniesienie obserwacji do roli następnika w regule wnioskowania, która wiąże upicie się z reakcją na zachwianie poczucia własnej wartości).
Jednego wszakże robić nie wolno: uogólniać teorii indywidualnego obiektu na inne
obiekty. Jeśli udało się nam zrozumieć, że pewien nauczyciel dlatego ośmiesza swoich
uczniów, że czuje się zdegradowany przez los, to nie możemy twierdzić, że wszyscy
nauczyciele robią to z tego samego powodu. Jeśli, kontynuując badanie w tym samym
duchu, znaleźlibyśmy jeszcze dwóch podobnych i trzech niepodobnych nauczycieli, to
nie moglibyśmy twierdzić, że połowa polskich nauczycieli ośmiesza uczniów z powodu poczucia niezasłużonego poniżenia. Pewien autor, zbadawszy cztery rodziny dzieci
uzdolnionych muzycznie, napisał: „W rodzinach tego typu ojciec jest zazwyczaj mniej
aktywny muzycznie. Najczęściej słucha muzyki popularnej oraz znanych piosenkarzy.
Bardzo też lubi słuchać śpiewu żony i dzieci”. Zwróćmy uwagę, jak zręcznie przeszedł
on od badania indywidualizującego do uogólniającego: dokonał zarazem agregacji
danych („zazwyczaj” lub „najczęściej” to przybliżone, porządkowe miary częstości
względnej) i uogólnienia na populację rodzin „tego typu”. Jest jednak jasne, że „zazwyczaj” musi tu znaczyć: w trzech rodzinach na cztery. Równie dobrze można by się wypowiadać o składzie wody w Wiśle na podstawie kropli pobranej u stóp Baraniej Góry.
Zakaz uogólniania nie znaczy wcale, że nie można porównywać teorii indywidualnych przypadków między sobą (np. szukać wspólnych rysów dotychczas
zbadanych rewolucji) i tak klasyfikować teorii, by zwiększyć ich podobieństwo
wewnątrz klasy i różnice między klasami. Takie porównania mogą być źródłem
interesujących sugestii teoretycznych (np. typów idealnych). Mogą też odsłaniać
różnorodność tam, gdzie teoria jej nie przewiduje. Wtedy staje się jasne, że nie ma
sensu spierać się o to, „jak jest”, tylko o to, jak są rozłożone różne wzorce.
Eksperyment jednoosobowy
Eksperyment, opisany w swych rozmaitych odmianach w poprzednim rozdziale,
jest przede wszystkim sposobem weryfikowania teorii ogólnych. Tym ciekawsze
jest zastosowanie eksperymentu w badaniach indywidualizujących.
Eksperyment indywidualizujący to eksperyment z udziałem jednej osoby w schemacie porównań wewnątrzosobniczych. Hipoteza, jak zawsze w badaniach eksperymentalnych, dotyczy związku między zmienną niezależną, której wartości wytwarza
badacz, a zmienną zależną, czyli zachowaniem się badanego. Hipoteza głosi więc, że
badany zmieni swoje zachowanie pod wpływem określonego oddziaływania. Schemat ten jest najczęściej stosowany w pedagogice specjalnej i psychologii klinicznej
w celu poznania czynników łagodzących niepożądane stany czy zachowania pacjenta.
W najprostszym przypadku eksperyment składa się z dwóch faz. W pierwszej
wielokrotnie mierzy się określony aspekt zachowania w zastanych warunkach (np.
czas, jaki zajmuje upośledzonemu dziecku ubranie się z rana, czy liczba uderzeń we
76 Rozdział 4. Badania indywidualizujące
własną głowę u dziecka autystycznego). Wynik tego pomiaru to poziom podstawowy (baseline). W drugiej wprowadza się oddziaływanie (np. oferuje się dziecku
nagrodę za ubranie się w ciągu 10 minut) bez przerywania pomiaru. W najczęściej
używanym schemacie ABAB fazy te następują po sobie (A: pomiar bez oddziaływania, B: oddziaływanie i pomiar, A: pomiar bez oddziaływania, B: oddziaływanie
i pomiar). Wyniki pomiaru nanosi się na wykres, w którym oś odciętych reprezentuje kolejne dni eksperymentu. Dzięki temu można się bez trudu przekonać, czy
po wprowadzeniu oddziaływania następuje zmiana zachowania badanego i czy
każda zmiana zachowania jest poprzedzona wprowadzeniem oddziaływania. Jeśli
wzór dostatecznie wyraźnie rzuca się w oczy, żadna statystyka nie jest potrzebna,
by uzasadnić wniosek o zależności przyczynowej zmiany od oddziaływania.
Schemat ten łatwo rozbudować przez objęcie pomiarem kilku zmiennych zachowania się badanego. Rysunek 4.1 przedstawia procent czasu spędzanego na interak80
60
40
20
Z dorosłymi
0
80
60
40
20
0
Z dziećmi
1–5
6–11 12–16
17–25
podstawawzmacnianiewygaszanie wzmacnianie
31–51
follow-up
Rysunek 4.1. Procent czasu spędzanego w przedszkolu przez 4-letnią dziewczynkę w interakcjach z dorosłymi i dziećmi w ciągu 2-godzinnych sesji porannych. Źródło: Allen, Hart,
Buell, Harris i Wolf (1964)
Eksperyment jednoosobowy 77
cjach z dorosłymi i dziećmi przez czteroletnią dziewczynkę w przedszkolu w ciągu
dwugodzinnych sesji porannych (Allen i in., 1964). Po 5 dniach fazy A wprowadzono nagrodę za każdy kontakt z rówieśnikami. Jak widać, w fazie B nastąpił wyraźny
spadek interakcji z dorosłymi i wzrost interakcji z dziećmi. Że te zmiany można
przypisać samemu oddziaływaniu, a nie jakimś ubocznym czynnikom, przekonuje
następnych 5 dni, w których wycofano oddziaływanie. Gdyby nie nastąpił spadek interakcji z dziećmi i wzrost interakcji z dorosłymi, musielibyśmy uznać, że korzystne
zmiany wytworzyła jakaś zmienna uwikłana w oddziaływanie (np. zwiększona uwaga ze strony personelu) albo że podtrzymują je inne zmienne (np. zmiana stosunku
rówieśników do dziecka). Druga faza B trwała 9 dni. Znów widać wyraźny wzrost
interakcji z rówieśnikami. Eksperyment potwierdził więc skuteczność nagradzania
tej dziewczynki za kontaktowanie się z rówieśnikami. Dodatkowym elementem
schematu był pomiar dystansowy (follow-up), dokonany czterokrotnie w ciągu następnych 3 tygodni. Upewnił on badaczy o trwałości wywołanej zmiany.
Krytycy schematu ABAB podnoszą, że druga faza A oznacza zgodę na powrót
dziecka do niepożądanego zachowania, co jest niemoralne. By uniknąć tego zarzutu, Kazdin i Kopel (1975) zaproponowali skupić uwagę na kilku nieskorelowanych
ze sobą zmiennych niepożądanego zachowania dziecka (np. na trzech: Y1, Y2 i Y3)
i na dostosowanych do nich oddziaływaniach korekcyjnych. Schemat takiego eksperymentu wygląda wówczas następująco:
• I faza: A(Y1) + A(Y2) + A(Y3),
• II faza: B(Y1) + A(Y2) + A(Y3),
• III faza: B(Y1) + B(Y2) + A(Y3),
• IV faza: B(Y1) + B(Y2) + B(Y3).
Uznanie skuteczności każdego oddziaływania zależy od tego, czy zachowanie,
które ma ono korygować, zmienia się tuż po wprowadzeniu tego oddziaływania.
Innym wyjściem jest powielenie jednoosobowego eksperymentu. Powiedzmy,
że bierzemy do badania troje dzieci z tej samej grupy. Ustaliwszy dla każdego poziom podstawowy, wprowadzamy oddziaływanie najpierw wobec jednego dziecka, potem wobec drugiego i w końcu wobec trzeciego. Jeśli oddziaływanie jest
przyczyną zmiany zachowania, to powinna ona kolejno pojawiać się u badanych
dzieci, poczynając od pierwszej sesji, w której wprowadzono oddziaływanie. Ten
sposób poznawania skuteczności różnych metod nauczania umiejętności (np. motorycznych) zbliża się do badań uogólniających.
Na zakończenie garść przestróg. Ponieważ najczęściej pomiarów dokonuje się metodą obserwacji, trzeba się upewnić, czy jest ona rzetelna, tzn. obliczyć
współczynnik zgodności między dwoma obserwatorami. Nierzetelność pomiarów
zwiększa zmienność wyników w obrębie jednej fazy, co znacznie utrudnia wzrokową analizę całego wzoru wyników. Jeśli mimo uściślenia definicji kategorii obserwacyjnych zmienność się utrzymuje, mamy do wyboru: kontynuować pomiary
poziomu podstawowego aż do momentu ustabilizowania się wartości zmiennej,
szukać przyczyn zmienności i próbować je usunąć lub wspomóc analizę wzrokową
rachunkami (najprościej – agregować pomiary w obrębie faz i porównywać agregaty, lepiej – zastosować analizę szeregów czasowych).
Eksperyment jednoosobowy ma poważną wadę: nie pozwala wykryć interakcji
czynnika eksperymentalnego i zmiennych indywidualnych. Skoro nie można się
przekonać, czy jakieś cechy badanej osoby nie współdziałają z oddziaływaniem
w wytwarzaniu zmiany w zachowaniu, to trafność zewnętrzna eksperymentu jednoosobowego jest zawsze wątpliwa: nie sposób mieć pewność, że podobne oddziaływanie przyniesie podobne skutki u innych osób. Oczywiście, jak podpowiada
doświadczenie nauczycieli i klinicystów, wiele oddziaływań, które służą jednym
pacjentom, okazuje się też służyć innym, toteż zawsze możemy traktować eksperyment jednoosobowy jako źródło hipotez dla badania uogólniającego.
Badania jakościowe
Jakkolwiek typowe badanie ilościowe zmierza do uogólnienia obserwacji poszczególnych przypadków, to jednak możliwe są indywidualizujące badania ilościowe,
czego dowodem jest eksperyment jednoosobowy. Ale badania jakościowe są zawsze indywidualizujące, zakładają bowiem niepowtarzalność każdego przypadku. Rzadko też mają charakter weryfikacyjny, ponieważ trudno zbudować teorię
jednego przypadku przed nawiązaniem z nim kontaktu. Najczęściej więc są to
badania eksploracyjno-weryfikacyjne: w tym samym przedsięwzięciu badawczym
szuka się wskazówek, jak zbudować twierdzenie teoretyczne, i weryfikuje to twierdzenie. Jak widzieliśmy w rozdz. 2, fazy te mogą się przeplatać ze sobą.
W badaniu jakościowym uwaga koncentruje się zwykle na ludziach w określonej instytucji społecznej (np. małżeństwie) lub organizacji (np. poradni psychologiczno-pedagogicznej). Jeśli wybieramy próbkę, nie jest ona losowa, lecz celowa.
Samo badanie jest wstępnie ukierunkowane przez pytanie badawcze. Ogólne pytanie może brzmieć: co się dzieje z małżonkami, gdy ich dziecko wchodzi w okres
dorastania, jak przebiega proces udzielania uczniowi porady co do wyboru szkoły? To pytanie rozwija się w szereg pytań szczegółowych: jak spostrzegają samych
siebie ludzie w tej organizacji, jak pojmują swoją rolę, jak widzą swój prestiż, jak
obiektywne cechy organizacji wpływają na subiektywne interpretacje, jakie są powody, że ludzie działają w zaobserwowany sposób?
Ale nawet taka konkretyzacja pytania nie wystarczy, badacz nie może bowiem
zwracać uwagi na wszystko, co dzieje się w badanym terenie. Potrzebne jest coś,
co Glaser i Strauss (1967) nazywają pojęciami analitycznymi i uwrażliwiającymi.
Jeśli badamy poradnictwo, takim pojęciem może być zaufanie: definicyjny warunek
wykorzystania porady. Pytamy wtedy, czy klient ufa poradni i jej personelowi, jak
wpływa na zaufanie opinia o kompetencjach doradcy itd. Można też postawić dwa
równoległe pytania, by przedwcześnie nie zamknąć sobie dostępu do interesujących aspektów terenu. Jedno może dotyczyć „teorii zaufania”, której hołduje doradca, drugie tego, jakie „etnometody” wytwarzają zaufanie w procesie doradzania.
Gdy wiemy już, na co zwrócić uwagę, wybieramy metody zbierania danych
(rozdz. 7). Jest ważne, by wybrana metoda przynosiła dane dające szansę odpowiedzi na pytanie badawcze. Dane z wywiadu mogą pozwolić na rekonstrukcję
osobistej „teorii zaufania” doradcy, ale nic nie powiedzą o stosowanych przezeń
Badania jakościowe 79
sposobach wzbudzania zaufania u klienta. Do tego trzeba obserwacji jakościowej.
Dobrze jest użyć kilku metod, by móc zastosować triangulację metod. Po zebraniu
danych albo ich części analizuje się je metodami opisanymi w rozdz. 8 i formułuje
końcowy wniosek.
W tak zarysowanym polu jakościowych badań indywidualizujących można
wyodrębnić trzy schematy: studium przypadku, badanie etnograficzne i badanie
historyczne.
Studium przypadku
Przypadek (case) to słowo dwuznaczne. W podstawowym znaczeniu to pewna przypadłość (np. choroba, talent, rola społeczna, rozwiązanie praktycznego problemu) ulokowana w konkretnej osobie lub grupie, np. w Janie, rodzinie Kowalskich, klubie młodzieżowym na osiedlu „Sielanka”, lokalnym gangu motocyklowym, szkole. We wtórnym
znaczeniu to sam obiekt dotknięty tą przypadłością: rodzina Kowalskich, osiedlowy klub
młodzieżowy itp. W tym znaczeniu przypadkiem nazywa się też każdą osobę wybraną
lub wylosowaną do badania w dowolnym schemacie (próbka to zbiór przypadków).
Jeśli studium przypadku ma się wyróżniać jako odrębny schemat, nie wystarczy powiedzieć, że jest to badanie „losu jednostki”, zwłaszcza gdy dalej mówi się
też o badaniu „konkretnych zjawisk” (Pilch, 1995, s. 48). Powiemy więc, że studium przypadku to schemat badania jakościowego, które zmierza do stworzenia
jednostkowej teorii zjawiska ogólnego.
Załóżmy, że interesuje nas nieśmiałość uczniów – zjawisko bez wątpienia ogólne. Możemy je badać na dwa sposoby. Pierwszy to badanie ilościowe z myślą o teorii ogólnej. Musimy wtedy wybrać schemat (np. przeglądowy), opracować metody
pomiaru nieśmiałości i innych zmiennych (np. klimatu rodzinnego, postawy nauczycielki wobec uczniów), wylosować próbkę oddziałów klasowych, przeprowadzić pomiary, a wyniki poddać analizie statystycznej. W ten sposób możemy dojść
do interesujących wniosków, np. że w populacji nauczycieli stosunek do uczniów
nieśmiałych jest mniej życzliwy niż do śmiałych, co podtrzymuje ich nieśmiałość.
Jest jednak oczywiste, że możliwe wnioski z takiego badania są z góry ograniczone
przez naszą decyzję, jakie zmienne mierzyć.
Drugie podejście wymaga, byśmy najpierw znaleźli ucznia, którego charakteryzuje wiele objawów nieśmiałości, po czym starali się dowiedzieć o nim jak
najwięcej – skąd pochodzi, kim są jego rodzice, jak układało mu się dotąd życie
w domu, na podwórku, w organizacjach oświatowych, w jakich sytuacjach ujawnia najwięcej oznak nieśmiałości (np. przy spotkaniu z nieznanymi osobami czy
w grupie znanych rówieśników), co sam myśli o sobie, czy czuje się inny niż rówieśnicy, jakie ma aspiracje, jak wyobraża sobie własną przyszłość, co o nim myślą
rodzice, nauczyciele i rówieśnicy... Analiza różnorodnych danych jakościowych
może doprowadzić do teorii „nieśmiałości Jana”. Choć takiej teorii nie możemy
uogólnić na Piotra czy Pawła, może ona znacznie powiększyć naszą wiedzę o nieśmiałości. Możemy ją wykorzystać do postawienia hipotezy dla badania weryfikacyjnego lub do celów praktycznych (np. do opracowania indywidualnego programu wychowania Jana lub reedukacji jego wychowawców).
Studium przypadku okazuje się bezcenne, gdy interesujące nas zjawisko jest rzadkie. Piękna książka A. Łurii O pamięci, która nie miała granic to doniesienie z wieloletniego studium przypadku niezwykłej pamięci. Są też doniesienia o zachowaniu
się ludzi z rzadkimi uszkodzeniami mózgu. Studium pacjenta, któremu z powodu
epilepsji usunięto fragmenty płatów skroniowych wraz z hipokampem, wykazało, że
utracił on zdolność trwałego zapamiętywania wiadomości. Wynik ten w efektowny
sposób potwierdził teorię dwóch systemów pamięci (krótko- i długotrwałej).
Zauważmy, że zgodnie z naszą definicją bohaterami studium przypadku nie
muszą być pojedyncze osoby, równie dobrze bowiem przedmiotem teorii jednostkowej mogą być konkretne organizacje (np. szkoła w Kożuszkach). Rzecz jasna,
szkoła nie może być „nosicielem” zjawisk właściwych osobom, ale jest wiele zjawisk typowo szkolnych, które zasługują na zbadanie. Burgess i in. (1995) zajęli się
alternatywnym sposobem oceniania postępów uczniowskich zwanym rejestrem
osiągnięć (Records of Achievement)1, wykonując cztery studia przypadku (tzn. badając funkcjonowanie rejestru w czterech szkołach). Studium przypadku innowacji dydaktycznej czy wychowawczej z reguły daje o niej głębszą wiedzę niż masowe
i powierzchowne badania przeglądowe.
W Polsce takie studia są nadzwyczaj rzadkie. Mnożą się natomiast „monografie pedagogiczne”. Pilch (1995, s. 46) nazywa tak badanie pojedynczych organizacji („struktur sformalizowanych”) prowadzące do „gruntownego rozpoznania
struktury instytucji, zasad i efektywności działań wychowawczych oraz opracowania koncepcji ulepszeń i prognoz rozwojowych”. Ponieważ zjawiskiem ogólnym
są tu całość tego, co robi organizacja („działania wychowawcze”) i wszystkie tego
aspekty („struktury, zasady, efektywność”), wypada stwierdzić, że monografia pedagogiczna to nieukierunkowane studium przypadku2. Plonem takich badań są
doniesienia przedstawiające tę czy inną szkołę od piwnic po strych, nieodmiennie
w tonacji pochwalnej. Starannie oprawione, przechowywane w gabinecie dyrektora, budują tradycję miejsca i wiążą z nim personel, ale wartości naukowej nie mają,
bo w żaden sposób nie powiększają naszej wiedzy o oświacie.
Trzeba pamiętać, że studium przypadku to schemat badania, a nie pretekst do
rozmów z ludźmi i snucia się po korytarzach, toteż powinno być zaplanowane. Nie
planuje się tu zmiennych, które będą mierzone, ale planuje się metody zbierania
danych. Najczęściej stosuje się obserwację jakościową (zwłaszcza zdarzeń krytycznych), wywiad i przeszukiwanie archiwów. Przydają się także metody ilościowe
1
Jest to portret całej osoby ucznia oparty na różnych źródłach i obejmujący różne pola aktywności. Ogólna opinia wychowawcy i oceny opisowe nauczycieli dokumentują osiągnięcia
w przedmiotach szkolnych. Opisowa samoocena ucznia, czasem potwierdzana przez instruktora
czy trenera, dokumentuje osiągnięcia w zajęciach pozalekcyjnych i pozaszkolnych. Sam uczeń
dokumentuje osiągnięcia osobiste (np. w zakresie inicjatywy, dotrzymywania słowa, punktualności, pomagania innym) w formie zapisków w pamiętniku i szacunków na dostarczonych skalach.
2
Pomijam pomysł włączenia do definicji badania naukowego „koncepcji ulepszeń i prognoz rozwojowych”, ponieważ jest jawnie błędny. Badać to stwierdzać, jak się rzeczy mają,
a nie – jak je udoskonalić lub jak się będą miały w przyszłości. Nie wyklucza to, że lepsze
rezultaty daje projektowanie i prognozowanie na podstawie wyników badań niż na podstawie
potocznych mniemań czy pobożnych życzeń.
(skale, testy, a zwłaszcza reptest). Wybrawszy metody, trzeba zaplanować, co, kogo
i w jakiej kolejności będziemy nimi badać.
Typowe studium przypadku ma dwie fazy: otwartą i ukierunkowaną. Pierwsza
służy orientacji, toteż jej plan jest luźniejszy, druga – sprawdzeniu pomysłów interpretacyjnych, które się zrodziły w pierwszej. W pewnym studium badacz najpierw
obserwował stosunki między pacjentem chorującym na astmę a otoczeniem i na
tej podstawie wysunął hipotezę, że ataki astmatyczne pacjenta są następstwem jego
spotkań z matką. W drugiej fazie badania sklasyfikował podstawowe formy aktywności pacjenta i obliczył współczynniki siły związku między każdą z nich a częstością ataków. Układ współczynników potwierdził hipotezę. Zauważmy przy okazji, że
mimo zasadniczo jakościowego charakteru tych badań autorzy studiów przypadku
nie odżegnują się od gromadzenia danych ilościowych i metod analizy ilościowej.
Można też planować równoległe studia przypadku. Burgess i in. (1995) donoszą o 4 studiach rejestru osiągnięć prowadzonych przez cztery osoby w czterech
szkołach (trzech miejskich i wiejskiej, która też była najmniejsza, miała najniższy
status i najdłużej stosowała rejestry). Gdyby w tych szkołach przeprowadzić badanie ilościowe (np. ankietowe), różnice byłyby nieinterpretowalne, szkoły bowiem
różniły się od siebie pod zbyt wieloma względami. Ale cztery teorie jednostkowe
wolno porównywać między sobą na takich samych zasadach jak wszelkie teorie.
Z tych porównań może się wyłonić interesujące twierdzenie ogólne. Warto więc
prowadzić równoległe studia przypadku, bo wtedy szansa na odkrycie rośnie.
W studium przypadku nie planuje się natomiast odrębnych faz zbierania i analizowania danych. Analiza towarzyszy zbieraniu danych. Każde nowe spostrzeżenie
badacz konfrontuje z hipotezą utworzoną na podstawie uprzednich spostrzeżeń,
a stwierdziwszy niezgodność, próbuje dociec, skąd się wzięła, czyli stawia sobie nowe
pytania ukierunkowujące proces zbierania danych. Nowe dane mogą wykazać, że
niezgodność była pozorna, a jeśli nie, to badacz musi zrewidować hipotezę i zebrać
nowe dane. Dopiero gdy nowe spostrzeżenia potwierdzają to, co badacz już wie o
przypadku, studium dobiega naturalnego kresu. Jest oczywiste, że takie postępowanie jest nieprzewidywalną wyprawą w nieznane i nie może być z góry zaplanowane.
Warunkami powodzenia studium przypadku są obiektywizm, czyli niepoleganie na swoich i cudzych wrażeniach (wrażenia są ważne jako źródło wskazówek, ale nie jako materiał dowodowy), krytycyzm, czyli nawyk wystawiania na
próby własnych pomysłów interpretacyjnych, i otwartość, czyli stała gotowość rewidowania pomysłów pod wpływem nowych spostrzeżeń. Niestety, nie wszyscy
spełniają te warunki. Nagminnym błędem jest rozpoczynanie studium przypadku
z gotową hipotezą i kończenie go po zebraniu garści danych, które ją potwierdzają. Ponieważ hipoteza pochodzi zwykle z żelaznego repertuaru stereotypów, które
powstają w ramach każdej kultury zawodowej, znaczenie badania sprowadza się
do tego, że nadaje stereotypowi status twierdzenia naukowego.
W badaniach oświatowych częstym przypadkiem jest tzw. uczeń trudny. Na ogół
już po pierwszym zetknięciu się z uczniem, a czasem wcześniej, badacz zna odpowiedź na pytanie, dlaczego jest taki: pochodzi z rodziny rozbitej, przebywa w złym
towarzystwie, jest ociężały umysłowo itp. Badanie polega wtedy na zbieraniu da-
nych, które potwierdzają hipotezę, i ignorowaniu tych, które mogłyby jej zaprzeczyć.
W doniesieniu autor zamieszcza szczegółowe opisy opłakanych warunków domowych badanego, wylicza wykroczenia popełniane przez jego przyjaciół, rozwodzi się
nad prymitywizmem jego rysunku, wskutek czego doniesienie bardziej przypomina
akt oskarżenia niż pracę naukową. Uderzający brak krytycyzmu autora nie pozwala
wierzyć, że wysunął on i wykluczył inne wyjaśnienia badanego zjawiska.
Dobre studium przypadku zawsze podejmuje to wyzwanie. Badacz szuka potwierdzenia swego pomysłu w różnych źródłach (np. dowiedziawszy się, że dziecko
zachowuje się agresywnie w szkole, odwiedza też inne miejsca, w których dziecko
przebywa, by zobaczyć, czy tam zachowuje się podobnie). Wysuwa też alternatywne wyjaśnienia i próbuje je sprawdzić. W doniesieniu konfrontuje ze sobą dane,
szukając najtrafniejszej teorii. Ponieważ wszystko to wymaga sporego doświadczenia, studium przypadku nie powinno być polecane początkującym badaczom.
Wobec studium przypadku formułuje się czasem zarzut, że nie przynosi wiedzy ogólnej, ponieważ „siły powodujące jedną osobą lub jednostką życia społecznego mogą pozostawać w nikłym związku z siłami, które powodują innymi osobami lub jednostkami” (Ary i in., 1996, s. 484). Równie dobrze można by zarzucać
parowozowi, że jest napędzany parą. Studium przypadku rozmyślnie poprzestaje
na zrozumieniu jednostkowego obiektu, a na krytykę zasługuje raczej badacz, który by chciał to zrozumienie rozciągnąć na inne obiekty. Zwłaszcza zachwalanie
pewnych metod lub środków (np. lekarstw) na podstawie kilku indywidualnych
sukcesów to nieuczciwy, choć skuteczny niestety, zabieg reklamowy. Indywidualizujący charakter studium przypadku nie przeszkadza, jak widzieliśmy, że może
być ono źródłem wartościowych inspiracji teoretycznych.
Badania etnograficzne
Éthnos to po grecku lud, grápho – piszę. Badania etnograficzne to zatem badania ludoznawcze. Badacz przenosi się na pewien czas do badanej społeczności lub
organizacji, mieszka na jej terenie, pracuje lub spędza tam długie godziny, obserwując zachowanie się jej członków i rozmawiając z nimi – a wszystko w celu
znalezienia odpowiedzi na ogólne pytanie, którego przykładów dostarczają tytuły
klasycznych doniesień etnologicznych3: Dojrzewanie na Samoa, Życie seksualne
dzikich w północno-zachodniej Melanezji czy Wzory kultury.
W wielu książkach schemat ten nazywa się „obserwacją uczestniczącą” (np.
Denzin, 1989), co może być jednak mylące, ponieważ badacz w terenie nie ogranicza się do obserwacji, lecz także w szerokim zakresie korzysta z wywiadu i badania
archiwaliów. Niejasne jest także, jak zobaczymy w rozdz. 7, pojęcie uczestnictwa.
W pedagogice etnografią nazywa się długotrwałe, indukcyjne i holistyczne badanie kultury życia codziennego w jednej organizacji lub grupie społecznej, które
3
Etnologia to europejska nazwa nauki o kulturach. W krajach anglosaskich nazywa
się ją antropologią społeczną (UK) lub kulturową (USA). Pierwotnie zainteresowana kulturami obcymi (np. kulturą wsi lub społeczności przedpiśmiennych), dziś obejmuje także
lokalne kultury własnego społeczeństwa („antropologia życia codziennego”). Etnografia
jest jej podstawowym schematem badawczym.
pełnią funkcje socjalizacyjne. Mogą to być na przykład sierociniec czy gang młodzieżowy (socjalizacja pierwotna) albo szkoła czy jednostka wojskowa (socjalizacja wtórna). Badanie etnograficzne jest długotrwałe: obejmuje pełny cykl działania
organizacji, np. rok szkolny. Jest indukcyjne, czyli postępuje od danych do teorii,
a nie od teorii do danych. Jest holistyczne, czyli nastawione na uchwycenie wzoru
lub wzorów badanej kultury. Do takiej teorii dochodzi się przez pracowite przekładanie danych i domysłów, dopóki nie stworzą sensownej całości. Holizm odróżnia
schemat etnograficzny od studium przypadku: studium jest nastawione na zrozumienie pojedynczego zjawiska, etnografia natomiast zmierza do zrozumienia
konfiguracji wielu zjawisk. Kto chciałby się dowiedzieć, jak prowadzić oświatowe
badania etnograficzne, powinien przeczytać klasyczne doniesienia: Willisa (1980),
Wooda (1996) czy McLarena (1986), a w języku polskim Kayser i Wagemanna
(1998). Tu naszkicujemy tylko kilka ogólnych zasad.
Wybór terenu. Badanie rozpoczyna się od wybrania terenu. Choć może to być
najzwyklejsza organizacja lub społeczność, z reguły wybiera się teren nieco „obcy”
(np. szkołę, do której chodzą dzieci z różnych grup etnicznych, szkołę wyznaniową, zakład poprawczy). Nie ma tu hipotez, listy zmiennych i szczegółowych metod
pomiaru. Wstępnego ukierunkowania dostarcza ogólne pytanie badawcze.
Nawiązanie kontaktu. Znalazłszy się w terenie, badacz szuka kogoś, kto mógłby go wprowadzić do grupy, nawiązuje kontakty, przełamuje lody. Czasem członkowie grupy nie są świadomi podwójnej roli badacza, częściej o niej wiedzą (przynajmniej niektórzy), ale godzą się, że są obserwowani. Wymaga to z ich strony
sporej dozy zaufania. Żeby je zyskać i utrzymać, badacz musi się przedstawić jako
życzliwy i dyskretny obserwator głęboko zainteresowany zrozumieniem badanego
terenu; nie wolno mu natomiast oceniać tego, co widzi, z perspektywy własnej
kultury (np. książkowej wiedzy pedagogicznej), pouczać i okazywać wyższości.
Jakkolwiek badacz uczestniczy w życiu grupy, pozostaje tak bierny, jak to możliwe;
zwłaszcza powstrzymuje się od osobistych interwencji.
Zbieranie danych. W terenie badacz przede wszystkim zbiera dane o strukturze miejsca i działaniach ludzi, a także o tym, jak rozumieją oni to, gdzie są i co
robią. Poznając teren, badacz stara się patrzeć na zdarzenia z pozycji członków
społeczności, chwytać sens, który oni nadają temu czy innemu zwyczajowi. Badaczowi oświaty sprawia to wielką trudność, ponieważ dysponuje sporą wiedzą
o organizacjach oświatowych. Wskutek tego:
zbyt często sam badacz mówi nam, co to wszystko znaczy (a nawet jak powinno być), zamiast próbować «uchwycić punkt widzenia tubylca i jego stosunek do życia, rozpoznać
jego wizję jego świata», jak powiedział Malinowski ponad 75 lat temu. Żaden chyba pojedynczy czynnik nie stanowi większego zagrożenia dla urzeczywistnienia możliwości
etnografii. (Wolcott, 1997, s. 338)
Główną metodą zbierania danych jest obserwacja etnograficzna. Uzupełniają ją
wywiad (zwłaszcza narracyjny) i zbieranie wytworów kultury (dokumentów, wypracowań, fotografii z rodzinnego albumu itp.). Współcześni badacze nie gardzą też
takimi metodami, jak spis zasobów domowych, metody projekcyjne, a nawet testowanie (Wolcott, 1997). Dane przechowuje się w formie notatek terenowych (field
notes), wspomaganych współczesnymi technikami rejestrowania obrazu i dźwięku.
Fotografie nie są jedynie ubarwiającą reprodukcją rzeczywistości, lecz pełnoprawnymi danymi, które wymagają analizy (nie mogą być zatem upozowane lub wyretuszowane). Film może zarejestrować przebieg jakiegoś zdarzenia w sposób pełniejszy,
niż mógłby to zrobić jeden badacz, choć trzeba się liczyć z tym, że nie będzie łatwo
poddać go analizie i właściwie wykorzystać w doniesieniu. Zrobione przez badacza
zdjęcia i filmy można pokazać badanym z prośbą o wyjaśnienia lub komentarz.
Gromadząc dane, badacz jednocześnie je analizuje i stawia nowe, bardziej
szczegółowe pytania. Postępowanie badawcze jest więc otwarte, elastyczne i zasadza się na ciągłym redefiniowaniu problemów na podstawie zebranych faktów.
Oprócz notatek badacz z reguły prowadzi osobisty dziennik terenowy. Opisuje w nim swoje myśli i uczucia, które pojawiały się podczas obserwacji i wywiadów, nasuwające się pomysły interpretacyjne, wątpliwości, a także podjęte decyzje. Dziennik jest próbą uchwycenia i utrzymania w pewnej odległości od danych
„czynnika ludzkiego”, jakim jest subiektywność badacza.
Końcowa analiza. Dane analizuje się metodami, które dokładniej przedstawiam w rozdz. 8. Szczególną troską powinna być wiarygodność badania. Służy
temu triangulacja źródeł: porównywanie wniosków, które nasuwają dane pochodzące od różnych jednostek, z obserwacji różnych epizodów czy z archiwów.
Załóżmy, że udało się nam zarejestrować pewną postawę. Zanim uznamy, że jest
ona wyróżnikiem badanej kultury, powinniśmy sprawdzić, czy nie jest zjawiskiem
przypadkowym lub swoistą cechą jednostki. Jeśli wywnioskowaliśmy tę postawę
z obserwacji kilku rozrzuconych w czasie epizodów, które pojawiły się i rozwinęły
niezależnie od badacza, to możemy ją z dużą pewnością przypisać kulturze grupy.
Jeśli te epizody były sprowokowane (choćby niechcący) przez badacza, nasza pewność musi być mniejsza. Najbardziej wątpliwe jest wnioskowanie o kulturze z odpowiedzi jednego badanego na zadawane pytania. Z każdym zatem wnioskiem
powinno być sprzężone źródło informacji: wiem o tym stąd, że...
Doniesienie. Ostatnim zadaniem jest napisanie doniesienia, które przedstawia
teorię badanego terenu na tle szczegółowego, plastycznego, żywego opisu faktów.
W literaturze można znaleźć różne odmiany schematu etnograficznego. Do szerzej znanych należy konstytutywna etnografia oświatowa Mehana (1978), wywodząca się z etnometodologii. Mehan zaleca:
• nieustannie odwoływać się w procesie wnioskowania do danych, a zwłaszcza
do warunków instytucjonalnych badanego terenu,
• nie przystępować do badania z gotowym poglądem i opierać się skłonności
do wykorzystywania tylko tych danych, które zgadzają się z wyłaniającymi się
przypuszczeniami,
• uzgadniać perspektywy badacza i badanych (badacz powinien się upewnić, czy struktury, które ujawnił w działaniu ludzi, rzeczywiście kierują działaniem tych ludzi),
• unikać w analizie danych zarówno redukcjonizmu psychologicznego, jak i socjologicznej reifikacji.
Badania etnograficzne z definicji nie dają się standaryzować, toteż próby
uszczegóławiania tego schematu i formalizowania jego części niewiele mają sensu.
Każde badanie jest niepowtarzalną przygodą, której rezultat zależy tyleż od kwalifikacji metodologicznych badacza, ile od jego inteligencji społecznej i szczęśliwego przypadku. O naukowej wartości doniesienia decyduje nie tyle poprawność
metodologiczna, ile odkrywczość wniosków. Schemat etnograficzny jest więc ryzykowny: jeśli nie otwiera nam oczu na nowe zjawiska i regularności, nie prowadzi
do reorganizacji zastanej wiedzy, to trudno go opublikować. Do potwierdzania
tego, co już wiemy, trzeba bowiem badań o większej standaryzacji i lepszej kontroli zmiennych.
Badania historyczne
Badania historyczne można by nazwać etnografią minionych społeczności. Ich
cechą szczególną jest niedostępność badanego obiektu. Nie możemy eksperymentować z przeszłością, kontrolować zmiennych, powtarzać pomiarów itp. Musimy
pracować na danych, które nie my zebraliśmy: dokumentach, relacjach i wytworach materialnych, które przechowały się do naszych czasów.
Na takich danych pracuje historyk oświaty, którego interesują powstawanie
i zmiany różnych instytucji (polityki oświatowej, legislacji, programów nauczania, organizacji i metod kształcenia itd.). Dane te mają formę obrazów i rzeźb, inskrypcji,
kronik, pamiętników, umów, sprawozdań, metryk (urodzenia, ślubu, zgonu), świadectw szkolnych, dyplomów itp. Szuka się ich w archiwach państwowych i archiwach
różnych organizacji, bibliotekach, muzeach, a także w zapomnianych kufrach na strychu. Gdy nie ma żadnych źródeł, nie ma historii. Ale gdy są, trzeba je najpierw zbadać.
Zachowane dane, czyli źródła historyczne, dzieli się na pierwotne i wtórne.
Źródła pierwotne to wytwory badanych społeczności (np. uchwały organów władzy, protokoły posiedzeń rady szkolnej, dzienniki klasowe) lub relacje naocznych
świadków. Trzeba pamiętać, że między zdarzeniem a źródłem zawsze stoi człowiek
– protokolant, operator kamery, świadek – który podejmuje decyzję, co trzeba wyeksponować, a co można pominąć. W tym sensie danym ze źródeł pierwotnych nie
przysługuje ten sam stopień bezpośredniości, co danym pochodzącym z obserwacji.
Źródła wtórne to cudze relacje oparte na źródłach pierwotnych. Załóżmy, że
chcemy zbadać jakiś przeszły konflikt szkolny na podstawie artykułów w lokalnej
gazecie. Jeśli dziennikarz osobiście obserwował zdarzenia, rozmawiał ze stronami
konfliktu, uczestniczył w negocjacjach itp., to artykuły te uznajemy za źródło pierwotne. Jeśli jednak korzystał z protokołów i relacji uczestników post factum, artykuły są źródłem wtórnym. Za źródła wtórne trzeba też uznać opracowania historyczne.
W historii krytyką źródeł przyjęło się nazywać potencjalny dyskurs, w którym jedna strona wysuwa zarzuty pod adresem źródła, a druga stara się je obalić
i w ten sposób wykazać, że jest wiarygodne. Stosownie do natury zarzutów mówimy o dwóch rodzajach krytyki.
W krytyce zewnętrznej zarzut brzmi: źródło jest nieautentyczne, np. sfałszowane, zawiera pomyłki kopisty, nie pochodzi od tego, komu się je przypisuje.
Badacz stara się wykazać, że taki zarzut jest bezpodstawny. Główna metoda to
rekonstrukcja dziejów źródła: skąd pochodzi, jakie były jego losy, gdzie się teraz
znajduje, jaka instytucja potwierdza jego autentyczność itd. Jeśli źródłem jest ko-
respondencja między postaciami historycznymi, to trzeba się upewnić, że rzeczywiście wyszła ona spod ich piór. Można zrobić analizę grafologiczną pisma lub
podpisów, zbadać chemiczne właściwości papieru i atramentu itp. Można zrobić
analizę językową, by sprawdzić, czy słownictwo, składnia i stylistyka listów ma
cechy znane z innych tekstów tych postaci. Można zbadać treść korespondencji,
by zobaczyć, czy nie zawiera wzmianek o zdarzeniach, które nie mogły być znane
domniemanym autorom. Krytyka zewnętrzna dotyczy zatem świadomego fałszerstwa, przypadkowych zniekształceń lub błędnej atrybucji źródła.
W krytyce wewnętrznej zarzut brzmi: źródło jest autentyczne, ale relacja fałszywa. Zarzuca się źródłu, że jego autor nie mógł wiedzieć, jak się rzeczy miały,
a jego relacja jest zmyślona, że relacja jest nieprawdopodobna w świetle tego, co
skądinąd wiemy o zdarzeniu, że autor był stronniczy i pisał tak, by pewną sprawę
lub pewną stronę w sporze ukazać w bardziej korzystnym świetle, że autor był
uprzedzony, ponieważ hołdował stereotypom swoich czasów itd.
Jeśli wpada nam w ręce relacja nauczyciela o przebiegu pewnego konfliktu
w szkole, w której mówi się o dyskusjach prowadzonych w gronie osób kierujących szkołą, to powinniśmy się zastanowić, czy szeregowy nauczyciel mógł być ich
świadkiem. Jeśli o tym samym konflikcie mówi seria artykułów w lokalnej gazecie,
musimy się upewnić, czy gazeta lub dziennikarz nie występowali w przeszłości
w obronie autorytetu władzy. Gdyby tak było, jest prawdopodobne, że gazetowe
relacje fałszywie lub jednostronnie przedstawiają racje uczniów i rodziców. Jeszcze
większa ostrożność jest wymagana wtedy, gdy źródłem jest pamiętnik pisany przez
dyrektora szkoły. Dyrektor może być osobiście zainteresowany pozostawieniem
korzystnego obrazu własnej osoby, a upływ czasu między zdarzeniem a relacją
walnie temu sprzyja.
Obrona przed takimi zarzutami nie jest łatwa. Jeśli pominiemy oczywiste świadectwa nietrafności relacji (np. nieprawdopodobny bilans jakiejś bitwy), obrona
źródła może się opierać wyłącznie na innych źródłach, których trafność też podlega krytyce. Historyk podejmuje decyzję na podstawie długiego rozumowania i nigdy z całkowitą pewnością. Odkrycie nowych źródeł często wywraca duże obszary historiografii właśnie dlatego, że zmusza do zrewidowania przeszłych decyzji o
trafności relacji zawartych w dostępnych źródłach. Generalna zasada brzmi: korzystać z wielu źródeł, konfrontować je ze sobą i nie ukrywać słabych punktów obrony.
Zasada ta ma zastosowanie nie tylko przy rekonstrukcjach przeszłych zdarzeń
(np. szkolnych studiach przypadku, rekonstrukcjach przedsięwzięć reformatorskich), ale i przy popularnych w nauce o wychowaniu biografiach myślicieli (typu
Jan Amos Komenský – życie i dzieło). Zwykłe streszczenie dzieł autora ze współczesnej perspektywy dyskwalifikuje pracę – cóż bowiem za pożytek z pokazania,
że autor przeczuwał to, co dziś można przeczytać w każdym podręczniku? Dzieła
te należy osadzić w kontekście epoki, pokazać, gdzie idą za tradycją, a gdzie ją
łamią. Trzeba pokazać, jak przebiegały ich recepcja i próby stosowania w praktyce.
To wszystko wymaga dodatkowych źródeł i ich krytyki.
Rozdział 5
BADANIA PRAKTYCZNE
Istotą badań praktycznych jest cel, dla którego są podejmowane: mają one pomóc
w usunięciu praktycznej trudności, a nie powiększyć czy skontrolować wiedzę teoretyczną. W pedagogice polskiej nie wyodrębnia się tych badań spośród innych,
a to dlatego, że praktyczność uważa się za „zasadniczą i swoistą cechę badań pedagogicznych” (Pilch, 1995, s. 47). Uzasadnienie tego sądu jest następujące:
cel poznawczy jest tylko środkiem dla celu głównego tych badań, który polega na melioracji badanego fragmentu rzeczywistości wychowawczej. Badania w pedagogice sprowadzają się najczęściej do diagnozy, która stanowi punkt wyjścia dla badań naprawczych,
swoistej terapii. Bez uwieńczenia badań pedagogicznych rezultatami praktycznymi,
działalnością terapeutyczną odbiera im w zasadzie społeczny sens. (Pilch, 1995, s. 48)
Pogląd ten uważam za błędny, dlatego że odbiera pedagogice szansę na wypracowanie rozwiniętej teorii badanych zjawisk1. Pedagogika, podobnie jak socjologia lub
psychologia, powinna dążyć przede wszystkim do zrozumienia swojego przedmiotu, tzn. ogółu społecznych praktyk socjalizacyjnych (pierwotnych, np. w rodzinach,
i wtórnych – w wyspecjalizowanych organizacjach oświatowych) i na tym budować
swój prestiż. Nie znaczy to, bym lekceważył zadanie ulepszania praktyki wychowawczej, wierzę jednak, że skuteczniej ulepsza praktykę ten, kto najpierw dąży do jej zrozumienia, niż ten, kto dąży tylko do ulepszania. Trafnie się mówi za K. Lewinem, że
ma nic bardziej praktycznego niż dobra teoria. Żeby odpowiedzialnie rekomendować ulepszenia „badanego fragmentu rzeczywistości wychowawczej”, trzeba przede
wszystkim umieć oddzielić zbiorowe mniemania (stereotypy) od struktur regulujących praktykę, to zaś wymaga teorii, która te struktury opisuje.
Kogo nie przekonują te argumenty, powinien zastanowić się nad konsekwencjami nieodróżniania badań teoretycznych od praktycznych dla samej praktyki
naukowej. Jedna z nich to usankcjonowanie doniesień z typowych badań praktycznych jako podstawy ubiegania się o stopnie naukowe. Oto zwierzchnik pewnej
szkoły, niezadowolony z poziomu kształcenia, wprowadza w niej szereg zmian:
dodaje do programu nowe przedmioty, porządkuje rygory dydaktyczne, nawiązuje współpracę z innymi szkołami itp. Chcąc się przekonać, czy te zmiany przy1
Szczegółową krytykę paradygmatu pedagogiki jako nauki praktycznej przedstawiam
gdzie indziej (Konarzewski, 1995b).
88 Rozdział 5. Badania praktyczne
niosły pożądane skutki, gromadzi dane, analizuje je i dochodzi do wniosku, że
tak rzeczywiście się stało. Mimo że jest to osiągnięcie mieszczące się w obowiązkach służbowych zwierzchnika, opisuje je i zgłasza jako pracę habilitacyjną. Ale
ta praca nie wnosi do naszej wiedzy o oświacie ani nowych pomysłów teoretycznych (twierdzeń czy hipotez), ani nawet nowych sugestii, jak doskonalić praktykę
w innych szkołach, toteż zostaje odrzucona. Autor jest rozgoryczony: przecież cel
poznawczy jest tylko środkiem do ulepszenia konkretnej organizacji oświatowej.
Można zrozumieć entuzjazm, z jakim pedagogika polska, zdominowana zrazu
przez doktrynalny marksizm-leninizm, zwróciła się ku metodom empirycznych
nauk społecznych po Październiku 1956 r., i to, że proste badanie ankietowe poglądów uczniów lub testowanie ich osiągnięć szkolnych uchodziło wówczas za wyrafinowane przedsięwzięcie naukowe. Dziś jednak takie badania (znacznie bardziej
zaawansowane metodologiczne) są rutynowo wykonywane przez profesjonalne
ośrodki badania opinii czy rynku. Trwać przy poglądach z lat 50., to uznawać,
że byle sondaż popularności polityków lub badanie dowodzące, że dodanie do
jogurtu owoców w kawałkach zwiększy popyt na ten wyrób, to odkrycia naukowe,
które powinny być honorowane awansami w hierarchii akademickiej. Ponieważ
w żadnej innej dyscyplinie nauk społecznych nie wysuwa się podobnych roszczeń,
pedagogika, która się przy nich upiera, naraża się na marginalizację.
Od problemu do pytania
U początków badania praktycznego leży trudność praktyczna. Trudność ta polega
na tym, że określona instytucja nie działa zgodnie z oczekiwaniami: nie przynosi
pożądanych efektów, przynosi efekty niepożądane, pochłania zbyt wiele środków
itp. Trudność taka jest odczuwana, ale niekoniecznie rozumiana. Wiadomo, że
dzieje się źle: spada morale nauczycieli, rośnie liczba wagarów, zmniejsza się odsetek młodzieży ze wsi na studiach itp., ale nie wiadomo, jaki jest zasięg i jakie źródła
tej trudności. Nie wiadomo też, co zrobić, by ją usunąć.
W obliczu tej niepewności zwierzchnicy trapionej trudnością organizacji
mogą albo działać na oślep, albo zamówić badanie praktyczne. To ważna okoliczność: badanie praktyczne jest zawsze zlecane i finansowane przez kogoś, kto ma
możliwości działania. Podejmowanie takich badań z inicjatywy samego badacza
(i za pieniądze publiczne przeznaczone na rozwój nauki) nie ma żadnego uzasadnienia. Wartość takiego badania zasadza się wyłącznie na tym, że pomaga komuś
w podjęciu decyzji o sposobie postępowania. Jeśli nie ma nikogo, kto stałby przed
taką decyzją, badanie nie ma sensu. Jeśli ktoś taki jest, niechże się zaangażuje finansowo, bo wtedy trudniej mu będzie odłożyć niewygodne wyniki na półkę.
Zamówiwszy badanie, zwierzchnik nie powinien jednak oczekiwać, że wyniki
powiedzą mu, co robić. Wyniki badania odpowiadają jedynie na zadane pytania
o to, jak się rzeczy mają, nie mówią zaś, co należy zmienić, by miały się inaczej.
Odpowiadają – dodajmy – pod warunkiem, że pytania są sensowne, a badanie
właściwie przeprowadzone. Te odpowiedzi mogą naprowadzić zwierzchnika lub
eksperta na trop skutecznego rozwiązania, ale same go przynieść nie mogą.
Od problemu do pytania 89
Jak zatem przełożyć trudność na pytania badawcze? Po pierwsze, trzeba zapytać o rodzaj, zasięg, źródła i otoczenie trudności. Jeśli zwierzchnik otrzyma
przekonujące odpowiedzi na te pytania, może sam lub we współpracy z badaczem
obmyślić środki zaradcze i podjąć decyzję o wprowadzeniu ich w życie. Ani sam
pomysł działania, ani tym bardziej decyzja zwierzchnika nie należą do aktywności
badawczej – sądzić inaczej to zakładać, że badacz przejmuje kontrolę nad badaną
organizacją. Ale po podjęciu decyzji badanie znów się staje potrzebne – tym razem
po to, by odpowiedzieć na pytanie, jak przebiega wprowadzanie w życie postanowionej innowacji i jakie skutki przynosi.
Są więc dwa rodzaje pytań i zatem dwa rodzaje badań praktycznych. Badania
pierwszego rodzaju nazywa się zwykle diagnostycznymi, a ich wynik diagnozą.
Takie nazewnictwo nadaje nowe znaczenie słowu, które zadomowiło się w języku
w zupełnie innym znaczeniu. Diagnoza to tyle, co rozpoznanie choroby na podstawie jej objawów. Pojęcie diagnozy zakłada dwa poziomy rzeczywistości: poziom
nieobserwowalny (chorobę) i obserwowalny (objawy). Zakłada też, że objawy są
mniej ważne niż choroba: w diagnozie idzie nie o kompletny opis objawów, lecz
o zidentyfikowanie pewnej konstelacji („profilu”) objawów jako pozycji na znanej
liście chorób. Lekarz prowadzi lub zamawia badania, dopóki się nie upewni, że ma
do czynienia ze szkarlatyną, a nie na przykład z różyczką.
Badania, o których mowa, wcale na tym nie polegają. Typowy przykład to badanie osiągnięć szkolnych w określonej dziedzinie wiedzy. Wynik: „49% uczniów klasy
III źle wykonuje zadanie wymagające porównania ilorazowego” jest zwykłym streszczeniem danych, a nie diagnozą, która sięgałaby nieobserwowalnych regionów rzeczywistości. Jest to takie samo nadużycie terminu, jak nazwanie diagnozą spisu mebli
w szkole. Dlatego będziemy nazywać takie badania rozpoznawczymi. Ich celem jest
rozpoznanie rodzaju, zasięgu, źródeł i otoczenia konkretnej trudności praktycznej.
Badania drugiego rodzaju nazywa się ewaluacyjnymi. Słowo to jest zapożyczeniem z angielskiego. Evaluation znaczy tyle, co badanie czegoś w celu wydania
sądu o jego wartości, jakości, ważności czy stanie. W języku polskim dokładnie
odpowiada mu „ocenianie”. Wytwór oceniania to ocena: sąd o wartości, jakości,
ważności czy stanie. Kiedy wprowadzano „ewaluację” do słownika pedagogicznego, tłumaczono, że trzeba odróżnić ocenianie pracy szkoły od oceniania osiągnięć
uczniów. Ale obce słowo energicznie wypiera polskie: coraz częściej czyta się o
„ewaluacji kompetencji matematycznych uczniów”. Stąd wniosek, że nie warto pożyczać obcych słów, chyba że mają ścisłe znaczenie naukowe (np. wariancja, stres).
Dlatego zostaniemy przy skromnej, a jasnej nazwie: badania oceniające, rozumiejąc przez nią badania, które dostarczają oceny przebiegu i skutków zamierzonych
działań.
W literaturze można znaleźć wiele innych podziałów, często wątpliwych i zbędnych. Ritchie i Spencer (1995) odróżniają na przykład badania „kontekstowe” (np.
jakie są potrzeby danej społeczności?) od „diagnostycznych” (np. skąd się wzięły
te potrzeby?). Nawiązuje to do popularnego w Polsce podziału na badania opisujące i wyjaśniające. Takiego podziału przeprowadzić jednak nie można, ponieważ
nie istnieją „zabiegi wyjaśniające”, które różniłyby się od „zabiegów opisujących”.
Wyjaśnienie to wniosek z analizy danych; czy możemy go wyciągnąć, zależy od
struktury danych. Załóżmy, że w ramach rozpoznawania potrzeb oświatowych
pytamy młodych ludzi w gminie, na jakim szczeblu zamierzają zakończyć własną
edukację, a przy okazji – jaka jest dochodowość per capita ich rodzinnego gospodarstwa. Jeśli analiza wykaże, że obie te zmienne są skorelowane (im niższa
dochodowość, tym większa chęć poprzestania na szkole przysposobienia rolniczego), badanie dostarczy pewnego wyjaśnienia rozkładu potrzeb. Jeśli korelacji nie
będzie, badanie dostarczy tylko opisu potrzeb.
Widać stąd, że szansa na wyjaśnienie pewnej zmiennej jest tym większa, im
więcej zmiennych obejmuje badanie. O liczbie zmiennych nie decyduje jednak
badacz, lecz sponsor. Jeśli władze gminy chcą zaplanować środki na dożywianie
dzieci w szkołach, wystarczy im płytki opis: liczba dzieci, które tego potrzebują. Nie muszą angażować środków w dociekanie powodów tego, że dzieci bywają
głodne. Jeśli natomiast producent chce zwiększyć sprzedaż jakiegoś towaru, musi
się dowiedzieć, dlaczego ludzie nie chcą go kupować.
Cytowani autorzy mówią też o badaniach „oceniających” (np. jak dobrze dana
organizacja zaspokaja potrzeby ludzi?) i „strategicznych”, które mają wskazywać
nowe teorie, zasady lub plany działania mogącego przezwyciężyć określoną trudność. Ta druga kategoria jest wielce podejrzana. Z żadnego opisu stanu rzeczy nie
wynika logicznie projekt działania, żadne zatem badanie nie może „odkryć, co
należy zrobić”. Między stanem rzeczy a projektem działania rozciąga się sfera obca
metodologii: ocena (zależna od hierarchii wyznawanych wartości), jak bardzo nie
do zniesienia jest ten stan rzeczy, oszacowanie własnych możliwości oraz przewidywanie różnorodnych skutków interwencji i powstrzymania się od interwencji.
Dlatego projekty działania sporządzają i przyjmują ludzie w ramach swoich kompetencji politycznych i to oni, a nie badacze, ponoszą odpowiedzialność za ich
skutki. Te i inne aspekty zagadnienia poruszają niedawno wydane antologie pod
redakcją Korporowicza (1997) i Mizerka (1997).
Badania rozpoznawcze
Powiedzieliśmy, że celem badań rozpoznawczych jest dokładniejsze poznanie
trudności. Cel ten wyraża się w pytaniach o jej:
• Charakter – czy na przykład narzekania na poziom pewnej usługi oświatowej
mają pokrycie w obiektywnych cechach tej usługi? Gdyby nie miały, trzeba by
je uznać za subiektywne i szukać ich źródła w knowaniach konkurencji, w niechęci do kierownictwa organizacji czy ogólnej propagandzie klęski.
• Zasięg – gdzie i kiedy trudność (lub poczucie trudności) występuje częściej,
a gdzie i kiedy rzadziej? Jeśli by się okazało, że na wysoką liczbę wagarów
w mieście zapracowuje głównie szkoła na przedmieściu wiosną, znacznie ułatwiłoby to szukanie rozwiązania.
• Źródła – co wywołuje trudność: zła technologia (np. program kształcenia niedostosowany do lokalnych aspiracji), zła organizacja pracy (np. system dwuzmianowy), a może brak kwalifikacji lub niedbalstwo personelu?
Badania oceniające 91
• Otoczenie – kto lub co może pomagać lub przeszkadzać w próbach usunięcia
trudności? Dobre badanie rozpoznawcze powinno wskazywać zasoby środowiska, na które kierownictwo może liczyć: czy na przykład ludzie są gotowi
poświęcić swój czas lub pieniądze na program działań zaradczych, czy udzieliliby poparcia pewnym zmianom organizacyjnym itp. Badanie powinno też
wskazywać obszary możliwego oporu wobec zmian (np. ze strony nauczycieli
dorabiających korepetycjami do pensji).
Badania rozpoznawcze wykonuje się najczęściej w schemacie przeglądowym
na całej populacji (badanie wyczerpujące). Dane zbiera się za pomocą obserwacji
ilościowej (np. uzębienia uczniów lub kanapek przynoszonych do szkoły), testowania (np. osiągnięć szkolnych) i ankiety. Dane analizuje się tak, by uzyskać odpowiedzi na wymienione przed chwilą pytania.
Przykłady: przed podjęciem decyzji, czy zatrudnić nauczyciela języka niemieckiego, dyrektor szkoły zarządza ankietę, by stwierdzić, jak duża jest liczba uczniów zainteresowanych nauką niemieckiego. Przygotowując budżet gminy, wójt
zarządza spis pomocy dydaktycznych, w które są wyposażone jego szkoły, by zobaczyć, komu i ile dać na zaspokojenie najbardziej palących potrzeb. Zaniepokojony
porażkami absolwentów na egzaminach wstępnych, dyrektor liceum zleca ekspertom z uniwersytetu pogłębione rozpoznanie stanu wiedzy uczniów z najważniejszych przedmiotów.
Niektóre badania rozpoznawcze są luźniej związane z trudnością i programem
działania. Zbiera się na przykład opinie uczniów o najbardziej dolegliwych stronach szkoły z myślą o tym, by wykorzystać je do wysunięcia żądań wobec władz
oświatowych w ogóle. Czy kogokolwiek z adresatów zainteresuje doniesienie, nie
jest wcale pewne, ludzie ci bowiem żyją własnymi problemami. Gdyby badanie nawiązywało do tych problemów, byłoby przez nich przyjęte z wielką uwagą, w przeciwnym razie powędruje do szafy. Wypada więc powtórzyć, że badanie praktyczne
musi być związane z czyjąś trudnością lub czyimś zamiarem. Jeśli służy wyłącznie
zaspokojeniu ciekawości badacza, nie powinno być finansowane ze środków publicznych przeznaczonych na badania naukowe.
Badania oceniające
W pewnym sensie wszystkie badania praktyczne mają charakter oceniający, toteż
można by poprzestać na jednej nazwie. Ale w nauce o wychowaniu podział na
„diagnozę” i „terapię” jest tak głęboko zakorzeniony, że warto go uszanować na
poziomie terminologii. Badania, które nazwaliśmy rozpoznawczymi, leżą po stronie „diagnozy”, a badania, które nazwaliśmy oceniającymi – po stronie „terapii”:
dostarczają oceny przebiegu i skutków podjętych działań naprawczych.
W wielu organizacjach wartość innowacji ocenia rynek (jeśli po zmianie opakowania sprzedaż wyrobu wzrosła, to zmiana była skuteczna), więc badania oceniające są zbędne. Ale są organizacje nierynkowe, które dostarczają dóbr i usług
społecznych (szkoły, szpitale, komisariaty policji itp.). Liczyć tu na niewidzialną
rękę rynku byłoby absurdem, ponieważ ludzie ani nie mają pełnej swobody wybo-
ru tych usługodawców, ani pełnej informacji o poziomie ich usług (najlepsza jest
informacja, która pochodzi z własnego doświadczenia, o nią jednak trudno, gdy
kontakt z organizacją jest jednorazowy lub rzadki). Badania oceniające okazują się
wtedy niezastąpione, bez nich można by bowiem latami trwonić pieniądze i wysiłek na nikomu niepotrzebne, a nawet szkodliwe innowacje.
Celem badań oceniających jest dostarczyć sponsorowi przesłanek do decyzji
w sprawie przyjętego sposobu działania (programu, innowacji). W grę wchodzą,
najogólniej mówiąc, trzy opcje decyzyjne: kontynuować, zmodyfikować, porzucić.
By ten cel osiągnąć, badania oceniające powinny dostarczyć odpowiedzi na następujące pytania:
• Jak przebiega wprowadzanie innowacji w życie? Czy różne linie działania są
właściwie skoordynowane (np. czy dostarczono pracownikom niezbędnych
środków i informacji, co mają robić), terminy dotrzymane, personel zmobilizowany, pozytywnie nastawiony do zmian i rzeczywiście realizuje innowację.
To ostatnie pytanie zasługuje na podkreślenie, często bowiem innowacja nie
przynosi skutków po prostu dlatego, że personel popierając ją słownie, pracuje
po staremu.
• Czy innowacja przynosi oczekiwane skutki, jeśli nie, to dlaczego?
• Czy innowacja przynosi nieoczekiwane skutki, jeśli tak, to jakie?
• Jakie są całkowite koszty innowacji, jak rozkładają się na poszczególne zadania,
czy mają tendencję wzrostową, czy spadkową?
Badania oceniające są tym bardziej potrzebne, im większa jest skala innowacji.
Gdy nauczyciel zmienia podręcznik, dyrektor szkoły zaostrza przepisy porządkowe, rada szkoły zleca przebudowę korytarza, to skutki takich innowacji można ocenić gołym okiem. Jeśli jednak innowacje obejmują wiele szkół lub nawet
wszystkie, jak to bywa przy reformach rządowych, gołe oko jest bezsilne. Może
ono wypatrzyć, że gdzieś reforma ma charakter pozorny, pogarsza warunki pracy, zwiększa koszty, przynosi skutki odwrotne do oczekiwanych, ale temu zawsze
można przeciwstawić równie jednostkowe obserwacje pozytywnych skutków. Stanowiska w takiej debacie łatwo przewidzieć na podstawie sympatii politycznych
jej uczestników. Wyniki badań oceniających są bardziej miarodajne, choć, jak zobaczymy, nawet one mogą nie przynieść rozstrzygnięcia sporu, czy reforma jest
udana, czy nie.
Pojęcie badania oceniającego wydaje się proste, ale zwodnicza to prostota. Kto,
dla kogo i na jakich założeniach ma oceniać innowacje – to kwestie sporne.
Ocena z punktu widzenia usługodawcy
Najbardziej oczywiste może się wydawać ocenianie prowadzone przez samą organizację, która świadczy badaną usługę. Organizuje je kierownictwo organizacji
i adresuje wprost do personelu, który usługę realizuje. Takie ocenianie ma kilka
etapów.
Ważne jest, by zacząć od uzgodnienia w gronie usługodawców wizji oczekiwanych wyników. Służy temu dyskusja nad założeniami, celami i metodami programu. Etap ten często się pomija, gdy organizacja oświatowa przyjmuje gotowy,
szczegółowo opisany program (np. nauczania czytania w przedszkolu lub kształcenia uzdolnień matematycznych w szkole). Niesłusznie – bezpośredni wykonawcy mogą bowiem inaczej rozkładać akcenty niż autor programu i w konsekwencji
dążyć do nieco innych celów. Powiedzenie sobie, co chcemy osiągnąć, i wyrażenie
tych deklaracji w języku zmiennych obserwowalnych jest więc zawsze pożądane.
Zwiększa to spójność zespołu realizatorów i ich wrażliwość na wyniki pomiaru.
Samo badanie przebiega zwykle w którymś ze schematów eksperymentu naturalnego (najczęściej w schemacie jednogrupowym z prestestem i posttestem lub
szeregów czasowych). Doniesienie, które sporządza kierownik programu, mówi,
czy nastąpił oczekiwany wzrost (np. wyników testowania osiągnięć matematycznych) lub spadek (np. liczby opuszczonych lekcji). Takie doniesienie przedstawia
się personelowi i poddaje pod dyskusję. Daje ono wyobrażenie, w jakim zakresie
udało się zespołowi osiągnąć jego własne cele, ale nic ponadto. Zespół nie dowie się
o nieoczekiwanych skutkach programu i o tym, co myślą o programie usługobiorcy.
Tego rodzaju ocenianie jest osadzone w podejściu, które Popkewitz (1984) nazywa inżynierskim. Zakłada ono, że system oświaty, podobnie jak przemysł czy
kolej, jest urządzeniem zbudowanym w określonym celu. Cel ten trzeba zdefiniować tak wyraźnie, by dało się go mierzyć, a system tak zaprojektować, by zmaksymalizować szansę osiągnięcia celu. Czy system działa właściwie, powiedzą wyniki
testowania osiągnięć szkolnych uczniów. W wielkiej cenie są międzynarodowe
programy mierzenia tych osiągnięć, pozwalają bowiem porównywać funkcjonowanie całych systemów.
Ocena z punktu widzenia usługobiorcy
Równie często ocenianie programu odwołuje się opinii usługobiorców, np. uczniów czy ich rodziców, by ustalić, czy dostają oni wartościową usługę (Scriven,
1980). Ten rodzaj oceniania stosuje się w szkolnictwie wyższym, pytając studentów, co wynieśli z wykładów lub ćwiczeń.
Według Scrivena ocenianie powinno być z góry zaplanowane co do czasu (np.
dwa razy w roku) i zmiennych. Badanie jest wyczerpujące i wykonane w schemacie
przeglądowym. Wymaga zbierania zarówno danych obiektywnych (o liczebności
i cechach uczestników programu, ich osiągnięciach, kosztach itp.), jak i subiektywnych (opinie uczniów o wartości i skutkach nauczania według danego programu
czy metody). Zbieranie obiektywnych danych o osiągnięciach wymaga sformułowania celów behawioralnych. Jeśli celem programu jest rozwinięcie umiejętności
krytycznego myślenia, cel w wersji behawioralnej mógłby wyglądać tak:
Przy końcu roku szkolnego 90% uczniów uczestniczących przez cały rok w programie
osiągnie w skali staninowej wynik równy lub większy od 7 w Skali krytycznego myślenia
Watsona i Glasera. (Eby i Smutny, 1998, s. 183)
Dane subiektywne zbiera się za pomocą ankiety. W kwestionariuszu ankiety
mogą się znaleźć pytania typu:
• Jakie są, twoim zdaniem, cele programu?
• Czy dobrze objaśniono Ci cele programu?
• W jakim stopniu program osiąga te cele?
• Pod jakim względem program nie osiąga tych celów?
• Czy miałeś okazję otwarcie wypowiedzieć się w sprawie celów i skutków programu?
Doniesienie z takiego badania powinno odpowiadać na cztery pytania:
• Komu służy innowacja – ile osób z niej korzysta, jak zostały dobrane?
• Jak działa innowacja – czy jest dostępna, co w świetle pomiaru osiągnięć i subiektywnych opinii daje uczniom, czy to odpowiada celowi, który zadeklarowała szkoła, ile środków i energii pochłania?
• Jak efektywna jest innowacja – czy uczniowie są zadowoleni, co chcieliby zmienić, czy mogą swobodnie komunikować się z personelem, przekazywać swoje
uwagi, odbierać wskazówki?
• Jakie są nieoczekiwane skutki innowacji – czy wywiera niezamierzony wpływ
na uczniów, personel szkolny i inne osoby (np. okolicznych mieszkańców)?
Doniesienie powinno być przedyskutowane na zebraniu personelu, a także
przekazane uczniom i ich rodzicom, by zapobiec stronniczemu (selektywnemu)
podejściu do wyników. Dzięki temu uogólnione opinie uczniów prowadzą do
zmian, które zapewniają coraz lepsze zaspokajanie ich potrzeb. Jest to naczelnym
celem oceniania z punktu widzenia usługobiorcy.
Ocena z punktu widzenia społeczeństwa
Trzecie podejście do oceniania innowacji zakłada, że między oceniającym a ocenianym istnieje konflikt. Oceniający jest skłonny eksponować błędy, zaniedbania i niepożądane skutki uboczne, a oceniany – świadectwa skuteczności swojego
działania i jego błogosławione skutki. Gdy obie role pełni ten sam zespół, można
się spodziewać rozmaitych kompromisów, które obniżają wiarygodność oceny.
Dlatego najlepiej powierzyć ocenianie osobom spoza programu, które nie są nim
osobiście zainteresowane. Adresatem ich oceny powinna być raczej społeczność
lokalna lub całe społeczeństwo niż usługodawcy czy usługobiorcy. Ma to szczególne znaczenie, gdy innowacja jest finansowana ze środków publicznych. Podatnicy
zasługują na to, by wiedzieć, na co idą ich pieniądze. Wprowadzenie oceny do
publicznego obiegu wywiera nacisk na władze oświatowe i skłania do bardziej racjonalnego rozdzielania funduszy (Guba i Lincoln, 1981).
Ocena innowacji z punktu widzenia społeczeństwa jest często przedmiotem
artykułów prasowych lub programów telewizyjnych. Dziennikarze biorą na celownik jakiś publiczny program działania i drążą go w poszukiwaniu przemilczanych faktów, niewygodnych liczb i krytycznych opinii. W oświatowych badaniach
oceniających rolę dziennikarzy pełni wynajęty zespół wizytatorów z kuratorium
lub konsultantów z uniwersytetu. Nikt z nich nie może mieszkać lub pracować
w zasięgu jednostki samorządu, która prowadzi program, tak by nie było cienia
wątpliwości, że reprezentują interes publiczny.
Badanie oceniające ma tu najczęściej charakter jakościowy i przebiega w schemacie studium przypadku. Badacz nie wnosi do badanej szkoły gotowej wizji celów
i zamierzonych wyników, lecz prowadzi nieuprzedzoną obserwację jakościową i wywiady. Zbiera też i analizuje rozmaite dokumenty. Jego celem jest ujawnić zarówno
zamierzone, jak i niezamierzone procesy i wyniki programu, korzystne i niekorzystne.
Studium przypadku może obejmować kilka celowo dobranych przypadków, np.:
• przypadki skrajne – oceniając, powiedzmy, program resocjalizacji, wybiera się
albo osoby, które wróciły na łono społeczeństwa – żeby zobaczyć, jakie elementy
programu im pomogły, albo recydywistów – żeby zobaczyć, dlaczego program
zawiódł,
• przypadki typowe – te, których losy najbardziej przypominają modalną,
• przypadki kluczowe – osoby lub miejsca, w których badane zjawisko występuje najwyraźniej lub które są szczególnie istotne dla funkcjonowania badanego
programu,
• przypadki maksymalnie zróżnicowane pod określonymi względami (np. płci,
wieku, zamożności).
Choć w tej odmianie badań oceniających przywiązuje się wielką wagę do bezstronności i trafności oceny, to jednak dominujący schemat wprost prosi się o krytykę za stronniczość i nietrafność. Zauważmy najpierw, że podstawą oceny są tu
próbki: samych szkół i zdarzeń wewnątrz każdej szkoły. Studium przypadku ma
zwykle wąskie ramy czasowe: badacz spędza w szkole zaledwie kilka dni, obserwuje kilkanaście zajęć, rozmawia z kilkunastoma osobami. Natrafiamy tu na ten sam
problem, z którym boryka się każdy zespół wizytatorów. Resort oświaty wymaga
na przykład, by każdy zakład kształcenia nauczycieli był oceniony przez taki zespół raz na 5 lat. Nawet gdyby wizytatorzy spędzili w zakładzie 3 dni, to i tak mogliby się bezpośrednio zapoznać ze zdarzeniami wypełniającymi promile czasu,
którym zakład gospodaruje w ciągu 5 lat. Oceniać jakość kształcenia na podstawie
tak niereprezentatywnej próbki jest wysoce ryzykowne. Zbyt silna jest też pokusa,
by zyskać 5 lat spokoju za cenę wyreżyserowania 3 dni wizytacji. Wytrawni badacze jakości kilka razy odwiedzają szkołę, by wyrobić sobie możliwie wszechstronny pogląd na badaną innowację. Krytykom może to jednak nie wystarczyć.
Po wtóre, nawet najlepsza wola nie zabezpiecza badacza przez uleganiem naciskom ze strony ocenianej organizacji. Trzeba się też liczyć z efektem bumerangowym: rzeczywiste czy tylko domniemane naciski mogą skłonić badacza do szukania dziury w całym. Gdy program jest złożony i ma szeroki zasięg, zawsze coś
się znajdzie.
Polityczne aspekty oceniania
Przedmiotem badań oceniających mogą być przedsięwzięcia w dowolnej skali: zarówno innowacje w klasie szkolnej, jak i reformy oświatowe w skali całego kraju.
Drugi z tych przypadków zasługuje na baczniejszą uwagę, ponieważ otwiera oczy
na problemy, które w mikroskali są mniej widoczne. Najważniejszy to ten, że badanie oceniające legitymizuje lub delegitymizuje konstytucyjne organy władzy, które
patronują reformie, ale samo pozostaje poza demokratyczną kontrolą. Trudno więc
nie zapytać, co legitymizuje samo to badanie. Czy powinniśmy się domagać badań
oceniających ocenianie, a jeśli tak, to jak uniknąć regresji w nieskończoność?
Problem ten powinien nam uświadomić, że błędem jest widzieć w badaniu
oceniającym jedynie przedsięwzięcie techniczne, neutralne politycznie. W istocie,
ocenianie jest formą ukrytej walki o władzę. Kto mówi, że ujawnia fakty i tylko
fakty, powinien pamiętać, że fakty są korelatem oczekiwań i pytań. Jestem w stanie
powiedzieć, jaki kapelusz miał spotkany przed chwilą przechodzień, jeśli sam jestem kapelusznikiem lub jeśli mnie ktoś o to zapyta. W przeciwnym razie kapelusz
przechodnia nigdy nie stanie się faktem, który można by wykorzystać w debacie
o elegancji Polaków. W sferze polityki najlepszego przykładu faktów wykreowanych przez pytanie dostarcza każde referendum. Podobnie jest z badaniami oceniającymi: ich mocodawcy i wykonawcy często ukrywają głębsze przesłanki swoich pytań, ponieważ zależy im na wydobyciu pewnych faktów i ukryciu innych.
Z powyższego wynika, po pierwsze, że badania oceniające nie mogą być niczyją
własnością: nikt nie powinien swobodnie rozporządzać ani ich procedurą, ani wynikami. Badanie oceniające musi zawsze być własnością publiczną, dostępną analizie
i krytyce w otwartym dyskursie. Cronbach i in. (1980, s. 1–2) tak o tym piszą:
ocenianie programu to proces, w którym społeczeństwo poznaje samo siebie i który powinien przyczyniać się do oświeconej dyskusji o alternatywnych planach społecznego
działania [...] Społeczeństwo otwarte staje się zamknięte, gdy tylko kręgi kierownicze
wiedzą, co się dzieje. Informacja jest źródłem władzy i w tej mierze ocenianie służące
jedynie twórcom polityki pozbawia ludzi ich obywatelskich uprawnień.
Drugi krok w tym rozumowaniu stawia Popkewitz (1984, rozdz. 7). Zwraca on
uwagę, że autorzy badań oceniających ostentacyjnie wykorzystują naukowe schematy i metody, ale odrzucają refleksyjny i samokorygujący mechanizm dyskursu
naukowego. Ocenianie sprowadzone do porównania wielkości z góry przyjętych
zmiennych (np. wyników testowania osiągnięć lub częstości stosowania danego
podręcznika) ignoruje problem wartości celów praktyki. Oceniający z triumfem
demonstruje wykres krzywej, która bez wątpienia rośnie. Nie pyta jednak, czy
słusznie i mądrze jest cieszyć się z tego, a zapytany, przytakuje bez namysłu. Takie podejście zaciera świadomość konfliktów i blokuje debatę w sprawie porządku
społecznego, politycznej legitymizacji i autorytetu, bez której każde badanie oceniające pozostanie uzurpacją.
W konkluzji wypadnie wrócić do samego pojęcia badań praktycznych. Czy
rzeczywiście nie mają one żadnego związku z teorią naukową poza teorią pomiaru? Jest to w istocie pytanie, czy można zdefiniować praktyczną trudność w języku
ateoretycznym. Czasem zapewne tak, ale czasem nie. Pod praktyczną trudnością
często kryją się odmienne wartości, sprzeczne punkty widzenia i rozbieżne interesy. Racjonalne podejście do trudności wymaga ujawnienia tych sprzeczności, by
można ją było najpierw zdefiniować, a potem rozwiązać w zrównoważony sposób.
To jest zadanie, którego nie sposób wykonać bez teorii. Kto odrzuca refleksję teoretyczną, temu grozi los eksperta, którego najmują elity władzy, by nieświadomie
przemawiał w ich interesie.
Badanie w działaniu
Większość badań praktycznych służy działaniu, ale jest od niego oddzielona: ktoś
działa, ktoś inny bada, jakie skutki przynosi to działanie, by ktoś jeszcze inny mógł
podjąć decyzję: kontynuować je, zmodyfikować czy porzucić. Schemat, który te-
Badanie w działaniu 97
raz omówimy, odrzuca ten podział pracy. Badanie w działaniu (research and development, action research) jest prowadzone przez tę samą osobę (osoby), która
działa i podejmuje decyzje. Schemat ten pociąga tych, którzy nie tylko chcieliby
wiedzieć, jak się rzeczy mają, ale i wpływać na nie w pożądanym kierunku.
Załóżmy, że pewną szkołę trapią chuligańskie wybryki uczniów. Personel szkoły zawiązuje zespół badania w działaniu. To, co dalej się dzieje, składa się z pięciu
etapów:
Etap I. Obserwowanie uczniów podczas lekcji i przerw w celu stwierdzenia,
jakie są rodzaje zakłóceń i jaki jest ich rozkład. Stosuje się tu obserwację ilościową
i jakościową obserwację zdarzeń krytycznych.
Etap II. Analiza danych pod kątem pytania, jacy uczniowie sprawiają najwięcej
kłopotów i czemu to można przypisać. Może się na przykład okazać, że w każdym
oddziale jest to czterech lub pięciu chłopców, którzy rozrabiają pod wpływem nudy,
frustracji wywołanej zbyt abstrakcyjnymi zadaniami, niekonsekwentnego wprowadzenia reguł porządkowych lub represyjnego stylu utrzymywania dyscypliny.
Etap III. Dyskusja nad wynikami badania na zebraniu rady pedagogicznej,
wzmocnionej przez doradców z zewnątrz, i obmyślenie programu działań zaradczych. Rada może na przykład postanowić, że lekcje trzeba dzielić na mniejsze
i bardziej zróżnicowane jednostki, stawiać uczniom krótsze i bardziej praktyczne
zadania, dokładniej wyjaśniać dydaktyczne cele zadań, uporządkować reguły zachowania się w szkole i porozumieć się z uczniami co do sankcji za ich łamanie.
Etap IV. Obserwowanie lekcji i wywiady z nauczycielami w celu sprawdzenia,
w jakim zakresie nauczyciele wprowadzają w życie uzgodniony program, a także
jakie pojawiają się wykroczenia i ile ich jest.
Etap V. Analiza danych, przekształcenie ich w ocenę programu, obmyślenie
i wprowadzenie koniecznych modyfikacji.
Niektórzy w tym schemacie chcieliby prowadzić ocenianie wszelkich przedsięwzięć oświatowych i społecznych. Cronbach (1982) twierdzi, że ocenianie
zewnętrzne, prowadzone przez niezależną agencję badawczą na zlecenie władz
oświatowych, jest mniej skuteczne niż powszechne badania w działaniu prowadzone przez praktyków na swoim terenie. Nie tylko potrafią oni lepiej ocenić
dodatnie i ujemne skutki innowacji, ale też mogą lepiej wykorzystać wyniki tego
oceniania do zmiany swojego zachowania i postaw.
Zaangażowanie praktyków, a nie jakość programu, ma być kluczem do sukcesu. Żeby wywołać to zaangażowanie, trzeba oddać program praktykom i przekonać ich, by spojrzeli na siebie jak na osoby, od których zależy to, jakie wyniki
program przyniesie. Wielkie nadzieje wiąże się z powstaniem oddolnego ruchu na
rzecz programu. Tworzą go sami nauczyciele, gdy odwiedzają inne szkoły w celu
zapoznania się ze stosowanymi tam rozwiązaniami, czytają bieżące doniesienia
w czasopismach oświatowych, uczestniczą w kursach i konferencjach itd. To wtedy właśnie dokonują wstępnej oceny swojej pracy i pod jej wpływem obmyślają
udoskonalenia. Tak powstaje osobista wersja innowacji dostosowana do miejsca
pracy nauczyciela, potrzeb uczniów, materiałów i środków finansowych, a także
jego zainteresowań i wartości. By zapobiec modyfikacjom, które byłyby w istocie
powrotem do starej praktyki, trzeba podtrzymywać współpracę między nauczycielami i szkolić ich w obserwowaniu i analizowaniu cudzej praktyki. Środki, które
wydaje się na zewnętrzne badania oceniające, lepiej przeznaczyć na wspieranie
nauczycielskich badań w działaniu.
Taka synteza badań rozpoznawczych i oceniających oraz praktycznego działania jest bez wątpienia korzystna dla morale nauczycieli. Przestają być pracownikami
najemnymi, stają się właścicielami środków własnej pracy. Ale ma to swoją cenę.
O założeniach oceniania decyduje horyzont poznawczy praktyków. Kierują się oni
osobistymi teoriami kształcenia i wychowania, które są nierozerwalnie splecione
z ich doświadczeniem i osobowością. Wskutek tego kwestie publiczne mieszają się
z problemami prywatnymi, co utrudnia krytyczny namysł nad własnymi zamiarami
i wynikami. Mówiąc prościej, badacz w działaniu bezkrytycznie przyjmuje zastane
poglądy i kategorie pojęciowe, zamiast z typową dla uczonego nieufnością oglądać
je z szerszej perspektywy, którą może dać jedynie rozwinięta teoria.
Na koniec uwaga o roszczeniach badań w działaniu do roli źródła wiedzy
naukowej. Nie przecząc, że mogą one dawać dobre rezultaty w udoskonalaniu
praktyki, odrzucam pomysł, by używać wyników takich badań do sprawdzania
i rozwijania teorii naukowej. Po pierwsze, dlatego że nie kontroluje się tu żadnych zmiennych ubocznych (a jest ich legion), więc jeśli nawet program przynosi
oczekiwane skutki, nikt nie może wiedzieć, dlaczego tak się dzieje i czy będzie tak
gdzie indziej. Po drugie, dlatego że sam działający uzasadnia tu potrzebę działania
i ocenia jego skutki. Rodzi to dwa zniekształcenia: percepcyjne – działający ma
skłonność wyolbrzymiać początkowe nieszczęście i końcowe szczęście, czyli wyolbrzymiać różnicę między pretestem i posttestem, oraz motywacyjne – działający
sam wkłada w działanie mnóstwo energii i zaraża nią innych. W rzeczywistości
sam program działania może nie wywoływać tak wielkiej zmiany, jak się wydaje
działającemu, a ta, którą wywołuje, może wynikać raczej z niezwykłej mobilizacji
działających niż z jego trafności. Gdy działającym jest zwierzchnik (np. dyrektor
szkoły), oba te zniekształcenia potęgują się.
Nic więc dziwnego, że po opublikowaniu doniesienia z udanego badania
w działaniu innym działaczom rzadko udaje się powtórzyć ten sukces. Często
też program z czasem przestaje działać także w miejscu jego narodzin, ponieważ
w wykonawcach wypaliła się energia lub odwołano zwierzchnika. Nie warto więc
wskrzeszać bałamutnej tezy o praktyce będącej ostatecznym sprawdzianem teorii.
Rozdział 6
METODY DOBORU PRÓBKI
Populacja i próbka
Jak wiemy, badania można podzielić na indywidualizujące i uogólniające. Różnica
między nimi polega na zakresie stosowalności wniosków wyciągniętych z wyników. W badaniu indywidualizującym są one ograniczone do jednego, zbadanego
obiektu, a w badaniu uogólniającym odnoszą się do szerszej zbiorowości obiektów.
Tę zbiorowość nazywa się populacją.
Populacje mogą być nieskończone lub skończone. Do nieskończonych odnoszą się prawa nauki, na przykład prawo Archimedesa, które opisuje zachowanie
się wszelkich ciał zanurzonych w cieczy. Do podobnej ogólności aspirują czasem
psychologowie, formułując twierdzenia o ludziach w ogóle, niezależnie od zajmowanego przez nich miejsca w czasie i przestrzeni. Ale w typowych badaniach społecznych populacje są zawsze skończone. Socjolog wypowiada się o istniejących
grupach społecznych, badacz oświaty mówi o praktykach stosowanych w istniejących oddziałach klasowych czy szkołach. Jeśli pedagog bada osiągnięcia szkolne,
to jego sądy nigdy nie dotyczą ucznia w ogóle, lecz pewnej dającej się przeliczyć
zbiorowości uczniów: z jednego oddziału, szkoły, gminy, województwa czy kraju.
Badanie skończonych populacji można prowadzić na dwa sposoby. Pierwszy,
zwany wyczerpującym, polega na poddaniu pomiarom każdego obiektu należącego do populacji. Wybierają go czasem organizacje statystyki państwowej (np.
Główny Urząd Statystyczny). Częściej stosuje się drugi sposób, zwany reprezentacyjnym (Pawłowski, 1972). Pomiarom poddaje się wtedy tylko niektóre obiekty
populacji. Zbiór tych obiektów nazywa się próbką.
Badanie reprezentacyjne ma wiele zalet: jest szybsze, tańsze i wprowadza mniej
zakłóceń w codzienne życie badanej populacji. Ograniczenie liczby obiektów pozwala zwiększyć liczbę pomiarów lub zatrudnić wyżej wykwalifikowanych badaczy, dzięki czemu dane są bogatsze i bardziej wiarygodne. Te zalety byłyby jednak
100 Rozdział 6. Metody doboru próbki
bez znaczenia, gdybyśmy nie wiedzieli, w jakim stopniu wnioski z próbki stosują
się do populacji. Jest intuicyjnie oczywiste, że ograniczenie pomiarów do próbki
niesie ryzyko błędnych sądów o populacji, jeśli próbka nie jest do niej podobna,
czyli jeśli źle reprezentuje populację. Próbka wolna od tej wady nazywa się próbką reprezentatywną lub krótko – reprezentacją1. Jak zapewnić reprezentatywność
próbki, zobaczymy za chwilę.
Pierwszy krok w doborze próbki to precyzyjne określenie populacji. Określając
populację, deklarujemy, o jakiej zbiorowości zamierzamy się wypowiadać na podstawie wyników badania, czyli wysuwamy roszczenie do prawomocności wniosków odnoszących się do tej zbiorowości. Najczęściej popełnia się tu dwa błędy.
Pierwszy to zatarcie różnicy między populacją a próbką. Napisawszy na przykład:
„Badanie przeprowadzono na populacji młodzieży w okresie dorastania”, autor
referuje wyniki ankiety wypełnionej przez uczniów klasy I gimnazjum w Koluszkach. Prawda, że zbadani uczniowie należą do zbioru młodzieży w okresie dorastania, ale z tego nie wynika, że to ten zbiór jest przedmiotem badania. Drugi
błąd to brak informacji o populacji. Autor zaczyna i kończy na określeniu próbki:
„W badaniu wzięło udział 445 osób w wieku 6–17 lat...” i dopiero wniosek: „Poziom kompetencji wokalnych dzieci i młodzieży na różnych poziomach wieku jest
w Polsce niższy niż w krajach Europy Zachodniej” ujawnia, że zamiarem badacza było dostarczenie wiedzy o całej zbiorowości polskich dzieci i młodzieży, czyli
z grubsza licząc, o 6 mln osób. Gdyby to był napisał na początku, bardziej byłby
wrażliwy na możliwe odchylenia swojej próbki od tej populacji.
Określenie populacji polega na podaniu własności jasno wytyczającej interesujący badacza zbiór obiektów, np.: „polscy uczniowie w I etapie kształcenia (tj.
z klas I–III)”, „tegoroczni absolwenci warszawskich szkół podstawowych”, „matki, które urodziły dzieci w pierwszym tygodniu marca 1968 r.”, „gminne wydziały
oświaty w województwie mazowieckim” itp. Warto zauważyć, że populacje zdefiniowane przez bieżącą własność mogą się zmieniać: np. co roku zmienia się trzecia
część uczniów nauczania początkowego. Jeśli tego nie chcemy, możemy zdefiniować populację przez własność uprzednią, np. rok urodzenia czy udział w jakimś
kolektywnym zdarzeniu. Taka populacja, nazywana w demografii kohortą, nie
zmienia swego składu, jeśli nie liczyć wymierania członków.
Określiwszy populację, możemy się zająć wyłonieniem próbki. Można to zrobić w sposób losowy lub nielosowy. Losowaniem nazywa się taką metodę wyłaniania próbki, która zapewnia wszystkim możliwym próbkom jednakową szansę
realizacji. W podręcznikach teorii prawdopodobieństwa ilustruje się ją za pomocą
urny, w której znajduje się populacja jednakowych ponumerowanych kul. Losowanie polega na wyciągnięciu kuli, zapisaniu jej numeru i włożeniu jej z powrotem do urny. Jest oczywiste, że gdy populacja liczy tysiące czy miliony obiektów,
takie postępowanie jest zupełnie niemożliwe. Dlatego opracowano sposoby losowania, które dają się zastosować w praktyce, a jednocześnie zapewniają dostateczne przybliżenie do teoretycznego ideału. Zostaną one opisane w dalszej części tego
rozdziału.
1
Spotykany czasem termin „próbka reprezentacyjna” trzeba uznać za błędny.
Populacja i próbka 101
Oprócz losowych wykorzystuje się też próbki nielosowe. Trzeba jednak pamiętać, że metody wnioskowania statystycznego o cechach (parametrach) populacji
z cech próbki mają zastosowanie jedynie do próbek losowych.
W literaturze metodologicznej najczęściej utożsamia się próbkę losową z próbką reprezentatywną (np. Pawłowski, 1972), niektórzy jednak nazywają reprezentatywną każdą próbkę, która pod pewnymi względami jest podobna do populacji
– niezależnie od sposobu, w jaki została wyłoniona. Jest dobrym zwyczajem nie
mnożyć nazw o identycznym zakresie, więc reprezentatywność będziemy rozumieć w drugim znaczeniu. Ma to pewną zaletę: zwraca uwagę, że i próbka losowa
może czasem być niereprezentatywna.
Załóżmy, że z populacji szóstoklasistów wylosowaliśmy próbkę 200 uczniów
i że znalazło się w niej 90 chłopców. Ponieważ wiadomo, że w populacji młodzieży
jest ok. 51,5% chłopców, próbka, w której 45% stanowią chłopcy, musi być uznana
za niereprezentatywną pod względem płci. Nie zdarza się to często (jak łatwo obliczyć – rzadziej niż 4 razy na 100 losowań), ale jest możliwe. Jeśli mamy podstawy
przypuszczać, że płeć jest skorelowana ze zmiennymi, które będziemy mierzyć (np.
z wynikami takich testów, jak Myślenie techniczne Dobruszka), to próbkę powinniśmy uznać za niereprezentatywną także ze względu na nie (tu: grożącą niedoszacowaniem umiejętności technicznych w populacji). W takim przypadku próbkę
należałoby wylosować ponownie albo użyć estymatorów stosunkowych (rozdz. 8).
Przykład ten pokazuje, że reprezentatywność jest zawsze odniesiona do zmiennej, której parametry (tzn. wartości w populacji) są znane, a także do wszystkich
zmiennych, które są z nią skorelowane. Jeśli planujemy pomiary zmiennych, o których nie wiemy, czy są skorelowane ze zmiennymi o znanych parametrach, wtedy
badanie reprezentatywności próbki traci sens. Zawsze natomiast ma sens pojęcie
losowości.
Ostatnia kwestia, którą winniśmy tu przedyskutować, brzmi: Czy każde badanie naukowe musi opierać się na próbce reprezentatywnej? Pytanie jest interesujące, ponieważ wielu metodologów odpowiada na nie kategorycznym „Tak”, a wielu
badaczy ostrożnym „Nie”. Jak się ustosunkować do tej rozbieżności między normą
a praktyką?
Jeden z wybitnych zwolenników reprezentatywności (Brzeziński, 1997) rozumuje tak:
• sensem każdego badania (psychologicznego) jest możliwość uogólnienia wyniku z próbki na populację (s. 68),
• koniecznym warunkiem prawomocności takiego uogólnienia jest podobieństwo zakresu wartości zmiennych (niezależnych i zależnych) w próbce i populacji, czyli reprezentatywność próbki (s. 69),
• reprezentatywność próbki osiąga się za pomocą losowego doboru obiektów
z populacji (s. 231),
• jeśli zatem psycholog przeprowadzi badanie na próbce nielosowej, to jego
„wnioski są prawomocne tylko dla uczniów danej szkoły, studentów danego
kierunku studiów (np. psychologii), pacjentów z danego szpitala czy z danego
oddziału, osób z danego przedziału wieku, danej płci itp.” (s. 261).
Rozumowanie to jest podwójnie wątpliwe. Po pierwsze, ostatni sąd zaprzecza
poprzednim. Jeśli badacz wykrył związek dwóch zmiennych w próbce uczniów
przypadkowo wziętych ze szkolnego korytarza, to swoje odkrycie powinien –
w świetle drugiej przesłanki – ograniczyć wyłącznie do zbadanych uczniów, ponieważ nie ma żadnych podstaw, by twierdzić, że są oni podobni do zbiorowości
uczniów tej szkoły pod względem wartości tych zmiennych. Nielosowość próbki
przesądzałaby więc o indywidualizującym charakterze badania. Ale po drugie,
temu wnioskowi zaprzecza praktyka badawcza.
Rozważmy słynną serię 10 eksperymentów Craika i Tulvinga (1975) weryfikujących teorię, która wiąże zapamiętanie wiadomości ze stopniem aktywności
umysłowej człowieka podczas kontaktu z tą wiadomością (stopniem „opracowania” czy prościej – zrozumienia wiadomości). W pierwszym eksperymencie wzięło udział 20 studentów. Zgłosili się na ochotnika i mieli dostawać pieniądze za
udział w badaniu. Badanym eksponowano na ekranie pytanie, a następnie w ciągu 0,2 sek. napis, którego dotyczyło pytanie. Badany miał odpowiedzieć „tak” lub
„nie” przez naciśnięcie jednego z dwóch przycisków. Główną zmienną niezależną
był poziom pytania. Zmienna ta miała 5 wartości. Pytanie mogło być znakowe
(Czy to słowo?), graficzne (Czy jest napisane wersalikami?), fonemiczne (np. Czy
rymuje się z „góra”?), kategorialne (np. Czy to rodzaj ryby?) i zdaniowe (np. Czy
pasuje do schematu zdaniowego „Spotkał ... na ulicy”?). Badanie składało się z 40
takich zadań (5 poziomów pytania × 2 typy odpowiedzi × 4 listy napisów). Po wykonaniu wszystkich zadań nieoczekiwanie przeprowadzono pomiar zapamiętania
eksponowanych słów metodą rozpoznawania (badany dostawał listę 80 słów i miał
podkreślić te, które widział na ekranie).
Badanie przyniosło wynik (rys. 6.1), który potwierdził hipotezę i tym samym
rzucił nowe światło na naturę ludzkiej pamięci. Ale ponieważ w żadnym punkcie
nie losowano badanych, Brzeziński zapewne uznałby, że można go odnieść jedynie
Frakcja rozpoznanych słów
1,2
1
0,8
0,6
0,4
Twierdzące
0,2
Przeczące
0
znakowy
graficzny
fonemiczny kategorialny
zdaniowy
Poziom przetwarzania
Rysunek 6.1. Względna liczba trafnie rozpoznanych słów w zależności od rodzaju pytania
poprzedzającego ekspozycję słowa i typu odpowiedzi. Źródło: Craik i Tulving, 1975.
Populacja i próbka 103
do 20 zbadanych studentów lub do podobnych im kolegów. Swoje stanowisko autor
ilustruje przykładem badania preferencji seksualnych Amerykanów, przeprowadzonego pół wieku temu przez A. Kinseya. Na podstawie ankiety na próbce 20 tys.
osób stwierdził on, że preferencje te były mniej konwencjonalne, niż przypuszczano. Ale próbka Kinseya była złożona z ochotników, a więc nielosowa. Wykazano,
że ochotnicy mają, średnio rzecz biorąc, wyższe poczucie własnej wartości, z czym
idzie w parze mniejsze skrępowanie wobec seksu. Wniosek jest prosty: zbadawszy
próbkę nielosową, Kinsey nie powinien był rozciągać uzyskanych wyników na całe
społeczeństwo, a ponieważ to zrobił, przedstawił je w krzywym zwierciadle.
Ponieważ oba te przykłady prowadzą do odmiennych rekomendacji, najprawdopodobniej muszą się pod ważnym względem różnić od siebie. Rzeczywiście,
różnią się zakresem twierdzenia, które badacz zamierza wprowadzić do nauki.
Craik i Tulving myśleli o ludziach w ogóle, Kinsey zaś o przeciętnym dorosłym
Amerykaninie żyjącym w jego czasach. Można powiedzieć, że badacze odnosili
swoje twierdzenia do innych populacji: dla Craika i Tulvinga była to sztuczna populacja ludzi znajdujących się w warunkach, które wymodelowali w swoim eksperymencie, dla Kinseya – populacja konkretnych osób żyjących w pewnym miejscu
przestrzeni i czasu. Pierwsza populacja jest nieskończona, druga skończona.
Gdy populacja jest nieskończona, losowanie próbki jest niemożliwe i każdy
zbiór obiektów trzeba uważać za równie reprezentatywny. Nie znaczy to, rzecz jasna, że można się przestać martwić o trafność zewnętrzną badania. Zawsze może
się zdarzyć, że wybrane do badania obiekty mają szczególną cechę, która wytwarza
wynik przez to, że wchodzi w interakcję ze zmienną niezależną. Ale losowanie
obiektów temu nie zapobiegnie. Jedynym sposobem kontroli trafności zewnętrznej badań eksperymentalnych jest ich powtarzanie. Nie bez powodu w swoim artykule Craik i Tulving referują aż 10 eksperymentów na małych, przypadkowych
próbkach. Ich badania (z najróżniejszymi modyfikacjami) były też wielokrotnie
powtarzane przez innych badaczy. Replikowalność (odtwarzalność) wyniku jest
głównym kryterium prawomocności uogólnienia.
Z drugiej strony, gdy populacja jest skończona, można się wypowiadać o niej
na podstawie próbki tylko wtedy, gdy próbka jest reprezentatywna. Jeśli eksperymentalnie sprawdzamy skuteczność nowej metody nauczania, powiedzmy: rachunku różniczkowego w liceum, a grupy porównawcze tworzymy ze studentów
pedagogiki, to popełniamy dyskwalifikujący błąd. Jeśli losowo przydzielamy do
grup porównawczych przypadkowych uczniów z pobliskiego liceum, popełniamy błąd lżejszego kalibru. Wiadomo, że przydział losowy ogranicza zewnętrzną
trafność eksperymentu, ale nic złego się nie stanie, jeśli rekomendowana metoda
nie wszędzie się sprawdzi. Wreszcie, tworząc grupy metodą doboru losowego, postępujemy bezbłędnie i zasługujemy na pochwałę. Kłopot w tym, że w praktyce
takiego eksperymentu nie dałoby się przeprowadzić, bo eksperymentator musiałby zgromadzić w swoim laboratorium osoby mieszkające w najrozmaitszych miejscach Polski.
Generalna zasada mogłaby brzmieć następująco: ilekroć zamierzamy mówić
o skończonej populacji, staramy się pracować na próbce wylosowanej z tej popu-
lacji. Jeśli to niemożliwe ze względów technicznych lub finansowych, próbujemy
zwęzić populację. Powiedzmy, że brak pieniędzy na diety skazuje nas na badanie
jedynie młodzieży z Łodzi. Lepiej wtedy spuścić z tonu i uznać, że interesuje nas
nie populacja młodzieży polskiej, lecz populacja młodzieży łódzkiej. Próbkę można dobrać w najtańszy sposób, zapewniający jedynie przybliżenie do losowości.
Słowem, jeśli nie można zrobić tego, czego wymaga podręcznik metodologii, lepiej zrobić to, co można, niż nic.
Od tej zasady jest jeden wyjątek: nie wolno rezygnować z losowości, jeśli wyniki naszego badania mają być użyte do porównywania całych populacji. Jeśli badacz
zamierza się włączyć do dyskusji o poziomie umiejętności wokalnych młodzieży
polskiej w porównaniu z młodzieżą niemiecką, to zbadanie 445 młodych ludzi
z Łodzi jest błędem dyskwalifikującym badanie.
Próbki losowe
Przystępując do losowania próbki, powinniśmy odróżniać schemat losowania
od techniki losowania. Schemat losowania to zasada budowania operatu losowania. Operatem losowania nazywamy pełny i ponumerowany (od 1 do N) wykaz
wszystkich obiektów składających się na interesującą nas populację. Bez sprawdzonego operatu nie ma próbki losowej. Jeśli populację stanowią uczniowie klasy
VI z pewnej szkoły, operat losowania to lista nazwisk wszystkich uczniów. Jeśli
populacja jest większa (np. uczniowie klasy VI polskich szkół), to sporządzenie
imiennej listy uczniów może być niewykonalne i operat trzeba budować inaczej.
Są dwa kryteria podziału schematów losowania (Pawłowski, 1972). Jeśli mamy
operat, który wyszczególnia obiekty całej, niepodzielonej populacji, mówimy o
schemacie losowania nieograniczonego. Jeśli dzielimy populację rozłącznie i wyczerpująco na pewne podpopulacje (np. województwa lub typy szkół) i tworzymy
osobne operaty dla każdej z nich, mówimy o schemacie losowania warstwowego.
Niezależnie od powyższego podziału elementem operatu mogą być albo pojedyncze obiekty składające się na populację (np. dla populacji uczniów – pojedynczy
uczniowie), albo grupy takich obiektów (np. oddziały szkolne). W pierwszym
przypadku mówimy o losowaniu indywidualnym, w drugim o losowaniu grupowym.
Wyodrębnienie tych schematów nie jest jedynie ćwiczeniem akademickim: od
schematu zależy bowiem sposób poznawania parametrów populacji na podstawie
wyników z próbki. Przypomnijmy: istotą metody reprezentacyjnej jest możność
wypowiadania się o populacji na podstawie próbki. Wypowiadanie się o populacji
to tyle co określanie parametrów mierzonej zmiennej: głównie średniej (μ), wariancji (σ2), wskaźnika struktury (π), czyli proporcji (odsetka) obiektów mających
pewną cechę, oraz współczynnika korelacji liniowej (ρ). Dokładne wartości tych
parametrów są oczywiście nieznane; możemy je jedynie ocenić (oszacować) na
podstawie obliczonych z próbki wielkości zwanych estymatorami. Otóż w zależności od schematu losowania estymatory wymienionych parametrów mają nieco
inną budowę. Jaką – zobaczymy w rozdz. 8.
Próbki losowe 105
Wybrawszy schemat, musimy wybrać technikę losowania. Wybór jest niewielki: możemy albo użyć liczb losowych, albo zastosować losowanie systematyczne.
W pierwszym przypadku sięgamy do ogólnie dostępnych tablic liczb losowych.
Otwieramy tablice na przypadkowo wybranej stronie, losowo wybieramy pierwszą
liczbę (np. z drugiego wiersza i piątej kolumny), po czym wypisujemy n kolejnych
liczb, czyli tyle, ile obiektów ma liczyć nasza próbka. Jeśli jakaś liczba jest większa
od n, pomijamy ją. Podobnie pomijamy powtarzające się liczby2. Próbkę losową
stanowią obiekty o numerach odpowiadających wylosowanym liczbom. Zamiast
tablic można użyć programu komputerowego generującego liczby pseudolosowe
z ustalonego przedziału, a gdy operat obejmuje niewielką liczbę obiektów, można
go pociąć na paski, umieścić w kapeluszu i po omacku wyciągnąć potrzebną ich
liczbę.
Losowanie systematyczne polega na wylosowaniu spośród pierwszych k liczb
naturalnych (k oznacza tu część całkowitą ułamka N/n) pewnej liczby n0. Do próbki włącza się obiekt o numerze n0 i wszystkie odległe od niego o wielokrotność k
(czyli n0 + k, n0 + 2k itd.). Ten mechanizm może dawać próbki niereprezentatywne,
gdy w operacie losowania obiekty są ułożone w systematycznej (nielosowej) kolejności, a liczba k pokrywa się z cyklicznym wahaniem mierzonej zmiennej. Gdyby
na przykład operat losowania zawierał nazwiska uczniów z kilkunastu oddziałów
uporządkowane według osiągnięć szkolnych w oddziale, mogłoby się zdarzyć, że
z każdego oddziału do próbki weszliby głównie uczniowie najlepsi i najgorsi. Dlatego losowanie systematyczne uchodzi za mechanizm mniej bezpieczny niż losowanie z użyciem liczb losowych.
Losowanie nieograniczone indywidualne
Ten schemat stosuje się do populacji, dla których istnieje i jest dostępny kompletny wykaz obiektów. Warunek ten jest najczęściej spełniony w badaniach praktycznych o małym zasięgu: dyrektor szkoły dysponuje kompletną listą swoich uczniów,
dyrektor gminnego wydziału oświaty – kompletną listą nauczycieli itp. Wystarczy
wziąć tablice liczb losowych i wylosować próbkę o pożądanej wielkości.
Losowanie warstwowe
Jeśli populacja jest duża i wewnętrznie zróżnicowana, losowanie nieograniczone
grozi niereprezentatywnością, łatwo bowiem może się zdarzyć, że jakaś część populacji będzie nadreprezentowana, a inna niedoreprezentowana w próbce. By tego
uniknąć, dzieli się populację na warstwy. Rodzaj i liczba takich warstw zależy od
pytania badawczego, ale każdy podział populacji musi spełniać kilka ogólnych warunków:
• opierać się na jasnym i sensownym kryterium (kryterium niejasne rodzi wątpliwości, do której warstwy zaliczyć ten czy ów obiekt, kryterium bezsensowne
nie ma związku z mierzonymi w badaniu zmiennymi),
Jest to tzw. losowanie bezzwrotne. Statystycy rozważają też wariant losowania zwrotnego, w którym ten sam obiekt może być wylosowany kilkakrotnie. Ponieważ jednak losowanie bezzwrotne jest bardziej efektywne, będziemy mówić tylko o nim.
2
• być rozłączny i wyczerpujący,
• wydzielać warstwy, których bezwzględna lub względna liczebność jest znana.
Chcąc na przykład oszacować rzeczywisty czas pracy nauczyciela w Polsce, możemy podzielić populację nauczycieli na 5 czy 6 warstw według typu szkoły będącej
pierwszym miejscem ich pracy. Mniej sensu miałby podział na 16 warstw wojewódzkich, a jawnie niepoprawny byłby podział ze względu na miejsce zamieszkania
(wieś, małe miasto itd.). To ostatnie kryterium wydaje się słabo związane ze zmienną
czasu pracy, nie rozstrzyga, gdzie zaliczyć nauczyciela, który mieszka w mieście, ale
pracuje w szkole na wsi, i tworzy warstwy o nieznanych liczebnościach.
Po dokonaniu podziału tworzy się oddzielne operaty losowania dla każdej
warstwy. Mogą one zawierać pojedyncze obiekty lub grupy obiektów. Po ustaleniu
wielkości próbki (n) z każdej warstwy h losuje się obiekty w liczbie (nh) proporcjonalnej do względnej wielkości warstwy (wh), tak że nh = nwh. Oprócz tego wariantu, zwanego proporcjonalnym, istnieje wariant optymalny J. Spławy-Neymana;
choć w pewnych warunkach minimalizuje wariancje niektórych estymatorów, jest
rzadziej używany (więcej o tym pisze Pawłowski, 1972).
Można udowodnić, że przy dużych różnicach między wielkością warstwy
a wielkością próbki losowanie warstwowe daje mniejsze wariancje estymatorów
μ i π niż losowanie nieograniczone, co znaczy, że tę samą dokładność oszacowania
można osiągnąć na mniejszej próbce. Zysk ten jest tym większy, im bardziej są
zróżnicowane poszukiwane średnie czy wskaźniki struktury w warstwach, czyli im
silniejszy jest związek kryterium podziału z mierzoną zmienną.
Losowanie grupowe
Losowanie grupowe polega na tym, że w operacie losowania znajdują się nie pojedyncze obiekty, lecz grupy obiektów. Tu – inaczej niż w losowaniu warstwowym
– dąży się do tego, by wewnątrz grup znajdowały się obiekty wysoce zróżnicowane
pod względem mierzonej zmiennej, ale by same grupy mało różniły się od siebie.
Niełatwo to, niestety, osiągnąć, ponieważ z reguły wybiera się grupy zdefiniowane
przez pewne naturalne kryteria (np. geograficzne czy organizacyjne). Powiedzmy,
że interesuje nas poziom wyposażenia polskich szkół podstawowych w sprzęt komputerowy. Jeśli zechcemy losować indywidualne szkoły, musimy mieć operat losowania liczący z grubsza 13 tys. pozycji. Jeśli zdecydujemy się na losowanie grup
szkół prowadzonych przez jedną gminę, operat kurczy się do ok. 2,5 tys. pozycji.
Załóżmy, że wylosowaliśmy 50 gmin z zamiarem zbadania wszystkich szkół
w tych gminach. Taki schemat nazywa się grupowym jednostopniowym. Schemat ten ma pewną wadę. Jeśli wielkości poszczególnych grup są wysoce zróżnicowane, a grupy znacznie różnią się od siebie pod względem mierzonej zmiennej,
to schemat, w którym każda grupa ma takie samo prawdopodobieństwo wejścia
do próbki, może być źródłem jej niereprezentatywności. Na przykład w zbiorze
wszystkich gmin w Polsce jest mnóstwo małych gmin wiejskich i znacznie mniej
wielkich gmin miejskich, z warszawską gminą Centrum na czele. Jeśli każda będzie
miała tę samą szansę wejścia do próbki, to wielkie gminy miejskie mogą zostać pominięte. By tego uniknąć, wymyślono odmianę losowania grupowego, w którym
Próbki nielosowe 107
prawdopodobieństwo wyboru jest proporcjonalne do wielkości grupy. Wymaga
to niewielkiej zmiany w operacie losowania: trzeba przypisać każdej grupie nie
jeden, lecz więcej kolejnych numerów – tyle, ile obiektów zawiera.
Jeśli grupy są duże i dość jednorodne pod względem mierzonej zmiennej, to
badając wszystkie obiekty z każdej grupy, ponieślibyśmy znaczne koszty, a informacji zdobyli niewiele. Lepiej wtedy z każdej wylosowanej grupy wylosować pewną liczbę obiektów za pomocą schematu nieograniczonego indywidualnego. Taki
złożony schemat nazywa się losowaniem grupowym dwustopniowym.
Łatwo wyobrazić sobie jeszcze bardziej skomplikowane schematy losowania
grupowego. Gdybyśmy najpierw wylosowali powiaty, z powiatów szkoły, a ze szkół
uczniów, byłby to schemat losowania trzystopniowego. Jest on mniej efektywny
niż losowanie jednostopniowe, ale nie wymaga sporządzenia operatu losowania
w postaci kompletnej listy tysięcy obiektów, co mogłoby się okazać niewykonalne.
Podstawowe schematy losowania można też łączyć ze sobą. Często łączy się losowanie warstwowe z grupowym. Populację dzieli się najpierw na rozłączne warstwy
i z każdej warstwy niezależnie losuje grupy obiektów. Takie postępowanie prawie
zawsze daje mniejsze wariancje estymatorów w porównaniu z losowaniem grupowym. Przy złożonych schematach losowania zagadnienie estymacji parametrów
znacznie się jednak komplikuje i dlatego badacz, który chce je stosować, powinien
zapewnić sobie fachową pomoc statystyka.
Wielkość próbki
Wśród badaczy oświaty pokutuje przekonanie, że im większa próbka, tym lepsza.
Jest prawdą, że im większa próbka, tym większa szansa wykazania statystycznej
istotności efektów słabych, z reguły jednak takie słabe efekty są nieinteresujące
teoretycznie i praktycznie (Blalock, 1975, s. 146).
Za niepoprawne trzeba zwłaszcza uznać powiększanie próbek nielosowych.
Zdarza się to badaczom, którzy prowadzą badania siłami magistrantów. Jeśli każdy magistrant ma przeprowadzić kilka pomiarów na próbce 50 uczniów w dostępnej mu szkole, to dziesięcioosobowe seminarium pozwala opublikować doniesienie z badania na imponującej próbce 500 uczniów. Trzeba tu zauważyć, że
sprowadzenie aktywności badawczej studenta do mechanicznego wykonywania
zadanych pomiarów stoi w rażącej sprzeczności z celami pracy magisterskiej. Co
gorsza, taka próbka nie musi reprezentować ani populacji uczniów, ani populacji
oddziałów klasowych, toteż jej wielkość nie zwiększa wcale dokładności szacowania parametrów, a wyniki, które przynosi, można by z powodzeniem uzyskać na
próbce kilkakrotnie mniejszej.
Próbki nielosowe
Dobór przypadkowy
W badaniach eksperymentalnych, a także w badaniach eksploracyjnych często angażujemy osoby, które są pod ręką (np. studentów z własnej grupy ćwiczeniowej,
młodzież z zaprzyjaźnionej szkoły lub ochotników z ogłoszenia). Próbką przypadkową są też kwestionariusze ankiety pocztowej, jeśli stopa zwrotów jest mniejsza
niż 75%.
Uogólnianie wyników z takiej próbki jest zawsze obarczone błędem, którego
nie sposób oszacować. Dotyczy to zwłaszcza ochotników. Wiadomo, że do badań
psychologicznych zgłaszają się częściej kobiety niż mężczyźni, osoby o skrajnym
(wysokim lub niskim) poziomie potrzeby aprobaty społecznej i wysokim poziomie potrzeby osiągnięć, niższym lęku, autorytaryzmie i etnocentryzmie, lepiej
przystosowane, zdrowsze i inteligentniejsze (Mikołajczyk i Skarżyńska, 1976).
Taka próbka z pewnością nie reprezentuje populacji.
Dobór kwotowy
Dobór kwotowy to nielosowy odpowiednik schematu warstwowego. Często stosują go badacze opinii publicznej, ma on także zastosowanie przy standaryzacji
testów psychologicznych lub dydaktycznych.
Zaczynamy od sensownego podzielenia populacji na warstwy. W przypadku
standaryzacji testu osiągnięć szkolnych kryteriami bywają: płeć (2 wartości), status
rodziny pochodzenia (np. 3 wartości) i lokalizacja szkoły (np. 3 wartości). Skrzyżowanie tych kryteriów wyznacza 18 warstw. Trzeba, rzecz jasna, umieć oszacować ich liczebności względne. Można się w tym celu posłużyć wydawnictwami
Głównego Urzędu Statystycznego. Do próbki dobieramy przypadkowe osoby, ale
tak, by zachować liczebności względne w populacji. Skoro chłopcy z rodzin o niższym statusie chodzący do szkoły na wsi stanowią ok. 15% populacji szóstoklasistów, a próbka ma liczyć 200 osób, to zadaniem badacza jest znaleźć 30 takich
przypadków. Czy znajdzie się w niej Jan, czy Piotr, nie ma znaczenia. Podobnie
postępuje badacz opinii publicznej. Dostaje on instrukcję, że musi przeprowadzić
ankietę z 40 kobietami i 40 mężczyznami między 18. a 30. rokiem życia, dotrzeć
do 15 rodzin ze śródmieścia itp.
Oczywistym źródłem niereprezentatywności takiej próbki jest skłonność badacza, by wybierać przypadki najbardziej dostępne. Jeśli szuka 30 chłopców ze
wsi, może wybrać wieś, do której najłatwiej dojechać. Jeśli szuka 15 rodzin ze
śródmieścia, to może omijać domy zaniedbane lub oficyny kamienic i oczywiście
rodziny, których akurat nie było w mieszkaniu.
Dobór celowy
Dobór celowy polega na włączeniu do próbki przypadkowych obiektów, które
spełniają pewien warunek (np. tylko uczniów z wysoką średnią ocen szkolnych
albo tylko nauczycieli matematyki pracujących w szkole nie dłużej niż 5 lat). Warto podkreślić, że nie mówimy o próbce celowej, jeśli przypadki losujemy z małej
populacji (najlepszych uczniów lub młodych nauczycieli) i do niej ograniczamy
wnioski z badania. Od kwotowej próbka celowa różni się tym, że nie zachowuje
proporcji (np. pod względem płci) charakterystycznych dla populacji. Taka próbka nie reprezentuje żadnej populacji, toteż może być stosowana wyłącznie w badaniach indywidualizujących.
Typowym zastosowaniem próbki celowej jest studium przypadku. Chcąc się
bliżej przyjrzeć zespołowi wypalenia zawodowego, możemy wybrać po jednym
nauczycielu i nauczycielce spośród osób uzyskujących najwyższe wyniki w Skali
wypalenia zawodowego Maslach, pracujących w dwóch szkołach: elitarnej i borykającej się z trudnościami wychowawczymi. Wynikiem takich badań są cztery
teorie jednostkowe. Choć mogą nam one wiele powiedzieć o istocie wypalenia, nie
wolno rozciągnąć tej wiedzy na nauczycieli w ogóle.
Glaser i Strauss (1967) rozważają także próbkowanie teoretyczne, które polega
na dobieraniu przypadków w trakcie badania według sugestii wyłaniającej się teorii. W każdym etapie badania dobiera się te przypadki, które obiecują największy
przyrost wiedzy o badanym zjawisku. Jeśli dane pochodzące od kilku „wypalonych” nauczycielek sugerują związek między wypaleniem a wsparciem ze strony
męża, w następnym etapie zwracamy się do żonatych nauczycieli, by zobaczyć,
czy równie ważne jest wsparcie ze strony żony. Jeśli tak jest, to w wyłaniającej się
teorii wsparcie ze strony męża i żony zastępujemy kategorią „wsparcie ze strony najbliższej rodziny”. Proces próbkowania uważa się za zakończony, gdy nowe
przypadki nie wnoszą już nowej wiedzy o badanym zjawisku. Stan ten nazywa
się nasyceniem teoretycznym. Wartościową odmianą tej metody próbkowania jest
indukcja analityczna: przechodzenie od przypadków, które potwierdzają teorię, do
przypadków, które jej nie potwierdzają.
Rozdział 7
METODY ZBIERANIA DANYCH
Nie każdy, kto gromadzi dane, jest badaczem, ale każdy, kto jest badaczem, gromadzi dane – niezależnie od tego, jakiej koncepcji nauki hołduje i jaki stosuje
schemat badania. Gromadzenie danych w naukach społecznych różni się od gromadzenia danych w naukach ścisłych tym, że dane występują w kontekście, który
dookreśla ich znaczenie. Szczególnym rodzajem kontekstu jest sam badacz i sytuacja badania. Wynika stąd, że kontekst jest ważnym kryterium w klasyfikacji
metod gromadzenia danych.
Można gromadzić dane wytwarzane w sytuacjach zwyczajnych, codziennych,
albo w sytuacjach niezwykłych, które stworzył sam badacz. Na jednym skraju tej osi
mieszczą się dane powstałe niezależnie od badacza, np. listy czy pamiętniki. Obok
– wyniki obserwacji, bo sama obecność obserwatora nadaje sytuacji, przynajmniej
na początku, rys niezwykłości. Na drugim skraju mamy testowanie. Każdy test stawia osobę badaną w szczególnej roli obserwowanego: ktoś patrzy, jak poradzi sobie
z zadaniem. Najwyraźniej widać to w rozbudowanych pomiarach behawioralnych.
Na przykład Reykowski (1966), chcąc zbadać wpływ stresu na wykonywanie zadań,
stworzył w pełni kontrolowane stanowisko oficera dyżurnego w komisariacie policji.
Drugim kryterium klasyfikacyjnym jest kanał informacyjny: obrazowy (widzenie, słyszenie) lub tekstowy (czytanie i słuchanie). Przyglądając się, poznajemy
ludzkie zachowania i wytwory tych zachowań. Czytając lub słuchając, poznajemy
czyjeś relacje o zachowaniach i wytworach ludzi. W porównaniu z patrzeniem słuchanie dostarcza danych z drugiej ręki: jakie jest lub było to a to, dowiadujemy się
z cudzego opowiadania.
Krzyżując oba kryteria, dostajemy czteropolową tablicę, w której mieści się
większość, jeśli nie wszystkie metody gromadzenia danych.
Kanał
Kontekst
Przyglądanie się zachowaniom i ich wytworom
Słuchanie lub czytanie
relacji
Sytuacje codzienne
obserwacja
zbieranie archiwaliów
Sytuacje niecodzienne
testowanie
wywiad, ankieta, skala
Warunkiem zebrania danych jest nawiązanie kontaktu z terenem badania. Terenem (field) będziemy nazywać umiejscowioną zbiorowość społeczną (np. rodzinę, szkołę, grupę subkulturową), która interesuje badacza albo jako obiekt badania, albo jako środowisko, w którym żyją osoby badane. Będziemy też mówić
o miejscach, rozumiejąc przez to wyspecjalizowane części terenu (np. sypialnia
rodziców, szkolna ubikacja, ulubiona dyskoteka).
Najpierw trzeba zlokalizować interesujący nas teren lub osoby. Nie zawsze jest
to łatwe. Załóżmy, że chcemy zbadać opinie ludzi spełniających nietypowe kryteria (np. dorosłych niedosłyszących). Jak do nich dotrzeć? Możemy dać ogłoszenie
w miejscowych gazetach, zaglądać do miejsc, w których często bywają, albo prosić
każdego o podanie nazwisk swoich niedosłyszących znajomych.
Gdy badanie ma być prowadzone w formalnej organizacji (np. w biurze), konieczna jest zgoda władz. Zwykle dyrektor żąda zarysu badania, po czym nieufnie
go studiuje, podejrzewając, że może to być zawczasu przygotowana przykrywka.
Badanie jest źródłem licznych zakłóceń: burzy rutynę, skłania do namysłów nad
prawdziwą intencją badania, rodzi obawę, że zostaną ujawnione słabe strony organizacji. Nic dziwnego, że prośba o wpuszczenie badacza wywołuje reakcje obronne. Zarówno władze, jak i badacz dostarczają fałszywych informacji (np. dyrektor
zasłania się rzekomą reorganizacją, badacz zapewnia o zbawiennych skutkach jego
badań dla organizacji). Rzadko jednak wprost odmawia się badaczowi wstępu, bo
mogłoby to się wydać podejrzane.
Jeszcze trudniej nawiązać kontakt z terenem nieformalnym. Pojawienie się we
wsi czy na dyskotece obcego, który przygląda się ludziom i próbuje zadawać pytania, wywołuje odruch nieufności. Najlepiej, gdyby był on albo pełnoprawnym
uczestnikiem terenu (np. barmanką w dyskotece), albo ukrytym obserwatorem.
Na ogół jednak musi wystąpić we własnej roli – badacza. Dobrze jest wtedy znaleźć osobę wprowadzającą. Badacz może upatrzyć sobie jednego członka grupy,
poczekać na odpowiedni moment, przedstawić się mu, wyłuszczyć powód swojego zainteresowania grupą i prosić o pomoc. Najbardziej skłonne pomagać badaczowi są osoby zajmujące niską pozycję w grupie. Z tego samego powodu ich
pomoc często bywa mało skuteczna.
W zasadzie badacz powinien być wprowadzony do grupy jako badacz, a nie
jako kandydat na jej członka. Jeśli ukrywa swoją prawdziwą rolę przed większością, uzależnia się od jednego czy kilku wtajemniczonych. Ujawnienie tej roli, często przez przypadek, kładzie kres badaniu.
Uzyskawszy dostęp do terenu, badacz musi pozyskać informatorów. To też nie
jest łatwe: upatrzony nauczyciel nie musi się zgodzić na rozmowę, a tym bardziej
na obserwowanie go przy pracy z uczniami. Dobrze jest zaczynać od skromnych
próśb (np. prosić wychowawcę o pozwolenie porozmawiania z kilkoma podopiecznymi), zanim poprosi się go o dostęp do sedna działalności (np. o możliwość uczestniczenia w rozmowie z matką wychowanka). Z moich doświadczeń
wynika, że nie należy demonstrować swojego znawstwa terenu (badacz naiwny lub
zdezorientowany wyzwala w ludziach większą chęć informowania), dobrze jest też
dać do zrozumienia, że ma się nad sobą kierownika, który będzie miał za złe, jeśli
112 Rozdział 7. Metody zbierania danych
pewne dane nie zostaną zebrane – co prawie zawsze jest prawdą. Najważniejsze
jednak to upewnić potencjalnych badanych o własnej dyskrecji i oczywiście zachować ją. Badacz, który ujawnia postronnym zdobyte informacje albo pozwala,
by dostały się w niepowołane ręce, jest zakałą swojej grupy zawodowej.
Metody zbierania danych jakościowych
Dane jakościowe gromadzi się metodami, które można podzielić na trzy grupy:
• obserwacja jakościowa,
• wywiad,
• przeszukiwanie archiwów.
Omówimy je dokładniej.
Obserwacja jakościowa
O obserwacji pisze się mętnie, a to za sprawą zwyczaju przeciwstawiania jej eksperymentowi – rzekomo na tej podstawie, że eksperyment wpływa, a obserwacja
nie wpływa na badaną rzeczywistość. Ponieważ, jak pamiętamy, eksperyment jest
jednym ze schematów badawczych, rodzi to skłonność przypisania obserwacji
równorzędnego miejsca w hierarchii pojęć metodologicznych. Tak robią Ary i in.
(1996), nazywając obserwację schematem badania i dzieląc ją na uczestniczącą
i nieuczestniczącą, a tę drugą na obserwację naturalistyczną, studium przypadku
i analizę treści. Dla Denzina (1989, s. 17–18) schematem jest tylko obserwacja
uczestnicząca: „obserwacją uczestniczącą będziemy nazywać strategię terenową
łączącą w sobie analizowanie dokumentów, prowadzenie wywiadów z respondentami i informatorami, bezpośrednie uczestnictwo i obserwację oraz introspekcję”.
Samo uczestnictwo też jest rozumiane wieloznacznie. Na ogół rozumie się przez
nie obserwowanie badanej społeczności z punktu widzenia jej członka, co wymaga
zawieszenia własnej wiedzy pedagogicznej czy socjologicznej i przyjęcia postawy
poznawczej naiwności. Ale Shaughnessy i Zechmeister (1994) uznali, że uczestniczyć znaczy: odgrywać aktywną i istotną rolę w sytuacji, w której rejestruje się czyjeś
zachowanie, więc obserwację uczestniczącą uznali za przypadek obserwacji połączonej z interwencją i przeciwstawili obserwacji bez interwencji (naturalistycznej).
Wszystkie te konwencje mają dziwaczne konsekwencje. Według pierwszej rodzajem obserwacji jest czytanie i analizowanie na przykład opowiadań z czasopism
dla najmłodszych. Według drugiej do obserwacji należy prowadzenie wywiadu,
a obserwacja bez przydawki okazuje się składnikiem obserwacji uczestniczącej. By
uniknąć podobnych niedorzeczności i zbliżyć się do potocznego znaczenia słów,
w tej książce obserwacją będę nazywał rodzinę metod gromadzenia danych. Można je stosować w najrozmaitszych schematach badawczych.
Wśród metod gromadzenia danych obserwacja jest królową, ponieważ dostarcza danych z pierwszej ręki. Nie musi to znaczyć – danych prawdziwych. Sam obserwator jest narzędziem zawodnym: nie wszystko widzi i nie wszystko, co zobaczył, rozumie. Ale poznawanie zachowań jednostek i praktyk społecznych metodą
słuchania cudzych relacji jest obarczone podwójnie. Nie dość, że sam informator
Metody zbierania danych jakościowych 113
podlega ograniczeniom typowym dla każdego obserwatora, to jeszcze ogranicza
go sytuacja, w której wytwarza on swoją relację. Co prawda, obserwacja to metoda
rodząca wielkie, a czasem nieprzezwyciężalne trudności. Ten fakt usprawiedliwia
sięganie do metod opartych na słuchaniu: z reguły lepiej bowiem gromadzić dane
obciążone, niż nie gromadzić ich wcale.
Obserwacja występuje w dwóch odmianach: jakościowej i ilościowej. Obserwacja jakościowa wywodzi się z etnologii (w jakiejś części także z badań etologicznych – np. obserwacja języka ciała). Obserwacja ilościowa to dziecko pozytywizmu. W obu przypadkach obserwator rejestruje to, co widzi, starając się w jak
najmniejszym stopniu wpływać na teren badania, ale w obserwacji jakościowej
zwraca uwagę na obszerny, z grubsza tylko wytyczony zbiór zdarzeń, a w ilościowej na zdarzenia nieliczne i dokładnie zdefiniowane. Inaczej też wygląda wytwór
obserwacji: w pierwszym przypadku są to teksty (szczegółowe opisy zdarzeń i ich
tła w języku naturalnym), w drugim – liczby (częstości zdefiniowanych zdarzeń
lub szacunki ich natężenia).
Obserwacja etnograficzna
Metodę tę często stosuje się w badaniach prowadzonych w schemacie etnograficznym i stąd jej nazwa. Nie znaczy to, oczywiście, że nie może być używana także
w innych schematach. W literaturze nazywa się ją rozmaicie, np. uczestniczącą lub
naturalistyczną.
Obserwacja etnograficzna ma przynajmniej cztery cechy szczególne.
Realny teren i miejsce. Obserwacja etnograficzna ma dostarczyć danych o ludziach w codziennych sytuacjach, więc nie może się odbywać w miejscach sztucznych (np. w laboratorium).
Uczestnictwo. Obserwator znajduje się wraz z badanymi w tym środowisku
i w tym sensie „uczestniczy” w nim; stąd wzięła się nazwa „obserwacja uczestnicząca”. Widzieliśmy jednak, że budzi ona najzupełniej mylne skojarzenia.
Uczestnictwo to cecha stopniowalna. Najwyższy stopień uczestnictwa to życie
na danym terenie. Uczestniczącym obserwatorem wsi jest badacz, który w niej
mieszka od lat, obserwatorem szkoły – zatrudniony w niej nauczyciel lub uczeń.
Najniższy stopień uczestnictwa cechuje obserwatora, który przybywa nie wiadomo
skąd, siada w kącie, przygląda się, słucha, czasem zada jakieś pytanie. Gdzieś pośrodku mieści się uczestnictwo obserwatorów, którzy są badaczami, ale świadczą
też pewne usługi dla terenu (np. socjolog stojący na czatach w toalecie, gdzie zbierają się homoseksualiści). Uczestnictwo okazuje się pojęciem szerokim (wyklucza
tylko skrytego podglądacza lub podsłuchiwacza), a więc niezbyt użytecznym.
Co gorsza, nie przesądza ono, co wiedzą obserwowani. Mogą nie wiedzieć, że
jest wśród nich obserwator, mogą wiedzieć, ale nie zwracać na niego uwagi, mogą
wiedzieć i zwracać uwagę. Pierwsza możliwość, choć metodologicznie pożądana,
bywa trudna w realizacji, a czasem i wątpliwa moralnie. Można w ten sposób obserwować ludzi na otwartym zebraniu przedwyborczym czy młodzież na dyskotece, ale nie gang młodzieżowy, biuro czy oddział klasowy. Są wprawdzie doniesienia z badań przeprowadzonych przez obserwatorów, którzy dostali się na oddział
psychiatryczny jako pacjenci, zapisali się do szkoły jako uczniowie lub wstąpili
do policji po odbyciu przeszkolenia, ale trudno polecać tę metodę. Badacz musi
zachowywać nieustanną czujność, by się nie odsłonić, albo nie wejść zbyt głęboko
w swoją rolę i utracić bezstronność.
Ostatnia możliwość (wiedzieć i zwracać uwagę) jest niepożądana, ponieważ
obecność obserwatora może istotnie zmienić zachowanie się ludzi. Wiadomo na
przykład, że w obecności obcego nauczyciel stawia uczniom więcej pytań niż zwykle, częściej ich chwali i chętniej przyjmuje ich pomysły, uczniowie zaś częściej nawiązują z nim kontakt, zadając pytania lub prosząc o wskazówki. Najpraktyczniejsza zatem jest możliwość środkowa. Trzeba przyzwyczaić badanych do obecności
obserwatora. Jeśli przychodzi regularnie na lekcje, nie wtrąca się i przedstawia jako
osoba zainteresowana, ale nieoceniająca, to uczniowie po kilku, a nauczyciele po
kilkunastu wizytach przestają skupiać na nim uwagę i powracają do zwykłych sposobów zachowania się.
Zmiany ogniska obserwacji. Znaczenie danych jakościowych dookreśla kontekst, toteż musimy je zawsze wycinać z kawałkiem kontekstu. Załóżmy, że chcemy zbierać dane o aktywności uczniów podczas lekcji. Kto by po prostu stawiał
kreskę, ilekroć uczeń zgłasza się do odpowiedzi, ten nie zbierałby danych jakościowych, zgłoszenie bowiem zgłoszeniu nierówne. Ale jaki fragment kontekstu
wystarczy? Zapewne – pytanie czy polecenie nauczyciela i warunki odpowiadania
(czy uczeń zgłasza się w trakcie dyskusji, czy do odpowiedzi na stopień). Może
także to, ilu uczniów zgłasza się jednocześnie i czy ktoś już próbował odpowiedzi.
Pewnych wskazówek dostarcza istniejąca lub rodząca się teoria, ale jest oczywiste,
że najpierw trzeba poznać teren. Typowe gdzie indziej sytuacje (zwyczaje) mogą
tam być bardzo rzadkie, a nietypowe – częste.
Dlatego obserwacja etnograficzna przebiega w kilku fazach. Faza pierwsza ma
zorientować badacza w terenie (obserwacja opisowa). Najpierw badacz przygląda
się i opisuje teren (np. szkołę), jego miejsca (np. izbę szkolną, szatnię, korytarz,
jadalnię, boisko) i uczestników. Z reguły uczy się ich imion, by móc ich później
identyfikować. Jednocześnie próbuje wniknąć w charakter i atmosferę terenu.
Jedno z obiecujących podejść do tego zadania zakłada, że środowisko życiowe
ludzi jest ustrukturalizowane. Jednostkę tej struktury nazywa się różnie: obyczajem,
sytuacją, epizodem. Jej jądrem jest ograniczona czasowo i przestrzennie interakcja
(szereg wzajemnych aktów). Zawierają się w niej: wymagania stawiane uczestnikom, plan właściwego zachowania i koloryt uczuciowy. Te elementy składają się
na publiczne (obiektywne) znaczenie interakcji. Kompetentni mieszkańcy danego
terenu mają stabilne i jasne reprezentacje poznawcze tych epizodów. W tym sensie
są one normatywne. Jednostka musi rozumieć epizod, tak jak rozumie wyrażenie
językowe. Często to rozumienie jest negocjowane z innymi, co mocno podkreśla
interakcjonizm symboliczny. Żeby uchwycić znaczenie epizodu, trzeba wejść w położenie aktorów; znaczenie nie jest więc arbitralnym pomysłem badacza.
Forgas (1979) dowodzi, że takich sytuacji-epizodów-zwyczajów jest niewiele
(w oddziałach klasowych czy drużynach sportowych nie więcej niż 20, np. krótka
rozmowa ze znajomym przypadkowo spotkanym na ulicy, pójście do kina z kil-
koma kolegami, rozmowa w szatni po przegranym meczu). Zadaniem obserwacji
opisowej jest ujawnienie typowych epizodów wraz z ich publicznym znaczeniem.
Obserwator rejestruje je na osobnych kartkach notatnika, zawsze z nagłówkiem
podającym czas i miejsce:
13 stycznia, 8:50, klasa, lekcja polskiego
(N wchodzi do klasy zaraz po dzwonku i czyta ogłoszenie o zebraniu dla kandydatów
do liceum. Jest gwar, co chwila otwierają się drzwi i ktoś wchodzi. N nie zwraca na to
uwagi. Gdy drzwi otwierają się po raz piąty, N odwraca głowę. Wchodzą Marek i Tadek,
roześmiani, luźni)
N: Przestańcie się spóźniać, gdzie byliście?
Marek: No tam.
N: Gdzie?
Tadek: W ubikacji. (śmieją się)
N: Wszyscy już?
Z takich notatek powstaje „gęsty” opis terenu. Czytelnik poznaje jego charakter
i atmosferę, perspektywę uczestniczących w nim ludzi, ich wartości i znaczenia
nadawane rzeczom i czynom.
W drugiej fazie obserwator przystępuje do właściwego zadania. Jego obserwacja staje się zogniskowana przez przewodnik obserwacji. Może na przykład skupić
się na interakcjach antagonistycznych na lekcji, sposobach kontrolowania grupy
rówieśniczej przez jej przywódców, podziale obowiązków w rodzinie. Oprócz
głównego ogniska dobrze jest ustalić ogniska poboczne (np. obserwujemy interakcje nauczyciela i uczniów na tle przebiegu lekcji, aktywność wybranego ucznia
na tle oddziaływań ze strony kolegów).
W trzeciej fazie obserwacja staje się selektywna: obserwator sprawdza swoje
wnioski. Jeśli na przykład doszedł do wniosku, że w interakcjach antagonistycznych uczestniczy tylko kilku uczniów, może im poświęcić całą uwagę, żeby zobaczyć, czy te interakcje są inicjowane przez ucznia, czy przez nauczyciela. Jeśli
odkrył wspólną cechę sytuacji, w których nauczyciel wybucha gniewem, szuka
wyjątków od tej reguły, by przekonać się, w jakim stopniu jest trafna.
Trzy fazy obserwacji etnograficznej nie są z góry zaplanowane. Wyniki obserwacji opisowej wyznaczają zadania obserwacji zogniskowanej, a ta – obserwacji
selektywnej. Planowanie badania w trakcie zbierania danych jest, jak mówiliśmy,
typowym rysem badań jakościowych.
Samoobserwacja. Obserwator nie tylko obserwuje teren, lecz także samego
siebie: w notatkach terenowych umieszcza wzmianki (najlepiej na marginesie), że
coś go oburzyło, czuł się skrępowany, podziwiał kogoś itp. Szczególnie ważne jest
obserwowanie własnego asymilowania się, czyli przyjmowania perspektywy poznawczej panującej w terenie. Zwykle ma to formę retrospekcji: „Poczułem wtedy,
że mają całkowitą rację, bo nikt nie zniósłby podobnego traktowania”.
Samoobserwacja realizuje zasadę refleksyjności, o której mówiliśmy w rozdz.
2. Nie znaczy to jednak, że obserwator ma się stać główną postacią swojej narracji.
Irytujące jest zwłaszcza prowadzenie notatek w pierwszej osobie:
Byłem zmęczony przy końcu dnia. Zbliżałem się do wejścia do metra, ziewając. Zauważyłem Rocko stojącego przy drzwiach z gromadką innych dzieciaków...
Obserwacja zdarzeń krytycznych
W tej odmianie obserwacji nie próbuje się zarejestrować wszystkich zdarzeń, lecz
tylko te, które zdaniem obserwatora są dobrymi przejawami wybranych cech terenu, np. stylu nauczania czy stosunku uczniów do dyscypliny szkolnej. Każde zdarzenie tego rodzaju zostaje zanotowane wraz ze swoim kontekstem: co do niego
doprowadziło i jakie miało skutki. Często opis uzupełnia się krótkim wywiadem
z uczestnikami zdarzenia, np. z nauczycielem czy uczniem.
Tu można umieścić słynne obserwacje Piageta (1966). Nie donosi on o wszystkim, co zdarzało się obserwowanemu dziecku, lecz tylko o tych zachowaniach,
z których można było wnioskować o jego strukturze poznawczej. Tę metodę stosuje się w wielu badaniach psychologii rozwojowej i społecznej.
Przykładem zdarzenia krytycznego są gwałtowne załamania porządku na lekcji. Pewien stażysta obserwowany przez Wragga (1995) rozpoczął lekcję chemii
w swobodnym stylu, potem polecił utworzyć dwuosobowe zespoły i przeprowadzić eksperyment, mówiąc: „Wiecie, co robić, więc bierzcie przyrządy i do roboty”.
Kilku chłopców pognało do szafy i zaczęło wyrywać sobie statywy, kilku innych
rozpoczęło szermierkę gumowymi osłonami palników Bunsena. Stażysta musiał
krzykiem i groźbami przywracać porządek. Wywiad ze stażystą po lekcji ujawnił,
że starał się on naśladować swobodne obejście nauczyciela tej klasy, nie biorąc
pod uwagę, że nauczyciel poświęcił kilka miesięcy na wprowadzenie i utrwalenie
podstawowych reguł zachowania się w laboratorium. Zaobserwowane zdarzenie
okazało się więc istotnie krytyczne: było nieprzypadkowym przejawem stylu stażysty (à la Indiana Jones) i prowadziło do poważnych konsekwencji.
Inny przykładem są obserwacje w trakcie badania dyskryminacji płciowej. Obserwator wypatruje zdarzeń, które powiedziałyby nam o różnicach w traktowaniu
dziewczynek i chłopców:
Przedszkole, grupa pięciolatków
(Chłopiec odkrywa ślimaka w piaskownicy. Dziewczynka wyciąga rękę, by go dotknąć)
N: Oj, nie dotykaj go, on jest cały oślizgły!
(Dziewczynka cofa rękę, chłopiec usuwa ślimaka z pudełka).
Szkoła, oddział klasy 0
(Dzieci bawią się na podwórku. Nauczycielka siedzi na ławce)
Dziewczynka (podaje nauczycielce wianek upleciony z kwiatów mniszka): Proszę, to
dla pani.
N: Dziękuję.
(Dziewczynka kładzie wianek na ławce)
N: Och, zobacz, jakie ty masz brudne ręce. Musisz umyć, bo się cała ubrudzisz.
(Po chwili)
Chłopiec (podsuwa nauczycielce bardzo brudną dłoń): Niech pani zobaczy, co znalazłem.
N: To sprzączka. Uważaj, nie skalecz się!
(Chłopiec odchodzi)
Wyniki takiej obserwacji mogą być smakowite, ale nadają się jedynie do wykazania, że pewne zjawisko rzeczywiście występuje. Jak jest częste, na czym polega,
skąd się bierze i do czego prowadzi – to już pytania poza jej granicami. Tropiąc
przejawy dyskryminacji, badacz może pomijać dziesiątki epizodów świadczących
o jednakowym traktowaniu dziewczynek i chłopców. W tym sensie obserwacja
zdarzeń krytycznych jest stronnicza.
Wywiad indywidualny
Wywiad to zainicjowana przez badacza rozmowa z osobą badaną, zwaną respondentem. Wywiady różnią się pod względem stopnia standaryzacji. Standaryzacja
to tyle, co trzymanie się ustalonego wzoru postępowania w procesie wytwarzania czegoś. Dzięki standaryzacji poszczególne egzemplarze tego samego produktu
zostają ujednolicone pod względem wagi, rozmiarów, składu itp. W odniesieniu
do wywiadu standaryzacja polega na ujednoliceniu warunków rozmowy – przede
wszystkim brzmienia i kolejności zadawanych pytań oraz zachowania się badacza.
Z tego punktu widzenia można podzielić wywiady na standardowe, półstandardowe i niestandardowe.
W wywiadzie standardowym poszczególne osoby udzielają odpowiedzi w niemal identycznych warunkach, wskutek czego odpowiedzi te są porównywalne:
można je zliczać i prezentować w postaci rozkładów liczebności. Ta metoda jest
niewrażliwa na perspektywę respondenta: ma on odpowiadać na pytania, nie zaś
dzielić się swoimi przemyśleniami czy relacjonować własne doświadczenia. Dlatego omawiam ją w części poświęconej metodom ilościowym pod nazwą ankiety.
Na drugim biegunie mieści się wywiad niestandardowy, będący w istocie swobodną, niepowtarzalną rozmową dwojga ludzi. Badacz stawia pytanie inicjujące,
po czym pozwala badanemu na nieskrępowaną wypowiedź o dowolnej długości.
Między tymi biegunami rozciągają się liczne odmiany wywiadu półstandardowego (semi-structured). Taki wywiad jest kompromisem: badanemu pozwala
się wypowiedzieć, a badaczowi – zebrać dane, których potrzebuje, by osiągnąć
cel badania. Tym, co standaryzuje taki wywiad, jest przewodnik wywiadu. Typowy przewodnik zawiera informacje wstępne (kto prowadzi badanie, jaki jest jego
ogólny cel, jak dobiera się respondentów i jakie są gwarancje poufności danych)
oraz pytania inicjujące i drążące. Na przykład wywiad z nauczycielem na temat
jego pojęcia własnej roli zawodowej może się rozpocząć słowami:
Nazywam się Joanna Kowalska, jestem doktorantką na Uniwersytecie Warszawskim.
Chcemy poznać poglądy polskich nauczycieli na istotę zawodu nauczycielskiego i zadania współczesnej szkoły. Mamy nadzieję, że wyniki naszych badań podpowiedzą,
jak udoskonalić kształcenie przyszłych nauczycieli. Naszych rozmówców dobieramy
za pomocą losowania. W tych rozmowach państwo mówią o tylu ważnych rzeczach,
że nigdy nie mogę nadążyć z notowaniem, dlatego chciałabym nagrywać tę rozmowę.
Mam nadzieję, że nie ma pani nic przeciwko temu. Zapewniam, że wszystko, co pani
powie, będzie ściśle poufne: nikt poza zespołem badaczy z uniwersytetu nie będzie miał
dostępu do pani wypowiedzi. Proszę mi powiedzieć, co pani myśli o swoim zawodzie.
Pytania mogą mieć różną formę: otwartą („Co w projekcie reformy oświaty
robi na pani największe wrażenie?”), półotwartą („Co pani sądzi o finansowaniu
szkół za pomocą bonu oświatowego?”) i zamkniętą („Czy czuje się pani dobrze,
czy źle przygotowana do opracowania programu nauczania swojego przedmio-
tu?”). Język pytań (słownictwo i składnia) powinien być zawsze jak najbardziej
zbliżony do języka, którym badany mówi o swojej pracy na co dzień.
Przy opracowywaniu przewodnika dobrze jest zaczynać od nielicznych otwartych pytań inicjujących. Każde z nich otwiera nowy temat rozmowy, a ich zbiór nadaje wywiadowi wyraźny porządek. Gdy trzeba ogólnie scharakteryzować wywiad
(np. w doniesieniu), wystarczy je zacytować. Na przykład wywiad o pojęciu roli zawodowej mógłby być podzielony na trzy części. Do pierwszej, poświęconej abstrakcyjnemu pojęciu roli, wprowadza pytanie: „Po czym, pani zdaniem, można poznać
dobrego nauczyciela?”. Drugą, bardziej osobistą, inicjuje pytanie: „Co uważa pani za
najważniejsze w swojej pracy, na co zwraca pani największą uwagę?”. Trzecią, w której idzie o zmiany pojęcia roli, otwiera pytanie: „Proszę cofnąć się myślą do początku
pani pracy w szkole. Czy wtedy myślała pani o zawodzie tak samo jak dziś?” Treść
i forma pytań inicjujących powinny być starannie dobrane i wypróbowane, chcemy
bowiem, by pobudzały interesujące nas obszary pamięci rozmówcy bez konieczności zadawania dodatkowych pytań drążących. Nie znaczy to jednak, że nie powinniśmy ich przygotować. Pytania drążące dotyczą szczegółowych zagadnień tematu
określonego w pytaniu inicjującym. Na przykład pierwszemu pytaniu inicjującemu
mogą towarzyszyć następujące pytania drążące: „Jak pani zdaniem powinien się
ubierać nauczyciel?”, „Czy nauczyciel powinien przyznawać się przed uczniami, że
czegoś nie wie?” itd. Podział pytań na inicjujące i drążące pomaga zbudować spójny
i wyczerpujący przewodnik wywiadu, a samej rozmowie nadaje płynność.
W literaturze metodologicznej można się czasem natknąć na opinię, że przewodnik zawierający szczegółowe pytania jest zbędny, a nawet szkodliwy, ponieważ
usztywnia rozmowę, i że lepiej byłoby pozwolić badaczowi budować pytania w toku
wywiadu. Jest to ryzykowna opinia. Formułowanie pytań korespondujących z celem
badania nie jest zadaniem łatwym; jeśli zostanie powierzone badaczowi w terenie,
będzie wykonywane w rozmaity sposób, a to wniesie do danych pierwiastek przypadkowości. Wcale też nie służy atmosferze wywiadu to, że badacz, zamiast zadawać
pytania w tonie swobodnej rozmowy, gorączkowo zastanawia się, o co teraz zapytać,
lub wypróbowuje różne wersje tego samego pytania. Trzeba więc mieć szczegółowy
przewodnik, ale nie trzeba, a nawet nie należy trzymać się go niewolniczo.
Odstępstwa od przewodnika mogą mieć różny charakter. Najprostsze to niestawianie pytania, na które badany odpowiedział wcześniej, i udzielanie badanemu
dodatkowych wyjaśnień w razie potrzeby. Inne są bardziej złożone. Badacz musi
reagować na treść odpowiedzi. Jeśli respondent uparcie trzyma się poziomu ogólnych stwierdzeń lub ocen, trzeba sprowadzić go na bardziej konkretne tory np. przez
zwykłe: „Co pani ma na myśli, mówiąc, że...?”, odwołanie się do retrospekcji: „Czy
pamięta pan jakąś sytuację tego rodzaju?” albo do przeżyć: „Co pani wtedy czuła?”.
Jeśli – przeciwnie – badany nie wychodzi poza swoje doświadczenia, badacz może
zapytać: „O czym to świadczy?” albo „Jak pan ocenia takie postępowanie?” Do badacza należy też decyzja, jak traktować wątki, które do wywiadu wprowadza sam
badany: czy je rozwijać, bo niosą interesujące informacje, czy też blokować, bo prowadzą rozmowę na manowce? Mówiąc krótko: zadaniem badacza jest dostosowywanie przebiegu wywiadu do przewodnika i przewodnika do przebiegu wywiadu.
Są też odstępstwa zakazane. Osoba prowadząca wywiad powinna zawsze zachowywać postawę niedyrektywną, którą zdefiniował C. Rogers: uważnie słuchać, dawać do poznania, że rozumie punkt widzenia respondenta (np. wtrącając od czasu
do czasu potakujące „mhm”; nie ma nic gorszego niż badacz, który skupia się na
wypełnianiu rubryk protokołu, pokazując tym samym, że to, co mówi badany, jest
mu najzupełniej obojętne), ale w żaden sposób nie wpływać na treść odpowiedzi.
Zakazane są szczególnie informacje o oczekiwaniach badacza (np. „Chcielibyśmy
wykazać, że ten projekt jest niedojrzały”) oraz wyrażanie aprobaty, zdziwienia lub
niezadowolenia z odpowiedzi. Nie można też krytykować odpowiedzi niejasnych
lub wymijających, lecz jedynie prosić o uzupełnienie (np. „Czy może to pani wyjaśnić nieco dokładniej?” lub „Proszę mi powiedzieć o tym trochę więcej”).
Niezbędnym warunkiem powodzenia wywiadu jest to, czy badaczowi uda się
stworzyć atmosferę zaufania. Najbardziej chyba niweczy tę atmosferę obcość badacza: ubiór, język i maniery, które świadczą o tym, że należy on do innego świata
niż badany. Dość przypomnieć tu klasyczne studium Labova (1969), które wykazało, jak bardzo zmienia się mowa czarnego dziecka, gdy zamiast białego badacza
rozmowę prowadzi czarny, dobrze znający środowisko. Badacz ubrany z przesadną elegancją albo przeciwnie – ekstrawagancko, mówiący językiem odbiegającym
od języka osoby badanej i zachowujący się inaczej niż większość osób w miejscu
badania (np. zbyt formalnie lub zbyt swobodnie), buduje atmosferę nieufności,
w której rodzą się odpowiedzi obronne: ostrożne, wymijające, nieszczere.
Nieufność rodzi też jawna niekompetencja badacza: nieznajomość realiów życia czy pracy badanego, zadawanie naiwnych lub niedorzecznych pytań, zadowalanie się byle jakimi odpowiedziami, onieśmielenie i skrępowanie. Nie znaczy to,
oczywiście, że badacz powinien popisywać się swoją wiedzą i chwalić się przenikliwością, z jaką wyłapuje niekonsekwencje w odpowiedziach badanego.
Do zabiegów budujących zaufanie należy poinformowanie badanego, w jaki sposób zapewnia się poufność uzyskanych danych (takim sposobem może być oddanie
badanemu taśmy z jego głosem lub odłączenie nazwiska badanego od protokołu wywiadu). W początkowej części wywiadu nie należy też stawiać zagrażających pytań.
Wymagania, jakie wywiad stawia przez przeprowadzającym go badaczem, są
tak duże, że rzadko można się obejść bez szkolenia. Szkolenie badaczy obejmuje zapoznanie ich z całym projektem badawczym, zasadą doboru respondentów
(jeśli próbka nie jest losowa) oraz celem samego wywiadu. Ważnym składnikiem
szkolenia jest dobre zaznajomienie badaczy z terenem, na którym będą pracować.
Następnie, z przewodnikiem wywiadu w ręku, szkoleni analizują intencje poszczególnych pytań, dowiadują się, jakie odpowiedzi mogą uznać za adekwatne i jak
powinni reagować na odpowiedzi nieadekwatne. Dostają też wskazówki, jak powinni, a zwłaszcza jak nie powinni zachowywać się w trakcie wywiadu, w jakim
stopniu mogą odstępować od przewodnika itp.
Ani wykład, ani praca grupowa nie zastąpią jednak pokazu i ćwiczenia w warunkach zbliżonych do rzeczywistych. Dobrą metodą jest pokazanie szkolonym
wywiadu poprowadzonego przez doświadczonego badacza, a następnie prowadzenie próbnych wywiadów przez samych szkolonych. Takie wywiady powinny
być rejestrowane na taśmie wideo, by sami zainteresowani mogli zobaczyć, jak
sobie radzą z nawiązywaniem kontaktu, przełamywaniem nieufności, aktywnym
słuchaniem, dostosowywaniem pytań do przebiegu wywiadu i uzyskiwaniem danych, których wymaga badanie.
Pamiętamy, że główną osią, na której można porządkować wywiady, jest standaryzacja. Pozostaje zastanowić się, czym się kierować w wyborze poziomu standaryzacji. Trzy przesłanki takiego wyboru wydają się oczywiste.
Pytanie badawcze. Im bardziej szczegółowe, konkretne są pytania badawcze,
tym mniej uzasadnione jest zbieranie danych za pomocą wywiadu niestandardowego. Trzeba pamiętać, że pytanie badawcze niemal zawsze przesądza o sposobie
analizy danych, a ten sposób – o stopniu wykorzystania danych. Jeśli od planowanego wywiadu oczekujemy konkretnych informacji (np. o tym, w jakich sytuacjach
i jak często nauczyciel ma poczucie bezradności), to dane z wywiadu poddamy
zapewne uproszczonej analizie treści: będziemy zliczać tylko te frazy, w których
nauczyciel mówi, że nie może lub może sobie z czymś poradzić, że coś nie zależy
lub zależy od niego, słowem – frazy o z góry określonym znaczeniu. Pozwalając
badanym swobodnie rozwijać własne wątki, możemy być pewni, że część z nich
okaże się „nie na temat” i powiększy masę danych, która nigdy nie zostanie wykorzystana. Ale jeśli plonem wywiadu ma być zbiór pojęć i słów, którymi nauczyciele
opisują swoją praktykę, wywiad musi być niestandardowy, w przeciwnym bowiem
razie szczegółowe pytania mogłyby narzucić badanym obcy im sposób narracji.
Umiejętności komunikacyjne osób prowadzących wywiad. Im bardziej niestandardowy jest wywiad, tym wyższych kwalifikacji wymaga od badacza. Selekcja
i szkolenie mogą je podnieść, ale jeśli wybrani i wyszkoleni badacze nadal popełniają błędy, lepiej zwiększyć standardowość wywiadu niż ryzykować, że zbierze się
dane zniekształcone i niepełne.
Umiejętności komunikacyjne osób badanych. Nie wszyscy rozmówcy dobrze
się czują w sytuacji, w której badacz stawia jedynie pytania inicjujące i oczekuje
rozwiniętych odpowiedzi. Jedni stają się lakoniczni:
Badacz: Co myślisz o swojej wychowawczyni?
Badany: (7 sekund milczenia) Może być.
Badacz: Co masz na myśli?
Badany: (5 sekund milczenia) No, że idzie z nią wytrzymać.
Inni stają się gadatliwi: gubią się w dygresjach, uporczywie powracają do tych
samych wątków, pomijają szczegóły, bez których ich narracja jest niezrozumiała
itp. Jeśli wiadomo, że w badanej populacji przeważają osoby nienawykłe do samodzielnego wytwarzania uporządkowanych narracji, lepiej posłużyć się wywiadem
o większym stopniu standardowości.
W tradycji badań jakościowych funkcjonują różne odmiany wywiadu dostosowane do szczególnych pytań badawczych. Poniżej – ich niewyczerpujący przegląd.
Wywiad skoncentrowany na subiektywnych teoriach
Groeben (1990) opracował ogólny przewodnik wywiadu, którego celem jest rekonstrukcja subiektywnych teorii wypracowanych przez respondentów. Taki wy-
wiad wymaga dwóch sesji. Pierwsza ma dostarczyć surowego materiału, druga
– ustrukturalizować go w sposób przypominający teorię naukową. W pierwszej
zadaje się badanemu trzy rodzaje pytań: otwarte (np. „Czy może mi pan powiedzieć w skrócie, z czym kojarzy się panu słowo «zaufanie», gdy myśli pan o własnej praktyce zawodowej?”), testowe, czyli wynikające z teoretycznego stanowiska
badacza (np. „Czy zaufanie jest możliwe między obcymi, czy też ludzie muszą się
znać, żeby sobie ufać?”) i konfrontujące. Te ostatnie polegają na przedstawieniu
konkurencyjnego poglądu wobec odpowiedzi badanego (jeśli na przykład badany
stwierdził, że zaufanie jest najważniejszym czynnikiem powodzenia współpracy,
badacz może wtrącić: „Ale jest takie powiedzenie «Zaufanie jest dobre, ale nadzór
lepszy»” lub „Wielu ludzi twierdzi jednak, że zaufali i sparzyli się”). Trzeba przy
tym uważać, by nie wytworzyć wrażenia, że badacz jest niezadowolony z odpowiedzi badanego i oczekuje, że zostanie zmieniona.
W drugiej sesji stosuje się technikę ujawniania struktury (SLT). Przygotowując
się do niej, badacz przegląda protokół z pierwszej sesji i wypisuje kluczowe stwierdzenia badanego na małych kartkach. Badany ma najpierw sprawdzić, czy jego myśli
zostały oddane adekwatne, i jeśli nie, wprowadzić poprawki. Potem prosi się go, by
uporządkował kartki jako człony relacji „x warunkuje y” (dokładniej: jest niezbędny,
sprzyja, przeszkadza, wyklucza itp.). W ten sposób powstaje graficzna reprezentacja
subiektywnej teorii respondenta – tym wartościowsza, że z nim uzgodniona.
Wywiad skoncentrowany na materiale
W tej odmianie wywiadu badacz eksponuje pewien materiał, np. film, tekst, wyrób, i prosi badanego o podzielenie się wrażeniami, skojarzeniami czy ocenami
na jego temat. W badaniach marketingowych, w których często się stosuje taki
wywiad, materiałem bywa film reklamowy, opakowanie wyrobu czy sam wyrób.
Szczególnym przypadkiem tej odmiany jest coś, co Kruszewski (1987, s. 87n)
nazywa introspekcją kierowaną (stimulated lub prompted recall). Materiałem jest tu
wcześniej zarejestrowane (na taśmie audio lub wideo) zachowanie się samej osoby badanej. Jej zadaniem jest przypomnienie sobie, co wtedy myślała i czuła, pod
wpływem czego postąpiła tak a tak. Oto przykład z badań Kruszewskiego (s. 100–
101). Badana nauczycielka słucha nagrania z wczorajszej lekcji o Panu Tadeuszu:
N: Co zrobili potem młodzi ze swoimi chłopami?
U: Uważali, że skoro...
N: Ale co zrobili, co?
U: Uwłaszczyli ich.
(Badacz zatrzymuje taśmę)
B: Dlaczego przerwała pani pierwszemu uczniowi?
N: To słaby uczeń. Kiedy go odpytuję na początku lekcji, pozwalam mu mówić więcej.
Na lekcji go pytam, żeby uważał. Ale nie mogę go pytać o problemy wymagające samodzielności, bo zacząłby mówić to, czego nie rozumie. Zrobiłaby mi się wyrwa w lekcji...
Można wątpić, czy mamy tu do czynienia z introspekcją. Skoro badany ma
wnikać w przeszłe stany własnej świadomości, trafniej byłoby mówić o retrospekcji. Ale i to słowo obiecuje za wiele. Nie widać żadnych podstaw do twierdzenia,
że dzięki konfrontacji z materialnym śladem swojego zachowania badany może
dotrzeć do rzeczywistych pobudek przeszłego zachowania. Bezpieczniej jest założyć, że ślad ten aktywizuje subiektywne znaczenia, schematy, skrypty, słowem –
struktury poznawcze, których badany używa do wytwarzania autonarracji. Opisywana odmiana wywiadu byłaby więc alternatywnym sposobem rekonstruowania
subiektywnej teorii: mocniej zakorzenionej w doświadczeniu badanego, ale mniej
abstrakcyjnej niż teoria wyłaniająca się z układania kartek na biurku.
Materiał, który pokazuje się respondentom, może pochodzić od nich samych.
Badając znaczenie warunków zamieszkania, Wuggening (cyt. Flick, 1998, s. 154)
wręczał badanym aparat fotograficzny i prosił, by zrobili 12 zdjęć wnętrz swoich
domostw („Sfotografuj trzy miejsca, które najbardziej lubisz w swoim pokoju, oraz
trzy miejsca, których najbardziej nie lubisz. Potem zrób to samo z resztą swojego
mieszkania”). Takie fotografie są materiałem, na którym badany snuje narrację.
Jeśli materiał, który ma zaktywizować struktury znaczeniowe, sam jest wspomnieniem, mamy do czynienia z czymś, co Flick (1998) nazywa wywiadem
epizodycznym. Taki wywiad, mający ujawnić na przykład uczniowskie pojęcie
oceniania, zaczyna się instrukcją: „W tej rozmowie będę cię ciągle prosiła, żebyś
przypominał sobie różne sytuacje, w których byłeś oceniany”, po czym następuje
odpowiednik wprowadzenia materiału: „Czy możesz opowiedzieć, jak upłynął ci
wczorajszy dzień i w jakich sytuacjach czułeś się oceniany?” Wprowadza się też
– niezgodnie z nazwą – epizody przyszłe: „Jak myślisz, w jakich sytuacjach będziesz oceniany w najbliższej przyszłości?” W ostatniej części wywiadu wyłuskuje
się z narracji badanego pojęcia i reguły wiedzy semantycznej, np.: „Co to jest dla
ciebie ocenianie?”, „Od czego zależą stopnie szkolne?”.
Można w tym widzieć graniczny przypadek wywiadu skoncentrowanego na
materiale, ponieważ dociera on do pojęć zawartych w pamięci semantycznej za pośrednictwem zawartości pamięci epizodycznej (zapisu osobiście doświadczonych
zdarzeń).
Wywiad narracyjny
Narracja to tyle, co słowna rekonstrukcja ciągu doświadczanych zdarzeń. Jeśli celem wywiadu – jak to bywa w badaniach biograficznych – jest zarejestrowanie takiej rekonstrukcji, to nazywa się go narracyjnym. Wywiad narracyjny jest zawsze
niestandardowy: przewodnik zawiera bowiem tylko jedno, inicjujące pytanie:
Chciałbym prosić, żeby pani opowiedziała mi historię swojej pracy zawodowej. Najlepiej byłoby zacząć od chwili, gdy po raz pierwszy weszła pani do szkoły, a potem opowiadać po kolei, co się działo aż do dziś. Proszę się nie spieszyć i nie pomijać szczegółów,
bo dla mnie interesujące jest wszystko, co jest ważne dla pani.
Narracji badanego nie przerywa się żadnymi pytaniami ani komentarzami,
badacz nadaje jedynie sygnały, że stara się rozumieć to, co słyszy. Sam badany decyduje też, kiedy zakończyć narrację. Wywiad tego rodzaju może wymagać kilku
sesji. W ostatniej badacz przyjmuje bardziej aktywną rolę: dopytuje się o szczegóły
niezbędne do zrozumienia narracji (np.: „Opowiedziała mi pani, że w pierwszej
szkole nie dało się pracować. Czy mogłaby pani powiedzieć o tym trochę więcej,
żebym mógł zrozumieć, co pani tam najbardziej przeszkadzało?”) oraz o ogólną
interpretację (np. „Jak by pani podsumowała swoją drogę zawodową?”, „Dlaczego
tak się potoczyły się sprawy?”).
Taki wywiad dostarcza danych nieosiągalnych w inny sposób. Dane są żywsze,
bo ludziom łatwiej opowiedzieć swoją historię niż rozwinąć swoją teorię (wielu
teoretyków twierdzi, że ludzie przeżywają własne doświadczenie właśnie jako narrację). Dane są pełniejsze i mniej ocenzurowane, ponieważ narracja wciąga: zacząwszy opowiadać, badany czuje się zobowiązany doprowadzić rzecz do końca,
a także zadbać, by miała sens. Dlatego ujawnia niewygodne dla siebie, a ważne dla
całości narracji szczegóły, które by w innych warunkach po prostu przemilczał.
Mimo to nie można założyć, że narracja przedstawia nagą prawdę o życiu badanego: jest to tylko rekonstrukcja ograniczona intencją badanego (np. inaczej wypada,
gdy badany chce się usprawiedliwić, niż gdy chce zaimponować badaczowi), jego
biegłością językową i zasobem dostępnych wspomnień. Można dodać, że protokół
z takiego wywiadu bywa bardzo obszerny i trudniejszy do ustrukturalizowania,
toteż wiele danych pozostaje niewykorzystanych.
Wywiad etnograficzny
Jest to wywiad, który uzupełnia obserwację uczestniczącą w badaniach terenowych. Spradley (1979) powiada, że takie wywiady przypominają przyjacielskie
pogawędki w przypadkowych miejscach i czasie. Jakkolwiek są niestandardowe,
to jednak zmierzają do odpowiedzi na ściśle określone pytania: opisowe (jakie
coś jest, jak przebiega), kontrastujące (ujawniające wymiary znaczeniowe, których informatorzy używają do różnicowania obiektów i zdarzeń w swoim świecie)
i strukturalne (ujawniające organizację wiedzy o danej sprawie). Wielką sztuką
jest tak prowadzić rozmowę, by nie zmieniła się w przesłuchanie, w którym zaufanie znika, a rozmówca traci ochotę do współpracy. Badacz nie może jednak
udawać, że pyta z czystej ciekawości: musi wyjaśnić rozmówcy, po co prowadzi
rozmowę, dlaczego stawia takie pytania i dlaczego notuje odpowiedzi.
Osobliwością wywiadu etnograficznego jest to, że badacza mniej interesuje
osoba rozmówcy niż wiedza, którą rozmówca posiada. Rozmówca jest tu nie tyle
osobą badaną, ile informatorem czy ekspertem: opowiada o miejscach (grupach
etnicznych, subkulturowych, organizacjach itp.), a nie o sobie. Dlatego badacz delikatnie interweniuje, gdy rozmówca sprowadza rozmowę na tory osobiste (np.
ekspert wciąga badacza we własne konflikty z otoczeniem) albo robi wykłady, zamiast odpowiadać na pytania.
Wywiad zbiorowy
Wywiad indywidualny nie ma odpowiednika w codziennym życiu i dlatego musi
się respondentom wydawać sztuczny. Inaczej jest z wywiadem zbiorowym – rozmawianie o jakiejś sprawie w grupie ludzi jest powszechnym doświadczeniem każdego
z nas. Robimy to jako uczniowie i studenci, członkowie zespołu roboczego w miejscu pracy, przypadkowi towarzysze podróży. Teksty wytwarzane w grupie powinny
być więc bliższe życia społecznego niż teksty wytwarzane sam na sam z badaczem.
Wywiad zbiorowy występuje w przynajmniej trzech wyraźnie różniących się
od siebie odmianach.
Wywiad grupowy
W wywiadzie grupowym, podobnie jak w wywiadzie indywidualnym, badacz zadaje pytania ujęte w przewodniku, tyle że kieruje je do grupy 6–8 osób. Dodatkowo spoczywa na nim obowiązek dbania, by każda osoba miała równy udział
w rozmowie, toteż jednych zachęca do zabrania głosu, innych zaś powstrzymuje.
Od badanych oczekuje się odpowiadania na pytania, nie zaś dyskutowania nad
odpowiedziami, rozwiązywania problemów czy wypracowywania decyzji.
Taki wywiad pozwala szybciej poznać pełną gamę stanowisk w pewnej sprawie oraz zorientować się, które z nich uchodzą w badanej populacji za fałszywe,
skrajne, modalne itp. Zysk na czasie okupiony jest jednak dodatkowym wysiłkiem
związanym z rejestrowaniem wywiadu. Często zatrudnia się do tego dwóch badaczy: jednego, który prowadzi wywiad, i drugiego, który robi notatki.
Narracja grupowa
W wywiadzie narracyjnym opowieść o swoim życiu snuła jednostka, tu robi to
samo grupa. Jest to zawsze grupa realna, np. rodzina. Tu też badacz nie ingeruje
w narrację, protokół jest jeszcze grubszy, a jego analiza jeszcze trudniejsza.
Grupa tematyczna (focus group)
Wielką karierę robi trzecia odmiana wywiadu grupowego: grupa tematyczna. Jak
sugeruje nazwa, jest to połączenie tematu, który wnosi badacz (zwany tu moderatorem), i sił wyzwalanych przez interakcje społeczne w małej grupie. Na temat
składa się zbiór pytań lub problemów. Odpowiedzi lub pomysły rozwiązań wysuwa cała grupa. Pomysły te krążą i ścierają się ze sobą, a to pobudza jednostki do
otwartości i produktywności.
W grupie tematycznej ludzie ujawniają osobiste przekonania i informacje, które przemilczeliby w zwykłym wywiadzie. Gdy temat jest gorący, moderator uprzedza ich nawet, by nieopatrznie nie powiedzieli czegoś, czego potem będą żałować,
i robi przerwę w dyskusji, gdy wypowiedzi stają się zbyt osobiste, a poziom stresu
zbyt wysoki. Siły grupowe mogą jednak czasem przeszkadzać w zebraniu wartościowych danych, np. gdy uruchamiają skłonności konformistyczne (stwierdzono,
że młodzież indagowana w warunkach prywatnych określa swoje preferencje muzyczne inaczej, niż gdy wypowiada się w obecności rówieśników) lub nakładają
ograniczenia na swobodę wypowiedzi.
W grupie tematycznej ludzie wpadają na pomysły, które nie przyszłyby im do
głowy w innych warunkach. Często cytowanym przykładem jest odkrycie, którego dokonała pewna grupa, zapytana, dlaczego kobiety niechętnie kupują ciasta
w proszku – powstrzymuje je poczucie, że w upieczenie ciasta dla rodziny powinny włożyć więcej wysiłku. Nasunęło to producentowi skuteczny, jak się okazało,
pomysł, by utrudnić przygotowanie ciasta z proszku: usunąć zeń jaja w proszku
i wymagać świeżych, które gospodyni musiałaby wbić do rozrobionej wodą masy.
Grupa tematyczna ujawnia więc nie tylko różnorodność stanowisk w pewnej
sprawie, ale i dylematy skryte pod codziennymi oczywistościami. Członkowie
grupy nie tyle mówią moderatorowi to, co wiedzieli zawsze, ile wspólnie rozwiązują problem, uwzględniając jego wewnętrzną złożoność i zewnętrzne uwarunkowania. Morgan (1998) uważa, że dzięki tej metodzie badacz może się wiele
dowiedzieć, nie wiedząc nawet, jak brzmią właściwe pytania. Grupa tematyczna
w dosłownym sensie pracuje dla badacza, wyręcza go w robieniu odkryć.
Grupą tematyczną nazywa się dziś bardzo różne zespoły. W ścisłym sensie ta
nazwa przysługuje jednak tylko grupom, które są tworzone w celu zebrania danych jakościowych w ramach programu badawczego, są skoncentrowane na temacie i osiągają swój cel w drodze dyskusji. Nie jest więc grupą tematyczną grupa
seminaryjna, komisja robocza, grupa wsparcia, zebranie spółdzielców, grupa delficka (scalająca pomysły z panelu ekspertów) itp.
Zastosowania opisywanej metody są szerokie. Nadaje się ona zarówno do badań
teoretycznych, jak i praktycznych. W szczególności służy następującym celom.
• Identyfikowanie problemu. Grupa generuje hipotezy (np. z badań wiadomo, że
wielu nauczycieli ma niską samoocenę: dlaczego tak jest?) i pomysły nowych
produktów czy usług, ujawnia potrzeby pewnych środowisk (np. jakie trudności
napotyka społeczność Romów w zdobywaniu zatrudnienia?), wskazuje możliwości podniesienia jakości usług (np. gdzie kryją się rezerwy, które można by
wykorzystać?).
• Planowanie rozwiązania. Dzięki grupie tematycznej badacz może szybko zorientować się w nowym terenie i zdobyć cenne wskazówki, jak budować narzędzia
zbierania danych (np. o co pytać w przyszłym wywiadzie, jak formułować pytania
przyszłej ankiety?). Grupa może też zaplanować działania praktyczne, np. podwyższające jakość kształcenia (grupa absolwentów pracuje nad tematem „Gdybyście mieli dać dyrektorowi jedną radę, jak ulepszyć szkołę, to jak by brzmiała?”).
• Wprowadzenie planu w życie. Grupa może dostarczyć danych potrzebnych do
sprawdzenia hipotezy, poznania reakcji klientów na nowe produkty, śledzenia
przebiegu innowacji itp.
• Ocenianie wytworu. Grupa może pomóc w analizowaniu danych, dokonywać
dogłębnej oceny produktu, wyniku itp.
Grupa tematyczna liczy 6–8 osób. Może być realna (złożona z osób znających się
i przebywających ze sobą) lub przypadkowa (złożona z osób nieznających się). Może
być homogeniczna lub heterogeniczna pod względem płci, wieku, pozycji w organizacji itp. W grupie nie należy jednak umieszczać osób połączonych relacją zależności (zwierzchników i podwładnych, nauczycieli i profesorów uniwersytetu).
Skład grupy zależy od rodzaju danych. Jeśli chcemy poznać warianty stanowiska w oderwanej sprawie (np. wobec płatków śniadaniowych), lepsza jest grupa
przypadkowa, ponieważ ludzie dobrze się znający przemilczają zbyt wiele rzeczy,
mając je za oczywiste. Jeśli natomiast chcemy poznać składniki stanowiska w sprawie partykularnej (np. wobec działalności gminnego ośrodka pomocy społecznej),
lepiej wybrać grupę realną. Grupy heterogeniczne stosuje się rzadko, ponieważ
zdarza się, że rozwija się w nich atmosfera skrępowania czy zagrożenia. Moje za-
ufanie jest funkcją spostrzeganego podobieństwa między mną a innymi członkami grupy: gdy otaczają mnie odmienni, wypowiadam się ostrożniej. Grupa
heterogeniczna może pomóc we wstępnym zorientowaniu się w zagadnieniu; na
podstawie jej wyników można następnie zaplanować pogłębione badanie w kilku
grupach homogenicznych. Wynika stąd, że badanie rzadko ogranicza się do jednej
grupy. Typowy program badawczy obejmuje 3–8 grup tematycznych.
Rekrutowanie członków do grup tematycznych może się stać intratną usługą.
W USA powstały agencje prowadzące obszerne bazy potencjalnych uczestników: wystarczy, że badacz poda kryteria, jakim muszą odpowiadać (np. kobiety z klasy niższej, w średnim wieku, mające przynajmniej jedno dziecko), a dostaje listę adresów.
W Polsce nagabuje się ludzi na ulicy lub w miejscu pracy, telefonuje do domów itp.
Główna postać grupy tematycznej to moderator. Świadczy o tym choćby wysokość honorarium: w USA profesjonalny moderator orientujący się w jakiejś
wyspecjalizowanej dziedzinie (np. bankowości) dostaje nawet 2 tys. dolarów za
grupę. Otwierając sesję, moderator uprzedza, że wypowiedzi będą nagrywane,
ponieważ inaczej nie byłby w stanie napisać doniesienia, prosi, by nie mówić jednocześnie, i zapowiada, że będzie odgrywał rolę policjanta regulującego ruch na
skrzyżowaniu. Apeluje, by każdy mówił to, co myśli, nie troszcząc się, co o tym pomyślą inni członkowie, i przypomina zasady zachowania poufności danych, wyrażając przy tym przekonanie, że celem całego spotkania jest otwarte wymienianie
opinii i czerpanie z tego przyjemności. Członkowie grupy przedstawiają się imieniem lub pseudonimem i mówią kilka słów o sobie, po czym moderator inicjuje
dyskusję, stawiając przed grupą problem, który trzeba rozwiązać, albo pytanie, na
które trzeba znaleźć odpowiedź. W trakcie dyskusji moderator stara się nie rzucać
w oczy, ale pilnuje porządku, czasem coś przeczyta lub pokaże, pobudza lub uspokaja, a nawet na chwilę przerywa dyskusję, gdy osiągnie ona zbyt wysoką temperaturę. On też decyduje, w jaką stronę poprowadzić dyskusję: ku pogłębieniu czy ku
poszerzeniu tematu. Nigdy jednak nie poucza członków ani nie wywiera nacisku
na podjęcie decyzji czy wypracowanie konsensu.
Bezpośrednimi produktami grupy tematycznej są nagranie i notatki asystenta
moderatora. Zazwyczaj z nagrania sporządza się dosłowny protokół (transcript).
Bywa on obszerny (z półtoragodzinnej sesji zajmuje około 25 stron bez interlinii).
Taki protokół i notatki terenowe są podstawą analizy danych. Doświadczony analityk poświęca zwykle 8–12 godzin na jedną grupę. Czasem analizie poddaje się
samo nagranie. Słuchając go, analityk sporządza skrócony protokół (najważniejsze wątki dyskusji, często w punktach), poświęcając na to 4–8 godzin. Najszybciej
analizuje się dane, które przechowała pamięć moderatora (czasem wsparta notatkami), ale też są one wtedy najuboższe i najbardziej zniekształcone.
Trzeba pamiętać, że jednostką analizy jest tu grupa, a nie osoba: analityk pyta,
jakie stanowiska czy pomysły rozważała grupa, a nie – jaki wkład wnieśli poszczególni członkowie. Do tego zresztą nie ma podstaw: jeśli sześcioosobowa grupa
dyskutuje przez półtorej godziny odpowiedzi na 5 pytań, to każdy uczestnik ma
średnio tylko 3 min na pytanie. Jeśli chcemy poznać subiektywne światy badanych
osób, powinniśmy użyć wywiadu indywidualnego.
Grupa tematyczna, będąc metodą o niskiej standaryzacji, nie dostarcza danych, które można kwantyfikować. W końcowym doniesieniu zestawia się poruszane w różnych grupach wątki, uwypuklając ich podobieństwa i różnice, ale nie
utożsamia się częstości jakiegoś wątku z jego ważnością. Robienie zestawień liczbowych (np. 30% badanych wybrało produkt A), a tym bardziej rozciąganie ich na
populację jest nadużyciem tej metody.
Wbrew potocznym opiniom grupa tematyczna nie jest metodą szybką ani
tanią. Oprócz moderatora i jego asystenta potrzebne są także osoby rekrutujące
członków, przepisujące nagrania, analizujące dane i opracowujące doniesienie –
cały zespół, który trzeba opłacić. Choć grupa tematyczna może pracować niemal
w każdych warunkach, najlepsze wyniki osiąga się w specjalnych pomieszczeniach
z pokojem obserwacyjnym i aparaturą rejestrującą dźwięk albo dźwięk i obraz.
Uczestników zwykle się czymś częstuje, nagradza lub opłaca. Morgan (1998) szacuje, że pełny koszt jednej grupy sięga 5 tys. dolarów. Można go zmniejszyć, jeśli
ludzie pracują bez wynagrodzenia.
Na koniec dwie przestrogi. Gdy temat wiąże się z ważną dla ludzi sprawą,
mogą oni oczekiwać, że badacz nie tylko wysłucha, co mają do powiedzenia, ale
też pomoże rozwiązać ich problem. Wykorzystywanie tego rodzaju oczekiwań
jest moralnie naganne, toteż w takim przypadku badacz powinien użyć bardziej
bezosobowych metod zbierania danych (np. ankiety). Nie ma natomiast nic niewłaściwego w tym, że członkowie przypadkowej grupy tematycznej organizują się
(np. wymieniają adresy) w celu udzielenia sobie pomocy, wywarcia nacisku na
administrację itp.
Po wtóre, trzeba respektować granicę oddzielającą mówienie o czymś od robienia czegoś. Mówiąc, ludzie ujawniają swoje postawy, ale nie zachowania. Wnioskowanie z postaw o zachowaniu jest zawsze niepewne. Bywa, że grupa tematyczna
entuzjastycznie wypowiada się o jakiejś ofercie, z której – gdy znacznym nakładem
wysiłku zostaje udostępniona – wcale nie korzysta. Badacz nie może traktować
grupy tematycznej (ani żadnej innej metody zbierania danych) jako maszynki do
formułowania przewidywań. Przewidywać pozwala tylko dobra teoria.
Przeszukiwanie archiwów
Archiwum to w dosłownym sensie miejsce przechowywania starych dokumentów,
a dokument to pisemny ślad czynności prawnej. Dla metodologii badań społecznych takie znaczenia są zbyt wąskie. Dokumentem będziemy więc nazywać każdy
materialny ślad celowej działalności ludzi: dyplom ukończenia szkoły, fotografię
oddziału klasowego, dziennik lekcyjny, protokół z posiedzenia rady pedagogicznej,
pamiętnik uczennicy, aparat radiowy zbudowany przez VIIIc, a nawet figury i napisy wyryte na szkolnych ławkach. W ślad za rozszerzonym pojęciem dokumentu
musimy też zmienić pojęcie archiwum i uznać, że jest nim cały świat społeczny.
W badaniach najczęściej wykorzystuje się typowe dokumenty, które wytwarza
i przechowuje nasza kultura. Ktoś wysunął na przykład hipotezę, że hałas lotniska
źle wpływa na mieszkające w pobliżu dzieci, i sprawdził ją wyłącznie na archiwaliach: porównał liczby nieobecności w szkole zapisane w dziennikach lekcyjnych.
Innym przykładem jest twórcze wykorzystanie statystyki wypadków samochodowych przez Phillipsa (cyt. za Shaughnessy i Zechmeister, 1994). Badacz ten wykazał, że liczba śmiertelnych wypadków samochodowych wzrasta w okresie kilku
dni po opublikowaniu w gazetach doniesień o spektakularnym samobójstwie. Ten
wynik dowodzi, że głośne samobójstwa pociągają za sobą falę zamachów samobójczych i że część wypadków samochodowych to zamaskowane samobójstwa. Świadectwem zmian zachodzących w naszej kulturze może być znaczący wzrost między
1970 a 1990 r. liczby artykułów w czasopismach psychologicznych z kobietą jako
pierwszym autorem. Na podstawie prywatnej kolekcji 301 listów, pisanych przez
pewną matkę do przyjaciół, G. W. Allport zbudował znane studium stosunków
między matką i synem. E. Durkheim sprawdził słynną hipotezę o związku stopy
samobójstw z wyznaniem panującym w kraju na podstawie policyjnych statystyk.
Rzadziej – rzecz jasna poza archeologią – wykorzystuje się dokumenty nietekstowe. Przykładem może być badanie dokładności wskazań zegarów w miejscach publicznych. Stwierdzono, że zegary w bankach brazylijskich wskazywały
czas mniej dokładnie niż zegary w bankach amerykańskich, co potwierdziło hipotezę, że punktualność ma mniejszą wartość w kulturze Ameryki Południowej.
Liczba niedopałków w popielniczkach pokoju nauczycielskiego powie nam, w jak
dużym napięciu pracują nauczyciele, stopień zużycia zabawek w przedszkolu – czy
jest ono rzeczywiście nastawione na dziecko (nieskazitelny stan wyposażenia dydaktycznego w pewnym przedszkolu montessoriańskim nasunął badaczowi przypuszczenie, że zapewnienia o osiągnięciach dzieci mają tam raczej propagandowy
charakter).
Wyniki analizy archiwaliów dobrze jest sprawdzić inną metodą, mogą bowiem
być zawodne. Dokumentacja nie musi być kompletna ani bezbłędna. Czasem
może też być stronnicza. Są na przykład dowody, że w razie niejasnych okoliczności śmierci człowieka policja chętniej uznaje, że spowodował ją wypadek, jeśli
ofiarą był mąż i ojciec, niż wtedy, gdy był nią bezdzietny kawaler.
Dodajmy na koniec, że w Polsce instytucje publiczne są zobowiązane do archiwizacji i udostępniania dokumentów na zasadach określonych w prawie. Zarządzenie nr 12 Prezesa Rady Ministrów z 23 stycznia 1963 r. stanowi, że organy
administracji państwowej i inne państwowe jednostki organizacyjne mogą udostępnić dane liczbowe i jawne dokumenty m.in. pracownikom nauki i studentom,
pod warunkiem wystąpienia przez kierownika placówki naukowo-dydaktycznej
z należycie uzasadnionym wnioskiem. Kierownik jednostki ma obowiązek rozpatrzyć taki wniosek w ciągu 14 dni.
W systemie oświaty obowiązuje zarządzenie Ministra Edukacji Narodowej
z 18 marca 1993 r. w sprawie sposobu prowadzenia dokumentacji przez placówki
oświatowe. Stwierdza ono, że dokumentację przebiegu nauczania (ale już nie wychowania i opieki) może udostępnić studentom i pracownikom nauki dyrektor
szkoły. Zgoda organów zwierzchnich (prowadzących lub nadzorujących placówkę) nie jest wymagana.
Metody zbierania danych ilościowych 129
Metody zbierania danych ilościowych
Dane ilościowe są produktem pomiaru. Pomiar to tyle, co przyporządkowywanie
obiektom symboli (zwłaszcza liczbowych) w taki sposób, by matematyczne relacje między symbolami odpowiadały empirycznym relacjom między obiektami.
Mierząc na przykład twardość minerałów, przypisujemy im takie liczby, że minerał mający większą liczbę zarysowuje minerał mający mniejszą liczbę (Walenta,
1971). Przedmiotem pomiaru jest zmienna, a wynikiem pomiaru wartość, jaką
przyjmuje zmienna w danym obiekcie. W tym sensie zmierzyć płeć Zosi to spojrzeć na Zosię i przypisać jej wartość symbolizowaną słowem „kobieta”, zmierzyć
wzrost Jana to przyłożyć do Jana miarkę i przypisać mu liczbę równą liczbie jednostek (centymetrów) mieszczących się między podłogą a czubkiem jego głowy3.
Pomiar zbioru obiektów daje zbiór liczb. Ale zbiór zbiorowi nierówny. Załóżmy, że dwóch badaczy chce porównać dwie gminy pod względem wykształcenia
mieszkańców. Jeden przypisał dorosłym mieszkańcom liczby 1, 2, 3, 4 odpowiadające wykształceniu podstawowemu, zasadniczemu, średniemu i wyższemu. Drugi
przypisał każdemu liczbę lat spędzonych w szkole: 6, 7, 8 itd. Wbrew pozorom nie
są to równoważne zbiory. Różnicę łatwo uchwycić: oba pozwalają uporządkować
mieszkańców pod względem wykształcenia, ale tylko drugi pozwala także uporządkować różnice między nimi pod względem długości pobytu w szkole. Jeśli
pierwszy badacz przyporządkował Zofii 3, Piotrowi 4, a Janowi 2, to wolno mu
stwierdzić, że Piotr ma wyższe wykształcenie niż Zofia, a Zofia wyższe niż Jan, ale
nie wolno stwierdzić, że różnica między Piotrem i Zofią jest taka sama jak między
Zofią i Janem. Wprawdzie 4 – 3 = 3 – 2, ale same te liczby są dobrane najzupełniej
dowolnie. Równie dobrze moglibyśmy przyjąć inny szereg czterech rosnących
liczb, np. 2, 3, 6, 8, a wtedy 8 – 6 ≠ 6 – 3.
Od czasów S. Stevensa tego rodzaju różnice między wynikami pomiarów wiąże
się z poziomem pomiaru. Najczęściej wyróżnia się cztery takie poziomy:
• Nominalny – narzędzie pozwala jedynie klasyfikować obiekty pod względem
płci: {kobieta, mężczyzna}, wyznania: {katolicy, luteranie, kalwiniści} itp. Jakkolwiek nazwy zawsze można zastąpić liczbami, nie wolno na nich wykonywać
żadnych operacji matematycznych.
• Porządkowy – narzędzie pozwala porządkować obiekty pod względem takich
zmiennych, jak status społeczny: {niższy, średni, wyższy}, stopień z klasówki:
{1..6} itp., ale nie odległości między nimi. Takie liczby można porównywać ze
sobą, ale nie dodawać, nie można więc np. obliczać średniej arytmetycznej.
• Przedziałowy – narzędzie pozwala przypisywać obiektom liczby będące krotnością ustalonej jednostki (przedziału) pomiaru. Można je uważać za ciągłe,
jeśli ta jednostka jest mała w stosunku do całego zakresu pomiaru. Takie liczby
można dodawać i mnożyć, a więc np. obliczać średnią arytmetyczną i odchylenie standardowe.
W książkach pedagogicznych mówi się czasem o „pomiarze środowiska wychowawczego” (Pilch, 1995, s. 95n). Czymkolwiek byłoby środowisko wychowawcze, z pewnością
nie jest pojedynczą zmienną, więc nie można go mierzyć – można tylko poznawać.
3
• Stosunkowy – narzędzie pozwala przypisywać obiektom liczby ze zbioru liczb
rzeczywistych dzięki temu, że oprócz ustalonej jednostki ma też niearbitralnie wyznaczony punkt zerowy. Możliwe jest wówczas nie tylko porównywanie różnic, ale i stosunków między obiektami. Na skali stosunkowej mierzy się
zmienne fizykalne (np. temperaturę bezwzględną, masę, wysokość dźwięku)
i niektóre zmienne psychofizyczne.
W praktyce badawczej nauk społecznych najważniejsze jest rozróżnienie na
skale porządkową i przedziałową, swoistość skali nominalnej jest bowiem oczywista, a istnienie skali stosunkowej wątpliwe4. Po czym poznać, że narzędzie daje
skalę przedziałową, nie jest całkiem jasne. Uważa się, że jeśli narzędzie składa się
z wielu równoważnych prób (pytań lub zadań) i daje wyniki, które mają rozkład
normalny oraz są liniowo skorelowane z wynikami innych narzędzi tej samej
zmiennej, to pomiar wolno traktować jako przedziałowy. Na mocy tego założenia
wyniki pojedynczej skali szacunkowej mają poziom porządkowy, ale wyniki poprawnie zbudowanego testu czy skali postawy mają poziom przedziałowy.
Założenie to pomaga to rozstrzygnąć niejedną wątpliwość. Weźmy żywo dyskutowany problem, jaki poziom mają stopnie szkolne. Puryści mówią, że pozwalają one co najwyżej uporządkować uczniów w oddziale klasowym. Znaczy to, że nie
wolno obliczać średniej i odchylenia standardowego stopni w oddziale klasowym,
współczynnika korelacji Pearsona między stopniami a ilorazem inteligencji itp.
Jeśli jednak każdy uczeń ma kilka stopni (np. cząstkowych), zakaz można obejść.
Najprostszym sposobem jest związanie z każdym stopniem arbitralnej wagi, czyli
liczby odpowiadającej jego ważności. Wagi powinny być jak najprostsze (np. kolejne liczby naturalne). Ze stopniem niedostatecznym można związać 1, z miernym
2 itd. Podobnie waży się odpowiedzi badanego na skalach szacunkowych: „zdecydowanie nie” dostaje 1, „raczej nie” 2 itd. Dzięki temu można obliczyć ważoną
sumę – np. stopni każdego ucznia lub akceptacji stwierdzenia. Suma ta jest liczbą,
więc można ją podzielić przez liczbę stopni, liczbę skal szacunkowych itp., i tak
dojść do średniej jako wyniku pomiaru. Ten pomiar można traktować jako przedziałowy i włączać do zaawansowanych analiz statystycznych5.
Jak widać, stawką w sporze o poziom pomiaru są mocne metody analizy danych. Ponieważ słabsze metody mogą ujawnić tylko część regularności, metodolodzy usprawiedliwiają użycie mocnych, jeśli tylko nie ma wyraźnych dowodów, że
pomiar nie jest przedziałowy. W tym duchu Blalock (1975, s. 172) pozwala zmienne dwuwartościowe (nazywane dychotomicznymi) traktować jako przedziałowe,
bo nie ma w nich problemu z porównywaniem odległości między wartościami.
Wielowartościową zmienną porządkową można przekształcić w ciągłą o rozkładzie normalnym i tak podnieść jej poziom.
4
Blalock (1975, s. 27) twierdzi, że w pomiarach, których dokonujemy w naukach społecznych, pojęcie absolutnego zera nie ma sensu.
5
Nie znaczy to, rzecz jasna, że średnia stopni (grade point average) staje się tym samym
trafnym i rzetelnym wskaźnikiem osiągnięć szkolnych ucznia.
Obserwacja ilościowa
Obserwacja ilościowa jest metodą przekształcania złożonego i zmiennego świata,
który spostrzega obserwator, w liczby. Wynikają stąd dwa zagadnienia:
• jak zredukować złożoność spostrzeganego świata, czyli co obserwować, a co
pominąć?
• jak przekształcać spostrzeżenia w liczby?
W podejściu ilościowym obie te kwestie muszą być rozstrzygnięte przed rozpoczęciem obserwacji.
Redukowanie spostrzeżeń
Obserwacja ilościowa nie nadaje się do poznawania niepowtarzalnych cech lekcji, zabawy w dyskotece czy zebrania rady pedagogicznej, to bowiem, co ma być
obserwowane (przedmiot obserwacji), jest tu z góry określone. Wszystko, co nie
mieści się w tym określeniu, zostaje pominięte.
Każda obserwacja ma swój czas, miejsce, przypadki i przedmiot. Proste zdanie:
„Obserwowano interakcje zadaniowe w ciągu 5 lekcji języka polskiego w jednym
oddziale klasy VI” informuje o czasie (obserwacja trwała łącznie 225 min), miejscu (lekcje polskiego w jednym oddziale), przypadkach (uczniowie i nauczycielka)
oraz przedmiocie (interakcje związane z wykonywaniem zadań dydaktycznych).
Przedmiot ten można pojmować dwojako: jako akty oderwane od obserwowanych
osób lub związane z tymi osobami. W pierwszym wypadku uwaga obserwatora jest
zogniskowana na zdarzeniach (z danych dowiadujemy się, co działo się w obserwowanym miejscu), w drugim – na osobach (z danych dowiadujemy się, co robiły
poszczególne osoby lub co się im przytrafiało). Jest oczywiste, że z danych drugiego
rodzaju można odtworzyć dane pierwszego rodzaju, ale nie odwrotnie.
Gdy przez cały czas obserwujemy niewiele przypadków pod niewieloma
względami, mówimy o obserwacji ciągłej. Gdy zbiór osób lub aktów jest większy,
nie pozostaje nic innego, jak kolejno ogniskować uwagę na każdym z nich przez
ściśle określony czas. Mówimy wtedy o metodzie próbek czasowych. Wymaga ona
określenia interwału obserwacji i zasady przechodzenia od jednego ogniska do
następnego.
Oto dwa przykłady: Chcąc sprawdzić hipotezę, że stosowanie przez nauczyciela na lekcji raczej nagród niż kar zmniejsza przeszkadzanie i zwiększa uważanie,
Rollins i in. (1974) zdefiniowali przedmiot obserwacji jako cztery klasy aktów:
„nauczyciel nagradza”, „nauczyciel karze”, „uczeń przeszkadza”, „uczeń uważa”,
przyjęli pięciominutowy interwał obserwacji oraz zasadę, że w jednym interwale zlicza się akty nagradzania i karania, w drugim – przeszkadzania, w trzecim
– uważania. Taki piętnastominutowy cykl powtarzano trzykrotnie w ciągu lekcji.
W moim badaniu (Konarzewski, 1995a) przedmiotem obserwacji były 84
zachowania (np. „zgłasza się ochotniczo do prac porządkowych”) dziesięciorga
pierwszoklasistów wybranych losowo ze swego oddziału. Pełny czas obserwacji
(52 lekcje) podzielono na piętnastominutowe interwały poświęcone jednemu
dziecku. Dzieci były obserwowane w stałej kolejności, każde jednakowo często
w początkowej, środkowej i końcowej części lekcji (próbkowanie systematyczne).
Dziecko, które było obserwowane w początkowej części lekcji, było też dodatkowo
obserwowane w ciągu dziesięciominutowej przerwy (próbkowanie sytuacji).
Interwał obserwacji może być dłuższy lub krótszy. Przy obserwacji lekcji może
wynosić 15 min (i wtedy obserwuje się trzech uczniów na jednej lekcji) albo 3 min
(15 uczniów). Czym się kierować przy wyborze? Średnią długością obserwowanego
zachowania. Jeśli interesują nas krótkie, izolowane akty (np. „zgłasza się do odpowiedzi”), wówczas należy wybierać krótki interwał, długi bowiem zwiększa wpływ
kontekstu na wynik obserwacji (jest jasne, że więcej okazji do zgłaszania się do odpowiedzi ma zwykle uczeń obserwowany w środkowej części lekcji niż obserwowany w części początkowej lub końcowej). Interwał musi być dłuższy, jeśli interesują
nas zachowania ciągłe (np. „samodzielnie wykonuje zadanie”) lub łańcuchy zachowań (np. „nie zgadza się z partnerem i przekonuje go do swojego poglądu”). W tym
ostatnim przypadku dopuszcza się wydłużenie czasu obserwacji poza wyznaczony
interwał, by móc stwierdzić, jak skończy się rozpoczęta interakcja.
Zasada przechodzenia od jednego przypadku do drugiego musi zapewniać
jednakowy czas i zrównoważoną kolejność obserwowania każdego z nich. Jest błędem obserwowanie uczniów według rozmieszczenia przy stolikach (np. rzędami),
ponieważ rzadko bywa ono przypadkowe. Gdyby w pierwszym rzędzie siedzieli
najpilniejsi uczniowie, a nauczycielka zaczynała lekcję od sprawdzenia pracy domowej, tylko oni mieliby pochwały w protokole obserwacji, co stworzyłoby mylne
wrażenie, że inni nie odrabiają pracy. Najlepiej z góry przygotować losową sekwencję nazwisk. Jeśli obserwacja ma być powtarzana w odmiennych warunkach
(np. na lekcjach drugiej zmiany), wówczas trzeba zadbać, by każdy uczeń był jednakowo często obserwowany we wszystkich warunkach.
Czasem podział na interwały wymusza rejestrowanie stanu tego samego przypadku w stałych odstępach czasu. Specjalny zegarek wysyła sygnał dźwiękowy np.
co 30 sek. Usłyszawszy go, obserwator zapisuje, co się dzieje z przypadkiem. Dane
z takiej obserwacji przypominają serię statycznych fotografii i stąd jej nazwa: obserwacja fotograficzna. Ponieważ ignoruje ona wszystko, co dzieje się między sygnałami, jej użyteczność w badaniach oświatowych jest niewielka.
Rejestrowanie spostrzeżeń
Do przekształcania spostrzeżeń w liczby służą skale szacunkowe i systemy kategorii. Skale wymagają od obserwatora odpowiedzi na pytanie „w jakim stopniu?”,
systemy kategorii – na pytanie „jak często?”
Skale szacunkowe
Skala szacunkowa może przybierać różne formy:
bezpośredni ______________________________________ zdystansowany
bardzo
bezpośredni
raczej
bezpośredni
przeciętny
(równowaga)
raczej
bardzo
zdystansowany zdystansowany
Metody zbierania danych ilościowych bezpośredni 1 2 3 4 5 6 7
133
zdystansowany
Zachowuje się bezpośrednio: nigdy rzadko czasem często zawsze
Obserwator zaznacza punkt na odcinku, zakreśla liczbę lub wybiera jedną
z podanych kategorii opisowych. Narzędziem obserwacji jest mniejszy lub większy zbiór takich skal. W skrajnym (niegodnym polecenia) przypadku stosuje się
tylko jedną skalę, np. obserwację całej lekcji zamyka w pojedynczym stopniu „jakości nauczania” od niedostatecznego po celujący.
Skala szacunkowa ma przypominać przyrząd pomiarowy: wystarczy przyłożyć
ją do badanego obiektu, a pokaże obiektywne natężenie danej cechy. Niestety, tak
nie jest. Stosowanie w obserwacji skal szacunkowych to wprowadzanie najdzikszej
arbitralności pod płaszczykiem ścisłych i obiektywnych liczb.
Główną wadą skali szacunkowej jest to, że wymaga od obserwatora uogólniania tego, co zaobserwował w ciągu interwału czasowego, czyli angażowania się
w złożony proces wnioskowania. Obserwator musi zdecydować, czy to, co właśnie
widzi, jest, czy nie jest przejawem bezpośredniości albo zdystansowania, i jeśli jest,
to świadczy o wysokim czy o niskim nasileniu tej cechy. Te decyzje musi przechowywać w pamięci, tak by przy końcu interwału przypomnieć je sobie, połączyć,
przyłożyć do nich skalę porządkową i wybrać stosowną wartość.
Nic dziwnego, że wyniki tak prowadzonej obserwacji niosą piętno skłonności
obserwatora. Gdy skale szacunkowe dotyczą nienaocznych (nieobserwowalnych)
cech osoby lub jej zachowania, obserwator musi zinterpretować swoje spostrzeżenia. Reguły tej interpretacji nigdy nie są w pełni jawne. Oto nauczyciel grozi komuś palcem – czy świadczy to o bezpośredniości, czy o zdystansowaniu? Trudno
powiedzieć, bo to zależy od kontekstu: czy robi to z uśmiechem, czy poważnie, czy
zwraca się do małych dzieci, czy do młodzieży itd. Zamiast wdawać się w złożone
analizy pola obserwacji, na które zresztą nie ma czasu, badacz kieruje się w takich
wypadkach własnym wrażeniem: czy on sam odbiera taki gest jako poufały, czy
oficjalny, a to wrażenie zależy od jego nastroju i osobowości. Kiedy przystępuje
się do analizy tak uzyskanego zbioru liczb, nie wiadomo, o czym informują: czy
o cechach badanych osób, czy o regułach interpretacji stosowanych przez obserwatora, o jego nastroju, osobowości itd. Dlatego skale szacunkowe odnoszące się
do nienaocznych cech osobowości lub zachowania badanych nie powinny być stosowane w trakcie obserwacji, nie są to bowiem środki rejestrowania spostrzeżeń,
lecz środki uzewnętrzniania wrażeń lub opinii badacza.
Rzecz wygląda nieco lepiej, gdy od obserwatora wymaga się szacowania częstości dobrze określonych zachowań, np.:
Chwali poprawną odpowiedź: nigdy rzadko czasem często zawsze,
tu bowiem reguły interpretacji są jawne. Ale i takie szacunki wymagają uogólniania, które zależy od skłonności obserwatora.
Niektóre z tych skłonności zostały rozpoznane i nazwane. Efekt halo polega na
tym, że na poszczególne szacunki wpływa ogólne wrażenie czy opinia, jaką urobił
sobie obserwator o przypadku. Jeśli podoba mu się obserwowany nauczyciel, pod-
wyższa szacunki wszystkich cech, które uważa za pozytywne (np. zamiast „czasem chwali” wybiera „często chwali”), w przeciwnym razie jest skłonny je obniżać.
Efekt świeżości to zależność szacunków od ostatnio zaobserwowanego zdarzenia,
tak jakby blokowało ono pamięć zdarzeń wcześniejszych. Efekt ostrożności to
skłonność do unikania skrajów skali (rezerwowania ich dla rzadkich przypadków,
w których badacz dysponuje niezbitymi dowodami). Ponieważ te i inne efekty zachodzą w różnym stopniu u różnych obserwatorów, nie sposób twierdzić, że wyniki szacowania są porównywalne.
Skala szacunkowa może być stosowana, gdy obserwuje się jeden rodzaj zachowania zamknięty w niewielkim interwale, każda wartość skali ma jednoznaczną
definicję, a obserwator jest fachowcem w dziedzinie zachowania, którą obserwuje.
Przykładem jest skala śpiewania Buctona:
7 – intonacja dokładna
6 – drobne niedokładności intonacyjne w trudniejszych miejscach piosenki lub tam,
gdzie piosenka wykracza poza skalę głosu dziecka
5 – interwały śpiewane niedokładnie, ale zachowany kontur piosenki
4 – interwały śpiewane niedokładnie, ale zachowany kierunek melodii
3 – śpiew monotoniczny, nie wykraczający poza skalę małej tercji
2 – piosenka mówiona (głos wokalny trudno odróżnić od głosu mowy)
1 – dziecko nie śpiewa lub błąd nagrania
Ta skala precyzyjnie określa i porządkuje rodzaje odchyleń od idealnego wykonania.
Systemy kategorii
W wielu obserwacjach nie wymaga się złożonych wnioskowań, lecz jedynie rejestrowania dobrze określonych zdarzeń, w miarę jak się pojawiają. Określenie takiego zdarzenia nazywa się kategorią, a ich zbiór systemem kategorii.
Kategorie powinny być tak jasne i konkretne, jak to możliwe. Zamiast rzeczowników (np. „zachowanie agresywne”) lepiej użyć wypowiedzeń („uderza, popycha,
szczypie lub pluje na inne dziecko”). Zamiast wypowiedzeń nienaocznych („jest
dumny z wytworu”) – wypowiedzeń mających odniesienia naoczne („pokazuje wytwór innym, zachwala, chroni przed uszkodzeniem”). Zamiast wypowiedzeń negatywnych („nie zgłasza się do odpowiedzi”) – wypowiedzeń pozytywnych („zgłasza
się do odpowiedzi”). Definiując kategorię, dobrze zacząć od krótkiej etykietki, a po
dwukropku ją rozwinąć („pomaga koledze: udziela wskazówek, pożycza przybory itp. bez względu na to, czy kolega o to prosił, czy nie”). Jeśli projekt badawczy
wymaga pracy kilku obserwatorów, opłaca się wydać osobną instrukcję podającą
przykłady zdarzeń należących i nienależących do każdej kategorii, sposób traktowania wyliczeń (suma czy iloczyn logiczny), przypadków granicznych itd., by jak
najbardziej ujednolicić warunki obserwacji. Taka instrukcja pozwala też wykryć
pary kategorii splątanych (np. „przeszkadza w lekcji” i „rozmawia z innymi”).
Trzeba się wystrzegać takich kategorii, jak „poniża ucznia”, wymagają one bowiem niejawnych reguł interpretacji i są nasycone wartościowaniem, a więc podatne na efekt halo. Nie znaczy to jednak, by należało dążyć do wyeliminowa-
nia wszelkiej interpretacji. Obserwator jest człowiekiem, który przetwarza różne
wskazówki sytuacyjne w zrozumienie tego, co się dzieje, dzięki posiadanej wiedzy
społecznej. Bez tego nie mógłby odróżnić krytyki napastliwej od rzeczowej, ironii
od pochwały, pytania „do siebie”, które zapowiada następny wątek w wykładzie, od
pytania do ucznia. Nie w tym więc rzecz, by zmusić obserwatora do rejestrowania
jedynie „molekularnych” aspektów zachowania, lecz w tym, by skłonić go do stosowania publicznych (jawnych i uzgodnionych) reguł interpretacji.
Innym błędem jest umieszczenie wśród kategorii odnoszących się do aktów kategorii odnoszących się do procesów. Weźmy kategorię „uderza, popycha, szczypie
lub pluje na inne dziecko”. Jeśli obserwowane dziecko odepchnie kolegę od okna
i samo przez nie wygląda, sprawa jest jasna. Ale jak ma postąpić obserwator, gdy
odepchnięte dziecko stawia opór i zostaje uderzone? Czy jest dalszy ciąg już zarejestrowanego zdarzenia, czy też jest to drugie zdarzenie z tej samej kategorii? A co
zrobić, jeśli oboje dzieci zaczyna się bić? Czy liczyć każde uderzenie? Trudność
tę można rozwiązać przez skrócenie interwału obserwacji, jak to jest w znanym
narzędziu Flandersa (1970), albo przez dokładniejsze zdefiniowanie procesu (np.
jako następstwo: akt–bodziec–akt–odpowiedź).
W wielu badaniach wystarczy stworzyć listę kategorii. W bardziej ambitnych
projektach grupuje się kategorie i określa relacje między tymi grupami. Tak powstają systemy kategorii, np. Balesa (Newcomb i in., 1970) lub Flandersa (1970).
Umieszczenie kategorii w systemie dookreśla ją i ułatwia zapamiętanie, a co ważniejsze – pozwala kontrolować rozłączność i dopełnianie się kategorii do jakiejś
sensownej całości. Stworzenie spójnego i użytecznego systemu kategorii nie jest
jednak łatwe.
Rejestrowanie spostrzeżeń polega na wypełnianiu arkusza obserwacji. Większość arkuszy można sprowadzić do jednej z trzech odmian. W pierwszej odmianie obserwator stawia kreskę w wierszu reprezentującym daną kategorię, gdy zauważy zjawisko należące do tej kategorii. Krótki interwał obserwacji dopuszcza
tylko jedną kreskę, w dłuższym kresek może być tyle, ile wystąpień zjawiska. Oto
przykład fragmentu arkusza obserwacji zachowania się jednego ucznia wobec rówieśników podczas przerwy. Każda kolumna zamyka półminutowy interwał, toteż
w kratce może być tylko jedna kreska.
Postawa wobec rówieśników
atakuje słownie lub fizycznie
broni słabszych przez atakiem, pociesza
narzuca swoje zdanie lub wolę
podporządkowuje się woli innych
strzeże swojej własności
dzieli się posiadanymi dobrami
bierze cudze rzeczy bez pytania
pyta o zgodę
skarży na kolegów
osłania kolegów przed nauczycielką
I
II
III
IV
V
|
|
|
|
|
Gdyby interwałem była cała przerwa, obserwacja byłaby łatwiejsza (arkusz
miałby tylko jedną kolumnę, a obserwator nie musiałby patrzeć na zegarek),
a liczba kresek odzwierciedlałaby częstość odpowiednich zachowań. Wtedy jednak pojawiłby się problem wydzielania aktów ze strumienia interakcji. Nie wiedzielibyśmy też, że obserwowane dziecko zachowało się agresywnie dopiero po
kilku próbach zdominowania rówieśników.
W drugiej wersji arkusza obserwacji obserwator stawia symbol zdarzenia, ilekroć się ono pojawia. W systemie Flandersa obserwator dostaje arkusz w postaci
tabeli. Każdy wiersz reprezentuje jedną minutę, a kolumna trzysekundowy interwał. W każdej kratce obserwator stawia jedną cyfrę – symbol kategorii odpowiadającej temu, co działo się w tym interwale (np. „2”, jeśli nauczyciel nagrodził lub
zachęcił ucznia do działania, „4” – jeśli nauczyciel zadał nieretoryczne pytanie o
treść lub metodę, „8” – jeśli uczeń odpowiedział nauczycielowi, „9” – jeśli uczeń
odezwał się niepytany itd.). Produktem dwudziestominutowej obserwacji jest zatem ciąg 400 cyfr reprezentujących zdarzenia na osi czasu.
Zauważmy na marginesie, że tak poszatkowawszy lekcję, Flanders próbuje następnie ją scalić, zakładając na przykład, że sekwencja 4–8–2 oznacza interakcję:
nauczyciel pyta, uczeń odpowiada, nauczyciel go chwali. Ale w sekwencji 4–8–9–2
nie wiadomo, kogo chwali nauczyciel: ucznia, który odpowiedział na jego pytanie,
ucznia, który spontanicznie włączył się do rozmowy, czy ucznia, który właśnie
skończył ścierać tablicę. Jedyne, czego możemy być pewni, to rozkład częstości
izolowanych aktów.
Omawiana wersja arkusza wymaga nauczenia się na pamięć symboli kategorii. Godne polecenia jest stosowanie symboli „znaczących”: zamiast cyfr – skrótów, w których poszczególne litery odpowiadają kolejno: podmiotowi, czynności
i przedmiotowi (np. NPU – „nauczyciel pyta ucznia”, NGU – „nauczyciel gani ucznia”, UGU – „uczeń gani ucznia”). Ale jeśli kategorii jest kilkadziesiąt, niewiele to
pomoże.
Trzecią wersję arkusza stosuje się do obserwacji rozciągniętych w czasie procesów (np. „uczeń samodzielnie pracuje nad zadaniem z podręcznika”). W wierszu odpowiadającym kategorii obserwowanego procesu zaznacza jego początek
i koniec (wpisuje godziny lub zakreśla umowne interwały). Ogólna zasada obowiązująca obserwatora brzmi: rejestruję tylko to, co widzę, a nie to, czego się domyślam. Jeśli kategoria jest zdefiniowana jako „uczeń prosi kolegę o upewnienie
i radę”, a obserwator widzi tylko, że uczeń pochyla się do kolegi i coś mówi, nie
może zaznaczyć tej kategorii, chyba że usłyszy coś w rodzaju: „Czy to jest dobrze?”,
„Jak to narysować?”. By oddzielić wrażenia, opinie i oceny od rejestracji zdarzeń
i procesów, można dać obserwatorowi zbiór skal szacunkowych, które wypełniałby bezpośrednio po zakończeniu obserwacji.
Ponieważ wyniki obserwacji zależą od kwalifikacji obserwatorów, trzeba ich
poddać szkoleniu. Dobra metoda polega na pokazaniu początkującemu obserwatorowi magnetowidowego nagrania sytuacji, którą wcześniej zarejestrował doświadczony obserwator, i poproszeniu, by poddał ją obserwacji. Dzięki temu można zobaczyć, gdzie obserwator odbiega od wzoru, wskazać i wyjaśnić błąd. Można
też go prosić o dwukrotne obserwowanie tej samej sytuacji, co pozwala ujawnić
chwiejność w pojmowaniu kategorii.
Krytyka danych
Dane z obserwacji podlegają krytyce, która przypomina wewnętrzną krytykę
źródeł historycznych. Obrona polega na odparciu dwóch zarzutów: że obecność
obserwatora zniekształciła zdarzenia (to, co robili obserwowani, było inne niż
zwykle) i że obserwator nietrafnie je zrelacjonował (to, co rejestrował obserwator,
odbiegało od tego, co się działo).
Pierwszy zarzut odpieramy przez wykazanie, że dołożyliśmy starań, by obserwator nie wpływał na przebieg zdarzeń, np. umieściliśmy go za jednokierunkowym
lustrem lub za ogrodzeniem przedszkolnego podwórka, użyliśmy ukrytej kamery
albo przynajmniej pozwoliliśmy badanym zaadaptować się do obecności obserwatora. Jeśli możemy pokazać, że w okresie adaptacyjnym spada liczba pytań, uwag
lub spojrzeń kierowanych do obserwatora lub że rośnie częstość zachowań nagannych, nasze zapewnienia zyskują na wiarygodności. Trzeba też wykazać, że interwał obserwacji i kolejność obserwowania aktów lub przypadków nie zniekształcają
obrazu zdarzeń.
Drugi zarzut odpieramy przez wykazanie, że obserwator miał możność widzenia i słyszenia (np. że podczas obserwowania lekcji nie siedział przy ostatnim
wolnym stoliku na końcu klasy), że pomagał sobie rejestracją magnetofonową i że
został przeszkolony. Najlepszą jednak obroną jest podanie współczynnika zgodności obserwacji dwóch obserwatorów.
Jeśli obserwatorzy czy „sędziowie kompetentni” rejestrują spostrzeżenia na
skali szacunkowej, to najczęściej rekomenduje się jako miarę zgodności jakiś
współczynnik współwystępowania, np. τ (tau) Kendalla. Ale ten i podobne współczynniki mogą przyjmować wartość bliską 1, mimo że obserwatorzy ani razu nie
zgodzili się ze sobą: wystarczy, że jeden z nich systematycznie zawyża lub zaniża
to, co widzi. Gdy skala ma niewiele wartości, lepiej po prostu podać odsetki przypadków zakodowanych zgodnie i prawie zgodnie przez obu obserwatorów, np.:
„W 60% obserwatorzy zgodzili się całkowicie, a w 30% różnili się między sobą tylko o jedną wartość”. Takie stwierdzenie z pewnością lepiej informuje o rzetelności
kodowania niż współczynnik τ = 0,75. Można też dla każdego przypadku obliczyć
bezwzględną wielkość różnicy szacunków dwóch obserwatorów: |A – B|. Średnia
tej różnicy pozwala obliczyć współczynnik zgodności:
W = 1−
3p
⋅ A− B
p2 − 1
gdzie p to liczba stopni skali. Współczynnik waha się od –2 do 1. Zero oznacza
ten stopień zgodności, jaki osiąga się przy szacunkach czysto losowych (np. za
pomocą kostki do gry). Gdy szacunków dokonuje większa liczba sędziów (np. pięciu nauczycieli ocenia w urzędowej skali wypracowania kilkudziesięciu uczniów),
do oszacowaniu ich zgodności używa się współczynnika W Kendalla. Omawia go
Brzeziński (1997, s. 500n).
Jeśli badanie wymaga rejestrowania spostrzeżeń w postaci kresek lub ciągu symboli, to można uznać, że średnia liczba kresek w danej kategorii jest najlepszym oszacowaniem rzeczywistej częstości danego zdarzenia. Gdy więc jeden obserwator zaobserwował 5 aktów z danej kategorii, a drugi 3, to zakładamy, że pierwszy przecenił
ich liczbę o 1, a drugi nie docenił o 1, obaj zaś zgodnie zarejestrowali 3 akty. Dzieląc
to przez średnią, czyli liczbę możliwych zgód, i mnożąc wynik przez 100%, dostajemy
współczynnik zgodności równy 75%. Ogólnie współczynnik ten jest dany wzorem:
Z = 2⋅
min( A, B )
⋅ 100%
,
A+ B
gdzie A i B to liczby aktów zarejestrowane przez obu obserwatorów. Wzór nie ma
zastosowania, ilekroć A = B = 0. Zamiast brać obopólny brak kresek za dowód
zgodności, trzeba wyłączyć taką sytuację z analizy.
Pojedynczy współczynnik zgodności jest mało rzetelny, dlatego trzeba co najmniej dziesięciokrotnie przeprowadzić obserwację z użyciem danej kategorii, a zgodność wyrazić za pomocą średniej (i odchylenie standardowego) z poszczególnych
współczynników. Protokół z badania zgodności obserwacji może mieć taką formę:
Kategorie
K1
K2
K3
...
Km
Średnie
S1
0
100
...
44
55
S2
50
100
...
44
75
S3
44
67
86
...
0
71
Sytuacje
...
...
...
...
...
Sn
100
100
...
36
83
Średnie
67
88
79
...
30
75
Liczby w tabeli to współczynniki zgodności między dwoma obserwatorami
posługującymi się arkuszem, który zawiera kategorie K1–Km w sytuacjach (np.
lekcjach) S1–Sn. Puste miejsca (np. w kratce K1S2) oznaczają, że w sytuacji 2. obaj
obserwatorzy nie zarejestrowali ani jednego zdarzenia z kategorii 1. Ostatnia kolumna zawiera średnie współczynniki zgodności dla kategorii, a ostatni wiersz –
średnie współczynniki dla poszczególnych sytuacji (możemy ich użyć do zbadania, czy obserwatorzy nabywają wprawy, a także do wykrycia sytuacji szczególnie
niejasnych).
Nie sposób uzasadnić jakiejś granicznej wartości tego współczynnika, wydaje się jednak, że gdy spada on poniżej 70% (zwłaszcza przy dużym odchyleniu
standardowym), trudno mieć zaufanie do wyników analiz, które obejmą daną
kategorię. Trzeba więc uznać, że albo przynajmniej jeden z obserwatorów źle wykonał swoją pracę, albo kategoria jest zdefiniowana wadliwie (zawiera określenia
wieloznaczne, nierozłączne lub wymagające złożonych wnioskowań) i musi być
poprawiona. System jest wadliwy także wtedy, gdy zawiera wiele pustych kategorii.
Ankieta
Ankieta, zgodnie ze źródłosłowem (enquête), to metoda zbierania danych polegająca na planowym wypytywaniu badanego. Podstawą ankiety jest kwestionariusz,
czyli ustalona lista pytań, którym towarzyszy mniej lub bardziej zamknięty zbiór
odpowiedzi. Podane możliwości odpowiedzi będę nazywać opcjami odpowiadania, a pytanie wraz z opcjami – pozycją kwestionariusza6. Budowanie kwestionariusza to zadanie złożone przynajmniej z 5 kroków.
Krok 1. Kto zaczyna od układania pytań, naraża się na to, że jego kwestionariusz będzie dotykał wielu ubocznych kwestii, a najważniejsze potraktuje ogólnikowo i wyrywkowo. Trzeba raczej zacząć od określenia, czego chcemy się dowiedzieć, tzn. od sporządzenia rozwiniętej listy potrzebnych informacji.
Krok 2. Decydujemy o formie ankiety. Pytania kwestionariusza można zadawać badanemu na co najmniej pięć sposobów:
• Ankieta ustna – ankieter spotyka się z respondentem, czyta pytania, klasyfikuje
i rejestruje odpowiedzi. Daje to pewność, że kwestionariusz będzie wypełniony
starannie, ale ogromnie zwiększa koszt badania. Taką ankietę równie dobrze
można nazwać wywiadem o najwyższym stopniu standaryzacji.
• Ankieta telefoniczna – ankieter rozmawia z respondentem przez telefon. Odmiana znacznie tańsza i dająca większe poczucie anonimowości, co przy niektórych zagadnieniach bywa pożądane. Jeśli numery telefonu wybiera komputerowy generator liczb losowych, próbka przypomina losową, choć oczywiście
nią nie jest, ponieważ ogranicza się do osób mających telefon.
• Ankieta pisemna – ankieter daje badanemu kwestionariusz, który ten wypełnia samodzielnie i zwraca ankieterowi.
• Ankieta audytoryjna – ankieter rozdaje kwestionariusze respondentom zgromadzonym w jednym miejscu (np. nauczycielom podczas zebrania rady pedagogicznej) i zbiera po wypełnieniu.
• Ankieta pocztowa – kwestionariusz przesyła się pocztą. Metoda wygodna, ale
niebezpieczna. Jeśli stopa zwrotów jest niższa niż 75%, trudno uogólnić wynik, bo nie można założyć, że osoby nie zwracające kwestionariusza są losowo
rozrzucone w populacji (na ogół wypełnione ankiety częściej odsyłają ludzie
wykształceni, obowiązkowi i zainteresowani sprawą).
Krok 3. Budujemy pierwszą wersję kwestionariusza. Jeśli potrzebujemy informacji prostych i niekontrowersyjnych (np. o sposobach spędzania wolnego czasu),
możemy sami ułożyć i uszeregować pozycje, po czym pokazać je ekspertom (kolegom badaczom lub osobom znającym się na badanym zagadnieniu, np. kierownikowi domu kultury) z prośbą o krytykę. W sprawach trudniejszych (np. opinii
o zjawiskach budzących kontrowersje) zaleca się przeprowadzić najpierw kilka
wywiadów niestandardowych (np. w grupie tematycznej), by móc sformułować
pytania i opcje odpowiadania w sposób najbardziej naturalny dla badanych.
Spotykane czasem terminy kafeteria i item trzeba uznać za niepoprawne. Kafeteria to
rodzaj lokalu gastronomicznego, a item to niepotrzebne zapożyczenie z angielskiego.
6
Krok 4. Prowadzimy badanie pilotażowe na małej próbce osób pochodzących
z populacji, do której jest zaadresowany kwestionariusz. Badani powinni wypełniać kwestionariusz w obecności ankietera, który rejestruje wszystkie oznaki ustosunkowania się do brzmienia pytań i opcji odpowiadania, np. uwagi w rodzaju:
„Nie wiem, o co tu chodzi”, „Tu mogłabym podkreślić równie dobrze 3, jak i 5”,
odpowiedzi zaczynające się od „To zależy...”, prośby o wyjaśnienie, kwestionowanie
wyrażeń jako śmiesznych lub obraźliwych, udzielanie odpowiedzi niemieszczącej
się w opcjach. Jeśli jakaś pozycja jest często pomijana lub zabiera badanemu dużo
czasu, to znak, że coś z nią nie w porządku. Warto dołożyć starań, by ułatwić respondentowi zadanie, stwierdzono bowiem, że czas wypełniania kwestionariusza
rozsyłanego pocztą pozwala przewidzieć stopę zwrotów.
Krok 5. Po wprowadzeniu niezbędnych poprawek przystępujemy do ostatniego
zadania: opracowania typograficznego. Kwestionariusza nie piszemy na maszynie,
lecz przygotowujemy w dobrym edytorze tekstu. Przejrzystość jest ważniejsza niż
oszczędność papieru: kilka stron gęsto zadrukowanych małą czcionką zniechęci
każdego respondenta. Pytania powinniśmy oddzielić od opcji odpowiadania przez
rozmieszczenie ich w osobnych kolumnach lub złożenie inną czcionką. Najlepiej
układać opcje jedna pod drugą, opatrując każdą numerem, bo to zmniejsza błędy
w czasie kodowania. Jeśli układamy je poziomo, dobrze wziąć każdą w ramkę:
17. Jaką rolę w zdobywaniu przez ucznia dobrych stopni odgrywa to, że pochodzi z rodziny mającej dobre warunki mieszkaniowe i materialne?
1 decydującą
2 dużą
3 małą
4 żadną
5 nie wiem
Oto przykładowy fragment kwestionariusza:
Uniwersytet Warmińsko-Mazurski
Droga Koleżanko,
Prowadzimy badania warunków pracy zawodowej i życia nauczycieli. Będziemy
wdzięczni, jeśli zechce Pani odpowiedzieć na pytania niniejszej ankiety. Ankieta jest
anonimowa, więc liczymy na szczere odpowiedzi.
PYTANIE
ODPOWIEDŹ
(proszę wpisać lub podkreślić)
1
Jaki jest Pani staż pracy w zawodzie
nauczycielskim?
2
Czy będąc w szkole średniej, chciała
Pani być nauczycielką?
3
Co Pani czuła w pierwszym roku pracy 1 Głównie satysfakcję
w zawodzie nauczycielskim?
2 Głównie zniechęcenie
3 Na przemian satysfakcję i zniechęcenie
4 Nie pamiętam
16
___________________
1 Tak.
2 Nie, miałam inne plany.
3 Nie pamiętam.
...
...
Czy Pani ma dzieci?
1 Tak
2 Nie
18
19
20
141
JEŚLI PANI MA DZIECI:
Wiek najstarszego dziecka
Wiek najmłodszego dziecka
Gdzie Pani mieszka?
________________
________________
1 na wsi
2 w małym mieście (do 5 tys. mieszkańców)
3 w średnim mieście (między 5 a 50 tys.
mieszkańców)
4 w dużym mieście (powyżej 50 tys. mieszkańców)
Jaki jest Pani stan cywilny?
1 panna
2 mężatka
3 rozwiedziona
4 wdowa
JEŚLI JEST PANI OSOBĄ SAMOTNĄ: 1 dobre, można nawet coś odłożyć
Jak Pani ocenia swoje dochody?
2 skromne, wystarcza tylko na zaspokojenie
bieżących potrzeb
JEŚLI MA PANI RODZINĘ:
3 nie pozwalają związać końca z końcem,
Jak Pani ocenia dochody swojej
często trzeba pożyczać
rodziny?
Pozycje kwestionariusza
Pozycje kwestionariusza dzielimy na zamknięte i otwarte. Pozycje zamknięte składają się z pytania i opcji odpowiadania, z których badany ma wybrać (podkreślić lub zaznaczyć) najlepiej odpowiadającą jego wiedzy. Pozycje zamknięte mogą
mieć rozmaitą formę.
• Pytania z wyborem:
Jakie wykształcenie zamierzasz zdobyć w życiu:
___ podstawowe
___ zasadnicze zawodowe
___ średnie ogólnokształcące
___ średnie zawodowe
___ wyższe zawodowe (inżynierskie lub licencjackie)
___ wyższe magisterskie.
Jeśli pytanie dopuszcza wybór kilku opcji, należy uprzedzić o tym respondenta
(np.: „Można wybrać kilka odpowiedzi”).
• Pytania ze skalowaniem:
Czy rozumiesz to, co mówi nauczyciel na lekcji?
___ zawsze
___ często
___ czasem tak, a czasem nie
___ rzadko
___ nigdy.
• Pytania ze skalowaniem w wersji Likerta:
Większość nauczycieli szczerze troszczy się o moją przyszłość.
___ zdecydowanie się zgadzam
___ raczej się zgadzam
___ trudno powiedzieć
___ raczej się nie zgadzam
___ zdecydowanie się nie zgadzam.
• Pytania z rangowaniem:
Od czego Pani/Pana zdaniem zależą osiągnięcia szkolne dziecka? (proszę postawić 1
przy najważniejszej przyczynie, 2 przy nieco mniej ważnej i tak dalej, aż do najmniej
ważnej)
___ dobre zdrowie
___ wykształcenie rodziców
___ kompetencje nauczyciela
___ zdolności ucznia
___ zamożność rodziców
___ ambicja ucznia
___ wyposażenie szkoły
___ inna przyczyna (proszę wpisać):____________________________
• Pytania z niejawnymi opcjami:
Ile Pani ma dzieci? _____________
Pozycje otwarte to pytania, które dopuszczają tak różne odpowiedzi, że badacz
nie był w stanie ich przewidzieć i skatalogować. Opcje odpowiadania zastępuje
wtedy miejsce na wpisanie własnej odpowiedzi, np.:
Co Pani/Pana zdaniem najbardziej utrudnia uczniom rozwiązywanie zadań z treścią?
_____________________________________________________________________
Warto zauważyć, że pytanie o liczbę dzieci nie jest otwarte, ponieważ dopuszcza wpisanie tylko jednej liczby całkowitej od 0 do, powiedzmy, 10.
Układanie dobrych pytań nie jest zadaniem łatwym. Poniższe rady nie zapewnią sukcesu, ale pozwolą się ustrzec typowych błędów.
• Buduj pytania krótkie (złożone najwyżej z 20 słów) i proste składniowo. Pytanie: „Co Pani/Pan sądzi o uzależnieniu awansu zawodowego nauczyciela od
wyniku egzaminu, który miałby on zdawać przed specjalną komisją?” jest długie i kręte. Lepiej zapytać: „Czy o awansie nauczyciela powinien decydować
wynik egzaminu zdawanego przed specjalną komisją?”. Unikaj pytań z przeczeniem (zamiast: „Czy nie miała Pani ochoty zmienić zawodu?”, zapytaj:
„Czy kiedykolwiek miała Pani ochotę zmienić zawód?”). Pytania warunkowe
rozpoczynaj od warunku („Gdybyś musiał ograniczyć swoje wydatki, z czego
byś zrezygnował w pierwszej kolejności?”, zamiast: „Z czego byś zrezygnował
w pierwszej kolejności, gdybyś musiał ograniczyć swoje wydatki”).
• Dostosuj słownictwo do słownictwa respondentów. Jeśli ankieta jest przeznaczona dla rodziców, unikaj takich słów, jak motywacja, dysleksja, edukacja ustawiczna itp. Możesz ich natomiast użyć w ankiecie adresowanej do nauczycieli.
• Stawiaj jednoznaczne pytania. Pytanie do matki: „Czy często stosuje Pani kary
fizyczne wobec swojego dziecka?” jest wieloznaczne, ponieważ nie wyjaśnia, co
to jest kara fizyczna, i nie określa, o jakie dziecko chodzi (matka może czasem
dawać klapsa młodszemu dziecku, ale nie starszemu). Także słowo „często”
Metody zbierania danych ilościowych •
•
•
•
•
143
może być rozumiane niejednakowo. W rezultacie zbierzemy nieporównywalne odpowiedzi.
Unikaj podwójnych pytań. Pytanie do nauczyciela: „Czy szkoła powinna dawać
gruntowną wiedzę, która pomoże uczniowi znaleźć dobrą pracę?” składa się
w istocie z dwóch pytań: o wiedzę gruntowną i o wiedzę użyteczną na rynku
pracy. Odpowiedź twierdząca nie pozwala rozstrzygnąć, za czym naprawdę
opowiada się respondent.
Unikaj pytań z niejawną przesłanką. W pytaniu do licealisty: „Czy czujesz, że
szkoła dobrze przygotowała cię do egzaminu na studia?” tkwi przesłanka, że
wybiera się on na studia. Kto się nie wybiera, będzie miał kłopot z odpowiedzią.
W takim przypadku należy najpierw zapytać: „Czy zamierzasz studiować na
wyższej uczelni?”, a potem dodać instrukcję: „Jeśli nie, przejdź do pytania 17”.
W pytaniach z wyborem zadbaj o to, by podane możliwości pokrywały całe
pole odpowiedzi. Dołączenie do pytania „Jaki jest Pani stan cywilny?” tylko
dwóch odpowiedzi: „wolna – zamężna”, pomija inne możliwości, takie jak
wdowa, rozwiedziona czy żyjąca w separacji. Pozycja w kwestionariuszu dla
matek: „Jak Pani nagradza swoje dziecko za dobre stopnie? – chwalę – daję
pieniądze – zabieram do kina” grzeszy podwójnie. Zawiera ukrytą przesłankę
(że matka w ogóle nagradza dziecko za stopnie) i ogranicza odpowiedzi (np.
pomija nagrodę w postaci pozwolenia dziecku na dłuższą zabawę). Najlepiej
układać opcje odpowiadania na podstawie wyników wcześniej przeprowadzonego wywiadu indywidualnego lub grupowego oraz dodawać opcję: „Inne
(proszę opisać)”.
Unikaj pytań mogących wprawić respondenta w zakłopotanie. Należą do nich
pytania o sprawy, które mogłyby go ukazać w złym świetle: popełnione wykroczenia, dochód, wyznanie, szczegóły pożycia małżeńskiego itp. Jeśli cel badań
wymaga zebrania takich informacji, pytania należy umieścić w drugiej połowie kwestionariusza (wtedy szansa, że respondent wyrzuci go do kosza, jest
mniejsza) i sformułować w możliwie najdelikatniejszy sposób. Na przykład
zamiast wprost pytać nauczyciela o wiek, lepiej zapytać o staż pracy. Zamiast
pytać o wysokość dochodu, lepiej prosić, by respondent odniósł się do średniej
krajowej (np. „dużo poniżej średniej – nieco poniżej średniej – na poziomie
średniej – nieco powyżej średniej – dużo powyżej średniej”) albo do swoich
potrzeb (np. „dobry, można nawet coś odłożyć – starcza tylko na zaspokojenie
bieżących potrzeb – nie pozwala związać końca z końcem, często trzeba pożyczać”). Chcąc dowiedzieć się, czy małżonkowie dochowują sobie wierności,
możemy zadać pytanie: „Jeśli pojawiają się między Panią a mężem napięcia,
to czego najczęściej dotyczą?” i wśród opcji odpowiadania umieścić wierność
małżeńską. Zamiast wprost pytać o poziom satysfakcji z życia seksualnego, lepiej zapytać: „Jaką rolę odgrywa w Pani małżeństwie seks? – Dodaje nam sił
i radości życia – Zbliża nas i ułatwia porozumienie w trudnych sprawach – Pozwala na chwilę zapomnieć o kłopotach – Nie ma większego znaczenia”.
Unikaj pytań, które mogą budzić stereotypowe skojarzenia. Pytania do matki:
„Czy dba Pani o zdrowie swojego dziecka?” lub do nauczyciela: „Czy lubi Pan
młodzież?” aktywizują stereotypy dobrej matki i dobrego nauczyciela; dlatego
twierdząca odpowiedź niewiele mówi o rzeczywistym stosunku respondenta
do zagadnienia poruszonego w pytaniu. Możemy obniżyć poziom stereotypowości odpowiedzi, sugerując, że w sprawie, o którą pytamy, zdania są podzielone. Jeśli zapytamy: „Czy Pani/Pana zdaniem kary fizyczne są skutecznym środkiem wychowania dziecka w rodzinie?”, ryzykujemy, że respondent odpowie
tak, jak wypada w jego środowisku. Bezpieczniej jest zapytać: „Jedni rodzice są
zwolennikami, a inni przeciwnikami stosowania kar fizycznych w wychowaniu
dziecka. Jakie jest Pani/Pana zdanie w tej sprawie?” i podać przemyślane opcje
odpowiedzi.
• Pamiętaj, że sposób sformułowania pytania może wpłynąć na rozkład odpowiedzi. Badacz, który w pytaniu podsuwa badanemu pożądaną przez siebie
odpowiedź, postępuje niemoralnie. W pewnym kwestionariuszu dotyczącym
opinii nauczycieli o reformie oświaty przeważały pytania typu: „Czy realne jest
utworzenie od 1 września 1999 r. sieci odpowiednio wyposażonych szkół gimnazjalnych? Tak – Nie – Nie mam zdania”. Na takie pytanie może odpowiedzieć
twierdząco tylko niepoprawny entuzjasta. Nic dziwnego, że cały kwestionariusz
przyniósł pesymistyczny obraz opinii nauczycieli. Czy trafny – można wątpić.
Układ kwestionariusza
Omówiwszy formę poszczególnych pozycji, zatrzymamy się przy cechach całego
kwestionariusza.
• Staraj się, by kwestionariusz był jak najkrótszy. Wielostronicowe kwestionariusze działają zniechęcająco, toteż albo nie są zwracane, albo są wypełniane
niedbale. Gdy masz już pierwszą wersję kwestionariusza, pokaż ją kolegom.
Wspólnie zastanówcie się nad każdym pytaniem, czy jest niezbędne dla osiągnięcia celu badania.
• Ułóż pytania we właściwej kolejności. Zacznij od rozmieszczenia ich w kilku
blokach tematycznych. Każdy blok otwieraj pytaniem najbardziej ogólnym:
C1. Czy kiedykolwiek zastanawiał/a się Pan/i, kto i jak powinien finansować szkolnictwo? Tak – Nie
C2. JEŚLI TAK: Jaka jest Pani/Pana opinia w tej sprawie?
potem przejdź do opinii szczegółowych, np.:
C3. Czy popiera Pan/i istnienie dwóch rodzajów szkół: bezpłatnych (publicznych)
i płatnych (niepublicznych)? Tak – Nie – Nie mam zdania
następnie przejdź do uzasadnienia tych opinii:
C5. Poniżej zgromadziliśmy różne argumenty za przekształcaniem szkół bezpłatnych
w płatne. Proszę postawić plus przy argumentach, z którymi Pan się zgadza, i minus
przy argumentach, z którymi Pan się nie zgadza.
Na końcu zapytaj o stopień pewności tych opinii:
C9. Jak bardzo jest Pan pewny swoich poglądów w tej sprawie? Całkowicie pewny –
Dość pewny – Niezbyt pewny.
Zazwyczaj kwestionariusz otwiera blok najbardziej interesujących pytań, mających przykuć uwagę respondenta. Zaczynanie od bloku danych demograficz-
nych („metryczki”) jest błędne, chyba że badanie prowadzi ankieter i proste
pytania demograficzne dają mu okazję do nawiązania porozumienia z respondentem.
• Naturalnym odruchem respondenta jest pytanie, kto go indaguje i po co. Dlatego w nagłówku ankiety umieść nazwę organizacji, która prowadzi badania
(np. „Uniwersytet Warmińsko-Mazurski”), a właściwe pytania poprzedź kilkuzdaniowym wyjaśnieniem celu badania:
Prowadzimy badania nad przyczynami złego samopoczucia u dzieci rozpoczynających
naukę. Wyniki tych badań pozwolą doradzić władzom oświatowym, co zmienić w praktyce szkolnej. Ponieważ dziecko Państwa zostało wylosowane do badań, prosimy o kilka
informacji na jego temat. Gwarantujemy pełną poufność odpowiedzi.
• Upewnij się, że potencjalni respondenci wystarczająco dobrze orientują się
w zagadnieniach poruszanych w ankiecie. Pytając rodziców o opinie w sprawie
szczegółowych rozwiązań proponowanych w reformie oświaty, ryzykujemy, że
zbierzemy przypadkowe odpowiedzi, ponieważ większość rodziców niewiele
wie o tych sprawach. W formułowaniu pytań z wyborem, które odwołują się do
wiedzy lub wcześniejszych przemyśleń respondenta, trzeba zawsze dodać możliwość: „Nie wiem”, „Nie mam zdania” lub „Trudno powiedzieć”, by nie zmuszać
badanego do wyboru którejś ze stanowczych odpowiedzi.
Gdy kwestionariusz rozsyłamy pocztą, troszczymy się o stopę zwrotów. Jest
ona tym niższa, im kwestionariusz dłuższy7, bardziej siermiężny typograficznie
i skomplikowany w wypełnianiu. Stopę zwrotów podwyższa list przewodni. Powinien być napisany na papierze firmowym i zawierać następujące elementy:
• Data.
• Zwrot grzecznościowy:
Szanowna Pani, Szanowny Panie,
• Określenie celu badania:
Uniwersytet Warmińsko-Mazurski w porozumieniu z Ministerstwem Edukacji Narodowej zbiera opinie młodych nauczycieli o tym, jak uczelnia, w której studiowali, przygotowała ich do zawodu nauczycielskiego. Mamy nadzieję, że wyniki tego badania pomogą ulepszyć programy kształcenia przyszłych nauczycieli.
• Wyjaśnienie, dlaczego zwracamy się do danego respondenta:
Nazwisko Pani/Pana zostało wylosowane z listy nauczycieli pracujących w zawodzie od
3 do 5 lat.
• Prośba o współpracę:
Badanie przyniesie wiarygodne wyniki tylko wtedy, gdy wszystkie kwestionariusze zostaną wypełnione i odesłane. Wypełnienie kwestionariusza zajmuje nie więcej niż 20
min, a może zaważyć na powodzeniu całego badania.
• Termin odesłania ankiety:
Bardzo proszę o włożenie wypełnionego kwestionariusza do załączonej koperty i wrzucenie jej do skrzynki pocztowej w terminie do 20 lutego 2000 r.
Gdy kwestionariusza nie daje się skrócić, można użyć techniki, którą Lord (1962)
nazywa próbkowaniem macierzowym. Polega ona na stawianiu losowo dobranym respondentom pytań będących losowym podzbiorem całego kwestionariusza.
7
• Zapewnienie o dyskrecji:
Ankieta jest anonimowa. Na kopercie zwrotnej znajduje się numer identyfikacyjny,
dzięki któremu będziemy mogli zaznaczyć nazwisko Pani/Pana na liście adresowej. Zaraz potem koperta zostanie zniszczona. Nikt, łącznie z nami, nie będzie mógł stwierdzić,
czyje odpowiedzi czyta.
• Obietnica udostępnienia wyników:
Jeśli interesują Panią/Pana zbiorcze wyniki tego badania, proszę zakreślić kwadracik na
odwrotnej stronie koperty. Wyniki prześlemy pocztą w ciągu trzech miesięcy.
• Wyrazy wdzięczności:
Będziemy bardzo wdzięczni za szczere, staranne i terminowe wypełnienie kwestionariusza.
• Podpis:
Z wyrazami szacunku – Kierownik projektu badawczego, dr Jan Kowalski.
Oprócz listu przewodniego do kwestionariusza powinna być dołączona zaadresowana koperta zwrotna. Z doświadczeń amerykańskich wynika, że lepiej działa
naklejony znaczek pocztowy niż nadruk zryczałtowanej opłaty i że dołączenie do
każdego kwestionariusza niewielkiej nagrody pieniężnej (półdolarówki) zwiększa
stopę zwrotów nawet o 20%. Inna możliwość zachęcenia respondenta to zapowiedź udziału w losowaniu większych nagród pieniężnych lub rzeczowych.
Jeśli kwestionariusz nie został zwrócony w ciągu 10 dni od dnia nadania, dobrze jest wysłać do respondenta kartkę pocztową z uprzejmym przypomnieniem,
że termin minął. Gdy i to nie skutkuje, można jeszcze raz wysłać respondentowi
kwestionariusz wraz z listem, który podkreśla wagę badań i konieczność uzyskania odpowiedzi od każdego respondenta. W obliczu ciągle niskiej stopy zwrotów
badacz może wysłać trzeci list, tym razem pocztą poleconą, a w nim kartkę pocztową, na której respondent ma zaznaczyć, że nie chce brać udziału w badaniu i nie
zamierza odsyłać kwestionariusza. Co robić, gdy mimo to stopa zwrotów jest poniżej 75%? By ratować swoje badanie, badacz może postąpić tak:
• Sprawdzić jak dobrze osoby, które zwróciły ankietę, reprezentują badaną populację pod względem wieku, płci, wykształcenia, statusu socjoekonomicznego, miejsca zamieszkania itp. Jeśli nie stwierdzi istotnych odchyleń, może
uogólniać wyniki na populację (np. napisać: „Większość polskich nauczycieli
nie czuje się przygotowana do samodzielnego budowania programu nauczania
swojego przedmiotu”). W przeciwnym razie musi ograniczyć swoje wnioski
jedynie do zbadanej grupy („Większość respondentów nie czuje się przygotowana do samodzielnego budowania programu nauczania swojego przedmiotu”). Wykrycie cech, które łączą osoby niezwracające kwestionariusza, może
podsunąć badaczowi interesujące hipotezy do przyszłych badań.
• Sprawdzić, czy grupa respondentów, którzy w terminie odesłali ankietę, udziela podobnych odpowiedzi jak grupa respondentów, którzy odesłali ankietę po
terminie (np. pod wpływem ponaglenia). Ta analiza opiera się na założeniu, że
druga z tych grup jest podobna do trzeciej grupy, tj. do tych, którzy w ogóle nie
odesłali ankiety. Jeśli badacz nie stwierdzi istotnych różnic między odpowiedziami dwóch pierwszych grup, może przyjąć, że nie ma ich też między pierw-
szą a trzecią, co znaczy, że pula odpowiedzi, jakimi dysponuje, wystarczająco
dobrze reprezentuje odpowiedzi w interesującej go populacji.
• Przeprowadzić wywiad na podstawie kwestionariusza ankiety z małą, losową
próbką osób, które nie odesłały ankiety. Jeśli tak uzyskane odpowiedzi nie różnią się od pozostałych, badacz może założyć, że osoby, które udzieliły odpowiedzi, stanowią nieobciążoną próbkę wszystkich osób, do których wysłano
ankietę.
Trafność kwestionariusza
Ankieta jest metodą zbierania danych ilościowych, a nie jakościowych: nadaje się
do poznawania nie tyle nowych wariantów opinii, ile rozkładu znanych już wariantów. W doniesieniu z badania tą metodą królują liczby:
Większość nauczycieli (64%) zgadza się, że projekt reformy oświaty ma błędy i trzeba
się wstrzymać z jego realizacją. Stanowiska skrajne popiera 10% nauczycieli: 5% uważa
projekt za dobry, a 5% za zły...
Jakie błędy widzi w projekcie każdy z 95% badanych, jak uzasadnia konieczność
wstrzymania reformy każdy z 83% badanych, jakie doświadczenia za nimi stoją –
tego wszystkiego kwestionariusz nam nie powie.
Badacze, którym przeszkadza to ograniczenie, mnożą w kwestionariuszu pytania otwarte. Trudno to pochwalić: danych jakościowych to nie dostarczy, a ilościowe psuje. Odpowiedzi na pytania otwarte są zawsze lakoniczne, bo muszą się
zmieścić w kilku wierszach. O rozbudowanych wnioskowaniach czy opisach nie
może być mowy. Gdy respondent sam wypełnia kwestionariusz, stara się wyrazić
swoją opinię jak najkrócej. To samo robi ankieter: nawet rozwiniętą wypowiedź
sprowadza do dwóch lub trzech prostych zdań.
Tak zredukowane odpowiedzi podlegają dalszej redukcji w fazie kodowania kwestionariusza. Kodowanie pytań otwartych wymaga, by badacz najpierw zapoznał się
ze wszystkimi odpowiedziami i podzielił je na niewielką liczbę kategorii. Potem musi
powtórnie przeczytać każdą odpowiedź i przypisać jej symbol kategorii. Im dłuższa,
bardziej złożona lub niejasna jest odpowiedź, tym większa szansa, że zostanie zakodowana niezgodnie z intencją respondenta. Trafność tak zebranych danych jest
zatem niewielka, znacznie zwiększa się natomiast czasochłonność analizy wyników.
Pozycje zamknięte nie wymagają kodowania, lecz jedynie przeniesienia numeru zaznaczonej opcji na arkusz wyników. Coraz częściej używa się do tego celu
czytników komputerowych, co skraca czas i eliminuje błędy. Jakkolwiek schematyczne byłyby dostarczone opcje odpowiadania, mamy pewność, że przetwarzamy
dane pochodzące bezpośrednio od respondenta. Nie gwarantuje to, rzecz jasna,
prawomocności wniosków, które wyprowadzamy z wyników badania. Ta prawomocność jest kwestią trafności kwestionariusza.
Mówimy, że kwestionariusz jest trafny, jeśli dostarcza odpowiedzi, które pokrywają się z rzeczywistymi opiniami badanych. Nietrafność wynika przynajmniej
z trzech źródeł:
Pierwsze – to pytania, które wydają się respondentowi niezrozumiałe albo niejednoznaczne, lub wadliwe opcje odpowiadania (nierozłączne, niewyczerpujące).
Drugie – to pytania, które odwołują się do wiedzy, zainteresowań lub doświadczeń
niedostępnych respondentowi. Opcje „Nie wiem” lub „Nie mam zdania” często nie
wystarczają, by powstrzymać od odpowiadania respondentów, którzy słabo orientują
się w danej sprawie lub nie mają ukształtowanej opinii. Jak bardzo błędne mogą być
wnioski z ankiety, przekonuje badanie Nalaskowskiego (1999). Uczestnikom kursu
dla kierowników placówek oświatowych rozdał on ankietę z listą tytułów czasopism
o tematyce edukacyjnej. Przy każdym tytule znajdowała się skala: „Czytam systematycznie – Czytam od czasu do czasu – Czytam rzadko – Nie czytam w ogóle”. Pewne
czasopisma okazały się bardzo popularne, inne mniej, mimo że żadne nie istniało!
Wśród prawie stu osób znalazły się tylko dwie sprawiedliwe, które odpowiedziały, że
nie czytują żadnego. Kto może zagwarantować, że podobne badania, tyle że dotyczące istniejących czasopism, dają trafny obraz czytelniczych preferencji?
Trzecie źródło nietrafności to pytania, które budzą poczucie zagrożenia: respondent nie udziela szczerej odpowiedzi ze strachu przed konsekwencjami. Jeśli
nie ma dowodów, że badanych zadowoliła gwarancja anonimowości, wyniki takiego badania są bezwartościowe. Ale nawet gdy są takie dowody, wyniki mogą być
wątpliwe, jeśli pytania pobudzają świadomość interesu grupowego. Jeśli za pomocą ankiety chcemy poznać na przykład obiektywne warunki pracy pewnej grupy
zawodowej, musimy się liczyć ze skłonnością do przeceniania obciążeń i zaniżania dochodów, ponieważ przeczerniony obraz położenia tej grupy daje jej lepszą
pozycję w negocjacjach z pracodawcą. Respondenci mogą też ukrywać naganne
praktyki we własnej grupie zawodowej, etnicznej, wyznaniowej itp., tak by nie poniosła ona uszczerbku na prestiżu, jakim się cieszy w społeczeństwie. Rywalizacja
grup społecznych o udział we władzy, prestiżu i dochodach wyznacza granice trafności, których nie może przekroczyć nawet najlepiej zbudowana ankieta.
W niektórych podręcznikach wymaga się także, by kwestionariusz był rzetelny, to znaczy dostarczał odpowiedzi wewnętrznie spójnych. Spójność odpowiedzi
radzi się określać za pomocą pytań sprawdzających, tzn. par pytań o podobnej treści, lecz odmiennej formie. Jeśli wielu badanych udziela na nie przeciwstawnych
odpowiedzi, kwestionariusz uznaje się za nierzetelny.
Wymóg ten trzeba uznać za wątpliwy, ponieważ opinie badanych wcale nie
muszą być spójne. W pewnym badaniu opinii nauczycieli o projekcie reformy
oświaty okazało się, że większość (50–90%) popiera poszczególne zmiany, ale tylko 17% uznaje, że projekt powinien być wprowadzony w życie. Zamiast oskarżać
kwestionariusz o nierzetelność, lepiej uznać, że mamy tu do czynienia z interesującym zjawiskiem społecznym, które domaga się wyjaśnienia. Być może przy
ogólnej ocenie projektu doszły do głosu inne czynniki: brak zaufania do kierownictwa resortu oświaty, przewidywanie niepożądanych skutków ubocznych (np.
bezrobocia wśród nauczycieli) itp.
Pomiar zmiennych nieobserwowalnych
Wkraczając na ten zdradliwy teren, ustalmy najpierw nazewnictwo. Kto mówi
o mierzeniu zmiennych nieobserwowalnych, dokonuje skrótu myślowego. W ścisłym sensie zmiennej nieobserwowalnej (konstruktu psychologicznego) nie
można zmierzyć, można ją tylko oszacować. W tym celu trzeba znaleźć pewne
zmienne obserwowalne X1, X2, ..., Xn i wykazać, że pewna ich funkcja (najczęściej
suma lub średnia) jest dobrym estymatorem zmiennej nieobserwowalnej θ, czyli
że T(X1, X2, ..., Xn) → θ. Zbiór okazji pozwalających określić wartości zmiennych
X1, X2, ..., Xn w konkretnym przypadku wraz z funkcją T nazywa się narzędziem
pomiaru zmiennej nieobserwowalnej.
W nazewnictwie wprowadzonym przez Nowaka (1970) estymator T(X1, X2, ...,
Xn) nazywa się wskaźnikiem inferencyjnym. Możemy zatem powiedzieć, że wynik
w teście inteligencji jest wskaźnikiem inteligencji, wynik w skali autorytaryzmu –
wskaźnikiem autorytaryzmu itd.
Taki język nie jest wyrazem pedanterii, lecz ostrożności, która zawsze powinna
cechować badacza. Wszelkie mierzenie jest zagrożone przez błędy. Nawet w najprostszej obserwacji badacz może przeoczyć zdarzenie lub źle je zarejestrować.
Takie błędy można wykryć, wprowadziwszy dodatkowych obserwatorów. Gdy
jednak chcemy poznać wartość zmiennej nieobserwowalnej, mnożenie obserwatorów w niczym nie pomoże. Zawsze bowiem pozostaje możliwość, że wybrany
przez nas wskaźnik nie wskazuje konstruktu, który ma wskazywać, lub jest obarczony tak dużym błędem, że jego wskazania są bezwartościowe. Pierwszą możliwość rozważa się przy badaniu trafności pomiaru, drugą przy badaniu jego rzetelności. Zajmiemy się tymi pojęciami w dalszej części tego rozdziału. Tu zauważmy
tylko, że skoro szacowaniu zmiennej nieobserwowalnej towarzyszą tak poważne
wątpliwości (i – dodajmy – realne niebezpieczeństwa, gdy tych szacunków używa
się do podejmowania decyzji o ludzkich losach), nie dość podkreślania, że dzieli
je przepaść od zwykłego mierzenia zmiennych obserwowalnych. Nie dość podkreślania i dlatego, że w badaniach i praktyce oświatowej nie brak niepoprawnych
optymistów, którzy głoszą, że pomiar wiedzy ucznia jest (lub wkrótce się stanie)
tak jasny i ścisły, jak pomiar jego wzrostu.
Przechodząc do omówienia najważniejszych narzędzi pomiaru wewnętrznych
zmiennych nieobserwowalnych, podzielimy je ze względu na to, czy mierzą kompetencję (co ktoś potrafi), czy preferencję (co ktoś woli, do czego ma skłonność).
Mierzenie kompetencji odwołuje się do analizy wytworów pracy osoby badanej
w sytuacji zadaniowej stworzonej przez badacza. Sytuację tę określają: instrukcja, zadania i wzory poprawnego wykonania. Dokładnie więc wiadomo, gdzie
siedzi badany, a gdzie badacz, co mówi badacz do badanego, kiedy może dać mu
wskazówkę, a kiedy nie, i jak długo trwa badanie. Wiadomo, jakie zadania badany
wykonuje i jak oceniane jest to wykonanie. Badany pracuje w warunkach standardowych, dzięki czemu osiągnięty przezeń wynik jest porównywalny z wynikiem
innego badanego, a jeśli wcześniej przeprowadzono standaryzację narzędzia – także z wynikami populacji, do której należy.
Ujednoliconą procedurę pobierania próbki określonego zachowania się i przyporządkowywania tej próbce liczby (wyniku surowego) nazywa się – zgodnie
z pierwotnym znaczeniem tego słowa8 – testem (test to po angielsku tyle, co próba
Pojęcie testu psychologicznego było zrazu (w końcu XIX w.) ograniczone do narzędzi
mierzących zdolności umysłowe.
8
czy sprawdzian). Wprawdzie w psychologii testami nazywa się też inne narzędzia,
np. tzw. testy projekcyjne (test plam atramentowych Rorschacha, test apercepcji
tematycznej Murraya, testy zdań niedokończonych i wiele innych), ale od razu
widać, że nie spełniają one podstawowego kryterium próby: nie składają się z zamkniętych zadań, lecz z bodźców (plam, obrazków, trzonów zdaniowych), na które można reagować na wiele sposobów. Nie mierzą one zatem tego, co człowiek
potrafi zrobić, lecz to, do czego jest skłonny, i dlatego należą do rodziny skal psychologicznych, o których dalej.
Mierzenie preferencji odwołuje się do analizowania relacji (wypowiedzi sprawozdawczych) wytworzonych przez osobę badaną na żądanie badacza. Na jakiej
podstawie z jawnych relacji wolno wnioskować o nieobserwowalnej preferencji
– to sprawa kontrowersyjna. Jedni zakładają, że człowiek jest świadomy własnych
stanów psychicznych i potrafi wydawać o nich sądy. Zgodnie z tym stanowiskiem
skale psychologiczne należałyby do technik introspekcyjnych. Wypełnienie skali
byłoby równoważne wywiadowi, w tym sensie że badany relacjonowałby to, co
wie o samym sobie, a diagnostyczność relacji byłaby sprawą jej prawdziwości, tj.
zgodności z wynikami samoobserwacji. Inni, zwłaszcza Eysenck (1965), zaliczają
skale do metod behawioralnych, takich jak testy. Odpowiedź traktuje się tu jak
reakcję na bodziec (pozycję), a jej diagnostyczność wiąże nie tyle ze zgodnością
z samowiedzą badanego, ile z tym, że ta reakcja obiektywnie różnicuje populację
pod względem mierzonej zmiennej. Na przykład twierdzącą odpowiedź na pytanie: „Czy cierpisz na bezsenność?” uważa się za objaw neurotyczności po prostu
dlatego, że w populacji osób skądinąd uznanych za neurotyków występuje ona
znacznie częściej niż w populacji osób nieneurotycznych.
Nie próbując rozstrzygnąć tego sporu, zauważmy tylko, że główną różnicę
między skalą a wywiadem stanowi stopień standaryzacji warunków, w których
badany wytwarza swój tekst. W przypadku skali zarówno same pytania, jak i ich
kolejność są z góry określone, a odpowiedzi ograniczone do prostego „tak”, „raczej
tak” itd. Dąży się do tego, by odpowiedzi były udzielane bez głębszego namysłu:
często zaleca to wprost instrukcja, a wymusza duża liczba pytań. Dąży się też, by
badani nie dociekali, co jest przedmiotem pomiaru: służą temu specjalne pytania
dezorientujące. Wskutek tego wynik pomiaru nie ma bezpośredniego sensu dla
samego badanego, a skoro tak, to nie może być traktowany jako rekonstrukcja jego
samowiedzy. Wynik ten wykracza poza to, co człowiek wie o samym sobie, a jego
prawomocność opiera się na procedurze budowania skali, nie zaś na potwierdzeniu ze strony badanego.
Z drugiej strony, trudno uznać zbiór odpowiedzi za próbkę zachowania się
badanego w realnych sytuacjach. Behawioralny pomiar neurotyzmu wymagałby postawienia badanego w sytuacji zagrożenia lub wyzwania i obserwowania,
jak się z nią zmaga. Stanowisko Eysencka sugeruje, że to, co ludzie czują i robią,
oraz to, co mówią o swoich uczuciach i czynach, mieści się w tej samej klasie
zjawisk, z czym trudno się zgodzić. Bezpieczniej uznać, że zachowania i relacje
mają wspólne źródło (psychologiczny „generator”). Wskutek tej wspólnoty pochodzenia odpowiedzi na pozycje skali są czymś więcej niż dowolną relacją o
fikcyjnym podmiocie, ale czymś mniej niż fotografią minionego zachowania się
realnego podmiotu.
Testy
Testy to narzędzia pomiaru kompetencji motorycznych, percepcyjnych i umysłowych. Wynikiem testowania jest zbiór poprawnych lub niepoprawnych rozwiązań
zadań testowych. Dzięki specjalnej procedurze doboru zadań zbiór ten można
traktować jako próbkę jawnych dokonań badanego, z której wnioskuje się o jego
niejawnej kompetencji.
Testy ogólnych zdolności i umiejętności. Prototypem testu jest indywidualny test inteligencji, jednowymiarowy (np. Stanfordzka skala inteligencji Bineta)
lub wielowymiarowy (np. Skala inteligencji Wechslera). W nieco niższej cenie są
grupowe testy inteligencji (np. polski APIS) oraz testy zdolności umysłowych (np.
Test matryc Ravena). Są też indywidualne i grupowe testy szczególnych zdolności,
np. matematycznych, plastycznych czy muzycznych. O testach wyczerpująco piszą
Anastasi i Urbina (1999). Przegląd testów używanych w szkolnictwie amerykańskim dają Eby i Smutny (1998, rozdz. 4).
W badaniach oświatowych często mierzy się ogólne i szczególne zdolności
uczniów. Trzeba jednak pamiętać, że:
• Taki pomiar wymaga kwalifikacji, które posiada jedynie psycholog. Jeśli chcemy mieć rzetelne wyniki WAIS-R czy APIS, powinniśmy zatrudnić praktykującego psychologa.
• Proste w użyciu grupowe testy zdolności umysłowych (np. Test matryc Ravena) nie przez wszystkich są uważane za testy inteligencji.
• Wynik testowania zdolności oblicza się na podstawie norm ustalonych w badaniu standaryzacyjnym na próbce reprezentującej określoną populację. Wobec osób niepochodzących z tej populacji normy nie mogą być stosowane. Jest
więc błędem posługiwać się w Polsce testem, który został wystandaryzowany
na przykład na próbce dzieci amerykańskich.
Testy osiągnięć szkolnych. Testy osiągnięć dzieli się na standaryzowane i niestandaryzowane. W pierwszych rozkład wyników w populacji jest znany, w drugich,
do których należą narzędzia wytwarzane przez samych nauczycieli – nie. Różnica
między testami zdolności a standaryzowanymi testami osiągnięć nie jest ostra, ale
uchwytna. Pierwsze mierzą spontaniczne, czyli niećwiczone przejawy kompetencji.
Dlatego układa się je z zadań możliwie nowych dla wszystkich badanych. Jeśli ten
warunek nie jest spełniony w odniesieniu do pewnej kategorii osób, test uważa się
za stronniczy. Testy osiągnięć szkolnych mierzą wyniki zorganizowanego uczenia
się, odnoszą się więc do celów kształcenia. Ich związek z programem kształcenia
bywa różny. Najsilniej związane z programem są testy koncentrujące się na wiadomościach, słabiej – testy umiejętności szkolnych (basic skills), najsłabiej – testy
szczególnych zdolności szkolnych (academic aptitudes), czyli możliwości uczenia
się szczególnych umiejętności, np. matematycznych czy muzycznych.
W Polsce za sprawą Niemierki (1990) wielkie znaczenie przykłada się do podziału testów osiągnięć wedle tego, do czego odnosi się wynik testowania: do roz-
kładu wyników w populacji (norm-referenced) czy do ustalonego z góry kryterium
dydaktycznego (criterion-referenced). Podział ten ma charakter raczej ideologiczny niż naukowy (testy pierwszego rodzaju są rzekomo złe, a drugiego – dobre).
Łatwo jednak zauważyć, że nie ma zasadniczej różnicy między rozkładem wyników a kryterium, ponieważ kryterium (wzór wykonania) nigdy nie jest ustalane
niezależnie od rozkładu. Nie ma też zasadniczej różnicy między dwiema interpretacjami wyniku testowania: „Jan opanował 40% wymagań programowych” i „Jan
uzyskał wynik lepszy niż 30% jego rówieśników”. W obu przypadkach wynik ma
charakter ilościowy: nie mówi, co Jan potrafi, a czego nie, lecz ile potrafi.
Jedyna różnica między oboma rodzajami testów tkwi w stosunku do programu kształcenia. Test odniesiony do kryterium jest silniej związany z materiałem
nauczania, ponieważ składa się z tych samych lub analogicznych zadań jak te, nad
którymi uczniowie biedzili się w klasie. Mówi więc, w jakim stopniu uczeń opanował to, czego go uczono, ile wziął od nauczyciela. Test odniesiony do rozkładu
mówi natomiast, ile uczeń wie i potrafi, niezależnie od tego, co jest źródłem tej
wiedzy: szkoła, dom rodzinny, wrodzone zdolności itd. Uwolnienie programów
kształcenia spod kontroli resortu oświaty ogranicza zastosowanie testów odniesionych do kryterium do wewnątrzszkolnego oceniania osiągnięć. Testy zewnętrzne
(okręgowe) muszą być odniesione do rozkładu, ponieważ nie sposób uzgodnić
jednego kryterium dla tysięcy szkół.
Na koniec warto zauważyć, że osiągnięcia szkolne próbuje się też poznawać
i oceniać za pomocą metod jakościowych. Należy do nich angielski rejestr osiągnięć (por. rozdz. 4), często wraz z portfolio (teczką najlepszych prac ucznia).
W Polsce to podejście niebezpiecznie degeneruje się w „ocenę opisową”, która zastępuje tradycyjny stopień stereotypową frazą.
Skale psychologiczne
Termin „skala” jest dwuznaczny. Skalą nazywa się cały przyrząd pomiarowy (niegdyś skalą nazywano zwykłą wagę), ale też uporządkowane opcje odpowiadania
(np. nigdy – rzadko – często – zawsze). Wskutek tej dwuznaczności nie zawsze
wiadomo, co ma na myśli badacz, gdy mówi: „Stworzyłem skalę poczucia szczęścia” – czy zbudował długi kwestionariusz o ustalonej rzetelności i trafności, czy
tylko wymyślił jedno pytanie: „Jak czułeś się w ciągu ostatniego tygodnia?” i dołączył skalę odpowiedzi: „bardzo nieszczęśliwy – nieszczęśliwy – ani szczęśliwy, ani
nieszczęśliwy – szczęśliwy – bardzo szczęśliwy”. Ten drugi przypadek będziemy
nazywać skalą szacunkową, rezerwując nazwę „skala psychologiczna” dla narzędzi, które mierzą zmienne nieobserwowalne na podstawie odpowiedzi badanego
na szereg pozycji.
Inwentarze osobowości. Wśród skal królują inwentarze osobowości, a wśród
inwentarzy Minnesocki wielowymiarowy inwentarz osobowości (MMPI). Jest to
zbiór 550 pozycji: stwierdzeń (np. „Gdy jestem sam, słyszę dziwne głosy”) i opcji odpowiadania („prawda – fałsz – nie potrafię powiedzieć”), standaryzowany
w populacjach USA i wielu innych krajów (ale nie w Polsce). Zbiór pozycji dzieli
się na 12 skal (m.in. hipochondrii, depresji, histerii) i sporą resztę bez przydziału.
Wycinając rozmaite podzbiory, stworzono wiele skal pojedynczych cech osobowości (np. Skala objawów lęku Taylor).
Popularnym inwentarzem jest także Szesnastoczynnikowy kwestionariusz
osobowości Cattella, adaptowany w Polsce przez M. Nowakowską. W badaniach
oświatowych najczęściej stosuje się inwentarze Eysencka (zwłaszcza MPI i PEN).
W te i inne inwentarze doskonale wprowadza Sanocki (1976).
Skale postaw. Postawą nazywa się trwałą skłonność do aprobowania lub dezaprobowania określonego przedmiotu. Przedmiotem postawy może być dowolny
element świata społecznego: człowiek, grupa, organizacja, instytucja, a także ich
stany i wytwory. W postawie zawiera się ocena i afekt – aprobować obiekt znaczy
zarazem uważać go za dobry (słuszny, pożyteczny, piękny itd.) i lubić go. Dawniej
sądzono, że postawa kontroluje też sposób postępowania wobec przedmiotu w realnych sytuacjach, ale rzecz okazała się bardziej złożona.
Trzeba pamiętać, że termin „postawa” ma sens tylko z przydawką: „postawa
wobec uczenia się matematyki”, „postawa wobec religii”. Kto rozprawia o negatywnych albo nihilistycznych postawach współczesnej młodzieży, nie używa terminu
w naukowym sensie.
Zmierzyć czyjąś postawę wobec czegoś to tyle, co przekształcić zbiór odpowiedzi badanego na pozycje skali w pojedynczy wskaźnik aprobaty dla tego czegoś.
Formuła tego przekształcenia jest integralną częścią każdej skali postawy. Tworzy
się ją w fazie konstrukcji narzędzia.
Historycznie pierwsze skalowanie pochodzi od L. L. Thurstone’a. W tej metodzie najpierw zbiera się jak najwięcej stwierdzeń tak związanych z przedmiotem
postawy, że ich uznanie lub odrzucenie świadczy o skłonności do aprobowania lub
dezaprobowania przedmiotu. Stwierdzenia te daje się następnie dużej liczbie osób
(„sędziów”) z prośbą, by je posortowały na 11 grup w zależności od tego, jak silną
aprobatę lub dezaprobatę przedmiotu wyraża uznanie każdego z nich. Dla każdego stwierdzenia oblicza się jego „wartość skalową” (medianę szacunków sędziów)
oraz miarę niejednoznaczności Q, czyli wielkość zróżnicowania szacunków poszczególnych sędziów (połowę różnicy między trzecim a pierwszym kwartylem
rozkładu szacunków). Do skali włącza się stwierdzenia o najmniejszych Q, ale
tak, by uwzględnić wszystkie wartości skalowe. Pozycje, czyli stwierdzenia wraz
z dwiema opcjami odpowiadania („zgadzam się – nie zgadzam się”), drukuje się
w porządku losowym. Formuła przekształcenia odpowiedzi na wskaźnik postawy
jest prosta: trzeba wziąć średnią lub medianę z wartości skalowych wybranych
pozycji. Można też obliczyć, jak bardzo zróżnicowane są te wartości, i uznać wynik
za wskaźnik ukształtowania postawy.
Częściej stosuje się skalowanie metodą R. Likerta. Początek jest podobny: trzeba zebrać dużą pulę stwierdzeń. Dodając do każdego stwierdzenia 5 opcji odpowiadania (od „zdecydowanie się zgadzam” do „zdecydowanie się nie zgadzam”), układamy z nich pierwszą wersję kwestionariusza i dajemy do wypełnienia dużej grupie
badanych. Przydajemy opcjom arbitralne wagi od 1 do 5, znajdujemy rozkład odpowiedzi na każdą pozycję, wynik jako ważoną sumę odpowiedzi oraz wkład pozycji do wyniku wyrażony współczynnikiem korelacji. Pozycje o silnie skośnych
rozkładach lub słabo skorelowane z wynikiem zostają odrzucone. Nowa wersja
kwestionariusza powinna być sprawdzona w osobnym badaniu pilotażowym.
Postawa wydaje się „płytszym” pojęciem niż cecha osobowości, toteż często
próbuje się mierzyć postawy za pomocą ankiety. To mniemanie jest fałszywe: konstruowanie skali postawy nie różni się od konstruowania skali cechy osobowości,
zresztą pewne cechy osobowości (np. autorytaryzm) definiuje się jako zespół postaw. Błędne jest zatem używanie ankiety do pomiaru postawy. Trzeba pamiętać,
że ankieta udostępnia nam zbiór opinii badanego, których nie można dodawać
w obrębie jednego kwestionariusza. Powiedzmy, że zadaliśmy trzy pytania o opinię
w sprawie reformy oświaty. Jest jasne, że twierdząca odpowiedź na trzy pytania nie
musi oznaczać silniejszej aprobaty dla reformy niż twierdząca odpowiedź na dwa
– to dopiero trzeba by udowodnić. W odniesieniu do skali postawy taki dowód
stanowi procedura jej konstruowania. Więcej o postawach i ich mierzeniu znajdzie czytelnik u Marody (1976).
Dyferencjał semantyczny. Dyferencjał semantyczny Osgooda też mierzy postawy wobec obiektu, ale w bardziej złożonej przestrzeni znaczeniowej. Zwykle ma
ona trzy wymiary: dobry–zły, silny–słaby i czynny–bierny. Narzędzie składa się
z pewnej liczby dwubiegunowych, najczęściej siedmiostopniowych skal szacunkowych. Oto fragment 24-pozycyjnego dyferencjału przeznaczonego do mierzenia
afektywnych znaczeń („konotacji”), jakie badany wiąże z określonymi osobami
(np. ze swoim wychowawcą):
stanowczy
przeciętny
gładki
ustępliwy
wybitny
szorstki
Narzędzie to daje 4 wskaźniki „współrzędnych” osoby będącej przedmiotem
opisu w przestrzeni o 4 wymiarach: dobry–zły, silny–słaby, czynny–bierny, atrakcyjny–nieatrakcyjny. Należy zwrócić uwagę, że dyferencjał nie jest dowolnym
zbiorem dwubiegunowych skal szacunkowych, lecz narzędziem, które, podobnie
jak inne skale psychologiczne, wymaga uprzedniego wyskalowania. Konstruowanie dyferencjału przebiega w kilku krokach.
Najpierw tworzy się wstępną pulę przymiotników luźno związanych z przedmiotem. Można je wybrać ze słownika lub z istniejących narzędzi. Można też
wyłonić w badaniu pilotażowym, prosząc badanych, by podali wiele określeń
przedmiotu interesującej nas postawy (w naszym przykładzie: ludzi). Dodanie do
przymiotników ich antonimów przekształca je w pozycje pierwszej wersji narzędzia. W badaniu pilotażowym pewna liczba osób (co najmniej pięciokrotnie większa niż liczba pozycji) stosuje narzędzie do oceny kilkunastu obiektów (w naszym
przykładzie było to 15 ról, np. przyjaciel, egzaminator, ksiądz). Trójwymiarową
macierz wyników (skale × role × badani) redukuje się do dwuwymiarowej (skale
× role) i poddaje analizie głównych składowych z rotacją ortogonalną. Wynik tej
analizy pokazuje, ile wymiarów znaczeniowych ujmuje narzędzie (nie zawsze pojawia się trójca Osgooda) i jakie pozycje należą do każdego wymiaru. Usuwając
pozycje zbędne lub wieloznaczne, otrzymujemy ostateczną postać dyferencjału:
zbiór skal i metodę przekształcania odpowiedzi we wskaźniki położenia ocenianego obiektu na wyodrębnionych wymiarach.
Reptest. W typowej wersji reptest służy do usytuowania zbioru przedmiotów
w przestrzeni, której wymiary określa sam badany. Załóżmy, że interesują nas postawy ucznia wobec kilkunastu konkretnych osób z jego grupy. Najpierw przedstawiamy badanemu troje tych osób z prośbą, by znalazł taką cechę, którą dwie
z nich mają, a trzecia nie. Inne trójki prowadzą do wyłonienia innych cech. Cechy
uzupełnione przez samego badanego antonimami tworzą skale szacunkowe, na
których badany ocenia wszystkie osoby. Dane można analizować pod kątem skal
(na ilu i jakich wymiarach badany sytuuje kolegów?) lub pod kątem osób (czym
różni się postawa wobec Jana od postawy wobec Piotra?). Metoda nie pozwala
porównywać postaw różnych badanych wobec tego samego przedmiotu, więc ma
zastosowanie głównie w badaniach indywidualizujących.
Metody epizodów. Metody epizodów (vignette) sytuują się między skalami
psychologicznymi a metodami projekcyjnymi. Badanemu przedstawia się pewien
epizod w formie słownego opisu lub ilustracji graficznej, pozbawiony wieloznaczności czy niejasności. Zadaniem badanego jest odpowiadanie na standardowe
pytania, a nie snucie własnej narracji. Odpowiedzi są przekształcane w wynik według wcześniej opracowanej formuły.
Narzędzia tego rodzaju są często stosowane w psychologii rozwojowej do badania pojęć dziecka. Oto fragment techniki służącej poznawaniu sądów moralnych (adaptowane z Piageta, 1967):
Przeczytam ci kilka opowiadań. Te opowiadania są o dzieciach, o tym, co one robiły
w domu, w szkole i podczas wakacji. Po każdym opowiadaniu porozmawiamy o zachowaniu tych dzieci. Zrozumiałeś? To posłuchaj pierwszego opowiadania o dwóch dziewczynkach.
Rodzice Ani musieli zaraz po obiedzie wyjść z domu. Ania chce pomóc mamie i postanawia pozmywać naczynia. Podchodzi do zlewu, bierze duży talerz i zaczyna go myć.
Ale talerz wyślizguje się z rąk, spada na inne naczynia w zlewie i tłucze 6 kubeczków.
Powiedz, co zrobiła Ania.
Inna dziewczynka, Paulina, chciała się bawić w sklep ze swoją siostrą. Ale siostra chciała
robić coś innego. Paulina jest bardzo niezadowolona. Wchodzi do kuchni i widzi, że na
samym brzegu stołu stoi ulubiony kubeczek siostry. Paulina leciutko trąca go łokciem.
Kubeczek spada i rozbija się.
Powiedz, co zrobiła Paulina.
Która dziewczynka była bardziej niegrzeczna: Ania czy Paulina? Po czym to poznałeś?
Czyja mama będzie się bardziej gniewać na swoją córeczkę? Dlaczego?
Która mama bardziej ukarze swoją córeczkę? Dlaczego?
Celem dwóch pierwszych pytań jest sprawdzenie, czy dziecko zrozumiało
tekst. Następne sondują pojęcie intencji. Odpowiedzi podlegają kodowaniu według formuły opracowanej na podstawie badania pilotażowego:
A: Paulina była bardziej niegrzeczna. Mama będzie się bardziej gniewać na Anię, ale
bardziej ukarze Paulinę.
B: Paulina była bardziej niegrzeczna. Mama będzie się bardziej gniewać na Paulinę i bardziej ją ukarze.
C: Paulina była bardziej niegrzeczna lub Ania była bardziej niegrzeczna. Mama będzie
się bardziej gniewać na Anię i bardziej ją ukarze.
A, B, C są wartościami zmiennej porządkowej „rozumienie roli intencji w ocenie moralnej czynu”.
Opisane narzędzie jest przykładem otwartej odmiany metody epizodów, ponieważ pozwala badanemu swobodnie formułować odpowiedzi. Ta swoboda jest
jednak pozorna, ponieważ odpowiedzi diagnostyczne są z góry określone. Jeśli
badany udziela odpowiedzi „obok” definicji wartości pomiarowych (co uważa się
za błąd metody), badacz stara się go sprowadzić na właściwe tory przez przypomnienie treści epizodu i zadawanie uściślających pytań. Dlatego zaliczanie metody epizodów do metod zbierania danych jakościowych jest bezpodstawne.
W odmianie zamkniętej swoboda badanego jest jeszcze bardziej ograniczona:
ma on bowiem albo wybrać najwłaściwszą odpowiedź spośród dostarczonych opcji,
albo uszeregować te opcje od najwłaściwszej do najmniej właściwej. W wielu tradycjach pomiarowych często zaczyna się od wersji otwartej (np. Ocena dojrzałości
moralnej Kohlberga), a kończy na zamkniętej (Test kluczowych zagadnień Resta).
Metody projekcyjne
Metody projekcyjne opierają się na założeniu projekcji, które w sformułowaniu
pochodzącym od Freuda głosi, że człowiek wyrzuca z własnej świadomości swoje
uczucia i pragnienia, przypisując je zewnętrznym obiektom świata społecznego.
Człowiek o silnej skłonności do agresji widziałby więc dookoła siebie więcej agresywnych ludzi i interakcji niż człowiek łagodny i życzliwy innym. Jeśli to założenie
jest prawdziwe, to prosząc badanego, by opisał to, co widzi w bodźcu mającym
nieokreślone lub niejasne znaczenie, możemy dowiedzieć się tego, czego ujawnić
nie chce lub nie potrafi, bo niedostatecznie zna samego siebie (Rembowski, 1975).
Podobny mechanizm miałby działać przy rysowaniu (Braun-Gałkowska, 1985;
Frydrychowicz, 1984).
Projekcja jest przedmiotem stałej krytyki. Można z niej wysnuć przynajmniej
dwa wnioski. Po pierwsze, właściwym polem zastosowań metod projekcyjnych jest
raczej praktyka kliniczna niż badania naukowe. Gdy trzeba postawić diagnozę osobowości klienta, metody te mogą być cennym uzupełnieniem wiedzy pochodzącej
z innych źródeł. Nie możemy jednak na nich polegać, gdy chcemy porównywać cechy osobowości w dużych, anonimowych próbkach. Po drugie, metody, które psychologowie-klinicyści uważają za pomocne w stawianiu diagnozy (Test plam atramentowych Rorschacha, Test apercepcji tematycznej Murraya), wymagają długiego
szkolenia i wieloletniej praktyki. Natomiast metody łatwe w użyciu (np. Test kolorów Lüschera, a zwłaszcza metoda niedokończonych zdań) dają wyniki zawodne.
Wypada więc stwierdzić, że metod projekcyjnych nie należy stosować poza badaniami indywidualizującymi, a i w tych badaniach należy je powierzyć praktykującym psychologom. W przeważającej liczbie badań pedagogicznych na metody
projekcyjne nie ma więc miejsca. Należy to uświadamiać zwłaszcza przygodnym
badaczom (np. studentom przygotowującym prace dyplomowe), którzy często żywią irracjonalne przekonanie, że pokazawszy dziecku kilka obrazków, odkryją ta-
jemnice jego duszy. Ponieważ rzetelność odpowiedzi dziecka jest niska, a ich trafność nieokreślona, o interpretacji wyników badania decydują zwykle stereotypy
lub osobiste preferencje badacza. Z nauką nie ma to nic wspólnego.
Pomiar behawioralny
Pozostaje omówić obszerną klasę metod zbierania danych o preferencjach, które
polegają na tym, że pobiera się próbkę zachowania się osoby badanej w specjalnie
stworzonej sytuacji. Jeśli chcemy oszacować skłonność badanego do działania na
rzecz innej osoby, możemy zbudować skalę psychologiczną altruizmu, ale możemy też postąpić inaczej: prosić go, by wykonywał żmudne zadanie na przemian dla
siebie i dla innej osoby. Jeśli w sesjach, które idą na rachunek innej osoby, badany
uzyskuje gorsze wyniki, możemy twierdzić, że nie zachowuje się on altruistycznie
– przynajmniej w tej sytuacji. Pomiar behawioralny zastosowali też H. Hartshorne
i M. May, by stwierdzić, czy badany zdoła się oprzeć pokusie oszukiwania. Takie
metody uchodzą za wysoce wiarygodne, ponieważ opierają się na tym, co człowiek rzeczywiście robi, a nie na tym, co mówi, że robi lub chciałby robić.
Metody behawioralne wymagają stworzenia specjalnej sytuacji, co bywa kłopotliwe technicznie, a czasem wątpliwe moralnie. Pewna doktorantka, chcąc
zmierzyć odporność uczniów na pokusę, zaplanowała coś, co prawnik nazwałby
prowokacją. Nauczyciel miałby zarządzić klasówkę, a po zebraniu prac pokazać
na tablicy poprawne rozwiązania zadań. W trakcie omawiania rozwiązań miał
być wezwany do telefonu. Badaczka założyła, że niektórzy uczniowie wykorzystają nieobecność nauczyciela, by podejść do jego stolika, odszukać swoją klasówkę
i poprawić ją. O tym, którzy to zrobią, miała powiedzieć ukryta kamera. Metoda ta
została odrzucona przez radę wydziału, ponieważ zakładała, że nauczyciel będzie
oszukiwał uczniów, co z pewnością nie mieści się w jego roli społecznej. Co gorsza,
są dowody, że każdy akt poddania się pokusie demoralizuje jednostkę, tzn. toruje
poddanie się przyszłym pokusom. Mierząc, badaczka szkodziłaby więc uczniom.
Pomiar przez pośredników. By uniknąć tych trudności, często stosuje się odmianę metody behawioralnej, która polega na tym, że zamiast tworzyć sytuację
i obserwować zachowanie się badanego, badacz odwołuje się do spostrzeżeń pośredników: osób mających wiele okazji, by obserwować badanego w sytuacjach
naturalnych. Do tej odmiany można zaliczyć inwentarze zachowania, np. popularny Inwentarz zachowania się dziecka w przedszkolu i szkole Schaefera i Aaronson,
który wypełnia nauczyciel. Inwentarz różni się od skal szacunkowych tym, że nie
dowierza się tu pojedynczej opinii obserwatora, lecz wykorzystuje wiele spostrzeżeń i buduje wskaźniki w sposób właściwy dla skal psychologicznych. Tu mieszczą
się też metody nominacyjne, które odwołują się do przeszłych spostrzeżeń rówieśników, a nie nauczyciela. Uczniowie dostają kwestionariusz z pytaniami typu: „Kto
podczas odpowiedzi łatwo rezygnuje ze swego zdania, daje się «zbić z tropu» przez
nauczyciela?” i mają wpisać nazwiska koleżanek i kolegów.
Jest oczywiste, że pomiar przez pośredników nie jest równoważny pomiarowi
behawioralnemu. Na wynik inwentarza zachowania wpływają uprzedzenia nauczyciela oraz skłonność do uzupełniania luk we własnym doświadczeniu. Trudno za-
łożyć, że nauczyciel mógł zaobserwować i zapamiętać każde zachowanie, o którym
mowa w inwentarzu – gdy pamięć nie podsuwa mu odpowiedzi, po prostu domyśla się, co uczeń mógłby zrobić. To prawdopodobnie tłumaczy niezwykle wysokie
współczynniki rzetelności takich inwentarzy. Ale jeśli tak, to wynik pomiaru reprezentuje zarazem zachowanie się ucznia i nauczycielską „teorię” tego ucznia.
W metodzie nominacyjnej wynik też zależy od indywidualnych skłonności obserwatorów (np. projekcji), choć można je kontrolować przez agregowanie sądów.
Zależy też od skłonności całej grupy, których kontrolować nie sposób. Niemniej
jeśli interesująca nas zmienna nie pobudza stereotypów i jest zdefiniowana w sposób wysoce konkretny, a wynik jest wyrażony w grubej skali (tj. mającej tylko dwie
lub trzy wartości), metoda nominacyjna może dawać wiarygodne wyniki, oszczędzając godzin obserwacji.
Socjometria. Nazywa się tak za J. L. Moreno metodę nominacyjną mającą na
celu odtworzenie stosunków interpersonalnych w grupie. Najczęściej chodzi o stosunki atrakcyjności (lubienie – nielubienie) i prestiżu (liczenie się – nieliczenie).
Socjometria różni się od metod pomiaru postaw interpersonalnych tym, że zmierza do stwierdzenia nie tyle, kogo lubi Piotr, ile kto lubi Piotra; dokładniej – jaką
pozycję zajmuje każdy członek grupy pod danym względem, w jakim stosunku
pozostaje względem pozostałych. W tym sensie metody socjometryczne należą do
pomiaru behawioralnego przez pośredników. Rzeczywiście – zamiast pytać uczniów, z kim chcieliby siedzieć przy jednym stoliku, moglibyśmy stworzyć rzeczywistą sytuację wyboru i obserwować, kto wybierze Jana, Marię itd. Moglibyśmy
też obserwować interakcje wszystkich par członków grupy i dojść do wniosku, że
Piotr i Ania przyjaźnią się, ale Piotr zabiega też o względy Zosi, której nie lubi Ania
itd. Jednak w przypadku licznej grupy jest to niewykonalne.
Metoda socjometryczna jest łatwa w stosowaniu i przynosi wiele cennych
danych; niestety, trudno je w pełni zanalizować. Najprościej obliczyć wskaźniki
pozycji społecznej poszczególnych uczniów i znaleźć „gwiazdy”, odrzuconych
i izolowanych. Gorzej z odtworzeniem struktury społecznej, czyli podziału zbiorowości na mniejsze grupy. O szczegółach tej popularnej wśród pedagogów metody piszą Pilkiewicz (1973) i Szmatka (1989).
Trafność i rzetelność pomiaru zmiennych nieobserwowalnych
Wspomniałem już, że mierzeniu (a właściwie szacowaniu) zmiennej nieobserwowalnej zawsze towarzyszą dwie wątpliwości. Pierwsza dotyczy tego, czy wybrany
przez nas wskaźnik inferencyjny rzeczywiście wskazuje zmienną, która nas interesuje. Druga dotyczy tego, czy wskaźnik ma dostatecznie małą wariancję błędu, by
móc wierzyć jego wskazaniom. Są to, odpowiednio, pytania o trafność i rzetelność
pomiaru.
Trafność
Trafność wskaźnika jest tym większa, im bardziej wskazuje on to i tylko to, co ma
wskazywać. Pytanie o trafność jest ważniejsze i trudniejsze do rozstrzygnięcia niż
Trafność i rzetelność pomiaru zmiennych nieobserwowalnych 159
pytanie o rzetelność. Nie wdając się w szczegóły (pisze o nich Brzeziński, 1997),
wyróżnimy trzy sposoby odpowiadania na to pytanie.
Kryterium. Jeśli wiemy, że ze zmienną nieobserwowalną, którą ma mierzyć
nasze narzędzie, jest skorelowana jakaś zmienna obserwowalna, to możemy użyć
tej zmiennej jako kryterium trafności narzędzia. Powiedzmy, że zbudowaliśmy test
inteligencji społecznej. Jeśli naprawdę mierzy on inteligencję społeczną, to praktykujący psychologowie powinni w nim uzyskiwać wyższe wyniki niż inżynierowie.
Nowy test szczególnych zdolności matematycznych uznamy za trafny, jeśli jego
wyniki okażą się silnie skorelowane ze średnią cząstkowych stopni z matematyki
(teraz lub lepiej w następnej klasie).
Często kryterium trafności nowego narzędzia jest inne, już opracowane narzędzie. Można by wtedy zapytać, po co badacz trudził się budowaniem nowego,
zamiast wziąć stare. To rozsądne pytanie w obliczu inflacji pojęć psychologicznych
i narzędzi pomiaru. Ponieważ powiększa ona niejasność naszej wiedzy, inwencja
badaczy powinna mieć jakąś granicę. Jest nią wymóg, by w badaniu trafności nie
tylko wykazać, że wyniki nowego narzędzia są skorelowane z wynikami pewnych
narzędzi, ale także że nie są skorelowane z wynikami innych narzędzi, tzn. że nowe
narzędzie nie powiela pod inną nazwą już istniejących.
Nie trzeba dodawać, że w wielu przypadkach znalezienie kryterium jest nadzwyczaj trudne. Jeśli mamy nową skalę lęku, możemy eksperymentalnie wywołać poczucie zagrożenia w jednej grupie, a odprężenia w drugiej i dać ją badanym do wypełnienia. Jeśli w pierwszej grupie wyniki będą znacznie wyższe niż w drugiej, wskazuje to,
że nasza skala ma coś wspólnego z lękiem. Gdzie jednak szukać kryterium trafności
skali postawy? Dyskusje, co naprawdę mierzy ta a ta skala, mogą się ciągnąć latami.
Teoria. Zmienna nieobserwowalna, którą usiłujemy mierzyć, ma – a przynajmniej powinna mieć – swoją interpretację teoretyczną jako pojęcie, czyli, jak się często mówi, „konstrukt”. Znając ją, możemy wstępnie ocenić trafność narzędzia przez
analizę treści jego pozycji. Z tego właśnie powodu należy w doniesieniu z badania
zacytować kilka typowych pozycji skali. Jeśli teoria mówi, co składa się na pojęcie
(np. inteligencji), to jego wskaźnik też powinien się składać ze wskaźników cząstkowych, a empiryczne relacje między nimi powinny być takie, jak zakłada teoria.
Szczególnie przekonuje do trafności narzędzia wykazanie, że jego wyniki
potwierdzają nieoczywiste przewidywania wyprowadzone z teorii. Załóżmy, że
pewna teoria umysłu przewiduje istnienie szczególnej zdolności interpersonalnej, która wpływa na przebieg interakcji kształcących. Jeśli zbudowaliśmy test tej
zdolności i daliśmy go do wykonania nauczycielom, możemy zbadać jego trafność
przez obliczenie współczynnika korelacji z testem inteligencji (powinna być niska)
i postawą uczniów wobec uczenia się (powinna być wysoka). Jak widać, teoria,
w której osadzone jest mierzone pojęcie, wskazuje kryteria trafności narzędzia.
Z tego punktu widzenia odrębność kryteriów, o których mówiliśmy wcześniej, polegałaby jedynie na ich zdroworozsądkowym charakterze.
Treść. Warto zauważyć, że ani zdroworozsądkowe, ani teoretyczne kryterium
trafności nie wchodzi w grę, gdy pytamy o trafność większości testów osiągnięć szkolnych, nikt bowiem nie uzyska zgody na wprzęgnięcie systemu oświaty
w maksymalizację tylko jednego aspektu obecnego lub przyszłego powodzenia
życiowego. Droga, na której psychologia dorabia się swoich narzędzi, jest więc pedagogice niedostępna.
W obliczu tej trudności pedagodzy proponują takie rozumowanie: wykształcenie można utożsamić z wzorami poprawnego wykonania nieskończonego zbioru
zadań. Budowanie testu osiągnięć to pobieranie próbki tych zadań. Trafność testu
to sprawa treściowej reprezentatywności tej próbki. Budując test, najpierw zarysowuje się strukturę danej dziedziny wiedzy, a potem układa zadania, dbając, by
równomiernie pokryły całe pole treściowe. Wstępną wersję testu daje się ekspertom do oceny i według ich wskazówek przygotowuje się wersję ostateczną. Łatwo
jednak zauważyć, że ta procedura może zawieść na całej linii.
Po pierwsze, metoda szacowania na oko reprezentatywności próbki zadań jest
zawodna. Po drugie, struktura dyscypliny nie jest bynajmniej niewzruszonym
faktem, lecz konstrukcją zależną od tradycji naukowej. Wiadomo, że wprowadzenie do szkół „nowej matematyki” opartej na pomysłach bourbakistów odebrało
trafność starym testom osiągnięć w matematyce, a dostosowane doń nowe testy
okazały się nietrafne w odniesieniu do starego programu nauczania matematyki.
Podobnie test reprezentatywny dla historii eksponującej wydarzenia polityczne
i militarne będzie niereprezentatywny dla historii eksponującej procesy gospodarcze i społeczne. Po trzecie wreszcie, wcale nie jest pewne, czy wykształcenie może
być reprezentowane przez choćby nieskończony zbiór zamkniętych zadań. Wypada stwierdzić, że trafność każdego testu osiągnięć szkolnych (z wyjątkiem testów
wiadomości i umiejętności zawodowych) jest problematyczna.
Rzetelność
Rzetelność jest związana z wielkością błędu losowego, który zawsze towarzyszy szacowaniu wartości zmiennych nieobserwowalnych. Można z absolutną dokładnością
podać wynik pomiaru: liczbę (lub proporcję) poprawnie wykonanych przez ucznia
zadań testowych, ale nie – poziom zdolności tego ucznia. Wiadomo, że liczba zadań wykonanych przez tę samą osobę w równoważnych wersjach tego samego testu
zmienia się w sposób nieprzewidywalny z pomiaru na pomiar, podczas gdy poziom
zdolności jest (z definicji) stały, przynajmniej w krótkich okresach. Skoro tak, to
każdorazowa liczba wykonanych zadań albo przecenia, albo nie docenia zdolności.
W klasycznej teorii pomiaru stworzonej przez H. Gulliksena i zmodyfikowanej przez Lorda i Novicka (1968) tę myśl wyraża prosta formuła: y = t + ε. Symbol y oznacza wynik pojedynczego pomiaru, t – wynik prawdziwy, czyli wielkość
zdolności (pojmuje się ją jako wartość oczekiwaną nieskończonej liczby pomiarów tej samej osoby danym narzędziem), ε – błąd losowy. Błąd oscyluje wokół zera
w sposób nieprzewidywalny: wynik pomiaru raz jest większy, raz mniejszy, niż
powinien być. Nie ma sposobu, by poznać wielkość błędu pojedynczego pomiaru, można jednak założyć, że rozkład błędu w populacji pomiarów jest normalny
i oszacować jego zróżnicowanie. Im większe jest to zróżnicowanie (wariancja),
z tym większym błędem musimy się liczyć przy szacowaniu zdolności, a z im większym błędem musimy się liczyć, tym mniej rzetelne jest narzędzie.
Kluczowe dla szacowania wariancji błędu jest twierdzenie, że w populacji badanych wariancję empirycznych wyników pomiaru danym narzędziem można
rozłożyć na dwa składniki: wariancję wyniku prawdziwego i wariancję błędu, czyli
że σy2 = σt2 + σε2. Można z niego w prosty sposób wyprowadzić dwa wzory: na rzetelność narzędzia i na błąd standardowy pomiaru. Rzetelność ρyy narzędzia Y to
udział wariancji wyniku prawdziwego w wariancji wyniku pomiaru:
ρyy =
σt2
σy2
Jest jasne, że doskonale rzetelny pomiar daje wyniki zróżnicowane dokładnie
w tym stopniu, w jakim są zróżnicowane prawdziwe wartości mierzonej zmiennej.
Można udowodnić, że ρyy jest też równe populacyjnemu współczynnikowi korelacji
między wynikami dwóch równoległych9 wersji narzędzia (stąd jego symbol: greckiej litery „ro” używa się do oznaczenia korelacji; subskrypt informuje, że zachodzi
ona między dwoma szeregami wyników Y). Łatwo to zrozumieć, jeśli się zauważy, że współczynnik korelacji mówi o stałości względnych pozycji obiektów w obu
pomiarach. Im wyższy jest współczynnik ρ, tym bardziej podobne pozycje zajmują Jan, Piotr i inne osoby badane w obu szeregach uporządkowanych od wyniku
najniższego do najwyższego. Rzetelność można więc także pojmować jako stopień
odtwarzalności wyniku pomiaru. Z powyższego wzoru wynika, że odchylenie standardowe błędu losowego, czyli tzw. błąd standardowy pomiaru (σε), jest równe:
σε = σy 1 − ρ yy
Gdy rzetelność narzędzia zbliża się do 1, błąd standardowy zbliża się do 0,
co znaczy, że wynik testowania nieznacznie odchyla się od wartości prawdziwej.
W przypadku narzędzi o rzetelności bliskiej zera błąd zbliża się do odchylenia
standardowego wyniku testowania. Sens tego parametru stanie się jaśniejszy, gdy
powiemy, że służy on do obliczania tzw. przedziału ufności dla każdego wyniku
pomiaru10. Pamiętamy, że na wynik prawdziwy osoby badanej nakłada się błąd,
który ma rozkład normalny. Wiadomo, że w rozkładzie normalnym przedział
wyników (tu: błędów) o szerokości jednego odchylenia standardowego w lewo
i w prawo od średniej zawiera ok. 68% przypadków. Możemy zatem twierdzić, że
z prawdopodobieństwem 0,68 wynik prawdziwy danej osoby leży między y – σε
a y + σε. Chcąc się wypowiadać z większą pewnością, musimy rozszerzyć przedział.
Prawdopodobieństwo, że wynik prawdziwy jest obarczony błędem od –2σε do
+ 2σε, wynosi 0,95. Zauważmy, że gdy σε jest bliskie σy (a tak jest, gdy ρyy jest bliskie
0), to 95-procentowy przedział ufności obejmuje prawie cały zakres zmienności
wyniku empirycznego: dowiadujemy się więc, że wynik prawdziwy danej osoby
leży gdzieś między najniższym a najwyższym wynikiem w populacji, co przecież
wiedzieliśmy z góry.
9
Chodzi o takie wersje, które są odrębne (nie wpływają na siebie) i mierzą dokładnie
to samo (dla każdej osoby dają tę samą wartość wyniku prawdziwego z tą samą wariancją).
10
Przy założeniu, że rozkład błędów jest normalny wokół danego wyniku i identyczny
dla wszystkich wyników.
Zilustrujmy to przykładem. Uczeń uzyskał 110 punktów w teście inteligencji,
którego rzetelność szacuje się na 0,89, a odchylenie standardowe
– na
_____wyników
_
15. Szacunkowy błąd standardowy pomiaru (se) wynosi 15√1–0,89, czyli 5. Możemy twierdzić z prawdopodobieństwem 0,95, że prawdziwy wynik tego ucznia
leży gdzieś między 110 – 2 ∙ 5 a 110 + 2 ∙ 5, czyli między 100 a 120. Jeśli konkuruje
z nim inny uczeń z wynikiem 115, nie możemy uznać, że ma on wyższą zdolność,
ponieważ jego wynik mieści się w przedziale ufności pierwszego ucznia. Ma to
znaczenie, ilekroć wynik jednorazowego testowania jest używany do selekcji uczniów (np. gdy od tego wyniku zależy, czy uczeń zostanie uznany za uzdolnionego
i przyjęty na zajęcia o wzbogaconym programie kształcenia).
Zdefiniowana powyżej rzetelność to parametr, którego wartość trzeba szacować na podstawie danych z próbki. W praktyce badawczej szacuje się ρyy za pomocą ryy według różnych metod.
Test-retest. Narzędzie stosujemy dwukrotnie na tej samej próbce osób w niewielkim odstępie czasu (1–2 tygodnie) i obliczamy współczynnik korelacji ryy
(zwany tu współczynnikiem stałości) między wynikami obu pomiarów. Metoda
zakłada, że mierzona zmienna jest stała w czasie i że na drugi pomiar nie mają
wpływu pamięć i wprawa wynikające z pierwszego pomiaru. Oba założenia są
trudne do utrzymania.
Wersje równoległe. Mierzymy te same osoby dwiema równoległymi wersjami
narzędzia i obliczamy współczynnik korelacji ryy (zwany tu współczynnikiem równoważności). Niestety, niełatwo zrobić wersje równoległe. Dobór losowy pozycji
nie wystarczy. Zaleca się raczej układanie zadań w pary o podobnych rozkładach
i losowe przydzielanie zadań do wersji.
Rzetelność połówkowa. Zamiast tworzyć dwie wersje narzędzia, można podzielić je na dwie połowy. Zazwyczaj dzieli się pozycje według ich numeru na
parzyste i nieparzyste, ale lepiej kierować się podobieństwem rozkładów i treści.
W tym przypadku współczynnik korelacji nie doszacowuje rzetelności, ponieważ
traktuje test tak, jakby był o połowę krótszy. Znany wzór Spearmana-Browna:
2r
ryy = ____
1
+r
(r to współczynnik korelacji między połówkami testu), zakłada równoległość połówek, a że tak rzadko bywa, przeszacowuje rzetelność. Ta metoda nie powinna
być stosowana, gdy test ma limit czasowy i badani nie podejmują wszystkich zadań (r jest wtedy przesadnie duże).
Homogeniczność pozycji. Tu oszacowanie rzetelności opiera się na porównaniu zróżnicowania wyniku testowania z sumą zróżnicowań wyników poszczególnych zadań. Jeśli każde zadanie mierzy co innego, wtedy oba zróżnicowania są
zbliżone do siebie. W przeciwnym razie częściej zbiegają się wyniki skrajne (niskie
lub wysokie), więc zróżnicowanie wyniku testowania jest większe, niżby to wynikało ze zróżnicowania wyników poszczególnych zadań. Do testów, w których
każde zdanie jest dwuwartościową zmienną {wykonane, niewykonane}, stosuje się
wzór 20 Kudera-Richardsona (K-R 20):
k


 ∑ pi qi 
k 
⋅ 1 − i =1 2 
ryyy
y =
k −1 
sy 




gdzie k to liczba zadań w teście, sy2 to wariancja łącznego wyniku, p to proporcja
poprawnych, a q – proporcja niepoprawnych odpowiedzi na każde zadanie (p q
jest wariancją rozkładu zmiennej dwuwartościowej). Symbol Σ (sigma) oznacza
dodawanie. Wyrażenie stojące za tym symbolem to ogólna postać składnika sumy
(w tym wzorze: iloczyn p q). Pod znakiem podaje się pierwszą wartość subskryptu
(1), a nad znakiem ostatnią (k). Licznik wzoru jest więc równoważny wyrażeniu:
p1 q1 + p2 q2 + ... + pk qk. Można udowodnić, że ryy dany tym wzorem jest równy średniej korelacji przy wszystkich możliwych podziałach testu na połowę.
Inną, najpopularniejszą bodaj miarą homogeniczności jest współczynnik
α (alfa) Cronbacha, będący rozszerzeniem K-R 20 na narzędzia, których pozycje
nie są dychotomiczne, np. na skale zbudowane metodą Likerta. Wtedy sumę iloczynów p q zastępuje suma wariancji poszczególnych zadań:
k


 ∑ si2 
k 
⋅ 1 − i =1 2 
rryyyy =
k −1 
sy 




Zgodność. Opisane metody szacowania rzetelności nie mogą być stosowane do
testów osiągnięć odniesionych do kryterium. Ponieważ ich wyniki tworzą rozkłady lewoskośne (tj. z przewagą wysokich), α znacznie zaniża ich rzetelność. Zaleca się raczej
porównać wyniki dwukrotnej klasyfikacji uczniów zbadanych dwiema równoległymi
wersjami testu. Gdy test jest tak unormowany, że dzieli populację na dwie grupy: tych,
którzy opanowali materiał, i tych, którzy go nie opanowali, wyniki dwukrotnego testowania tworzą czteropolową tablicę liczebności. Łatwo wtedy obliczyć współczynnik zgodności, czyli procent osób tak samo sklasyfikowanych w obu pomiarach. Takie
oszacowanie pomaga podjąć decyzję o dopuszczeniu testu do użytku, ale nie pozwala
wyznaczać standardowego błędu pomiaru ani budować przedziałów ufności.
Na zakończenie wspomnijmy, że różne metody szacowania rzetelności dają
różne szacunki. Najostrożniejsza i najwyżej ceniona jest metoda wersji równoległych. Minimalna wartość oszacowania, przy której można uznać narzędzie, zależy od jego zastosowania. Jeśli narzędzia zamierza się używać do podejmowania
decyzji w sprawach losu jednostek, wymaga się rzetelności powyżej 0,90. Narzędzie, które ma dawać informacje o zbiorowościach badanych, powinno mieć rzetelność co najmniej 0,50.
Więcej o teoriach pomiaru zmiennych nieobserwowalnych znajdzie czytelnik
u Nowakowskiej (1975) i Machowskiego (1993), poniżej zaś – kilka zdań o coraz
bardziej popularnej rywalce klasycznej teorii pomiaru.
Teoria odpowiedzi na pozycję testu (IRT)
Główna słabość teorii klasycznej polega na tym, że nie pozwala rozdzielić parametrów osoby i testu, przedmiotem pomiaru czyni bowiem nie dyspozycję
w ogóle, np. inteligencję, lecz parametry wykonania danego testu, czyli np. inteligencję-w-teście Wechlera (WAIS). Oznacza to, że wyniki dwóch testów mierzących tę samą dyspozycję są bezpośrednio nieporównywalne. Jest tak za sprawą
zadań, które różnią się trudnością, zdolnością różnicowania badanych, podatnością na zgadywanie itp. Gdybyśmy potrafili zmierzyć cechy zadania i włączyć je
do równania, które wiąże wykonanie zadania z poziomem dyspozycji badanego,
to moglibyśmy „wytrącić” ich wpływ na oszacowanie dyspozycji. Innymi słowy –
traktować wszystkie zadania tak, jak gdyby miały identyczną trudność, zdolność
różnicowania itp.
Najprostszy model, stworzony przez Georga Rascha, uwzględnia jedynie trudność zadania:
e(θ – b)
_______
P(θ)
=
1 + e(θ – b)
P(θ) to prawdopodobieństwo poprawnego wykonania określonego zadania przez
osobę o określonym poziomie dyspozycji θ, b to trudność tego zadania, a e to stała
(ok. 2,718). Dysponując dostatecznie dużą próbką odpowiedzi (najlepiej od tysięcy badanych na dziesiątki zadań), możemy spróbować oszacować parametr b dla
każdego zadania i parametr θ dla każdego badanego. Jeśli się to uda, oszacowanie
b będzie niezależne od rozkładu θ, a oszacowanie θ – niezależne od zbioru zadań.
Ta niezależność umożliwia m.in.:
• porównywanie pomiarów tej samej dyspozycji różnymi testami (można np.
wnioskować o wieloletnich zmianach średniego poziomu rozumowań matematycznych absolwentów gimnazjum),
• tworzenie banku zadań testowych o znanych właściwościach,
• budowanie testów (tj. dobieranie zadań z banku) mających pożądaną zdolność
różnicowania badanych (czasem chcemy mieć test, który dobrze różnicuje
w szerokim przedziale dyspozycji, czasem zaś – w wąskim, np. w okolicy kryterium testu „sprawdzającego”),
• budowanie testów, które bronią się przed zarzutem stronniczości, mimo że
ujawniają różnice w rozkładach θ w różnych grupach mniejszościowych (np.
jeśli w pewnym teście czarni uzyskiwali niższe wyniki niż biali, to teoria klasyczna nie pozwalała rozstrzygnąć, czy było tak dlatego, że czarni mieli niższy
poziom dyspozycji, czy że byli dyskryminowani przez formę testu),
• dobieranie zadań w trakcie testowania w celu zwiększenia precyzji oszacowania dyspozycji badanego.
Konsekwencją przyjęcia IRT w dziedzinie oświaty jest psychologiczna interpretacja osiągnięć szkolnych jako dyspozycji reprezentowanych przez zmienne latentne. Jest to nieobojętne ideologicznie, a także technicznie, bo uzależnia możliwość
stabilnych szacunków od tego, jak dobrze dane spełniają różne warunki. Najważ-
niejszy warunek – jednowymiarowości (wszystkie zadania testu muszą mierzyć
jedną i tę samą dyspozycję) – spełniają nieliczne z dotąd stosowanych testów.
Samo szacowanie parametrów jest numerycznie trudne, nie zawsze pewne
i kosztowne. Ocena dyspozycji ucznia jest tak złożoną funkcją wektora jego odpowiedzi testowych, że trzeba ją przyjąć na wiarę, co zmniejsza społeczną kontrolę nad oświatą. Stosowane modele matematyczne poddaje się częstym rewizjom,
co grozi procesami sądowymi ze strony uczniów, którzy uzyskaliby lepszą ocenę, gdyby ich odpowiedzi przetworzono według zrewidowanego modelu. Z pewnością badacze osiągnięć szkolnych w Polsce powinni prowadzić próby testowania według IRT, ale na powszechne zastosowanie tej teorii jest zdecydowanie za
wcześnie. Doskonałe wprowadzenie do IRT dają Hambleton, Swaminathan i Rogers (1991). Najnowsze modele przedstawia książka pod redakcją van der Lindena
i Hambletona (1997).
Rozdział 8
METODY ANALIZY DANYCH
Badanie nigdy nie kończy się zebraniem danych. Trzeba je tak przetworzyć, by
mówiły o tym, co nas interesuje, rozstrzygały teoretyczny spór lub pomagały ulepszyć praktykę. Morgan (1998) trafnie powiada, że analiza to wszystkie sposoby
przekształcania surowych danych w końcowe doniesienie, toteż jakość doniesienia
jest najlepszym sprawdzianem jakości analizy.
Dane jakościowe
Powiada się czasem, że w podejściu jakościowym nie należy odróżniać metod
zbierania od metod analizowania danych. To oczywiste nieporozumienie. Prawda,
że w tym podejściu łączy się obie czynności w czasie (analiza towarzyszy zbieraniu
danych i wpływa na decyzje o dalszym zbieraniu danych ), ale to nie znaczy, że
same te czynności utożsamiają się ze sobą.
Metoda analizy powinna być dostosowana do zamiaru, który leży u początków
badania, a więc zaplanowana na równi z innymi jego elementami. Badacz, który
gromadzi góry tekstów, nie myśląc, co będzie z nimi robił, ryzykuje, że większości
z nich nie zdoła wykorzystać.
Od danych do protokołu
Surowe dane jakościowe występują w rozmaitych formach:
Notatki terenowe (field notes). Robione w czasie wywiadu lub obserwacji, są
zwykle skondensowane (pełne umownych znaków, oderwanych słów i zdań, cytatów, szkiców itp.), więc mało czytelne. Analizować sterty takich notatek byłoby
niepodobieństwem.
Nagrania. Dzięki rozpowszechnieniu wygodnych w użyciu urządzeń rejestrujących dźwięk i obraz o wysokiej jakości coraz więcej danych ma formę nagrań.
Ale skomplikowana aparatura nagraniowa peszy ludzi, a także zmniejsza anonimowość (gdy moja twarz jest na taśmie, nie uspokaja mnie obietnica zniszczenia
moich danych osobowych). Ważniejsze jest, że im więcej nagrań, tym więcej pracy
Dane jakościowe 167
przy ich analizie. Dlatego jest błędem posługiwać się kamerą wideo, jeśli wystarczyłby magnetofon, i magnetofonem, jeśli wystarczyłyby notatki terenowe.
Metryczka. Powielony arkusz podstawowych informacji o wywiadzie lub obserwacji. W przypadku wywiadu zawiera dane demograficzne respondenta (często
wpisane przez niego samego), czas i miejsce rozmowy, a także opinie badacza o atmosferze rozmowy oraz o zachowaniu się rozmówcy i jego samego. W przypadku
obserwacji metryczka zawiera informacje o terenie, miejscu i czasie obserwacji.
Często ma osobne miejsce na wrażenia obserwatora, których nie umiałby on udokumentować (np.: „Miałem wrażenie, że nauczycielka była wściekła, ale świetnie
się kontrolowała”). Dobrym zwyczajem jest podpisywanie przez badacza każdej
metryczki: składając swój podpis, bierze on odpowiedzialność za autentyczność
dostarczonych danych.
Dziennik terenowy. Przedstawia badanie z perspektywy badacza: opisuje zdarzenia (w tym przeszkody), sugestie i pomysły interpretacyjne (memos) oraz ich
losy (czy okazały się trafne, czy błędne), a także wyniki samoobserwacji: uczucia
badacza i jego postawy wobec badanego terenu. W dzienniku zapisuje się wszystkie decyzje dotyczące przebiegu badania (np.: „Od jutra przechodzę do obserwacji
selektywnej”, „W pokoju pedagoga szkolnego źle się rozmawia z uczniami: czują
się jak na przesłuchaniu. Następną serię wywiadów będę prowadziła w stołówce
szkolnej”). Gdy w terenie pracuje kilku badaczy, dziennik zwiększa porównywalność danych (np. pozwala przypisać pewne dane lub brak pewnych danych szczególnym okolicznościom, w jakich przyszło pracować jednemu z nich).
Notatki terenowe i nagrania nie nadają się do analizy. Notatki są nieczytelne
i niepełne: zawierają raczej drogowskazy do pamięci badacza niż rozwinięte opisy. Analizowanie nagrań byłoby zbyt męczące, a wyniki niesprawdzalne – żeby je
skontrolować, trzeba by powtórzyć całą pracę analityka. Dlatego jedne i drugie
przekształca się w protokół wywiadu lub obserwacji. Trzeba to zrobić jak najszybciej: badacz powinien usiąść do maszyny, przenośnego komputera lub dyktafonu
zaraz po wywiadzie lub obserwacji, a najpóźniej wieczorem tego samego dnia.
W przeciwnym razie szczegóły zatrą się w pamięci i badacz będzie się głowił, co
może znaczyć jakieś podkreślenie, kto wypowiedział to czy inne zdanie itp.
W protokole zaleca się standaryzację notacji. Tekst w cudzysłowie to dokładny
cytat, tekst w apostrofach to cytat przybliżony, w nawiasach zwykłych umieszcza
się dane o kontekście lub sytuacji, w nawiasach kątowych – wyjaśnienia z punktu
widzenia badanych (emic), w ukośnikach – wyjaśnienia z punktu widzenia badacza (etic), poziomą linią oddziela się segmenty wywiadu lub obserwacji itd.
Dokładność protokołu zależy od celu badania. W badaniu konwersacji protokół nie tylko oddaje wszystko, co zostało powiedziane, ale także długość przerw
(w sekundach), wydłużenie fonemu (wielokropkami), urwanie słowa (tiretem),
słyszalne westchnienia (jako „hhhh”), słowa wypowiadane z naciskiem (podkreśleniem) i wypowiadane głośniej (wersalikami), dokładny punkt, w którym jeden
z rozmówców wpada w słowo drugiemu (lewym nawiasem kwadratowym), fragmenty słabo słyszalne (nawiasami) itp. W innych przypadkach taka staranność
jest niepotrzebna.
168 Rozdział 8. Metody analizy danych
W badaniach, które sam prowadziłem, sprawdziła się taka metoda: Obserwator nagrywał lekcję na taśmę magnetofonową i jednocześnie robił notatki. Tego
samego dnia przepisywał nagranie, uzupełniając je informacjami z notatek i własnej pamięci. Protokół był selektywny. Jeśli przedmiotem obserwacji były interakcje
zadaniowe na lekcji, badacz przepisywał w dosłownym brzmieniu wymianę słowną między nauczycielem i uczniami i dodawał didaskalia w nawiasach okrągłych,
a inne rodzaje wypowiedzi oddawał przez omówienia:
(1) (N odczytuje listę obecności. Do stolika podchodzą m6, k2, M3 z usprawiedliwieniami w dzienniczkach. N czyta je, rozmawia cicho z uczniami, usprawiedliwia nieobecności. Pozostali rozmawiają głośno, śmieją się)
(2) N: Kto przeczyta następny fragment?
(3) M3 (stuka k2): k2, k2!
(4) N: k2, przeczytaj. On ma rację, ona zrobi to dobrze.
(5) (k2 czyta, myli się i potyka)
(6) N: Dziękuję k2, wiersz jest dosyć trudny także w warstwie tekstowej. (nieczytelne)
Proponuję, abyśmy rozpoczęli analizę. Jak zwykle jesteście gotowi oczywiście do notowania?
(7) M0 (z przekąsem): Taaak.
(8) N: Na jakie dwie części można podzielić wiersz?
(9) (szum w klasie, wszyscy mówią naraz)
(10) M3”: Wspomnienia.
(11) k5!: Refleksja.
(12) N: Świetnie, no właśnie, już macie co zanotować.
Każdy akapit albo charakteryzuje epizod (w nawiasach), albo przedstawia
wkład jednej postaci do interakcji. „N” to nauczycielka. Nazwiska uczniów zostały
zastąpione kryptonimami (np. „K” i „M” oznacza dziewczynkę i chłopca z rodziny o wyższym statusie socjoekonomicznym, „k” i „m” – dziewczynkę i chłopca
z rodziny o niższym statusie chłopca, zero przy symbolu płci oznacza, że obserwator nie rozpoznał tożsamości mówiącego). Cudzysłów przy kryptonimie ucznia
oznacza, że zgłaszał się do odpowiedzi i został wybrany, wykrzyknik – że „wyrwał
się” niepytany, brak znaku – że został wywołany przez nauczycielkę. Tekst po dwukropku przy kryptonimie jest dokładnym cytatem, a znaki przestankowe mają tu
konwencjonalne znaczenie (wielokropek oznacza zawieszenie głosu, znak zapytania – tonację pytającą itp.). W nawiasach okrągłych w obrębie akapitu umieszcza
się didaskalia (jak mówi postać, co przy tym robi, co się dzieje w tle). W nawiasach
kwadratowych znajdują się uwagi obserwatora. Przeciętny protokół z jednej lekcji
zawiera 10 tys. znaków, czyli zajmuje ok. 6 stron znormalizowanego maszynopisu.
Taki protokół jest gotowy do analizy.
Trzeba pamiętać, że protokół, metryczka i dziennik terenowy składają się na jedyną wersją rzeczywistości, do której badacz ma dostęp po zakończeniu zbierania
danych (pamięć już się zatarła, podobnie jak taśmy, które są zwykle używane wielokrotnie). Im więcej ograniczeń napotkał proces zbierania danych i im bardziej
przetworzone zostały dane w procesie tworzenia protokołu, z tym mniejszym
przekonaniem można twierdzić, że wersja ta zawiera istotne struktury badanej
rzeczywistości. Największe to bodaj niebezpieczeństwo podejścia jakościowego:
przeprowadzić pracochłonną analizę tylko po to, by dostać to, co sami wcześniej
włożyliśmy w teksty źródłowe.
Z tekstów źródłowych (protokołu, metryczki i dzienników terenowych) trzeba
teraz wytworzyć inny tekst: teorię badanej rzeczywistości. To przekształcenie – jak
pisze Flick (1998) – ma dwa momenty: redukujący (kodowanie danych w celu ich
skategoryzowania) i rozbudowujący (analiza sekwencyjna, która kontekstualizuje
dane). Omówimy je poniżej.
Kodowanie
Kodowanie to tyle, co zastępowanie fragmentów tekstu etykietkami, które reprezentują kategorie tekstu. Kategorie te są albo wyprowadzane z tekstu, albo wnoszone z zewnątrz (np. z literatury przedmiotu). W miarę postępu kodowania kategorie
podporządkowują sobie coraz większe obszary tekstu, a same obrastają znaczeniami.
Kodowanie teoretyczne
Kodowanie teoretyczne zostało zdefiniowane przez Glasera i Straussa (1967) w ramach ich programu metodologicznego, który zaleca wydobywanie ugruntowanej
(grounded) teorii z danych empirycznych. Kodowanie to nazwa rodziny operacji,
które pozwalają rozłożyć dane, nadać im znaczenie i złożyć je w nowy sposób. Te
operacje są zarazem wsteczne i postępowe. Wsteczne dlatego, że wprowadziwszy
etykietkę, badacz wraca na poziom tekstu źródłowego (albo i w teren), by sprawdzić, czy znaczenie tej etykietki zachowuje się w obliczu innych danych. Robi tak
dopóty, dopóki etykietka nie osiągnie znaczeniowego „nasycenia” (tj. dopóki badacz nie jest całkowicie pewny, jaki ma ona sens i ważność). Postępowość analizy polega na tym, że etykietki same podlegają kodowaniu – tworzy się z nich
ogólniejsze (i bardziej abstrakcyjne) kategorie dające się zastosować do szerszego
zbioru obiektów (ludzi lub zdarzeń). Stawia się też hipotezy o związkach między
kategoriami i sprawdza je. W ten sposób wydobywa się teorię z danych.
Zauważmy, że o kodowaniu mówi się też przy analizie danych ilościowych.
Tam jednak słowo to znaczy co innego. Zakodować ankietę to tyle, co mechanicznie zredukować odpowiedzi badanego do ciągu umownych symboli, które
następnie można zliczać. Kodowanie jest mniej mechaniczne, gdy ankieta zawiera
pytania otwarte. Żeby zakodować odpowiedzi na takie pytanie, trzeba się najpierw
z nimi zapoznać (zazwyczaj z ich próbką). W miarę kodowania kolejnych kwestionariuszy może się okazać, że kod jest zbyt szczegółowy i liczba symboli niepokojąco rośnie, albo przeciwnie – jest zbyt ogólny, co zmusza do utożsamiania ze sobą
wyraźnie odmiennych odpowiedzi. W obu przypadkach kod trzeba przebudować
i kodowanie zacząć od nowa. Ale nawet takie kodowanie niewiele ma wspólnego
z kodowaniem teoretycznym, ponieważ jest zdominowane przez pytanie kwestionariusza. Pytanie determinuje sam tekst (krótkie odpowiedzi) i kod. Dookreślenia
wymagają jedynie drugorzędne szczegóły. W kodowaniu teoretycznym tekst jest
względnie autonomiczny, a etykietki wprowadzane „od dołu”. Celem kodowania
jest zrozumienie całego tekstu przez wyodrębnienie w nim sensownych fragmentów i złożenie ich w sensowną całość.
Kodowanie teoretyczne przebiega w kilku fazach.
Kodowanie otwarte. Stosuje się je w początkowej fazie analizy. W zależności
od tego, co uznamy za jednostkę tekstu (frazę, zdanie, akapit), kodowanie otwarte
jest bardziej lub mniej szczegółowe. Czytamy tekst jednostka po jednostce, pytając,
co każda znaczy (np. o czym lub o kim mówi, w jakimi kontekście czasowo-przestrzennym, jakie aspekty porusza, jakie oferuje wyjaśnienia lub uzasadnienia, jaką
funkcję pełni w narracji), i wpisujemy nad jednostkami tekstu numery jednostek
kodu. Flick (1998, s. 181) daje taki przykład ze swoich badań nad subiektywnym
znaczeniem zdrowia. Oto początek wywiadu:
No więc ja1 / osobiście2 / wiążę3 / ze zdrowiem4 / całkowitą funkcjonalność5 / organizmu
ludzkiego6 / wszystkich7 / procesów biochemicznych8 organizmu6 / włączając w to9 /
wszystkie cykle10 / ale też11 / stan umysłowy12 / mojej osoby6 / i człowieka w ogóle13...
Ukośnik dzieli tekst na jednostki. Każda liczba w superskrypcie to symbol
osobnej jednostki kodu:
1 – Fraza otwierająca
2 – Odniesienie do samego siebie, odróżnienie się od innych
3 – Wiązanie, łączenie elementów
4 – Podjęcie zagadnienia
5 – Wyrażenie techniczne, podręcznikowe, maszyna jako model, odniesienie do normy
(kto nie funkcjonuje w pełni, ten jest chory)
6 – Dystansowanie się (w sprzeczności z frazą otwierającą), wyrażenie podręcznikowe,
obrona przed zbytnią bliskością wobec kobiety prowadzącej wywiad i samego siebie
7 – Pełne, wyczerpujące, maksymalne, brak zróżnicowania, równowaga
8 – System zamknięty, coś jest na zewnątrz, bierny, sterowany z zewnątrz, mający własną
energię
9 – Wyrażenie podręcznikowe
10 – Wyczerpujące, maszyna jako model, krąg reguł, regularność (w przeciwieństwie do
chaosu)
11 – Dopełnienie, nowy aspekt (przeciwstawny wymienionemu)
12 – Mechanistyczne, wydźwięk negatywny, nadużyte, statyczne („jaki jest jego stan?”)
13 – Ogólne, abstrakcyjny obraz człowieka, łatwo przeoczyć szczególność.
Tak dokładnie analizuje się jedynie początkowe lub niejasne fragmenty tekstu. W zbiorze jednostek kodu mieszają się różne rzeczy: funkcje dyskursywne,
domniemania znaczeniowe, wrażenia i oceny. Liczba jednostek może iść w setki.
Niektóre łączy się w kategorie na zasadzie podobieństwa, np. jednostki 5, 7, 8, 10
i 13 mogą składać się na kategorię „pojęcie człowieka” (nazwa kategorii może pochodzić ze słownika naukowego albo ze słownika badanego). Inne zostają odrzucone. Równocześnie porządkuje się elementy kategorii, tak by móc ją zdefiniować
jako wiązkę wymiarów. Na przykład tu kategoria „pojęcie człowieka” okazuje się
mieć dwa wymiary: uniformizm (wyklucza – uznaje odmiany jakościowe) i zamknięcie (wyklucza – uznaje interakcje z otoczeniem). Pojęcie, które ma na myśli
badany, można wtedy zdefiniować przez jego wybory: w przykładzie jest ono uniformistyczne i zamknięte, czyli mechanistyczne.
Kodowanie osiowe (axial coding). Kategorie będące produktem kodowania
otwartego są dookreślane w procesie kodowania osiowego. Polega ono na tworze-
niu kategorii osiowych (najważniejszych z punktu widzenia pytań badawczych)
i określaniu relacji między nimi (np. jest warunkiem, środkiem, następstwem,
działaniem) na podstawie składników. Wyłaniająca się sieć relacji podlega stałej
weryfikacji. Analiza oscyluje między indukcją (budowaniem pojęć, kategorii i relacji na podstawie tekstów źródłowych) i dedukcją (sprawdzaniem pojęć, kategorii
i relacji na innych fragmentach tekstów źródłowych).
Kodowanie selektywne. Kodowanie może mieć wiele poziomów, a sieć znaczeń będąca wynikiem n-tego poziomu analizy staje się przedmiotem kodowania
na poziomie n + 1. Na poziomie kodowania selektywnego szuka się kategorii najlepiej charakteryzującej badane zjawisko i dającej się ująć w kilku jedynie zdaniach. Taka centralna kategoria wraz z siecią związków między innymi kategoriami tworzy teorię w mocnym sensie tego słowa. Mówi ona: w takich a takich
warunkach dzieje się to a to. Taką teorię weryfikuje się na tekstach źródłowych
i modyfikuje aż do osiągnięcia stanu „teoretycznego nasycenia”, w którym dalsze
zabiegi analityczne nic już do niej nie wnoszą.
Jak widać, ojcowie programu budowania teorii ugruntowanej wcale nie zdają
się – jak się często pisze – na intuicję i empatię badacza. Zakładają, że we właściwie
zebranych danych tkwią struktury realnego świata i że zadaniem analizy jest raczej
je wydobyć niż wytworzyć. Nie dowierzają „holistycznej” interpretacji, bo zanadto
wpływają na nią potoczne i naukowe stereotypy, i liczą na dość mechaniczne rozkładanie i składanie tekstów źródłowych.
Wkład umysłowości badacza w wyłaniającą się teorię można w ten sposób zredukować, ale nie usunąć. Nawet w kodowaniu pojedynczych fraz analityk korzysta
z własnych reguł interpretacyjnych. Jego pojęcia i osobiste teorie dochodzą do głosu, gdy łączy i przeciwstawia kategorie: nigdy bowiem nie porównuje się wszystkiego ze wszystkim. Teoria nie tyle więc się wyłania, ile jest budowana z tekstów
i zasobów poznawczych analityka. Jej ugruntowanie wcale nie jest niewzruszone.
Jednym ze sposobów lepszego ugruntowania teorii jest indukcja analityczna
F. Znanieckiego. Jak każda indukcja, polega ona na generowaniu hipotez z danych
i sprawdzaniu ich na danych. Ale jej swoistość polega na skupieniu uwagi na wyjątkach, przypadkach wyłamujących się z hipotezy. Najpierw z grubsza definiuje się
interesujące zjawisko (np. zażywanie narkotyków), potem formułuje hipotetyczne
wyjaśnienie i sprawdza je na konkretnym przypadku podpadającym pod definicję.
Jeśli przypadek nie zgadza się z hipotezą, to albo zmienia się definicję zjawiska, tak
by móc ten przypadek wyłączyć z analizy, albo przeformułowuje się hipotezę, tak
by się zgadzała z tym przypadkiem i wszystkimi poprzednimi. Tak postępuje się do
czasu, gdy niezgodne przypadki przestaną się pojawiać (Robinson, 1951).
Kodowanie tematyczne
Kodowanie tematyczne stosuje się w jakościowych badaniach porównawczych,
które odpowiadają na pytanie o związek między środowiskiem społecznym a poglądami na pewien temat. W takim badaniu definiuje się dwie populacje, a przypadki dobiera metodą próbkowania teoretycznego. Dane zwykle pochodzą z wywiadu. Analizę prowadzi się tak, by zapewnić porównywalność wyników.
Punktem wyjścia analizy jest cały przypadek. Opisuje się go za pomocą motta
wywiadu (stwierdzenia, które najlepiej oddaje pogląd badanego) oraz obiektywnych danych o badanym i głównych wrażeń badacza. W ten sposób cały przypadek redukuje się do kilkunastowierszowego tekstu. W następnym kroku zestawia
się przypadki z jednej populacji, tworząc coś w rodzaju spisu mott (zestawienia
wariantów wypowiedzi). Jeśli nowy przypadek wnosi nowy wariant, spis się poszerza. Spis podlega też porządkowaniu. Jeśli okazuje się, że w poglądach badanych
powtarza się jakieś motto (np. technologia), to rozbija się je na „submotta” (np.
technologia jako urządzenie, sposób życia, nieznana nauka). Porównanie takich
spisów, czyli struktur tematycznych wydobytych z wywiadów z przedstawicielami
obu populacji, pozwala odpowiedzieć na pytanie badawcze.
Analiza treści
Analiza treści zmierza do obiektywnego ujawnienia cech tekstu. Poddaje się jej nie
tylko protokoły wywiadu, lecz także podręczniki, artykuły prasowe, przemówienia, pamiętniki, audycje radiowe, programy telewizyjne, reklamy itp. Klasycznego
przykładu analizy treści dostarczają badania nad wiedzą społeczną ukrytą w podręcznikach szkolnych: o narodach i grupach etnicznych, rolach płciowych, klasach
społecznych, wzorach życiowych itp. W ten sposób można też badać orientacje
ideologiczne i uprzedzenia rasowe (wykazano na przykład, że czarni zajmowali
mniej niż 9% czasu poświęconego na wystąpienia ludzi w wieczornych programach głównych stacji telewizyjnych w USA). Jest oczywiste, że prawomocność
takich wniosków zależy od metody próbkowania tekstów. Jeśli próbka tekstów jest
niereprezentatywna dla badanego nadawcy (indywidualnego lub zbiorowego),
prawomocności wniosków obronić się nie da.
Analiza treści zmierza przede wszystkim do redukcji materiału (Cartwright,
1965). Jednostki kodu pochodzą spoza tekstu i często mają charakter ilościowy:
liczba pewnych fraz, objętość tekstu, czas (np. czas pokazywania osoby białej, czas
pokazywania osoby czarnej, czas pokazywania obu tych osób naraz i czas interakcji między białym i czarnym). Przed rozpoczęciem kodowania definiuje się jednostki analityczne: kodową (najmniejszy element tekstu, który może podpadać
pod kategorię) i kontekstową (największy element tekstu, do którego trzeba się
odwołać, by ustalić sens jednostki kodowej). Gdy trzeba oszacować stopień pewnej cechy (np. przyjaznego ustosunkowania się do siebie rozmówców programu
publicystycznego), można użyć skali szacunkowej.
Jeśli celem analizy jest streszczenie tekstu, to pomija się dygresje, dłuższe fragmenty zastępuje parafrazą, a parafrazy podsumowuje. Gdy celem jest zrozumienie niejasnych fragmentów tekstu, szuka się klucza albo w samym tekście, albo
poza nim (w biografii autora, w warunkach wytwarzania tekstu, w słowniku lub
w teorii). Pewna nauczycielka powiedziała w wywiadzie, że w odróżnieniu od
niektórych kolegów nie jest typem wodzireja. Jak to rozumieć? Można zacząć od
słownika (wodzirej kieruje tańcami na balu), potem przyjrzeć się rozproszonym
po tekście charakterystykom kolegów i dojść do wniosku, że dla badanej nauczycielki typ wodzireja to ktoś, kto gra rolę osoby ekstrawertywnej, pełnej werwy,
błyskotliwej i pewnej siebie, choć niekoniecznie taki jest. Taki wniosek nazywa się
parafrazą wyjaśniającą.
Strukturalizująca analiza treści zmierza do ujawnienia formalnych lub treściowych cech tekstu. Cechy formalne to na przykład procent zdań w stronie biernej,
zdań bez podmiotu, szczególnych struktur składniowych. Cechy treściowe to motywy (np. porażki: ile razy pojawia się wzmianka o tym, że badanemu coś się nie
udało), role (np. ile razy pojawia się zwierzchnik) itp. Szuka się też wymiarów,
czyli czegoś w rodzaju skal porządkowych. Jeśli osoba badana mówi: „Jakoś sobie z tym radziłam, ale był to spacer po linie”, możemy zobaczyć, czy w tekście
nie występują inne określenia tego rodzaju (np. „Byłam zupełnie pewna, że mam
rację”). Taki wymiar (tu „pewność siebie”) można przedstawić w postaci rozkładu
częstości wypowiedzi należących do poszczególnych poziomów. Podobnie można
zliczać interesujące badacza motywy, role, sytuacje, zdarzenia itp.
Analiza treści utrzymuje się na powierzchniowej warstwie tekstu, ale za to daje
jednolity układ kategorii, co ułatwia porównywanie przypadków. Zbliża się do podejścia ilościowego, bo kategorie są wnoszone do tekstu z zewnątrz, a interpretacja
tekstu jest schematyczna.
Opisywana metoda stosuje się także do dokumentów obrazowych, np. filmów
fabularnych, które są świadectwami swojego czasu: pokazują, jak społeczeństwo
definiuje wartości swojej kultury i jak podchodzi do problemów społecznych.
Denzin (1989) radzi:
• najpierw potraktować film jako całość, notując wrażenia, pytania i narzucające
się wiązki znaczeń,
• sformułować pytania badawcze i wydzielić kluczowe sceny,
• przeprowadzić „ustrukturalizowaną mikroanalizę” pojedynczych scen i sekwencji, tak by dojść do szczegółowych opisów epizodów,
• wrócić na poziom całego filmu i odpowiedzieć na pytanie badawcze (np. zinterpretować film jako obraz konsekwencji alkoholizmu głowy rodziny z perspektywy feminizmu),
• zestawić tę interpretację z interpretacjami innych widzów (np. krytyków filmowych) i wyjaśnić rozbieżności przez odniesienie ich do swoistych doświadczeń
widzów.
Szczegółowy przegląd zagadnień i metod badań środków masowego komunikowania daje Priest (1996).
Analiza sekwencyjna
Większość tekstów ma swoją postać (gestalt), co znaczy, że sens każdego wypowiedzenia wywodzi się z wypowiedzeń, które go otaczają, i z warunków komunikacyjnych, w których jest wytwarzane. Kodowanie, które wyodrębnia fragmenty
tekstu i tworzy z nich nowe wzorce, niweczy integralność tekstu jako konstrukcji
liniowej i czasowej. Analizy sekwencyjne mają temu zaradzić. Nazwa pochodzi
stąd, że respektują one kolejność, w jakiej tekst rozwija temat. To, co już zostało
powiedziane, rodzi oczekiwania co do dalszego ciągu. Dalszy ciąg tekstu może je
albo potwierdzać, albo obalać. Idzie o badanie takich ciągłości i przełomów.
W literaturze można znaleźć kilka odmian tej metody.
Analiza konwersacji. Analiza konwersacji wyrasta z etnometodologii. Przedmiotem zainteresowania badacza nie jest tu osoba, lecz codzienna interakcja jako
zjawisko społeczno-językowe. Treść interakcji ma mniejsze znaczenie niż jej „logika”: reguły, za pomocą których ludzie nadają porządek i sens temu, co ich otacza
i co sami robią (przykładem jest sterowanie kolejnością wypowiadania się). Jakkolwiek wiele codziennych interakcji robi wrażenie przypadkowych, zwolennicy
tej orientacji utrzymują, że są one ściśle zdeterminowane: każda interakcja wytwarza swój własny kontekst regulacyjny, który sprawia, że musi się ona potoczyć
i zakończyć tak a tak. Analizę konwersacji zalicza się do metod sekwencyjnych,
ponieważ zrozumieć, co w interakcji ważne, można dopiero wtedy, gdy uchwyci
się ten kontekst. Pionierskie analizy H. Garfinkela dotyczyły konwersacji codziennych. Obecnie chętniej analizuje się konwersacje przebiegające w ramach szczególnej instytucji społecznej (np. lekarz–pacjent, doradca–klient).
Zauważmy, że sekwencyjność tej analizy nie polega na sięganiu do wcześniejszych fragmentów tekstu, by wyjaśnić późniejsze, lecz na rekonstrukcji porządku
wymiany w konkretnej sytuacji. Załóżmy, że interesuje nas otwarcie interakcji doradca–klient. Analiza polega na wyszukiwaniu w protokołach obserwacji stwierdzeń w rodzaju: „Co panią do nas sprowadza?”, które oznaczają zwrot od luźnej
konwersacji do jej szczególnej formy. Kolekcja takich zwrotów w postaci szczegółowych zapisów pozwala ujawnić rolę danego elementu w wytwarzaniu porządku
interakcji i problemy organizacji interakcji, które ten element usiłuje rozwiązać.
Jak widać, badacza interesuje to, jak funkcjonuje maszyna konwersacyjna, a nie –
jakie są subiektywne znaczenia lub intencje uczestników konwersacji.
Analiza dyskursu. Tę odmianę rozwija się na gruncie teorii modeli kulturowych. Celem analizy jest ujawnienie, jak uczestnicy dyskursu konstruują swoje
wersje zdarzeń (spostrzeżenia, wspomnienia) w procesie porozumiewania się
i jak te wersje, jako zjawiska dyskursywne, konstytuują rzeczywistość społeczną
(Edwards i Potter, 1992). Jednym z wątków analizy jest poszukiwanie „repertuarów interpretacyjnych”, które służą do takich konstrukcji. Są to niezwerbalizowane
pojęcia, które skłaniają ludzi do formowania swoich wersji w określony sposób.
Na przykład w pewnym doniesieniu pokazano, że stanowiska w dyskusji o losach
Maorysów dały się wyjaśnić za pomocą ukrytego pojęcia kultury („kultura jako
dziedzictwo” i „kultura jako terapia”). Takim rekonstrukcjom można poddawać
codzienne rozmowy, protokoły z wywiadów zbiorowych, debat parlamentarnych,
doniesień prasowych (np. w sprawie reformy oświaty) itp.
Szczególnie obiecujące wydają się analizy dyskursu szkolnego. Już zwykłe zestawienie sposobów, jakimi nauczyciel komunikuje swoją wersję świata uczniom,
i warunków, w jakich stają się one zjawiskami dyskursywnymi, mogłoby wyprowadzić pedagogikę poza normatywne schematy (np. osławione ogniwa lekcji).
Jeszcze ciekawsze byłyby analizy dyskursu pedagogicznego (np. referatów czy
publikacji naukowych). Jak to się dzieje, że pewna (czyjaś) wersja świata wchodzi w obieg, a inna nie? Jakie repertuary interpretacyjne rządzą krytyką? Gdyby
autorzy, którzy rozprawiają o „rzeczywistości wychowawczej”, spojrzeli na swój
przedmiot jak na twór dyskursywny, w którym i oni mają swój udział, udałoby się
zneutralizować niejeden zastarzały stereotyp.
Analiza narracji. Narracje, jak pamiętamy, pochodzą z wywiadu narracyjnego.
Jak analizować takie opasłe protokoły? Schütze (cyt. za Flick, 1998) radzi: Najpierw usuń fragmenty nienarracyjne (np. wzmianki o przeczytanych książkach)
i podziel tekst na formalne sekcje. Wyodrębnij ograniczone w czasie „struktury
procesów życiowych” na podstawie takich łączników narracyjnych, jak „a potem”
lub pauza, i zrób z nich strukturalny spis treści. W trzecim kroku dokonaj abstrakcji, tj. przedstaw życie badanego w postaci w czasowego następstwa struktur procesualnych aż do struktury współczesnej. Teraz włącz fragmenty nienarracyjne.
Jeśli porównasz wiele zanalizowanych w ten sposób przypadków, możesz wykryć
powiązania między strukturami procesualnymi (np. między strukturą procesu
kształcenia się a strukturą wychowywania własnych dzieci).
Inny autor proponuje bardziej naturalne podejście: Najpierw zrób szkic biografii narratora (chronologiczny spis znaczących zdarzeń życiowych), potem podziel
tekst na sekcje i opatrz je tytułami, utwórz sekwencje tematyczne, dodaj ilustrujące
je cytaty, wreszcie dobierz stwierdzenie, które chwyta jądro biografii (np.: „Moje
życie to pasmo walki z poczuciem niższości”). Pozostaje sklasyfikować przypadki
ze względu na typy procesów (sekwencji tematycznych) i powiązać tę klasyfikację
ze środowiskami życiowymi badanych.
Opisane metody analizy łączy założenie, że spontaniczna narracja jest prawdziwą rekapitulacją przeszłych zdarzeń i doświadczeń, a zadaniem badacza jest
wydobyć jej obiektywne struktury, czyli powiedzieć o życiu badanego więcej, niż
wie on sam. To założenie jest wielce wątpliwe, co potwierdza fakt, że nie spełniły się, jak dotąd, nadzieje na stworzenie ogólnej teorii struktur czy procesów
życiowych. Narracja jest konstrukcją subiektywną, ale i społeczną: czerpie wzorce
z lamusa kultury. Dlatego coraz częściej powiada się, że celem analizy jest ujawnić
zasady tej konstrukcji, a nie odtworzyć to, co się faktycznie działo. Szczególnie
płodna wydaje się heurystyka, która zaleca szukać związków między faktami (np.
kluczowymi decyzjami życiowymi, takimi jak wybór studiów, wybór kariery zawodowej, wybór partnera życiowego) a różnymi interpretacjami tych faktów, jakie
się pojawiają w tekście, czyli różnymi kostiumami, w jakie stroi się badany.
Wydobywanie regularności
Jakkolwiek nie wszystkie badania jakościowe o charakterze teoretycznym zmierzają do sprawdzania jawnie postawionych hipotez, to wszystkie usiłują wydobyć
regularności ukryte w danych. Jedynie w badaniach praktycznych można się zadowolić zwykłym streszczeniem tego, co badacz usłyszał lub zobaczył: że większość
rozmówców była zadowolona z wprowadzonej zmiany, że niezadowoleni podnosili takie a takie obiekcje, że staranność pracy wzrosła itp.
Regularność to kwestia współwystępowania: coś z czymś idzie w parze albo się
wyklucza. Ariès (1995, s. 170n) zauważył (choć nie dostarczył zestawień liczbowych),
że od XVI w. pojawianiu się w ikonografii scen rodzinnych z udziałem dzieci towarzyszy wycofanie się rodziny z pleneru w zacisze domu mieszkalnego, i wysnuł stąd
wniosek, że odkrycie dzieciństwa jest związane z intensyfikacją życia rodzinnego.
Tego rodzaju zestawienia są nieodłącznym elementem analizy danych jakościowych.
Ilekroć łączymy ze sobą dwie jednostki kodu (A1, A2) w kategorię A, a dwie
inne jednostki (B1, B2) w kategorię B, formułujemy niejawny sąd o współwystępowaniu (np. A1 idzie w parze z A2, a wyklucza się z B1). Nazwa „kodowanie” skrywa ten drugi aspekt analizy, dlatego lepiej odróżniać kodowanie jako segmentację
i oznaczanie danych od mniej lub bardziej systematycznego zestawiania (porównywania) jednostek kodu w celu wykrycia regularności.
Każdy sąd o współwystępowaniu opiera się albo na konwencji znaczeniowej,
albo na fakcie empirycznym. W pierwszym przypadku łączymy ze sobą bliskoznaczne jednostki kodu. Załóżmy, że analizując protokół obserwacji lekcji, kodujemy jedno zachowanie nauczycielki jako „krzyczy na uczniów” (A1), inne jako
„stawia do kąta” (A2), jeszcze inne jako „krytykuje wytwór ucznia” (A3). Przystępując do scalania tych jednostek kodu, możemy dojść do wniosku, że ich wspólnym mianownikiem znaczeniowym jest coś, co można nazwać przejawami negatywnego ustosunkowania się do ucznia, i połączyć je w nadrzędną kategorię.
Łatwość takiego łączenie wiedzie jednak na manowce: badacz coraz śmielej
narzuca danym własne konwencje znaczeniowe i w rezultacie opowiada własną
historię, zamiast zdawać sprawę ze złożoności tekstów źródłowych. Jest to bodaj
najważniejszy powód nieufności wobec doniesień z badań jakościowych. Jedyny
ratunek przed tą pułapką to empiryczne ugruntowanie sądów o współwystępowaniu. W powyższym przykładzie polegałoby ono na sprawdzeniu, czy te trzy jednostki kodu rzeczywiście współwystępują ze sobą w obrębie przypadku (tj. części
jednej lekcji lub kilku lekcji prowadzonych przez tę samą nauczycielkę).
Intuicyjne oszacowanie współwystępowania jest zawodne. Przekonuje o tym
badanie, w którym pokazano badanym dane z rzekomego 50-dniowego eksperymentu wywoływania kondensacji pary wodnej w atmosferze („sadzenia” chmur).
Każdy dzień eksperymentu opisano dwoma symbolami: czy posadzono chmury,
czy nie, i czy padał deszcz, czy nie. Mimo że symbole były dobrane losowo, badani utrzymywali, że oba zdarzenia współwystępują ze sobą – pewnie dlatego, że
ludzie lepiej zauważają (i zapamiętują) przypadki zgodne z ich oczekiwaniem niż
niezgodne. Dlatego nawet w analizie jakościowej trzeba liczyć, w ilu przypadkach
pojawia się spodziewana konfiguracja jednostek kodowych. Możliwy wynik takiego rachunku przedstawia poniższa tabela.
Konfiguracja
A1 A2 A3
A1 A2 a3
A1 a2 a3
a1 A2 A3
a1 a2 A3
a1 a2 a3
Liczba przypadków
2
5
1
2
9
1
Duża litera oznacza obecność, a mała brak danej jednostki kodu. Pierwszy wiersz
tabeli informuje więc, że w dwóch przypadkach występują wszystkie trzy jednost-
ki kodu, następny – że w pięciu przypadkach występują jednostki: „krzyczy na
uczniów” i „stawia do kąta”, ale brak jednostki „krytykuje wytwór ucznia” itd.
Analizę takich danych można prowadzić według Boolowskiej zasady minimalizacji. Polega ona na porównywaniu par niepustych konfiguracji ze względu na występowanie wybranej cechy i eliminowaniu cech, które w jednej konfiguracji występują,
a w drugiej nie (takie cechy są bowiem ewidentnie niezwiązane z wybraną cechą).
Weźmy trzy konfiguracje, w których występuje A3, i utwórzmy z nich wszystkie możliwe pary. W jednej parze powtarza się A2, w drugiej a1, a trzecia nie ma wspólnych
elementów. Możemy zatem napisać: A3 = a1 + A2 (plus oznacza tu sumę logiczną: nauczycielka krytykuje prace uczniów, gdy nie krzyczy lub gdy stawia do kąta). Podobna analiza dla a3 daje równanie a3 = A1 + a2 (nauczycielka nie krytykuje uczniów, gdy
krzyczy lub gdy nie stawia do kąta). Wynika stąd, że krytykowanie i krzyk wykluczają
się wzajemnie, natomiast krytykowanie i stawianie do kąta idą ze sobą w parze.
Dokładniejsza analiza powinna uwzględniać liczbę przypadków, w których
zanotowano poszczególne konfiguracje. Jest to w pełni uzasadnione: im rzadziej
pojawia się pewna konfiguracja, tym większe podejrzenie, że wzięła się z błędu
obserwatora lub przypadkowego zbiegu okoliczności, z którym zawsze trzeba się
liczyć. Rzut oka na tabelę wystarcza, by zobaczyć, że pierwsze dwie jednostki kodu
idą w parze: zgodnie pojawiają się lub nie pojawiają w 17 przypadkach na 20, a tylko w 3 przypadkach jedna występuje bez drugiej. Ale trzecia jednostka idzie osobno, a nawet zdaje się wykluczać z pierwszą. Nie ma więc empirycznych podstaw do
włączenia trzeciej jednostki kodu do tej samej kategorii, w której są dwie pierwsze.
Empiryczna analiza współwystępowania przynosi owoce, gdy obala – jak
w powyższym przykładzie – intuicje znaczeniowe badacza i zmusza go do zastanowienia się nad sensem nieoczekiwanej regularności. Być może w tym tekście
krytykowanie wytworu jest składnikiem klimatu wytężonej pracy, w którym zbędne jest dyscyplinowanie uczniów krzykiem czy podobnie ekspresyjnymi środkami. Jest to przykład hipotezy ad hoc, która może ukierunkować dalszą pracę nad
wydobywaniem regularności z danych.
Systematyczne stosowanie analizy współwystępowania jednostek kodu jest
właściwą drogą do tworzenia empirycznie ugruntowanych typologii. W ten właśnie sposób, dysponując 8 przypadkami nauczycielek szczebla początkowego (każdy był reprezentowany przez protokoły obserwacji 15 lekcji), wykryłem cztery
typy praktyki oświatowej.
Typ wymagający – nauczycielka autorytatywnie żąda od uczniów zdyscyplinowanego
wysiłku w celu przyswojenia treści przewidzianej przez program, organizuje system nacisków skłaniających do wytężonej pracy (np. często stawia stopnie, w tym negatywne,
które trzeba poprawiać, wprowadza współzawodnictwo), życie społeczne klasy podporządkowuje nauczaniu, jest chłodna, w kontaktach z uczniami zachowuje dystans i unika osobistych akcentów.
Typ napastliwy – na zakłócenia toku lekcji reaguje krzykiem i groźbami, długimi reprymendami lub teatralnymi oznakami cierpienia i zniechęcenia, skąpo udziela wskazówek, często odmawia pomocy, jest oszczędna w pochwałach, a chętna do sarkazmu, ma
pretensje, że uczniowie źle się zachowują względem siebie, ale często sama doprowadza
do zadrażnień między nimi, jest chłodna lub kapryśna.
Typ pobudzający – rutynowe ćwiczenia przeplata budzącymi zainteresowanie zagadkami, stosuje urozmaicone formy pracy (w tym pracę zespołową), wymaga samodzielności, ale często też naprowadza i koryguje rozumowanie ucznia, w ocenianiu toleruje formalne usterki, szukając raczej oznak zrozumienia materiału, wystrzega się napastliwej,
uogólniającej krytyki, jest ciepła.
Typ chroniący – wczuwa się w trudności uczniów i próbuje zapobiec stresowi lub go
złagodzić, unika stawiania ucznia w trudnej sytuacji, rzadko pyta „na stopień”, a oceniając, koncentruje się raczej na staranności wykończenia niż na oryginalności czy
głębokości rozumienia, dostrzega i chwali wysiłek, łagodzi konflikty między uczniami,
rzadko okazuje oburzenie z powodu wykroczeń, częściej „tłumaczy”, uwydatniając psychologiczne skutki złego czynu.
Dopiero gdy badacz dysponuje niearbitralnymi i bogatymi w znaczenia kategoriami, może je zamykać w przestrzeni znaczeniowej. W omawianym przykładzie cztery typy dają się zinterpretować jako punkty w dwuwymiarowej przestrzeni „pedagogii szkolnej”:
Wymiar sposobu
Bezosobowy
Osobowy
Wymiar celu
dydaktyczny
wychowawczy
wymagający
napastliwy
pobudzający
chroniący
Widać na przykład, że pedagogia wymagań to dążenie do celów dydaktycznych
bez wczuwania się w przeżycia dziecka, a pedagogia ochrony to dążenie do celów
wychowawczych (uspołecznienia) z uwzględnianiem przeżyć dziecka.
Przejdźmy teraz do sądów o współwystępowaniu, które nie opierają się na
konwencji znaczeniowej, np. o tym, że kryzys finansowy współwystępuje z załamaniem się harmonii rodzinnej. Takie sądy w jeszcze większym stopniu muszą
opierać się na empirycznej analizie regularności. Często badacz uzasadnia je zestawieniem danych (np. cytatów z pamiętników, wypowiedzi uczniów, epizodów
interakcyjnych), które przemawiają za wnioskiem. Jest to podejście nienaukowe,
ponieważ milczy o danych, które przeczą hipotezie lub się z nią nie wiążą. W ten
sposób można udowodnić wszystko.
By uniknąć takiego zarzutu, Ritchie i Spencer (1995) opracowały specjalną procedurę analizowania danych jakościowych. Składa się ona z pięciu kroków. Krok
pierwszy to ogólne zapoznanie się z całym materiałem. Krok drugi to stworzenie
struktury tematycznej, czyli listy zagadnień (np. w badaniu zmian standardu życiowego rodzin są to pytania o bieżący dochód i jego źródła, o wydatki skreślone,
zredukowane, utrzymane i zwiększone oraz o opinie, jak te zmiany wpływają na
życie rodzinne). Krok trzeci to indeksowanie danych. Indeksowaniem nazywają
autorki oznaczanie fragmentów odpowiadających zagadnieniom ujętym w strukturze tematycznej. Krok czwarty to tabelaryczne zestawienia danych. Każdemu
tematowi odpowiada jedna tabela. Wiersze tabeli reprezentują przypadki (np.
zbadane rodziny), a kolumny – poszczególne jednostki indeksu odpowiadającego
tematowi (tematowi „wydatki” odpowiadają kolumny „dobra utrzymane”, „dobra
zredukowane”, „okresy kontrolowania wydatków” itd.). W kratkach tabeli umiesz-
cza się teksty: streszczenia wypowiedzi badanych, czasem cytaty. Ponieważ przypadki umieszcza się w tabelach w stałej kolejności, zbiór n-tych wierszy z poszczególnych tabel reprezentuje n-te studium przypadku.
W ostatnim kroku znajduje się odpowiedzi na pytania badawcze. Służy temu
systematyczne przeszukiwanie zawartości kolumn, ale też skoki intuicji i wyobraźni. Pytania badawcze mogą dotyczyć pojęć, które ma badana zbiorowość (np.
co się składa na pojęcie stopy życiowej: wielkość dochodu, rzeczy, na które ich
stać lub na które ich nie stać, możliwość wybierania, bezpieczeństwo finansowe,
mozół wiązania końca z końcem, majątek, oczekiwania, szacunek do siebie, zadowolenie z życia itd.), znaczeniowych wymiarów zjawisk, typologii (na podstawie
krzyżowania wymiarów) czy związków (np. między poglądami rodzin a cechami
ich położenia społecznego).
Procedura Ritchie i Spencer jest próbą usystematyzowania analizy danych
jakościowych na podobieństwo analiz ilościowych. Temat odpowiada zmiennej,
jednostki indeksu – wartościom zmiennej, czyli wyczerpującej liście pojęciowo
i pomiarowo rozłącznych stanów rzeczy. W kratkach tabeli wystarczy wówczas
zaznaczyć obecność lub nieobecność tej wartości w każdym przypadku. Taka tabela prowadzi bezpośrednio do sądów o współwystępowaniu, czyli do ujawnienia
regularności w danych. Niestety, propozycja autorek, jak i wiele jej podobnych,
grzeszy pomieszaniem indeksów-opisów i indeksów-tytułów. Rzecz w tym, że opis
zastępuje materiał, tytuł natomiast tylko go zapowiada.
Załóżmy, że w wywiadzie znajdujemy taki passus (o dzieciach):
Matka: Kiedyś zabierali do szkoły jabłko, banana czy coś w tym rodzaju. Albo dawałam
im pieniądze, żeby sobie coś kupili w sklepiku szkolnym. Teraz już tak nie jest.
Temat, do którego odnosi się ten fragment, mógłby brzmieć: „wpływ spadku
dochodu na dzieci”, a sam fragment mógłby być reprezentowany indeksem opisowym „ograniczenie konsumpcji w szkole”. Proste przejrzenie zer i jedynek w odpowiednich kolumnach prowadziłoby do sądów w rodzaju: „Rodziny o niższym
statusie socjoekonomicznym rzadziej decydują się ograniczyć dziecięcą konsumpcję w szkole niż rodziny o wyższym statusie”.
Inaczej jest, gdy tematem staje się „wpływ kryzysu na życie rodzinne”, a indeksem „wpływ na dzieci”. W tak zatytułowanej kolumnie zbiera się wtedy najróżniejsze teksty: że nie dostają kieszonkowego, że wyjeżdżają na krótsze wakacje, że
wstydzą się niemodnego ubioru, że bardziej pomagają przy zajęciach domowych
itd. Takie zestawienie porządkuje dane, ale w żadnym stopniu nie pomaga wydobyć z nich regularności, toteż musi być prędzej czy później rozbite na bardziej
jednorodne kolumny.
Opisane podejście ujawnia istotne podobieństwa między analizą danych jakościowych i ilościowych. W obu przypadkach strukturalizuje się dane z myślą
o pożądanych czy przeczuwanych regularnościach, choć w pierwszym strukturalizacja nigdy nie jest ostateczna. Jeśli spodziewana regularność się nie ujawnia, dane
jakościowe zawsze można poddać gruntownej restrukturalizacji (tj. inaczej zdefiniować tematy i indeksy). Z danymi ilościowymi zrobić tego nie można, ponie-
waż ich struktura jest wyznaczona przez zastosowane narzędzia pomiaru. W obu
przypadkach operuje się też liczbami, choć w pierwszym są to zwykle rachunki
elementarne i często niejawne. Zobaczmy to na przykładzie.
Szukając związków między pozycją osób zatrudnionych w młodzieżowym
ośrodku szkoleniowym a sposobem nazywania przez nich młodzieży niepełnosprawnej, Ritchie i Spencer (1995) proponują taką tabelę:
Używane etykietki
osoba niesprawna
Z1
Z5
Z8
osoba z handicapem
Z2
Z3
Z6
P6
osoba z niesprawnością
P1
P2
P3
P4
D2
osoba ze
szczególnymi
potrzebami
D1
D5
D8
Z4
Z7
P5
osoba pokrzywdzona
D2
D4
D6
W tabeli sklasyfikowano osoby (Z – zarządcy ośrodka, P – członkowie personelu ośrodka, D – doradcy do spraw zatrudnienia) według tego, jak nazywały
swoich podopiecznych. Choć w tej tabeli nie ma liczb, można ją zrozumieć tylko
na podstawie porównań ilościowych (np. „pokrzywdzonymi” nazywa niepełnosprawnych połowa doradców i ani jeden zarządca). Znacznie więc lepiej nadać jej
jawnie liczbową formę:
Używane etykietki
Pozycja
Zarządcy
Personel
Doradcy
osoba niesprawna
3+
osoba
z handicapem
3+
1
0–
osoba
z niesprawnością
0–
4+
1
osoba ze
szczególnymi potrzeosoba pobami
krzywdzona
2
0–
1
3
4+
Tabela ta zachowuje wszystkie informacje poprzedniej (z wyjątkiem nieistotnej
tu tożsamości przypadków), a jest znacznie bardziej czytelna. Więcej – pozwala
użyć rachunku prawdopodobieństwa do wykrycia dużych odchyleń liczebności
zaobserwowanych od liczebności, których można by się spodziewać, gdyby danymi w całości rządził przypadek. Plus w kratce oznacza, że jest w niej istotnie więcej
osób, a minus – mniej osób, niż można by oczekiwać. Tabela ujawnia związek
między pozycją respondentów a ich poglądami i pozwala go precyzyjnie określić:
zarządcy definiują młodzież przez niesprawność lub handicap, personel ośrodka
traktuje niesprawność jako przypadłość, a nie piętno, doradcy zaś koncentrują się
raczej na skutkach niepełnosprawności, wymagających przeciwdziałania. Tabela
pokazuje też granice tego uogólnienia (liczby przypadków, które się z niego wyła-
mują). Lepsze to niż werbalna lub graficzna retoryka, która z reguły przecenia jego
siłę. Wreszcie tabela ujawnia kategorię definicyjną, której nie różnicuje pozycja
respondentów („osoba o szczególnych potrzebach”) i tym samym rodzi nowe, być
może płodne pytanie analityczne.
Komputer w badaniach jakościowych
Kojarzony powszechnie z rachunkami, komputer coraz szerzej wkracza do badań jakościowych. Lekki komputer przenośny służy jako notatnik: możemy
w nim prowadzić dziennik i redagować notatki terenowe: wprowadzać je, poprawiać, uzupełniać, opatrywać komentarzami. W edytorze tekstu sporządza się
też protokół z nagrań. Mając wszystkie teksty w pamięci komputera, nie tylko
nie musimy ich szukać po szufladach, ale też możemy je analizować szybciej
i rzetelniej.
Komputer znacznie ułatwia kodowanie tekstu, docieranie do już zakodowanych fragmentów i zmienianie kodu w czasie pracy. Przy analizie treści komputer
jest nieoceniony w zliczaniu częstości słów lub fraz, a także pozycji słów lub fraz
w tekście względem siebie. Ponadto komputer pomaga empirycznie kategoryzować dane (wiązać ze sobą jednostki kodu) i znajdować związki między kategoriami (sprawdzać hipotezy). Unaocznia strukturę danych w postaci tabel lub
dendrytów, dzięki czemu łatwiej ją uchwycić. Jeśli jest włączony do sieci, ułatwia
porozumiewanie się badaczy pracujących nad tym samym projektem. Niezliczone
decyzje, jakie podejmuje się w trakcie badania, zostają zarejestrowane i mogą być
łatwo odtworzone. Dzięki temu cały proces badawczy staje się bardziej przejrzysty,
poddaje się replikacji, a przez to jest bardziej wiarygodny. No i oczywiście komputer pomaga pisać oraz ilustrować końcowe doniesienie.
Użyteczny jest nawet komputer bez specjalnego oprogramowania. Już najprostszy edytor tekstu rewolucjonizuje pisanie, o czym wie każdy, kto wcześniej
wystukiwał swoje teksty na maszynie. Edytor pozwalający wyszukiwać i indeksować słowa to często wszystko, czego nam trzeba. Na rynku są też specjalne programy do analizy jakościowej. Ponieważ nie są tanie, warto się z nimi dobrze zapoznać przed zakupem.
Podstawowym kryterium wyboru jest możliwość uruchomienia programu
na komputerze, którym dysponujemy. Trzeba więc sprawdzić, jakiego sprzętu
wymaga (procesor, wielkość RAM, ilość miejsca na dysku, jakość karty graficznej i monitora) i w jakim środowisku pracuje (system operacyjny, aplikacje współpracujące). Każdy program ma funkcje analityczne, z których można
korzystać od razu: dzielenie tekstu na fragmenty, oznaczanie ich jednostkami
kodu, zliczanie jednostek i przeglądanie fragmentów opatrzonych tą samą jednostką. Do bardziej złożonych (np. określanie relacji między jednostkami kodu
a kategoriami lub między kategoriami) użytkownik będzie dorastał w miarę pracy nad tekstami źródłowymi.
Przykładami programów są ATLAS/ti T. Muhra, AQUAD G. Hubera i NUDIST T. i L. Richardsów. Ci ostatni (Richards i Richards 1995) wychodzą z założenia, że badacz, który gromadzi materiał jakościowy, musi prędzej czy później
zacząć go porządkować, żeby nie stracić nad nim kontroli. To porządkowanie zwykle polega na tym, że wyróżnia się fragmenty protokołów i umieszcza się je w katalogu tematycznym (np. w szufladce „definicje dobrego sąsiedztwa”). Przywraca
to panowanie nad danymi w tym sensie, że badacz wie, co zawierają jego dane,
i w każdej chwili może zapoznać się z zawartością poszczególnych tematów. Ale,
zauważają autorzy, zaciera świadomość, że takie porządkowanie nie jest niewinnym zabiegiem technicznym, lecz decyzją teoretyczną.
Dlatego ich NUDIST zawiera dwie bazy danych: surowych materiałów i hierarchicznie uporządkowanych kategorii. To, co się zwykle nazywa kodowaniem,
autorzy proponują pojmować jako łączenie tekstu źródłowego z kategoriami za
pomocą odsyłaczy. Ponieważ baza kategorii przypomina indeks rzeczowy w książce, proponują nazywać takie łączenie indeksowaniem. Kategorie nie są uporządkowane alfabetycznie, lecz logicznie (w postaci dendrytu). Pełna nazwa kategorii obejmuje nazwy wszystkich kategorii nadrzędnych wobec niej (np. „wartości\
interakcje\sąsiedztwo\dobre sąsiedztwo”). Każda kategoria zawiera odsyłacze do
fragmentów oryginalnych danych, np. protokołów obserwacji lub wywiadów,
dziennika terenowego, artykułów prasowych. Oprócz nazwy kategoria ma swoją
definicję, a proces kategoryzowania – swoją historię (w każdym wierzchołku dendrytu mieści się informacja, kiedy stworzono poniższe rozróżnienie, czy i jak je
modyfikowano).
Jak widać, autorzy włożyli wiele wysiłku, by zapobiec oderwaniu interpretacji (kategorii) od danych (tekstu), co może grozić przy pospiesznym kodowaniu.
Trzeba pamiętać, że gdy zaczynamy operować jedynie etykietkami, możemy ostatecznie nadać im znaczenia całkiem obce tekstowi, z którego je wywiedliśmy. NUDIST pozwala szybko wyświetlić tekst źródłowy i sprawdzić, czy stosujemy kategorię konsekwentnie (w tym samym znaczeniu) i czy modyfikacje znaczeniowe
(potrzebne, gdy wiążemy ze sobą różne kategorie) mają wystarczającą podstawę
w tekście.
Dane ilościowe
Dane ilościowe analizuje się metodami statystyki. Przed analizą statystyczną stoją
dwa cele: syntetyczne przedstawienie zbioru danych i ustalenie prawomocności
wnioskowania z próbki o populacji. Stosownie do tego statystyka dzieli się na dwie
części: opisową i indukcyjną.
Przygotowanie danych do analizy
Dane ilościowe to zbiór wartości zmiennych obserwowalnych, które przyjmują
poszczególne obiekty z próbki. Analizę danych rozpoczynamy od ich zestawienia
w jednej tabeli. Wiersze tabeli odpowiadają przypadkom (np. uczniom), a kolumny zmiennym (płci, odpowiedziom na kolejne pytania ankiety itp.). Poniżej fragment takiego zestawienia:
Dane ilościowe 183
Zadania testu
Nr
1
2
3
4
5
...
NN
UJ
BG
DT
LW
AZ
...
Płeć
K
M
K
K
M
...
Grupa
E
K
E
E
K
...
Lata
4
1
4
4
3
...
Z1
4
4
4
4
4
...
Z2
2
0
1
0
0
...
Z3
3
5
3
3
3
...
Z4
4
4
4
4
4
...
Z5
2
0
2
.
0
...
Z6
0
2
0
0
0
...
Dane pochodzą z badania porównawczego, w którym sprawdzano hipotezę, że
sześciolatki przygotowywane do nauki szkolnej metodą dobrego startu (Bogdanowicz, 1989) wykazują w I klasie wyższy poziom umiejętności pisania niż dzieci przygotowywane w sposób tradycyjny. Kolejne kolumny przedstawiają: numer badanego, jego inicjały, płeć, grupę (eksperymentalna lub kontrolna), liczbę lat spędzonych
w przedszkolu oraz wyniki wykonania testu pisania. Kropka zamiast liczby oznacza
brak danych – dziewczynka LW opuściła, pewnie przez nieuwagę, zadanie 5.
Jak widać, wszystkie dane wpisujemy do zestawienia w formie nieprzetworzonej, by nie stracić żadnej informacji. Na wszelkie zabiegi scalające (np. grupowanie
badanych lub tworzenie nowych zmiennych) przyjdzie czas później. Błędem jest
więc obliczenie „na piechotę” łącznego wyniku badania testem czy skalą i wpisanie
go w jednej kolumnie. Jeśli to zrobimy, nie będziemy w stanie zobaczyć, jak dzieci
radziły sobie z poszczególnymi zadaniami, ani odpowiedzieć na wiele innych interesujących pytań, np. o siłę związku między parami zadań. Dlatego każde zadanie powinno tworzyć jedną zmienną, czyli jedną kolumnę w zestawieniu. Czasem
jedno zadanie testu trzeba opisać za pomocą kilku zmiennych. W naszym przykładzie pierwsze zadanie polegało na wskazaniu 4 samogłosek w zbiorze 10 rozsypanych liter. W zestawieniu wykonanie tego zadania opisują dwie zmienne: liczba
podkreślonych samogłosek (Z1) i liczba podkreślonych spółgłosek (Z2), a nie jedna
zmienna (np. tylko Z1 lub różnica Z1 – Z2). Gdybyśmy wpisali tylko liczbę trafnie
zidentyfikowanych samogłosek, nie wiedzielibyśmy, czy dziecko nie podkreśliło
wszystkich liter. Gdybyśmy wpisali tylko wartość różnicy, nie wiedzielibyśmy, co
się za nią kryje: mała liczba trafień czy duża liczba błędów. Trzeba też kilku zmiennych (zerojedynkowych), by zapisać jedną pozycję ankiety, która dopuszcza więcej
niż jedną odpowiedź.
Jeszcze gorszym błędem jest obniżanie poziomu pomiaru. Zdarza się, że badacz najpierw pracowicie testuje inteligencję uczniów w skali przedziałowej, po
czym dzieli rozkład wyników i wprowadza do zestawienia wartości w skali porządkowej, np. {inteligencja niższa, średnia i wyższa}. Czasem trzeba to zrobić (np.
gdy chcemy sprawdzić hipotezę o odmiennym układzie współczynników korelacji
między zmiennymi w tak utworzonych grupach), ale wtedy wystarczy wprowadzić
do zestawienia nową, trójwartościową zmienną, zachowując oryginalną.
Poprawnie wykonane zestawienie zawiera wszystkie dane, które zebraliśmy: np.
mówi, że dziewczynka UJ, należąca do grupy eksperymentalnej i chodząca przez
4 lata do przedszkola, znalazła wszystkie 4 samogłoski, ale ponadto zaliczyła do
samogłosek 2 spółgłoski itd. Odtąd protokoły, arkusze odpowiedzi, wypełnione
kwestionariusze itp. można zamknąć w szafie i pracować wyłącznie na zestawieniu.
Zaczynamy od obliczenia zmiennych złożonych (wskaźników), które tworzą
nowe kolumny zestawienia. Wynik testowania osiągnięć to zwykle suma albo lepiej: procent poprawnie wykonanych zadań. Wynik badania skalą psychologiczną
to suma albo lepiej: średnia wartości skalowych odpowiedzi na poszczególne pozycje. Często stosuje się też wyniki względne. Jeśli obserwujemy interakcje między
dziećmi, to operowanie surowymi liczbami może doprowadzić do całkowicie fałszywych wyników. Załóżmy, że interesuje nas częstość aktów typu: „Zachęca do
rozpoczęcia lub zmiany wspólnego działania”. W ustalonym interwale Jaś wykonał
5 takich aktów, a Małgosia 3. Jeśli jednak Jaś wykonał w tym czasie 7 innych aktów,
a Małgosia tylko 3, to względny wskaźnik inicjatywy Jasia (5/12) jest mniejszy niż
względny wskaźnik Małgosi (3/6). Podobnie wskaźnikiem pozycji społecznej ucznia w klasie nie może być sama liczba otrzymanych wyborów, lecz liczba podzielona przez liczbę możliwych wyborów. Ponieważ mianownik zależy od liczebności
oddziału klasowego, iloraz przestaje być od niej zależny. Względnego wskaźnika
pozycji można zatem używać do porównań międzyoddziałowych.
Można też tworzyć zmienne różnicowe1. W pewnym badaniu, chcąc zmierzyć
siłę gotowości do działania na rzecz innej osoby, prosiłem badanych, by wykonywali żmudną pracę na przemian na swój rachunek i na rachunek innej osoby.
Wskaźnikiem była różnica między wynikiem pracy w sesjach „dla innego” i w sesjach „dla siebie”. Budując zmienne złożone, powinniśmy wybierać formuły matematycznie najprostsze, dbać o przejrzystą interpretację (np. ważenie wyników
poszczególnych zadań przez współczynniki trudności z reguły zaciemnia sens wyniku), a przede wszystkim o porównywalność.
Jeśli badanie wymagało zebrania wielu różnych danych o wielu osobach, zestawienie może mieć setki wierszy i kolumn. Trudno sobie wyobrazić analizowanie
takich zestawień za pomocą ołówka i kalkulatora. Na szczęście dzięki powszechnej
dostępności komputerów osobistych badacz nie musi tego robić. Wystarczy, że wprowadzi zestawienie danych do pamięci komputera, uruchomi program statystyczny
(np. SPSS-PC) i będzie wiedział, jakich zażądać analiz i jak interpretować ich wyniki.
Przy zakładaniu pliku danych można popełnić wiele mechanicznych błędów,
dlatego przed analizą trzeba sprawdzić poprawność wprowadzonych danych. Nigdy dość przypominania, że komputerowe nośniki informacji są zawodne i dlatego pliki trzeba regularnie kopiować na dyskietkach lub taśmach.
Szybkość obliczeń za pomocą komputera często skłania badacza do beztroskiego żądania najrozmaitszych analiz, wskutek czego zostaje on zasypany górą wydruków, nad którą przestaje panować. Znacznie lepiej z góry zaplanować kroki analizy,
zaczynając od szczegółowego badania zmiennych. Z mojego doświadczenia wynika, że analizę komputerową dobrze jest prowadzić równolegle z pisaniem pierwszej
Trzeba jednak pamiętać, że rzetelność wyniku różnicowego może być znacznie
mniejsza niż rzetelności obu składników, jeśli są one ze sobą dodatnio skorelowane (Ferguson i Takane, 1999, s. 498).
1
Dane ilościowe 185
(szczegółowej) wersji doniesienia: wtedy wyraźnie widać, co i kiedy należy obliczyć,
jaką wersję analizy wybrać, co sprawdzić, by się upewnić co do sensu wyniku itp.
Przewodnikiem analizy danych jest projekt badawczy. Jak pamiętamy, określa on
operacje, które trzeba wykonać na danych, by sprawdzić hipotezę lub odpowiedzieć
na pytanie. Operacje te projektuje i sprawdza wyspecjalizowana część matematyki,
zwana statystyką. Znajomość metod analizy statystycznej była i będzie niezbędnym
elementem kwalifikacji badawczych. Dziś jednak badacz nie musi się już przedzierać przez formuły matematyczne i uczyć wzorów rachunkowych: w tym wyręczy go
program komputerowy. Musi natomiast wiedzieć, jakie metody statystyczne trzeba
zastosować do zebranych danych, by osiągnąć cel badania, i przestrzegać fundamentalnej zasady: „przy stosowaniu każdej techniki statystycznej należy zdawać
sobie sprawę z założeń przez nią przyjmowanych” (Blalock, 1975, s. 32).
Statystyka opisowa
W celu statystycznego przedstawienia zmiennej trzeba określić jej rozkład liczebności, wartość (tendencję) centralną i zróżnicowanie. Dla dwóch zmiennych możemy ponadto określić ich współzmienność.
Rozkład liczebności
Rozkład liczebności mówi, ile osób przypada na każdą wartość zmiennej. Jeśli
zmienna jest nominalna, wystarczy policzyć przypadki w każdej kategorii i sporządzić takie na przykład zestawienie:
Jak na Panią/Pana wpływa praca z dziećmi?
Opcja odpowiedzi
Odmładza
Raczej odmładza
Raczej męczy
Męczy
Razem
Liczba
34
58
36
4
132
Procent
26
44
27
3
100
Zamieniając liczebności na procenty, dostajemy rozkład procentowy, który ułatwia
uchwycenie stosunków między liczebnościami. Gdy liczba przypadków w podstawie procentowania jest mała, lepiej stosować proporcje (zamiast 26% – 0,26).
Jeśli zmienna jest ciągła (lub dyskretna, ale wielowartościowa), trzeba ją najpierw podzielić na mniejszą liczbę przedziałów. Wszystkie przedziały powinny
mieć tę samą szerokość, a ich liczba powinna się zawierać między 6 a 15. Rozkład
najlepiej przedstawić graficznie, np. w postaci wieloboku liczebności.
Wielobok na rys. 8.1 przedstawia rozkład wyników testowania osiągnięć szkolnych z matematyki na 477-osobowej próbce uczniów klasy VIII. Wyniki surowe
(liczba poprawnie wykonanych zadań) ułożyły się w przedziale od 3 do 18. Liczba wierzchołków wieloboku zależy od szerokości przedziału. Łatwo stwierdzić,
że przedział trzypunktowy wyznacza 5 wierzchołków, a przedział dwupunktowy
8 wierzchołków. Wybieramy drugi wariant i definiujemy przedziały: 3–4, 5–6 itd.
140
120
Liczebność
100
80
60
40
20
0
1,5
3,5
5,5
7,5
9,5 11,5 13,5 15,5 17,5 19,5
Wynik testowania
Rysunek 8.1. Wielobok liczebności wyników testowania osiągnięć szkolnych w matematyce
Gdy zmienna jest ciągła, dbamy, by krańce sąsiadujących przedziałów nie pokrywały się ze sobą (zatem 3–4,9; 5–6,9 itd., a nie 3–5, 5–7 itd.). Teraz odczytujemy
kolejne wartości pomiaru i stawiamy kreskę w odpowiednim przedziale. Zliczając
kreski, dowiadujemy się, że w pierwszym przedziale znalazły się 4 osoby, w drugim 27 itd. Przystępujemy do rysowania wieloboku. Na osi poziomej oznaczamy
środki przedziałów, czyli średnie z dokładnych granic przedziału, np. dla pierwszego środek wynosi (2,5 + 4,5) / 2, czyli 3,5. Na osi pionowej odkładamy liczebności przedziałów. Dodajemy dwa przedziały o zerowej liczebności z prawego
i lewego skraju, łączymy wierzchołki odcinkami – i rozkład gotowy. Kto chciałby
się dowiedzieć o innych formach prezentacji rozkładu danych, może zajrzeć do
Freunda (1968) lub Blalocka (1975).
Najważniejsze to zrozumieć, że rozkład jest w środku (pod krzywą) wypełniony przypadkami jak stodoła sianem pod jesień. To właśnie ilustrują słupki w tle
naszego wieloboku. Znaczy to, że pole pod krzywą obejmuje wszystkie zbadane
osoby. Jeśli zrobiliśmy rozkład procentowy, to wartość przedziału na osi pionowej
jest miarą prawdopodobieństwa tego przedziału, a pole pod krzywą równa się sumie tych prawdopodobieństw, czyli 100%.
Wielobok dostarcza ważnych informacji o rozkładzie: jaki zakres ma mierzona
zmienna (to całkiem inne pytanie niż ile zadań miał test), czy rozkład nie wykazuje większych nieregularności (puste przedziały, wyciągnięty ogon ) i jaki ma
kształt. Interesuje nas zwłaszcza, czy jest zbliżony do krzywej w kształcie dzwonu
(nasz jest zbyt wysmukły), a przynajmniej czy jest symetryczny (nasz jest).
Dane ilościowe 187
Każdy rozkład zmiennej można nie tylko narysować, lecz także opisać za pomocą kilku miar liczbowych. Najważniejsze to miary wartości centralnej i miary
zróżnicowania.
Miary wartości centralnej
Wartość (tendencja) centralna to typowa wartość, jaką przyjmuje zmienna w próbce. Miara tej tendencji powinna być dostosowana do poziomu zmiennej.
Zmienna nominalna. Wartość centralną możemy wyrazić tylko w jeden
sposób: za pomocą modalnej. Modalna to wartość, która najczęściej występuje
w próbce. W rozkładzie odpowiedzi na pytania ankiety jest to wartość „raczej odmładza”, w rozkładzie wyników testowania osiągnięć z matematyki: 11.
Zmienna porządkowa. Oprócz modalnej możemy się posłużyć medianą. Jest
to wartość zmiennej, która dzieli rozkład na połowę. By obliczyć medianę, trzeba najpierw uporządkować przypadki od najmniejszej do największej wartości
zmiennej. Jeśli liczba osób jest nieparzysta, medianą jest wartość, którą ma osoba
środkowa, jeśli parzysta – mediana jest średnią z wartości, które mają dwie środkowe osoby. Załóżmy, że zbadaliśmy 5 uczniów skalą bezradności umysłowej Sędka i dostaliśmy takie wyniki: 1,5; 2,2; 2,6; 3,5; 4,5. Mediana ma wartość 2,6. Gdyby
uczniów było sześciu: 1,2; 1,5; 2,2; 2,6; 3,5; 4,8, mediana miałaby wartość (2,2 +
2,6) / 2, czyli 2,4. W rozkładzie wyników testowania osiągnięć mediana równa się
12. Znaczy to, że pole pod krzywą na lewo od 12 równa się polu na prawo od 12.
Można też szukać wartości, które dzielą próbkę na więcej niż dwie równe części.
Czasem chcemy ją podzielić na przykład na cztery części, z których każda zawiera
25% przypadków. Trzy wartości zmiennej, które są do tego potrzebne, nazywa się
kwartylami. Drugi kwartyl to oczywiście mediana.
Zmienna przedziałowa. Oprócz modalnej i mediany możemy użyć średniej
arytmetycznej. Jest to suma wartości podzielona przez liczbę wartości. Oznacza
się ją symbolem zmiennej z kreseczką na górze (x‒), a w populacji – literą μ. Średnia ma takie samo miano jak sama zmienna (np. sek., kg, liczba wykonanych zadań). W powyższej próbce 6 uczniów średni wynik w skali bezradności wynosi
2,63. Średni wynik testowania osiągnięć z matematyki wynosi 11,39. Zauważmy,
że w obu przykładach średnia nie pokrywa się z medianą, czyli nie dzieli próbki na
połowę. Świadczy to, że oba rozkłady są skośne. Jeśli wartość średniej jest większa
niż wartość mediany, mówimy, że rozkład jest skośny w prawo (ma wydłużony
prawy ogon). W odwrotnym wypadku rozkład nazywa się skośnym w lewo.
Miary zróżnicowania
Zróżnicowanie informuje o rozproszeniu danych wokół wartości centralnej. I tu
obowiązuje zasada dostosowania do poziomu zmiennej.
Zmienna nominalna. Właściwą miarą zróżnicowania jest entropia:
k
H = −∑ pi ⋅ log 2 pi
i =1
gdzie k oznacza liczbę wartości, a pi – proporcję przypadków, którym przysługuje
wartość i. Im większe H, tym większe zróżnicowanie.
Zmienna porządkowa. Zróżnicowanie wyraża entropia oraz odchylenie
ćwiartkowe: (Q3 – Q1) / 2, gdzie Q3 to trzeci, a Q1 to pierwszy kwartyl.
Zmienna przedziałowa. Oprócz entropii i odchylenia ćwiartkowego mamy do
dyspozycji odchylenie standardowe (oznacza się je jako s w próbce i σ w populacji). Podobnie jak średnia, odchylenie standardowe dziedziczy miano po zmiennej.
Załóżmy, że zbadaliśmy dochody pracowników dwóch firm zatrudniających
po 5 osób i stwierdziliśmy, że w pierwszej roczne dochody wynosiły (w tys. zł): 7,2;
14,4; 16,8; 21,6; 24,0, a w drugiej: 4,8; 13,1; 17,0; 18,6; 30,5. Jak łatwo sprawdzić,
średni dochód w obu firmach jest identyczny: x‒ = 16,8 tys. zł. Mimo to oba rozkłady są wyraźnie odmienne: w drugiej firmie dochody są bardziej zróżnicowane
niż w pierwszej. To zróżnicowanie ma coś wspólnego z odległościami poszczególnych wartości od średniej. W pierwszej firmie wynoszą one –9,6; –2,4; 0,0; 4,8; 7,2,
w drugiej –12,0; –3,7; 0,2; 1,8; 13,7. Widać, że bezwzględne różnice są znacznie
większe w drugiej firmie. Przyjęło się pomijać znak różnicy przez podniesienie jej
do kwadratu. Średnia sumy kwadratów różnic nazywa się wariancją. W tym wypadku w mianowniku kładziemy nie n, lecz n – 1. Pierwiastek kwadratowy z wariancji to odchylenie standardowe. Podobnie jak średnia, odchylenie standardowe
dziedziczy miano po zmiennej. W naszym przykładzie jest ono znacznie większe
w drugiej firmie (9,34 tys. zł) niż w pierwszej (6,57 tys. zł).
Kwadraty różnic
Suma
kwadratów
Średni kwadrat
(wariancja)
n
n
∑(x
( xi − x ) 2
i =1
92,16 5,76 0,00 23,04 51,84
144,00 13,69 0,04 3,24 187,69
i
− x)
2
∑(x
i =1
172,80
348,66
i
− x )2
n −1
43,20
87,17
Pierwiastek
(odchylenie
standardowe)
n
∑(x
i =1
i
− x )2
n −1
6,57
9,34
Wygodniejszy jest inny (równoważny) wzór:
 n 
n∑ x −  ∑ xi 
i =1
 i =1 
n ⋅ ( n − 1)
n
s=
2
2
i
Zamiast obliczać i sumować kwadraty różnic, wystarczy zsumować kwadraty wartości (tj. x12 + x22+ ... + x32), pomnożyć je przez n, odjąć kwadrat sumy wartości,
podzielić przez n (n–1) i wyciągnąć pierwiastek.
Średnia i odchylenie standardowe to dwie miary, które mówią bardzo wiele
(czasem nawet, jak zobaczymy, wszystko) o rozkładzie zmiennej przedziałowej, są
też niezbędne we wnioskowaniu statystycznym. Dlatego trzeba się trzymać zasady,
że ilekroć podajemy średnią jakiejś zmiennej, tylekroć podajemy też jej odchylenie
standardowe. Nasz rozkład wyników testowania osiągnięć z matematyki charakteryzujemy więc przez podanie średniej (11,4) i odchylenia standardowego (3,2).
Dane ilościowe 189
Ostatnia grupa miar opisowych, które tu rozważymy, dotyczy związku dwóch
zmiennych.
Miary współzmienności
Miary współzmienności opisują stopień, w jakim związane są ze sobą dwie zmienne.
Zmienne nominalne. Gdy zmienne mają poziom nominalny, badamy związek
za pomocą tabeli kontyngencji (współwystępowania). Załóżmy, że chcemy się dowiedzieć, czy istnieje związek między odpowiedziami nauczycielek na dwa pytania ankiety. Zaczynamy od zbudowania takiej oto tabeli.
Jaki stosunek ma Pani mąż do Pani pracy?
Jest dumny
Nie interei stara mi się suje się moją
pomagać
pracą
Jak wpły 10 (5,6)
Odmładza
wa na PaRaczej odmładza 8 (11,7)
nią praca
Raczej męczy
8 (8,7)
z dziećmi?
Razem
26
10 (5,6)
8 (11,7)
8 (8,7)
18
Uważa, że
tracę czas
i zdrowie
Razem
10 (5,6)
8 (11,7)
8 (8,7)
13
27
20
16
60
W każdej kratce znajduje się liczba osób, które odpowiedziały w sposób opisany w odpowiednim wierszu i kolumnie (np. w pierwszej kratce znalazło się 10
nauczycielek, które uznały, że praca z dziećmi je odmładza, a mąż jest dumny z ich
pracy). Na oko trudno coś orzec o związku między tymi pytaniami. Spróbujmy
więc obliczyć współczynnik siły związku.
Do zmiennych nominalnych najczęściej używa się współczynnika kontyngencji C:
2
χ2
C=
2
χχ 2 + n
gdzie n to liczba wszystkich przypadków. Żeby go obliczyć, trzeba znać wartość χ2
(chi kwadrat). Ta często używana statystyka zdaje sprawę z odchyleń liczebności
obserwowanych (o) od liczebności oczekiwanych (e) przy założeniu niezależności rozkładów prawdopodobieństw obu zmiennych. Weźmy pod uwagę pierwszą
kratkę. Prawdopodobieństwo odpowiedzi: „Praca z dziećmi mnie odmładza” wynosi 13/60, czyli 0,22, a odpowiedzi: „Mąż jest dumny z mojej pracy” 26/60, czyli
0,43. Jeśli te prawdopodobieństwa są niezależne, to prawdopodobieństwo wystąpienia obu odpowiedzi w jednym przypadku jest równe ich iloczynowi, czyli 0,09,
co przekłada się na liczebność 5,6 osób (tabela podaje w nawiasach liczebności
oczekiwane). Ale w pierwszej kratce jest 10 osób, czyli o 4,4 więcej, niż oczekiwaliśmy. Im większe są takie nadmiary i niedobory w kratkach, tym bardziej wątpliwe
jest założenie o niezależności obu zmiennych i tym większa jest wartość χ2. Dzieląc kwadraty różnic między liczebnościami obserwowanymi i oczekiwanymi przez
liczebności oczekiwane i sumując ilorazy ze wszystkich kratek (jest ich nk, czyli
liczba wierszy n razy liczba kolumn k, otrzymujemy:
nk
nk
χχ2 = ∑
2
i =1
(oi − ei )2
ei
Czytelnik zechce sprawdzić, że dla naszej tabeli χ2 = 9,57, więc C = 0,37. Jest
to spora wielkość, więc niejeden badacz doniósłby z satysfakcją, że im bardziej
pozytywna jest postawa męża nauczycielki wobec jej pracy, tym lepsze jest jej
samopoczucie w szkole. Ale czyniąc tak, popełniłby poważny błąd. Statystyka χ2
jest całkowicie niewrażliwa na porządek wartości zmiennych. Możemy dowolnie
przestawiać wiersze lub kolumny tablicy, a wartość χ2 będzie taka sama. Widać,
że na ogólnie wysoką wartość χ2 zapracowały głównie dwie kratki i że nadmiary
nie układają się wcale wzdłuż przekątnej. Wniosek z tego taki, że obie zmienne są
wprawdzie statystycznie zależne, ale kształt tego związku jest nieinterpretowalny.
Taki wniosek jest, oczywiście, bezużyteczny.
Zmienne porządkowe. Najczęściej stosowanymi miarami siły związku jest
τ (tau) Kendalla i γ (gamma) Kruskala. Sposób ich obliczania podają wszystkie
podręczniki statystyki (np. Ferguson i Takane, 1999, rozdz. 21).
Zmienne przedziałowe. Chcąc obliczyć siłę związku między dwiema zmiennymi przedziałowymi, najczęściej korzystamy ze współczynnika korelacji Pearsona.
By zrozumieć pojęcie korelacji, zacznijmy od sporządzenia wykresu korelacyjnego.
Załóżmy, że 10-osobową próbkę uczniów zbadaliśmy dwoma narzędziami: testem
inteligencji i testem osiągnięć szkolnych. Załóżmy też, że każda zmienna jest przedziałowa i ma tylko 5 wartości. Zbadanych uczniów (symbolizowanych kropkami)
możemy rozmieścić w układzie współrzędnych stosownie do ich wyników w obu
testach. Uczeń oznaczony na rys. 8.2 literą A uzyskał wynik 2 w teście inteligencji
i 3 w teście osiągnięć. W punkcie 3; 3 znalazło się dwóch uczniów.
Rzut oka na nasz wykres przekonuje, że obie zmienne są ze sobą związane
(wyższym wartościom na osi poziomej towarzyszą wyższe wartości na osi pionowej). By uchwycić ogólną prawidłowość, możemy wykreślić linię prostą, która
byłaby najlepiej dopasowana do wszystkich 10 punktów. Przyjęło się uważać, że
linia jest najlepiej dopasowana, gdy suma kwadratów pionowych odległości każdego przypadku od linii (na wykresie zaznaczono linią przerywaną jedną z 10 takich odległości) jest najmniejsza z możliwych. Taką linię nazywamy linią regresji.
Ponieważ odległości podnosimy do kwadratu, nie jest ważne, czy uczeń znajduje
się nad, czy pod linią. Jak widać, nasza linia regresji jest rosnąca, co odpowiada
wrażeniu, że im wyższa inteligencja, tym wyższe osiągnięcia.
Nasz wykres pokazuje jednak, że związek obu zmiennych nie jest doskonały:
zwłaszcza uczniowie B i C wyłamują się z ogólnej prawidłowości. Dobrze by było
móc wyrazić siłę związku za pomocą pojedynczego miernika liczbowego. Czytelnik domyśla się już, że możemy w tym celu wykorzystać sumę kwadratów odległości poszczególnych przypadków od linii regresji, czyli wielkość Σ(yi – yi’)2, w której
yi’ oznacza punkt na linii regresji odpowiadający wartości xi. Im większa jest ta
wartość, czyli im bardziej są rozproszone przypadki wokół linii regresji, tym siła
związku słabsza. Żeby się pozbyć miana, dzielimy sumę kwadratów odległości od
linii regresji przez sumę kwadratów odległości od średniej, czyli:
Dane ilościowe 191
C
5
4,5
Osiągnięcia
4
3,5
3
A
2,5
2
1,5
B
1
0,5
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
Intel i gencja
Rysunek 8.2. Związek dwóch zmiennych
n
∑( y
i
− y' )2
∑( y
− y )2
i =1
n
i =1
i
Zauważmy, że w tym ułamku mianownik jest częścią wzoru znanej już miary: wariancji zmiennej y. Ułamek daje więc porównanie zróżnicowania wartości
zmiennej wokół linii regresji z całym zróżnicowaniem wartości tej zmiennej. Im
ułamek większy, tym związek słabszy. Zauważmy też, że licznik przyjmuje wartość najmniejszą z możliwych (co wynika z pojęcia linii regresji), a więc musi
być mniejszy lub równy mianownikowi. Wartość ułamka waha się zatem od zera
(związek doskonały) do 1 (brak związku). Ponieważ chcemy mieć miarę siły, a nie
„bezsiły” związku, zdefiniujemy statystykę r jako:
n
r = ± 1−
∑( y
i =1
n
i
∑( y
i =1
i
− y' )2
− y)
2
.
Nosi ona miano współczynnika korelacji Pearsona. Znak przy współczynniku
zależy od nachylenia linii regresji. Gdy linia regresji jest rosnąca (jak w naszym
przykładzie), znak jest dodatni. Mówimy wtedy, że korelacja jest dodatnia (im
większa wartość X, tym większa wartość Y). Gdy linia regresji jest malejąca, mówimy, że korelacja jest ujemna (im większa wartość X, tym mniejsza wartość Y).
Podsumowując: r jest liczbą niemianowaną, wahającą się od –1 do + 1. Jej wielkość bezwzględna informuje o sile związku, a znak o kierunku związku. Dodajmy,
że w praktyce nie oblicza się r ze wzoru definicyjnego, lecz z równoważnego mu:
r=
n ⋅ ∑ xy
xy − ∑ x ⋅ ∑ y
n ⋅ ∑ x 2 − (∑ x ) ⋅ n ⋅ ∑ y 2 − (∑ y )
2
2
.
Wszystkie sumy obejmują przypadki od 1 do n. Czytelnik może zastosować ten
wzór do naszego przykładu i przekonać się, że r = 0,50.
Współczynnik korelacji r jest bodaj najczęściej stosowanym miernikiem siły
związku dwóch zmiennych przedziałowych lub stosunkowych. W dobie komputerów osobistych otrzymuje się go za naciśnięciem kilku klawiszy, co zaciera
świadomość, jaki ma sens i zakres zastosowań. Przypomnijmy więc kilka zasad
posługiwania się tym współczynnikiem.
• Współczynnik r może być stosowany jedynie do opisu związków między zmiennymi przedziałowymi. Dla zmiennych niższego poziomu opracowano inne statystyki.
• Współczynnik r trafnie opisuje jedynie związki liniowe. Jeśli związek jest nieliniowy, tzn. jeśli do punktów wykresu korelacyjnego lepiej pasuje jakaś krzywa (np. parabola) niż prosta, to r zaniży jego siłę (w skrajnym przypadku do
zera). Krzywoliniowość związku łatwo wykryć, przyglądając się wykresowi korelacyjnemu. Jeśli ją wykryliśmy, należy użyć miary η2 (eta kwadrat) (Blalock,
1975, s. 297n). Inne możliwości to próbować przywrócić liniowość przez transformację zmiennej (Brzeziński i Stachowski, 1981, s. 182n) lub dopasować do
danych wielomian (Oktaba, 1980).
• Współczynnik r jest wrażliwy na skośność rozkładów zmiennych. Często kilka
przypadków ulokowanych daleko na ogonach obu rozkładów może wytworzyć
r o pokaźnej wartości. Badacz, który nie sporządził wykresu korelacyjnego, naraża się na ogłaszanie odkryć pozornych: wystarczy bowiem wyłączyć te przypadki z rachunków, by r zbliżył się do zera.
• Skala współczynników r nie jest liniowa i dlatego nie można ich bezpośrednio
porównywać ze sobą. Nie jest więc tak, że r = 0,40 oznacza związek o połowę
słabszy niż r = 0,80. Do porównań należy używać kwadratów r. Podniesione
do kwadratu r to miernik tak ważny, że zasłużył na osobną nazwę: współczynnik determinacji. Współczynnik determinacji r2 informuje o proporcji (albo
procencie, jeśli r2 pomnożyć przez 100%) zróżnicowania jednej zmiennej, które można przypisać zróżnicowaniu drugiej zmiennej. Pierwszy współczynnik
(16%) jest zatem cztery razy mniejszy niż drugi (64%).
• Współczynników r nie można też sumować i uśredniać. Jeśli chcemy obliczyć
średnią z kilku współczynników, musimy je najpierw przekształcić na wartości
z Fishera według wzoru:
1 1+ r
z = ⋅ln
ln
2 1− r
w którym ln oznacza logarytm naturalny, a e podstawę tego logarytmu. Po obliczeniu średniej z wartości z możemy wrócić do r według wzoru:
r=
e2 z − 1
e2 z + 1
Dane ilościowe 193
Zamiast średniej prościej i lepiej używać mediany.
• Współczynnik r i żadna inna miara siły związku nie upoważniają do interpretacji przyczynowej. Z tego, że r w naszym przykładzie wyniósł 0,50, nie można
wnioskować, że osiągnięcia szkolne (albo, jak pisał pewien autor, że 25% osiągnięć szkolnych) to skutek inteligencji. Po pierwsze, korelacja to relacja symetryczna: jeśli A jest skorelowana z B, to B jest w tym samym stopniu skorelowane
z A. Po drugie, związki przyczynowo-skutkowe można wykrywać tylko w badaniach eksperymentalnych. W badaniach przeglądowych, które najczęściej dostarczają danych do rachowania korelacji, można wykrywać jedynie współwystępowanie wartości zmiennych. Wartości te mogą współwystępować ze sobą,
mimo że jedna nie jest przyczyną drugiej. W literaturze przytacza się wiele zabawnych przykładów wysokich współczynników korelacji między zmiennymi,
które z pewnością nie są związane przyczynowo. W takich wypadkach wysokie
r jest albo artefaktem (tzn. bierze się z przekształceń, którym poddano surowe
dane), albo świadectwem istnienia wspólnej przyczyny obu zmiennych.
• Jeśli podejrzewamy, że korelacja jest pozorna, domyślamy się, co może być
jej przyczyną, i potrafimy tę domniemaną przyczynę zmierzyć, możemy włączyć ją do rachunków jako zmienną kontrolowaną. Dla trzech zmiennych X, Y
i Z możemy obliczyć współczynnik korelacji między X i Y przy kontroli Z, który nosi nazwę współczynnika korelacji cząstkowej (Blalock, 1975, rozdz. 19).
Jeśli korelacja między X i Y powstaje za pośrednictwem Z, to kontrolowanie
Z powinno ją usunąć. Zauważmy, że w przypadku zmiennych porządkowych
lub nominalnych ta droga kontrolowania zmiennych ubocznych jest niedostępna. Jeśli podejrzewamy, że związek między dwiema zmiennymi (np. płcią
respondenta a jego stosunkiem do kary fizycznej w wychowaniu potomstwa)
może wytwarzać trzecia zmienna (np. poziom wykształcenia), trzeba zbudować osobną tablicę dla każdej wartości zmiennej wykształcenia. Jeśli w tablicach cząstkowych związek między płcią a stosunkiem do karania znika, nasze
podejrzenie uznajemy za potwierdzone. W przeciwnym razie mamy prawo
stwierdzić, że niezależnie od poziomu wykształcenia kobiety stosują kary fizyczne wobec swoich dzieci częściej niż mężczyźni.
Analiza czynnikowa
Macierz korelacji wielu zmiennych może być punktem wyjścia do wielu interesujących analiz zmierzających do wykrycia wzorca leżącego u podłoża obserwowalnych związków. Jedną z nich jest analiza czynnikowa. Wyodrębnia ona z macierzy
korelacji pewną liczbę czynników wspólnych lub głównych składowych.
Oto przykład. Dzieci z klas I i II w liczbie 87 wykonały 12 zadań mierzących
dostępność pojęcia niezmiennika, czyli świadomość, że mimo różnych przekształceń, zbiór lub przedmiot zachowuje podstawowe cechy, np. liczebność, masę i ciężar. Na przykład jedną z dwóch identycznych kulek plasteliny badacz przekształcał
na oczach dziecka w placuszek, po czym pytał, czy placuszek jest tak samo ciężki,
jak kulka. W innym zadaniu badacz dzielił jedną kulkę na 5 małych i pytał, czy
wszystkie kulki razem są tak samo ciężkie, jak duża kulka.
Wyniki poddano analizie czynnikowej. Wyłoniła ona dwa czynniki. Poniższa
tabela (zwana rotowaną macierzą czynnikową) podaje współczynniki korelacji
(zwane ładunkami czynnikowymi) między każdym zadaniem a każdym czynnikiem. W ostatniej kolumnie znajdują się proporcje wariancji każdego zadania
„wyjaśnione” (lepiej: odtworzone) przez oba czynniki łącznie.
I
II
h2
Masa placuszka z plasteliny
Masa płynu przelanego do szerszego naczynia
Masa kiełbaski z plasteliny
Ciężar placuszka z plasteliny
Ciężar 5 kuleczek z plasteliny
Liczba jajek i kieliszków
Liczba żetonów
Masa płynu rozlanego do 5 szklaneczek
Masa pszenicy przesypanej do węższego naczynia
Masa pszenicy rozsypanej do 3 szklaneczek
Powierzchnia 6 kwadratów ułożonych w trójkąt
Powierzchnia 6 kwadratów ułożonych w szereg
0,86
0,86
0,84
0,63
0,11
0,42
0,43
0,16
0,65
0,65
0,56
0,53
0,14
0,36
0,36
0,21
0,85
0,81
0,76
0,59
0,63
0,43
0,59
0,70
0,76
0,87
0,83
0,51
0,74
0,83
0,77
0,38
0,82
0,60
0,65
0,77
Procent odtworzonej wariancji
37,3
33,8
71,1
Zadanie
Jak widać, zbiór 10 zadań rozpada się na 3 części. Pierwsze 4 zadania należą
do czynnika I, 4 następne do II, a 4 ostatnie w tym samym stopniu do obu czynników. Przyjrzenie się zadaniom prowadzi do wniosku, że czynnik I reprezentuje
niezmienniczość względem przekształceń ciągłych, a II – względem przekształceń dyskretnych. Potwierdza to fakt, że zadania z pszenicą, której przesypywanie
można równie dobrze traktować jako ciągłe, co dyskretne, są jednakowo silnie
skorelowane z oboma czynnikami.
W podobny sposób można badać strukturę testów i skal psychologicznych.
Załóżmy, że chcemy mierzyć siłę pozytywnego ustosunkowania się ucznia do
szkoły i w tym celu wymyślamy różne pytania sondujące, naszym zdaniem, tę
postawę (np. „Jak często marzysz, że szkoła została zamknięta wskutek awarii?
Często – Czasem – Rzadko –Nigdy”). Próbną wersję skali złożoną z, powiedzmy,
30 pozycji dajemy do wypełnienia nie mniej niż 150 uczniom i obliczamy macierz współczynników korelacji każdej pozycji z każdą. Jeśli wszystkie pozycje
mają coś wspólnego z postawą wobec szkoły, to powinny być ze sobą dodatnio
skorelowane i wystarczy jedna zmienna wyższego rzędu (główna składowa), by
w przybliżeniu odtworzyć całą macierz. W przeciwnym razie zbiór pozycji rozpadnie się na dwa lub więcej podzbiorów z własnymi składowymi. Badacz musi
wtedy rozstrzygnąć, czy zachować tylko jeden podzbiór pozycji, najbliższy jego
intencji, czy więcej. Analiza składowych jest nieocenioną metodą badania trafności skal psychologicznych, ponieważ o tym, które pozycje „idą razem” (a zatem
wskazują to samo), a które „osobno”, rozstrzyga na podstawie odpowiedzi uczniów, a nie mniemań autora.
Dane ilościowe 195
Nie należy natomiast używać analizy czynnikowej do ustrukturalizowania
kwestionariusza zastosowanego w badaniu. Często badacz buduje kwestionariusz
„na nosa” i od razu stosuje go we właściwym badaniu. Na odpowiedziach badanych wykonuje analizę głównych składowych, oblicza wyniki czynnikowe (szacunkowe wartości każdej składowej dla każdej osoby) i analizuje je tak, jak każdą
inną zmienną losową.
Jest to postępowanie błędne – mimo że pod względem budowy narzędzie jest
kwestionariuszem ankiety, dane traktuje się tak, jakby pochodziły ze skali psychologicznej. Minimalnym warunkiem wykorzystania struktury czynnikowej kwestionariusza jest sprawdzenie, czy jest ona stabilna (tzn. czy w niezależnej próbce
kwestionariusz rozpadnie się na podobne części). Trzeba się też głęboko zastanowić, czy składowe mają wyraźną i zgodną z zamiarem badawczym interpretację.
Często są one trudne do zinterpretowania, zwłaszcza gdy pulę pytań dobraliśmy
bezmyślnie. Ilekroć w badaniu wystarczy ankieta, trzeba się jej trzymać i samemu
przekształcać odpowiedzi w potrzebne zmienne, zamiast ślepo polegać na rozwiązaniach czynnikowych.
Statystyka indukcyjna
W naukach społecznych statystyka indukcyjna jest wykorzystywana do dwóch
celów: szacowania parametrów i testowania hipotez statystycznych. W obu przypadkach podstawową rolę odgrywa pojęcie rozkładu normalnego. Jest to funkcja
matematyczna, która poszczególnym wartościom zmiennej losowej przyporządkowuje wielkości (gęstości) prawdopodobieństwa. Rys. 8.3 przedstawia środkowy fragment tej funkcji (z obu skrajów dąży ona bowiem w granicy do zera) i jej
formułę. Kształt funkcji określają dwa parametry zmiennej losowej: średnia (μ)
y
0,4
0,3
–(x – μ)2
2
1
____
f(x) = __ e 2σ
σ√2π
0,2
0,1
-3
-2
-1
Rysunek 8.3. Rozkład normalny
1
2
3
x
i odchylenie standardowe (σ). Rysunek przedstawia funkcję zmiennej losowej X,
której średnia wynosi 0, a odchylenie standardowe 1. O takiej zmiennej mówimy,
że jest standaryzowana. Każdą zmienną można sprowadzić do postaci standaryzowanej przez proste przekształcenie:
x–μ
x’ = σ
Zauważmy, że omawiana funkcja przypomina kształtem i znaczeniem wielobok liczebności, który rysowaliśmy w poprzednim podrozdziale. Gdy na osi
pionowej wykresu odłożyć procenty, wielobok przyporządkowuje poszczególnym wartościom pomiaru ich prawdopodobieństwa, np. pozwala stwierdzić, że
prawdopodobieństwo uzyskania wyniku w przedziale 5–6 wynosi 0,06, w tym
przedziale znalazło się bowiem 27 spośród 447 uczniów. W rozkładzie normalnym takie sądy nie wymagają materiału empirycznego, lecz jedynie obliczenia
powierzchni odpowiedniego fragmentu pola pod krzywą (powierzchnia całego
pola jest, oczywiście, równa 1). Wiadomo na przykład, że prawdopodobieństwo
wyniku między –1 a 1 wynosi 0,683, a prawdopodobieństwo wyniku powyżej 2:
0,023. Na rys. 8.3 odpowiadają im powierzchnie zakreskowanych pól. Wartości te
najprościej odczytać z tablicy rozkładu normalnego, która znajduje się w każdym
podręczniku statystyki.
Podobieństwo funkcji normalnej do naszego wieloboku liczebności nie
jest przypadkowe: funkcja ta została wymyślona przez wielkiego matematyka
C. F. Gaussa jako matematyczna symulacja wielu (choć oczywiście nie wszystkich)
rozkładów empirycznych. Wkrótce okazało się, że jest czymś więcej: udowodniono mianowicie, że jeśli zmienna losowa jest sumą n zmiennych, to jej rozkład dąży
do normalnego, gdy n dąży do nieskończoności. Twierdzenie to, zwane centralnym twierdzeniem granicznym, pozwala zrozumieć, dlaczego wiele zmiennych
w przyrodzie i świecie społecznym ma rozkłady zbliżone do normalnego: są to
zmienne wyznaczone przez łączne działanie wielu prostszych zmiennych. Tak jest
na przykład z wartością inteligencji człowieka: determinują ją wyposażenie genetyczne, warunki, w których przebiegał rozwój, procesy uczenia się i czynniki działające w sytuacji pomiarowej. W jeszcze wyższym stopniu dotyczy to zmiennej,
która pojawia się w każdym modelu statystycznym: zmiennej błędu. Zauważmy,
że na błąd składa się mnóstwo drobnych oddziaływań: stałe różnice indywidualne,
chwilowe wahania uwagi czy nastroju badanego, a także większa lub mniejsza nierzetelność narzędzia pomiarowego. Centralne twierdzenie graniczne uprawnia do
założenia, że sumaryczna zmienna błędu ma rozkład normalny, i to niezależnie od
rozkładu zmiennej zależnej. Zaraz zobaczymy, jak można to wykorzystać.
Estymacja parametrów
Celem wielu badań jest wypowiadanie się o populacji na podstawie próbki losowej. Wypowiadanie się o populacji to tyle co określanie parametrów mierzonych
zmiennych: głównie średniej (μ), wariancji (σ2), wskaźnika struktury (π), czyli
proporcji (odsetka) obiektów mających pewną cechę, oraz współczynnika korelacji liniowej (ρ). Dokładne wartości tych parametrów są oczywiście nieznane; mo-
Dane ilościowe 197
żemy je jedynie ocenić (oszacować) na podstawie pewnych wielkości obliczonych
z próbki. Te wielkości nazywa się estymatorami. Statystycy starają się tak zdefiniować estymator, by:
• był nieobciążony, tj. by prawdziwa wartość parametru była środkiem zgrupowania możliwych wartości estymatora,
• był zgodny, tj. by w miarę zbliżania się wielkości próbki do wielkości populacji
(czyli n do N) oszacowanie dążyło do prawdziwej wartości parametru,
• miał małą wariancję, tj. by możliwe wartości estymatora niezbyt odchylały się
od prawdziwej wartości parametru.
Ponieważ budowa estymatorów zależy od tego, jak została wylosowana próbka,
rozpatrzymy kolejno trzy podstawowe schematy losowania (zob. rozdz. 6).
Losowanie nieograniczone indywidualne. W pewnej skończonej populacji
ciągła zmienna losowa X tworzy rozkład nieznanego kształtu o nieznanej średniej
i nieznanej wariancji. Naszym zadaniem jest poznać tę średnią. Statystyk powiada, że nieobciążonym estymatorem średniej w populacji jest średnia arytmetyczna
próbki (x‒ → μ), losujemy więc próbkę o wielkości n, mierzymy zmienną X i obliczamy jej średnią x‒1. Czy możemy uznać, że x‒1 = μ? Żeby się upewnić, losujemy
nową próbkę o wielkości n i stwierdzamy, że tym razem średnia wynosi x‒2. Gdybyśmy wielokrotnie powtarzali to badanie i narysowali rozkład liczebności średnich z kolejnych próbek, to okazałoby się, że zgodnie z centralnym twierdzeniem
granicznym zbliża się on do rozkładu normalnego o średniej μ i wariancji:
D2 ( x ) =
σσ 2 N − n
n
⋅
N
gdzie N oznacza wielkość populacji, a n to wielkość próbki. W ten sposób dowiedzieliśmy się, że w dużych (przekraczających 30 przypadków) próbkach losowych
musimy się liczyć z błędem rozkładającym się normalnie wokół szacowanej średniej – tym szerzej, im większe jest zróżnicowanie zmiennej X w populacji i im
mniejsza jest próbka.
Stwierdzenie to jest doniosłe, ponieważ pozwala znaleźć prawdopodobieństwo tego, że średnia z próbki odchyla się od średniej w populacji o określoną
wielkość. Rzut oka na rysunek krzywej normalnej wystarczy, by zrozumieć, że
68,3% wszystkich średnich różni się od średniej w populacji o jedno odchylenie
standardowe D(x‒), czyli że z prawdopodobieństwem 0,683 –D(x‒) < x‒ – μ < D(x‒),
skąd natychmiast wynika, że x‒ – D(x‒) < μ < x‒ + D(x‒). Nierówności te mówią, że
średnia w populacji leży gdzieś między x‒ – D(x‒) i x‒ + D(x‒). Ta sama krzywa normalna powie nam, że 95,4% średnich różni się od średniej w populacji o dwa odchylenia standardowe. Możemy zatem z prawdopodobieństwem 0,954 twierdzić,
że średnia w populacji jest większa od x‒ – 2D(x‒) i mniejsza od x‒ + 2D(x‒). Tak
wyznaczony przedział nazywa się przedziałem ufności, a związane z nim prawdopodobieństwo – stopniem ufności. Jest jasne, że im wyższy jest stopień ufności,
tym szerszy przedział.
Zastosujmy tę metodę do wyników badania osiągnięć z matematyki opisanych
w poprzednim podrozdziale. Załóżmy, że próbka o wielkości 477 osób została
wylosowana z populacji 6 tys. ósmoklasistów jednej dzielnicy Warszawy. Średni
wynik w próbce wyniósł x‒ = 11,39, a odchylenie standardowe s = 3,2. Chcemy się
dowiedzieć, w jakim przedziale leży średni wynik w populacji.
Nie znamy wariancji zmiennej w populacji (σ2), ale możemy ją oszacować za
pomocą s2. Wariancja estymatora równa się (3,2)2 / 477 ∙ (6000 – 477) / 6000, czyli
0,020, a błąd standardowy estymatora równa się 0,14. Pozwala to twierdzić, że
z prawdopodobieństwem 0,683 wartość średniej w populacji znajduje się między
11,39 – 0,14 a 11,39 + 0,14, czyli gdzieś między 11,25 a 11,53. Gdybyśmy chcieli
zwiększyć stopień ufności do 0,95, musielibyśmy podwoić błąd standardowy. Bylibyśmy wtedy prawie pewni, że średnia w populacji jest większa niż 11,11 i mniejsza niż 11,67.
Zauważmy, że podejmując się estymacji średniej w populacji, szukaliśmy błędu
oszacowania przy ustalonej wielkości próbki. Nic jednak nie stoi na przeszkodzie,
by szukać wielkości próbki przy ustalonym błędzie, innymi słowy – szukać odpowiedzi na pytanie, jak duża powinna być próbka, by błąd standardowy oszacowania nie przekraczał ustalonej wielkości. Wyobraźmy sobie, że sponsor naszego
badania osiągnięć żąda oszacowania z dokładnością 0,10, a nie 0,14. Podstawmy
wartości do powyższego wzoru:
3,22 ∙ _______
6000 – n
0,12 = ___
n
6000
Jak łatwo obliczyć, równanie to spełnia n = 875. Żeby zadowolić sponsora, musielibyśmy więc dolosować prawie 400 nowych uczniów.
W podobny sposób przebiega estymacja wszelkich parametrów. Trzeba znaleźć dobry (tj. nieobciążony i zgodny) estymator, obliczyć jego błąd standardowy
i wyznaczyć przedział, w którym znajduje się szacowana wielkość. Jeśli dysponujemy ustaloną, nieprzekraczalną sumą pieniędzy na badanie, wielkość próbki jest
też ustalona i wtedy musimy pogodzić się z błędem o wyliczonej wielkości. Jeśli
natomiast musimy oszacować parametr z ustaloną dokładnością bez względu na
koszty badania, to musimy najpierw pobrać próbkę wstępną, by oszacować parametry figurujące we wzorze na wariancję estymatora, a następnie obliczyć ostateczną wielkość próbki.
W wielu badaniach praktycznych szacowaniu podlega nie średnia, lecz wskaźnik struktury, czyli odsetek przypadków mających pewną własność. Jeśli próbka
powstała w wyniku losowania nieograniczonego indywidualnego bezzwrotnego,
można dowieść, że nieobciążonym estymatorem wskaźnika struktury w populacji
jest częstość względna występowania obiektów z wyróżnioną wartością zmiennej w próbce (p → π). Estymator ten ma wariancję (w przybliżeniu wynikającym
z oszacowania parametru π przez p):
d 2 ( p) =
p(1 − p ) N − n
⋅
n −1
N
gdzie p oznacza proporcję obiektów mających daną własność. Powiedzmy, że władze pewnej gminy przeprowadziły ankietę na 100-osobowej próbce pobranej losowo
z populacji liczącej 2400 uczniów i stwierdziły, że 31 uczniów wyraziło zainteresowa-
Dane ilościowe 199
nie nauką języka niemieckiego. Na tej podstawie utrzymują, że w całej gminie takich
uczniów jest ok. 775. Jak duży może być błąd tego oszacowania, zależy od wariancji
estymatora. W naszym przykładzie wynosi ona 0,31 ∙ (1 – 0,31) / 99 ∙ 2400 / 2500, czyli
0,0021. Pierwiastek kwadratowy z tej wartości (0,046) to błąd standardowy oszacowania parametru (4,6 punktu procentowego). Łatwo zbudować 68-procentowy
przedział ufności, odejmując i dodając błąd do oszacowania wskaźnika struktury.
Władze gminy mogą zatem twierdzić z prawdopodobieństwem 68%, że prawdziwa
wartość π znajduje się między 26% a 36%, czyli że zainteresowanych nauką niemieckiego jest nie mniej niż 660 i nie więcej niż 890 uczniów. Często jest to szacunek
dostatecznie precyzyjny, by podjąć decyzję, ilu nauczycieli niemieckiego zatrudnić
w gminnych szkołach. Jeśli nie, trzeba powiększyć próbę. O ile?
Znając wariancję estymatora, wystarczy przyrównać doń pożądaną wartość
błędu szacunku i obliczyć niezbędną wielkość próbki. W omawianym wypadku
jest ona dana wzorem:
p(1 − p ) + d 2
n=N⋅
p(1 − p ) + N ⋅ d 2
Załóżmy, że władze chcą, by średni błąd nie przekraczał 3 punktów procentowych, czyli by d2 = 0,0009. Łatwo obliczyć, że zapewnia to próbka licząca 218 osób.
Ponieważ zbadano już 100 uczniów, trzeba dolosować i zbadać jeszcze 118. Jak
widać, precyzja oszacowania ma wysoką cenę.
Losowanie warstwowe. Jeśli losuje się pojedyncze obiekty w wariancie proporcjonalnym, to nieobciążonym estymatorem średniej w populacji jest ważona
średnia ze średnich warstwowych:
L
∑w
h
h =1
⋅ xh → μµ
gdzie x‒h oznacza średnią arytmetyczną w warstwie h, a wh proporcję obiektów
w warstwie h. Wariancja tego estymatora wynosi:
L
d 2 ( x ) = ∑ wh ⋅
2
h =1
sh2 N h − nh
⋅
nh
Nh
gdzie s to szacunek wariancji zmiennej X w warstwie h, a nh to liczebność warstwy
h w próbce.
Nieobciążonym estymatorem wskaźnika struktury jest ważona suma częstości
względnych:
2
h
L
∑w
h =1
h
⋅ ph → π
gdzie ph oznacza częstość względną wyróżnionych obiektów w warstwie h. Wariancja tego estymatora wynosi w przybliżeniu:
L
d 2 ( p ) = ∑ wh ⋅
h =1
2
ph (1 − ph ) N h − nh
⋅
nh
Nh
Można udowodnić, że przy dużych różnicach między wielkością warstwy
a wielkością próbki losowanie warstwowe daje mniejsze wariancje estymatorów μ i π niż losowanie nieograniczone, co znaczy, że tę samą dokładność oszacowania można osiągnąć na mniejszej próbce. Zysk ten jest tym większy, im
bardziej są zróżnicowane szacowane średnie czy wskaźniki struktury w warstwach, czyli im silniejszy jest związek kryterium podziału na warstwy z mierzoną zmienną.
Losowanie grupowe. Rozważymy najpierw przypadek, w którym badanie
obejmuje wszystkie obiekty wchodzące w skład grupy (losowanie jednostopniowe). Załóżmy, że z populacji o znanej liczbie obiektów (NT) podzielonej na M grup
wylosowano m grup, każda o liczebności nk. W celu oszacowania średniej w populacji możemy użyć nieco obciążonego, ale zgodnego estymatora:
nk
m
∑∑ xkj
kj
k =1 j =1
m
∑n
k =1
→ μµ
k
W liczniku znajduje się suma wszystkich pomiarów, a w mianowniku łączna liczba
zbadanych obiektów.
Wariancja tego estymatora jest dana przybliżonym wzorem:
M
2
D (x) =
μ
∑N
r =1
2
r
μr − µμ‒ ) 2
(µ
M −1
⋅
M2 M −m
⋅
N T2 M ⋅ m
W analizie wariancji (o której za chwilę) pierwszy ułamek nazywa się średnim
kwadratem odchyleń międzygrupowych. Ponieważ jego wartość w populacji nie
jest znana, trzeba go oszacować na próbce. W tym celu dla każdej grupy trzeba obliczyć średnią arytmetyczną i odjąć ją od oszacowanej średniej w populacji.
Różnice te, po podniesieniu do kwadratu i pomnożeniu przez kwadrat liczebność
grupy, sumuje się po wszystkich grupach i dzieli przez m – 1. Łatwo stwierdzić, że
błąd oszacowania średniej w populacji jest tym większy, im bardziej różnią się od
siebie średnie w grupach.
Zgodnym estymatorem wskaźnika struktury jest wyrażenie:
m
∑K
k
∑N
k
k =1
m
k =1
→π
gdzie Kk to liczba obiektów z wyróżnioną cechą w grupie k. Przy dużych m wariancja tego estymatora jest w przybliżeniu równa:
M
D2 ( p) =
∑ N (π
r =1
r
rr
− ππ) 2
( M − 1) ⋅ m ⋅ N
2
⋅
M −m
M
Dane ilościowe 201
Jak poprzednio, zróżnicowanie międzygrupowe musi być oszacowane za pomocą
–
danych z próbki. Symbol N oznacza średnią liczbę obiektów w grupie.
Rozważmy teraz wyniki losowania dwustopniowego. Załóżmy, że chcąc poznać liczbę komputerów w polskich szkołach, wylosowaliśmy m = 3 powiaty spośród wszystkich M = 373 powiatów, a z każdego powiatu nk szkół. Akcja liczenia
komputerów w tych szkołach dała następujące wyniki:
Powiat
k=1
k=2
k=3
Liczba szkół
w powiecie (Nk)
100
20
50
Liczba wylosowanych szkół
(nk)
10
2
5
Średnia liczba
komputerów
w szkołach (x‒)
1,4
0,5
0,8
Wariancja liczby komputerów
w szkołach (sk2)
1,38
0,50
1,20
W celu oszacowania średniej liczby komputerów w populacji szkół możemy
użyć nieco obciążonego, ale zgodnego estymatora:
m
∑N
k =1
m
k
∑N
k =1
xk
→ μµ
k
Najpierw obliczamy sumę: 100 ∙ 1,4 + 20 ∙ 0,5 + 50 ∙ 0,8 = 190. Dzieląc ten wynik
przez 170, dowiadujemy się, że w populacji szkół na jedną szkołę przypada średnio
1,12 komputera. Pawłowski (1972, s. 142) podaje następujący wzór na wariancję
tego estymatora:
M
2
D (x) =
1
2
⋅
∑ (μµ
r =1
rr
2
− µμ‒) ⋅ N r2
⋅
M
1
σ r2 ⋅ N r2 N r − nr
M −m
+
⋅
⋅
2 ∑
M
Nr
m ⋅ M ⋅ N r =1 nr
M −1
m⋅ N
‒
N to średnia liczba szkół w powiecie (ok. 52). Parametry populacyjne trzeba tu
zastąpić wielkościami z próbki. Pierwszy składnik, który odnosi się do różnic
między powiatami, to suma kwadratów odchyleń średnich x‒k od średniej ogólnej mnożonych przez kwadraty liczby szkół w wylosowanych powiatach. Sumę tę
(1194) trzeba podzielić przez liczbę składników pomniejszoną o 1 (2), po czym
podzielić przez liczbę wylosowanych powiatów (3) i kwadrat średniej liczby szkół
w powiecie (2704), wreszcie pomnożyć przez 0,99. By oszacować drugi składnik,
odpowiadający różnicom wewnątrz powiatów, trzeba wariancje wewnątrzpowiatowe zastąpić wariancjami z próby. Sumę (1872) dzielimy przez (mN‒)2. Dodając
oba składniki (0,073 + 0,077), otrzymujemy wariancję estymatora średniej (0,150).
Pierwiastek z tej wartości (0,387) to błąd standardowy oszacowania. Możemy go
użyć do zbudowania przedziału ufności. Estymatory innych parametrów wyczerpująco opisują Hansen i in. (1956).
Estymatory stosunkowe. Estymatory stosunkowe wykorzystują do oszacowania parametru stosunek między zmiennymi (Pawłowski, 1972). Chcąc oszacować
średnią zmiennej X, możemy sobie pomóc inną zmienną Z, jeśli tylko Z jest silnie
związana z X, a jej średnia w populacji jest znana. Możemy założyć, że stosunek
obu średnich w populacji w przybliżeniu odpowiada stosunkowi obu średnich
w próbce:
µμx x
≈
µμz z
Stąd zamiast estymować x‒ → μx, możemy wziąć:
µμz
→ μµxx
z
Inaczej mówiąc: jeśli próbka nie doszacowuje średniej X w populacji lub przeszacowuje ją, to możemy zbudować czynnik korygujący i zastosować go do estymatora tej średniej. Pozwala to zwiększyć dokładność estymacji bez zwiększania
wielkości próbki. Ten estymator jest wprawdzie obciążony (obciążenie to szybko maleje wraz ze wzrostem wielkości próbki), ale zgodny. Wariancja estymatora
(dokładniej: wariancja powiększona o kwadrat obciążenia) oszacowana z próbki
wynosi:
x⋅
2
z


 xi − i ⋅ x 
∑
z

 ⋅ N −n,
2
d (x ) = i =1
n ⋅ (n − 1)
N
n
przy założeniu, że z populacji o wielkości N wylosowano w sposób nieograniczony, indywidualny i bezzwrotny próbkę o wielkości n.
Załóżmy, że chcemy oszacować średnią pewnego testu osiągnięć szkolnych
w populacji 5 tys. uczniów. Pobraliśmy z niej 20-osobową próbkę uczniów i prosiliśmy ich o wykonanie testu. Wiemy, że test jest związany z wykształceniem rodziców ucznia i wiemy, że w populacji średnia wykształcenia rodziców (w latach
nauki) wynosi 11,6. Zebraliśmy więc dane o wykształceniu rodziców. Oto 20 par
wartości. Pierwsza to wynik testu, druga to zaokrąglona średnia wykształcenia rodziców ucznia: (9 10), (12 10), (15 12), (15 12), (21 15), (24 10), (18 12), (6 7), (9
17), (9 10), (30 17), (24 17), (21 15), (15 15), (9 10), (6 7), (9 10), (12 10), (27 20),
(27 20). Łatwo obliczyć, że:
Zmienna
Test (X)
Wykształcenie (Z)
Średnia
15,90
12,80
Wariancja
15,54
57,88
Postępując drogą naszkicowaną w poprzednim podrozdziale, uznalibyśmy, że
średni wynik testu w populacji pokrywa się ze średnim wynikiem w próbce, czyli
że μx ≈ 15,90. Wariancja tego oszacowania wynosi 57,88 / 20 ∙ (5000 – 20) / 5000 =
2,88. Wyciągając pierwiastek z tej wartości otrzymujemy błąd standardowy oszacowania (1,70 w skali wyniku testowego).
Jeśli do tego samego celu wykorzystamy zmienną Z, to μx ≈ 15,90 ∙ 11,6 / 12,80 =
14,41. Żeby obliczyć wariancję tego oszacowania, musimy najpierw obliczyć sumę
Dane ilościowe 203
kwadratów odchyleń (437,11). Dzieląc ją przez 19 i 20 oraz mnożąc przez 0,996,
otrzymujemy 1,15. Błąd standardowy wynosi 1,07 – o ponad 1/3 mniej niż poprzednio. Przy ustalonej liczebności próbki możemy zatem dokładniej oszacować
średnią, a przy ustalonym błędzie możemy użyć mniejszej próbki. Zysk ten, dodajmy, zależy od wielkości współczynnika korelacji między X i Z (w powyższym
przykładzie osiągnął on nierealistyczną wielkość 0,76). Jeśli jest niski (dokładniej: niższy niż połowa stosunku współczynnika zmienności Z do współczynnika
zmienności X), to wprowadzenie zmiennej z pogarsza dokładność oszacowania.
Na zakończenie rozważań o estymacji parametrów zauważmy, że wariancja
estymatora nie wyczerpuje wszystkich błędów oszacowania, ponieważ odnosi
się jedynie do błędu wynikającego stąd, że wypowiadamy się o populacji na podstawie próbki. Innym źródłem rozbieżności między oszacowaniem a prawdziwą
wartością parametru są błędy samego pomiaru zmiennej. Na błędy te składają się
nierzetelność narzędzia pomiaru oraz zwykłe pomyłki badacza podczas zbierania i zapisywania danych. Wskutek tego faktyczny wynik osoby jest sumą wyniku
prawdziwego, błędu losowego i błędu nielosowego ε. Błąd ε może być skorelowany
z prawdziwą wartością zmiennej i nie musi się znosić do zera. Dobrym przykładem
może być błąd, do którego dochodzi, gdy mierzymy dochód osoby lub rodziny za
pomocą wywiadu: jak wykazano, im większe są prawdziwe dochody, tym większa
jest też skłonność do zaniżania ujawnianego dochodu. Estymator X jest wówczas
obciążony (sugeruje, że średni dochód jest niższy niż w rzeczywistości), a jego wariancja jest powiększona w zależności od wariancji błędu pomiaru i współczynnika korelacji między błędem pomiaru i prawdziwą wartością zmiennej.
Czasem podejmuje się próbę oszacowania nielosowych błędów pomiaru.
W tym celu z próbki losuje się mniejszą próbkę (ale liczącą kilkadziesiąt obiektów)
i powtarza na niej pomiar z taką starannością, by można go było uznać za bezbłędny. Odejmując nowy wynik od wyniku, który każda osoba w podpróbce uzyskała
poprzednio, otrzymujemy zbiór błędów pomiaru ε. Średnia tych błędów jest wówczas oszacowaniem obciążenia estymatora, a wariancja i współczynnik korelacji
z wynikiem prawdziwym pozwalają skorygować ocenę dokładności oszacowania
interesującego nas parametru.
Sprawdzanie hipotez statystycznych
W wielu doniesieniach badawczych statystyka indukcyjna przypomina rytuał: podawszy trzy wartości, np. χ2, df i p, autor oświadcza, że wyniki są „istotne”. Musi
się w tym słowie kryć moc wielka i tajemnicza zarazem, skoro nawet poradniki
metodologiczne wyjaśniają je w najdziwaczniejszy sposób.
W jednym z nich czytamy: „Testy statystyczne pozwalają orzec, na ile stwierdzone w badaniu zależności są rezultatem przypadku, w jakim stopniu zaś prawidłowością realnie występującą”. Ale testy statystyczne to zbiór operacji matematycznych na zebranych danych. Jak mogą dostarczyć informacji o realności (czyli
zgodności z rzeczywistością) wyników badania? Czy mamy wierzyć, że komputer
wie lepiej od nas, jak się rzeczy mają w realnym świecie? Inny podręcznik: „hipoteza (...) będzie utrzymana tylko wtedy, gdy stosowny test istotności wykaże, że
gdyby badanie powtarzać tysiące razy, podobne rezultaty pojawiłyby się przynajmniej 95 razy na każde 100 powtórzeń”. To wyjaśnienie zakłada, że komputer nie
tylko wie, jaki jest świat, ale też potrafi przewidzieć, co się stanie w przyszłości.
Zacznijmy od przykładu. W celu sprawdzenia hipotezy, że zmienna X wpływa
na Y, przeprowadziliśmy eksperyment. Zmienna niezależna X miała dwie wartości x1 i x2, którym losowo przydzielono dwie grupy badanych o liczebności n1
i n2. Hipoteza przewidywała, że w warunkach x1 reakcja Y będzie silniejsza niż
w warunkach x2.
Musimy porównać wartości Y w obu grupach. Rzecz jasna, Y przyjmuje różne
wartości u poszczególnych osób w każdej grupie, więc trzeba porównać rozkłady Y.
Wiemy, że jedną z miar rozkładu jest średnia arytmetyczna. Obliczamy więc y‒1 i y‒2.
Okazuje się, że zgodnie z hipotezą y‒1 > y‒2. Ale na tym nie koniec. Ponieważ w obu
grupach wartości Y są zróżnicowane wskutek tego, że grupy te składają się z różnych
osób, różnica między średnimi może wynikać z przypadkowych różnic w składzie
grup, a nie z oddziaływania eksperymentalnego. Jak się przekonać, że tak nie jest?
Rozumowanie, które oferuje statystyka indukcyjna, jest następujące. Załóżmy,
że zmienna niezależna (oddziaływania eksperymentalne) nie miała żadnego wpływu na Y, czyli że różnica między średnimi powstała wyłącznie wskutek przypadku
działającego w trakcie losowego doboru osób do grup porównawczych. Takie założenie nazywa się statystyczną hipotezą zerową2. Trzeba teraz oszacować prawdopodobieństwo pojawienia się takiej lub większej różnicy między średnimi, gdyby
hipoteza zerowa była prawdziwa. To prawdopodobieństwo oznacza się literą p. Im
p mniejsze, tym odrzucenie hipotezy zerowej bardziej uzasadnione. Żeby zapobiec
naciąganiu tego kryterium, badacz już w fazie planowania eksperymentu deklaruje
progową wartość prawdopodobieństwa p: zazwyczaj 0,05. Tę wartość oznacza się
literą α i nazywa poziomem istotności statystycznej. Jeśli p okazuje się mniejsze od
α, hipoteza zerowa zostaje odrzucona, w przeciwnym razie – utrzymana3.
Badanie istotności statystycznej wyniku to zatem wystawianie go na próbę.
– Twierdzę, że wynik jest dziełem przypadku – powiada oskarżyciel. – Przekonajcie
mnie, że jest inaczej.
Biegli obliczają prawdopodobieństwo przypadkowego uzyskania takiego (lub jeszcze
lepszego) wyniku.
– Proszę! – zwraca się obrońca do oskarżyciela. – Gdyby zmienna niezależna nie wywierała żadnego wpływu, inkryminowany wynik pojawiałby się rzadziej niż 5 razy na
100 losowań. Chyba nie będzie się pan upierał, że właśnie nam zdarzył się tak mało
prawdopodobny wypadek? Zresztą nasz kodeks mówi wyraźnie: jeśli p < α, wątpliwości
oskarżyciela należy odrzucić.
Wypowiedź obrońcy ujawnia głębszy sens poziomu istotności α: jest to najmniejsze prawdopodobieństwo popełnienia błędu odrzucenia prawdziwej hipotezy zerowej, które jesteśmy gotowi zaakceptować. W istocie oskarżyciel mógłby
2
Czytelnik zechce pamiętać, że hipoteza zerowa jest fikcją statystyczną i nie ma nic
wspólnego z pojęciem hipotezy, którym się dotąd posługiwaliśmy (hipoteza jako wywnioskowane z teorii przewidywanie, które jest sprawdzane w badaniu).
3
Mówiąc „utrzymana”, nie twierdzimy, że hipoteza zerowa jest prawdziwa (w istocie
niepodobna udowodnić, że coś nie istnieje), lecz tylko że nie ma podstaw do jej odrzucenia.
Dane ilościowe 205
się nadal upierać, że testowany wynik jest dziełem przypadku, i wytykać obrońcy,
że przecząc temu, naraża się na popełnienie błędu. Ale cytując konwencję „Jeśli
p < α ...”, obrońca przypomina: „W badaniach naukowych godzimy się z ryzykiem
błędu, jeśli tylko jego prawdopodobieństwo jest mniejsze od α”.
Czytelnik może zapytać, dlaczego nauka jest tak tolerancyjna: godzi się z błędem, który pojawia się mniej niż 5 razy ma 100 prób. Czy nie można by przyjąć
bezpieczniejszej konwencji, np. mniej niż 1 raz na 1000 prób? Niestety, zmniejszając prawdopodobieństwo popełnienia błędu odrzucenia hipotezy prawdziwej, zwiększamy prawdopodobieństwo popełnienia innego błędu – utrzymania
hipotezy fałszywej. Łatwo to zrozumieć na przykładzie przewodu sądowego. Jak
wiadomo, w sądzie przyjmuje się domniemanie niewinności, czyli hipotezę zerową „Oskarżony jest niewinny”. Im więcej niezbitych dowodów potrzebuje sąd,
by odrzucić tę hipotezę, tym więcej winnych uniknie kary. Jeśli wzdragamy się
przed łatwym odrzuceniem hipotezy zerowej, zwiększamy prawdopodobieństwo,
że utrzymamy ją nawet wtedy, gdy będzie fałszywa.
Widzimy więc, że w procesie wnioskowania statystycznego grożą nam nie jeden, lecz dwa błędy:
• błąd I rodzaju o prawdopodobieństwie α: odrzucenie prawdziwej hipotezy zerowej,
• błąd II rodzaju o prawdopodobieństwie β: utrzymanie fałszywej hipotezy zerowej,
przy czym im mniejsze α, tym większe β4. W praktyce badawczej w ustalaniu obu
progów bierze się pod uwagę koszty błędów. Możemy zaryzykować większą wartość α, gdy na przykład sprawdzamy skuteczność pewnej metody nauczania, która
nie wymaga kosztownych inwestycji. Gdy jednak ich wymaga, łatwość odrzucenia
hipotezy zerowej narażałaby zamawiającego badanie na nieusprawiedliwione ryzyko wyrzucenia pieniędzy w błoto, więc poziom α musi być bardziej rygorystyczny.
Istotność badamy za pomocą testu statystycznego. Testy dzielą się na parametryczne i nieparametryczne. Różnica polega na tym, że pierwsze wymagają
spełnienia założeń co do rozkładów zmiennych w populacji. Wszystkie są wyczerpująco opisane w dostępnych podręcznikach statystyki, więc nie będziemy
się zajmować ani teorią statystyczną, która leży u ich podłoża, ani algorytmami
obliczeniowymi. Zadbamy raczej o zrozumienie, jak działają.
Wiemy, że wyniki badania mogą należeć do jednej z dwóch grup. Mogą to być:
• różnice między rozkładami zmiennej zależnej w różnych grupach lub w różnych warunkach eksperymentalnych,
• zależności stochastyczne rozkładów dwóch lub więcej zmiennych.
Elementarne podręczniki analizy danych do wyników z pierwszej grupy zalecają test t Studenta, a do drugiego test istotności współczynnika korelacji czy innych
miar współwystępowania. Ten zwyczaj ma niedobre następstwa: daje czytelnikowi
poczucie, że wie wszystko, czego będzie potrzebował, i daje do zrozumienia, że
Związek ten zależy od mocy testu statystycznego (np. test t jest mocniejszy niż test
serii Walda-Wolfowitza), wielkości testowanego efektu i przede wszystkim od liczebności
próbki.
4
inne metody są bardzo trudne, co zniechęca go do doskonalenia swojego warsztatu. W rezultacie wiele informacji tkwiących w danych nigdy nie wychodzi na jaw,
a wielu odkryciom brakuje uzasadnienia. Dlatego tu omówimy dwie potężniejsze
metody: analizę wariancji i analizę regresji.
Analiza wariancji
Test t pozwala oszacować istotność różnicy między średnimi zmiennej w dwóch
grupach porównawczych. Analiza wariancji (w skrócie ANOVA) pozwala zrobić
to dla wielu grup i wielu zmiennych łącznie. Została opracowana przez R. Fishera do analizy wyników złożonych eksperymentów agrotechnicznych. Dziś stosuje
się ją we wszelkich badaniach, jeśli tylko spełniają kilka warunków: osoby zostały
dobrane lub przydzielone do grup porównawczych w sposób losowy, zmienna ma
poziom przedziałowy, jej rozkład w populacjach eksperymentalnych jest normalny, a wariancje są równe. Analiza wariancji jest jednak „krzepką” metodą, co znaczy, że niewielkie odstępstwa od tych warunków nie przekreślają wartości testu5.
neutralny
obraźliwy
Średni efekt
filmu
Napastnik
54,9 (10)
58,0 (10)
56,5
Ofiara
41,7 (10)
78,0 (10)
59,9
Średni efekt komentarza
48,3
68,0
Treść filmu
Komentarz
Przyjrzymy się analizie wariancji dla danych z eksperymentu dwuczynnikowego w schemacie grup niezależnych, który omawialiśmy w rozdz. 3. Powyższa tabela zawiera średnie arytmetyczne agresywnego zachowania się w czterech grupach,
a w nawiasach liczby badanych:
Istotą analizy jest podzielenie całkowitego zróżnicowania wyników na części
odpowiadające różnym źródłom zróżnicowania. Pamiętamy, że oszacowaniem
zróżnicowania (wariancji) jest suma kwadratów odchyleń poszczególnych wartości od ich średniej podzielona przez liczbę tych wartości pomniejszoną o 1. Mając
zbiór 40 wyników o średniej 58,2, możemy obliczyć ich wariancję przez znalezienie sumy kwadratów odchyleń każdego wyniku od średniej (22993,5) i podzielenie jej przez 39.
W tej wariancji mieści się zróżnicowanie średnich w grupach porównawczych.
Zauważmy: dwie średnie brzegowe czynnika „komentarz” można potraktować
jak dowolne dwa wyniki surowe i w zwykły sposób obliczyć ich wariancję. W tym
celu trzeba znaleźć sumę kwadratów odchyleń średnich brzegowych (48,3 i 68,0)
od średniej globalnej (58,2). Ponieważ na każdą średnią złożyło się 20 osób, sumę
(194,045) mnożymy przez 20. Wynik (3880,9) to suma kwadratów odchyleń średnich pierwszego czynnika i zarazem wariancja tych średnich (skoro są dwie wartości, to sumę kwadratów trzeba podzielić przez 1). Taką wariancję będziemy nazywać
międzygrupową. Jest oczywiste, że można ją obliczyć dla dowolnej liczby średnich.
O tych i innych warunkach oraz sposobach sprawdzania, czy są spełnione, wyczerpująco piszą Brzeziński i Stachowski (1981, rozdz. 3).
5
Dane ilościowe 207
Innym źródłem zróżnicowania wyników są różnice między osobami wewnątrz
każdej grupy porównawczej. Te różnice są dziełem przypadku działającego w fazie dobierania osób do grup, a więc stanowią błąd próbkowania. Żeby obliczyć
wariancję błędu, musimy znaleźć sumy kwadratów odchyleń od lokalnej średniej
w każdej z czterech grup i dodać je do siebie. Rezultat (16241,4) trzeba podzielić
przez liczebność grupy pomniejszoną o 1 i wziętą tyle razy, ile jest grup (9 ∙ 4 = 36).
W ten sposób otrzymujemy wielkość wariancji wewnątrzgrupowej (451,2).
Test istotności opiera się na porównaniu dwóch wariancji: międzygrupowej
i wewnątrzgrupowej.
• Jeśli hipoteza zerowa jest prawdziwa, to rozkłady zmiennej zależnej we wszystkich grupach porównawczych pochodzą z tej samej populacji. Wszystkie
różnice między średnimi są wtedy wynikiem przypadku. Wariancja międzygrupowa jest oszacowaniem tego samego błędu, który szacuje wariancja wewnątrzgrupowa, zatem obie wariancje niewiele różnią się od siebie.
• Jeśli hipoteza zerowa jest fałszywa, to wariancja międzygrupowa jest sumą
wariancji błędu i wariancji wynikającej z oddziaływań eksperymentalnych.
Znaczy to, że wariancja międzygrupowa jest większa niż wariancja wewnątrzgrupowa.
Fisher zaproponował porównanie ilorazowe:
F=
wariancja międzygrupowa
wariancja wewnątrzgrupowa (błędu)
i znalazł rozkład tego ilorazu. Dzięki temu obliczywszy wielkość F dla wyniku
badania, możemy stwierdzić, jakie jest prawdopodobieństwo p przypadkowego
uzyskania takiej i większej wielkości F. Jeśli p jest mniejsze od wybranej wielkości
α (np. p < 0,05), odrzucamy hipotezę zerową, czyli uznajemy, że różnice między
średnimi są statystycznie istotne. W naszym eksperymencie F = 3880,9 / 451,2,
czyli 8,60. W rozkładzie F o stopniach swobody odpowiadających dzielnikowi licznika (1) i mianownika (36) wielkości tej odpowiada p = 0,006. Ponieważ p < 0,05,
różnice między badanymi, którzy słyszeli komentarz neutralny, i badanymi, którzy
słyszeli komentarz obraźliwy, uznajemy za istotne.
To postępowanie stosuje się do wszystkich efektów złożonego schematu badań:
głównych i interakcyjnych. Obliczenia zbiera się w sumarycznej tabeli ANOVA:
Źródło wariancji
SS
Efekt główny komentarza
3880,9
Efekt główny filmu
115,6
Interakcja komentarza i filmu 2755,6
Błąd
16241,4
Razem
22993,5
df
MS
F
1
1
1
36
39
3880,9
115,6
2755,6
451,2
589,6
8,60
0,26
6,11
p
0,006
0,616
0,018
Tabela wylicza wszystkie źródła wariancji wyników i gromadzi elementy potrzebne do oszacowania tych wariancji. W kolumnie SS znajdują się sumy kwadratów (sums of squares), w kolumnie df – dzielniki tych sum (nazywa się je stopniami
swobody, po angielsku degrees of freedom). Kolumna MS (mean square) zawiera
ilorazy SS / df, czyli oszacowania wariancji. W kolumnie F mamy wartości testu dla
trzech efektów eksperymentalnych, a w kolumnie p odpowiadające im prawdopodobieństwa błędu I rodzaju. Efekt główny komentarza i efekt interakcyjny okazują
się istotne, nieistotny natomiast jest efekt główny filmu.
Sumaryczna tabela zaprasza do dalszych analiz. Wykrywszy istotną interakcję,
powinniśmy zbadać istotność efektów prostych. Postępowanie jest identyczne, jak
poprzednio. Musimy obliczyć wariancję międzygrupową jednego czynnika (dla każdej wartości drugiego czynnika z osobna), po czym porównać ją z wariancją błędu.
Źródło wariancji
Efekt prosty komentarza przy
filmie ukazującym napastnika
Efekt prosty komentarza przy
filmie ukazującym ofiarę
Błąd
SS
df
MS
F
p
48,1
1
48,1
0,11
0,786
6588,5
16241,4
1
36
6588,5
451,2
14,60
0,001
Jak przypuszczaliśmy, istotny jest tylko drugi efekt.
Gdy eksperyment jest wykonany w schemacie porównań wewnątrzosobniczych, podejście to trzeba zmodyfikować – o czym badacze często zapominają.
Jeśli badany wykonuje kilka lub kilkanaście prób w każdym z warunków eksperymentalnych, to aby wytrącić efekty ćwiczenia, do analizy bierze się wynik zagregowany – zwykle w postaci średniej albo (chcąc zmniejszyć wpływ skrajnych
wyników) mediany. Test istotności zapewnia specjalny wariant ANOVA: wielozmiennowa analiza wariancji (MANOVA) powtarzanych pomiarów.
Najważniejsza różnica dotyczy oszacowania wariancji błędu. Ponieważ te same
osoby są badane we wszystkich warunkach eksperymentalnych, różnice między
osobami odbijają się na średnich grupowych w jednakowym stopniu, zatem wariancja tych średnich nie zawiera wariancji błędu (w istocie różnice indywidualne
są tu systematyczne i zostały z góry wyeliminowane z wariancji międzygrupowej).
Dlatego wariancją błędu jest tu interakcja zmiennej niezależnej z osobami.
Każdą osobę można traktować jak jedną wartość zmiennej „osoby badane”.
Jeśli w kolejnych warunkach eksperymentalnych x1, x2, ..., xk wyniki Jana rosną,
a Piotra maleją, mamy interakcję. Im więcej jest takich nierównoległości w danych,
tym większa wariancja błędu. Wariancja efektu tej interakcji jest zawsze mniejsza
niż wariancja wewnątrzgrupowa, gdyby więc ktoś analizował dane eksperymentu
w schemacie porównań międzyosobniczych tak jak dane eksperymentu na niezależnych grupach, to przeszacowałby błąd i byłby skłonny utrzymać hipotezę
zerową mimo jej fałszywości. Komputerowe pakiety programów statystycznych
podają przy okazji wartość ε (epsilon) Huynh-Feldta, która jest poprawką na tzw.
niesferyczność danych. Przez ε trzeba pomnożyć pierwotne liczby stopni swobody
dla licznika i mianownika F i dopiero potem odszukać p. Im ε jest bliższy 1, tym
mniejszą zmianę powoduje ta poprawka.
Gdy eksperyment ma schemat mieszany (część czynników należy do schematu
niezależnych grup, a część do porównań międzyosobniczych, wykonuje się jedną
analizę wariancji, budując F-y z odpowiednimi mianownikami.
Dane ilościowe 209
W badaniach z reguły mierzy się więcej niż jedną zmienną zależną. Załóżmy,
że prowadzimy eksperyment na dwóch grupach uczniów i mierzymy wykonanie
pięciu zadań. Jeśli zastosujemy test t do każdego zadania z osobna, może się okazać,
że różnica jest istotna tylko dla dwóch. Czy to wystarczy do odrzucenia hipotezy, że
obie grupy są identyczne pod względem wykonania tych zadań? Zmienne zależne
bywają ze sobą skorelowane. W pewnym układzie tych korelacji dwie różnice istotne
na poziomie 0,05 można z powodzeniem przypisać błędowi. W innym wszystkie
mogą być nieistotne przy α = 0,05, a mimo to ich łączne pojawienie się w takich
wielkościach może być mało prawdopodobne przy założeniu hipotezy zerowej. Wielozmiennowa ANOVA, czyli MANOVA, pozwoli oszacować łączną istotność różnic.
Testy nieparametryczne
Testy nieparametryczne nie wymagają spełnienia założeń o naturze rozkładów
zmiennych w populacji. Dla zmiennych nominalnych opracowano m.in. test dwumianowy, test znaków i test różnicy między proporcjami. Istotność miar współwystępowania bada test χ2, który porównuje liczebności empiryczne z liczebnościami
oczekiwanymi w ustalonych klasach. Warto przypomnieć, że do tabel 2 × 2 lepiej
stosować test dokładny Fishera, który obywa się bez przybliżeń i poprawek na
nieciągłość. Dla zmiennych porządkowych opracowano test serii, test U (nazywany czasem Manna-Whitney’a, a czasem Wilcoxona) i wiele innych. Przystępnie
omawia je Blalock (1975).
Bock (1975, s. 15) opisuje nieparametryczne testowanie istotności efektu eksperymentalnego. Postępowanie jest proste i intuicyjnie zrozumiałe: ze wszystkich
n1 + n2 pomiarów zmiennej zależnej tworzymy wszystkie możliwe podziały na
dwie grupy o liczebnościach n1 + n2. Dla każdego podziału obliczamy różnicę między średnimi w obu grupach. Tak obliczone różnice szeregujemy od najmniejszej
do największej. W tym szeregu znajdujemy różnicę, którą faktycznie uzyskaliśmy
w eksperymencie. Jeśli leży ona na którymś ze skrajów szeregu, mamy podstawy,
by sądzić, że wzięła się z oddziaływania eksperymentalnego, a nie z przypadkowego zbiegu indywidualnych cech osób w jednej grupie. Przyjęło się uważać, że
różnica leży na skraju, jeśli jest mniejsza od 2,5 centyla (tzn. gdy mniej niż 2,5%
wszystkich różnic jest od niej mniejszych) lub większa od 97,5 centyla.
Wadą tej metody jest czasochłonność. Przy dwóch grupach liczba możliwych
podziałów wynosi:
 n1 + n2 


 n1 
Jeśli obie grupy są równoliczne, zmniejsza się ona do:
1  2n 
⋅ 
2  n 
ale i tak przy n1 = n2= 10 wynosi ponad 92 tys. Przeciętnemu komputerowi PC
obliczenia mogą zająć całą dobę.
Analiza regresji
W wielu badaniach hipoteza lub pytanie nie dotyczy różnic między średnimi
zmiennej zależnej w pewnej liczbie grup, lecz związków między pewną liczbą
zmiennych. Jest tak w badaniu eksploracyjnym, które ma dać wskazówki, od czego zależy pewna zmienna, lub w badaniu praktycznym, które ma umożliwić przewidywanie wartości pewnej zmiennej. Tym celom służy analiza regresji liniowej.
Pamiętamy, że linia regresji to taka prosta, która jest najlepiej dopasowana do
przypadków na wykresie korelacyjnym. Taką prostą opisuje znane ze szkoły równanie: Y = a + bX. Współczynnik a to punkt przecięcia prostej z osią Y, a b jest
miarą (tangensem) nachylenia prostej do osi X. Równanie pozwala przewidywać
wartości zmiennej losowej (czyli zależnej) Y na podstawie ustalonych wartości
zmiennej X (nazywanej zmienną niezależną lub predyktorem). Równanie można
traktować jak receptę, która mówi: by znaleźć y, weź x, pomnóż przez b i dodaj a.
Oczywiście przewidywane wartości Y różnią się od rzeczywistych. Wielkość tych
odchyleń ma związek z wielkością współczynnika korelacji między obiema zmiennymi: im korelacja silniejsza, tym przewidywanie dokładniejsze.
W praktyce badawczej nigdy bodaj nie ograniczamy się do jednego predyktora.
Załóżmy, że zmierzyliśmy w próbce pierwszoklasistów następujące zmienne:
• suma lat nauki matki i ojca (wskaźnik wykształcenia rodziców),
• wynik serii prób piagetowskich (wskaźnik rozwoju umysłowego),
• wynik testu Nickel-Dime Flavella (wskaźnik rozwoju społecznego),
• wynik serii dylematów moralnych (wskaźnik rozwoju moralnego).
Chcemy wiedzieć, jak silnie są związane te zmienne ze średnią cząstkowych
stopni szkolnych (wskaźnikiem osiągnięć). Przyjmując, że związki te są liniowe,
możemy się posłużyć współczynnikiem korelacji Pearsona. Macierz tych współczynników wygląda tak:
Zmienna
Wykształcenie
Rozwój umysłowy
Rozwój społeczny
Rozwój moralny
Stopnie
Wykształcenie
Rozwój
umysłowy
Rozwój
społeczny
0,40
0,43
0,26
0,21
0,22
0,13
0,17
0,34
0,28
0,21
Trudno stąd wyciągnąć jakieś wnioski, ponieważ na wielkość współczynnika
między parą zmiennych wpływają inne zmienne. Gdy posłużymy się analizą regresji, obraz staje się jaśniejszy.
Jak poprzednio, budujemy równanie liniowe, tyle że z wieloma predyktorami:
Y’ = a + b1 X1 + b2 X2 + b3 X3 + ... + bk Xk. Analiza regresji pozwala oszacować współczynniki a i b. Dla naszych danych wyniki są podane w powyższej tabeli. Liczby
w drugiej kolumnie to współczynniki a i b. Gdybyśmy chcieli przewidywać stopnie
na podstawie naszych predyktorów, to najlepsze przewidywanie zapewniłoby równanie: Y’ = 2,309 + 0,155 ED + 0,277 RU + 0,105 RS + 0,030 RM. Współczynniki
b mówią niewiele, ponieważ zależą od jednostek pomiaru (np. pierwszy predyktor
Dane ilościowe Zmienna
Stała
Wykształcenie
Rozwój umysłowy
Rozwój społeczny
Rozwój moralny
211
Symbol
a, b
β (beta)
t
p
a
ED
RU
RS
RM
2,309
0,155
0,277
0,105
0,030
0,313
0,312
0,108
0,043
5,42
3,13
2,91
1,04
0,42
0,000
0,003
0,005
0,303
0,677
R = 0,545; R2 = 0,297; F(4; 75) = 7,89; p < 0,001
mierzy się w latach, drugi w liczbie poprawnie wykonanych zadań). Łatwo jednak
sprowadzić wszystkie predyktory do wspólnej skali: wystarczy je wystandaryzować.
Pamiętamy, że w tym celu trzeba wynik każdej osoby odjąć od średniej w próbce
i podzielić przez odchylenie standardowe. Dzięki temu każda zmienna ma odtąd
średnią 0 i odchylenie standardowe 1. Jeśli na takich zmiennych wykonamy analizę regresji, zamiast b otrzymamy wagi β. Zawiera je trzecia kolumna. Wielkość
β informuje, o ile odchyleń standardowych zmieni się Y w następstwie zmiany X
o jedno odchylenie standardowe, niezależnie od wartości pozostałych zmiennych.
By to lepiej zrozumieć, wróćmy do równania regresji. Wyrażenie po prawej
stronie definiuje nową zmienną Y’. Gdybyśmy obliczyli jej wartości dla każdego
dziecka, moglibyśmy też obliczyć współczynnik korelacji między Y’ a oryginalną
Y. Nazywa się go współczynnikiem korelacji wielokrotnej i oznacza symbolem R.
Kwadrat tej wartości to współczynnik determinacji wielokrotnej (R2). Informuje
on o proporcji (albo procencie, jeśli R2 pomnożyć przez 100%) zróżnicowania Y,
które można przypisać łącznemu zróżnicowaniu predyktorów. Ponieważ u nas R2
= 0,297, możemy stwierdzić, że cztery predyktory łącznie są w stanie „wyjaśnić”
(lepiej: odtworzyć) nie więcej niż 30% zróżnicowania stopni.
O wkładzie pojedynczego predyktora w przewidywanie informuje jego β. Jeśli
β jest bliska zera, predyktor wnosi do przewidywania bardzo mało (jak wynik pomiaru rozwoju moralnego) i można go usunąć z równania. Rzeczywiście: R2 bez
zmiennej RM jest mniejszy zaledwie o 0,3 punktu procentowego.
Przejdźmy teraz do zagadnienia istotności. Czwarta kolumna tabeli podaje wartości testu statystycznego t, który sprawdza hipotezę zerową, że a = 0 lub że bi = 0. Jak
widać, przy α = 0,01 hipotezę można odrzucić tylko dla dwóch pierwszych predyktorów. Osobno bada się istotność R2, czyli prawdopodobieństwo, że R2 w 80-osobowej
próbce losowej osiągnie wielkość 0,297 lub większą, mimo że w populacji równa się
0. Jak widać, jest ono bardzo małe, toteż R2 uznajemy za statystycznie istotne. Wyniki
upoważniają nas do wniosku, że osiągnięcia szkolne pierwszoklasisty w podobnym
stopniu zależą od wykształcenia rodziców i stopnia rozwoju umysłowego dziecka,
nie zależą natomiast od poziomu jego kompetencji społecznych i moralnych.
Rozważania o analizie regresji zakończymy kilkoma uzupełniającymi uwagami.
Poziom zmiennych. Klasyczna wersja analizy regresji wymaga, by wszystkie
zmienne były przedziałowe6. Często jednak chcielibyśmy wiedzieć, co wnosi do
Ponadto by w populacji zmienna Y tworzyła rozkład normalny o tym samym odchyleniu standardowym dla każdej wartości X z osobna.
6
równania zmienna niższego poziomu. Brzeziński (1997, rozdz. 13) radzi, jak postępować w takich przypadkach. Inny sposób to użycie specjalnego wariantu regresji z optymalnym skalowaniem zmiennej. Wprowadzenie do regresji zmiennej
porządkowej o wartościach arbitralnie oznaczonych kolejnymi liczbami naturalnymi jest błędem podważającym wszystkie wyniki analizy.
Liniowość. Analiza regresji liniowej nie może być stosowana, jeśli związki
między zmiennymi są nieliniowe. Jak ominąć tę trudność, radzi Blalock (1975,
s. 393). Można też użyć specjalnego programu regresji nieliniowej, który znajduje
się w komputerowych pakietach statystycznych.
Interakcje. Klasyczna wersja analizy regresji nie uwzględnia możliwości, że
pary, trójki itd. predyktorów mogą wnosić do równania interakcję. Taka interakcja
jest nowym predyktorem. Jak włączyć ją do równania regresji, pokazuje Brzeziński
(1997, rozdz. 13).
Zmienne redundantne. Pewne predyktory mogą być redundantne, tzn. mogą
różnicować wartości zmiennej zależnej tylko dlatego, że są silnie skorelowane z innymi zmiennymi niezależnymi („świecą światłem odbitym”). Trzeba je znaleźć
i usunąć z równania. Robi się to za pomocą krokowej (stepwise) analizy regresji.
Podobnie jest w przypadku analizy dyskryminacyjnej lub korelacji kanonicznej:
zmienne redundantne usuwa analiza zstępująca (step-down).
Przewidywanie a wielkość R2. Gdy budujemy równanie regresji z myślą o zastosowaniu go w praktyce (np. do przewidywania powodzenia w nauce lub w pracy), wielkość R2 jest znacznie ważniejsza niż istotność statystyczna. Jeśli R2 jest
małe, należy się spodziewać dużych różnic między wartościami przewidywanymi
a rzeczywistymi. Można udowodnić, że odchylenie standardowe tych różnic w populacji, czyli błąd standardowy przewidywania, równa się:
——––
σpred = σy √1 – ρ2
gdzie σy jest odchyleniem standardowym zmiennej zależnej, a ρ to współczynnik korelacji wielokrotnej. Jest to ważny wzór, ponieważ pozwala zdecydować,
czy zbiór predyktorów w ogóle nadaje się do przewidywania Y. Zauważmy, że
gdy R2 (tj. oszacowanie ρ z próbki) jest bliskie 0, to błąd przewidywania jest
bliski odchyleniu standardowemu Y. Jest to równoważne „przewidywaniu” polegającemu na przypisaniu każdemu badanemu tej samej prognozy równej y‒.
W miarę jak R2 rośnie, różnice maleją i przy R2 = 1 ich odchylenie standardowe
jest równe 0, co znaczy, że wartości przewidywane dokładnie pokrywają się
z rzeczywistymi.
Wiele lat temu grupa badaczy zainteresowanych bardziej racjonalnymi metodami rekrutacji na studia doniosła z dumą, że cztery predyktory: wynik egzaminu wstępnego, oceny na świadectwie maturalnym, wynik testowania inteligencji
i tzw. wskaźnik biograficzno-środowiskowy wysoko korelują z wynikami studiowania na I i II roku w jednej z akademii medycznych (R = 0,70). Żeby wykorzystać
to równanie do selekcji kandydatów, trzeba je najpierw sprawdzić na niezależnej
próbce, ponieważ nie tylko nie ma żadnej gwarancji, że obliczone wagi będą zawsze takie same, ale też jest bardziej prawdopodobne, że będą malały, niż że będą
Dane ilościowe 213
rosły. To zjawisko, zwane kurczeniem się R, jest tym wyraźniejsze, im mniejsza
była pierwsza próbka. Uważa się, że względnie stabilne szacunki R można uzyskać
dopiero wtedy, gdy na każdy predyktor przypada 30–300 osób. Ale nawet gdyby R
okazało się stabilne, to i tak łatwo obliczyć, że trafność przewidywania byłaby tylko o 30% większa niż trafność przewidywania, że wszystkim kandydatom będzie
się wiodło średnio. Ten sam wzór informuje, że zmniejszenie błędu przewidywania o połowę jest możliwe dopiero wtedy, gdy współczynnik korelacji przekracza
wartość 0,86, co zdarza się niezmiernie rzadko.
Oczywiście nie po to bada się kandydatów, by móc przewidzieć wyniki studiowania, lecz po to, by przewidzieć, czy sobie poradzą na studiach, czy nie. Zamiast
analizy regresji lepiej zastosować analizę dyskryminacyjną pozwalającą przewidywać, w której z tych dwóch klas znajdzie się kandydat.
Mierniki wielkości efektu
Badacze często zapominają, że wartość testu statystycznego nie jest miarą wielkości wyniku. Nie jest dlatego, że t, F czy χ2 zależą od liczebności próbki: przy tej
samej wielkości różnicy między grupami t rośnie w miarę wzrostu wielkości grup.
Żeby orzec, jak duży jest wynik, potrzebujemy innych mierników. Ich ważność
wzrasta, gdy wynik ma znaczenie praktyczne. Kiedy sprawdzamy jakieś wyrafinowane przewidywanie teoretyczne, liczy się nawet słaby wynik, jeśli tylko istotnie
różni się od zera. Ale gdy wynik ma być zastosowany w praktyce, sama istotność
daje niewiele. W pewnym doniesieniu przeczytałem o związku między postawą
promodernizacyjną nauczyciela a wielkością dochodu w jego rodzinie. Na dowód
przytoczono współczynnik korelacji: r = 0,12. Cóż z tego, że ten współczynnik jest
istotny na poziomie 0,05, skoro wiąże zaledwie 1,4% zróżnicowania obu zmiennych? Gdybyśmy chcieli przewidywać postawę na podstawie dochodu, zredukowalibyśmy błąd przewidywania zaledwie o 1%. Choć istotny statystycznie, wynik
jest nieistotny dla praktyki.
Jeśli posługujemy się testem t, możemy zmierzyć wielkość różnicy za pomocą
ω2 (omega kwadrat) Haysa:
t2
ω2 =
t2 + n1 + n2 – 1
Miernik ten mówi, jaką część zróżnicowania zmiennej zależnej wyjaśnia
zmienna niezależna. W przypadku jednoczynnikowej analizy wariancji proponuje
się inne oszacowania. Najprostsze to η2 (eta kwadrat):
η2 =
SSmiędzygrupowa
∙ 100%
SSrazem
W wieloczynnikowych analizach wariancji wielkość efektów szacuje się za
pomocą cząstkowej η2. W mianowniku znajduje się wówczas SSrazem pomniejszona o SS-y odpowiadające pozostałym efektom. Na przykład dla efektu głównego
komentarza η2 = 3880,9 / (22993,5 – 115,6 – 2755,6), czyli 0,193 lub 19,3%. Szerzej
pisze o tym Brzeziński (1985).
Gdy obliczamy współczynniki korelacji Pearsona, wielkość związku szacuje
r2, czyli współczynnik determinacji. O wielkości efektu w analizie regresji najlepiej informuje R2. Trudniej oszacować wielkość efektu pojedynczego predyktora.
Blalock (1975, s. 19) proponuje obliczać współczynnik korelacji cząstkowej (tzn.
współczynnik korelacji między danym predyktorem a tą częścią zmiennej zależnej, której nie wyjaśniły pozostałe predyktory). Kwadrat tego współczynnika informuje, jaki procent zróżnicowania zmiennej zależnej wyjaśnia dany predyktor,
gdy pozostałe predyktory wyjaśniły już całe zróżnicowanie, jakie mogły wyjaśnić.
Ten sam autor omawia też cząstkowy współczynnik korelacji wielokrotnej, który
pozwala stwierdzić, jaką część zróżnicowania zmiennej zależnej wyjaśnia podzbiór predyktorów, gdy inne predyktory (np. silne, a mało interesujące) zrobiły już
swoje (s. 392).
Proponuje się też badać zmiany R2 po włączeniu lub wyłączeniu danego predyktora z równania regresji. Jeśli jednak predyktory są ze sobą skorelowane (a zwykle
są), to zmiany te zależą od kolejności, w jakiej wprowadzamy predyktory. Wróćmy
do przykładu z przewidywaniem stopni pierwszoklasistów. Jeśli najpierw zrobimy
analizę regresji tylko z RU, a potem dodamy RS, to R2 wzrośnie z 18,8% do 19,9%,
z czego by wynikało, że RU determinuje 18,8%, a RS 1,1% wariancji stopni szkolnych. Ale gdy odwrócimy tę kolejność, to R2 wzrośnie od 6,4% do 19,9%, z czego
by wynikało, że RU determinuje 13,5%, a RS 6,4%. Cząstkowe współczynniki determinacji są niezależne od kolejności i wynoszą dla RU 14,4%, dla RS 1,4%.
Rozdział 9
DONIESIENIE NAUKOWE
Komunikowanie wyników badania innym członkom wspólnoty naukowej jest integralną częścią postępowania badawczego. Tekst takiego komunikatu będziemy
nazywać doniesieniem naukowym. Jest nim referat, rozprawa dyplomowa (np.
doktorska) czy artykuł w czasopiśmie naukowym. Doniesienie ma swoistą kompozycję i język.
Kompozycja
Na Zachodzie, a zwłaszcza w USA, wypracowano szczegółowe standardy doniesień naukowych (np. American Psychological Association, 1994). W Polsce panuje pod tym względem większa dowolność, choć wiele renomowanych czasopism
naukowych wprowadza własne standardy, których powinien się trzymać każdy,
kto chce tam ogłosić swoje doniesienie. Badacz, zwłaszcza początkujący, postąpi
rozsądnie, komponując doniesienie w konwencjonalny sposób, ponieważ nadaje
on publikacji zwięzłość i przejrzystość, a zarazem chroni przed pominięciem ważnych wątków.
Na typowe doniesienie składają się: tytuł, streszczenie, wprowadzenie, opis
metody i wyników, interpretacja, przypisy, spis wykorzystanych źródeł i aneks.
Omówimy je kolejno.
Tytuł
Tytuł doniesienia powinien być zarazem krótki i treściwy. Niełatwo to osiągnąć.
Z reguły tytuły krótkie (np. osławione „Problemy...” lub jeszcze gorsze „Niektóre
problemy...”) niedostatecznie informują, o czym mówi doniesienie, długie zaś (np.
„Porównanie osiągnięć szkolnych z języka polskiego i matematyki uczniów klas
maturalnych ze szkół średnich różnego typu”) wyglądają niezgrabnie. Zdarzają
się też tytuły długie i niezgrabne, a mimo to niejasne (co zapowiada tytuł „Ocena
opisowa w klasie pierwszej szkoły podstawowej w ujęciu nauczycieli nauczania
początkowego województwa elbląskiego” – czy to, co nauczyciele sądzą o tej ocenie, czy jak ją stosują?).
216 Rozdział 9. Doniesienie naukowe
Dobrze jest zacząć od wersji tytułu, która wyczerpująco informuje o treści doniesienia, po czym skracać ją przez usuwanie zbędnych słów. Na przykład w drugim z cytowanych tytułów można bez żadnej szkody usunąć słowa „porównanie”,
„szkolnych” i „średnich”. Tytuł powinien informować o zmiennych i populacjach,
ale już nie o definicjach operacyjnych i próbach, dlatego nie należy w nim umieszczać nazw własnych (np. w trzecim tytule „województwo elbląskie” jest najzupełniej zbędne).
Można nadać tytułowi formę pytania (np. „Obojętny przechodzień – dlaczego nie pomaga?” lub „Jak nauczyciele normują test osiągnięć szkolnych?”) – nie
gorzej informuje o szczegółach badania, a ponadto przyciąga czytelnika obietnicą
odpowiedzi. Zdecydowanie trzeba natomiast unikać tytułów perswazyjnych (np.:
„Czy jest wyjście z «egzaminacyjnego piekła»?” lub potworków w rodzaju: „O lepsze przygotowanie nauczycieli do pracy z dziećmi niedostosowanymi społecznie”).
Każą się one domyślać drugorzędnej publicystyki i skutecznie odstraszają czytelnika poszukującego danych empirycznych.
Streszczenie
W większości doniesień wymagane jest streszczenie (abstract), które zamieszcza
się na początku, a nie na końcu. Ograniczone najwyżej do 300 słów, streszczenie
jest wyzwaniem i dla autora, i dla tekstu. Dla autora, ponieważ trzeba wielkiej
dyscypliny, by wybrać z doniesienia to, co najważniejsze. Dla tekstu, bo nawet
najzręczniejszy autor nie zdoła streścić wielowątkowych, niespójnych i zdroworozsądkowych rozważań.
Oto przykład wyjątkowo nieporadnego streszczenia. Czego można się z niego
dowiedzieć?
Artykuł przedstawia projekt antyrasistowskiego kursu doskonalenia zawodowego dla
nauczycieli, który może być wdrożony w kontekście realiów życia nauczycieli i warunków ich pracy. Program tego rodzaju może dostarczyć okazji do uwrażliwienia nauczycieli na rasowe konstrukcje rzeczywistości we własnym życiu, w szkole itp. oraz dać
podstawy do nauczania przeciwko rasizmowi. Artykuł jest podzielony na dwie części.
Część pierwsza odnosi się do historycznego i teoretycznego podłoża programu. Część
druga omawia sam program.
Pierwsze zdanie parafrazuje tytuł doniesienia („Antyrasistowskie doskonalenie zawodowe nauczycieli: uwagi o rasie, klasie i płci”) i zapewnia – jakżeby inaczej – że opisywany produkt może znaleźć zastosowanie. Drugie rozwija te zapewnienia. Potem uwaga przenosi się na strukturę samego doniesienia. Informacja, że
składa się dwóch części, wnosi niewiele, zwłaszcza że następne zdania po prostu
powielają tytuły tych części. Na takie streszczenie szkoda czasu i atramentu.
A oto inny przykład (adaptowany z: Kaja, 1988):
Zbadano 152 sześciolatków; 76 przeżyło rozwód rodziców, a 76 pochodziło z rodzin
pełnych i zgodnych. Dzieci znajdujące się w sytuacji porozwodowej częściej uzyskiwały
niskie wyniki w nowym kwestionariuszu samooceny niż dzieci z rodzin pełnych, wykazywały też niższy poziom uspołecznienia w CBI Schaefera i Aaronson, bardziej negatywną postawę wobec ojców w Rysunku rodziny Frydrychowicz oraz nieco wyższe
Kompozycja 217
pragnienie dóbr materialnych w Teście pragnień. Obie grupy nie różniły się pod względem procesów instrumentalnych, mierzonych Sprawdzianem osiągnięć rozwojowych.
Wyniki świadczą, że rozwód rodziców może sprzyjać formowaniu się u dzieci osobowości nastawionej na obronę siebie.
To streszczenie krótko, ale wyczerpująco informuje o próbie, metodach i wynikach badania, a w ostatnim zdaniu także o głównym wniosku teoretycznym.
Zainteresowany czytelnik został doskonale przygotowany do studiowania szczegółów doniesienia.
Wprowadzenie
Wprowadzenie ma przygotować czytelnika do lektury głównej części doniesienia.
Zwykle składa się z trzech niewyodrębnionych części:
• pierwsza zarysowuje pole problemowe,
• druga przedstawia wybrane twierdzenia teoretyczne i wyniki wcześniejszych
badań,
• trzecia wyprowadza z nich pytania lub hipotezy własnego badania.
Nagminnym błędem jest brak wyraźnego związku między tymi częściami.
Pierwszą wypełnia sieć skojarzeń i dygresji, często trącących górnolotną publicystyką. Druga informuje, co i przez kogo zostało powiedziane na mętnie określony
temat. Trzecia mogłaby być pierwszą, bo pytanie lub hipoteza pojawia się w niej
nagle i bez uzasadnienia.
Wspomniany błąd wzmacnia pokutująca tu i ówdzie zasada, by we wprowadzeniu „omówić” znaczenia głównych terminów występujących w doniesieniu.
Pół biedy, gdy autor odwołuje się do literatury w sprawach oczywistych („Zdaniem A. Guryckiej na warunki materialne rodziny składają się zarobki jej członków... Według E. Trempały na warunki materialne rodziny składają się najczęściej
bieżące dochody...”). Gorzej, gdy naukowy kontekst badania zastępuje się ciągiem
przypadkowo zestawionych cytatów.
Jeśli w tytule doniesienia występuje „osobowość”, autor wertuje słowniki, encyklopedie i wprowadzenia do monografii naukowych, a potem zasypuje czytelnika
wyrwanymi z kontekstu definicjami. Leniwszy poprzestaje na kilkuzdaniowych
wzmiankach o poglądach Allporta, Freuda, Eriksona, Junga itd. aż do Skinnera –
wszystkich z jednego podręcznika. Autor książki z „pojęciem” w tytule wprowadza
czytelnika w swoje badania zestawieniem różnych definicji pojęcia: cytuje więc
marksistę A. Smirnowa, który pojęciem nazywa „odbicie ogólnych i istotnych
właściwości przedmiotów i zjawisk rzeczywistości”, logika J. Kmitę, nazywającego
pojęciem „znaczenie jakiegoś terminu” itd. Kilka stron takich nieprzystających do
siebie definicji zamyka zwykle jedna z dwóch konkluzji: albo że są zbieżne i razem wyczerpują znaczenie definiowanego terminu, albo że są rozbieżne i trudno
rozstrzygnąć, która jest najtrafniejsza. Tak wprowadzony czytelnik ciągle nie wie,
w jakim znaczeniu będzie występował kluczowy termin w dalszej części doniesienia, w jakie relacje wejdzie z innymi terminami i jakie dopuści operacjonalizacje.
W ferworze referowania cudzych poglądów i wniosków nie wolno zapominać
o wyróżnieniu cudzysłowem cytatów, czyli dosłownie przytoczonych fragmentów
cudzego dzieła – w przeciwnym razie może być oskarżony o naruszenie prawa autorskiego. Krótkie cytaty, np. zdanie czy fragment zdania, można włączyć w tekst,
dłuższe, kilkuzdaniowe, lepiej ująć w osobny akapit.
Metoda
Ta część doniesienia informuje, jak przeprowadzono badanie. Powinna być tak
szczegółowa, by czytelnik mógł ocenić prawomocność wniosków, a nawet powtórzyć badanie. Składają się na nią opisy:
• próbki,
• schematu badania i metod zbierania danych,
• procedury.
Przyjęło się zaczynać od opisu badanych osób (kim byli, ilu ich było i jak zostali dobrani) lub badanych miejsc. Tu podaje się też skład (strukturę) próbki pod
względem wieku, płci, wykształcenia i innych zmiennych, które mogą pomóc czytelnikowi w wyrobieniu sobie zdania o trafności zewnętrznej badania.
Następnie opisuje się schemat badania i metody zbierania danych. Jeśli autor
zastosował powszechnie znaną metodę, wystarczy ją nazwać, jeśli jednak posłużył
się własną (np. skalą postaw), powinien ją przedstawić: z ilu pozycji i czynników
się składa, jak brzmią centralne pozycje (dzięki temu czytelnik wyrobi sobie zdanie o jej trafności), jakie są opcje odpowiadania, jak oblicza się wynik. Trzeba też
podać wyniki badania trafności i rzetelności skali. Samo przekonanie badacza, że
jego skala mierzy taką a taką postawę, nie wystarczy.
Wreszcie opisuje się procedurę, czyli przebieg badania. To zadanie bywa traktowane w sposób niedopuszczalnie pobieżny. Od badacza wymaga się, by opowiedział w porządku chronologicznym, co i jak robił, nie przemilczając nieoczekiwanych trudności, jakie napotkał. Lepiej tu zgrzeszyć nadmiarem niż niedostatkiem
szczegółów.
Zasada ta dotyczy zwłaszcza doniesień z eksperymentów. Jeśli autor nie opisze,
w jakim otoczeniu wykonywał badanie, jakim oddziaływaniom poddawał osoby
w poszczególnych grupach, jak długo one trwały itd. – referowanie wyników traci sens. Niestety, autorzy doniesień z wielotygodniowych eksperymentów dydaktycznych najpierw oszczędzają papier, pisząc lakonicznie, że na przykład w grupie
eksperymentalnej nauczano historii metodą problemową, a w grupie kontrolnej
podającą, po czym marnują papier na całostronicowe zestawienia różnych miar
osiągnięć, postaw itp. Jasne jest, że metodę problemową można rozumieć i stosować na wiele sposobów, toteż czytelnik nie wie, jak zdefiniowano zmienną niezależną. Musi też wątpić, czy referowane różnice można przypisać tej zmiennej, skoro nic nie wie o sposobach kontrolowania zmiennych ubocznych i zabezpieczenia
się przed artefaktami.
Równie rażącym błędem jest pominięcie informacji o przebiegu zbierania danych. W wielu doniesieniach poprzestaje się na nazwaniu zastosowanych metod.
W jednym z nich – poświęconym przyczynom i skutkom konfliktów między dyrektorem szkoły a nauczycielem – czytamy, że dane zebrano za pomocą obserwacji i wywiadu. Obserwacja była „ciągła” (polegała „na celowym wynajdywaniu
Kompozycja 219
konfliktów między dyrektorem a nauczycielami na przestrzeni dłuższego czasu”)
i „czasowa” (polegała na „wykonywaniu planowych spostrzeżeń danego konfliktu w określonym z góry krótkim odcinku czasu”). Podobnie lakoniczny jest opis
wywiadu: prowadzono go z „wybranymi osobami, które mogły udzielić informacji o konfliktach”. Nie wiemy, kto prowadził obserwację, w jakim okresie, jak to
robił. Nie wiemy, kto prowadził wywiady, z kim, ile ich było itd. Doniesienie jest
bezwartościowe i można się dziwić, że wydrukowało je recenzowane czasopismo
naukowe.
Wyniki
Kompozycja tej części doniesienia różni się w zależności od typu danych, które
zbieramy w badaniu. Gdy dane mają charakter jakościowy, prezentacja wyników
splata się z ich interpretacją. W przypadku danych ilościowych jest inaczej: najpierw przedstawia się wyniki, potem wyciąga z nich wnioski.
Wyniki jakościowe
Badacze posługujący się danymi jakościowymi nie wypracowali standardowej
kompozycji doniesienia naukowego, toteż opublikowane doniesienia są wielce
zróżnicowane. Na jednym biegunie mamy abstrakcyjny wykład teorii, na drugim
osobistą narrację.
Doniesienie pierwszego rodzaju rozwija teorię, przedstawiając jej centralne
i peryferyczne kategorie, warianty kategorii oraz związki między kategoriami
(uwarunkowania i konsekwencje). Często zawiera schematyczne ilustracje struktury teorii. Dane (wypowiedzi, spostrzeżenia) cytuje się obficie, ale w sposób
podporządkowany wykładowi kategorii teoretycznych, głównym celem jest tu bowiem nie tyle zapoznanie czytelnika z bogactwem szczegółów, ile ugruntowanie
kategorii w empirii.
W innych doniesieniach na pierwszy plan wysuwa się materiał empiryczny.
Nie jest on, jak w podejściu ilościowym, zbiorem faktów wypreparowanych z kontekstu, lecz opisem konkretnych zdarzeń pojawiających się w określonej kolejności
w określonej scenerii. Tak rozumiany materiał empiryczny przekazuje się czytelnikowi w formie opowiadania, czyli narracji. Ma ona kilka odmian.
Narracja realistyczna przypomina dziewiętnastowieczną epikę: rozwija się
w perspektywie czasowej narratora. Sam narrator pozostaje w ukryciu: opisuje
zdarzenia obiektywnie, tak jakby były niezależne od sposobu ich poznawania,
obficie dokumentując je cytatami z protokołów obserwacji i wywiadów. Najważniejsze jest jednak nie samo opowiadanie, lecz nadrzędna, scalająca je interpretacja, ku której narrator wiedzie czytelnika. Interpretacja ta znacznie wykracza
poza punkty widzenia osób biorących udział w badaniu, ponieważ ujmuje ich doświadczenia w pojęciach naukowych. Wskutek tego wygląda jak dzieło umysłu
wszechwiedzącego.
Narracja udramatyzowana przedstawia zdarzenia w perspektywie czasowej
badanego terenu (np. przebieg konfliktu między nauczycielem a dyrektorem, interakcje ucznia i nauczyciela w toku lekcji, zachowania nauczycieli na kursie do-
skonalenia zawodowego). Zdarzenia są osadzone w szczegółowych, plastycznych
opisach miejsc i ludzi. Idzie o to, by czytelnik mógł sam doświadczyć badanego
świata, toteż interpretacje są szkicowe i zostawiają dużo miejsca jego wyobraźni.
Narracja osobista. Tu zdarzenia rozwijają się w perspektywie czasowej samego
badacza, będącego zarazem narratorem. Narrator w pierwszej osobie przedstawia
zdarzenia tak, jak ich doświadczał w terenie, opisuje swoją rolę w badaniu, napotkane trudności, popełnione błędy, olśnienia. Narracja nie jest podporządkowana
jednej interpretacji, lecz raczej uwydatnia przeplatanie się fazy zbierania danych
i fazy teoretyzowania. Ten rodzaj narracji bywa krytykowany. Przedmiotem doniesienia jest badany teren i jego to obraz ma się wyłaniać z osobistych opisów,
a nie – jak to ujął jeden z krytyków – historia moich uniesień i mdłości wśród
tubylców. Potrzeba dzielenia się własnymi doświadczeniami jest jednak tak wielka, że powstają doniesienia o samym przebiegu badania. Klasyczna książka tego
rodzaju to Sociologists at work pod redakcją P. Hammonda (1964). Niedawno wydano zbiór podobnych doniesień z badań oświatowych (Walford, 1991). Najwyraźniej znajdują one czytelników.
Jakikolwiek rodzaj narracji zastosujemy, warto przestrzegać zasady celowości:
przekazać wszystkie wiadomości i tylko te wiadomości, które są potrzebne do zrozumienia zdarzeń i procesów w badanym terenie. Jedno z doniesień, traktujące
o pewnej fundamentalistycznej szkole chrześcijańskiej w Ameryce (Peshkin, 1986,
s. 33), zaczyna się tak:
Uderzająco czysty korytarz baptystycznej Akademii Betania jest dumą dyrektora
McGrawa. Przewiewne i przestronne izby klas podstawowych wyglądają jak wszędzie,
zapchane przedmiotami i rysunkami. Kontrastują z nimi izby klas średnich. Ich surowość trochę tylko ożywiają tablice ścienne, na których przyszpilono rysunki i budujące
maksymy wymagane przez kierownictwo szkoły. Sala gimnastyczna ze sceną przyklejoną do jednej ściany służy też za aulę. Naprzeciw sceny znajduje się mała kuchnia. By
kupić drugie śniadanie, dzieci ustawiają się w kolejce wzdłuż ściany, odbierają swoje tace
z jedzeniem i udają się do jadalni...
Jak widać, autor ani nie opisuje tu wszystkiego, co zobaczył, ani nie przekazuje wprost swoich wrażeń i opinii, lecz pomaga czytelnikowi w samodzielnym
uchwyceniu swoistości badanego miejsca. Odejście od zasady celowości owocuje
typowymi błędami.
Takim błędem jest zastępowanie danych empirycznych własnymi opiniami
i ocenami. Gdyby autor cytowanego doniesienia napisał: „Wnętrza baptystycznej
Akademii Betania są schludne i oszczędne; każdym szczegółem głoszą zasady, o
których nie wolno zapomnieć, i granice, których nie wolno przekroczyć...” – nie
mielibyśmy pojęcia, jakie szczegóły ma na myśli. W wielu doniesieniach opinie
i oceny są jeszcze bardziej obcesowe. „Uczniowie z zapałem brali udział w lekcji”
– pisze autorka, nie informując ani słowem, jakie obserwacje pozwoliły jej dojść
do tego wniosku. „Na ognisku Janek zachowywał się agresywnie” – dzieli się autor
swoimi wrażeniami, zamiast napisać, co Janek robił: popychał kolegów, pluł na
nich, przezywał, a może krytykował ich występy? W pewnym doniesieniu znalazła
się opinia: „Pani od historii ma zwyczaj zbywać wątpliwości uczniów”. Recenzent
Kompozycja 221
chciał wiedzieć, ile razy badaczka widziała nauczycielkę zbywającą uczniów. Ani
razu – odpowiedziała autorka. – Wiem to od uczniów.
Błąd przeciwny to zasypanie czytelnika masą szczegółów rejestrowanych przez
badacza dzień po dniu. Doniesienie przypomina dziennik terenowy: we czwartek rozmowa z nauczycielką historii, w piątek obserwacja interesującej interakcji
między trzema uczniami z zerówki, w poniedziałek szkoła nieczynna z powodu
dezynsekcji itd. Czytelnik gubi się w natłoku nazwisk, wypowiedzi i opisów i zaczyna podejrzewać, że więcej strawy myślowej, a na pewno więcej przyjemności
mogłaby mu dać dobra nowela z życia szkoły.
Można powiedzieć, że prezentacja wyników jakościowych to ciąg udokumentowanych sądów potrzebnych do weryfikacji hipotezy lub odpowiedzi na pytanie
badawcze. Dokumentowanie polega na przytaczaniu fragmentów notatek terenowych, protokołów wywiadów, archiwaliów itp. – zarówno tych, które świadczą na
korzyść tezy autora, jak i tych, które są z nią niezgodne. Ilość miejsca poświęconego takim niewygodnym danym jest ważną przesłanką oceny wiarygodności całego
doniesienia.
Trzeba pamiętać, że doniesienie z badania jakościowego jest czymś więcej niż
bezosobowym przedstawieniem zmiennych i ich związków – jest autorską wersją
badanego świata. Wchodzi ona w obieg naukowy, gdy stanie się wersją czytelnika.
Dlatego autor powinien nie tyle powiadomić czytelnika, jak się rzeczy mają, ile
wprowadzić we własną wersję, tzn. pozyskać jego wrażliwość, pobudzić wyobraźnię. Doniesienie naukowe staje się w pewnym sensie przekazem perswazyjnym
albo lepiej: zbliża się do literatury pięknej. Doświadczeni autorzy radzą, by wyobrazić sobie potencjalnego czytelnika i pisać dla niego. Inaczej pisze się dla osoby,
która uczestniczyła w badaniu, inaczej dla profesjonalisty, który jednak o badaniu
dowiaduje się po raz pierwszy, jeszcze inaczej dla zainteresowanego laika. Ilekroć
zdarza mi się kierować jakościowymi badaniami studentów, radzę im, by pisali
nie dla mnie czy recenzentów, lecz dla swojego przyjaciela. Nie wszyscy potrafią
oderwać się od stereotypu pracy magisterskiej, ale ci, którym się to udaje, piszą
wysoce komunikatywne doniesienia.
Wyniki ilościowe
W najprostszym przypadku – takim jak opisany na początku rozdz. 3 eksperyment studentki, który weryfikował teorię modelowania agresji – na strukturę tej
części doniesienia składają się cztery akapity.
• W pierwszym podajemy cel i zarys analizy:
Chcąc stwierdzić, czy dzieci, które obejrzały film zawierający sceny grozy i okrucieństwa, będą zachowywać się bardziej agresywnie niż dzieci, które obejrzały pogodny film
o zbliżonej tematyce, obliczyłam średnie arytmetyczne i odchylenia standardowe liczby
agresywnych zachowań zarejestrowanych przez obserwatorów w obu grupach, a istotność statystyczną różnicy między średnimi zbadałam za pomocą analizy wariancji.
• W drugim przedstawiamy wartości opisowych miar zmiennej zależnej:
Liczby zachowań agresywnych w obu grupach tworzyły rozkłady nie odbiegające od
normalnego (Test Kołmogorowa-Smirnowa wykazał, że prawdopodobieństwo, iż po-
chodzą z populacji o rozkładzie normalnym, wynosi p = 0,99 dla pierwszej i p = 0,53
dla drugiej grupy). Średnie i odchylenia standardowe tych liczb przedstawia tabela 1.
Tabela 1. Średnie liczby aktów agresywnych w grupach porównawczych (w nawiasie
odchylenia standardowe)
Płeć
Rodzaj filmu
agresywny
nieagresywny
Dziewczynki
Chłopcy
3,20 (1,48)
4,25 (1,71)
1,40 (0,55)
1,00 (1,16)
Średni efekt filmu
3,67 (1,58)
1,22 (0,83)
Średni efekt płci
2,30 (1,42)
2,63 (2,20)
• W trzecim przedstawiamy wyniki testu istotności statystycznej :
Dwuczynnikowa ANOVA wykazała, że główny efekt grupy jest statystycznie istotny:
F(1;14) = 17,44, p < 0,01. Efekty płci oraz interakcji grupy i płci okazały się nieistotne.
• W czwartym formułujemy wynik:
U dzieci, które obejrzały film zawierający sceny grozy i okrucieństwa, zaobserwowano
istotnie więcej aktów agresji niż u dzieci, które obejrzały film pozbawiony takich scen,
i to niezależnie od płci dzieci.
Tę prostą strukturę można wielokrotnie powtarzać, jeśli referujemy wyniki
złożonych przedsięwzięć badawczych. Można też rozbudowywać jej części składowe. Jeśli opisywane zmienne mają rozkłady różniące się od normalnego (o czym
powie test Kołmogorowa–Smirnowa), trzeba napisać, pod jakim względem się
różnią (tj. podać wartość kurtozy, czyli „spiczastości” rozkładu, i asymetrii, czyli
skośności), a nawet zamieścić wielobok liczebności. Ilekroć obliczamy miarę tendencji centralnej, powinniśmy też obliczyć miarę zróżnicowania indywidualnych
wyników. Odchylenie standardowe zmiennej przedziałowej to miara równie ważna jak średnia – bez niej bowiem nie można użyć wyników badania do metaanalizy, o której mówiliśmy w rozdz. 1.
Przedstawiając wyniki badania istotności efektów, trzeba zawsze podać nazwę
lub symbol testu (np. t, F, χ2), liczbę stopni swobody, wartość testu i wynik porównania p z α. W pracach popularnonaukowych i w syntetycznych monografiach
można nie obciążać tekstu symbolami i liczbami, które mało kogo zainteresują,
i podać jedynie ostatni wynik (np. p < 0,05) lub napisać: „ta różnica jest istotna statystycznie”. Błędem jest natomiast podawanie wartości testu bez stopni swobody.
Goła informacja: F = 4,51 lub t = 2,03 nie ma żadnego znaczenia. Razi podawanie
dokładnych wartości p (czasem po prostu przepisanych z wydruku komputerowego, z kropkami zamiast przecinków, np. „p = 0.0034” albo jeszcze gorzej „p
= 0.0000”). Trzeba pamiętać, że wartość p ma sens tylko jako przesłanka decyzji
o odrzuceniu hipotezy zerowej. Przy ustalonym poziomie istotności (np. α = 0,05)
p < 0,05 mówi wszystko, co czytelnik chce wiedzieć. Wreszcie nie ma żadnego uzasadnienia dla rozpisywania się o hipotezach zerowych, informowania, czy wynik
testu mieści się w obszarze krytycznym, czy poza nim itp. Czytelnik zaznajomiony
ze statystyką indukcyjną nie potrzebuje takich szczegółów, a niezaznajomiony nie
zdoła z nich skorzystać.
Kompozycja 223
Do opisu związków między zmiennymi trzeba podejść z wielką starannością.
Zdarza się, że wskutek niedbalstwa autora lub bezmyślnej oszczędności wydawcy
czytelnik dowiaduje się, że zmienna niezależna wpływa na zależną, ale nie dowiaduje się, w jakim kierunku. Nieocenioną pomocą służą tu tabele i wykresy.
Tabele
Tabela jest najlepszą formą prezentacji złożonych wyników. Dobrze pomyślana
tabela może zastąpić wiele stron tekstu. Ale czasem bywa odwrotnie: kilka wierszy
tekstu może zastąpić obszerną tabelę.
W pewnym doniesieniu z badania, w którym sprawdzano hipotezę o związku nowego testu osiągnięć matematycznych z inteligencją, wyniki przedstawiono
w postaci tabeli 3 × 3. W każdej kratce umieszczono liczebność oraz (nie wiadomo
po co) jej udział procentowy w całej próbie. Wraz z nagłówkiem, bokiem oraz
wierszem i kolumną wartości brzegowych cała tabela składała się z 25 pól i zawierała 32 liczby. Kilka prostych zdań mogło ją nie tylko zastąpić, ale i dostarczyć
znacznie więcej informacji o wyniku badania:
Wyniki testu osiągnięć i wyniki testu inteligencji utworzyły rozkłady zbliżone do normalnego. Średnia pierwszej zmiennej wyniosła 65,0, a odchylenie standardowe 17,1.
Średnia drugiej zmiennej wyniosła 110,1, a odchylenie standardowe 14,8. Związek między zmiennymi jest liniowy, a jego siłę wyraża współczynnik korelacji r równy 0,49.
Decydując się na tabelę, powinniśmy unikać całostronicowych zestawień, ponieważ nikt (łącznie z autorem) nie zdoła ich przestudiować. Zadaniem tabeli nie
jest udokumentowanie pracowitości badacza, lecz dostarczenie czytelnikowi przesłanek do wnioskowania na temat hipotezy czy pytania badawczego. Oto kilka
wskazówek, jak można nadać zestawieniom tabelarycznym większą przejrzystość:
• Podziel jedną dużą tabelę na kilka mniejszych, tak by każda dostarczała po
jednej przesłance do końcowego wnioskowania.
• Zamieszczaj w tabeli dane o możliwie największym stopniu przetworzenia. Zamiast rozkładów procentowych zmiennej zależnej w poszczególnych grupach
porównawczych w większości przypadków wystarczy podać miary tendencji
centralnej (np. średnie arytmetyczne) i miary zróżnicowania (np. odchylenia
standardowe).
• Unikaj zamieszczania w tabeli tych samych danych w różnych postaciach.
Tabela, której fragment pokazuje górna część rys. 9.1, zbiera dane o planach
oświatowych młodzieży z kilku środowisk. Dane procentowe są niezbędne do
porównywania ze sobą kilku rozkładów, ale czemu służą liczebności? Chyba
tylko udowodnieniu, że autor potrafi dzielić liczby całkowite. Zauważmy przy
okazji, że podawanie odsetek z dokładnością do dwóch cyfr po przecinku jest
(w tym przypadku) nieuzasadnione. Generalnie liczba cyfr znaczących w odsetkach nie powinna być większa niż liczba cyfr w podstawie procentowania.
Do opisania części kilkusetelementowej próby wystarczą więc odsetki z jedną
cyfrą po przecinku. Poprawny wygląd tabeli przedstawia dolna część rysunku.
Nagłówek tabeli informuje o liczebnościach prób, czyli o podstawie odsetek
w poszczególnych kolumnach. Czytelnik, który chciałby wiedzieć, ilu uczniów
ze wsi chciałoby pójść do technikum, może pomnożyć wartość z odpowiedniej
kratki tabeli (18,3) przez liczebność w nagłówku (552); dzieląc iloczyn przez
sto i zaokrąglając wynik, dostanie 101. Podawanie liczebności w nagłówku nie
tylko ułatwia studiowanie tabeli, ale jest niezbędne, ilekroć zmniejszają się one
wskutek luk w surowych danych.
Tabela 1. Aspiracje oświatowe młodzieży z różnych środowisk
Wykształcenie
Środowisko
Wieś
Małe miasto
...
Liczba
Procent
Liczba
Procent
...
27
153
101
...
177
4,89
27,72
18,30
...
32,07
5
178
46
...
87
1,35
47,98
12,40
...
23,45
...
...
...
...
...
Zasadnicza szkoła zawodowa
Liceum ogólnokształcące
Technikum
...
Jeszcze nie wiem
Tabela 1
Szkoły pogimnazjalne, do których chcą iść gimnazjaliści z różnych środowisk
Wieś
(n = 552)
Małe
miasto
(n = 371)
...
Zasadnicza szkoła zawodowa
Liceum ogólnokształcące
Technikum
...
Jeszcze nie wiem
4,9
27,7
18,3
...
32,1
1,4
47,0
12,4
...
23,5
...
...
...
...
...
Razem
100
100
...
Wykształcenie
Środowisko
Rysunek 9.1. Dwie postaci tej samej tabeli
• Nadaj każdej tabeli numer i tytuł. Jak wszędzie, tak i tu tytuł powinien pomagać czytelnikowi w zrozumieniu tekstu i dlatego lepszy jest tytuł dolnej tabeli
z rys. 9.1 niż z górnej, nawet jeśli termin „aspiracje oświatowe” został wcześniej
zdefiniowany w doniesieniu. Tytuł powinien też informować, jakiego rodzaju
dane znajdują się w tabeli: liczebności, procenty, średnie, współczynniki korelacji itp., tak by czytelnik nie musiał się tego domyślać.
• Umieść pod tabelą słowny komentarz, który wyjaśniłby, jeśli trzeba, sens liczb
lub innych symboli w tabeli i zwrócił uwagę na najważniejsze wyniki, w tym na
anomalie (np. bardzo wysokie odchylenie standardowe w jakiejś kratce). Nigdy
natomiast nie „opowiadaj” tabeli w stylu: „Jak widać, dziewczynki, które obejrzały film agresywny, przejawiły średnio 3,20 aktów agresywnych, natomiast
dziewczynki, które obejrzały film nieagresywny – tylko 1,40 aktów ...”.
Wykresy
Tabele dostarczają informacji, a wykresy łączą je w całość. Spójrzmy na tabelę na
rys. 9.2. Przedstawia ona wyniki badania porównawczego na dwóch nielosowych
Kompozycja 225
próbkach nauczycieli i rodziców. Zmiennymi zależnymi były szacunki ważności
czterech kategorii atrybucyjnych w wyjaśnianiu uczniowskich sukcesów i porażek. Dane zebrano za pomocą kwestionariusza składającego się z dwóch pytań:
„Jaką rolę w dostawaniu przez niego/nią dobrych stopni odgrywa to, że...” i „Jaką
rolę w dostawaniu przez niego/nią złych stopni odgrywa to, że...”. Do pytań dołączono 22 wyjaśnienia (np.: „pochodzi z rodziny mającej dobre warunki mieszkaniowe i materialne”). Badani mieli ustosunkować się do każdego wyjaśnienia na
4-stopniowej skali: od „decydującą” do „żadną”.
Tabelę trudno by nazwać przejrzystą. Wykres prezentuje się znacznie lepiej. Od
razu widać, że w opinii wszystkich badanych najważniejszym czynnikiem sukcesów i porażek szkolnych są zdolności, a najmniej ważnym praca szkoły. Widać też,
gdzie opinie nauczycieli i rodziców zbiegają się, a gdzie są rozbieżne.
Są trzy rodzaje wykresów: punktowy, liniowy i słupkowy (rys. 9.3). Wykres
punktowy najbardziej przypomina znany z matematyki układ współrzędnych.
Kategoria
ucznia
Odnoszący
sukcesy
Ponoszący
porażki
Kategoria
atrybucji
Zdolności
Motywacja
Dom
Szkoła
Zdolności
Motywacja
Dom
Szkoła
Nauczyciele (n = 40)
Średnia
3,23
3,19
3,13
2,80
3,05
2,77
2,74
2,31
Odchylenie st.
0,30
0,40
0,59
0,38
0,58
0,48
0,78
0,46
Rodzice (n = 40)
Średnia
2,95
2,71
2,77
2,68
3,28
2,64
2,15
2,55
3,4
Średnia ważność
3,2
Nauczyciele
Rodzice
3
2,8
2,6
2,4
2,2
2
Zdol- Moty- Dom SzkoZdolności
ności wacja Dom
ła
Zdol- Moty- Dom SzkoMotywacja
Szkoła
ności
wacja
ła
Rysunek 9.2. Wyniki badania w postaci tabeli i wykresu
Odchylenie st.
0,36
0,26
0,30
0,17
0,72
0,50
0,74
0,36
40
30
30
30
20
20
10
10
20
10
0
0
0
2
3
4
2
5
3
E1
4
E2
K
PUNKTOWYLINIOWY SŁUPKOWY
Rysunek 9.3. Trzy rodzaje wykresów
Liczba samobójstw na milion mieszkańców
Obie osie: pozioma (odciętych) i pionowa (rzędnych) są osiami liczbowymi, tzn.
każdemu ich punktowi odpowiada jedna liczba rzeczywista. Taki wykres przedstawia zbiór obiektów, z których każdy jest scharakteryzowany przez wartości dwóch
zmiennych. Jeśli na przykład w oddziale klasowym obliczyliśmy dla każdego ucznia średnią stopni ze wszystkich przedmiotów i zmierzyliśmy jego status socjometryczny, to wyniki badania możemy przedstawić właśnie na wykresie punktowym.
Każdy punkt na wykresie to jeden uczeń, a dwie współrzędne punktu to stopnie
tego ucznia (współrzędna X) i status socjometryczny (współrzędna Y).
Wykresy punktowe dobrze nadają się do opisu obiektów zbiorowych. Rys. 9.4
ukazuje jeden z wyników historycznego badania E. Durkheima nad stopą samobójstw w krajach o różnym składzie wyznaniowym. Każdy punkt na wykresie reprezentuje jedną prowincję tego samego kraju. Od razu widać związek między
• Śląsk
260 220 -
100 60 -
nde
nbu
rgi
• Hanower
• He
sja
180 140 -
• Schleswig
• Saksonia
• Bra
300 -
• Pru
sy W
ia • Prusy Zach.
dren • Westfalia
• Na
•• Poznańskie
Ho
hen
zoll
a
• Pomorze
sch.
ern
||
28–3240–50
|
|
68–89 90–100
Procentowy udział protestantów w populacji
Rysunek 9.4. Stopa samobójstw w prowincjach Prus w latach 1883–90. Na podstawie:
E. Durkheim, Le suicide. Etude de sociologie. Paris 1960 (oryginał z 1897)
Kompozycja 227
odsetkiem protestantów a stopą samobójstw, a także prowincje, które się wyłamują
z tej prawidłowości (Śląsk).
Jeśli obiekty z wykresu punktowego pogrupujemy w przedziały na osi X, a średnie lub mediany drugiej zmiennej w każdej grupie odłożymy na osi Y, otrzymamy
wykres liniowy. Wykres liniowy z rys. 9.3 ilustruje najczęstszy bodaj przypadek,
w którym zmienną niezależną są wyniki pomiaru pewną skalą psychologiczną
(tu: samooceny). Skalę podzielono na trzy rozłączne i dopełniające się przedziały
i rozmieszczono w nich badanych, uzyskując w ten sposób trzy grupy. W każdej
grupie z osobna obliczono średnią zmiennej zależnej (tu: subiektywnego prawdopodobieństwa sukcesu w zadaniu). Na wykresie każdy punkt reprezentuje jedną
grupę. Współrzędna X to środek przedziału zmiennej niezależnej. Współrzędna Y
to średnia zmiennej zależnej w przedziale. Sąsiadujące ze sobą punkty wolno połączyć odcinkami prostej, ponieważ przestrzeń pomiędzy dwiema grupami „coś
znaczy”, np. między grupami osób o niskiej i średniej samoocenie można umieścić grupę z samooceną pośrednią. Wykres udostępnia wartość zmiennej zależnej
w takiej nowej grupie przez interpolację.
Wykresy liniowe nadają się do ilustrowania związku między dwiema zmiennymi w kilku grupach porównawczych – każda taka grupa jest wtedy reprezentowana przez osobną krzywą. Gdyby się na przykład okazało, że związek między samooceną a oszacowaniami prawdopodobieństwa sukcesu ma inny kształt
u dziewczynek niż u chłopców, na wykresie należałoby umieścić dwie krzywe wyraźnie różniące się od siebie grubością lub znakami graficznymi na ich krańcach
i w legendzie przyporządkować je obu grupom.
Grupowanie stwarza okazję do podejrzanych manipulacji na danych (np. wybierania krańców przedziałów tak, by zwiększyć różnice między grupami pod
względem zmiennej zależnej). Dlatego nie wystarczy napisać, że utworzono trzy
przedziały. Chcąc oddalić wszelkie podejrzenia, trzeba podać zasadę, według której je utworzono (według równych liczebności, czyli po kwantylach, czy według
równych przedziałów), oraz liczebności grup. W omawianym przykładzie odpowiedni fragment doniesienia mógłby brzmieć: „Skalę samooceny podzielono na
trzy równe przedziały o szerokości 0,7 p. Znalazło się w nich kolejno 21, 43 i 22
badanych”. Na wykresie należy zaznaczyć środek przedziału, w którym leży każda
grupa, podać jego wartość i skróconą nazwę grupy (np. „2,3 niższa”).
Na wykresie słupkowym oś odciętych nie jest w ogóle osią liczbową, lecz jedynie
graficzną podstawą słupków reprezentujących poszczególne grupy. Położenie słupków względem siebie jest najzupełniej dowolne (np. nic nie stoi na przeszkodzie, by
grupę kontrolną K z rys. 9.3 przesunąć na pierwsze miejsce od lewej), a przestrzeń
między nimi nic nie znaczy. Wysokość słupka jest proporcjonalna do średniej, którą przyjmuje zmienna zależna w danej grupie. Gdy na wykresie przedstawia się
udział kilku grup w pewnej całości (np. procentowy wkład różnych grup rodziców
do budżetu szkoły), zamiast wysokości lepiej użyć wycinków koła.
Podczas przygotowywania wykresów warto pamiętać, że:
• Wykresy zajmują dużo miejsca i podwyższają koszt publikacji, toteż nie należy
ich nadużywać. Nie należy sięgać do wykresu przy prezentacji danych pomoc-
•
•
•
•
•
niczych (np. struktury próbki). Zwykle zbędne jest ilustrowanie wykresem wyników jednego pomiaru w dwóch czy trzech grupach porównawczych: czytelnik
może bez trudu uchwycić stosunki między kilkoma liczbami i bez takiej pomocy.
Forma graficzna wykresu nie powinna być bardziej złożona niż jego treść.
Dzięki graficznym programom komputerowym można dziś bez trudu tworzyć
wykresy trójwymiarowe, kolorowe, ze specjalnymi symbolami (np. sylwetkami
dzieci) zamiast konwencjonalnych słupków itp. Nadużywanie tych możliwości
w doniesieniu naukowym (np. przedstawianie wykresu liniowego w postaci
trójwymiarowej wstęgi lub warstwy) jest dowodem złego smaku.
Rodzaj wykresu nie jest obojętny wobec jego treści. Najczęstszym błędem jest
używanie wykresu liniowego zamiast słupkowego. Gdybyśmy zilustrowali wykresem liniowym różnice między grupami dziewczynek i chłopców, to punkty
leżące między skrajami odcinka nie odpowiadałyby żadnym zbiorowościom.
Wykresu liniowego nie należy też używać, gdy porównujemy ze sobą jedynie
grupy skrajne: bezpodstawnie sugeruje on bowiem, że w grupie środkowej
zmienna zależna przyjmuje pośrednią wartość.
Osie wykresu nie muszą zaczynać się od zera. Jeśli zakres zmiennej zależnej
wynosi na przykład 0,5–0,9, to rozpoczęcie osi Y od zera sprawi, że na wykresie
będzie mnóstwo pustego miejsca, a różnice między grupami staną się mniej
wyraźne.
Wykres powinien dać się zrozumieć niezależnie od tekstu. Pomagają w tym:
przemyślany podpis (odpowiednik tytułu tabeli), opisy obu osi i legenda (na
rys. 9.4 legendę zastępują nazwy prowincji na wykresie).
Wykres nie zastępuje tabeli i statystycznej analizy istotności związku. Na wykresie nie widać dokładnych wartości zmiennych, a co ważniejsze – nie ma
informacji o zróżnicowaniu wyników. Niejeden związek wyraźnie widoczny na
wykresie rozwiewa się, gdyż różnice między grupami okazują się mniejsze niż
różnice między osobami, które tworzą te grupy.
Interpretacja
Prezentacja wyników badania („co wyszło?”) i interpretacja tych wyników
(„o czym to świadczy?”) to dwie odmienne czynności. W doniesieniach z badań
jakościowych ta odmienność jest zaznaczona stylistycznie, a czasem i graficznie.
W jednym z doniesień (Konarzewski, 1999) cytuję następującą wymianę słowną
między nauczycielką i jej uczennicą Moniką:
Nauczycielka (czyta treść zadania): Rozwinąć zdanie pojedyncze w zdanie złożone
współrzędnie.
Monika (nie pytana, z miejsca): Interesuje mnie akcja powieści i jej bohaterowie.
Nauczycielka: No tak. Tak robiliście, a to jest zdanie pojedyncze.
Cytat ten (złożony mniejszą czcionką) opatruję jednozdaniową interpretacją
wydrukowaną czcionką zwykłej wielkości: „Wzmianka o powszechności błędu
zmniejsza jego ciężar”. Widać, że oba fragmenty tekstu zasadniczo różnią się od
siebie. Pierwszy relacjonuje fakty: co powiedziano na pewnej lekcji. Drugi informuje, o czym – zdaniem badacza – fakty te świadczą: sugeruje, że intencją nauczy-
Kompozycja 229
cielki było ochronić samoocenę lub pozycję Moniki, która błędnie odpowiedziała
na pytanie. Ponieważ badacz może się mylić w interpretacji, ale nie w relacjonowaniu tego, co widział, wplecenie obu fragmentów w jednolitą narrację trzeba
uznać za niepoprawne.
W badaniach ilościowych zasada ta ulega wzmocnieniu: najpierw referuje się
wyniki, potem (często w odrębnej części) podaje ich interpretację. Interpretacja
polega na:
• odniesieniu wyników do hipotezy lub pytania i wyciągnięciu wniosków, które
popierają, kwestionują lub modyfikują twierdzenia teorii, ukazują nowe perspektywy teoretyczne czy wreszcie rekomendują lub odrzucają rozwiązanie
praktyczne,
• ocenie prawomocności wniosków.
W doniesieniu z badań weryfikujących teorię interpretacja polega na określeniu relacji między wynikiem a hipotezą, a zatem i teorią, z której ją wyprowadzono. Jeśli wynik potwierdza hipotezę, wystarczy sformułować stosowny wniosek
i przejść do oceny jego prawomocności. Uzyskanie wyniku, który jest statystycznie istotny, ale odwrotny do przewidywanego, często pobudza badacza do gorączkowego wymyślania ubocznych okoliczności, które miałyby tłumaczyć, dlaczego
wynik nie jest taki, jak trzeba, czyli do prób unieważnienia go. To zły zwyczaj.
Wyraża się w nim postawa z gruntu nienaukowa: że z góry wiadomo, jak się rzeczy mają. Skoro liczy się tylko jeden, oczekiwany wynik, prowadzenie badań traci
sens. Dlatego wynik przeciwny do oczekiwanego należy traktować jako wyzwanie
do przemyślenia teoretycznych podstaw hipotezy. Jeśli zostanie podjęte, pozorna
porażka może podsunąć pomysły teoretyczne i hipotezy, które otworzą nowy rozdział poznania naukowego.
Najmniej wygodna jest pozycja autora, który nie uzyskał wyników istotnych
statystycznie. Może to znaczyć, że w zbadanej rzeczywistości nie ma przewidywanych związków, albo są, tylko źle ich szukano. W wielu wypadkach nie można,
niestety, rozstrzygnąć, które z tych wyjaśnień jest trafniejsze. Dlatego badacz powinien poprzestać na konkluzji, że badanie nie dostarczyło podstaw do przyjęcia
hipotezy. Zarówno powątpiewanie o teorii, jak i zapewnianie, że badanie ujawniłoby oczekiwany związek, gdyby tylko próba była większa, test lepiej dobrany,
badani bardziej zaangażowani itp., trzeba uznać za błędne.
Osobne miejsce trzeba poświęcić teoretycznym lub metodologicznym implikacjom nieoczekiwanych wyników pobocznych – jest bowiem możliwe, że są one
ścieżką do interesującego odkrycia. Należy jednak pamiętać, że związkom ujawnionym „przy okazji” nie przysługuje ten sam poziom pewności, co związkom
opisanym w hipotezie, i że muszą być one potwierdzone w nowym, specjalnie
w tym celu zaplanowanym badaniu.
Jeśli badanie miało charakter eksploracyjny, interpretacja polega na ukazaniu perspektyw teoretycznych, które otwierają wyniki, a nawet naszkicowaniu nowej teorii.
Weryfikacja tej teorii wymaga przeprowadzenia niezależnych badań weryfikacyjnych.
Wyniki badania praktycznego interpretuje się w odniesieniu do potrzeb badanej praktyki. Trzeba pamiętać, że praktyka jest zawsze bardziej złożona niż ta jej
część, którą uchwyciliśmy w badaniu, dlatego przed rekomendowaniem określonego rozwiązania trzeba się zastanowić:
• Czy wynik jest dostatecznie mocny? Błędem jest utożsamianie istotności statystycznej wyniku z istotnością praktyczną. Wynik istotny w pierwszym znaczeniu może być nieistotny w drugim, jeśli różnice między grupami lub współczynniki determinacji są niewielkie.
• Czy w istniejącej praktyce są zasoby niezbędne do powodzenia rekomendowanych rozwiązań? Sukces eksperymentu metodycznego mógł się wziąć stąd,
że brali w nim udział nauczyciele o szczególnych kwalifikacjach lub że zastosowano specjalne wyposażenie. Czy można znaleźć (lub wykształcić) takich
nauczycieli w przeciętnej szkole? Czy można zakupić wyposażenie?
• Jakich zmian należałoby dokonać w dziedzinie prawa, organizacji i finansowania praktyki, by rekomendowane rozwiązanie wprowadzić w życie?
• Jaki byłby koszt wprowadzenia wszystkich tych zmian w planowanej skali?
• Jakie skutki uboczne pociągnęłyby za sobą wszystkie te zmiany? Czy nie spowodowałyby lawiny zakłóceń i trudności, które przysłoniłyby korzyści z wprowadzenia rekomendowanego rozwiązania?
Doniesienia pedagogiczne często grzeszą przeciw tym zasadom. Wystarczy, że
badacz zbierze garść danych, które zdają się przemawiać za pewnym rozwiązaniem, a już gromko domaga się przebudowy praktyki oświatowej w skali całego
kraju. Trudno nie zauważyć, że obniża to autorytet rekomendacji naukowych.
Ostatnim ogniwem interpretacji jest ocena prawomocności wniosków. Zazwyczaj
przypomina ono dyskusję z wyimaginowanym krytykiem. Badacz podnosi różne zarzuty przeciw swoim wnioskom – jedne uznaje, inne odpiera. Jeśli próba była niereprezentatywna, trafność zewnętrzna sytuacji eksperymentalnej – wątpliwa, przebieg
badania zakłócony przez zewnętrzne okoliczności, pomiary mało rzetelne, wyniki
kapryśne (np. efekt ujawnił się w jednej zmiennej zależnej, a w drugiej, na pozór równoważnej, nie) itd. – trzeba o tym szczerze napisać. Mocnym świadectwem prawomocności wniosków jest zgodność wyników z wynikami wcześniejszych badań.
Interpretację często kończy stereotypowe zdanie: „Ostateczne potwierdzenie
tych wniosków wymaga dalszych badań”. Należy się go wystrzegać, chyba że towarzyszą mu konkretne sugestie, w jakim schemacie przeprowadzić nowe badanie,
jak udoskonalić pomiary itp.
Przypisy i spis literatury
W życiu codziennym bezustannie operujemy sądami pochodzącymi z nieznanego
źródła. W życiu naukowym jest inaczej: każdy sąd nosi swoją metrykę, dzięki czemu zawsze wiemy, skąd to wiemy. Dlatego w doniesieniu naukowym obowiązuje
zasada podawania źródła przytaczanych sądów. Załóżmy, że autor pisze: „W klasach początkowych dzieci rzadko zadają nauczycielowi pytania”. Zasada podawania źródła wymaga, by poinformował on czytelnika, skąd pochodzi ten sąd:
• Jeśli jest to powszechnie uznany fakt lub wniosek autora z własnych, przypadkowych obserwacji, wystarczy poprzedzić go odpowiednim frazą: „Powszechnie wiadomo, że...” lub: „Jak wynika z moich obserwacji...”.
Kompozycja 231
• Jeśli sąd jest wnioskiem z badania zreferowanego w doniesieniu, z którym autor zapoznał się osobiście, trzeba podać podstawowe informacje o tym doniesieniu, tak by czytelnik mógł je odszukać. Są to przynajmniej: inicjał imienia
i nazwisko autora, tytuł, nazwa wydawnictwa i data wydania.
• Jeśli sąd jest wnioskiem z badania znanego autorowi z drugiej ręki (z monografii lub podręcznika), trzeba podać nazwisko autora oryginalnego doniesienia
i źródło, z którego korzystał autor. Zwyczaj odsyłania do oryginalnego źródła
jest godny potępienia z dwóch powodów. Po pierwsze, stwarza fałszywe wrażenie erudycji autora, zwłaszcza gdy źródła są trudno dostępne lub obcojęzyczne.
Strojenie się w nie swoje piórka często kończy się kompromitacją. Pewien autor
powołując się ze swadą na poglądy D. Hume’a, odesłał czytelnika do źródła „Soczinienia w dwoch tomach. Moskwa 1965”, czym zdradził, że jego kontakt z wielkim filozofem angielskim ograniczył się do kilku wzmianek w popularnej książce
Odkrycie „ja” I. Kona. Podobnie kompromituje się autor, gdy w tytułach jego
obcojęzycznych źródeł roi się od błędów ortograficznych. Drugi powód podawania tylko tych źródeł, które się miało w ręku, to ten, że jeśli źródło mylnie lub
stronniczo informuje o oryginalnym doniesieniu, błędy nie idą na karb autora.
Podawanie źródła w tekście (np. „I. Kon w książce Odkrycie «ja», wydanej
przez PIW w 1987 r. cytuje D. Hume’a, który twierdzi, że...”) byłoby bardzo niewygodne, toteż wymyślono przypisy i odsyłacze. W literaturze naukowej stosuje się
dwa standardy przypisów: europejski lub amerykański.
Standard europejski
W standardzie europejskim w miejscu tekstu, gdzie powinna się znaleźć informacja o źródle, umieszcza się odsyłacz (najczęściej cyfrę, rzadziej gwiazdkę lub
inny symbol graficzny), pełną zaś informację – w przypisie, który znajduje się u
dołu strony lub na końcu doniesienia. To drugie rozwiązanie jest znacznie mniej
wygodne i nie należy go stosować. Każdy przypis jest poprzedzony numerem lub
symbolem graficznym odsyłacza, dzięki czemu nie ma obawy o pomyłkę.
W polskim piśmiennictwie naukowym nie ma jednego standardu przypisu,
toteż autor ma tu pewną swobodę. Powinien jednak przyjąć formę najbardziej
przejrzystą i oszczędną, a co najważniejsze – trzymać się jej w całym doniesieniu.
Oto przykład przypisów stosowanych w Wydawnictwie Naukowym PWN. Cyfra
w tekście głównym (tu: 3):
W klasach początkowych dzieci rzadko zadają nauczycielowi pytania3.
odsyła do przypisu na dole strony:
3
E. Putkiewicz, Proces komunikowania się na lekcji. Warszawa 1990, WSiP.
Jak widać, na przypis składają się: inicjał imienia – kropka – nazwisko – przecinek – tytuł wyróżniony pochyłym drukiem (kursywą) – kropka – miejsce wydania –
rok wydania – przecinek – nazwa wydawcy – kropka. Trzeba zwrócić uwagę, że tytuł
nie jest wzięty w cudzysłów i zawsze kończy się kropką, nazwa wydawcy jest oddzielona przecinkiem od miejsca i roku wydania, a cały przypis jest zamknięty kropką.
W omawianym standardzie obowiązują ponadto różne zasady szczegółowe.
• Jeśli autor powołuje się na polski przekład obcojęzycznej książki, jest dobrym
obyczajem podawać w pierwszym przypisie nazwisko tłumacza:
5
D. Riesman, Samotny tłum. Przeł. J. Strzelecki. Warszawa 1971, PWN.
• Jeśli w tekście głównym znajduje się cytat, to w przypisie należy podać stronę
źródła, z której został wzięty:
15
E. Putkiewicz, Proces komunikowania się na lekcji. Warszawa 1990, WSiP, s. 51.
• Jeśli źródłem jest artykuł w czasopiśmie, to przypis wygląda tak:
A. Dumaret, Poziom umysłowy dzieci z rodzin o niskim statusie społeczno-zawodowym
wychowywanych w trzech różnych środowiskach. „Psychologia Wychowawcza” 1988, 4,
408–417, s. 409.
7
Tytuł czasopisma jest wzięty w cudzysłów, a liczby po tytule oznaczają rok,
numer i strony, na których znajduje się cały artykuł. Nie stosuje się ukośników
(np. 1988/4), skrótów „nr”, „str.” itp. Ostatni fragment powyższego przypisu
(„s. 409”) świadczy o tym, że odsyłacz stoi przy cytacie.
• Jeśli źródłem jest artykuł znajdujący się w pracy zbiorowej, przypis wygląda tak:
Z. Melosik, Pragmatyzm i edukacja w Stanach Zjednoczonych. W: J. Rutkowiak (red.)
Odmiany myślenia o edukacji. Kraków 1995, IMPULS.
20
Nigdy nie należy pomijać w takich przypadkach nazwiska autora i tytułu artykułu, skąd pochodzi sąd omawiany w tekście. Dwa ostatnie przypisy w postaci:
7
A. Dumaret „Psychologia Wychowawcza” 1988, 4, 408–417, s. 409.
J. Rutkowiak (red.), Odmiany myślenia o edukacji. Kraków 1995, IMPULS.
20
są rażąco błędne.
• Jeśli autor w różnych miejscach tekstu powołuje się na to samo źródło, pełną
informację bibliograficzną podaje się tylko w pierwszym przypisie. Następne
mają formę skróconą:
2
J. Piaget, dz. cyt., s. 12.
albo gdy autor wcześniej powoływał się na kilka dzieł tego samego autora:
2
J. Piaget, Dokąd zmierza..., s. 12.
Konwencja ta jest bardzo niewygodna w książkach, ponieważ zmusza czytelnika, który by chciał w środku lektury zajrzeć do źródła, do mozolnego przeszukiwania wcześniejszych przypisów.
Przy kilku sąsiadujących ze sobą odsyłaczach do tego samego źródła drugi
i następne przypisy skracają się jeszcze bardziej:
13
Tamże, s. 123.
„Tamże” oznacza źródło wymienione w poprzednim przypisie. Takim przypisem trzeba opatrzyć każdy cytat, ale już nie każdy sąd referowanego dzieła.
Zamiast kilku kolejnych „Tamże”, odsyłających do jednej czy dwóch sąsiadujących ze sobą stron, wystarczy jedno: „Tamże, s. 123–124” lub: „Tamże, s. 123n”.
Litera „n” oznacza: „i następne”. Niestaranne operowanie skróconym przypisem prowadzi do błędnych odwołań.
W standardzie europejskim zazwyczaj nie zamieszcza się alfabetycznego zestawienia źródeł na końcu pracy, ponieważ powielałoby przypisy. Zmniejsza to
koszty druku, ale bardzo utrudnia życie czytelnikowi, który chciałby sobie szybko
Kompozycja 233
wyrobić opinię o tym, czy doniesienie uwzględnia klasyczną i najnowszą literaturę
przedmiotu.
Standard amerykański
W standardzie amerykańskim w miejscu tekstu, gdzie powinna się znaleźć informacja o źródle, umieszcza się odsyłacz mający szczególną postać. Składa się on
z nazwiska autora (bez inicjału imienia) i roku wydania tekstu wziętych w nawias,
np. (Kowalski, 1993). Jeśli nazwisko autora pojawia się w tekście, w nawias bierze
się tylko rok wydania, np. „Podobne wyniki uzyskał Kowalski (1993)”. Jeśli źródło
ma wielu autorów, w odsyłaczu podaje się nazwisko pierwszego i skrót „i in.”, np.
(Kowalski i in., 1993). Jeśli dwaj cytowani autorzy mają to samo nazwisko, w odsyłaczu dodaje się inicjał imienia. Jeśli wykorzystuje się kilka tekstów tego samego
autora wydanych w tym samym roku, to do roku wydania dodaje się literę (np.
Kowalski, 1993a). Odsyłacz stojący przy cytacie podaje ponadto numer strony
oryginału, z której wzięto cytat, np. (Kowalski, 1993, s. 15).
Każdy odsyłacz kieruje do alfabetycznego zestawienia źródeł na końcu doniesienia. Zestawienie lepiej zatytułować „Literatura cytowana” (references) lub krócej
„Literatura” zamiast „Bibliografia”, ponieważ to drugie słowo jest zarezerwowane
dla kompletnych spisów piśmiennictwa spełniającego pewne kryterium (np. bibliografia narodowa, dziedzinowa lub osobowa). W zestawieniu literatury cytowanej nie oddziela się książek od artykułów.
Źródło w zestawieniu jest opisane inaczej niż w przypisie. By ułatwić czytelnikowi szybkie odszukanie źródła na podstawie odsyłacza, opis zaczyna się od
nazwiska autora, inicjału imienia i roku wydania:
Putkiewicz, E. (1990). Proces komunikowania się na lekcji. Warszawa: WSiP.
Przeszukiwanie zestawienia ułatwia wysunięcie pierwszego wiersza, zamiast zwyczajowego wcięcia. Kursywą składa się tytuł książki lub czasopisma, ale nie tytuł
rozdziału w pracy zbiorowej ani tytuł artykułu:
Dumaret A. (1988). Poziom umysłowy dzieci z rodzin o niskim statusie społeczno-zawodowym wychowywanych w trzech różnych środowiskach. Psychologia Wychowawcza, 4, 408–417.
Standard amerykański jest wygodny w doniesieniach odwołujących się do
wielu artykułów i książek. Na jednej stronie można bez trudu zmieścić odsyłacze
do kilkunastu źródeł. W standardzie europejskim przypisy zajęłyby większą część
strony. Czytelnik dostaje też kompletne zestawienie wykorzystanych w doniesieniu źródeł.
Aneks
Ta część doniesienia występuje głównie w pracach dyplomowych i monografiach.
W aneksie zamieszcza się w pełnym brzmieniu instrukcje wprowadzające oddziaływania eksperymentalne, materiał bodźcowy, arkusze obserwacji, kwestionariusze itp. Jeśli zamieszcza się także zbiorcze zestawienie surowych danych, trzeba
pamiętać o usunięciu nazwisk badanych osób i innych nazw własnych pozwalających rozpoznać teren badania.
Język
Język doniesienia powinien być prosty i komunikatywny. Należy unikać długich,
wielokrotnie złożonych zdań, w których łatwo gubi się myśl, a często i poprawność
gramatyczna.
Początkujący autorzy powinni pamiętać, że czytelność tekstu znacznie zwiększa podzielenie go na akapity. Akapit to kilka zdań zaczynających się od wciętego
wiersza. Każdy akapit rozwija jedną myśl. Nowy akapit sygnalizuje czytelnikowi
zmianę tematu. Akapity nie powinny być zbyt długie, ale – poza wyjątkowymi
wypadkami – powinny zawierać więcej niż jedno zdanie.
Wielką przeszkodą w lekturze bywa słownictwo. Ważne dla tematu terminy
specjalistyczne trzeba wprowadzać za pomocą jawnej definicji (np.: „Dysleksją
nazywamy uporczywe trudności w rozpoznawaniu słów i rozumieniu pisanego
tekstu, których nie można przypisać obniżonej inteligencji, defektom sensorycznym i neurologicznym, niekorzystnym warunkom środowiskowym oraz brakowi
okazji do nauczenia się czytania”). Zakładanie, że czytelnik używa terminu w tym
samym znaczeniu co autor lub że się domyśli znaczenia z kontekstu, to prosta droga do groźnych nieporozumień.
Wielu autorów z lenistwa albo z chęci zaimponowania czytelnikowi szpikuje swoje doniesienia wyrazami obcymi. Pół biedy, gdy autor używa obcych słów,
które mają dokładne odpowiedniki w języku polskim – np. pisze: „uczniowie kontestują”, zamiast: „sprzeciwiają się”, „perspektywa temporalna”, zamiast „czasowa”
itp. Czytelnik niepewny znaczenia obcego wyrazu ma do dyspozycji słownik wyrazów obcych. Gorzej, gdy czytelnik może podejrzewać, że obcy wyraz jest używany przez autora w znaczeniu szczególnym, niepokrywającym się ze znaczeniem
polskiego odpowiednika. Tak jest z wieloma terminami modnymi ostatnio w pedagogice. Czy ewaluacja znaczy tyle samo, co ocenianie, a jeśli nie, to na czym polega różnica? Czy kompetencja to upełnomocnienie, czy raczej biegłość w czymś,
a jeśli to drugie, to czy kompetencja znaczy tyle, co umiejętność, czy nie? Czy
akredytacja to tyle, co uprawnienie (np. dziennikarza do relacjonowania jakiegoś
oficjalnego wydarzenia), a jeśli tak, to co może znaczyć wyrażenie „akredytacja
studiów”? Skrajnym wyrazem tej maniery są zwykłe zapożyczenia. Zdarza się na
przykład, że autor pisze o „curriculum kształcenia uczniów zdolnych”, informując
w przypisie, że nie będzie używać zadomowionego „programu kształcenia”, ponieważ nieprecyzyjnie oddaje jego myśl. Nie próbuje jednak jawnie zdefiniować nowego słowa ani wyłożyć różnic znaczeniowych między curriculum a programem,
toteż tylko powiększa zamęt terminologiczny.
Gdy czytelnik sam musi sobie odpowiadać na pytania o znaczenia słów i wyrażeń, to w zależności od tych odpowiedzi poszczególne zdania tekstu tracą albo
zmieniają znaczenie. Znaczeniowo otwarty, mieniący się i pulsujący tekst staje się
raczej zadaniem hermeneutycznym niż doniesieniem naukowym.
Niejednokrotnie nawet sam autor nie potrafi ściśle odpowiedzieć na pytania
o sens używanych przez siebie terminów. Ujawnia to istotną słabość nauk o wychowaniu. To, co zrazu wygląda na nową myśl, często okazuje się jedynie nową
Język 235
terminologią. Nowe słowa, frazy i zdania są przedmiotem gorliwego naśladowania, a im bardziej stają się powszechne, tym rzadziej skłaniają do refleksji nad swoim znaczeniem. „Tak się teraz mówi” – krótko odpowiada autor zagadnięty o sens
swojego zdania.
Szukanie polskich odpowiedników obcojęzycznych terminów jest godne pochwały, już choćby dlatego że musi mu towarzyszyć namysł nad sensem teoretycznym słów. Autor, który przestudiowawszy anglojęzyczne doniesienia o zjawisku
zwanym priming, pisze we własnym doniesieniu o bodźcach primingowych, ogranicza krąg czytelników do znawców tej literatury, a przy tym psuje polszczyznę.
Na szczęście ktoś przemyślał sens tego terminu i wpadł na zgrabny odpowiednik
„torowanie”. Jeszcze lepsze, bo bliższe oryginałowi jest „poprzedzanie”. Torowanie
czy poprzedzanie nie tylko poddają się polskim regułom fleksyjnym i słowotwórczym, ale także pomagają czytelnikowi uchwycić i zapamiętać nowe pojęcie psychologiczne dzięki swoim potocznym znaczeniom.
Polskie odpowiedniki obcych terminów specjalistycznych powinny być zarazem wygodne i trafne, dlatego ich wymyślanie jest sztuką. Niewygodne są obszerne peryfrazy (omówienia), jak próba oddania oryginalnego terminu advance
organizer D. Ausubela jako „czynnik poprzedzający organizujący materiał”, ale
wygodniejsze „wstępne uporządkowanie” jest zupełnie nietrafne. Ważne jest, by
polskie odpowiedniki nie budziły skojarzeń niezgodnych z oryginałem. Jednemu
z autorów zdarzyło się pójść za daleko w tłumaczeniu nazw dwóch typów testów
osiągnięć szkolnych: norm-referenced i criterion-referenced. W języku angielskim
terminy te są wyraźnie przeciwstawne ze względu na to, co jest punktem odniesienia dla oceny indywidualnego wyniku: rozkład wyników w populacji (statystyczna
norma) czy ustalony wzór wykonania (kryterium). Polskie odpowiedniki: „testy
różnicujące” i „testy sprawdzające” nie tylko nie nawiązują do tego rozróżnienia,
ale, co gorsza, sugerują zupełnie inne, niezbyt zrozumiałe przeciwstawienie.
Najgorzej jest, gdy w powodzi obcych słów ginie sens zdania. Co ma na myśli autor, gdy pisze, że „chce uchwycić dynamikę zmian transsubiektywnych”? Czy
chce zbadać siły (ang. dynamics) wywołujące zmiany, czy opisać kierunek i tempo
zmian? Co może znaczyć przymiotnik „transsubiektywny” – coś, co znajduje się
ponad, poza, a może między jednostkami? Jeśli w tekście jest wiele takich zagadek, czytelnik przestaje zwracać uwagę na poszczególne zdania i próbuje intuicyjnie
uchwycić myśl autora, co rzadko kończy się sukcesem. Autorowi, którego wysiłek
idzie na marne, pozostaje wierzyć, że czytelnicy nie dorośli do poziomu jego tekstu.
Takie sposoby pisania i czytania szybko się upowszechniają. Autorzy coraz
częściej wytwarzają łańcuchy z cudzoziemska brzmiących słów, za którymi nie
kryje się żadna zgoła myśl. Czytelnicy coraz częściej prześlizgują po nich, a sztuka
czytania statarycznego zanika. Tekst przestaje być komunikatem, ma raczej zdobić
autora. Wskutek tego kultura komunikowania się w społeczności naukowej ulega
erozji, a sama dyscyplina podupada.
Na Zachodzie dużą wagę przywiązuje się do „politycznej poprawności” języka
naukowego. Od autora wymaga się, by unikał słów i zwrotów, które pobudzają stereotypy, np. związane z rolami płciowymi czy stosunkami etnicznymi. Jeśli autor
pisze o nauczycielu, nie może napisać „jego praca”, ponieważ budziłoby to stereotyp męskiej dominacji. Polityczna poprawność wymaga wyrażenia: „jego lub jej
praca” lub rodzajowo neutralnego: „ich praca”. W języku polskim taka zasada jest
nie do przyjęcia, bo musiałaby też objąć rzeczowniki („nauczyciel lub nauczycielka”). Można jednak zganić autora doniesienia o edukacji początkowej, który pisze
o nauczycielach, zamiast nauczycielkach. Można też wymagać, by autor unikał
słów negatywnie konotujących pewne zbiorowości. Zamiast „kaleka” lepiej napisać „niepełnosprawny”, choć z pewnością nie „sprawny inaczej”, bo miejsce tego
określenia jest raczej w kabarecie.
Język doniesienia nie powinien zanadto eksponować postaci autora. Nie bez
powodu utarło się pisać doniesienia stylem bezosobowym: raczej „Rodziców proszono o wypełnienie kwestionariusza” niż: „Poprosiłem rodziców o wypełnienie
kwestionariusza”. Trzeba się jednak wystrzegać sztuczności. Tam, gdzie autor wyraża osobiste stanowisko, np. w zdaniu: „Proponuję inną klasyfikację”, różne próby
ominięcia „ja” („Proponujemy inną klasyfikację”, „Autor proponuje inną klasyfikację” lub „Proponuje się inną klasyfikację”) wydają się nadęte.
Autor nie powinien się chwalić, pisząc na przykład, że „dobór metod pomiaru
został głęboko przemyślany” – takie oceny lepiej pozostawić recenzentom. Nie powinien też w doniesieniu badawczym używać aluzji, ironii czy persyflażu. Ponieważ czytelnik nie jest nastawiony na takie figury stylistyczne, często bierze je w dosłownym znaczeniu i odbiera myśl autora na opak. Lepiej zostawić je żurnalistyce.
LITERATURA CYTOWANA
Ajdukiewicz K. (1965). Logika pragmatyczna. Warszawa: PWN.
Allen K. E., Hart B. M., Buel J. S., Harris F. R. i Wolf M. M. (1964). Effects of social reinforcement on isolate behavior of a nursery school child. Child Development, 35, 511–518.
American Psychological Association (1994). Publication manual (wyd. 4). Washington:
APA.
Anastasi A. i Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych.
Ariès Ph. (1995). Historia dzieciństwa. Dziecko i rodzina w dawnych czasach. Przeł. M.
Ochab. Gdańsk: Marabut.
Ary D., Jacobs L. Ch. i Razavieh A. (1996). Introduction to research in education (wyd. 5).
Fort Worth: Harcourt Brace.
Benedict R. (1966). Wzory kultury. Przeł. J. Prokopiuk. Warszawa: PWN.
Blalock H. M. (1975). Statystyka dla socjologów. Warszawa: PWN.
Bock R. D. (1975). Multivariate statistical methods in behavioral research. New York:
McGraw-Hill.
Bogdanowicz M. (1989). Metoda dobrego startu w pracy z dzieckiem od 5 do 10 lat. Warszawa: WSiP.
Borenstein M. i Cohen J. (1989). Statistical power analysis. Hillsdale: Lawrence Erlbaum.
Bruner J. S. (1990). Życie jako narracja. Kwartalnik Pedagogiczny, 4, 3–17.
Brzeziński (1985). Ocena efektu eksperymentalnego w układach eksperymentalnych analizy wariancji. W: E. Paszkiewicz i T. Szustrowa (red.), Materiały do nauczania psychologii
(seria III, t. 4). Warszawa: PWN.
Brzeziński J. (1997). Metodologia badań psychologicznych. Warszawa: PWN.
Brzeziński J., Stachowski R. (1981). Zastosowanie analizy wariancji w eksperymentalnych
badaniach psychologicznych. Warszawa: PWN.
Burgess R. G., Pole Ch. J., Evans K. i Priestley Ch. (1995). Four studies from one or one
study from four? Multi-site case study research. W: A. Bryman, R. G. Burgess (red.),
Analyzing qualitative data. London: Routledge.
Campbell D. T. i Stanley J. C. (1966). Experimental and quasi-experimental designs for research. Chicago: Rand McNally.
Cartwright D. P. (1965). Zastosowania analizy treści. W: S. Nowak (red.), Metody badań
socjologicznych. Warszawa: PWN.
Clauss G., Ebner H. (1972). Podstawy statystyki dla psychologów, pedagogów i socjologów.
Warszawa: PZWS.
Craik F. I. M. i Tulving E. (1975). Depth of processing and the retention of words in episodic memory. Journal of Experimental Psychology: General, 104, 268–294.
Cronbach L. (1982). Designing evaluations of educational and social programs. San Francisco: Jossey-Bass.
Cronbach L. and Associates (1980). Toward reform and program evaluation: Aims, methods,
and institutional arrangements. San Francisco: Jossey-Bass.
Czyżewski M. i Rokuszewska-Pawełek A. (1989). Analiza autobiografii Rudolpha Hössa.
W: A. Sułek, K. Nowak i A. Wyka (red.), Poza granicami socjologii ankietowej. Warszawa:
PWN.
Denzin N. K. (1989). The research act (wyd. 3). Englewood Cliffs: Prentice Hall.
238 Denzin H. K. i Lincoln Y. S. (red.) (1994). Handbook of qualitative research. Thousand
Oaks: Sage.
Dewey J. (1988). Jak myślimy? Przeł. Z. Bastgenówna. Warszawa: PWN.
Eby J. W. i Smutny J. F. (1998). Jak kształcić uzdolnienia dzieci i młodzieży. Przeł. K. Konarzewski. Warszawa: WSiP.
Edwards D., Potter J. (1992). Discursive psychology. London: Sage.
Eysenck H. J. (1965). Sens i nonsens w psychologii. Warszawa: PWN.
Ferguson G. A. i Takane Y. (1999). Analiza statystyczna w psychologii i pedagogice. Przeł. M.
Zagrodzki. Warszawa: PWN.
Flick U. (1998). An introduction to qualitative research. London: Sage.
Forgas J. P. (1979). Social episodes. The study of interaction routines. London: Academic
Press.
Freund J. E. (1968). Podstawy nowoczesnej statystyki. Warszawa: PWE.
Frydrychowicz A. (1984). Rysunek rodziny. Poznań: Wyd. UAM.
Glass G. V., McGaw B. i Smith M. L. (1981). Meta-analysis in social research. Beverly Hills:
Sage.
Groeben N. (1990). Subjective theories and the explanation of human action. W: G. R.
Semin, K. J. Gergen (red.) Everyday understanding: Social and scientific implications.
London: Sage.
Guba E., Lincoln Y. (1981). Effective evaluation. San Francisco: Jossey-Bass.
Hambleton R. K., Swaminathan H. i Rogers H. J. (1991). Fundamentals of Item Response
Theory. Newbury Park: Sage.
Hammond P. (red.) (1964). Sociologists at work. New York: Basic Books.
Hansen M. H, Hurwitz W. N. i Madow W. G. (1956). Sample survey methods and theory.
New York: Wiley.
Hartmann D. P. (1969). Influence of symbolically modelled instrumental aggression and
pain cues on aggressive behavior. Journal of Personality and Social Psychology, 11, 280–
288.
Hyde J. S., Fennema E. i Lamon S. J. (1990). Gender differences in mathematics performance: A meta-analysis. Psychological Bulletin, 107, 139–155.
Jessor R., Chase J. A. i Donovan J. E. (1980). Psychosocial correlates of marijuana use and
problem drinking in a national sample of adolescents. American Journal of Public Health, 70, 604–613.
Kaja B. (1988). Osobowość dziecka w wieku przedszkolnym w sytuacji porozwodowej. Psychologia Wychowawcza, 4, 418–425.
Karpiński J. (1985). Przyczynowość w badaniach socjologicznych. Warszawa: PWN.
Kayser M. i Wagemann P.-A. (1998). Uczyliśmy w szkole waldorfskiej. O historii i praktyce
pewnej pedagogicznej utopii. Przeł. M. S. Szymański. Warszawa: WSiP.
Kazdin A. i Kopel S. (1975). On resolving ambiguities of the multiple baseline design: Problems and recommendations. Behavior Therapy, 6, 601–608.
Kirk J. L. i Miller M. (1986). Reliability and validity in qualitative reseach. Beverly Hills: Sage.
Kmita J. (1973). Wykłady z logiki i metodologii nauk. Warszawa, PWN.
Kodeks etyczno-zawodowy psychologa (1992). Warszawa: PTP.
Konarzewski K. (1985). Pojęcie niezmiennika w myśleniu dziecka. Przegląd Psychologiczny,
28(3), 759–772.
Konarzewski K. (1995a). Problemy i schematy. Pierwszy rok nauki szkolnej dziecka. Warszawa: Żak.
Konarzewski K. (1995b). Czy pedagogika wybić się może na naukowość? W: J. Rutkowiak
(red.), Odmiany myślenia o edukacji. Kraków: Impuls.
239
Konarzewski K. (1999). Nie zawsze zgoda buduje, a niezgoda rujnuje. Studia Psychologiczne, 37, 199–229.
Korporowicz L. (red.) (1997). Ewaluacja w edukacji. Warszawa: Oficyna Naukowa.
Kruszewski K. (1987). Zmiana i wiadomość. Perspektywa dydaktyki ogólnej. Warszawa:
PWN.
Kuhn Th. (1968). Struktura rewolucji naukowych. Przeł. S. Amsterdamski. Warszawa: PWN.
Labov W. (1969). The logic of nonstandard English. Georgetown Monographs on Language
and Linguistics, 22, 1–31.
Latané B. i Darley J. M. (1970). The unresponsive bystander: Why doesn’t he help? New York:
Appleton-Century-Crofts.
Linden van der W. J. i Hambleton R. K. (red.) (1997). Handbook of modern Item Response
Theory. New York: Springer.
Lord F. M. (1962) Estimating norms by item-sampling. Educational and Psychological Measurement, 22, 259–267.
Lord, F. M. i Novick, M. R. (1968). Statistical theories of mental test scores. Reading: Addison-Wesley.
Lyotard J.-F. (1984). The postmodern condition: A report on knowledge. Manchester: Manchester University Press.
Machowski A. (1993). Rzetelność testów psychologicznych. Dwa ujęcia modelowe. Warszawa: PWN.
Marody M. (1976). Sens teoretyczny a sens empiryczny pojęcia postawy. Warszawa: PWN.
McClelland D. C. (1961). The achieving society. Princeton: Van Nostrand.
McLaren P. (1986). Schooling as a ritual performance. Towards a political economy of educational symbols and gestures. London: Routledge and Kegan Paul.
Mehan H. (1978). Structuring school structure. Harvard Educational Review, 48(1), 32–64.
Mikołajczyk M. i Skarżyńska K. (1976). Artefakty w eksperymentach psychologicznych.
Przyczyny i zapobieganie. Przegląd Psychologiczny, 2, 239–274.
Miles M. B. i Huberman A. M. (2000). Analiza danych jakościowych. Przeł. S. Zabielski.
Białystok: Trans Humana.
Mizerek H. (red.) (1997). Ewaluacja w szkole. Olsztyn: Wyd. MG.
Morgan D. L. (1998). The focus group guidebook. Thousand Oaks: Sage.
Nagel E. (1970). Struktura nauki. Zagadnienia logiki wyjaśnień naukowych. Warszawa: PWN.
Nalaskowski A. (1999). Obserwacja a badania ankietowe nad młodzieżą. Edukacja, 1, 52–57.
Newcomb Th., Turner R. H., Converse Ph. R. (1970). Psychologia społeczna. Studium interakcji ludzkich. Warszawa: PWN.
Niemierko B. (1990). Pomiar sprawdzający w dydaktyce. Teoria i zastosowania. Warszawa:
PWN.
Nowak S. (1970). Metodologia badań socjologicznych. Warszawa: PWN.
Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa: PWN.
Oktaba W. (1980). Metody statystyki matematycznej w doświadczalnictwie (wyd. 3). Warszawa: PWN.
Pawłowski Z. (1972). Wstęp do statystycznej metody reprezentacyjnej. Warszawa: PWN.
Peshkin A. (1986). God’s choice: The total world of a fundamentalist Christian school. Chicago: University of Chicago Press.
Piaget J. (1966). Narodziny inteligencji dziecka. Przeł. M. Przetacznikowa. Warszawa: PWN.
Piaget J. (1967). Rozwój ocen moralnych dziecka. Przeł. T. Kołakowska. Warszawa: PWN.
Pilch T. (1995). Zasady badań pedagogicznych. Warszawa: Wyd. Żak.
Pilkiewicz M. (1973). Techniki socjometryczne. Wprowadzenie do badań. W: L. Wołoszynowa (red.), Materiały do nauczania psychologii (seria 3, t. 2). Warszawa: PWN.
240 Popper K. (1977). Logika odkrycia naukowego. Przeł. U. Niklas. Warszawa: PWN.
Popkewitz T. S. (1984). Paradigm and ideology in educational research. The social functions
of the intellectual. London: The Falmer Press.
Priest S. H. (1996). Doing media research. An introduction. Thousand Oaks: Sage.
Rembowski J. (1975). Metoda projekcyjna w psychologii dzieci i młodzieży. Warszawa: PWN.
Reykowski J. (1966). Funkcjonowanie osobowości w warunkach stresu psychologicznego.
Warszawa: PWN.
Richards L. i Richards T. (1995). From filling cabinet to computer. W: A. Bryman, R. G.
Burgess (red.), Analyzing qualitative data. London: Routledge.
Ritchie J. i Spencer L. (1995). Qualitative data analysis for applied policy research. W: A.
Bryman, R. G. Burgess (red.), Analyzing qualitative data. London: Routledge.
Robinson W. S. (1951). The logical structure of analytic induction. American Sociological
Review, 16, 812–818.
Rollins H. A., McCandless B. R. i Thompson M. (1974). Project success environment: An
extended application of contingency management in inner-city schools. Journal of Educational Psychology, 66, 167–178.
Sanocki W. (1976). Kwestionariusze osobowości w psychologii. Warszawa: PWN.
Schmidt F. L. (1995). Co naprawdę oznaczają dane? Wyniki badawcze, metaanaliza i wiedza kumulatywna w psychologii. Czasopismo Psychologiczne, 1 (1–2), 19–31.
Scriven M. (1980). The logic of evaluation. Iverness: Edgpress.
Shaughnessy J. J. i Zechmeister E. B. (1994). Research methods in psychology (wyd. 3). New
York: McGraw-Hill.
Sędek G. (1995). Bezradność intelektualna w szkole. Warszawa: Instytut Psychologii PAN.
Siegel S. i Castellan N. S. (1988). Nonparametric statistics for the behavioral sciences. New
York: McGraw-Hill.
Spradley J. P. (1979). The ethnographic interview. New York: Holt, Rinehart and Winston.
Stake R. (1980). Program evaluation. Particular responsive evaluation. W: W. Dockrell, D.
Hamilton (red.), Rethinking educational research. London: Hodder & Stoughton.
Szmatka J. (1989). Małe struktury społeczne. Warszawa: PWN.
Walenta K. (1971). Podstawowe pojęcia teorii pomiaru. W: J. Kozielecki (red.), Problemy
psychologii matematycznej. Warszawa: PWN.
Walford G. (red.) (1991). Doing educational research. London: Routledge.
Willis P. (1980). Learning to labour: How working class kids get working class jobs. Hampshire: Gower Publishing.
Wolcott H. F. (1990) On seeking and rejecting validity in qualitative research. W: W. Eisner,
A. Peshkin (red.), Qualitative inquiry in education: The continuing debate. New York:
Teachers College Press.
Wolcott H. F. (1997). Ethnographic research in education. W: R. M. Jaeger (red.) Complementary methods for research in education. Washington: AERA.
Wood P. (1996). Researching the art of teaching: Ethnography for educational use. London:
Routledge.
Wragg E. C. (1995). An introduction to classroom observation. London: Routledge.
Wyka A. (1990). Ku nowym wzorcom badań społecznych w Polsce. Cechy badań jakościowych w ostatnich latach. Kultura i Społeczeństwo, 1, 17–29.
Zaczyński W. (1995). Praca badawcza nauczyciela. Warszawa: WSiP.
Zakrzewska M. (1994). Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych. Poznań: Wyd. UAM.

jak uprawiać badania oświatowe

Transkrypt

Podobne dokumenty