Tutaj

Transkrypt

Tutaj
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
ANALIZY WIELOZMIENNOWE
ANALIZA REGRESJI
Charakterystyka:
 Rozszerzenie analizy korelacji o badanie zależności pomiędzy wieloma zmiennymi jednocześnie;
 Podstawowe zastosowanie (ale przez nas w tym momencie niewykorzystywane) to przewidywanie
wartości zmiennej zależnej, gdy zmieniają się wartości zmiennych niezależnych.
Założenia:
 Budujemy pewien model, w którym będzie jedna zmienna zależna i grupa zmiennych niezależnych;
 Interesuje nas oddziaływanie zmiennych niezależnych na zależną łącznie a nie każdej z nich osobno
(tak jak to było w podstawowych testach statystycznych);
 Zmienne niezależne nazywamy predyktorami;
 Zmienna zależna i zmienne niezależne mają mieć rozkład normalny;
 Wszystkie zmienne w modelu (i zależna, i niezależne) muszą być ilościowe;
 Jeśli chcemy włączyć do modelu zmienne kategorialne (nominalne, porządkowe) to należy wcześniej
przekodować je do postaci zero-jedynkowej;
 Predyktor musi być określony dla min. 15 jednostek;
 Predyktory nie powinny ze sobą silnie korelować – w zasadzie to nie powinno być między nimi
żadnej korelacji, ale wiemy, że jest to niemożliwe: stąd warunek został osłabiony i eliminujemy z
modelu tylko silnie skorelowane predyktory.
Przykład:
 Filtr: rok 2010
 Model:
o Zmienna zależna: re6 „Mężczyz. zarabiać, kobieta w domu”
o Zmienne niezależne:
 q9age „wiek”
 q49a „liczba dzieci”
 r31 „religijność”
 q8 „płeć”
Aby móc włączyć do modelu zmienną kategorialną „płeć” należy ją przekodować na dwie zmienne, gdzie:
 q8_m – bycie mężczyzną (kody: 1 – mężczyzna, 0 – kobieta)
 q8_k – bycie kobietą (kody: 0 – mężczyzna, 1 – kobieta).
1
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
Ze zrekodowanych zmiennych płci wybieramy jedną i włączamy do modelu. Nie bierzemy obu, bo wiemy,
że są ze sobą silnie skorelowane (kto jest kobietą, ten nie jest mężczyzną i na odwrót).
Model wygląda teraz tak:
o Zmienna zależna: re6 „Mężczyz. zarabiać, kobieta w domu”
o Zmienne niezależne:
 q9age „wiek”
 q49a „liczba dzieci”
 r31 „religijność”
 q8_m „bycie mężczyzną”
Jednym z podstawowych warunków analizy regresji jest również to, by zmienne niezależne nie były
wzajemnie silnie skorelowane. Sprawdzamy to, wykonując serię testów r-Pearsona.
Do serii korelacji dołączymy również zmienną zależną sprawdzając przy okazji, czy jest korelacja między
nią, a zmiennymi niezależnymi – brak takiej korelacji osłabiłby model.
Syntax
CORRELATIONS
/VARIABLES=re6 q9age q49a re31 q8_m
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE
Korelacje
Mężczyz
Wiek
Liczba
Resp osobą
zarabiać,
respondenta
wszystkich
religijną/nierelig
dzieci
ijną
kobieta w
domu
Mężczyz zarabiać,
kobieta w domu
Korelacja Pearsona
Korelacja Pearsona
Wiek respondenta
dzieci respondenta
Resp osobą
religijną/niereligijną
1230
-,228
**
-,228
**
-,129
**
,000
1230
1221
1213
1230
1
**
**
1263
**
**
,427
Istotność (dwustronna)
,000
,000
N
1221
1253
**
**
,188
,188
,000
1230
Korelacja Pearsona
**
,000
N
-,138
-,138
,000
,000
-,187
,427
-,187
-,091
**
,000
,000
,001
1253
1241
1263
1
**
-,166
-,127
**
,000
,000
1253
1231
1253
**
1
-,166
,162
**
Istotność (dwustronna)
,000
,000
,000
N
1213
1241
1231
1241
1241
**
**
**
**
1
Korelacja Pearsona
mężczyzna
1
**
Istotność (dwustronna)
Korelacja Pearsona
Liczba wszystkich
respondenta
Istotność (dwustronna)
N
mężczyzna
-,129
-,091
-,127
,000
,162
Istotność (dwustronna)
,000
,001
,000
,000
N
1230
1263
1253
1241
1263
**. Korelacja jest istotna na poziomie 0.01 (dwustronnie).
2
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
Po pierwsze sprawdzamy, czy zmienna zależna jest skorelowana z każdą zmienną niezależną z osobna.
Okazało się, że jest (szara kolumna):
 re6 x wiek: p<0,05, rxy = -0,228
 re6 x liczba dzieci: p<0,05, rxy = -0,138
 re6 x religijność: p<0,05, rxy = 0,188
 re6 x bycie mężczyzną: p<0,05, rxy = -0,129
Gdy analizujemy związki zależnej z każdą zmienną niezależną z osobna, to korelacje nie są bardzo wysokie.
Regresja powie nam, czy wartość współczynnika korelacji zmieni się (będzie to związek silniejszy lub
słabszy), gdy sprawdzimy działanie wszystkich zmiennych niezależnych razem.
Po drugie sprawdzamy korelacje między zmiennymi niezależnymi (zaznaczone w tabeli na żółto):
 wiek x liczba dzieci: p<0,05, rxy = 0,427
 wiek x religijność: p<0,05, rxy = -0,187
 wiek x bycie mężczyzną: p<0,05, rxy = -0,091
 liczba dzieci x religijność: p<0,05, rxy = -0,166
 liczba dzieci x bycie mężczyzną: p<0,05, rxy = -0,127
 religijność x bycie mężczyzną: p<0,05, rxy = 0,162
Niestety, wszystkie zmienne niezależne w naszym modelu są ze sobą skorelowane. Ale jak już było
wspomniane wcześniej, brak korelacji jest utopią. Patrzymy więc na siłę stwierdzonych zależności.
Generalnie są słabe, poza jedną: wiek x liczba dzieci. W takim przypadku należy z modelu wykluczyć jedną
z silnie korelujących zmiennych. To jest decyzja raczej merytoryczna: która zmienna jest dla nas
ważniejsza? która jest mniej istotna?
Tutaj możemy zadecydować o wykluczeniu zmiennej „liczba dzieci”. W efekcie model wygląda teraz tak:
o Zmienna zależna: re6 „Mężczyz. zarabiać, kobieta w domu”
o Zmienne niezależne:
 q9age „wiek”
 r31 „religijność”
 q8_m „bycie mężczyzną”
Dlaczego tak ważne jest, by predyktory nie były skorelowane? Bo jeśli umieścimy w modelu skorelowane
predyktory, to możemy mieć podejrzenia, że mierzą to samo. I co za tym idzie: ich związki z zależną też są
podobne. I nie wiemy wówczas, jaki jest rzeczywisty wpływ każdego z nich na zmienna zależną. Może w
skrajnych przypadkach dojść do sytuacji, że predykator każdy z osobna włączony do modelu jest istotnie
związany z zależną, ale wprowadzone razem „znoszą się” i ich wspólny wpływ będzie nieistotny.
3
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
ANALIZA -> REGRESJA -> LINIOWA
W zakładce „Statystyki” oprócz domyślnych
 oszacowania
 dopasowanie modelu
warto jeszcze zaznaczyć
 statystyki opisowe
Resztę ustawień pozostawiamy domyślnie.
Syntax
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT re6
/METHOD=ENTER q9age re31 q8_m.
W ostatnich dwóch liniach kodu są zmienne:
 w linii: /DEPENDENT [zmienna zależna]
 w linii /METHOD=ENTER [zmienne niezależne]
Interpretacja tabel wynikowych:
a) statystyki opisowe
 prosta analiza średnich i odchyleń
 nieużyteczne w przypadku zdekodowanych zmiennych kategorialnych (nie da się interpretować
wartości średniej i odchylenia)
b) korelacje
 seria korelacji r-Pearsona
 informacje, które już znamy, bo wykonaliśmy takie obliczenia przed przystąpieniem do analizy
regresji
 możemy tu upewnić się:
o czy zmienna zależna jest skorelowana ze zmiennymi niezależnymi;
o czy i jak mocno zmienne niezależne skorelowane są między sobą.
4
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
c) Zmienne wprowadzone / usunięte
 Jeśli SPSS zdecydowałby o usunięciu z modelu jakiś zmiennych, to poinformowałby o tym właśnie
tutaj;
 Program usuwa zmienne niezależna bardzo silnie ze sobą korelujące;
 U nas nie ma zmiennych wycofanych z modelu, wszystkie zostały poddane dalszym analizom.
d) Model podsumowanie
Model - Podsumowanie
Model
R
R-kwadrat
Skorygowane
Błąd
R-kwadrat
standardowy
oszacowania
1
,322
a
,104
,101
1,140
a. Predyktory: (Stała), mężczyzna, Wiek respondenta
, Resp osobą religijną/niereligijną
Tabela podaje wartości współczynników korelacji wielozmiennowej:
 R to siła związku pomiędzy zmienną zależną a predyktorami – im więcej predyktorów, tym
trudniejsza jego interpretacja;
 R-kwadrat – jaki odsetek wariancji wyjaśnia model (u nas: 10% czyli niewiele)
 Skorygowane R-kwadrat – wartość współczynnika z poprawką na liczbę analizowanych jednostek i
liczbę predyktorów w modelu.
Interpretujemy wartość skorygowanego R-kwadrat: 0,101. Interpretacja jest taka sama jak w przypadku
wszystkich współczynników korelacji.
U nas: wartość R2kor = 0,101, co oznacza korelację słabą pomiędzy wiązką zmiennych niezależnych a
zmienną zależną.
e) ANOVA
 Informuje nas, czy stwierdzona korelacja wielozmiennowa jest istotna statystycznie;
 Jeśli istotność jest mniejsza niż 0,05, to korelacja wielozmiennowa jest istotna statystycznie;
 W naszym przypadku tak właśnie jest, czyli mamy istotną, ale słabą korelację w modelu regresji:
F(3, 1209) = 46,585; p<0,05
Anova
Suma kwadratów
Model
Regresja
1
a
Średni kwadrat
df
181,692
3
60,564
Reszta
1571,416
1209
1,300
Ogółem
1753,108
1212
F
46,585
Istotność
,000
b
a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu
b. Predyktory: (Stała), mężczyzna, Wiek respondenta, Resp osobą religijną/niereligijną
5
Opracowanie: dr Agnieszka Figiel (IS UAM Poznań)
f) Współczynniki
Współczynniki
a
Współczynniki niestandaryzowane
Model
Współczynniki
t
Istotność
standaryzowane
Błąd
B
Beta
standardowy
1
(Stała)
3,096
,152
Wiek respondenta
-,015
,002
,205
-,424
Resp osobą
20,373
,000
-,209
-7,541
,000
,032
,179
6,378
,000
,067
-,176
-6,374
,000
religijną/niereligijną
mężczyzna
a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu
Analiza regresji oprócz informacji nt. korelacji całego modelu, udostępnia też informacje, jak ze zmienną
zależną korelują w ramach modelu zmienne niezależne. To „w ramach modelu” oznacza, że patrzymy na
korelację dwóch zmiennych, ale przy jednoczesnym oddziaływaniu zmiennych sąsiadujących. Pokazane
wcześniej korelacje r-Pearsona były liczone w sposób wyizolowany, tutaj mamy korelację + jej otoczenie.
Z tabeli odczytujemy:
 Istotność – jeśli mniejsza niż 0,05, to korelacja jest istotna statystycznie;
o Jeśli byłaby nieistotna korelacja, to znaczy, że mamy w modelu
 Albo zmienną niezależną nieskorelowaną ze zmienną zależną
 Albo ten predyktor jest mocno skorelowany z innymi predyktorami.
 Beta (współczynnik standaryzowany)
o Interpretujemy jak każdy współczynnik korelacji;
o Informuje o wielkości wpływu poszczególnych predyktorów na zmienną zależną.
Opis i interpretacja całej przeprowadzonej analizy regresji:
„Analizę regresji przeprowadzono dla następującego modelu: zmienną zależną była opinia nt.
podziału ról w rodzinie, a predyktorami zmienne wiek, religijność respondenta i płeć (bycie
mężczyzną). Zaproponowany model okazał się istotny statystycznie F(3, 1209) = 46,585; p<0,05.
Wartość współczynnika R2kor = 0,101 wskazuje, że korelacja stwierdzona w ramach modelu jest
słaba (wyjaśnia ok. 10% wariancji). Wartości poszczególnych współczynników predyktorów były
istotne statystycznie i wyniosły: dla zmiennej „wiek” = -0,209, p<0,05 ; dla zmiennej „religijność” =
0,179, p<0,05 ; dla zmiennej „płeć (bycie mężczyzną)” = -0,176, p<0,05.
Dla zmiennych wiek i płeć wartości współczynników są ujemne, co oznacza, że wyższy wiek
respondenta oraz bycie mężczyzną sprzyjają akceptacji twierdzenia o podziale ról. Z kolei dla
zmiennej religijność wartość współczynnika była dodatnia, co oznacza, że im mniej religijny był
respondent, tym częściej analizowane twierdzenie odrzucał.
6

Podobne dokumenty