pokazuje człowieka Zeitner

Transkrypt

Mariusz Grzęda*
Wprowadzenie do eksploracyjnej analizy
czynnikowej – przegląd problemów
Licz to, co policzalne,
mierz to, co mierzalne,
a co niemierzalne
uczyń mierzalnym…
Galileusz
Wprowadzenie
Analiza czynnikowa jest wysoce efektywnym narzędziem statystycznym,
które znajduje zastosowanie w wielu obszarach współczesnych nauk empirycznych. Z techniki tej korzystają w swojej pracy przede wszystkim badacze społeczni, choć sporadycznie pojawia się ona również w warsztacie pracy reprezentantów nauk przyrodniczych (Child, 2006)1. Spośród tych pierwszych stosują ją głównie socjologowie i psychologowie, ale także przedstawiciele badań edukacyjnych. Tak szerokie spektrum zastosowań analiza
Jako przykład tej ostatniej tendencji może posłużyć magazyn „Science”. W ostatnich dwudziestu latach (październik 1989 – październik 2009) odwołanie do analizy
czynnikowej pojawiło się w nim w ponad pięćdziesięciu artykułach, z których część stanowiły studia z zakresu nauk przyrodniczych. Nawet biorąc pod uwagę fakt, że wspomniane czasopismo jest tygodnikiem, liczba ta sugeruje przynajmniej symboliczną obecność tej metody również na polu nauk przyrodniczych (http://www.sciencemag.org/).
1
Mariusz Grzęda ukończył socjologię na Uniwersytecie Warszawskim. Swoją pracę magisterską poświęcił krytyce sposobu wykorzystywania analizy czynnikowej w międzynarodowych badaniach systemów wartości prowadzonych przez R. Ingleharta. Obecnie doktorant
w Instytucie Socjologii UW i pracownik ZISE w IFiS PAN. Interesuje się metodologicznymi
problemami stosowania modeli liniowych w socjologii ([email protected]).
*
Skalowanie druk.indb 145
2009-12-09 14:25:21
146
Mariusz Grzęda
czynnikowa zawdzięcza temu, że jest oparta na uniwersalnym schemacie
analitycznym, który dobrze pasuje do wielu problemów badawczych, rozpatrywanych w wyżej wymienionych dziedzinach. W najogólniejszym bowiem
sensie analiza czynnikowa jest narzędziem służącym do badania struktury relacji pomiędzy wieloma zmiennymi, które reprezentują zróżnicowanie jednostek2 poddanych badaniu statystycznemu (Alwin 2000).
Celem tej techniki analitycznej jest dokonanie generalizacji informacji
zawartej w analizowanym zestawie zmiennych. Generalizacja ta powstaje
poprzez wskazanie (zgodnie z przyjętymi kryteriami), w każdej zmiennej tej
części jej zróżnicowania, którą podziela ona wspólnie z innymi zmiennymi
oraz pozostałej części, która pozostaje unikalna i specyficzna tylko dla niej
(Child 2006). Opierając się na tym rozróżnieniu sekwencja procedur analitycznych zwana analizą czynnikową generuje jako wynik niewielką liczbę hipotetycznych zmiennych, zwanych zmiennymi ukrytymi lub czynnikami
wspólnymi, które w sensie statystycznym reprezentują poddany analizie początkowy zbiór wielu zmiennych (Kim i Mueller 1978a).
Początki analizy czynnikowej
Koncepcja analizy czynnikowej jest oparta na zestawie kilku specyficznych założeń o charakterze filozoficznym, których najpierwotniejsze źródła
sięgają czasów starożytnej Grecji. Podstawowa w tej analizie idea redukcji
złożonej rzeczywistości do niewielkiej liczby pierwotnych, prostych czynników, pojawiła się około VI wieku p.n.e. w koncepcjach myślicieli z Miletu.
Przedstawiciele tej szkoły filozoficznej sądzili, że obserwowalną różnorodność i złożoność świata dostępnego zmysłowo można wytłumaczyć istnieniem niewielkiej liczby pierwotnych, prostszych substancji. W ich koncepcjach świat widzialny w całej swej różnorodności był manifestacją różnego
stopnia koncentracji i specyficznej konfiguracji kilku pojedynczych substancji pierwotnych takich jak np. woda czy powietrze. Obok filozofów z Miletu
istotny wkład w ideę, na której wiele wieków później oparto koncepcję anaW przypadku badań społecznych analizowanymi jednostkami obserwacji mogą być
zarówno pojedyncze osoby, jak i całe grupy, a także organizacje oraz jednostki terytorialne (np. szkoły, gminy, okręgi wyborcze, państwa itp).
2
2009-12-09 14:25:21
Wprowadzenie do eksploracyjnej analizy czynnikowej...
147
lizy czynnikowej, wniósł Parmenides. Wprowadził on podział na to co widoczne, dostępne zmysłowo i bezpośrednio obserwowalne oraz na to co ukryte, niedostępne w bezpośrednim doświadczeniu. Świat obserwowalny w koncepcji Parmenidesa był światem pełnym niestabilności i iluzji. Natomiast
świat ukryty, mimo że niedostępny bezpośrednio, był prawdziwie realną, stabilną rzeczywistością, do której należy dotrzeć, by poznać prawdę. Ten schemat myślenia o naturze rzeczywistości został zaadaptowany przez wiele późniejszych szkół filozoficznych – m.in. przez atomistów, pitagorejczyków,
a także Platona. Wszyscy wymienieni tu przedstawiciele starożytnej myśli filozoficznej przyjmowali założenie o tym, że rzeczywistość składa się z części dostępnej w bezpośrednim doświadczeniu oraz z części ukrytej, znajdującej się poza zasięgiem poznania zmysłowego. Wszyscy też zdecydowanie dezawuowali dostępną zmysłom część rzeczywistości, jako pełną iluzji i niewiele wartą z punktu widzenia poznania prawdy. Kolejnym starożytnym filozofem, który wniósł istotny wkład do idei, jakie legły u podstaw analizy
czynnikowej, był Arystoteles. Uczeń Platona istotnie zmodyfikował sposób
myślenia o rzeczywistości swoich poprzedników, zdecydowanie rehabilitując
zmysłową, bezpośrednio dostępną stronę rzeczywistości. Arystoteles uznał,
że obserwując regularności występujące w świecie danym bezpośrednio
zmysłom można wysnuwać trafne wnioski na temat rzeczywistości. Stąd też
jest on uznawany za ojca nauk empirycznych. Ponadto to właśnie jego myśli
analiza czynnikowa zawdzięcza swoje kolejne fundamentalne założenie.
Arystoteles w swoich pracach stosował bowiem schemat poznawczy, który
wiele wieków później w zmienionej wersji został zaadaptowany przez Charlesa Spearmana – twórcę analizy czynnikowej. Chodzi o założenie, że w każdym obiekcie można wyróżnić dwie części: tę, która stanowi jego istotę,
część uniwersalną, wspólną (podzielaną) z innymi obiektami oraz część specyficzną i przypadkową danego obiektu, przesądzającą o jego niepowtarzalności i unikalności. Z rozróżnieniem kierującym się tą samą logiką mamy do
czynienia w analizie czynnikowej (Mulaik 1987). Wszystkie wspomniane
wyżej wątki w bardziej lub mniej zmodyfikowanej wersji legły u podstaw
fundamentalnych założeń omawianej tu metody.
Właściwe początki analizy czynnikowej sięgają XIX wieku i prowadzonych wówczas pierwszych badań empirycznych nad ludzkimi zdolnościami
umysłowymi i inteligencją. Ogólną ideę modelu i podwaliny teoretyczne tej
2009-12-09 14:25:21
148
Mariusz Grzęda
metody sformułował wówczas angielski statystyk Francis Galton – znany
przede wszystkim jako autor klasycznej w statystyce metody regresji średnich
(Banaszak 2004a, 2004b). Prowadząc badania nad zjawiskiem dziedziczenia,
Galton doszedł do wniosku, że każdy człowiek posiada pewien poziom „ogólnej zdolności intelektualnej”, która przejawia się w każdej podejmowanej przezeń aktywności. Zdaniem Galtona zdolność ta jest przez jednostki dziedziczona biologicznie i jej poziom przesądza ostatecznie o ich sukcesie życiowym.
Galton uważał też, że stopień ogólnej sprawności umysłu, którą badał za pomocą rozmaitych testów, daje się wyrazić za pomocą jednej wartości liczbowej.
Oznaczało to, że sprawność ta ma charakter jednowymiarowy, a także że zróżnicowanie ludzi pod względem tej cechy jest dobrze reprezentowane przez
kontinuum wartości liczbowych (Child 2006). Prace Galtona w dziedzinie badań nad zdolnościami umysłowymi ludzi kontynuował jego uczeń, psycholog
Charles Spearman, który w 1904 roku, zaproponował własną, tak zwaną dwuczynnikową teorię inteligencji. Spearman sformułował tę teorię w oparciu
o stworzony przez siebie matematyczny model zależności pomiędzy zmiennymi (Kim i Mueller 1978a; Alwin 2000; Banaszak 2004a; Lissowski 2005). Zaproponowana przez Spearmana teoria inteligencji zakłada, że rozwiązanie każdego problemu lub zadania wymagającego wysiłku umysłowego, jest zależne
od dwóch rodzajów zdolności zwanych czynnikami. Z jednej strony jest to
czynnik g, zwany też czynnikiem ogólnym (general factor), który reprezentuje inteligencję rozumianą jako ogólną sprawność umysłową i zdolności poznawcze człowieka3. Z drugiej zaś czynnik s (specific factor) reprezentujący te
umiejętności, które są swoiste i specyficzne dla wykonania danego zadania.
Czynnik g jest jeden i ma charakter uniwersalny, gdyż przejawia się w każdym
zadaniu, które wykonuje człowiek. Innymi słowy jest czynnikiem wspólnym
wszystkim zadaniom. Natomiast czynników s jest wiele i każdy z nich ma swoją specyfikę. Każdy jest bowiem związany z wykonywaniem specyficznego rodzaju zadań (Anastasi i Urbina 1999; Sternberg, 2001 Jensen 2006). Mimo że
dwuczynnikowa teoria inteligencji Spearmana była intensywnie krytykowana
i zdania na jej temat są wśród psychologów nadal podzielone, to jednak sam
model statystycznych zależności między zmiennymi okazał się niezwykle użyteczny i płodny. W późniejszych latach doczekał się bowiem twórczych modySpearman twierdził, że czynnik g reprezentuje dosłownie „energię umysłową” każdego człowieka (Sternberg 2001).
3
2009-12-09 14:25:21
149
fikacji, które pozwoliły rozszerzyć spearmanowską wersję modelu jednoczynnikowego do modeli uwzględniających większą liczbę czynników wspólnych.
Model z wieloma czynnikami wspólnymi został po raz pierwszy sformułowany w połowie lat czterdziestych XX wieku przez Louisa Thurstone’a, amerykańskiego psychologa i założyciela znanego czasopisma „Psychometrika”, poświęconego problemom pomiaru, skalowania i wielowymiarowej analizy danych (Banaszak 2004a; Lissowski 2005). Wkrótce potem analiza czynnikowa
zaczyna być szeroko stosowana w innych niż tylko psychologia dyscyplinach
badawczych. Metoda ta znajduje zastosowania między innymi w socjologii,
politologii, ekonomii ale także w medycynie, biologii i geologii (Child 2006).
Od lat siedemdziesiątych wraz z intensywnym rozwojem technologii komputerowych analiza czynnikowa staje się narzędziem stosowanym przez coraz
większą liczbę badaczy, a jednocześnie coraz intensywniej doskonalonym. Proponowane są nowe wersje modeli i metod estymacji parametrów, uwzględniające specyficzne dla różnych nauk problemy badawcze i założenia pomiarowe.
W przypadku badaczy społecznych szczególnie ważne było pojawienie się metod estymacji uwzględniających losowy charakter doboru jednostek obserwacji
do badania (Banaszak 2004a, 2004b).
Współczesne zastosowania analizy czynnikowej
Duane F. Alwin podsumowując współczesne zastosowania analizy czynnikowej wskazuje, że metoda ta jest obecnie używana przez badaczy na cztery wzajemnie ze sobą powiązane sposoby (Alwin 2000). W dalszej części
artykułu każdy z tych kontekstów zostanie krótko scharakteryzowany oraz
zilustrowany hipotetycznym przykładem.
Analiza czynnikowa jako narzędzie redukcji danych
i konstrukcji wyniku łącznego
Po pierwsze, analiza czynnikowa służy jako narzędzie redukcji danych. Taki
sposób użycia tej techniki ma miejsce w sytuacji, gdy badacz zgromadziwszy
uprzednio dane w postaci dużej liczby zmiennych, pragnie przedstawić zawartą
w nich informację, za pomocą nielicznego zbioru innych zmiennych, nazywa-
2009-12-09 14:25:21
150
Mariusz Grzęda
nych czynnikami wspólnymi. W efekcie redukcji badacz uzyskuje pogrupowanie
zbioru swoich zmiennych w wiązki. Każda z otrzymanych wiązek będzie skupiać
w sobie takie zmienne, które są ze sobą statystycznie silnie związane, a także
w idealnej sytuacji będą reprezentować podobne treści. W tym kontekście przyjmuje się, że zmienne z tej samej wiązki reprezentują jeden czynnik wspólny (Alwin 2000). Należy tu także dodać, że czynniki są wyodrębniane tak, aby każdy
z nich reprezentował istotny aspekt (wymiar) zróżnicowania zawartego w pierwotnym zbiorze danych (Banaszak 2004a; Lissowski 2005).
Niekiedy wykonując analizę czynnikową, badacz nie poprzestaje tylko na
samym pogrupowaniu zbioru analizowanych zmiennych, lecz dodatkowo może również podjąć próbę skonstruowania tak zwanego wyniku łącznego (composite score) dla każdej jednostki obserwacji na każdym wyodrębnionym
uprzednio czynniku. Konstrukcja wyniku łącznego w najogólniejszym sensie
polega na przypisaniu każdej jednostce obserwacji w ramach każdego wyodrębnionego czynnika pewnej liczby (Alwin 2000). O liczbie tej zakłada się, że
wskazuje ona wynik danej jednostki obserwacji na wymiarze zróżnicowania
reprezentowanym przez dany czynnik. Istnieje wiele sposobów konstruowania
wyników łącznych. Wynik łączny można na kilka sposobów oszacować w ramach samej analizy czynnikowej (Kim i Mueller 1978b; Górniak 2000; Banaszak 2004a). Możliwe jest również zatrudnienie do tego celu innych technik
analitycznych występujących w literaturze pod wspólną nazwą skalowania4.
Podsumowując, należy tu podkreślić, że w konsekwencji opisanego zastosowania analizy czynnikowej wynik każdej jednostki obserwacji reprezentowany na
kilku zmiennych zostaje zastąpiony jednym wynikiem łącznym (Alwin 2000).
Warto w tym miejscu zawiesić na moment abstrakcyjne rozważania i posłużyć się prostym, intuicyjnym przykładem „szkolnym”, który zilustruje ten
sposób korzystania z analizy czynnikowej. Przyjmijmy, że uczniowie pewnej
klasy w ciągu kilku miesięcy napisali osiem kartkówek z matematyki, które
sprawdzały ich wiedzę z następujących tematów: (1) definiowanie zbiorów, (2)
zawieranie się zbiorów, (3) elementarne działania na zbiorach, (4) iloczyn kartezjański zbiorów, (5) zbiory skończone i nieskończone, (6) definiowanie funkcji, (7) przedstawianie funkcji za pomocą wykresów, (8) obliczanie miejsc ze-
Problem skalowania w szerszym kontekście jest dokładnie omówiony w artykule
Henryka Banaszaka.
4
2009-12-09 14:25:22
151
rowych funkcji. Każdy uczeń w każdej z tych ośmiu kartkówek uzyskał pewien
wynik, mierzony liczbą zdobytych punktów. Mamy zatem sytuację, w której
wyniki wszystkich uczniów mogą być zapisane w formie bazy danych zawierającej osiem zmiennych. W tej sytuacji można przeprowadzić analizę czynnikową, aby sprawdzić, czy pierwotną, dokładną informację o zróżnicowaniu
umiejętności matematycznych uczniów zawartą w ośmiu wyżej wymienionych
zmiennych, można zastąpić znacznie mniejszą liczbą zmiennych (czynników
wspólnych). Powiedzmy, że w naszym przykładzie, w wyniku przeprowadzonej analizy okazało się, że wszystkie osiem pierwotnych zmiennych grupuje się
w dwie wiązki. Zgodnie z tym, co zostało powiedziane wyżej, każdej z nich odpowiada jeden czynnik wspólny. Załóżmy, że wynik przeprowadzonej analizy
czynnikowej wskazuje, że pierwszą grupę zmiennych stanowią zmienne reprezentujące wyniki kartkówek (1),(2),(3),(4),(5). Natomiast drugą – kartkówki
(6),(7),(8). Przyglądając się dokładniej tematom poszczególnych kartkówek
możemy dojść do wniosku, że pierwsza grupa zmiennych reprezentuje ogólną
umiejętność posługiwania się przez ucznia rachunkiem zbiorów. Innymi słowy
dochodzimy tu do wniosku, że kompetencja każdego ucznia w zakresie rachunku zbiorów w jakimś stopniu ujawnia się w każdej z pięciu pierwotnie rozpatrywanych zmiennych. Wykonując tę samą czynność dla drugiej grupy zmiennych można dojść z kolei do wniosku, że ich wspólnym motywem mogą być
umiejętności uczniów w zakresie funkcji. W ten oto sposób stwierdzamy, że
wyniki uczniów zapisane w postaci ośmiu zmiennych reprezentują dwa czynniki, z których każdy wskazuje inną umiejętność w zakresie matematyki. Jako
dalszy krok można podjąć próbę przypisania każdemu uczniowi jego wyniku
łącznego na każdym z wyodrębnionych uprzednio czynników. Przykład ten jest
oczywiście bardzo prosty, pokazuje jednak istotę mechanizmu stosowania analizy czynnikowej jako narzędzia redukcji danych i konstruowania wyniku łącznego dla każdej jednostki obserwacji.
Analiza czynnikowa jako narzędzie eksploracji liczby
istotnych wymiarów zróżnicowania jednostek obserwacji
Drugi pojawiający się współcześnie w literaturze sposób zastosowania
analizy czynnikowej wiąże się ściśle z omówionym w poprzednim punkcie.
Rozpatrywana tu metoda jest często stosowana również jako narzędzie służą-
2009-12-09 14:25:22
152
Mariusz Grzęda
ce do określania odpowiedniej liczby czynników, które dobrze reprezentowałyby wszystkie ważne aspekty (wymiary) zróżnicowania badanych jednostek
obserwacji (Alwin 2000; Netemeyer i Bearden i Sharma 2003). Stosowanie
analizy czynnikowej w tym kontekście zakłada, że badacz nie przyjmuje na
wstępie żadnych założeń co do tego, ile czynników należy wyodrębnić. Analiza jest przeprowadzana po to, aby w oparciu o ustalone kryteria istotności
określić, czy w obrębie pierwotnego zestawu zmiennych można mówić o jednym, dwóch czy też może większej liczbie istotnych wymiarów zróżnicowania jednostek obserwacji. Takie zastosowanie analizy czynnikowej jest wykonywane w celu wstępnego rozpoznania liczby istotnych wymiarów zróżnicowania, czy też mówiąc inaczej, zbadania potencjalnych możliwości redukcji
wielozmiennowego zbioru danych do mniejszej liczby istotnych czynników.
Stąd nosi ona nazwę eksploracyjnej analizy czynnikowej (Kim i Mueller
1978a; Kim i Mueller 1978b; Banaszak 2004a; Lissowski 2005).
Powróćmy teraz do wcześniejszego przykładu z kartkówkami z matematyki. Możemy zatem przyjąć, że zastosowanie analizy czynnikowej w tym
kontekście służy do udzielenia odpowiedzi na pytanie, czy wszystkie osiem
pierwotnych zmiennych rzeczywiście reprezentuje dwa istotne wymiary
zróżnicowania uczniów (umiejętności w zakresie rachunku zbiorów oraz
umiejętności posługiwania się funkcjami), czy też może istotę zróżnicowania
jednostek obserwacji w zakresie ośmiu analizowanych zmiennych lepiej oddałby przykładowo tylko jeden czynnik wspólny, który ogólnie można by nazwać umiejętnością w zakresie operowania symbolami? A może powinniśmy
w analizowanym zbiorze danych wyróżnić trzy czynniki? Odpowiedzi na
wszystkie powyższe pytania można również udzielić za pomocą analizy
czynnikowej.
Analiza czynnikowa jako narzędzie testowania hipotez
Trzeci często współcześnie występujący sposób zastosowania analizy
czynnikowej polega na korzystaniu z tej metody jako narzędzia służącego do
testowania hipotez na temat struktury czynnikowej kryjącej się w danych.
Ten rodzaj analizy nosi nazwę konfirmacyjnej analizy czynnikowej (Alwin
2000). Mamy w niej do czynienia z sytuacją, w której badacz przypuszcza
istnienie określonej struktury czynnikowej i pragnie się przekonać, czy znaj-
2009-12-09 14:25:22
153
duje ona potwierdzenie w posiadanych przezeń danych czy też nie. W tym
kontekście weryfikowana hipoteza na temat układu czynnikowego ściśle precyzuje zarówno liczbę czynników wspólnych, jak również istotne związki
statystyczne pomiędzy obserwowanymi zmiennymi a poszczególnymi czynnikami. W wyniku analizy konfirmacyjnej badacz uzyskuje ilościową ocenę
tego, w jakim stopniu zakładana przez niego struktura czynnikowa pasuje do
danych. Jeśli wielkość uzyskanej miary wskazuje, że model teoretyczny i dane empiryczne różnią się od siebie istotnie, to wówczas stanowi to wystarczający powód, by odrzucić zakładaną hipotezę. Po odrzuceniu hipotezy można
próbować ją zmodyfikować, aby następnie znowu testować dopasowanie modelu z niej wynikającego do danych. Można również odrzucić całą teorię,
z której wynikała dana hipoteza i skierować uwagę na teorie konkurencyjne.
W przypadku, gdy pewien model uzyska potwierdzenie, można również
oczywiście testować inne konkurencyjne modele. Jeśli one również uzyskują
potwierdzenie zgodności z danymi, to wówczas dzięki dodatkowym analizom możliwe jest sprawdzenie, który z tych modeli istotnie lepiej znajduje
odzwierciedlenie w danych (Kim i Mueller 1978b; Netemeyer i Bearden
i Sharma 2003; Brown 2006). W przeciwieństwie do poprzednio omawianych podejść do analizy czynnikowej ten rodzaj zastosowania omawianej
metody zakłada już, że badacz ma pewną wiedzę na temat analizowanego
zjawiska, którą formułuje w postaci hipotezy. Źródłem hipotez może być
albo praktyczna wiedza pochodząca na przykład z uprzednio przeprowadzonych analiz o charakterze eksploracyjnym, albo twierdzenia zaczerpnięte
z istniejących w literaturze teorii danego zjawiska. O ile w poprzednich przypadkach mieliśmy do czynienia z analizą czynnikową, w której punktem wyjścia i najważniejszym punktem odniesienia były dane zebrane przez badacza
(data-driven), o tyle w przypadku analizy konfirmacyjnej kluczową rolę pełnią przypuszczenia i teorie na temat struktury zjawiska (theory-driven) (Alwin 2000)5.
W kontekście wprowadzonego wcześniej przykładu z kartkówkami możemy uznać, że metoda konfirmacyjnej analizy czynnikowej będzie miała zastosowanie wówczas, gdy badacz wiedziony teorią lub wynikami wcześniejszych analiz czynnikowych, sformułuje konkretną hipotezę na temat oczekiPrzykład zastosowania tego rodzaju analizy czynnikowej znajduje się w artykułach
Katarzyny Wądołowskiej i Mariusza Grzędy w drugiej części niniejszego tomu.
5
2009-12-09 14:25:22
154
Mariusz Grzęda
wanej struktury czynnikowej. Kontynuując rozważania z poprzednich podpunktów możemy mieć dwie hipotezy, które warto byłoby sprawdzić. Pierwsza hipoteza mówiłaby o tym, że w zgromadzonych wynikach wszystkich
kartkówek manifestuje się tylko jeden istotny wymiar zróżnicowania
uczniów, reprezentowany przez wspomnianą w poprzednim punkcie umiejętność operowania symbolami. I analogicznie, druga hipoteza o dwóch czynnikach kryjących się w danych – umiejętnościach w zakresie a) rachunku zbiorów reprezentowanych przez kartkówki (1)(2)(3)(4)(5) oraz b) funkcji reprezentowanych przez (6)(7)(8). Po otrzymaniu wyników konfirmacyjnej analizy czynnikowej moglibyśmy ocenić, która z teorii lepiej pasuje do posiadanych danych.
Analiza czynnikowa w kontekście modelowania
równań strukturalnych
Czwartym zasługującym na uwagę i współcześnie coraz istotniejszym
kontekstem zastosowań analizy czynnikowej jest podejście nazywane modelowaniem równań strukturalnych (Structural Equation Modeling – SEM) (Alwin 2000). Podejście to wykorzystuje podstawowe założenia konfirmacyjnej
analizy czynnikowej oraz regresji wielokrotnej (Banaszak 2004b). SEM jest
metodą, która podobnie jak konfirmacyjna analiza czynnikowa weryfikuje hipotezy sformułowane wcześniej przez badacza. Jednak wartość dodana tego
narzędzia – w kontekście zastosowań analizy czynnikowej – polega między
innymi na tym, że umożliwia ono zintegrowanie wielu modeli czynnikowych
i zbadanie zachodzących pomiędzy nimi zależności o charakterze przyczynowo-skutkowym6. I w tym przypadku bardzo ważną rolę pełni teoria, na podstawie której badacz testuje hipotetyczny układ zależności. Powinna ona jednoznacznie precyzować, które spośród badanych konceptów pełnią rolę przyczyn, a które skutków (Kline 1998; Brown 2006; Lee 2007)7.
W tym miejscu warto na marginesie zaznaczyć, że analiza czynnikowa jako taka
może być również rozpatrywana jako szczególny przypadek SEM. Wątek ten nie będzie
w tym miejscu rozwijany, ponieważ wykład podstawowych założeń SEM zawiera znajdujący się również w tej części opracowania artykuł Katarzyny Wądołowskiej.
7
Przykłady praktycznych zastosowania tego podejścia Czytelnik znajdzie w drugiej
części niniejszego tomu.
6
2009-12-09 14:25:22
155
Aby wskazać przykładowe zastosowanie SEM, należy rozbudować rozpatrywany wcześniej przykład z kartkówkami. Otóż wyobraźmy sobie, że poza wynikami kartkówek badacz przeprowadził wśród tych samych uczniów
dodatkowo cztery ogólne testy zdolności: (I) test pamięci krótkotrwałej; (II)
test wyobraźni przestrzennej; (III) test rozumowania werbalnego; (IV) test
rozumowania ilościowego. Załóżmy, że po przeprowadzeniu analizy czynnikowej na tym materiale okazało się, że w zróżnicowaniu wyników uczniów
na tych testach ujawnia się jeden wspólny czynnik, który – zdaniem badacza
– można nazwać inteligencją (Sternberg 2001). Jednocześnie – jak pamiętamy z pierwszego podpunktu – z wcześniejszych analiz kartkówek z matematyki wynikało, że w zróżnicowaniu wyników uczniów manifestowały się dwa
czynniki. Pierwszy to umiejętności w zakresie rachunku zbiorów oraz drugi
w zakresie funkcji. Teraz dzięki podejściu SEM możliwe jest powiązanie
wszystkiego co do tej pory zostało uzyskane w osobnych analizach czynnikowych w jeden model. Oczywiście potrzebna jest teoria, która podpowiedziałaby strukturę zależności pomiędzy badanymi konceptami. Na podstawie
literatury przedmiotu badacz może zatem sformułować hipotezę, wedle której umiejętności w zakresie rachunku zbiorów, jak i w zakresie operowania
funkcjami zależą w sposób przyczynowy od ogólnej inteligencji ucznia.
W konsekwencji będzie to oznaczało, że obok równań opisujących zależności między zmiennymi a czynnikami (część pomiarowa) model będzie zawierał jeszcze dwa równania regresji (część strukturalna) (Lee 2007). W tej drugiej części zmiennymi zależnymi będą odpowiednio umiejętności w zakresie
rachunku zbiorów oraz umiejętności w zakresie funkcji. Natomiast zmienną
niezależną w obu równaniach będzie rozpatrywany tu czynnik inteligencji.
Po szczegółowym wyspecyfikowaniu wszystkich spodziewanych zależności,
model taki poddawany jest statystycznej weryfikacji, podobnej do tej jak
w przypadku konfirmacyjnej analizy czynnikowej.
Po tym wprowadzającym przedstawieniu istoty oraz najważniejszych
kontekstów i sposobów zastosowań analizy czynnikowej, czas na zaprezentowanie tej metody w jej najważniejszych szczegółach. W kolejnych podrozdziałach wyszczególniono podstawowe założenia i oparty na nich teoretyczny model analizy czynnikowej. W dalszej kolejności omówiono sekwencję
problemów decyzyjnych, które muszą zostać rozstrzygnięte w toku wykonywania analizy czynnikowej. Na zakończenie poruszono problem naruszania
podstawowych założeń oraz ich wpływu na rezultaty analiz.
2009-12-09 14:25:22
156
Mariusz Grzęda
Model czynnikowy
Matematyczny model analizy czynnikowej opiera się na następujących
założeniach:
Zmienne ukryte, wskaźniki i ich poziom pomiaru
(a) Metoda analizy czynnikowej nawiązuje do koncepcji zmiennej ukrytej
(latentnej) i jej obserwowalnych wskaźników. Koncepcja ta zakłada, że
zmienna ukryta reprezentuje pewną własność/cechę, która nie poddaje się
procedurom pomiaru bezpośredniego. Zwykle zmiennymi ukrytymi
w tym rozumieniu w naukach społecznych są abstrakcyjne konstrukty
teoretyczne, których nie można mierzyć bezpośrednio. W związku z tym
przyjmuje się, że tego rodzaju własności manifestują się w sposób pośredni – to jest poprzez dające się mierzyć wskaźniki, nazywane zmiennymi obserwowalnymi (Netemeyer, Bearden i Sharma 2003)8. Podział na
zmienne ukryte oraz zmienne obserwowalne ma miejsce również w kontekście analizy czynnikowej. Zmienne ukryte nazywane są tu czynnikami. Natomiast zmienne obserwowalne – wskaźnikami.
(b) Model czynnikowy zakłada, że zarówno czynniki, jak i wskaźniki są
zmiennymi reprezentującymi takie własności, które dają się wyrażać za
pomocą skal co najmniej interwałowych9. Fakt ten ma ważne konsekwencje, do których koncepcja analizy czynnikowej nawiązuje w wielu punktach i dlatego (pomimo elementarnego charakteru) warto je w tym miejscu sformułować wprost.
Zmienne o skalach interwałowych lub mocniejszych można poddawać
ściśle określonym przekształceniom, a także – za pomocą określonych
statystyk – charakteryzować ich rozkłady oraz stopień wzajemnej zależności. Oto lista najważniejszych przekształceń i własności, do których
odwołuje się koncepcja analizy czynnikowej:
b1. Przekształcenie liniowe Zgodnie z koncepcją poziomu pomiaru zmiennych S. Stevensa, wartości każdej zmiennej o skali interwałowej lub mocW praktyce badań społecznych przyjmuje się, że cechami ukrytymi są konstrukty
teoretyczne określające postawy, orientacje, dyspozycje czy doświadczenia jednostek.
9
Patrz Aneks Poziom pomiaru zmiennych.
8
2009-12-09 14:25:22
157
niejszej można poddawać przekształceniu liniowemu. Jeżeli zmienna Y j
jest co najmniej interwałowa, to uprawnione jest jej liniowe przekształcenie o postaci:
Yl = tY j + s
gdzie t>0
[1]
b2. Liczbowe charakterystyki rozkładu Jeżeli zmienna Y j jest co najmniej
interwałowa, to jej rozkład można scharakteryzować za pomocą następujących wybranych statystyk:
• Średnia:
1 n
n – liczba obserwacji
[2]
E (Y j ) = ∑ Y j
n j =1
• Wariancja:
D 2 (Y j ) = E[Y j − E (Y j )]2 = E (Y j 2 ) − E 2 (Y j )
[3]
• Odchylenie standardowe:
D(Y j ) = D 2 (Y j )
[4]
b3. Standaryzacja Jeżeli zmienna Y j jest co najmniej interwałowa, to można jej wartości do postaci standaryzowanej Z j :
Zj =
Y j − E (Y j )
D(Y j )
[5]
Operacja standaryzacji posiada dwie ważne właściwości: po pierwsze
średnia zmiennej standaryzowanej jest równa zero, po drugie wariancja
i odchylenie standardowe są równe jedności.
E (Z j ) = 0
[6]
D2 (Z j ) = D (Z j ) = 1
[7]
b4. Kowariancja. Jeżeli zmienne Y j oraz Yk są co najmniej interwałowe, to
ich wspólną zmienność wyraża przeciętna wartość iloczynu odchyleń od
średnich zwana kowariancją:
cov(Y jYk ) = E{[(Y j − E (Y j )][Yk − E (Yk )]} = E (Y jYk ) − E (Y j ) E (Yk )
[8]
2009-12-09 14:25:22
158
Mariusz Grzęda
b5. Korelacja Jeżeli zmienne Y j oraz Yk są co najmniej interwałowe, to do
wyrażenia ich związku liniowego można zastosować współczynnik korelacji liniowej r:
cov(Y jYk )
rY jYk =
[9]
D(Y j ) D(Yk )
Na podstawie wzorów [1]:[9] łatwo sformułować następujące wnioski:
b6. Jeżeli zmienne interwałowe Y j oraz Yk zostały poddane przekształceniu
standaryzacji odpowiednio do Z j oraz Z k , to wówczas kowariancja
zmiennych Z j i Z k będzie równa współczynnikowi korelacji liniowej
między zmiennymi Y j i Yk :
cov( Z j Z k ) = E ( Z j Z k ) = rZ j Zk = rY jYk
[10]
b7. Kowariancja jest miarą symetryczną:
cov(Y jYk ) = cov(Yk Y j ) ,
[11]
z czego natychmiast wynika, że współczynnik korelacji również:
rY jYk = rYk Y j
[12]
b8. Kowariancja zmiennej interwałowej Y j z nią samą jest równa wariancji
tej zmiennej
cov(Y jY j ) = E{[(Y j − E (Y j )][(Y j − E (Y j )]} = E[(Y j − E (Y j )]2 = D 2 (Y j )
[13]
Relacje pomiędzy czynnikami a wskaźnikami
(c) Matematyczny model analizy czynnikowej zakłada zależność pomiędzy
czynnikami a wskaźnikami, dokładnie precyzując kierunek oraz kształt
tej zależności. Po pierwsze zakładana jest pierwotność czynników oraz
wtórność wskaźników. Oznacza to, że wartości obserwowalnych wskaźników są zależne od ukrytych czynników (a nie na odwrót). Innymi słowy, przyjmuje się, że czynniki stanowią źródło zmienności wskaźników.
Po drugie zaś zakłada się, że kształt tej zależności ma charakter funkcji
liniowej – wartości każdego wskaźnika są sumą ważoną wartości czynników. W kontekście analizy czynnikowej waga pojedynczego czynnika,
jest nazywana ładunkiem czynnikowym.
2009-12-09 14:25:23
159
Czynniki wspólne i swoiste
(d) Dodajmy do tego kolejne fundamentalne założenie rozpatrywanej tu metody rozróżniające dwa rodzaje czynników – czynniki wspólne (common
factors) oraz czynniki swoiste (unique factors). Czynniki wspólne są (jak
sama nazwa wskazuje) wspólnym, podzielanym z innymi wskaźnikami
źródłem zmienności każdego wskaźnika. W związku z tym na poziomie
teoretycznym przyjmuje się, że czynniki te jako wspólne źródło zmienności wskaźników odpowiadają w sposób przyczynowy za wspólną zmienność (czyli kowariancję – zał. b4) wskaźników. Zakłada się ponadto, że
liczba czynników wspólnych jest znacznie mniejsza od liczby zmiennych
obserwowalnych.
(e) Oprócz tego zakłada się, że każdy wskaźnik posiada jeszcze jedno dodatkowe, unikalne i specyficzne tylko dla niego źródło swojej zmienności,
które w modelu czynnikowym reprezentuje odpowiadający mu czynnik
swoisty. (Oznacza to, że w modelu czynnikowym liczba czynników swoistych jest równa liczbie wskaźników). O ile czynniki wspólne reprezentują zmienne ukryte w sensie zdefiniowanym w podpunkcie (a), to czynnik swoisty jest również zmienną nieobserwowalną, tyle że reprezentującą wszystkie pozostałe właściwości manifestujące się w zmienności danego wskaźnika. Mogą to być między innymi pewne cechy narzędzia pomiarowego wpływające na wynik, jak również pewien stopień przypadkowości, którym zawsze obciążona jest rejestracja wszelkich danych10.
(f) Dodatkowo, dla wygody prowadzonych operacji i bez straty ogólności
wywodu załóżmy, że wskaźniki i czynniki wspólne są zmiennymi w postaci standaryzowanej, co jest uprawnione w świetle założenia (b). Natomiast o czynnikach swoistych – reprezentujących unikalne źródło zmienności każdego wskaźnika, którego nie da się przypisać czynnikom wspólnym – przyjmijmy, że będą tożsame z tak zwanymi resztami modelu liniowego. A zatem ich średnia będzie równa zeru.
Niektórzy autorzy proponują podział swoistego źródła zmienności wskaźnika na
część wynikającą z jego specyfiki oraz część wynikającą z błędu losowego (Zakrzewska
1994). Jednak w tym opracowaniu, które ma charakter wprowadzający, swoiste źródło
zmienności wskaźnika nie będzie rozdzielane na osobne części.
10
2009-12-09 14:25:23
160
Mariusz Grzęda
Model czynnikowy
Reasumując wprowadzone dotąd fundamentalne założenia teoretyczne
i pomiarowe można stwierdzić, że każdy wskaźnik jest liniową funkcją
dwóch rodzajów czynników: czynników wspólnych oraz jednego czynnika
swoistego. W konsekwencji oznacza to, że każda zmienna obserwowalna posiada dwa źródła zmienności: jedno wspólne, podzielane z innymi wskaźnikami występującymi w modelu, a drugie swoiste, unikalne i właściwe tylko
jej11. Na podstawie o powyżych wprowadzonych pojęć i założeń można już
sformułować matematyczny ogólny model analizy czynnikowej za pomocą
następującego układu równań liniowych:
⎧ X 1 = λ11ξ1 + λ12ξ 2 + + λ1q −1ξ q −1 + λ1qξ q + δ1
⎪
⎪ X 2 = λ21ξ1 + λ22ξ 2 + + λ2 q −1ξ q −1 + λ1qξ q + δ 2
⎨
⎪
⎪X = λ ξ + λ ξ + + λ ξ + λ ξ +δ
p1 1
p2 2
pq −1 q −1
pq q
p
⎩ p
[14]
gdzie:
X 1 , X 2 , …, X p – zmienne obserwowalne/wskaźniki
ξ1 , ξ 2 ,...ξ q −1 , ξ q
– zmienne ukryte/czynniki wspólne
δ1 , δ 2 ,..., δ p – zmienne ukryte/czynniki swoiste
λ11 , λ12 ...λ pq −1 , λ pq – wagi czynników wspólnych/ładunki czynnikowe
p > q – zgodnie z założeniem (d) liczba wskaźników powinna być większa
od liczby czynników wspólnych
Aby powyższy układ liniowych równań [14] mógł ujawnić wszystkie zalety modelu czynnikowego lub inaczej: aby rzeczywiście można go było nazwać modelem czynnikowym, należy przyjąć jeszcze dodatkowe, bardzo
ważne ograniczenia dotyczące zmiennych występujących w tym modelu:
(g) Żaden z czynników wspólnych nie jest skorelowany z jakimkolwiek
czynnikiem swoistym:
Założenie to może zostać uchylone w przypadku bardziej zaawansowanych modeli czynnikowych (Brown 2006).
11
2009-12-09 14:25:23
cov(ξ j , δ k ) = rξ j ,δ k = 0
dla j = 1,..., q oraz k = 1,..., p
161
[15]
(h) Zakłada się także brak korelacji pomiędzy czynnikami swoistymi występującymi w modelu:
cov(δ k , δ l ) = rδ k ,δl = 0
dla k ≠ l oraz k = 1,..., p
l = 1,..., p
[16]
Przed przystąpieniem do dalszych rozważań warto w tym miejscu explicite zwrócić uwagę na pewne dwie ważne konsekwencje formuły powyższego modelu:
Ponieważ w punkcie (f) założono, że zmienne w modelu są w postaci
standaryzowanej, uprawnione jest zatem stosowanie terminów kowariancja
i korelacja w sposób zamienny (b6).
Ponadto z założenia (f) wynika również, że w powyższym modelu będą
zachodziły następujące prawidłowości: średnie wszystkich wskaźników,
czynników wspólnych i swoistych będą równe zeru:
E ( X i ) = E (ξ j ) = E (δ i ) = 0
dla i=1,…p oraz j=1,…,q
[17]
Natomiast wariancje wskaźników oraz czynników wspólnych będą równe jeden:
D 2 ( X i ) = D 2 (ξ j ) = 1
dla i=1,…p oraz j=1,…,q,
[18]
zaś wariancja każdego czynnika swoistego będzie wyrażona jako:
D 2 (δ i ) = E (δ i 2 )
dla i=1,…p
[19]
co jest konsekwencją wzorów z zapisów [3] i [17].
W sytuacji, gdy powyższe założenia (a):(h) są spełnione, można wykazać, że na podstawie układu równań [14] definiującego model czynnikowy można w sposób jednoznaczny:
(*) zdekomponować wariancję każdego wskaźnika na dwie części – część,
za którą odpowiadają/wyjaśniają czynniki wspólne oraz część, którą
można przypisać efektowi czynnika swoistego, oraz
(**) wyznaczyć kowariancję/korelację pomiędzy każdym wskaźnikiem
a każdą inną zmienną ujętą w modelu czynnikowym.
2009-12-09 14:25:23
162
Mariusz Grzęda
W pierwszej kolejności zdekomponowana zostanie wariancja ogólnego
wskaźnika X i (dla i=1,…p) z układu [14], by sprawdzić, z jakich elementów
się składa. Przyjmijmy jeszcze dla wygody, że wariancję zmiennej obserwowalnej X i wyznaczaną na podstawie modelu teoretycznego będziemy oznaczać małą grecką literą σ i z dolnym indeksem wskazującym, której zmiennej statystyka ta dotyczy. Na podstawie definicji [3] wiadomo, że wariancja
zmiennej X i jest równa:
D2 ( X i ) = σ i = E( X i2 ) − E 2 ( X i )
[20]
Skoro założyliśmy, że zmienne wskaźnikowe w modelu czynnikowym są
w postaci standaryzowanej (f), to z (b3) [6], a także z [17] wiadomo, że:
E2 (Xi ) = 0
[21]
A zatem wzór [20] upraszcza się do postaci:
σ i = E( X i2 )
[22]
Na podstawie układu równań [14] wiadomo, że zmienna X i dana jest
wzorem:
X i = λi1ξ1 + λi 2ξ 2 +
+ λiq −1ξ q −1 + λiqξ q + δ i
[23]
Można zatem powyższe równanie [23] podstawić do wzoru [22]:
σ i = E (λi1ξ1 + λi 2ξ 2 +
+ λiq −1ξ q −1 + λiqξ q + δ i ) 2 ,
[24]
a jego algebraiczne rozwinięcie da:
σi = E(λi21ξ12 + λi22ξ22 +"+ λiq2−1ξq2−1 + λiq2ξq2 + δi2 + 2λi1λi 2ξ1ξ2 +"+
+2λi1λiq−1ξ1ξq−1 + 2λi1λiqξ1ξq +"+ 2λi2λiq−1ξ2ξq−1 + 2λi 2λiqξ2ξq +"+
+2λiq−1λiqξq−1ξq + 2λi1ξ1δi + 2λi 2ξ2δi +"+ 2λiq−1ξq−1δi + 2λiqξqδi )
[25]
Z kolei zapis [25] można dalej przekształcić do postaci:
σi = λi1 E(ξ1 ) + λi 2 E(ξ2 ) + "+ λiq−1 E(ξq−1 ) + λiq E(ξq ) + E(δi ) +
2
2
2
2
2
2
2
2
2
+λ λ 2E(ξ ξ ) + "+ λ λ 2E(ξ ξ ) + λ λ 2E(ξ ξ ) + "+
i1
i2
i1
1 2
iq −1
1 q −1
i1
iq
1 q
λ 2E(ξq−1ξq ) +
iq −1 iq
+λ λ 2E(ξ ξ ) + λ λ 2E(ξ ξ ) +"+ λ
i2
iq −1
2
q −1
i2
iq
2
q
+λ 2E(ξ δ ) + λ 2E(ξ δ ) +"+ λ 2E(ξ
i1
1
i
i2
2
i
iq −1
[26]
δi ) + λiq 2E(ξqδi )
q −1
2009-12-09 14:25:24
163
i przeanalizować w świetle powziętych założeń (a):(h), co pozwoli go znacznie uprościć:
Z założenia (f) oraz (b2) wzory [3] i [7] o zmiennych standaryzowanych
wiadomo, że we wzorze [26] :
E (ξ ) = D 2 (ξ j ) = 1 dla j = 1,..., q
2
j
[27]
oraz z [17], że średnia kwadratów czynnika swoistego wyraża jego wariancję:
E (δ i2 ) = D 2 (δ i )
[28]
Ponadto w powyższym wzorze [26] występują także wyrażenia przedstawiające średnie z iloczynów czynników wspólnych, o których wiadomo z założenia b6 wzór [10], że gdy zmienne są standaryzowane, są one kowariancjami/współczynnikami korelacji tych czynników:
E (ξ ξ ) = cov(ξ ξ ) = rξ jξk dla j , k = 1,..., q
j
k
j
k
[29]
We wzorze [26] występują także średnie iloczynów czynników wspólnych i czynnika swoistego zmiennej X i , o których z założenia (g) wiadomo,
że są równe zeru:
E (ξ δ ) = cov(ξ δ ) = rξ jδi = 0
j
i
j
dla j = 1,..., q
i
[30]
W świetle wszystkich wymienionych tu prawidłowości wzór [26] można
sprowadzić do następującej postaci:
σ i = λi21 + λi22 + "+ λiq2 −1 + λiq2 + λi1λi 2 2cov(ξ1ξ2 ) + "+
+λi1λiq−1 2cov(ξ1ξq−1 ) + λi1λiq 2cov(ξ1ξq ) + "+
+λi 2λiq−1 2cov(ξ2ξq−1 ) + λi 2λiq 2cov(ξ2ξq ) + "+
[31]
+λiq−1λiq 2cov(ξq−1ξq ) + D2 (δi )
Powyższy wzór pokazuje, że wariancję pojedynczego wskaźnika daje się
zdekomponować na dwie części: część, za którą odpowiadają czynniki
2
wspólne, oznaczmy ją przez hi :
hi 2
= λi 1
2
+ λ + " λ + λ + λ1λ2 2 cov(ξ ξ ) + " +
2
2
2
i2
iq −1
iq
+λq −1λq 2 cov(ξ
ξq )
1
2
[32]
q −1
2009-12-09 14:25:24
164
Mariusz Grzęda
oraz resztę – część swoistą wynikającą z unikalnego, indywidualnego źródła
zmienności zmiennej X i , jakim jest czynnik swoisty. Ta część wariancji
wskaźnika jest zapisana jako ostatni wyraz wyrażenia z zapisu [31]: D 2 (δ i ) .
Jak już wiadomo z [28], jest to wariancja czynnika swoistego dla zmiennej X i .
Przyjmijmy teraz konwencję, że będziemy tę część oznaczali symbolem θi2 :
D 2 (δ i ) = θi2
[33]
A zatem, możemy powiedzieć, że całkowita zmienność wartości wskaźnika X i (reprezentowana przez jego wariancję σ i ) posiada dwa niezależne
źródła: pierwsze reprezentujące zmienność wartości wskaźnika wynika2
jącą z czynników wspólnych (oznaczana przez hi ) oraz drugie reprezentujące zmienność wartości wskaźnika wynikającą z czynnika swoistego (oznaczaną przez θi2 ). Dodatkowo, jeżeli przyjęliśmy, że zmienne modelu są w postaci standaryzowanej, to natychmiast wynika z tego faktu (na pod2
stawie zał. b3 wzór [7]), że σ i będzie równa jedności a wielkości hi
2
i θ będą informowały o tym, jaka część całkowitej wariancji wskaźnika jest
wyjaśniana przez poszczególne źródła zmienności.
Można zapisać ten istotny fakt jako:
i
σ i = hi2 + θi2 = 1
[34]
2
W analizie czynnikowej część hi nosi nazwę zasobu zmienności
wspólnej wskaźnika (communality).
Warto również zwrócić w tym miejscu uwagę na ważną zależność, do
której w jednym z kolejnych rozdziałów nastąpi odwołanie w ważnym punkcie analizy czynnikowej.
W przypadku niezależności czynników wspólnych wartość communality jest po prostu sumą podniesionych do kwadratu ładunków czynnikowych czynników wspólnych. Wielkości kwadratów poszczególnych ładunków czynnikowych informują o sile/wkładzie danego czynnika w zmienność
danego wskaźnika. A zatem wzór [32] w tej sytuacji uprości się do:
hi 2
= λi 1
2
+λ +
2
i2
λiq −1
2
+λ
2
iq
[35]
Natomiast w przypadku, gdy dopuszcza się skorelowanie czynników
wspólnych, poszczególne kwadraty ładunków informują tylko częściowo
o wpływie danego czynnika na wskaźnik. Dodatkowo należy brać bowiem
2009-12-09 14:25:25
165
pod uwagę jeszcze wspólny wpływ tego czynnika wraz z innymi skorelowanymi z nim czynnikami wspólnymi na zmienność wskaźnika. O tym, za jaką
wielkość wariancji wskaźnika odpowiadają wspólnie poszczególne pary
czynników, informują wyrażenia zawierające kowariancje czynników wspólnych we wzorze [32].
W analogiczny sposób można również dokonać dekompozycji kowariancji dwóch zmiennych wskaźnikowych.. Weźmy z modelu [14] dwie zmienne
wskaźnikowe. Niech będą to: X i , X j (gdzie i,j=1,…,p). Przyjmijmy jeszcze
dla wygody, że kowariancję pomiędzy zmiennymi obserwowalnymi, wyznaczaną na podstawie modelu teoretycznego, będziemy oznaczać małą grecką
literą σ ij z dolnym indeksem wskazującym, których zmiennych statystyka ta
dotyczy. Na podstawie definicji [8] wiadomo, że kowariancja między X i , X j
będzie równa.:
cov( X i , X j ) = σ ij = E ( X i X j ) − E ( X i ) E ( X j )
[36]
Ponieważ założyliśmy standaryzację zmiennych (f), to z założenia b3 [6]
wiadomo, że:
E( X i ) = E( X j ) = 0
[37]
A zatem wzór [36] upraszcza się do postaci:
σ ij = E ( X i X j )
[38]
Z modelowego układu równań [14] wiadomo, że każda ze zmiennych
X i , X j jest funkcją liniową q-czynników wspólnych oraz jednego odpowiadającego jej czynnika swoistego:
X i = λi1ξ1 + λi 2ξ 2 +
X j = λ j1ξ1 + λ j 2ξ 2 +
+ λiq −1ξ q −1 + λiqξ q + δ i
+ λiq −1ξ q −1 + λ jqξ q + δ j
[39]
Można zatem równania [39] podstawić do wzoru [38]:
σ ij = E[(λi1ξ1 + λi 2ξ 2 + + λiq −1ξ q −1 + λiqξ q + δ i )
(λ j1ξ1 + λ j 2ξ 2 + + λiq −1ξ q −1 + λ jqξ q + δ j )]
[40]
2009-12-09 14:25:25
166
Mariusz Grzęda
A następnie przemnożyć przez siebie obie części wyrażenia pod znakiem
średniej:
σ ij = E[λi1λ j1ξ12 + λi1λ j 2ξ1ξ2 + " + λi1λ jq−1ξ1ξq−1 + λi1λ jqξ1ξq + λi1ξ1δ j +
+λi 2λ j1ξ2ξ1 + λi 2λ j 2ξ22 + " + λi 2λ jq−1ξ2ξq−1 + λi 2λ jqξ2ξq + λi 2ξ2δ j + "+
+λiq−1λ j1ξq−1ξ1 + λiq−1λ j 2ξq−1ξ2 + " + λiq−1λ jq−1ξ q2−1 + λiq−1λ jqξq−1ξq +
+λiq λ j1ξqξ1 + λiqλ j 2ξqξ2 + " + λiqλ jq−1ξqξq−1 + λiqλ jqξq2 + λiqξqδ j +
+λ j1ξ1δi + λ j 2ξ2δi + " + λ jq−1ξq−1δi + λ jqξqδi + δiδ j ]
[41]
Równanie [41] można następnie przekształcić do postaci:
σij = λi1λj1E(ξ12 ) + λi1λj 2E(ξ1ξ2 ) +"+ λi1λjq−1E(ξ1ξq−1) + λi1λjq E(ξ1ξq ) +
+λi1E(ξ1δ j ) + λi2λj1E(ξ2ξ1) + λi2λj 2 E(ξ22 ) +"+ λi2λjq−1E(ξ2ξq−1) +
+λi 2λjq E(ξ2ξq ) + λi 2E(ξ2δ j ) +"+ λiq−1λj1E(ξq−1ξ1) + λiq−1λj 2E(ξq−1ξ2 ) +
+"+ λiq−1λjq−1E(ξq2−1) + λiq−1λjq E(ξq−1ξq ) + λiq−1E(ξq−1δ j ) + λiqλj1E(ξqξ1) +
+λiqλj 2 E(ξqξ2 ) +"+ λiqλjq−1E(ξqξq−1) + λiqλjq E(ξq2 ) + λiq E(ξqδ j ) +
+λj1E(ξ1δi ) + λj 2E(ξ2δi ) +"+ λjq−1E(ξq−1δi ) + λjq E(ξqδi ) + E(δiδ j )
[42]
oraz przeanalizować powyższy wzór w świetle założeń (a):(h), aby sprawdzić, czemu jest równa kowariancja/korelacja zmiennych X i , X j .
Z założenia (g) wiadomo, że:
E (ξ k δ l ) = cov(ξ k δ l ) = rξk δl =0
dla k = 1,..., q oraz l = 1,..., p
[43]
oraz z założenia (h), że:
E (δ iδ j ) = cov(δ iδ j ) = rδiδ j =0
[44]
Co oznacza, że na mocy powyższych konsekwencji założeń modelu czynnikowego ze wzoru [42] znikają wszystkie wyrażenia, których składnikiem
jest czynnik wspólny oraz którykolwiek z czynników swoistych lub dwa
czynniki swoiste.
Natomiast założenie b6 wzór [10] pokazuje, że:
E (ξ k ξl ) = cov(ξ k ξl ) = rξkξl dla k , l = 1,..., q
[45]
2009-12-09 14:25:26
167
Jak już pokazano wcześniej, przy okazji dekompozycji wariancji pojedynczego wskaźnika wiadomo, że w równaniu [42]:
E (ξ k2 ) = D 2 (ξ k ) = 1 dla k = 1,..., q
[46]
W konsekwencji zapis kowariancji zmiennych X i , X j sprowadzi się do
następującej formuły:
σij = λi1λj1 + λi2λj 2 +"+ λiq−1λjq−1 + λiqλjq +
+λi1λj 2 cov(ξξ
1 2 ) +"+ λiq−1λjq cov(ξq−1ξq )
[47]
Na podstawie powyższego wzoru można zatem stwierdzić, że kowariancję/korelację dwóch dowolnych zmiennych można w zgodzie z założeniami
modelu [14] przedstawić jako sumę iloczynów ładunków czynnikowych tych
zmiennych na wspólnych czynnikach oraz sumę iloczynów ładunków na
czynnikach skorelowanych przez współczynnik korelacji między czynnikami.
Znowu wart szczególnego podkreślenia jest ewentualny przypadek,
w którym, czynniki wspólne będą ze sobą nieskorelowane. Oznacza to, że
wówczas wartość kowariancji/korelacji pomiędzy nimi będzie równa zeru.
W konsekwencji zapis [47] uprości się do postaci:
σ ij = λi1λ j1 + λi 2 λ j 2 +
+ λiq −1λ jq −1 + λiq λ jq
[48]
A zatem w sytuacji, gdy czynniki wspólne będą ze sobą nieskorelowane,
wówczas korelację pomiędzy dwoma dowolnymi wskaźnikami w modelu
można przedstawić jako sumę iloczynów odpowiednich ładunków czynnikowych tych zmiennych na wszystkich czynnikach wspólnych w modelu.
Na zakończenie tej części warto zwrócić jeszcze uwagę na założenie b8
wzór [13], które wskazuje, że kowariancja zmiennej ze samą sobą jest także
jej wariancją. Wówczas we wzorze [42] można dostrzec w każdym wyrazie
kowariancję dwóch czynników wspólnych (w niektórych przypadkach będą
to po prostu te same czynniki wspólne). Pozwala to w sposób bardzo wygodny uogólnić wzór [42] do następującej postaci:
q
q
σ ij = [∑∑ λik λ jl cov(ȟ k ȟ l )] + cov(δ iδ j ) dla i,j=1,…,p k,l=1,..,q
[49]
k =1 l =1
2009-12-09 14:25:26
168
Mariusz Grzęda
Łatwo zauważyć uniwersalność powyższego wzoru. Jeśli bowiem założymy, że wariancja wskaźnika jest także jego kowariancją, to według powyższego wzoru [49] będzie to po prostu szczególny przypadek, w którym k=l
i jedyna sytuacja gdzie wyraz cov(δ iδ j ) nie będzie równy zeru na mocy samych założeń modelu.
Mogąc obliczyć kowariancję dla każdej pary zmiennych wskaźnikowych
możemy je umieścić w kwadratowej macierzy stopnia p, w której na przecięciu każdego wiersza i każdej kolumny będzie umieszczona kowariancja/korelacja pary wskaźników odpowiadających wybranemu wierszowi i kolumnie. Przyjmijmy dalej, że macierz kwadratową, zawierającą wszystkie kowariancje dla wszystkich zmiennych w modelu będzie oznaczana jako
Ȉ = [σ ij ] p× p . Z założenia b7 [11] wiemy, że macierz Ȉ będąc de facto macierzą korelacji na głównej diagonalnej będzie miała jedynki:
⎡σ 11 σ 12
⎢σ
σ 22
21
Ȉ=⎢
⎢ #
#
⎢
⎢⎣σ p1 σ p 2
" σ 1 p ⎤ ⎡ 1 σ 21
" σ 2 p ⎥⎥ ⎢⎢σ 21 1
=
% # ⎥ ⎢ #
#
⎥ ⎢
" σ pp ⎥⎦ ⎢⎣σ p1 σ p 2
" σ p1 ⎤
" σ p 2 ⎥⎥
% # ⎥
⎥
" 1 ⎥⎦
[50]
Podążając dalej w kierunku coraz większego uogólniania można wreszcie
zapisać cały model czynnikowy ekwiwalentnie do wzoru [14] w sposób bardziej oszczędny używając notacji macierzowej. Będzie miał on wówczas następującą postać:
x = ȁȟ + į
[51]
gdzie:
x = ( X 1 X 2 … X p ) ' – wektor o wymiarach ( p ×1) wskaźników
ȟ = (ξ1ξ2 ...ξq ) ' – wektor o wymiarach (q ×1) czynników wspólnych
į = (δ1δ 2 ...δ p ) ' – wektor o wymiarach ( p ×1) czynników swoistych
⎛ λ11 ! λ1q ⎞
⎜
⎟
ȁ p×q = ⎜ # % # ⎟ – macierz o wymiarach ( p × q) ładunków czynni⎜λ
⎟ kowych
⎝ p1 " λ pq ⎠
Wówczas zgodnie ze wzorem [49] macierz korelacji/kowariancji pomiędzy zmiennymi wskaźnikowymi można zapisać jako iloczyn następujących
macierzy wyrażenie:
2009-12-09 14:25:26
169
Ȉ = ȁĭȁ '+ Ĭ
[52]
gdzie:
⎛ φ11 ! φ1q ⎞ ⎛ 1 ! φ1q ⎞
ĭ = ⎜⎜ # % # ⎟⎟ = ⎜⎜ # % # ⎟⎟
⎜φ " φ ⎟ ⎜φ " 1 ⎟
qq ⎠
⎝ q1
⎝ q1
⎠
– jest macierzą o wymiarach (q × q ) korelacji/kowariancji między czynnikami wspólnymi
⎛θ 2
0 ⎞⎟
⎜ 1
Ĭ=⎜
%
⎟
⎜⎜
2⎟
θ p ⎟⎠
⎝0
– jest macierzą diagonalną o wymiarach ( p × p ) korelacji/kowariancji
czynników swoistych
Dowód równania [52] można przeprowadzić również wykorzystując równanie macierzowe. W zapisie macierzowym macierze kowariancji można
przedstawić jako wartości średnie z iloczynu odpowiednich wektorów zmiennych przez ich transpozycje. Wówczas odpowiednie macierze będą reprezentowane następującymi wzorami::
Ȉ = E (xx ')
ĭ = E (ȟȟ ')
Ĭ = E (įį')
z założenia będzie macierzą diagonalną
[53]
[54]
[55]
Z założenia natomiast:
E (ȟį ') = E (įȟ ') = 0
będą macierzami zerowymi
[56]
Do równania [53] podstawmy za x prawą część równania [51], którym
zdefiniowany jest ten wektor zmiennych:
Ȉ = E (xx ') = E ⎡⎣( ȁȟ + į)(ȁȟ + į) '⎤⎦
[57]
Po wymnożeniu elementów pod znakiem średniej macierz Ȉ będzie dana
jako:
2009-12-09 14:25:28
170
Mariusz Grzęda
Ȉ = E ⎡⎣ ȁȟȟ ' ȁ '+ ȁȟį '+ įȟ ' ȁ '+ įį '⎤⎦
Ȉ = E ( ȁȟȟ ' ȁ ') + E (ȁȟį ') + E (įȟ ' ȁ ') + E (įį ')
[58]
Z zapisu [56] wynika, że elementy drugi i trzeci powyższego zapisu [58]
będą macierzami zerowymi:
E ( ȁȟį ') = E (įȟ ' ȁ ') = 0
[59]
A zatem pozostanie:
Ȉ = E ( ȁȟȟ ' ȁ ') + E (įį ')
[60]
Na mocy definicji [54] oraz [55] można zatem zapisać:
Ȉ = ȁĭȁ '+ Ĭ
[61]
Powyższe wzory pokazują, że na podstawie założeń (a):(h) dla modelu
sformułowanego we wzorze [51] można w sposób jednoznaczny wyznaczyć
macierz korelacji/kowariancji Ȉ dla wektora wskaźników x .
Logika analizy czynnikowej
Wykazano powyżej, że na podstawie modelu czynnikowego i kilku dodatkowych założeń można w sposób jednoznaczny wyznaczyć kowariancje/
korelacje pomiędzy dowolnymi wskaźnikami, a w konsekwencji również całą macierz Ȉ = [σ ] p× p dla zmiennych obserwowalnych. W rzeczywistości
w badaniach empirycznych mamy jednak do czynienia z sytuacją odwrotną.
To znaczy z taką, w której znana jest tylko macierz wariancji/kowariancji
zmiennych. Natomiast sam model jest nieznany. Innymi słowy, widoczne są
tylko konsekwencje (macierz kowariancji), a przyczyna, która je wywołała,
pozostaje niewiadoma (model). Istota analizy czynnikowej sprowadza się
więc do tego, że na podstawie macierzy korelacji obserwowalnych wskaźników wnioskuje się o postaci modelu, który mógł ją wygenerować (Kim
i Mueller 1978a; 1978b; Child 2006). Schematycznie problem ten przedstawia poniższy rysunek:
2009-12-09 14:25:30
Teoria
Model
czynnikowy
171
Praktyka
Macierz
korelacji
Macierz
korelacji
?
Model
czynnikowy
Rysunek 1. Teoria i praktyka analizy czynnikowej
Źródło: Opracowanie własne [MG]
Gdy badacz nie precyzuje struktury modelu i wartości jego głównych parametrów takich jak: liczba czynników wspólnych, stopień ich wzajemnego
skorelowania oraz struktury związków pomiędzy poszczególnymi wskaźnikami a czynnikami wspólnymi, wówczas taki rodzaj analizy czynnikowej nosi nazwę eksploracyjnej (exploratory factor analysis – EFA). Analiza czynnikowa o charakterze eksploracyjnym jest wykonywana w celu wyznaczenia
modelu czynnikowego, którego struktura i parametry pozwalają w zadowalającym stopniu odtworzyć macierz współczynników korelacji obserwowalnych zmiennych. Istotą tego podejścia (w przeciwieństwie do analizy o charakterze konfirmacyjnym) jest uzyskanie modelu czynnikowego praktycznie
bez wskazywania żadnych istotnych ograniczeń co do jego postaci (Brown
2006).
W tym miejscu pojawia się jednak fundamentalny problem analizy czynnikowej. Polega on na tym, że na podstawie macierzy kowariancji/korelacji
nie można wyznaczyć w sposób jednoznaczny modelu czynnikowego. O ile
bowiem w sytuacji znanego modelu istnieje tylko jedna macierz kowariancji/
korelacji odpowiadająca temu modelowi, to już gdy sytuacja jest odwrotna
– gdy na podstawie macierzy kowariancji próbuje się wnioskować o postaci
modelu – wówczas liczba rozwiązań jest nieskończona.
Kim i Mueller (1978a) w przekonujący sposób wykazują jak bardzo różne mogą być modele czynnikowe pasujące do tej samej macierzy korelacji.
Przykłady prezentowane przez wspomnianych autorów pokazują, że brak
jednoznaczności w analizie czynnikowej może być potencjalnie źródłem bardzo poważnych problemów interpretacyjnych. Dzięki przedstawionym przez
2009-12-09 14:25:32
172
Mariusz Grzęda
wspomnianych autorów przykładom z powodzeniem można wyobrazić sobie
sytuację, w której dwaj badacze, wychodząc od tej samej macierzy korelacji
jako wynik analizy czynnikowej przedstawiają dwa różne modele, a także, że
wykorzystując te modele budują, bądź potwierdzają, dwie różne teorie.
W rzeczywistości bowiem wszystkie modele ze statystycznego punktu widzenia są prawidłowo dopasowane do danych wejściowych. Natomiast różnice między nimi wynikają z pewnych rozstrzygnięć, jakie zostały podjęte
w każdym z przedstawionych przypadków. Fakt ten oznacza, że procedura
wyznaczania modelu czynnikowego w oparciu o macierz korelacji wskaźników z punktu widzenia badacza ją wykonującego wiąże się z koniecznością
podjęcia decyzji, które mają charakter arbitralny. Nie mają bowiem dobrego
uzasadnienia statystycznego (Kim i Mueller 1978a; 1978b).
W analizie czynnikowej można mówić o co najmniej kilku krytycznych
punktach, w których badacz świadomie (lub nie) decyduje się na jedną spośród wielu dostępnych opcji. Każda z nich ma swoje właściwości, wady i zalety. Niektóre z dostępnych opcji są bardziej arbitralne – inne mniej. W każdym jednak przypadku podjęta decyzja może przesądzać o ostatecznej postaci modelu czynnikowego, który zostanie wyznaczony. Dlatego niezwykle
ważna jest świadomość wszystkich krytycznych punktów wykonywania analizy czynnikowej. Poniżej przedstawiono ich przegląd wraz z ich możliwymi
rozwiązaniami oraz konsekwencjami wyboru poszczególnych opcji. Tam
gdzie jest to uzasadnione, przedstawiono argumentację przemawiającą na korzyść jednej z nich.
Szacowanie zasobów zmienności wspólnej
Zacznijmy od sposobu szacowania wartości zasobów zmienności wspólnej każdej zmiennej ( hi2 dla i=1,…p) – tak zwanych communalities, wskazujących, za jaką część wariancji każdego wskaźnika odpowiadają czynniki
wspólne. Jest to pierwszy bardzo ważny punkt w analizie czynnikowej, wymagający decyzji o charakterze arbitralnym.
Jak było wspomniane wcześniej, właściwa analiza czynnikowa w praktyce polega na wnioskowaniu o postaci modelu czynnikowego, na podstawie
dostępnej macierzy korelacji między obserwowalnymi wskaźnikami Ȉ.
W oparciu o macierz Ȉ tworzona się tak zwana zredukowana macierz kore-
2009-12-09 14:25:32
173
lacji Ȉ1, na podstawie której wyznaczane są ładunki czynnikowe (o czym szerzej w następnym podrozdziale). Zredukowana macierz korelacji Ȉ1 jest macierzą korelacji wskaźników, która na głównej przekątnej zamiast jedynek zawiera oszacowania zasobów zmienności wspólnej (communalities). Oznacza
to, że macierz zredukowana różni się od macierzy korelacji tylko pod względem przekątnej głównej, gdzie umieszczone są wartości hi2 (dla i=1,…p).
Natomiast poza diagonalną znajdują się korelacje pomiędzy odpowiednimi
wskaźnikami σ ij (dla i,j=1,…,p) – czyli dokładnie tak samo jak w macierzy
Ȉ. Gdy znane są zasoby zmienności wspólne każdej zmiennej, znana jest
również automatycznie część wariancji każdego wskaźnika powodowana jej
czynnikiem swoistym (i na odwrót). Zachodzi bowiem prawidłowość:
1 = hi2 + θi2
[62]
Na podstawie powyższej prawidłowości można zatem w zapisie macierzowym bardziej ogólnie zdefiniować zredukowaną macierz korelacji wskaźników Ȉ1 jako różnicę macierzy korelacji Ȉ oraz macierzy diagonalnej
Ĭ = diag (θ12 ,θ 22 ,...,θ p2 ) , która na głównej przekątnej zawiera wariancje czynników swoistych:
Ȉ1
⎡1 − θ12 σ 21
⎢
σ 21 1 − θ 22
⎢
= Ȉ -Ĭ =
⎢ #
#
⎢
σ p2
⎣⎢ σ p1
⎡ h12 σ 21
⎢
"
σ 21 h22
⎢
=
%
# ⎥ ⎢ #
#
⎢
2⎥
" 1 − θ p ⎦⎥ ⎣⎢σ p1 σ p 2
"
σ p1 ⎤
⎥
σ p2 ⎥
" σ p1 ⎤
⎥
" σ p2 ⎥
% # ⎥
⎥
" hp2 ⎥⎦
[63]
Macierz Ȉ1 stanowi właściwą, analityczną podstawę wyznaczania ładunków
czynnikowych i innych istotnych parametrów modelu. W sytuacji, gdy nieznany
jest model czynnikowy, a dostępna jest jedynie macierz korelacji Ȉ (z jedynkami na głównej przekątnej), nieznane wartości zasobów zmienności wspólnej hi2
dla każdego wskaźnika zmiennej stanowią poważny problem. Bez nich bowiem
(jak będzie pokazane w następnym podrozdziale) wyznaczenie ładunków czynnikowych jest nie możliwe. Pojawia się zatem problem oszacowania ich wartości. W rzeczywistości jak słusznie zauważa Jacques Tacq (1997), czynność ta ma
więcej wspólnego ze zgadywaniem niż szacowaniem.
2009-12-09 14:25:32
174
Mariusz Grzęda
Istnieje wiele metod wyznaczana wartości communalities w pierwszym kroku analizy czynnikowej. Kim i Mueller (1978a,b) twierdzą, że
jedną z najczęściej przyjmowanych wartości jako zasób zmienności
wspólnej zmiennej jest po prostu kwadrat współczynnika korelacji wielokrotnej pomiędzy rozpatrywanym wskaźnikiem, a pozostałymi zmiennymi, które znalazły się w wyjściowym zestawie wskaźników modelu. Innymi słowy, jako wartość communality zmiennej X i jest tu przyjmowana
wielkość odsetka wariancji tej zmiennej wyjaśnianej jako zmienna zależna przez zmienne niezależne, którymi będą pozostałe obserwowalne
wskaźniki wprowadzone do modelu czynnikowego. Jest to dobrze znana
miara R-kwadrat powszechnie stosowana w analizach regresji liniowej
wielokrotnej:
hi2 = RX2 i | X j ,..., X k
i≠ j≠k
i, j , k = 1, 2,... p
[64]
Inną równie powszechnie stosowaną metodą szacowania wartości communalities jest uznanie za wartość tego parametru największej wartości bezwzględnej współczynnika korelacji liniowej r spośród wartości współczynników wyliczonych dla par złożonych z jednej strony ze zmiennej X i oraz pojedynczo wszystkich pozostałych zmiennych uwzględnionych w wyjściowym zestawie wskaźników. Warunek ten można sformułować w następujący
sposób (Kim i Mueller 1978a; b):
hi2 = max rij
i ≠ j i, j = 1, 2,... p
[65]
Kolejnym wskazywanym w literaturze sposobem wyznaczania wartości
na diagonalnej zredukowanej macierzy korelacji Ȉ1 jest przeciętna wartość
współczynnika korelacji r obliczona dla wszystkich par zmiennych złożonych z jednej strony ze zmiennej X i oraz pojedynczo wszystkich pozostałych zmiennych (Ostasiewicz 1999; Witkowska 2002):
h =
2
i
1
p −1
p
∑r
j =1
j ≠i
ij
i, j = 1, 2,... p
[66]
Innym, ostatnim spośród tu omawianych, rodzajem, wskazywania zasobów zmienności wspólnej jest odsetek przyrównujący iloczyn dwóch najwyższych współczynników korelacji zmiennej X i z pozostałymi zmiennymi
(powiedzmy, że będą to X j oraz X k ) do współczynnika korelacji pomiędzy
2009-12-09 14:25:34
175
tymi zmiennymi. W tym wypadku oszacowanie hi2 zmiennej X i będzie dane jako:
hi2 =
rij rik
rjk
i≠ j≠k
i, j , k = 1, 2,... p
[67]
gdzie: rij rik są maksymalnymi co do wartości bezwzględnej współczynnikami korelacji liniowej zmiennej X i z innymi zmiennymi wskaźnikowymi
uwzględnionymi jako wskaźniki w modelu czynnikowym.
Należy tu podkreślić, że przedstawione powyżej metody szacowania wartości głównej przekątnej macierzy Ȉ1 dotyczą jedynie pierwszego, początkowego rozwiązania problemu wyznaczenia ładunków czynnikowych na podstawie macierzy korelacji wskaźników Ȉ. Jest to tak zwane rozwiązanie
wstępne. Kiedy za pomocą jednej ze wskazanych wyżej metod wyznaczone
są wartości communalities, automatycznie znane są już na tej podstawie ładunki czynnikowe modelu (patrz: następny rozdział). Następnie, na podstawie obliczonych ładunków czynnikowych wyznaczana jest zredukowana macierz korelacji (dla odróżnienia, że jest to macierz wyznaczana z bazującego
na szacunkach modelu, oznaczmy ją „daszkiem” Ȉ̂1). A potem macierze Ȉ1 i
Ȉ̂1są ze sobą porównywane. Weryfikowana jest hipoteza o równości obydwu
ˆ 1 . Zwykle pierwsze rezultaty porównań są wysoce niemacierzy: h0 : Ȉ1 = Ȉ
satysfakcjonujące – wskazują, że macierz Ȉ̂1 oszacowana na podstawie wyznaczonego modelu opartego na „odgadniętych” wartościach communalities
znacznie odbiega od macierzy danych obserwowanych Ȉ1. Szacunki communalities służą jednak jako pierwszy krok do wyznaczenia wstępnego – można powiedzieć „jakiegokolwiek” w miarę sensownego – rozwiązania, które
następnie będzie stanowiło punkt wyjścia do dalszej, iteracyjnej procedury
wyznaczania rozwiązania czynnikowego (Tacq 1997). Rozwiązanie uważa
się za ostateczne w sytuacji, gdy zostaną osiągnięte zadane kryteria zbieżności – polegające głównie (choć nie tylko) na tym, że w perspektywie tych kryteriów różnica pomiędzy macierzą odtworzoną z modelu a macierzą zaobserwowaną w danych będzie nieistotna. Istnieje wiele metod iteracyjnego wyznaczania rozwiązania czynnikowego, z których każda przyjmuje inne kryteria zbieżności. Można wymienić tu kilka: metodę osi głównych (Principal
Axis Factoring – PAF), metodę najmniejszych reszt (Unweighted Least Squ-
2009-12-09 14:25:34
176
Mariusz Grzęda
ares – ULS, znana także pod skrótem MINRES), metodę uogólnionych kwadratów (Generalised Least Squares – GLS) czy wreszcie metodę największej
wiarygodności (Maximum Likelihood – ML). Mimo, że oparte są one na różnych zasadach działania, to wyniki przez nie generowane w postaci modeli
czynnikowych rzadko różnią się pomiędzy sobą (Górniak 2000). Metody te
zostały szczegółowo opisane w literaturze (również w języku polskim: np.
Górniak 2000, Malarska 2005).
Z punktu widzenia postawionego w tym podpunkcie problemu decyzyjnego bardziej interesująca może być jednak kwestia wpływu metody wstępnego szacowania wartości communalities na ostateczne wyniki rozwiązania
czynnikowego. Otóż, jak podsumowuje wyniki swoich analiz Raymond Cattel – znawca tej metody – różne kryteria estymacji zasobów zmienności
wspólnej i technik analitycznych nie mają większego znaczenia. Uzyskiwane
różnice w rozwiązaniach ostatecznych są zwykle niewielkie (za: Child 2006).
Tak więc podsumowując ten punkt można stwierdzić, że pomimo istotnego
stopnia arbitralności wyboru metody wyznaczania zasobów zmienności
wspólnej na główną diagonalną zredukowanej macierzy korelacji ostateczne
rozwiązania czynnikowe nie są z tego powodu zróżnicowane.
Wyznaczanie ładunków czynnikowych
Jak zostało już wcześniej wielokrotnie zasygnalizowane, w sytuacji
w której oszacowane są już zasoby zmienności wspólnej (communalities),
rozwiązanie czynnikowe jest praktycznie gotowe. W tym miejscu przyjrzymy się nieco dokładniej temu stwierdzeniu, sprawdzając, w jaki sposób jest
ono generowane. Można tu również dodać, że wszystkie szczegółowe metody analizy czynnikowej w oparte na wyznaczonych wartościach communalities korzystają z tego samego sposobu generowania rozwiązania problemu
znalezienia ładunków czynnikowych. Jak się okaże, sposób ten jest również
oparty w kilku punktach na arbitralnych założeniach. Poniżej przedstawiono
jego szczegóły.
Podstawą analizy czynnikowej jest zredukowana macierz korelacji Ȉ1,
która na diagonalnej zawiera oszacowania zasobów zmienności wspólnej
każdej zmiennej (communalities) oraz współczynniki korelacji pomiędzy
wskaźnikami poza diagonalną. W oparciu o macierz Ȉ1 dokonuje się wnio-
2009-12-09 14:25:36
177
skowania o postaci modelu czynnikowego, a dokładniej o ładunkach czynnikowych.
W celu wygenerowania rozwiązania tego problemu przyjmowane jest założenie o tym, że czynniki wspólne są liniowo niezależne, co w kontekście
modelu oznacza, że ich macierz korelacji będzie macierzą jednostkową:
ĭ=I
[68]
W późniejszym etapie analizy czynnikowej zwanym rotacją, to arbitralne
założenie może (i najczęściej powinno) zostać uchylone, o czym Czytelnik
przekona się w jednym z następnych podrozdziałów. Niemniej jednak założenie [68] ma pewne istotne konsekwencje:
• Jeżeli wiadomo, że czynniki wspólne mają być niezależne liniowo, to
w świetle założeń modelu, zasób zmienności wspólnej każdego wskaźnika hi2 będzie równy podniesionym do kwadratu zsumowanym ładunkom
czynnikowym:
q
hi2 = ∑ λij2 = λi21 + λi22 +
j =1
•
+ λiq2 −1 + λiq2
[69]
Jednocześnie poszukiwane są takie wartości współczynników liniowych
żeby była spełniona zależność:
q
σ ij = ∑ λik λ jk = λi1λ j1 + λi 2λ j 2 +
k =1
+ λiq −1λ jq −1 + λi1λ jq
[70]
Warto zwrócić uwagę, że w powyższych wzorach [69] [70] z uwagi na
brak korelacji pomiędzy czynnikami nie występują już elementy związane
z ich wspólnym efektem na zmienne (reprezentowanym we wzorach przez
kowariancje czynników). A zatem, uogólniając powyższe warunki do zapisu
macierzowego można pokazać, że:
Ȉ1 = ȁĭȁ ' = ȁIȁ ' = ȁȁ '
[71]
W oparciu o pierwszy i ostatni wyraz równania [71] można sformułować
zatem problem w następujący sposób: poszukiwana jest macierz ładunków
czynnikowych, która pozwoli odtworzyć zredukowaną macierz korelacji. Należy zatem rozwiązać równanie [71] ze względu na ȁ . Do wyznaczenia rozwiązania stosowana jest znana z algebry liniowej procedura dekompozycji
2009-12-09 14:25:37
178
Mariusz Grzęda
macierzy na wektory i wartości własne (Singular Value Decomposition –
SVD). Pozwala ona przedstawić macierz Ȉ1 jako następujący iloczyn:
Ȉ1 = īǻī '
[72]
gdzie:
ī – macierz utworzona z wektorów własnych [ Ȗ1...Ȗ p ] macierzy Ȉ1
ǻ – macierz diagonalna, której elementami na głównej przekątnej są wartości własne α1 ,..., α p macierzy Ȉ1.
Procedura SVD pozwala przedstawić każdą macierz jako iloczyn trzech
innych macierzy. W tym miejscu w kilku zdaniach poniżej objaśniono działanie procedury SVD, wskazując w szczegółach sposób jej zastosowania
w analizie czynnikowej.
Procedura dekompozycji macierzy na wartości i wektory własne – SVD
Jako punkt wyjścia przyjmijmy ważne definicje:
Ortogonalność
Dwa różne wektory o tym samym wymiarze są ortogonalne, gdy ich iloczyn skalarny jest równy zeru. A zatem dwa przykładowe wektory a i b są
ortogonalne gdy:
a b=0
[72]
a ' b = b'a = 0
[73]
lub równoważnie:
Macierz jest macierzą ortogonalną, jeśli iloczyn tej macierzy i jej transpozycji będzie dawał w wyniku macierz jednostkową. A zatem przykładowa
macierz A jest ortogonalna, gdy zachodzi warunek:
AA ' = A'A = I
[74]
W przypadku, gdy ortogonalna macierz A jest macierzą kwadratową to
odwrotność tej macierzy jest równa jej transpozycji:
A −1 = A '
[75]
2009-12-09 14:25:37
179
A zatem w przypadku takiej macierzy będzie zachodziła prawidłowość:
AA ' = A'A = AA−1 = A−1A = I
[76]
Ortonormalność
Dwa różne wektory o tym samym wymiarze są ortonormalne, gdy są ortogonalne i jednocześnie długość każdego z nich jest równa jeden. A zatem
dwa przykładowe wektory a i b są ortonormalne, gdy:
a ' b = b'a = 0 ∧ a = b = 1
[77]
Macierz jest macierzą ortonormalną jeśli jest ortogonalna oraz gdy jej
kolumny są wektorami o długości jeden. A zatem przykładowa macierz
A = [a1a 2 ...a n ] jest ortonormalna, jeśli:
AA ' = A'A = I
∧
a1 = a 2 = ... = a n = 1
[78]
Wprowadziwszy podstawowe pojęcia zdefiniujmy procedurę SVD, odwołując się do kontekstu statystycznej analizy danych. Weźmy prostokątną
macierz danych X o n-wierszach oraz p-kolumnach, o której założymy, że
jest macierzą danych, w której każda z p kolumn reprezentuje pojedynczą
zmienną (dla wygody w postaci scentrowanej); a każdy z n wierszy reprezentuje pojedynczą jednostkę obserwacji. Zakładamy tu również, że n>p :
⎛ x11 … x1 p ⎞
⎜
⎟
[79]
X n× p = ⎜
⎟
⎜x
xnp ⎠⎟
⎝ n1
Dekompozycję SVD macierzy X można dla potrzeb prezentacji analizy
czynnikowej, zdefiniować specyficznie jako iloczyn trzech następujących
macierzy (Tacq 1997):
[80]
X = ȉLī'
gdzie:
L – macierz diagonalna zawierająca na głównej przekątnej niezerowe pierwiastki kwadratowe wartości własnych iloczynu macierzy X ' X oraz XX ' 12
T – ortonormalna macierz wektorów własnych macierzy będącej wynikiem
iloczynu XX ' ;
ī – ortonormalna macierz wektorów własnych macierzy będącej wynikiem
iloczynu X ' X ;
Nie ma tu różnicy, czy bierzemy pod uwagę macierz XX ' czy też X ' X , ponieważ
niezerowe wartości własne dla obydwu macierzy są zawsze takie same.
12
2009-12-09 14:25:39
180
Mariusz Grzęda
O wartościach własnych powiedzmy na razie w tym punkcie tylko tyle,
że stanowią pewne wartości liczbowe, charakterystyczne dla macierzy, której
dotyczą, innymi słowy ujmują jej unikalność i specyfikę. Natomiast wektor
własny jest to taki wektor, który odpowiada pojedynczej wartości własnej.
Niebawem dodamy na temat wartości i wektorów własnych więcej, w tym
miejscu zajmijmy się jednak zbadaniem konsekwencji możliwości ujęcia macierzy danych X w formie iloczynu trzech wspomnianych macierzy. Załóżmy teraz, że chcemy przedstawić macierz korelacji/kowariancji zmiennych
zawartych w macierzy X za pomocą iloczynu trzech macierzy ze wzoru [80]
( X = ȉLī' ) . Jak wiadomo, macierz kowariancji dla zmiennych z macierzy
X w zapisie macierzowym będzie dana wzorem:
Ȉ=
1
n
X'X
[81]
Aby to wykonać, należy określić transpozycję macierzy X , która będzie
dana wzorem:
X ' = īL ' ȉ '
[82]
Wówczas iloczyn tworzący macierz Ȉ może być przedstawiony w postaci:
Ȉ=
1
n
X'X =
1
n
īL ' ȉ ' ȉLī'
[83]
Ponieważ wiadomo już o macierzach T i ī z założenia równania [80], że
są ortonormalne, a zatem również i ortogonalne, to w tej sytuacji wiadomo,
że ȉ ' ȉ = I . Natomiast o macierzy L wiadomo, że jest diagonalną macierzą,
która zawiera na przekątnej pierwiastki wartości własnych macierzy XX ' .
Oznacza to, że wynik mnożenia L ' L wygeneruje macierz diagonalną z wartościami własnymi macierzy XX ' , co można zapisać jako L ' L = L2 = ǻ .
1
A ponieważ wiadomo, że X'X , jest równe macierzy korelacji Ȉ, to
n
można wobec tego równie dobrze badać strukturę własną macierzy Ȉ, ponieważ wartości własne macierzy Ȉ są po prostu wartościami własnymi macierzy X'X przez n. A zatem macierz korelacji Ȉ po wszystkich uproszczeniach można zapisać w efekcie jako [84], co pokazuje że znalezienie
struktury własnej macierzy X jest tym samym co znalezienie struktury
własnej macierzy Ȉ (Tacq, 1997). W efekcie zapis [84]
Ȉ = īǻī '
[84]
2009-12-09 14:25:39
181
jest analogiczny z zapisem [72]. Różnica jest taka, że w przypadku równania
[72] dekomponowaną macierzą jest macierz zredukowana (communalities na
głównej przekątnej), natomiast w przypadku [84] dekompozycji poddawana
była macierz korelacji (z jedynkami na głównej przekątnej). Zastosowanie
SVD do pełnej macierzy korelacji Ȉ (z jedynkami na głównej diagonalnej)
jest przedmiotem dekompozycji w analizie głównych składowych13, w tym
miejscu podkreślmy, skupiamy się na zastosowaniu tej procedury dekompozycyjnej do zredukowanej macierzy korelacji Ȉ1 będącej przedmiotem właściwej analizy czynnikowej.
Wyznaczanie ładunków
Tak więc problem rozwiązania czynnikowego polega na znalezieniu macierzy spełniających powyższy schemat dekompozycji. Oznacza to, że należy znaleźć takie wartości macierzy ī i ǻ, aby na ich podstawie można było odtworzyć zredukowaną macierz korelacji Ȉ1. Możliwość znalezienia macierzy spełniających zadane postulaty istnieje dzięki równaniu definiującemu
wektory i wartości własne macierzy Ȉ1. Oto ono
Ȉ1Ȗ = α Ȗ
[85]
Równanie to można przekształcić w:
Ȉ1Ȗ − α Ȗ = 0
[86]
( Ȉ1 − α I ) Ȗ = 0
[87]
a następnie w:
Jeżeli poszukujemy nietrywialnego rozwiązania powyższego równania,
czyli takiego, gdzie Ȗ ≠ 0 , (a tylko takie ma sens w analizie czynnikowej), to
fakt ten oznacza, że poszukiwana jest dla macierzy Ȉ1 taka wartość własna
Analiza głównych składowych – Principal Component Analysis (PCA), jest metodą redukcji danych opierającą się na zupełnie odmiennych założeniach niż analiza czynnikowa. Mimo to w kluczowym punkcie metoda ta sprowadza się do dekompozycji macierzy korelacji zmiennych obserwowalnych. Od właściwej analizy czynnikowej metoda
ta różni się zatem w tym punkcie jedynie tym, że na głównej diagonalnej są jedynki, a nie
jak w przypadku analizy czynnikowej – zasoby zmienności wspólnej każdej zmiennej
(communalities).
13
2009-12-09 14:25:42
182
Mariusz Grzęda
α oraz taki niezerowy wektor Ȗ , które po podstawieniu do równania [86]
w wyniku mnożenia dadzą w wyniku wektor zerowy 0 . Niezerowe rozwiązania tego równania przy założonym warunku co do wektora własnego
( Ȗ ≠ 0 ) można uzyskać wtedy, gdy wyznacznik przekształconej macierzy
korelacji Ȉ1 będzie równy zeru. A zatem macierz ( Ȉ1 − α I ) powinna być macierzą osobliwą. A zatem wynika z tego kolejne równanie, które można już
w sposób stosunkowo prosty rozwiązać. Równanie to będzie miało postać:
det(Ȉ1 − α I) = 0
[88]
Obliczenie wyznacznika macierzy ( Ȉ1 − α I ) przyjmuje postać równania
wielomianowego, w którym niewiadomą jest wartość własna α . Rozwiązaniem tego równania są pierwiastki wielomianu otrzymanego w wyniku rozwinięcia lewej strony wyrażenia [80] według wzoru na wyznacznik macierzy
i przyrównania go do zera. Równanie wielomianowe, o którym tu mowa, jest
tego samego stopnia co wyjściowa zredukowana macierz korelacji Ȉ1 czyli
w naszym przypadku p.
Fakt ten oznacza z kolei, że jak wszystkie równania wielomianowe (przynajmniej drugiego stopnia) wyrażenie [88] może mieć więcej niż jedno rozwiązanie, co z kolei oznacza, że macierz Ȉ1 może mieć wiele różniących się
od siebie wartości własnych α . To zaś wreszcie prowadzi do tego, że dla
każdej wartości własnej α możemy wyznaczyć osobny (niezerowy) wektor
własny Ȗ .
Obliczony wektor własny Ȗ wstawiamy jako daną do układu równań
[87]. Jednak i w tym punkcie pojawia się kolejny problem, który w tym wypadku polega na tym, że układ równań uzyskany po podstawieniu wartości
własnej α do wyrażenia [87] może mieć nieskonćzenie wiele rozwiązań.
W związku z tym, aby uniknąć braku jednoznaczności przyjmuje się dodatkowe założenie, wedle którego długość (norma) każdego wektora własnego
Ȗ musi wynosić 1, co jest tożsame z wprowadzonym wyżej pojęciem ortonormalności:
Ȗi = 1
dla i=1,…,p
[89]
Zapis ten z definicji normy /długości wektora oznacza, że suma kwadratów elementów tego wektora musi być równa jeden, co można najprościej zapisać jako:
2009-12-09 14:25:44
183
1 = Ȗ i ' Ȗ i = γ 21i + γ 2 2 i + " + γ 2 pi
[90]
Dzięki ograniczeniu [89] można dopiero teraz w sposób jednoznaczny
wyznaczać wektory własne Ȗ i odpowiadające analogicznym wartościom
własnym α i macierzy Ȉ1. Kiedy zostaną wyznaczone wszystkie wektory
własne Ȗ1 ,..., Ȗ p odpowiadające poszczególnym wartościom własnym
α1 ,..., α p macierzy Ȉ1, można zestawić je w jednej macierzy, złożonej z wektorów kolumnowych Ȗ1 ,..., Ȗ p . Jest to już macierz ī z równania [72]:
ī = ⎡⎣ Ȗ1
Ȗ 2 " Ȗ p ⎤⎦
[91]
Wszystkie wektory własne wyznaczone w powyższy sposób dla różnych
wartości własnych α i i α j ( α i ≠ α j ) posiadają właściwość ortonormalności. A zatem, gdy dwa wektory Ȗ i i Ȗ j są wektorami własnymi odpowiadającymi odpowiednio dwóm różnym wartościom własnym α i i α j tej macierzy to wiadomo, że będą one także ortogonalne. Jak pamiętamy macierz ī
złożona z ortonormalnych wektorów Ȗ1Ȗ 2 ...Ȗ p także będzie ortonormalna
(a zatem też i ortogonalna). W przypadku macierzy ī będzie to oznaczało:
īī' = ī'ī = I
[92]
W analizie czynnikowej przyjmuje się, że wielkość wyznaczonej wartości własnej α i odpowiada wariancji czynnika. Jest to ta część wspólnej wariancji zmiennych X 1 , X 2 ,..., X p , którą można przypisać danemu czynnikowi. W analizie czynnikowej procedura wyznaczania kolejnych wymiarów
przebiega od czynnika, któremu można przypisać największą część wspólnej
wariancji zmiennych X 1 , X 2 ,..., X p aż do czynnika q odpowiadającego za
najmniejszą część wspólnej wariancji. Oznacza to, że w praktyce wszystkie
pierwiastki równania charakterystycznego zaraz po wyznaczeniu zostają posortowane w porządku malejącym w celu wyznaczania kolejnych czynników
wyjaśniających coraz mniejszą część ogólnego zróżnicowania. Na tym etapie
spośród p wartości własnych wybieranych jest tylko q największych:
[93]
α1 > α 2 > > α q
Kolejny krok w analizie czynnikowej polega na tym, że arbitralnie zakłada się iż każdej kolejnej spośród wybranych q wartości własnych odpowiada
wartość wariancji kolejnego czynnika wspólnego oznaczana jako φii
φ11 > φ22 >
> φqq
[94]
2009-12-09 14:25:46
184
Mariusz Grzęda
W praktyce oznacza to, że jeżeli czynniki wspólne są niewystandaryzowane, to zapisy [93] i [94] są tożsame. Po decyzji (zwykle arbitralnej) o tym,
ile czynników wybrać do modelu, można wyznaczyć ładunki czynnikowe.
Wówczas na podstawie pierwszych q (najwyższych) wartości własnych i odpowiadających im wektorów własnych wyznaczana jest macierz ȁ . Ładunki są wyznaczane jako iloczyn każdego wektora własnego i pierwiastka wartości własnej, której ten odpowiada. W zapisie macierzowym do wyznaczenia macierzy ȁ korzysta się ze wzoru:
ȁ = īǻ
[95]
1/ 2
Po wyznaczeniu macierzy ȁ zachodzą ważne prawidłowości w zbiorze
obiektów w analizie czynnikowej, które dobrze ilustruje poniższa tabela.
ξ1
ξ2
…
ξq
Wyjaśniona
przez model
część
wariancji
wspólnej hj
SUMA
X1
λ112
λ122
…
λ1q2
h 2j
X2
λ212
λ222
…
λ2q2
h22
…
…
…
….
…
…
Xp
λ p21
λ p22
…
2
λ pq
hp2
SUMA:
α1
α2
Wartości własne α i
(wariancje czynników
niestandaryzowanych)
αq
…
φ11
φ22
φqq
q
p
i =1
j =1
∑ α i = ∑ h2j
Źródło: na podstawie Rószkiewicz 2002
Suma kwadratów wszystkich ładunków czynnikowych jednej zmiennej
po wszystkich czynnikach jest równa wartości zasobów zmienności wspólnej
tej zmiennej.
2009-12-09 14:25:49
185
Suma kwadratów ładunków czynnikowych jednego czynnika po wszystkich zmiennych jest równa wartości własnej czyli wartości wariancji danego
czynnika (w postaci niewystandaryzowanej).
Suma wszystkich wyznaczonych wartości własnych jest równa sumie
wszystkich communalities wstawionych na główną przekątną zredukowanej
macierzy korelacji.
Przedstawiony powyżej sposób wyznaczania rozwiązania czynnikowego
zawiera wiele arbitralnych punktów. Już nawet tak pobieżne przedstawienie
tego procesu jak powyżej odsłoniło praktyczny brak innego niż pragmatyczne uzasadnienia dla przyjęcia chociażby ortonormalności wektorów własnych czy przypisania wartościom własnym wariancji czynników wspólnych.
Jednak bez tych założeń rozwiązań czynnikowych już na tym etapie byłaby nieskończoność i wyznaczenie modelu byłoby niemożliwe. Trzeba więc
podkreślić w tym punkcie, że wobec tych kroków praktycznie nie ma alternatywy.
Liczba czynników w modelu
Bez wątpienia decyzją równie ważną, co podejmowane w poprzednich
punktach, jest wybór liczby czynników, które mają być obecne w modelu.
Decyzja ta ma szczególne znaczenie, ponieważ za sprawą tego kroku można otrzymać zupełnie różne modele, pasujące do tej samej macierzy korelacji. I w tym przypadku, podobnie jak w poprzednich, istnieje wiele różnych
kryteriów sugerujących badaczowi decyzję co do liczby czynników w modelu. Spośród nich istnieją dwa kryteria szczególnie popularne, biorące pod
uwagę bardzo ważne charakterystyki analizowanej macierzy korelacji (Banaszak 2004a, b), choć jak trzeba wspomnieć poważnie krytykowane (Child
2006). W rzeczywistości w literaturze toczy się długa dyskusja na temat kryteriów decydowania o liczbie czynników w modelu, zapewne z uwagi na poważne konsekwencje wyboru któregoś z kryteriów. Poniżej obok dwóch powszechnie znanych i stosowanych kryteriów przedstawiamy dodatkowo
dwa inne. W każdym przypadku przedstawiono właściwości wybranych metod oraz główną linię ich krytyki. Przed prezentacją należy jeszcze dodać, że
wszystkie są regułami arbitralnymi (tak zwanymi regułami kciuka – rule of
thumb).
2009-12-09 14:25:51
186
Mariusz Grzęda
Pierwsze z kryteriów, bazujących na matematycznych właściwościach
macierzy korelacji, a dokładniej na liczbach będących jej wartościami własnymi – pojęciem wprowadzonym w poprzednim podrozdziale, nosi nazwę
kryterium Kaisera-Guttmana lub kryterium wartości własnej większej
niż jeden, czasem też zwanej regułą pojedynczej jednostki (unit). Kryterium
to (zaproponowane przez Guttmana, a zaadaptowane przez Kaisera – stąd jego pełna nazwa) jest bardzo proste. Nakazuje bowiem uwzględnić w modelu
tyle czynników, ile wartości własnych wejściowej macierzy korelacji jest
większych niż jeden ( α > 1 ). Podkreślmy tu, wyraźnie, że nie chodzi tym razem o macierz zredukowaną, lecz o macierz korelacji. Odpowiedź na od razu pojawiające się tu pytanie, o to dlaczego akurat wartość jeden jest wartością graniczną, jest następująca: Uzasadnieniem tej reguły jest fakt, że wariancja każdej zmiennej wskaźnikowej w modelu wynosi właśnie jeden – z uwagi na założenie (f) wprowadzone w pierwszej części niniejszego artykułu (założenie o standaryzacji). Jak wiemy z poprzedniej części, wartość własna macierzy oznacza wielkość całkowitej wariancji wskaźników wyjaśnianych
przez dany czynnik. W tej sytuacji, gdyby pozostawiać w modelu czynniki
o wartościach własnych mniejszych niż jeden wówczas każdy z nich wyjaśniałby w modelu mniejszą ilość wariancji niż pojedyncza zmienna obserwowalna (innymi słowy, zamiast redukować informację – mnożyłby ją). Sytuacja ta jest wbrew podstawowemu celowi analizy czynnikowej, jakim jest
między innymi redukcja liczby zmiennych wyjściowych (Brown 2006). Reguła ta jest często stosowana z uwagi na jej prostotę i klarowną interpretację
oraz obiektywny charakter. Z drugiej jednak strony jest jednocześnie przez
wielu metodologów krytykowana z uwagi na problem prze- i niedofaktoryzowania modelu – czyli problemu ekstrakcji zbyt wielu lub zbyt niewielu
czynników. Cattel i Gorush (za: Child 2006) wskazują, że w sytuacji dużej
liczby zmiennych i niskich communalities, pojawia się ryzyko ekstrakcji zbyt
wielu czynników w modelu. Zbyt mało czynników jest wyodrębnianych, gdy
liczba zmiennych wejściowych jest mała. Co więcej, jest ona wrażliwa na
błąd pomiaru. Problem zbyt małej liczby czynników pojawia się też, gdy próby są bardzo liczne. Ponadto zdaniem przywołanych autorów test ten wydaje się być najbardziej rzetelny w następującej sytuacji: między 20 a 50 wskaźników z rozsądnie wysokimi zasobami zmienności wspólnej oraz umiarkowanie duża próba (Netemeyer i Bearden i Sharma 2003; Child 2006).
2009-12-09 14:25:51
187
Drugim testem również polegającym na analizie wartości własnych, jest
i tak zwany scree test (kryterium osypiska R. Cattela). Kryterium osypiska
wskazuje, aby uszeregować malejąco wszystkie wyznaczone wartości własne
i uwzględnić w modelu tyle czynników, ile wartości własnych jest dużo większych od pozostałych plus jeden czynnik. Dokładniej, kryterium to oznacza,
że jeśli w gronie posortowanych malejąco wartości własnych macierzy różnice pomiędzy sąsiadującymi zmiennymi zaczynają się zmniejszać, to wówczas należy uwzględnić w modelu tyle czynników dla ilu kolejnych wartości
własnych różnice te były duże. Najprostszą ilustracją tego kryterium jest jednak wykres, na którym punktami zaznacza się kolejne wartości własne macierzy, a następnie punkty te łączy się linią. Na powstałym w ten sposób rysunku powstaje wizerunek podobny do stoku. Kryterium Cattela (scree test)
nakazuje uwzględnić tyle czynników, ile wartości własnych tworzy jego zbocze. Kryterium scree sugeruje, by zaprzestać wyznaczania kolejnych czynników, gdy zbocze przestaje być strome i zaczyna się „wypłaszczać” – tworząc
osypisko (Kim i Mueller 1978a, b).
Metoda ta jest krytykowana z uwagi na swoją oczywistą arbitralność. Na
poniższym przykładowym rysunku równie dobrze można „doszukać” się początku osypiska przy trzech czynnikach, jak i już przy dwóch.
Innym kryterium często pojawiającym się w literaturze jest tak zwana
procedura analizy równoległej. Jest ona oparta na analizie linii przedstawionej na wykresie scree, oznaczającej wartości własne w zaobserwowanej próbie, a jednocześnie na tym samym wykresie odkłada się punkty wskazujące
3,00
2,50
2,00
1,50
1,00
0,50
0,00
1
2
3
4
5
6
7
8
9
10
2009-12-09 14:25:51
188
Mariusz Grzęda
wartości wyestymowane ze zbioru danych liczb losowych (np. odkłada się
średnie wartości własne uzyskane z wielu kompletnie losowych zbiorów danych). Obydwie linie są odkładane na tym samym wykresie. Liczba czynników jest wyznaczana na podstawie punktu przecięcia obydwu linii. Metoda
ta ma prostą i przekonującą interpretację: należy wybrać tylko tyle czynników wspólnych, ile wartości własnych jest większych niż w danych losowych. Przeważnie procedurę losowej estymacji wartości własnych powtarza
się około 50 razy. Poniżej zamieszczamy przykład, sugerujący dwa czynniki.
Podobnie jak w przypadku testu scree zarzuca się tej metodzie arbitralność,
a także podobnie jak w przypadku testu Kaisera wrażliwość na błędy losowe
(Brown 2006).
Pewna procedura wyznaczania liczby czynników jest również wpisana
w metodę maksymalnej wiarygodności jako metody generującej rozwiązanie
problemu czynnikowego. W ramach tej metody stosowany jest test istotności
oparty na rozkładzie chi kwadrat, który weryfikuje hipotezę, jak dalece model z określoną liczbą czynników dobrze odtwarza zredukowaną macierz korelacji oraz czy należy zwiększyć liczbę czynników wspólnych występujących w modelu (Banaszak 2004a, b).
Istnieje jeszcze wiele innych metod podejmowania decyzji o liczbie czynników w modelu, ale duża grupa z nich ma z założenia zastosowanie jedynie
do analizy głównych składowych. W związku z tym metody te zostaną tu pominięte. Ich szeroki przegląd można znaleźć również w literaturze polskiej
(Górniak 2000).
3,00
2,50
2,00
1,50
1,00
0,50
0,00
1
2
3
4
5
6
7
8
9
10
2009-12-09 14:25:51
189
Problem rotacji czynników do rozwiązania finalnego
Następnym punktem krytycznym w przypadku wykonywania analizy
czynnikowej jest problem rotacji rozwiązania wstępnego. Po ustaleniu liczby
wymiarów w modelu oraz po wyznaczeniu macierzy ładunków uzyskana
konfiguracja czynników jest ortogonalna, co implikuje również, że czynniki wspólne są sobą liniowo niezależne. Zwykle uzyskana konfiguracja jest
mało czytelna i wzór zależności pomiędzy czynnikami a wskaźnikami wydaje się skomplikowany, co może utrudniać lub wręcz uniemożliwić interpretację otrzymanej konfiguracji. Wówczas stosuje się tak zwaną rotację czynników, której celem jest uproszczenie uzyskanego rozwiązania czynnikowego
i nadanie mu merytorycznej interpretacji. Poszukuje się na tym etapie tak
zwanej „prostej struktury rozwiązania” (Child 2006).
Istnieje wiele metod rotacji wstępnego rozwiązania czynnikowego. Generalnie jednak wyróżnia się wśród nich dwa podejścia. Każde z nich nieco inaczej poszukuje „prostego układu czynnikowego” i w oparciu o przyjęte kryteria zbieżności inaczej przekształca uzyskany wcześniej model czynnikowy.
Poniżej uwaga skupiona będzie tylko na dwóch metodach rotacji, dobrze reprezentujących dwie wspomniane szkoły podejścia do tego problemu. Pierwsze z nich to tak zwane podejście ortogonalne, a drugie ukośnokątne. Pierwsze z wymienionych podejść zachowuje niezależność wymiarów wyodrębnionych w pierwszym kroku. Natomiast drugie pozwala na uzyskanie ostatecznego rozwiązania, w którym czynniki mogą być ze sobą skorelowane.
Podejście ortogonalne
Popularnym sposobem rotacji w przypadku podejścia ortogonalnego jest
rotacja nosząca nazwę varimax. Rotacja ortogonalna varimax rotuje czynniki w ten sposób, aby wariancja podniesionych do kwadratu ładunków czynnikowych przypisanych poszczególnym zmiennym dla każdego z wyodrębnionych czynników była maksymalna, a jednocześnie nie dopuszcza do
zmiany kątów (prostych) pomiędzy czynnikami, jakie uzyskano w pierwszym etapie analizy. (W interpretacji geometrycznej – jeżeli założyć, że czynniki są wektorami o jednakowej długości, to stopień korelacji liniowej pomiędzy nimi oddaje wartość funkcji cosinus wyliczonej dla kąta pomiędzy
tymi wektorami. Dla kąta równego 90 stopni wartość funkcji cosinus wynosi 0, co w przełożeniu na relacje statystyczne oznacza niezależność pomiędzy
2009-12-09 14:25:51
190
Mariusz Grzęda
zmiennymi. A zatem można powiedzieć, że rotacja ortogonalna varimax zachowuje kąty proste pomiędzy wektorami oznaczającymi czynniki). Celem
rotacji ortogonalnej jest uzyskanie „kontrastu” między ładunkami czynnikowymi. Algorytm tego rozwiązania jest skonstruowany w ten sposób, że szukana jest maksymalna wartość wyrażenia Z:
Z → max
gdzie:
[94]
p
q
q
Z = ∑ zj = ∑
j =1
j =1
p
p ∑ λij4 − (∑ λij2 ) 2
i =1
i =1
p
2
[95]
Z – suma wariancji podniesionych do kwadratu ładunków czynnikowych wyliczonych osobno dla każdego czynnika. (W sytuacji gdy czynniki są niezależne, czyli kowariancja między nimi jest równa zero, łączna wariancja
wszystkich czynników jest równa sumie wariancji kwadratów ładunków obliczonych dla pojedynczych czynników)
z j – wariancja podniesionych do kwadratu ładunków czynnikowych dla
czynnika j (dla j=1,...,q)
p – liczba zmiennych obserwowalnych uwzględnionych w modelu
λij – ładunek czynnika j w zmiennej i (dla i=1,...,p) (Kim i Mueller 1978b)
Podejście ukośnokątne
Druga grupa metod to tak zwane rotacje ukośnokątne. Jest to taki typ rotacji, który dopuszcza pewien stopień skorelowania pomiędzy czynnikami.
Z geometrycznego punktu widzenia rotacja taka (ukośna) czyni możliwym,
aby pomiędzy osiami czynników był inny kąt niż kąt prosty (tożsamy z brakiem korelacji liniowej między czynnikami).
Kim i Mueller (1978 a,b) twierdzą, że rotacja ukośnokątna jest ogólniejszym typem przekształcania wstępnego rozwiązania czynnikowego,
gdyż nie ogranicza relacji między wyodrębnionymi wcześniej wymiarami. Ponadto cytowani autorzy wskazują, że zaletą ukośnych metod rotacji
jest fakt, iż mogą one również generować rozwiązania, w których czynniki nie będą ze sobą skorelowane. Wówczas model z czynnikami ortogonalnymi zyskuje większe potwierdzenie, a badacz może mieć pewność, że
2009-12-09 14:25:51
191
niezależność czynników nie jest artefaktem będącym pochodną przyjętej metody rotacji.
Jedną z metod wpisujących się w ukośnokątne podejście do problemu
rotowania początkowego rozwiązania czynnikowego jest metoda rotacji
bezpośredniej ukośnokątnej (direct oblimin). W ramach tego podejścia poszukiwane jest takie rozwiązanie, które zapewni największą prostotę rozumianą jako minimalny stopień współzmienności kwadratów ładunków
czynnikowych. Rotacja ta wykorzystuje definiowany przez badacza parametr δ *, za sprawą którego determinowany jest dopuszczalny stopień
związku statystycznego między czynnikami. Poniższe wyrażenie pokazuje
minimalizowaną wartość D:
D → min
[96]
Gdzie:
D=
q
∑
j < k =1
δ * – parametr skośności
⎡ p 2 2 δ * ⎛ p 2 p 2 ⎞⎤
⎢ ∑ λij λik − ⎜ ∑ λij ∑ λik ⎟ ⎥
p ⎝ i =1 i =1 ⎠ ⎦
⎣ i =1
[97]
W powyższym wyrażeniu zwraca uwagę parametr δ * , którego wartość,
jak już było wspomniane, jest definiowana w sposób arbitralny. Szczególnym
przypadkiem jest przyjęcie, że jego wartość jest równa zeru. Wówczas dopuszczana jest sytuacja, w której zachodzi silny związek statystyczny pomiędzy czynnikami. Wydaje się, że w warunkach braku jakichkolwiek przesłanek i argumentów teoretycznych przemawiających za określonym kształtem
związku pomiędzy wyodrębnionymi czynnikami, najrozsądniejsze byłoby
przyjęcie δ * = 0 , dopuszczając tym samym wysoki stopień korelacji pomiędzy czynnikami.
W przypadku rotacji należy podsumować, że autor przyjmuje stanowisko,
wedle którego rozwiązanie czynnikowe należy rotować w sposób ukośnokątny. W większości przypadków nie ma bowiem żadnych obiektywnych merytorycznych przesłanek ku temu, aby uważać, że czynniki pozostają ze sobą
w tak niespotykanym związku jak zupełny brak korelacji. Co więcej jak
wskazane było powyżej podejście ukośnokątne bardziej pasuje do eksploracyjnej analizy czynnikowej, gdyż jest podejściem praktycznie bezzałożenio-
2009-12-09 14:25:51
192
Mariusz Grzęda
wym. Na koniec należy dodać, że z matematycznego punktu widzenia rotacja w żaden sposób nie zmienia wyodrębnionego pierwotnie układu relacji
pomiędzy czynnikami a zmiennymi. W rzeczywistości sprowadza się bowiem do manipulowania układem odniesienia dla ładunków czynnikowych,
nie zmieniając relacji pomiędzy nimi. Na koniec można i w tym punkcie powtórzyć to samo co w poprzednich a mianowicie, że wybór sposobu rotacji
jest zawsze wyborem arbitralnym i ma służyć przede wszystkim badaczowi
do tego, aby był w stanie zinterpretować otrzymany model w kategoriach teoretycznych. Teorie jednak rzadko zakładają (czy też powinny zakładać)
apriorycznie brak korelacji pomiędzy konstruktami stąd zdecydowana rekomendacja by wyniki analizy czynnikowej zawsze rotować w sposób ukośnokątny.
Alokacja wskaźników między czynnikami
Kolejnym problemem decyzyjnym w analizie czynnikowej jest kwestia
przyporządkowania wskaźników poszczególnym czynnikom. Problem przyporządkowania wskaźników pojawia się tylko w przypadku modeli wieloczynnikowych. Podstawą przypisania wskaźników do poszczególnych czynników jest analiza macierzy ładunków. Na jej podstawie można określić wielkość wariancji każdej zmiennej, za którą są odpowiedzialne czynniki (communalities). Przyjmowanym w literaturze kryterium istotności jest wielkość
wariancji wspólnej >10%. Oznacza to, że ładunek takiej zmiennej na czynniku będzie wynosił poniżej |0,3|. Przyjmuje się wówczas, że związek pomiędzy czynnikiem a wskaźnikiem nie jest istotny. W przeciwnym przypadku
uznaje się, że jest to związek istotny. Ponadto musi zostać w tym względzie
wzięty również pod uwagę problem tak zwanej jednoznaczności wskaźnika.
Przyjmuje się, że wskaźnik powinien posiadać nie tylko ładunek większy co
do wartości bezwzględnej od 0,3 na czynniku ale powinien być również
w sposób jednoznaczny przypisany do tego czynnika, co oznacza że nie powinien mieć istotnych ładunków na innych czynnikach (Kim i Mueller
1978a, 1978b, Banaszak 2004a, b, Child 2006). I w tym kontekście proponowane kryterium decyzyjne ma charakter arbitralny.
2009-12-09 14:25:52
193
Selekcja wskaźników
Macierz ładunków czynnikowych służy również jako podstawa selekcji
istotnych wskaźników w modelu i usuwania wskaźników nieistotnych.
W tym względzie obowiązują kryteria istotności w odniesieniu do wartości
communality 0,1. Wskaźniki dla których zasoby zmienności wspólnej są niższe od 0,1 uznaje się za nieistotne. Oznacza to, że wszystkie czynniki wspólne w modelu nie wyjaśniają więcej niż 10% zmienności wskaźnika i na żadnym z nich ładunek czynnikowy tego wskaźnika nie przekracza wartości |0,3|.
Kolejnym ważnym aspektem problemu selekcji/usuwania wskaźników
jest problem tak zwanej niejednoznaczności wskaźników. Przyjmuje się, że
jeśli wskaźnik ma istotne ładunki czynnikowe na dwóch lub większej liczbie
czynników wówczas należy również rozważyć usunięcie go z modelu. Podobnie jak w wyżej omawianym przypadku kryterium to ma charakter zalecanej „reguły kciuka” (Banaszak 2004a, b).
Problem oceny dopasowania modelu
W przypadku budowaniu modeli statystycznych na podstawie danych, rzeczą fundamentalną jest możliwość oceny dopasowania modelu do nich. Niestety w analizie czynnikowej o charakterze eksploracyjnym praktycznie tylko jedna metoda posiada wbudowany test oceny jakości modelu – metoda maksymalnej wiarygodności. Metoda największej wiarygodności jest popularnym
i szczególnie odpowiednim do sondażowego charakteru narzędziem analizy
danych. Głównym celem analizy czynnikowej przeprowadzanej metodą największej wiarygodności jest odnalezienie takiego rozwiązania czynnikowego,
które najlepiej pasuje do macierzy korelacji pomiędzy obserwowanymi zmiennymi. Metoda ta uwzględnia fakt, że zaobserwowane korelacje pochodzą
z próby będącej losową reprezentacją populacji. Zakłada się w niej, że do populacji, z której pochodzi próba, idealnie pasuje model z k czynnikami wspólnymi. Liczbę k czynników wspólnych arbitralnie wyznacza badacz albo jest
ona wyznaczana na podstawie zdefiniowanych wcześniej kryteriów (na przykład
kryterium Kaisera: liczba wartości własnych macierzy korelacji większych niż 1).
Dodatkowo zakłada się, że w populacji zarówno zmienne, jak i czynniki
mają wielowymiarowy rozkład normalny. Analiza czynnikowa wykonywa-
2009-12-09 14:25:52
194
Mariusz Grzęda
na tą metodą szacuje wartości ładunków czynnikowych w populacji na podstawie zredukowanej macierzy korelacji zaobserwowanych w próbie pomiędzy
zmiennymi. Metoda największej wiarygodności polega na poszukiwaniu takiej
konfiguracji ładunków czynnikowych, na podstawie której można by było
(przy założonej liczbie czynników) jak najdokładniej odtworzyć macierz korelacji obserwowalnych zmiennych. Rozwiązanie czynnikowe jest uzyskiwane
na podstawie równania macierzowego zawierającego zredukowaną macierz
korelacji oraz wartości własne tej macierzy.
Metoda największej wiarygodności wylicza statystykę odpowiadającą na
pytanie, jak dalece zbudowany model pasuje do danych. Operacyjnie posiada ona test, który jest tak skonstruowany, żeby na jego podstawie można było ocenić czy macierz korelacji obserwowanych zmiennych różni się istotnie
od macierzy korelacji wyznaczonej na podstawie oszacowanych parametrów
modelu czynnikowego i przyjętej liczby czynników. Statystyka testowa,
o której tu mowa ma rozkład χ2 (Kim i Mueller 1978b, Lee 2007).
Jednakże praktyka pokazuje, że test ten bywa zbyt surowy, gdyż przy dużych próbach wystarczą relatywnie niewielkie odchylenia macierzy odtworzonej od zaobserwowanej, aby wyliczona wartość statystyki dawała (wysoką) wartość sugerującą odrzucenie uzyskanego modelu i w konsekwencji
prowadzącą do wyodrębniania zbyt dużej liczby czynników. W związku
z tym wyniki tego testu nie powinny być brane pod uwagę w analizach (Górniak, 2000).
Problem naruszania założeń pomiarowych modelu
Niezwykle częstą sytuacją – szczególnie w badaniach społecznych – jest
fakt, że pomiar jest przeprowadzany na poziomie nominalnym lub porządkowym. Jak wiadomo, w sytuacji, gdy zmienne wskaźnikowe mają charakter
porządkowy, posługiwanie się miarą współczynnika korelacji liniowej Pearsona w analizie czynnikowej nie jest w pełni poprawne, ponieważ zarówno
ten współczynnik, jak i sama analiza czynnikowa, zakłada, że zmienne są
przynajmniej na poziomie interwałowym (od tego poziomu można wykonywać przekształcenia liniowe).
Jeżeli zmienne obserwowalne rozpatrywane w modelu są mierzone przykładowo na poziomie porządkowym, to okazuje się, że stosowanie podejścia
2009-12-09 14:25:52
195
nie jest ani uprawnione metodologicznie ani – jak pokazują badania symulacyjne – optymalne (Babakus i Ferguson i Joreskog 1987). Kwestia optymalności jest tu rozumiana jako przyjęcie takiej miary związku pomiędzy zmiennymi, która zapewni że wykonana na jej podstawie analiza czynnikowa wygeneruje rezultaty „najbliższe” rzeczywistym (prawdziwym) relacjom pomiędzy rozpatrywanymi zmiennymi.
Wspomniane analizy symulacyjne pokazują, że kwestia doboru odpowiedniej (adekwatnej do danych) miary korelacji pomiędzy zmiennymi wydaje się sprawą bardzo istotną i może wpływać na jakość wyników analizy
czynnikowej. Przeprowadzone przez Babkusa, Fergusona i Joreskoga badania
koncentrują się między innymi na kwestiach wrażliwości wyników analizy
czynnikowej na naruszanie założeń dotyczących skal pomiarowych. Główną
inspiracją i zarazem punktem wyjścia tego eksperymentu było stwierdzenie,
że w naukach społecznych większość wykonywanych analiz czynnikowych
nie spełnia teoretycznych założeń poziomu pomiaru zmiennych. Jedną z bardziej rozpowszechnionych praktyk, łamiącą zasady sformułowane przez S.S.
Stevensa jest „nadużywanie” współczynnika korelacji liniowej w przypadku
zmiennych, których poziom pomiaru nie jest (przynajmniej) interwałowy,
lecz porządkowy. Autorzy cytowanego artykułu odpowiadają na pytanie, który ze znanych współczynników korelacji jest miarą najbardziej odpowiednią
do prowadzenia analiz czynnikowych na danych występujących w naukach
społecznych. Przedmiotem analiz symulacyjnych były cztery różne współczynniki korelacji zastosowane do tych samych danych. Zastosowano następujące miary związku pomiędzy zmiennymi: 1. r – współczynnik korelacji liniowej Pearsona; 2. r* – współczynnik korelacji polichorycznej; 3. rs – współczynnik korelacji rangowej Spearmana; 4. τb – współczynnik korelacji rangowej Kendalla. Pierwszy z wymienionych współczynników to dobrze znana
i powszechnie stosowana miara związku liniowego odpowiednia dla zmiennych przynajmniej na poziomie interwałowym. (Oznacza to, że jej stosowanie do zmiennych na porządkowym poziomie pomiaru jest niepoprawne).
Natomiast dwie ostatnie miary (3. i 4.) to współczynniki korelacji używane
dla zmiennych porządkowych, porównujące rangi poszczególnych przypadków. Natomiast trzecia z analizowanych miar – współczynnik korelacji polichorycznej, jest miarą mniej znaną, która ze względu na wyniki badań i innych zostanie szerzej dalej omówiona.
2009-12-09 14:25:52
196
Mariusz Grzęda
Omawiany eksperyment symulacyjny polegał na tym, że autorzy za pomocą specjalnego oprogramowania wygenerowali obserwacje, które spełniały założone warunki modelu czynnikowego. Założono model z jednym czynnikiem
wspólnym i czterema wskaźnikami. Dane dla wskaźników były wygenerowane w oparciu o wcześniej założone wartości ładunków czynnikowych (czyli
wag, współczynników liniowych informujących o związku pomiędzy wartościami czynnikowymi a poszczególnymi zmiennymi). W konsekwencji uzyskiwane dane dla wskaźników miały charakter ciągły. Aby odtworzyć sytuację, jaką często spotyka się w badaniach sondażowych, gdzie zwykle mamy do czynienia ze skalami składającymi się z niewielkiej liczby dyskretnych (nieciągłych) kategorii, oznaczających kolejne poziomy wartości zmiennej, wygenerowane we wcześniejszym kroku dane kategoryzowano w taki sposób, aby
uzyskane rozkłady posiadały pięć uporządkowanych kategorii. W ten sposób
zapewniono, że sytuacja przypominała częsty w badaniach społecznych przypadek, kiedy to pomiar jest prowadzony na kilkustopniowych skalach z werbalnymi etykietami wskazującymi respondentowi porządek oferowanych mu
odpowiedzi. Analizę czynnikową metodą największej wiarygodności zawsze
wykonywano dwukrotnie. Najpierw dla danych wygenerowanych na poziomie
ciągłym, a następnie dla danych pokategoryzowanych – na poziomie porządkowym. W pierwszej kolejności (dla danych ciągłych) estymowano parametry
modelu oparte na macierzy współczynników korelacji Pearsona. Następnie po
kategoryzacji zmiennych (do pięciu kategorii) znowu szacowano parametry
modelu czynnikowego, używając wówczas jednej z czterech wyżej wspomnianych miar korelacji. Symulacja została przeprowadzona w kilku wariantach.
Obok miar korelacji manipulowano również innymi uznanymi za istotne
aspektami danych i modelu: – wielkością zakładanych ładunków czynnikowych, wielkością próby (czyli liczbą przypadków poddawanych analizie), typem rozkładów (pokategoryzowanych) zmiennych wskaźnikowych.
Wyniki przeprowadzonych analiz czynnikowych porównywano między
innymi pod względem parametrów uzyskanych modeli czynnikowych (wartości ładunków czynnikowych), statystyk informujących o dobroci dopasowania modelu do danych oraz przypadków, gdy odnalezienie rozwiązania
czynnikowego metodą największej wiarygodności okazywało się niemożliwe
(noncovergence) lub błędne (improper solutions). Wyniki przeprowadzonego
eksperymentu pokazują, że w przypadku danych po kategoryzacji do kilku
2009-12-09 14:25:52
197
wartości posługiwanie się współczynnikiem korelacji polichorycznej daje
najlepsze rezultaty rozumiane jako największa zbieżność wyników analizy
czynnikowej z danymi prawdziwymi. Innymi słowy, uzyskane wartości ładunków czynnikowych są wówczas najbliższe wartościom założonym na początku, na podstawie których były generowane dane. Do określania stopnia
dokładności (accuracy) uzyskanych wyników posłużono się dwiema miarami. Pierwsza to błąd wynikający z kategoryzacji, czyli procedury przekształcenia danych o charakterze ciągłym (continuous) w zmienne o wartościach
dyskretnych (discrete) (Categorization Bias – CB). Błąd ten został określony
jako różnica pomiędzy ładunkiem czynnikowym wyznaczonym na podstawie
zmiennych ciągłych a ładunkiem wyznaczonym na podstawie danych po kategoryzacji (dyskretnych). Natomiast druga miara to błąd kwadratowy (Squared Error – SE). Miara ta została zdefiniowana jako podniesiona do kwadratu różnica pomiędzy prawdziwym (założonym) ładunkiem czynnikowym
a ładunkiem czynnikowym wyznaczonym na podstawie danych po kategoryzacji. Przeprowadzone porównania koncentrowały się przede wszystkim na
określeniu wpływu jaki ma przyjmowanie różnych miar korelacji pomiędzy
zmiennymi na odchylenie uzyskanych ładunków czynnikowych od wartości
prawdziwych. Analiza przeciętnych wartości obydwu powyżej zdefiniowanych miar błędów pokazała, że zastosowane (do danych po kategoryzacji)
współczynniki korelacji polichorycznej (r*) generują ładunki czynnikowe,
które w najmniejszym stopniu są obciążone błędami. W większym stopniu
obciążone błędami okazały się ładunki czynnikowe wygenerowane na podstawie współczynników korelacji liniowej (r) i specjalne współczynniki dla
zmiennych porządkowych: współczynnik korelacji rangowej Spearmana
i Kendalla (odpowiednio rs i τb). Autorzy eksperymentu zwracają uwagę, że
przyczyną zaobserwowanych różnic był fakt, że współczynniki korelacji polichorycznej (obliczone dla danych po kategoryzacji) jak żadne inne generowały oszacowania związków pomiędzy wskaźnikami najbliższe wartościom
rzeczywistym. Prawidłowość ta miała miejsce bez względu na wielkość próby, a także przyjęte typy rozkładów zmiennych wskaźnikowych. Pozostałe
miary korelacji systematycznie niedoszacowały natężenia tych związków.
W konsekwencji, analizy czynnikowe prowadzone przy wykorzystaniu silniej obciążonej błędami miary skorelowania zmiennych dawały ładunki
czynnikowe w większym stopniu odbiegające od wartości rzeczywistych.
2009-12-09 14:25:52
198
Mariusz Grzęda
Innym bardzo interesującym aspektem badań symulacyjnych jest wynik
pokazujący, że statystyka χ2 używana jako miara jakości modelu czynnikowego paradoksalnie częściej sugeruje odrzucanie wyników analiz czynnikowych, które dawały prawidłowe lub bliskie prawidłowym szacunki ładunków
czynnikowych. Dotyczy to przede wszystkim analiz czynnikowych, które
opierały się na współczynniku korelacji polichorycznej – tym właśnie który
(jak wspomniano wyżej) zapewniał największą zgodność oszacowanego modelu z prawdziwymi relacjami. Co więcej, dla analiz czynnikowych opartych
na współczynniku korelacji τb, który we wszystkich wariantach symulacji dawał wyniki najbardziej odbiegające od rzeczywistych relacji, statystyka χ2
przyjmowała przeciętnie najmniejsze wartości – najczęściej sugerujące przyjmowanie modelu. Zdaniem autorów tego badania fakt ten oznacza, że korzystanie z testu χ2 zwiększa prawdopodobieństwo odrzucania prawidłowych
modeli czynnikowych i nieodrzucania fałszywych14. Ujmując to w kategoriach statystycznej weryfikacji hipotez można zatem stwierdzić, że wyniki
eksperymentu sugerują, iż posługiwanie się tą statystyką naraża badacza na
częstsze popełnianie błędów zarówno I rodzaju (polegających na odrzucaniu
hipotezy zerowej, która w rzeczywistości jest prawdziwa), jak i II rodzaju
(polegających na nieodrzucaniu hipotezy zerowej, która w rzeczywistości
jest fałszywa). W tej sytuacji posługiwanie się tymi miarami w analizie czynnikowej należy uznać, za dość ryzykowne. Warto również zauważyć w tym
miejscu, że wniosek ten potwierdza niewielką przydatność testu χ2w analizie
czynnikowej przeprowadzanej metodą największej wiarygodności, którą sygnalizowano już wyżej (Górniak, 2000).
Podsumowując ten punkt rozważań można zwrócić uwagę na dwie sprawy. Po pierwsze gdy – tak jak w przypadku danych sondażowych – mamy do
czynienia ze zmiennymi na poziomie porządkowym posługiwanie się miarą
korelacji liniowej Pearsona narusza założenia teoretyczne sformułowane
Warto również w tym punkcie dodać, że ta sama prawidłowość dotyczy innych statystyk, służących do oceny modelu. Autorzy eksperymentu zajmują się następującymi
statystykami: a. GFI – indeks dobroci dopasowania (Goodness-of-Fit Index). Przyjmuje
wartości w granicach od 0 do 1. Teoretyczne może jednak również przyjmować nic nie
znaczące wartości negatywne; b. AGFI – dostosowany indeks dobroci dopasowania
(Adjusted Goodness-of-Fit Index). Używa się w tej mierze kwadratów średnich, a nie tak
jak w poprzedniej mierze sum kwadratów. c. RMR – pierwiastek ze średniego kwadratu
reszt (Babakus, Ferguson i Joreskog 1986).
14
2009-12-09 14:25:52
199
przez S. Stevensa i sprawia, że przeprowadzanie analizy czynnikowej na podstawie macierzy współczynników Pearsona jest procedurą, która nie ma uzasadnienia metodologicznego. Z drugiej strony wyniki przytoczonego wyżej
eksperymentu symulacyjnego, pokazują że powszechnie znane współczynniki korelacji rangowej Spearmana (rs) i Kendalla (τb), które nie naruszają
ograniczeń związanych ze zmiennymi porządkowymi dają takie konfiguracje
ładunków czynnikowych, które są dalekie od rzeczywistych relacji łączących
wartości ukrytych czynników wspólnych ze zmiennymi obserwowalnymi.
W tej sytuacji wyniki symulacji sugerują, że dobrym podejściem zarówno
z punktu widzenia poprawności metodologicznej jak również jakości wyników jest posłużenie się w analizie czynnikowej alternatywną miarą – współczynnikiem korelacji polichorycznej.
Aneks
Poziom pomiaru zmiennych
Założenie o interwałowym poziomie pomiaru nawiązuje do koncepcji podziału zmiennych sformułowanej na przełomie lat czterdziestych i pięćdziesiątych przez psychologa i fizyka zarazem S.S. Stevensa w pracach On theory of scales of measurement (1946) oraz Mathematics, measurement and
psychophysics (1951). Według Stevensa istnieją cztery poziomy pomiaru: nominalny, porządkowy, interwałowy oraz ilorazowy. Więcej elementarnych informacji o poziomie pomiaru zmiennych i jego konsekwencjach dla analizy
danych zamieszczono w Banaszak i Nowotny 1984; Mayntz, Holm i Huebner 1985; Lissowski, Haman i Jasiński 2008.
Korelacja polichoryczna
Idea współczynnika korelacji polichorycznej opiera się na założeniu, że
własności mierzone za pomocą skal porządkowych w rzeczywistości mają
charakter ciągły a rozkład normalny. Zakłada się, że własność mimo tego, że
ma charakter ciągły, może być zmierzona jedynie w sposób dyskretny, przy
2009-12-09 14:25:52
200
Mariusz Grzęda
użyciu niewielkiej liczby uporządkowanych kategorii reprezentujących przedziały zmiennej ciągłej.
Założenie to oznacza zatem, że porządkowa zmienna obserwowalna Xi
posiada swój ukryty (nieobserwowalny) ciągły odpowiednik w postaci
zmiennej Yi o rozkładzie normalnym. Współczynnik korelacji polichorycznej
r* pomiędzy dwiema zmiennymi porządkowymi Xi i Xj jest współczynnikiem
korelacji liniowej r pomiędzy ich ciągłymi odpowiednikami Yi i Yj o normalnych rozkładach (por. Uebersax 2000):
rX*i X j = rYiY j
[98]
Wartość współczynnika r* trzeba wyliczyć z łącznego rozkładu obserwowalnych zmiennych Xi i Xj. Używane są w tym celu jedno- lub dwu- stopniowe procedury iteracyjne, które, jak wskazuje Uebersax (2000a, b) prowadzą
do podobnych oszacowań.
Jak pokazują wyniki symulacji, analizy czynnikowe przeprowadzane
z użyciem współczynników korelacji polichorycznych dla „dyskretyzowanych” zmiennych normalnych dają bardzo dobre rezultaty – stopień zgodności uzyskanych w ten sposób wyników z rzeczywistymi relacjami pomiędzy
zmiennymi ciągłymi jest bardzo wysoki. Używanie macierzy korelacji polichorycznych zamiast macierzy korelacji liniowej między zmiennymi porządkowymi jest zatem zabiegiem uzasadnionym, jeśli mamy wystarczające podstawy, aby przyjąć założenia, które leżą u podstaw ich wyznaczania.
Literatura
Alwin, Duane F., (2000), Factor analysis, w: Edgar F. Borgatta, Rhonda
J.V. Montgomery, (red.) Encyclopedia of sociology, vol. 2, New York: Macmillan Reference USA.
Anastasi, Anne, Susana Urbina, (1999), Testy psychologiczne, Warszawa:
Pracowania Testów Psychologicznych PTP.
Babakus, Emin, Carl E., J.R. Ferguson i Karl G. Joreskog, (1987), Sensitivity of confirmatory maximum likelihood factor analysis to violations of measurement scale and distributional assumptions, „Journal of Marketing Research”, vol. XXIV (May 1987), s. 222–228.
2009-12-09 14:25:53
201
Banaszak, Henryk, (2004a), Analiza czynnikowa, w: Gordon Marshall
(red.), Słownik socjologiczny i nauk społecznych, Warszawa: Wydawnictwo
Naukowe PWN.
Banaszak, Henryk, (2004b), Równania strukturalne, w: Gordon, Marshall
(red.), Słownik socjologiczny i nauk społecznych, Warszawa: Wydawnictwo
Naukowe PWN.
Banaszak, Henryk i Sławomir Nowotny, (1984), Statystyka, zeszyt II,
Warszawa: skrypt na prawach rękopisu.
Brown, A., Timothy, (2006), Confirmatory Factor Analysis for Applied
Research, New York, London: The Guilford Press.
Child, Dennis, (2006), The essentials of factor analysis, London, New
York: Continuum.
Jennings, Kent M., Vicki Zeitner, (2003), Internet use and civic engagement, „Public Opinion Quarterly”, vol. 67: 311–334.
Jensen, Arthur, (2006), Profiles in Research, „Journal of educational and
behavioral statistics”, vol. 31 nr 3: 327–352.
Kim, Jae-On, Charles W. Mueller, (1978a), Introduction to Factor Analysis. What it is and how to do it. Series: Quantitative Applications in the Social Sciences. Newbury Park, London, New Dehli: Sage Publications.
Kim, Jae-On, Charles W. Mueller, (1978b), Factor Analysis. Statistical
Methods and Practical Issues. Series: Quantitative Applications in the Social
Sciences. Newbury Park, London, New Dehli: Sage Publications.
Kline, Rex B., (1998), Principles and practice of structural equation modeling, New York, London: The Guilford Press.
Lee, Sik-Yum, (2007), Structural Equation Modeling, New York: John
Wiley & Sons.
Lissowski, Grzegorz, Jacek Haman i Mikołaj Jasiński, (2008), Statystyka
dla socjologów, Warszawa: Wydawnictwo Scholar.
Lissowski, Grzegorz, (2005), Analiza wielowymiarowa, w: Władysław
Kwaśniewicz i in. (red.), Encyklopedia socjologii. Suplement.
Malarska, Anna, (2005), Statystyczna analiza danych wspomagana programem SPSS, Kraków: SPSS Polska.
Mayntz, Renate, Kurt Holm i Peter Hubner, (1985), Wprowadzenie do
metod socjologii empirycznej, Warszawa: PWN.
2009-12-09 14:25:53
202
Mariusz Grzęda
Mulaik, Stanley A., (1987), A Brief History of the Philosophical Foundations of Exploratory Factor Analysis, „Multivariate Behavioral Research”,
vol. 22: 267–305.
Netemeyer, Richard, G., William O., Bearden, Subhash, Sharma, (2003),
Scaling procedures. Issues and applications. Thousands Oaks, London, New
Dehli: SAGE Publications.
Ostasiewicz, Walenty (red.), (1999), Statystyczne metody analizy danych,
Wrocław: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we
Wrocławiu.
Rószkiewicz, Małgorzata, (2002), Metody ilościowe w badaniach marketingowych, Warszawa: Wydawnictwa Naukowe PWN.
Sternberg, Robert J., (2001), Psychologia poznawcza, Warszawa: Wydawnictwa Szkolne i Pedagogiczne.
Tacq, Jacques, (1997), Multivariate analysis techniques in social science
research. From problem to analysis, London: Sage Publications.
Uebersax, John (2000a), Estimating the latent trait model by factor analysis of tetrachoric Correlations, 2000, (http://ourworld.compuserve.com/homepages/jsuebersax/irt.htm#intro).
Uebersax John, (2000b), Latent Trait Models for Rater Agreement, 2000
(http://ourworld.compuserve.com/homepages/jsuebersax/ltrait.htm).
Uebersax, John, (2000c), The tetrachoric and polychoric correlation coefficients, 2000 (http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm).
Witkowska, Dorota, (2002), Sztuczne sieci neuronowe i metody statystyczne, Warszawa: Wydawnictwo CH Beck.
www.sciencemag.org.
Zakrzewska, Marzenna, (1994), Analiza czynnikowa w budowaniu
i sprawdzaniu modeli psychologicznych, Poznań: Wydawnictwo Naukowe
UAM.
2009-12-09 14:25:53

pokazuje człowieka Zeitner

Transkrypt

Podobne dokumenty

tutaj - Personalitas

Wykorzystanie analizy czynnikowej i analizy skupień w segmentacji

Obowiązkowy zestaw zadań z odwracania macierzy i układów

Praca domowa nr 1

Laboratorium 3 - Model regresji wielokrotnej 3.1 Plik realest.txt

Załącznik nr 3 - Wyniki analizy czynnikowej (segmentacja

Wykorzystanie analizy czynnikowej w badaniach marketingowych

Pobierz wersję pdf

Tomasz Odrzygóźdż, Zad. D3. Jak słusznie zauważył Pan Wojciech

Opis kursu - Uniwersytet Gdański