pokazuje człowieka Zeitner
Transkrypt
pokazuje człowieka Zeitner
Mariusz Grzęda* Wprowadzenie do eksploracyjnej analizy czynnikowej – przegląd problemów Licz to, co policzalne, mierz to, co mierzalne, a co niemierzalne uczyń mierzalnym… Galileusz Wprowadzenie Analiza czynnikowa jest wysoce efektywnym narzędziem statystycznym, które znajduje zastosowanie w wielu obszarach współczesnych nauk empirycznych. Z techniki tej korzystają w swojej pracy przede wszystkim badacze społeczni, choć sporadycznie pojawia się ona również w warsztacie pracy reprezentantów nauk przyrodniczych (Child, 2006)1. Spośród tych pierwszych stosują ją głównie socjologowie i psychologowie, ale także przedstawiciele badań edukacyjnych. Tak szerokie spektrum zastosowań analiza Jako przykład tej ostatniej tendencji może posłużyć magazyn „Science”. W ostatnich dwudziestu latach (październik 1989 – październik 2009) odwołanie do analizy czynnikowej pojawiło się w nim w ponad pięćdziesięciu artykułach, z których część stanowiły studia z zakresu nauk przyrodniczych. Nawet biorąc pod uwagę fakt, że wspomniane czasopismo jest tygodnikiem, liczba ta sugeruje przynajmniej symboliczną obecność tej metody również na polu nauk przyrodniczych (http://www.sciencemag.org/). 1 Mariusz Grzęda ukończył socjologię na Uniwersytecie Warszawskim. Swoją pracę magisterską poświęcił krytyce sposobu wykorzystywania analizy czynnikowej w międzynarodowych badaniach systemów wartości prowadzonych przez R. Ingleharta. Obecnie doktorant w Instytucie Socjologii UW i pracownik ZISE w IFiS PAN. Interesuje się metodologicznymi problemami stosowania modeli liniowych w socjologii ([email protected]). * Skalowanie druk.indb 145 2009-12-09 14:25:21 146 Mariusz Grzęda czynnikowa zawdzięcza temu, że jest oparta na uniwersalnym schemacie analitycznym, który dobrze pasuje do wielu problemów badawczych, rozpatrywanych w wyżej wymienionych dziedzinach. W najogólniejszym bowiem sensie analiza czynnikowa jest narzędziem służącym do badania struktury relacji pomiędzy wieloma zmiennymi, które reprezentują zróżnicowanie jednostek2 poddanych badaniu statystycznemu (Alwin 2000). Celem tej techniki analitycznej jest dokonanie generalizacji informacji zawartej w analizowanym zestawie zmiennych. Generalizacja ta powstaje poprzez wskazanie (zgodnie z przyjętymi kryteriami), w każdej zmiennej tej części jej zróżnicowania, którą podziela ona wspólnie z innymi zmiennymi oraz pozostałej części, która pozostaje unikalna i specyficzna tylko dla niej (Child 2006). Opierając się na tym rozróżnieniu sekwencja procedur analitycznych zwana analizą czynnikową generuje jako wynik niewielką liczbę hipotetycznych zmiennych, zwanych zmiennymi ukrytymi lub czynnikami wspólnymi, które w sensie statystycznym reprezentują poddany analizie początkowy zbiór wielu zmiennych (Kim i Mueller 1978a). Początki analizy czynnikowej Koncepcja analizy czynnikowej jest oparta na zestawie kilku specyficznych założeń o charakterze filozoficznym, których najpierwotniejsze źródła sięgają czasów starożytnej Grecji. Podstawowa w tej analizie idea redukcji złożonej rzeczywistości do niewielkiej liczby pierwotnych, prostych czynników, pojawiła się około VI wieku p.n.e. w koncepcjach myślicieli z Miletu. Przedstawiciele tej szkoły filozoficznej sądzili, że obserwowalną różnorodność i złożoność świata dostępnego zmysłowo można wytłumaczyć istnieniem niewielkiej liczby pierwotnych, prostszych substancji. W ich koncepcjach świat widzialny w całej swej różnorodności był manifestacją różnego stopnia koncentracji i specyficznej konfiguracji kilku pojedynczych substancji pierwotnych takich jak np. woda czy powietrze. Obok filozofów z Miletu istotny wkład w ideę, na której wiele wieków później oparto koncepcję anaW przypadku badań społecznych analizowanymi jednostkami obserwacji mogą być zarówno pojedyncze osoby, jak i całe grupy, a także organizacje oraz jednostki terytorialne (np. szkoły, gminy, okręgi wyborcze, państwa itp). 2 Skalowanie druk.indb 146 2009-12-09 14:25:21 Wprowadzenie do eksploracyjnej analizy czynnikowej... 147 lizy czynnikowej, wniósł Parmenides. Wprowadził on podział na to co widoczne, dostępne zmysłowo i bezpośrednio obserwowalne oraz na to co ukryte, niedostępne w bezpośrednim doświadczeniu. Świat obserwowalny w koncepcji Parmenidesa był światem pełnym niestabilności i iluzji. Natomiast świat ukryty, mimo że niedostępny bezpośrednio, był prawdziwie realną, stabilną rzeczywistością, do której należy dotrzeć, by poznać prawdę. Ten schemat myślenia o naturze rzeczywistości został zaadaptowany przez wiele późniejszych szkół filozoficznych – m.in. przez atomistów, pitagorejczyków, a także Platona. Wszyscy wymienieni tu przedstawiciele starożytnej myśli filozoficznej przyjmowali założenie o tym, że rzeczywistość składa się z części dostępnej w bezpośrednim doświadczeniu oraz z części ukrytej, znajdującej się poza zasięgiem poznania zmysłowego. Wszyscy też zdecydowanie dezawuowali dostępną zmysłom część rzeczywistości, jako pełną iluzji i niewiele wartą z punktu widzenia poznania prawdy. Kolejnym starożytnym filozofem, który wniósł istotny wkład do idei, jakie legły u podstaw analizy czynnikowej, był Arystoteles. Uczeń Platona istotnie zmodyfikował sposób myślenia o rzeczywistości swoich poprzedników, zdecydowanie rehabilitując zmysłową, bezpośrednio dostępną stronę rzeczywistości. Arystoteles uznał, że obserwując regularności występujące w świecie danym bezpośrednio zmysłom można wysnuwać trafne wnioski na temat rzeczywistości. Stąd też jest on uznawany za ojca nauk empirycznych. Ponadto to właśnie jego myśli analiza czynnikowa zawdzięcza swoje kolejne fundamentalne założenie. Arystoteles w swoich pracach stosował bowiem schemat poznawczy, który wiele wieków później w zmienionej wersji został zaadaptowany przez Charlesa Spearmana – twórcę analizy czynnikowej. Chodzi o założenie, że w każdym obiekcie można wyróżnić dwie części: tę, która stanowi jego istotę, część uniwersalną, wspólną (podzielaną) z innymi obiektami oraz część specyficzną i przypadkową danego obiektu, przesądzającą o jego niepowtarzalności i unikalności. Z rozróżnieniem kierującym się tą samą logiką mamy do czynienia w analizie czynnikowej (Mulaik 1987). Wszystkie wspomniane wyżej wątki w bardziej lub mniej zmodyfikowanej wersji legły u podstaw fundamentalnych założeń omawianej tu metody. Właściwe początki analizy czynnikowej sięgają XIX wieku i prowadzonych wówczas pierwszych badań empirycznych nad ludzkimi zdolnościami umysłowymi i inteligencją. Ogólną ideę modelu i podwaliny teoretyczne tej Skalowanie druk.indb 147 2009-12-09 14:25:21 148 Mariusz Grzęda metody sformułował wówczas angielski statystyk Francis Galton – znany przede wszystkim jako autor klasycznej w statystyce metody regresji średnich (Banaszak 2004a, 2004b). Prowadząc badania nad zjawiskiem dziedziczenia, Galton doszedł do wniosku, że każdy człowiek posiada pewien poziom „ogólnej zdolności intelektualnej”, która przejawia się w każdej podejmowanej przezeń aktywności. Zdaniem Galtona zdolność ta jest przez jednostki dziedziczona biologicznie i jej poziom przesądza ostatecznie o ich sukcesie życiowym. Galton uważał też, że stopień ogólnej sprawności umysłu, którą badał za pomocą rozmaitych testów, daje się wyrazić za pomocą jednej wartości liczbowej. Oznaczało to, że sprawność ta ma charakter jednowymiarowy, a także że zróżnicowanie ludzi pod względem tej cechy jest dobrze reprezentowane przez kontinuum wartości liczbowych (Child 2006). Prace Galtona w dziedzinie badań nad zdolnościami umysłowymi ludzi kontynuował jego uczeń, psycholog Charles Spearman, który w 1904 roku, zaproponował własną, tak zwaną dwuczynnikową teorię inteligencji. Spearman sformułował tę teorię w oparciu o stworzony przez siebie matematyczny model zależności pomiędzy zmiennymi (Kim i Mueller 1978a; Alwin 2000; Banaszak 2004a; Lissowski 2005). Zaproponowana przez Spearmana teoria inteligencji zakłada, że rozwiązanie każdego problemu lub zadania wymagającego wysiłku umysłowego, jest zależne od dwóch rodzajów zdolności zwanych czynnikami. Z jednej strony jest to czynnik g, zwany też czynnikiem ogólnym (general factor), który reprezentuje inteligencję rozumianą jako ogólną sprawność umysłową i zdolności poznawcze człowieka3. Z drugiej zaś czynnik s (specific factor) reprezentujący te umiejętności, które są swoiste i specyficzne dla wykonania danego zadania. Czynnik g jest jeden i ma charakter uniwersalny, gdyż przejawia się w każdym zadaniu, które wykonuje człowiek. Innymi słowy jest czynnikiem wspólnym wszystkim zadaniom. Natomiast czynników s jest wiele i każdy z nich ma swoją specyfikę. Każdy jest bowiem związany z wykonywaniem specyficznego rodzaju zadań (Anastasi i Urbina 1999; Sternberg, 2001 Jensen 2006). Mimo że dwuczynnikowa teoria inteligencji Spearmana była intensywnie krytykowana i zdania na jej temat są wśród psychologów nadal podzielone, to jednak sam model statystycznych zależności między zmiennymi okazał się niezwykle użyteczny i płodny. W późniejszych latach doczekał się bowiem twórczych modySpearman twierdził, że czynnik g reprezentuje dosłownie „energię umysłową” każdego człowieka (Sternberg 2001). 3 Skalowanie druk.indb 148 2009-12-09 14:25:21 Wprowadzenie do eksploracyjnej analizy czynnikowej... 149 fikacji, które pozwoliły rozszerzyć spearmanowską wersję modelu jednoczynnikowego do modeli uwzględniających większą liczbę czynników wspólnych. Model z wieloma czynnikami wspólnymi został po raz pierwszy sformułowany w połowie lat czterdziestych XX wieku przez Louisa Thurstone’a, amerykańskiego psychologa i założyciela znanego czasopisma „Psychometrika”, poświęconego problemom pomiaru, skalowania i wielowymiarowej analizy danych (Banaszak 2004a; Lissowski 2005). Wkrótce potem analiza czynnikowa zaczyna być szeroko stosowana w innych niż tylko psychologia dyscyplinach badawczych. Metoda ta znajduje zastosowania między innymi w socjologii, politologii, ekonomii ale także w medycynie, biologii i geologii (Child 2006). Od lat siedemdziesiątych wraz z intensywnym rozwojem technologii komputerowych analiza czynnikowa staje się narzędziem stosowanym przez coraz większą liczbę badaczy, a jednocześnie coraz intensywniej doskonalonym. Proponowane są nowe wersje modeli i metod estymacji parametrów, uwzględniające specyficzne dla różnych nauk problemy badawcze i założenia pomiarowe. W przypadku badaczy społecznych szczególnie ważne było pojawienie się metod estymacji uwzględniających losowy charakter doboru jednostek obserwacji do badania (Banaszak 2004a, 2004b). Współczesne zastosowania analizy czynnikowej Duane F. Alwin podsumowując współczesne zastosowania analizy czynnikowej wskazuje, że metoda ta jest obecnie używana przez badaczy na cztery wzajemnie ze sobą powiązane sposoby (Alwin 2000). W dalszej części artykułu każdy z tych kontekstów zostanie krótko scharakteryzowany oraz zilustrowany hipotetycznym przykładem. Analiza czynnikowa jako narzędzie redukcji danych i konstrukcji wyniku łącznego Po pierwsze, analiza czynnikowa służy jako narzędzie redukcji danych. Taki sposób użycia tej techniki ma miejsce w sytuacji, gdy badacz zgromadziwszy uprzednio dane w postaci dużej liczby zmiennych, pragnie przedstawić zawartą w nich informację, za pomocą nielicznego zbioru innych zmiennych, nazywa- Skalowanie druk.indb 149 2009-12-09 14:25:21 150 Mariusz Grzęda nych czynnikami wspólnymi. W efekcie redukcji badacz uzyskuje pogrupowanie zbioru swoich zmiennych w wiązki. Każda z otrzymanych wiązek będzie skupiać w sobie takie zmienne, które są ze sobą statystycznie silnie związane, a także w idealnej sytuacji będą reprezentować podobne treści. W tym kontekście przyjmuje się, że zmienne z tej samej wiązki reprezentują jeden czynnik wspólny (Alwin 2000). Należy tu także dodać, że czynniki są wyodrębniane tak, aby każdy z nich reprezentował istotny aspekt (wymiar) zróżnicowania zawartego w pierwotnym zbiorze danych (Banaszak 2004a; Lissowski 2005). Niekiedy wykonując analizę czynnikową, badacz nie poprzestaje tylko na samym pogrupowaniu zbioru analizowanych zmiennych, lecz dodatkowo może również podjąć próbę skonstruowania tak zwanego wyniku łącznego (composite score) dla każdej jednostki obserwacji na każdym wyodrębnionym uprzednio czynniku. Konstrukcja wyniku łącznego w najogólniejszym sensie polega na przypisaniu każdej jednostce obserwacji w ramach każdego wyodrębnionego czynnika pewnej liczby (Alwin 2000). O liczbie tej zakłada się, że wskazuje ona wynik danej jednostki obserwacji na wymiarze zróżnicowania reprezentowanym przez dany czynnik. Istnieje wiele sposobów konstruowania wyników łącznych. Wynik łączny można na kilka sposobów oszacować w ramach samej analizy czynnikowej (Kim i Mueller 1978b; Górniak 2000; Banaszak 2004a). Możliwe jest również zatrudnienie do tego celu innych technik analitycznych występujących w literaturze pod wspólną nazwą skalowania4. Podsumowując, należy tu podkreślić, że w konsekwencji opisanego zastosowania analizy czynnikowej wynik każdej jednostki obserwacji reprezentowany na kilku zmiennych zostaje zastąpiony jednym wynikiem łącznym (Alwin 2000). Warto w tym miejscu zawiesić na moment abstrakcyjne rozważania i posłużyć się prostym, intuicyjnym przykładem „szkolnym”, który zilustruje ten sposób korzystania z analizy czynnikowej. Przyjmijmy, że uczniowie pewnej klasy w ciągu kilku miesięcy napisali osiem kartkówek z matematyki, które sprawdzały ich wiedzę z następujących tematów: (1) definiowanie zbiorów, (2) zawieranie się zbiorów, (3) elementarne działania na zbiorach, (4) iloczyn kartezjański zbiorów, (5) zbiory skończone i nieskończone, (6) definiowanie funkcji, (7) przedstawianie funkcji za pomocą wykresów, (8) obliczanie miejsc ze- Problem skalowania w szerszym kontekście jest dokładnie omówiony w artykule Henryka Banaszaka. 4 Skalowanie druk.indb 150 2009-12-09 14:25:22 Wprowadzenie do eksploracyjnej analizy czynnikowej... 151 rowych funkcji. Każdy uczeń w każdej z tych ośmiu kartkówek uzyskał pewien wynik, mierzony liczbą zdobytych punktów. Mamy zatem sytuację, w której wyniki wszystkich uczniów mogą być zapisane w formie bazy danych zawierającej osiem zmiennych. W tej sytuacji można przeprowadzić analizę czynnikową, aby sprawdzić, czy pierwotną, dokładną informację o zróżnicowaniu umiejętności matematycznych uczniów zawartą w ośmiu wyżej wymienionych zmiennych, można zastąpić znacznie mniejszą liczbą zmiennych (czynników wspólnych). Powiedzmy, że w naszym przykładzie, w wyniku przeprowadzonej analizy okazało się, że wszystkie osiem pierwotnych zmiennych grupuje się w dwie wiązki. Zgodnie z tym, co zostało powiedziane wyżej, każdej z nich odpowiada jeden czynnik wspólny. Załóżmy, że wynik przeprowadzonej analizy czynnikowej wskazuje, że pierwszą grupę zmiennych stanowią zmienne reprezentujące wyniki kartkówek (1),(2),(3),(4),(5). Natomiast drugą – kartkówki (6),(7),(8). Przyglądając się dokładniej tematom poszczególnych kartkówek możemy dojść do wniosku, że pierwsza grupa zmiennych reprezentuje ogólną umiejętność posługiwania się przez ucznia rachunkiem zbiorów. Innymi słowy dochodzimy tu do wniosku, że kompetencja każdego ucznia w zakresie rachunku zbiorów w jakimś stopniu ujawnia się w każdej z pięciu pierwotnie rozpatrywanych zmiennych. Wykonując tę samą czynność dla drugiej grupy zmiennych można dojść z kolei do wniosku, że ich wspólnym motywem mogą być umiejętności uczniów w zakresie funkcji. W ten oto sposób stwierdzamy, że wyniki uczniów zapisane w postaci ośmiu zmiennych reprezentują dwa czynniki, z których każdy wskazuje inną umiejętność w zakresie matematyki. Jako dalszy krok można podjąć próbę przypisania każdemu uczniowi jego wyniku łącznego na każdym z wyodrębnionych uprzednio czynników. Przykład ten jest oczywiście bardzo prosty, pokazuje jednak istotę mechanizmu stosowania analizy czynnikowej jako narzędzia redukcji danych i konstruowania wyniku łącznego dla każdej jednostki obserwacji. Analiza czynnikowa jako narzędzie eksploracji liczby istotnych wymiarów zróżnicowania jednostek obserwacji Drugi pojawiający się współcześnie w literaturze sposób zastosowania analizy czynnikowej wiąże się ściśle z omówionym w poprzednim punkcie. Rozpatrywana tu metoda jest często stosowana również jako narzędzie służą- Skalowanie druk.indb 151 2009-12-09 14:25:22 152 Mariusz Grzęda ce do określania odpowiedniej liczby czynników, które dobrze reprezentowałyby wszystkie ważne aspekty (wymiary) zróżnicowania badanych jednostek obserwacji (Alwin 2000; Netemeyer i Bearden i Sharma 2003). Stosowanie analizy czynnikowej w tym kontekście zakłada, że badacz nie przyjmuje na wstępie żadnych założeń co do tego, ile czynników należy wyodrębnić. Analiza jest przeprowadzana po to, aby w oparciu o ustalone kryteria istotności określić, czy w obrębie pierwotnego zestawu zmiennych można mówić o jednym, dwóch czy też może większej liczbie istotnych wymiarów zróżnicowania jednostek obserwacji. Takie zastosowanie analizy czynnikowej jest wykonywane w celu wstępnego rozpoznania liczby istotnych wymiarów zróżnicowania, czy też mówiąc inaczej, zbadania potencjalnych możliwości redukcji wielozmiennowego zbioru danych do mniejszej liczby istotnych czynników. Stąd nosi ona nazwę eksploracyjnej analizy czynnikowej (Kim i Mueller 1978a; Kim i Mueller 1978b; Banaszak 2004a; Lissowski 2005). Powróćmy teraz do wcześniejszego przykładu z kartkówkami z matematyki. Możemy zatem przyjąć, że zastosowanie analizy czynnikowej w tym kontekście służy do udzielenia odpowiedzi na pytanie, czy wszystkie osiem pierwotnych zmiennych rzeczywiście reprezentuje dwa istotne wymiary zróżnicowania uczniów (umiejętności w zakresie rachunku zbiorów oraz umiejętności posługiwania się funkcjami), czy też może istotę zróżnicowania jednostek obserwacji w zakresie ośmiu analizowanych zmiennych lepiej oddałby przykładowo tylko jeden czynnik wspólny, który ogólnie można by nazwać umiejętnością w zakresie operowania symbolami? A może powinniśmy w analizowanym zbiorze danych wyróżnić trzy czynniki? Odpowiedzi na wszystkie powyższe pytania można również udzielić za pomocą analizy czynnikowej. Analiza czynnikowa jako narzędzie testowania hipotez Trzeci często współcześnie występujący sposób zastosowania analizy czynnikowej polega na korzystaniu z tej metody jako narzędzia służącego do testowania hipotez na temat struktury czynnikowej kryjącej się w danych. Ten rodzaj analizy nosi nazwę konfirmacyjnej analizy czynnikowej (Alwin 2000). Mamy w niej do czynienia z sytuacją, w której badacz przypuszcza istnienie określonej struktury czynnikowej i pragnie się przekonać, czy znaj- Skalowanie druk.indb 152 2009-12-09 14:25:22 Wprowadzenie do eksploracyjnej analizy czynnikowej... 153 duje ona potwierdzenie w posiadanych przezeń danych czy też nie. W tym kontekście weryfikowana hipoteza na temat układu czynnikowego ściśle precyzuje zarówno liczbę czynników wspólnych, jak również istotne związki statystyczne pomiędzy obserwowanymi zmiennymi a poszczególnymi czynnikami. W wyniku analizy konfirmacyjnej badacz uzyskuje ilościową ocenę tego, w jakim stopniu zakładana przez niego struktura czynnikowa pasuje do danych. Jeśli wielkość uzyskanej miary wskazuje, że model teoretyczny i dane empiryczne różnią się od siebie istotnie, to wówczas stanowi to wystarczający powód, by odrzucić zakładaną hipotezę. Po odrzuceniu hipotezy można próbować ją zmodyfikować, aby następnie znowu testować dopasowanie modelu z niej wynikającego do danych. Można również odrzucić całą teorię, z której wynikała dana hipoteza i skierować uwagę na teorie konkurencyjne. W przypadku, gdy pewien model uzyska potwierdzenie, można również oczywiście testować inne konkurencyjne modele. Jeśli one również uzyskują potwierdzenie zgodności z danymi, to wówczas dzięki dodatkowym analizom możliwe jest sprawdzenie, który z tych modeli istotnie lepiej znajduje odzwierciedlenie w danych (Kim i Mueller 1978b; Netemeyer i Bearden i Sharma 2003; Brown 2006). W przeciwieństwie do poprzednio omawianych podejść do analizy czynnikowej ten rodzaj zastosowania omawianej metody zakłada już, że badacz ma pewną wiedzę na temat analizowanego zjawiska, którą formułuje w postaci hipotezy. Źródłem hipotez może być albo praktyczna wiedza pochodząca na przykład z uprzednio przeprowadzonych analiz o charakterze eksploracyjnym, albo twierdzenia zaczerpnięte z istniejących w literaturze teorii danego zjawiska. O ile w poprzednich przypadkach mieliśmy do czynienia z analizą czynnikową, w której punktem wyjścia i najważniejszym punktem odniesienia były dane zebrane przez badacza (data-driven), o tyle w przypadku analizy konfirmacyjnej kluczową rolę pełnią przypuszczenia i teorie na temat struktury zjawiska (theory-driven) (Alwin 2000)5. W kontekście wprowadzonego wcześniej przykładu z kartkówkami możemy uznać, że metoda konfirmacyjnej analizy czynnikowej będzie miała zastosowanie wówczas, gdy badacz wiedziony teorią lub wynikami wcześniejszych analiz czynnikowych, sformułuje konkretną hipotezę na temat oczekiPrzykład zastosowania tego rodzaju analizy czynnikowej znajduje się w artykułach Katarzyny Wądołowskiej i Mariusza Grzędy w drugiej części niniejszego tomu. 5 Skalowanie druk.indb 153 2009-12-09 14:25:22 154 Mariusz Grzęda wanej struktury czynnikowej. Kontynuując rozważania z poprzednich podpunktów możemy mieć dwie hipotezy, które warto byłoby sprawdzić. Pierwsza hipoteza mówiłaby o tym, że w zgromadzonych wynikach wszystkich kartkówek manifestuje się tylko jeden istotny wymiar zróżnicowania uczniów, reprezentowany przez wspomnianą w poprzednim punkcie umiejętność operowania symbolami. I analogicznie, druga hipoteza o dwóch czynnikach kryjących się w danych – umiejętnościach w zakresie a) rachunku zbiorów reprezentowanych przez kartkówki (1)(2)(3)(4)(5) oraz b) funkcji reprezentowanych przez (6)(7)(8). Po otrzymaniu wyników konfirmacyjnej analizy czynnikowej moglibyśmy ocenić, która z teorii lepiej pasuje do posiadanych danych. Analiza czynnikowa w kontekście modelowania równań strukturalnych Czwartym zasługującym na uwagę i współcześnie coraz istotniejszym kontekstem zastosowań analizy czynnikowej jest podejście nazywane modelowaniem równań strukturalnych (Structural Equation Modeling – SEM) (Alwin 2000). Podejście to wykorzystuje podstawowe założenia konfirmacyjnej analizy czynnikowej oraz regresji wielokrotnej (Banaszak 2004b). SEM jest metodą, która podobnie jak konfirmacyjna analiza czynnikowa weryfikuje hipotezy sformułowane wcześniej przez badacza. Jednak wartość dodana tego narzędzia – w kontekście zastosowań analizy czynnikowej – polega między innymi na tym, że umożliwia ono zintegrowanie wielu modeli czynnikowych i zbadanie zachodzących pomiędzy nimi zależności o charakterze przyczynowo-skutkowym6. I w tym przypadku bardzo ważną rolę pełni teoria, na podstawie której badacz testuje hipotetyczny układ zależności. Powinna ona jednoznacznie precyzować, które spośród badanych konceptów pełnią rolę przyczyn, a które skutków (Kline 1998; Brown 2006; Lee 2007)7. W tym miejscu warto na marginesie zaznaczyć, że analiza czynnikowa jako taka może być również rozpatrywana jako szczególny przypadek SEM. Wątek ten nie będzie w tym miejscu rozwijany, ponieważ wykład podstawowych założeń SEM zawiera znajdujący się również w tej części opracowania artykuł Katarzyny Wądołowskiej. 7 Przykłady praktycznych zastosowania tego podejścia Czytelnik znajdzie w drugiej części niniejszego tomu. 6 Skalowanie druk.indb 154 2009-12-09 14:25:22 Wprowadzenie do eksploracyjnej analizy czynnikowej... 155 Aby wskazać przykładowe zastosowanie SEM, należy rozbudować rozpatrywany wcześniej przykład z kartkówkami. Otóż wyobraźmy sobie, że poza wynikami kartkówek badacz przeprowadził wśród tych samych uczniów dodatkowo cztery ogólne testy zdolności: (I) test pamięci krótkotrwałej; (II) test wyobraźni przestrzennej; (III) test rozumowania werbalnego; (IV) test rozumowania ilościowego. Załóżmy, że po przeprowadzeniu analizy czynnikowej na tym materiale okazało się, że w zróżnicowaniu wyników uczniów na tych testach ujawnia się jeden wspólny czynnik, który – zdaniem badacza – można nazwać inteligencją (Sternberg 2001). Jednocześnie – jak pamiętamy z pierwszego podpunktu – z wcześniejszych analiz kartkówek z matematyki wynikało, że w zróżnicowaniu wyników uczniów manifestowały się dwa czynniki. Pierwszy to umiejętności w zakresie rachunku zbiorów oraz drugi w zakresie funkcji. Teraz dzięki podejściu SEM możliwe jest powiązanie wszystkiego co do tej pory zostało uzyskane w osobnych analizach czynnikowych w jeden model. Oczywiście potrzebna jest teoria, która podpowiedziałaby strukturę zależności pomiędzy badanymi konceptami. Na podstawie literatury przedmiotu badacz może zatem sformułować hipotezę, wedle której umiejętności w zakresie rachunku zbiorów, jak i w zakresie operowania funkcjami zależą w sposób przyczynowy od ogólnej inteligencji ucznia. W konsekwencji będzie to oznaczało, że obok równań opisujących zależności między zmiennymi a czynnikami (część pomiarowa) model będzie zawierał jeszcze dwa równania regresji (część strukturalna) (Lee 2007). W tej drugiej części zmiennymi zależnymi będą odpowiednio umiejętności w zakresie rachunku zbiorów oraz umiejętności w zakresie funkcji. Natomiast zmienną niezależną w obu równaniach będzie rozpatrywany tu czynnik inteligencji. Po szczegółowym wyspecyfikowaniu wszystkich spodziewanych zależności, model taki poddawany jest statystycznej weryfikacji, podobnej do tej jak w przypadku konfirmacyjnej analizy czynnikowej. Po tym wprowadzającym przedstawieniu istoty oraz najważniejszych kontekstów i sposobów zastosowań analizy czynnikowej, czas na zaprezentowanie tej metody w jej najważniejszych szczegółach. W kolejnych podrozdziałach wyszczególniono podstawowe założenia i oparty na nich teoretyczny model analizy czynnikowej. W dalszej kolejności omówiono sekwencję problemów decyzyjnych, które muszą zostać rozstrzygnięte w toku wykonywania analizy czynnikowej. Na zakończenie poruszono problem naruszania podstawowych założeń oraz ich wpływu na rezultaty analiz. Skalowanie druk.indb 155 2009-12-09 14:25:22 156 Mariusz Grzęda Model czynnikowy Matematyczny model analizy czynnikowej opiera się na następujących założeniach: Zmienne ukryte, wskaźniki i ich poziom pomiaru (a) Metoda analizy czynnikowej nawiązuje do koncepcji zmiennej ukrytej (latentnej) i jej obserwowalnych wskaźników. Koncepcja ta zakłada, że zmienna ukryta reprezentuje pewną własność/cechę, która nie poddaje się procedurom pomiaru bezpośredniego. Zwykle zmiennymi ukrytymi w tym rozumieniu w naukach społecznych są abstrakcyjne konstrukty teoretyczne, których nie można mierzyć bezpośrednio. W związku z tym przyjmuje się, że tego rodzaju własności manifestują się w sposób pośredni – to jest poprzez dające się mierzyć wskaźniki, nazywane zmiennymi obserwowalnymi (Netemeyer, Bearden i Sharma 2003)8. Podział na zmienne ukryte oraz zmienne obserwowalne ma miejsce również w kontekście analizy czynnikowej. Zmienne ukryte nazywane są tu czynnikami. Natomiast zmienne obserwowalne – wskaźnikami. (b) Model czynnikowy zakłada, że zarówno czynniki, jak i wskaźniki są zmiennymi reprezentującymi takie własności, które dają się wyrażać za pomocą skal co najmniej interwałowych9. Fakt ten ma ważne konsekwencje, do których koncepcja analizy czynnikowej nawiązuje w wielu punktach i dlatego (pomimo elementarnego charakteru) warto je w tym miejscu sformułować wprost. Zmienne o skalach interwałowych lub mocniejszych można poddawać ściśle określonym przekształceniom, a także – za pomocą określonych statystyk – charakteryzować ich rozkłady oraz stopień wzajemnej zależności. Oto lista najważniejszych przekształceń i własności, do których odwołuje się koncepcja analizy czynnikowej: b1. Przekształcenie liniowe Zgodnie z koncepcją poziomu pomiaru zmiennych S. Stevensa, wartości każdej zmiennej o skali interwałowej lub mocW praktyce badań społecznych przyjmuje się, że cechami ukrytymi są konstrukty teoretyczne określające postawy, orientacje, dyspozycje czy doświadczenia jednostek. 9 Patrz Aneks Poziom pomiaru zmiennych. 8 Skalowanie druk.indb 156 2009-12-09 14:25:22 Wprowadzenie do eksploracyjnej analizy czynnikowej... 157 niejszej można poddawać przekształceniu liniowemu. Jeżeli zmienna Y j jest co najmniej interwałowa, to uprawnione jest jej liniowe przekształcenie o postaci: Yl = tY j + s gdzie t>0 [1] b2. Liczbowe charakterystyki rozkładu Jeżeli zmienna Y j jest co najmniej interwałowa, to jej rozkład można scharakteryzować za pomocą następujących wybranych statystyk: • Średnia: 1 n n – liczba obserwacji [2] E (Y j ) = ∑ Y j n j =1 • Wariancja: D 2 (Y j ) = E[Y j − E (Y j )]2 = E (Y j 2 ) − E 2 (Y j ) [3] • Odchylenie standardowe: D(Y j ) = D 2 (Y j ) [4] b3. Standaryzacja Jeżeli zmienna Y j jest co najmniej interwałowa, to można jej wartości do postaci standaryzowanej Z j : Zj = Y j − E (Y j ) D(Y j ) [5] Operacja standaryzacji posiada dwie ważne właściwości: po pierwsze średnia zmiennej standaryzowanej jest równa zero, po drugie wariancja i odchylenie standardowe są równe jedności. E (Z j ) = 0 [6] D2 (Z j ) = D (Z j ) = 1 [7] b4. Kowariancja. Jeżeli zmienne Y j oraz Yk są co najmniej interwałowe, to ich wspólną zmienność wyraża przeciętna wartość iloczynu odchyleń od średnich zwana kowariancją: cov(Y jYk ) = E{[(Y j − E (Y j )][Yk − E (Yk )]} = E (Y jYk ) − E (Y j ) E (Yk ) Skalowanie druk.indb 157 [8] 2009-12-09 14:25:22 158 Mariusz Grzęda b5. Korelacja Jeżeli zmienne Y j oraz Yk są co najmniej interwałowe, to do wyrażenia ich związku liniowego można zastosować współczynnik korelacji liniowej r: cov(Y jYk ) rY jYk = [9] D(Y j ) D(Yk ) Na podstawie wzorów [1]:[9] łatwo sformułować następujące wnioski: b6. Jeżeli zmienne interwałowe Y j oraz Yk zostały poddane przekształceniu standaryzacji odpowiednio do Z j oraz Z k , to wówczas kowariancja zmiennych Z j i Z k będzie równa współczynnikowi korelacji liniowej między zmiennymi Y j i Yk : cov( Z j Z k ) = E ( Z j Z k ) = rZ j Zk = rY jYk [10] b7. Kowariancja jest miarą symetryczną: cov(Y jYk ) = cov(Yk Y j ) , [11] z czego natychmiast wynika, że współczynnik korelacji również: rY jYk = rYk Y j [12] b8. Kowariancja zmiennej interwałowej Y j z nią samą jest równa wariancji tej zmiennej cov(Y jY j ) = E{[(Y j − E (Y j )][(Y j − E (Y j )]} = E[(Y j − E (Y j )]2 = D 2 (Y j ) [13] Relacje pomiędzy czynnikami a wskaźnikami (c) Matematyczny model analizy czynnikowej zakłada zależność pomiędzy czynnikami a wskaźnikami, dokładnie precyzując kierunek oraz kształt tej zależności. Po pierwsze zakładana jest pierwotność czynników oraz wtórność wskaźników. Oznacza to, że wartości obserwowalnych wskaźników są zależne od ukrytych czynników (a nie na odwrót). Innymi słowy, przyjmuje się, że czynniki stanowią źródło zmienności wskaźników. Po drugie zaś zakłada się, że kształt tej zależności ma charakter funkcji liniowej – wartości każdego wskaźnika są sumą ważoną wartości czynników. W kontekście analizy czynnikowej waga pojedynczego czynnika, jest nazywana ładunkiem czynnikowym. Skalowanie druk.indb 158 2009-12-09 14:25:23 Wprowadzenie do eksploracyjnej analizy czynnikowej... 159 Czynniki wspólne i swoiste (d) Dodajmy do tego kolejne fundamentalne założenie rozpatrywanej tu metody rozróżniające dwa rodzaje czynników – czynniki wspólne (common factors) oraz czynniki swoiste (unique factors). Czynniki wspólne są (jak sama nazwa wskazuje) wspólnym, podzielanym z innymi wskaźnikami źródłem zmienności każdego wskaźnika. W związku z tym na poziomie teoretycznym przyjmuje się, że czynniki te jako wspólne źródło zmienności wskaźników odpowiadają w sposób przyczynowy za wspólną zmienność (czyli kowariancję – zał. b4) wskaźników. Zakłada się ponadto, że liczba czynników wspólnych jest znacznie mniejsza od liczby zmiennych obserwowalnych. (e) Oprócz tego zakłada się, że każdy wskaźnik posiada jeszcze jedno dodatkowe, unikalne i specyficzne tylko dla niego źródło swojej zmienności, które w modelu czynnikowym reprezentuje odpowiadający mu czynnik swoisty. (Oznacza to, że w modelu czynnikowym liczba czynników swoistych jest równa liczbie wskaźników). O ile czynniki wspólne reprezentują zmienne ukryte w sensie zdefiniowanym w podpunkcie (a), to czynnik swoisty jest również zmienną nieobserwowalną, tyle że reprezentującą wszystkie pozostałe właściwości manifestujące się w zmienności danego wskaźnika. Mogą to być między innymi pewne cechy narzędzia pomiarowego wpływające na wynik, jak również pewien stopień przypadkowości, którym zawsze obciążona jest rejestracja wszelkich danych10. (f) Dodatkowo, dla wygody prowadzonych operacji i bez straty ogólności wywodu załóżmy, że wskaźniki i czynniki wspólne są zmiennymi w postaci standaryzowanej, co jest uprawnione w świetle założenia (b). Natomiast o czynnikach swoistych – reprezentujących unikalne źródło zmienności każdego wskaźnika, którego nie da się przypisać czynnikom wspólnym – przyjmijmy, że będą tożsame z tak zwanymi resztami modelu liniowego. A zatem ich średnia będzie równa zeru. Niektórzy autorzy proponują podział swoistego źródła zmienności wskaźnika na część wynikającą z jego specyfiki oraz część wynikającą z błędu losowego (Zakrzewska 1994). Jednak w tym opracowaniu, które ma charakter wprowadzający, swoiste źródło zmienności wskaźnika nie będzie rozdzielane na osobne części. 10 Skalowanie druk.indb 159 2009-12-09 14:25:23 160 Mariusz Grzęda Model czynnikowy Reasumując wprowadzone dotąd fundamentalne założenia teoretyczne i pomiarowe można stwierdzić, że każdy wskaźnik jest liniową funkcją dwóch rodzajów czynników: czynników wspólnych oraz jednego czynnika swoistego. W konsekwencji oznacza to, że każda zmienna obserwowalna posiada dwa źródła zmienności: jedno wspólne, podzielane z innymi wskaźnikami występującymi w modelu, a drugie swoiste, unikalne i właściwe tylko jej11. Na podstawie o powyżych wprowadzonych pojęć i założeń można już sformułować matematyczny ogólny model analizy czynnikowej za pomocą następującego układu równań liniowych: ⎧ X 1 = λ11ξ1 + λ12ξ 2 + + λ1q −1ξ q −1 + λ1qξ q + δ1 ⎪ ⎪ X 2 = λ21ξ1 + λ22ξ 2 + + λ2 q −1ξ q −1 + λ1qξ q + δ 2 ⎨ ⎪ ⎪X = λ ξ + λ ξ + + λ ξ + λ ξ +δ p1 1 p2 2 pq −1 q −1 pq q p ⎩ p [14] gdzie: X 1 , X 2 , …, X p – zmienne obserwowalne/wskaźniki ξ1 , ξ 2 ,...ξ q −1 , ξ q – zmienne ukryte/czynniki wspólne δ1 , δ 2 ,..., δ p – zmienne ukryte/czynniki swoiste λ11 , λ12 ...λ pq −1 , λ pq – wagi czynników wspólnych/ładunki czynnikowe p > q – zgodnie z założeniem (d) liczba wskaźników powinna być większa od liczby czynników wspólnych Aby powyższy układ liniowych równań [14] mógł ujawnić wszystkie zalety modelu czynnikowego lub inaczej: aby rzeczywiście można go było nazwać modelem czynnikowym, należy przyjąć jeszcze dodatkowe, bardzo ważne ograniczenia dotyczące zmiennych występujących w tym modelu: (g) Żaden z czynników wspólnych nie jest skorelowany z jakimkolwiek czynnikiem swoistym: Założenie to może zostać uchylone w przypadku bardziej zaawansowanych modeli czynnikowych (Brown 2006). 11 Skalowanie druk.indb 160 2009-12-09 14:25:23 Wprowadzenie do eksploracyjnej analizy czynnikowej... cov(ξ j , δ k ) = rξ j ,δ k = 0 dla j = 1,..., q oraz k = 1,..., p 161 [15] (h) Zakłada się także brak korelacji pomiędzy czynnikami swoistymi występującymi w modelu: cov(δ k , δ l ) = rδ k ,δl = 0 dla k ≠ l oraz k = 1,..., p l = 1,..., p [16] Przed przystąpieniem do dalszych rozważań warto w tym miejscu explicite zwrócić uwagę na pewne dwie ważne konsekwencje formuły powyższego modelu: Ponieważ w punkcie (f) założono, że zmienne w modelu są w postaci standaryzowanej, uprawnione jest zatem stosowanie terminów kowariancja i korelacja w sposób zamienny (b6). Ponadto z założenia (f) wynika również, że w powyższym modelu będą zachodziły następujące prawidłowości: średnie wszystkich wskaźników, czynników wspólnych i swoistych będą równe zeru: E ( X i ) = E (ξ j ) = E (δ i ) = 0 dla i=1,…p oraz j=1,…,q [17] Natomiast wariancje wskaźników oraz czynników wspólnych będą równe jeden: D 2 ( X i ) = D 2 (ξ j ) = 1 dla i=1,…p oraz j=1,…,q, [18] zaś wariancja każdego czynnika swoistego będzie wyrażona jako: D 2 (δ i ) = E (δ i 2 ) dla i=1,…p [19] co jest konsekwencją wzorów z zapisów [3] i [17]. W sytuacji, gdy powyższe założenia (a):(h) są spełnione, można wykazać, że na podstawie układu równań [14] definiującego model czynnikowy można w sposób jednoznaczny: (*) zdekomponować wariancję każdego wskaźnika na dwie części – część, za którą odpowiadają/wyjaśniają czynniki wspólne oraz część, którą można przypisać efektowi czynnika swoistego, oraz (**) wyznaczyć kowariancję/korelację pomiędzy każdym wskaźnikiem a każdą inną zmienną ujętą w modelu czynnikowym. Skalowanie druk.indb 161 2009-12-09 14:25:23 162 Mariusz Grzęda W pierwszej kolejności zdekomponowana zostanie wariancja ogólnego wskaźnika X i (dla i=1,…p) z układu [14], by sprawdzić, z jakich elementów się składa. Przyjmijmy jeszcze dla wygody, że wariancję zmiennej obserwowalnej X i wyznaczaną na podstawie modelu teoretycznego będziemy oznaczać małą grecką literą σ i z dolnym indeksem wskazującym, której zmiennej statystyka ta dotyczy. Na podstawie definicji [3] wiadomo, że wariancja zmiennej X i jest równa: D2 ( X i ) = σ i = E( X i2 ) − E 2 ( X i ) [20] Skoro założyliśmy, że zmienne wskaźnikowe w modelu czynnikowym są w postaci standaryzowanej (f), to z (b3) [6], a także z [17] wiadomo, że: E2 (Xi ) = 0 [21] A zatem wzór [20] upraszcza się do postaci: σ i = E( X i2 ) [22] Na podstawie układu równań [14] wiadomo, że zmienna X i dana jest wzorem: X i = λi1ξ1 + λi 2ξ 2 + + λiq −1ξ q −1 + λiqξ q + δ i [23] Można zatem powyższe równanie [23] podstawić do wzoru [22]: σ i = E (λi1ξ1 + λi 2ξ 2 + + λiq −1ξ q −1 + λiqξ q + δ i ) 2 , [24] a jego algebraiczne rozwinięcie da: σi = E(λi21ξ12 + λi22ξ22 +"+ λiq2−1ξq2−1 + λiq2ξq2 + δi2 + 2λi1λi 2ξ1ξ2 +"+ +2λi1λiq−1ξ1ξq−1 + 2λi1λiqξ1ξq +"+ 2λi2λiq−1ξ2ξq−1 + 2λi 2λiqξ2ξq +"+ +2λiq−1λiqξq−1ξq + 2λi1ξ1δi + 2λi 2ξ2δi +"+ 2λiq−1ξq−1δi + 2λiqξqδi ) [25] Z kolei zapis [25] można dalej przekształcić do postaci: σi = λi1 E(ξ1 ) + λi 2 E(ξ2 ) + "+ λiq−1 E(ξq−1 ) + λiq E(ξq ) + E(δi ) + 2 2 2 2 2 2 2 2 2 +λ λ 2E(ξ ξ ) + "+ λ λ 2E(ξ ξ ) + λ λ 2E(ξ ξ ) + "+ i1 i2 i1 1 2 iq −1 1 q −1 i1 iq 1 q λ 2E(ξq−1ξq ) + iq −1 iq +λ λ 2E(ξ ξ ) + λ λ 2E(ξ ξ ) +"+ λ i2 iq −1 2 q −1 i2 iq 2 q +λ 2E(ξ δ ) + λ 2E(ξ δ ) +"+ λ 2E(ξ i1 Skalowanie druk.indb 162 1 i i2 2 i iq −1 [26] δi ) + λiq 2E(ξqδi ) q −1 2009-12-09 14:25:24 Wprowadzenie do eksploracyjnej analizy czynnikowej... 163 i przeanalizować w świetle powziętych założeń (a):(h), co pozwoli go znacznie uprościć: Z założenia (f) oraz (b2) wzory [3] i [7] o zmiennych standaryzowanych wiadomo, że we wzorze [26] : E (ξ ) = D 2 (ξ j ) = 1 dla j = 1,..., q 2 j [27] oraz z [17], że średnia kwadratów czynnika swoistego wyraża jego wariancję: E (δ i2 ) = D 2 (δ i ) [28] Ponadto w powyższym wzorze [26] występują także wyrażenia przedstawiające średnie z iloczynów czynników wspólnych, o których wiadomo z założenia b6 wzór [10], że gdy zmienne są standaryzowane, są one kowariancjami/współczynnikami korelacji tych czynników: E (ξ ξ ) = cov(ξ ξ ) = rξ jξk dla j , k = 1,..., q j k j k [29] We wzorze [26] występują także średnie iloczynów czynników wspólnych i czynnika swoistego zmiennej X i , o których z założenia (g) wiadomo, że są równe zeru: E (ξ δ ) = cov(ξ δ ) = rξ jδi = 0 j i j dla j = 1,..., q i [30] W świetle wszystkich wymienionych tu prawidłowości wzór [26] można sprowadzić do następującej postaci: σ i = λi21 + λi22 + "+ λiq2 −1 + λiq2 + λi1λi 2 2cov(ξ1ξ2 ) + "+ +λi1λiq−1 2cov(ξ1ξq−1 ) + λi1λiq 2cov(ξ1ξq ) + "+ +λi 2λiq−1 2cov(ξ2ξq−1 ) + λi 2λiq 2cov(ξ2ξq ) + "+ [31] +λiq−1λiq 2cov(ξq−1ξq ) + D2 (δi ) Powyższy wzór pokazuje, że wariancję pojedynczego wskaźnika daje się zdekomponować na dwie części: część, za którą odpowiadają czynniki 2 wspólne, oznaczmy ją przez hi : hi 2 = λi 1 2 + λ + " λ + λ + λ1λ2 2 cov(ξ ξ ) + " + 2 2 2 i2 iq −1 iq +λq −1λq 2 cov(ξ Skalowanie druk.indb 163 ξq ) 1 2 [32] q −1 2009-12-09 14:25:24 164 Mariusz Grzęda oraz resztę – część swoistą wynikającą z unikalnego, indywidualnego źródła zmienności zmiennej X i , jakim jest czynnik swoisty. Ta część wariancji wskaźnika jest zapisana jako ostatni wyraz wyrażenia z zapisu [31]: D 2 (δ i ) . Jak już wiadomo z [28], jest to wariancja czynnika swoistego dla zmiennej X i . Przyjmijmy teraz konwencję, że będziemy tę część oznaczali symbolem θi2 : D 2 (δ i ) = θi2 [33] A zatem, możemy powiedzieć, że całkowita zmienność wartości wskaźnika X i (reprezentowana przez jego wariancję σ i ) posiada dwa niezależne źródła: pierwsze reprezentujące zmienność wartości wskaźnika wynika2 jącą z czynników wspólnych (oznaczana przez hi ) oraz drugie reprezentujące zmienność wartości wskaźnika wynikającą z czynnika swoistego (oznaczaną przez θi2 ). Dodatkowo, jeżeli przyjęliśmy, że zmienne modelu są w postaci standaryzowanej, to natychmiast wynika z tego faktu (na pod2 stawie zał. b3 wzór [7]), że σ i będzie równa jedności a wielkości hi 2 i θ będą informowały o tym, jaka część całkowitej wariancji wskaźnika jest wyjaśniana przez poszczególne źródła zmienności. Można zapisać ten istotny fakt jako: i σ i = hi2 + θi2 = 1 [34] 2 W analizie czynnikowej część hi nosi nazwę zasobu zmienności wspólnej wskaźnika (communality). Warto również zwrócić w tym miejscu uwagę na ważną zależność, do której w jednym z kolejnych rozdziałów nastąpi odwołanie w ważnym punkcie analizy czynnikowej. W przypadku niezależności czynników wspólnych wartość communality jest po prostu sumą podniesionych do kwadratu ładunków czynnikowych czynników wspólnych. Wielkości kwadratów poszczególnych ładunków czynnikowych informują o sile/wkładzie danego czynnika w zmienność danego wskaźnika. A zatem wzór [32] w tej sytuacji uprości się do: hi 2 = λi 1 2 +λ + 2 i2 λiq −1 2 +λ 2 iq [35] Natomiast w przypadku, gdy dopuszcza się skorelowanie czynników wspólnych, poszczególne kwadraty ładunków informują tylko częściowo o wpływie danego czynnika na wskaźnik. Dodatkowo należy brać bowiem Skalowanie druk.indb 164 2009-12-09 14:25:25 Wprowadzenie do eksploracyjnej analizy czynnikowej... 165 pod uwagę jeszcze wspólny wpływ tego czynnika wraz z innymi skorelowanymi z nim czynnikami wspólnymi na zmienność wskaźnika. O tym, za jaką wielkość wariancji wskaźnika odpowiadają wspólnie poszczególne pary czynników, informują wyrażenia zawierające kowariancje czynników wspólnych we wzorze [32]. W analogiczny sposób można również dokonać dekompozycji kowariancji dwóch zmiennych wskaźnikowych.. Weźmy z modelu [14] dwie zmienne wskaźnikowe. Niech będą to: X i , X j (gdzie i,j=1,…,p). Przyjmijmy jeszcze dla wygody, że kowariancję pomiędzy zmiennymi obserwowalnymi, wyznaczaną na podstawie modelu teoretycznego, będziemy oznaczać małą grecką literą σ ij z dolnym indeksem wskazującym, których zmiennych statystyka ta dotyczy. Na podstawie definicji [8] wiadomo, że kowariancja między X i , X j będzie równa.: cov( X i , X j ) = σ ij = E ( X i X j ) − E ( X i ) E ( X j ) [36] Ponieważ założyliśmy standaryzację zmiennych (f), to z założenia b3 [6] wiadomo, że: E( X i ) = E( X j ) = 0 [37] A zatem wzór [36] upraszcza się do postaci: σ ij = E ( X i X j ) [38] Z modelowego układu równań [14] wiadomo, że każda ze zmiennych X i , X j jest funkcją liniową q-czynników wspólnych oraz jednego odpowiadającego jej czynnika swoistego: X i = λi1ξ1 + λi 2ξ 2 + X j = λ j1ξ1 + λ j 2ξ 2 + + λiq −1ξ q −1 + λiqξ q + δ i + λiq −1ξ q −1 + λ jqξ q + δ j [39] Można zatem równania [39] podstawić do wzoru [38]: σ ij = E[(λi1ξ1 + λi 2ξ 2 + + λiq −1ξ q −1 + λiqξ q + δ i ) (λ j1ξ1 + λ j 2ξ 2 + + λiq −1ξ q −1 + λ jqξ q + δ j )] Skalowanie druk.indb 165 [40] 2009-12-09 14:25:25 166 Mariusz Grzęda A następnie przemnożyć przez siebie obie części wyrażenia pod znakiem średniej: σ ij = E[λi1λ j1ξ12 + λi1λ j 2ξ1ξ2 + " + λi1λ jq−1ξ1ξq−1 + λi1λ jqξ1ξq + λi1ξ1δ j + +λi 2λ j1ξ2ξ1 + λi 2λ j 2ξ22 + " + λi 2λ jq−1ξ2ξq−1 + λi 2λ jqξ2ξq + λi 2ξ2δ j + "+ +λiq−1λ j1ξq−1ξ1 + λiq−1λ j 2ξq−1ξ2 + " + λiq−1λ jq−1ξ q2−1 + λiq−1λ jqξq−1ξq + +λiq λ j1ξqξ1 + λiqλ j 2ξqξ2 + " + λiqλ jq−1ξqξq−1 + λiqλ jqξq2 + λiqξqδ j + +λ j1ξ1δi + λ j 2ξ2δi + " + λ jq−1ξq−1δi + λ jqξqδi + δiδ j ] [41] Równanie [41] można następnie przekształcić do postaci: σij = λi1λj1E(ξ12 ) + λi1λj 2E(ξ1ξ2 ) +"+ λi1λjq−1E(ξ1ξq−1) + λi1λjq E(ξ1ξq ) + +λi1E(ξ1δ j ) + λi2λj1E(ξ2ξ1) + λi2λj 2 E(ξ22 ) +"+ λi2λjq−1E(ξ2ξq−1) + +λi 2λjq E(ξ2ξq ) + λi 2E(ξ2δ j ) +"+ λiq−1λj1E(ξq−1ξ1) + λiq−1λj 2E(ξq−1ξ2 ) + +"+ λiq−1λjq−1E(ξq2−1) + λiq−1λjq E(ξq−1ξq ) + λiq−1E(ξq−1δ j ) + λiqλj1E(ξqξ1) + +λiqλj 2 E(ξqξ2 ) +"+ λiqλjq−1E(ξqξq−1) + λiqλjq E(ξq2 ) + λiq E(ξqδ j ) + +λj1E(ξ1δi ) + λj 2E(ξ2δi ) +"+ λjq−1E(ξq−1δi ) + λjq E(ξqδi ) + E(δiδ j ) [42] oraz przeanalizować powyższy wzór w świetle założeń (a):(h), aby sprawdzić, czemu jest równa kowariancja/korelacja zmiennych X i , X j . Z założenia (g) wiadomo, że: E (ξ k δ l ) = cov(ξ k δ l ) = rξk δl =0 dla k = 1,..., q oraz l = 1,..., p [43] oraz z założenia (h), że: E (δ iδ j ) = cov(δ iδ j ) = rδiδ j =0 [44] Co oznacza, że na mocy powyższych konsekwencji założeń modelu czynnikowego ze wzoru [42] znikają wszystkie wyrażenia, których składnikiem jest czynnik wspólny oraz którykolwiek z czynników swoistych lub dwa czynniki swoiste. Natomiast założenie b6 wzór [10] pokazuje, że: E (ξ k ξl ) = cov(ξ k ξl ) = rξkξl dla k , l = 1,..., q Skalowanie druk.indb 166 [45] 2009-12-09 14:25:26 Wprowadzenie do eksploracyjnej analizy czynnikowej... 167 Jak już pokazano wcześniej, przy okazji dekompozycji wariancji pojedynczego wskaźnika wiadomo, że w równaniu [42]: E (ξ k2 ) = D 2 (ξ k ) = 1 dla k = 1,..., q [46] W konsekwencji zapis kowariancji zmiennych X i , X j sprowadzi się do następującej formuły: σij = λi1λj1 + λi2λj 2 +"+ λiq−1λjq−1 + λiqλjq + +λi1λj 2 cov(ξξ 1 2 ) +"+ λiq−1λjq cov(ξq−1ξq ) [47] Na podstawie powyższego wzoru można zatem stwierdzić, że kowariancję/korelację dwóch dowolnych zmiennych można w zgodzie z założeniami modelu [14] przedstawić jako sumę iloczynów ładunków czynnikowych tych zmiennych na wspólnych czynnikach oraz sumę iloczynów ładunków na czynnikach skorelowanych przez współczynnik korelacji między czynnikami. Znowu wart szczególnego podkreślenia jest ewentualny przypadek, w którym, czynniki wspólne będą ze sobą nieskorelowane. Oznacza to, że wówczas wartość kowariancji/korelacji pomiędzy nimi będzie równa zeru. W konsekwencji zapis [47] uprości się do postaci: σ ij = λi1λ j1 + λi 2 λ j 2 + + λiq −1λ jq −1 + λiq λ jq [48] A zatem w sytuacji, gdy czynniki wspólne będą ze sobą nieskorelowane, wówczas korelację pomiędzy dwoma dowolnymi wskaźnikami w modelu można przedstawić jako sumę iloczynów odpowiednich ładunków czynnikowych tych zmiennych na wszystkich czynnikach wspólnych w modelu. Na zakończenie tej części warto zwrócić jeszcze uwagę na założenie b8 wzór [13], które wskazuje, że kowariancja zmiennej ze samą sobą jest także jej wariancją. Wówczas we wzorze [42] można dostrzec w każdym wyrazie kowariancję dwóch czynników wspólnych (w niektórych przypadkach będą to po prostu te same czynniki wspólne). Pozwala to w sposób bardzo wygodny uogólnić wzór [42] do następującej postaci: q q σ ij = [∑∑ λik λ jl cov(ȟ k ȟ l )] + cov(δ iδ j ) dla i,j=1,…,p k,l=1,..,q [49] k =1 l =1 Skalowanie druk.indb 167 2009-12-09 14:25:26 168 Mariusz Grzęda Łatwo zauważyć uniwersalność powyższego wzoru. Jeśli bowiem założymy, że wariancja wskaźnika jest także jego kowariancją, to według powyższego wzoru [49] będzie to po prostu szczególny przypadek, w którym k=l i jedyna sytuacja gdzie wyraz cov(δ iδ j ) nie będzie równy zeru na mocy samych założeń modelu. Mogąc obliczyć kowariancję dla każdej pary zmiennych wskaźnikowych możemy je umieścić w kwadratowej macierzy stopnia p, w której na przecięciu każdego wiersza i każdej kolumny będzie umieszczona kowariancja/korelacja pary wskaźników odpowiadających wybranemu wierszowi i kolumnie. Przyjmijmy dalej, że macierz kwadratową, zawierającą wszystkie kowariancje dla wszystkich zmiennych w modelu będzie oznaczana jako Ȉ = [σ ij ] p× p . Z założenia b7 [11] wiemy, że macierz Ȉ będąc de facto macierzą korelacji na głównej diagonalnej będzie miała jedynki: ⎡σ 11 σ 12 ⎢σ σ 22 21 Ȉ=⎢ ⎢ # # ⎢ ⎢⎣σ p1 σ p 2 " σ 1 p ⎤ ⎡ 1 σ 21 " σ 2 p ⎥⎥ ⎢⎢σ 21 1 = % # ⎥ ⎢ # # ⎥ ⎢ " σ pp ⎥⎦ ⎢⎣σ p1 σ p 2 " σ p1 ⎤ " σ p 2 ⎥⎥ % # ⎥ ⎥ " 1 ⎥⎦ [50] Podążając dalej w kierunku coraz większego uogólniania można wreszcie zapisać cały model czynnikowy ekwiwalentnie do wzoru [14] w sposób bardziej oszczędny używając notacji macierzowej. Będzie miał on wówczas następującą postać: x = ȁȟ + į [51] gdzie: x = ( X 1 X 2 … X p ) ' – wektor o wymiarach ( p ×1) wskaźników ȟ = (ξ1ξ2 ...ξq ) ' – wektor o wymiarach (q ×1) czynników wspólnych į = (δ1δ 2 ...δ p ) ' – wektor o wymiarach ( p ×1) czynników swoistych ⎛ λ11 ! λ1q ⎞ ⎜ ⎟ ȁ p×q = ⎜ # % # ⎟ – macierz o wymiarach ( p × q) ładunków czynni⎜λ ⎟ kowych ⎝ p1 " λ pq ⎠ Wówczas zgodnie ze wzorem [49] macierz korelacji/kowariancji pomiędzy zmiennymi wskaźnikowymi można zapisać jako iloczyn następujących macierzy wyrażenie: Skalowanie druk.indb 168 2009-12-09 14:25:26 Wprowadzenie do eksploracyjnej analizy czynnikowej... 169 Ȉ = ȁĭȁ '+ Ĭ [52] gdzie: ⎛ φ11 ! φ1q ⎞ ⎛ 1 ! φ1q ⎞ ĭ = ⎜⎜ # % # ⎟⎟ = ⎜⎜ # % # ⎟⎟ ⎜φ " φ ⎟ ⎜φ " 1 ⎟ qq ⎠ ⎝ q1 ⎝ q1 ⎠ – jest macierzą o wymiarach (q × q ) korelacji/kowariancji między czynnikami wspólnymi ⎛θ 2 0 ⎞⎟ ⎜ 1 Ĭ=⎜ % ⎟ ⎜⎜ 2⎟ θ p ⎟⎠ ⎝0 – jest macierzą diagonalną o wymiarach ( p × p ) korelacji/kowariancji czynników swoistych Dowód równania [52] można przeprowadzić również wykorzystując równanie macierzowe. W zapisie macierzowym macierze kowariancji można przedstawić jako wartości średnie z iloczynu odpowiednich wektorów zmiennych przez ich transpozycje. Wówczas odpowiednie macierze będą reprezentowane następującymi wzorami:: Ȉ = E (xx ') ĭ = E (ȟȟ ') Ĭ = E (įį') z założenia będzie macierzą diagonalną [53] [54] [55] Z założenia natomiast: E (ȟį ') = E (įȟ ') = 0 będą macierzami zerowymi [56] Do równania [53] podstawmy za x prawą część równania [51], którym zdefiniowany jest ten wektor zmiennych: Ȉ = E (xx ') = E ⎡⎣( ȁȟ + į)(ȁȟ + į) '⎤⎦ [57] Po wymnożeniu elementów pod znakiem średniej macierz Ȉ będzie dana jako: Skalowanie druk.indb 169 2009-12-09 14:25:28 170 Mariusz Grzęda Ȉ = E ⎡⎣ ȁȟȟ ' ȁ '+ ȁȟį '+ įȟ ' ȁ '+ įį '⎤⎦ Ȉ = E ( ȁȟȟ ' ȁ ') + E (ȁȟį ') + E (įȟ ' ȁ ') + E (įį ') [58] Z zapisu [56] wynika, że elementy drugi i trzeci powyższego zapisu [58] będą macierzami zerowymi: E ( ȁȟį ') = E (įȟ ' ȁ ') = 0 [59] A zatem pozostanie: Ȉ = E ( ȁȟȟ ' ȁ ') + E (įį ') [60] Na mocy definicji [54] oraz [55] można zatem zapisać: Ȉ = ȁĭȁ '+ Ĭ [61] Powyższe wzory pokazują, że na podstawie założeń (a):(h) dla modelu sformułowanego we wzorze [51] można w sposób jednoznaczny wyznaczyć macierz korelacji/kowariancji Ȉ dla wektora wskaźników x . Logika analizy czynnikowej Wykazano powyżej, że na podstawie modelu czynnikowego i kilku dodatkowych założeń można w sposób jednoznaczny wyznaczyć kowariancje/ korelacje pomiędzy dowolnymi wskaźnikami, a w konsekwencji również całą macierz Ȉ = [σ ] p× p dla zmiennych obserwowalnych. W rzeczywistości w badaniach empirycznych mamy jednak do czynienia z sytuacją odwrotną. To znaczy z taką, w której znana jest tylko macierz wariancji/kowariancji zmiennych. Natomiast sam model jest nieznany. Innymi słowy, widoczne są tylko konsekwencje (macierz kowariancji), a przyczyna, która je wywołała, pozostaje niewiadoma (model). Istota analizy czynnikowej sprowadza się więc do tego, że na podstawie macierzy korelacji obserwowalnych wskaźników wnioskuje się o postaci modelu, który mógł ją wygenerować (Kim i Mueller 1978a; 1978b; Child 2006). Schematycznie problem ten przedstawia poniższy rysunek: Skalowanie druk.indb 170 2009-12-09 14:25:30 Wprowadzenie do eksploracyjnej analizy czynnikowej... Teoria Model czynnikowy 171 Praktyka Macierz korelacji Macierz korelacji ? Model czynnikowy Rysunek 1. Teoria i praktyka analizy czynnikowej Źródło: Opracowanie własne [MG] Gdy badacz nie precyzuje struktury modelu i wartości jego głównych parametrów takich jak: liczba czynników wspólnych, stopień ich wzajemnego skorelowania oraz struktury związków pomiędzy poszczególnymi wskaźnikami a czynnikami wspólnymi, wówczas taki rodzaj analizy czynnikowej nosi nazwę eksploracyjnej (exploratory factor analysis – EFA). Analiza czynnikowa o charakterze eksploracyjnym jest wykonywana w celu wyznaczenia modelu czynnikowego, którego struktura i parametry pozwalają w zadowalającym stopniu odtworzyć macierz współczynników korelacji obserwowalnych zmiennych. Istotą tego podejścia (w przeciwieństwie do analizy o charakterze konfirmacyjnym) jest uzyskanie modelu czynnikowego praktycznie bez wskazywania żadnych istotnych ograniczeń co do jego postaci (Brown 2006). W tym miejscu pojawia się jednak fundamentalny problem analizy czynnikowej. Polega on na tym, że na podstawie macierzy kowariancji/korelacji nie można wyznaczyć w sposób jednoznaczny modelu czynnikowego. O ile bowiem w sytuacji znanego modelu istnieje tylko jedna macierz kowariancji/ korelacji odpowiadająca temu modelowi, to już gdy sytuacja jest odwrotna – gdy na podstawie macierzy kowariancji próbuje się wnioskować o postaci modelu – wówczas liczba rozwiązań jest nieskończona. Kim i Mueller (1978a) w przekonujący sposób wykazują jak bardzo różne mogą być modele czynnikowe pasujące do tej samej macierzy korelacji. Przykłady prezentowane przez wspomnianych autorów pokazują, że brak jednoznaczności w analizie czynnikowej może być potencjalnie źródłem bardzo poważnych problemów interpretacyjnych. Dzięki przedstawionym przez Skalowanie druk.indb 171 2009-12-09 14:25:32 172 Mariusz Grzęda wspomnianych autorów przykładom z powodzeniem można wyobrazić sobie sytuację, w której dwaj badacze, wychodząc od tej samej macierzy korelacji jako wynik analizy czynnikowej przedstawiają dwa różne modele, a także, że wykorzystując te modele budują, bądź potwierdzają, dwie różne teorie. W rzeczywistości bowiem wszystkie modele ze statystycznego punktu widzenia są prawidłowo dopasowane do danych wejściowych. Natomiast różnice między nimi wynikają z pewnych rozstrzygnięć, jakie zostały podjęte w każdym z przedstawionych przypadków. Fakt ten oznacza, że procedura wyznaczania modelu czynnikowego w oparciu o macierz korelacji wskaźników z punktu widzenia badacza ją wykonującego wiąże się z koniecznością podjęcia decyzji, które mają charakter arbitralny. Nie mają bowiem dobrego uzasadnienia statystycznego (Kim i Mueller 1978a; 1978b). W analizie czynnikowej można mówić o co najmniej kilku krytycznych punktach, w których badacz świadomie (lub nie) decyduje się na jedną spośród wielu dostępnych opcji. Każda z nich ma swoje właściwości, wady i zalety. Niektóre z dostępnych opcji są bardziej arbitralne – inne mniej. W każdym jednak przypadku podjęta decyzja może przesądzać o ostatecznej postaci modelu czynnikowego, który zostanie wyznaczony. Dlatego niezwykle ważna jest świadomość wszystkich krytycznych punktów wykonywania analizy czynnikowej. Poniżej przedstawiono ich przegląd wraz z ich możliwymi rozwiązaniami oraz konsekwencjami wyboru poszczególnych opcji. Tam gdzie jest to uzasadnione, przedstawiono argumentację przemawiającą na korzyść jednej z nich. Szacowanie zasobów zmienności wspólnej Zacznijmy od sposobu szacowania wartości zasobów zmienności wspólnej każdej zmiennej ( hi2 dla i=1,…p) – tak zwanych communalities, wskazujących, za jaką część wariancji każdego wskaźnika odpowiadają czynniki wspólne. Jest to pierwszy bardzo ważny punkt w analizie czynnikowej, wymagający decyzji o charakterze arbitralnym. Jak było wspomniane wcześniej, właściwa analiza czynnikowa w praktyce polega na wnioskowaniu o postaci modelu czynnikowego, na podstawie dostępnej macierzy korelacji między obserwowalnymi wskaźnikami Ȉ. W oparciu o macierz Ȉ tworzona się tak zwana zredukowana macierz kore- Skalowanie druk.indb 172 2009-12-09 14:25:32 Wprowadzenie do eksploracyjnej analizy czynnikowej... 173 lacji Ȉ1, na podstawie której wyznaczane są ładunki czynnikowe (o czym szerzej w następnym podrozdziale). Zredukowana macierz korelacji Ȉ1 jest macierzą korelacji wskaźników, która na głównej przekątnej zamiast jedynek zawiera oszacowania zasobów zmienności wspólnej (communalities). Oznacza to, że macierz zredukowana różni się od macierzy korelacji tylko pod względem przekątnej głównej, gdzie umieszczone są wartości hi2 (dla i=1,…p). Natomiast poza diagonalną znajdują się korelacje pomiędzy odpowiednimi wskaźnikami σ ij (dla i,j=1,…,p) – czyli dokładnie tak samo jak w macierzy Ȉ. Gdy znane są zasoby zmienności wspólne każdej zmiennej, znana jest również automatycznie część wariancji każdego wskaźnika powodowana jej czynnikiem swoistym (i na odwrót). Zachodzi bowiem prawidłowość: 1 = hi2 + θi2 [62] Na podstawie powyższej prawidłowości można zatem w zapisie macierzowym bardziej ogólnie zdefiniować zredukowaną macierz korelacji wskaźników Ȉ1 jako różnicę macierzy korelacji Ȉ oraz macierzy diagonalnej Ĭ = diag (θ12 ,θ 22 ,...,θ p2 ) , która na głównej przekątnej zawiera wariancje czynników swoistych: Ȉ1 ⎡1 − θ12 σ 21 ⎢ σ 21 1 − θ 22 ⎢ = Ȉ -Ĭ = ⎢ # # ⎢ σ p2 ⎣⎢ σ p1 ⎡ h12 σ 21 ⎢ " σ 21 h22 ⎢ = % # ⎥ ⎢ # # ⎢ 2⎥ " 1 − θ p ⎦⎥ ⎣⎢σ p1 σ p 2 " σ p1 ⎤ ⎥ σ p2 ⎥ " σ p1 ⎤ ⎥ " σ p2 ⎥ % # ⎥ ⎥ " hp2 ⎥⎦ [63] Macierz Ȉ1 stanowi właściwą, analityczną podstawę wyznaczania ładunków czynnikowych i innych istotnych parametrów modelu. W sytuacji, gdy nieznany jest model czynnikowy, a dostępna jest jedynie macierz korelacji Ȉ (z jedynkami na głównej przekątnej), nieznane wartości zasobów zmienności wspólnej hi2 dla każdego wskaźnika zmiennej stanowią poważny problem. Bez nich bowiem (jak będzie pokazane w następnym podrozdziale) wyznaczenie ładunków czynnikowych jest nie możliwe. Pojawia się zatem problem oszacowania ich wartości. W rzeczywistości jak słusznie zauważa Jacques Tacq (1997), czynność ta ma więcej wspólnego ze zgadywaniem niż szacowaniem. Skalowanie druk.indb 173 2009-12-09 14:25:32 174 Mariusz Grzęda Istnieje wiele metod wyznaczana wartości communalities w pierwszym kroku analizy czynnikowej. Kim i Mueller (1978a,b) twierdzą, że jedną z najczęściej przyjmowanych wartości jako zasób zmienności wspólnej zmiennej jest po prostu kwadrat współczynnika korelacji wielokrotnej pomiędzy rozpatrywanym wskaźnikiem, a pozostałymi zmiennymi, które znalazły się w wyjściowym zestawie wskaźników modelu. Innymi słowy, jako wartość communality zmiennej X i jest tu przyjmowana wielkość odsetka wariancji tej zmiennej wyjaśnianej jako zmienna zależna przez zmienne niezależne, którymi będą pozostałe obserwowalne wskaźniki wprowadzone do modelu czynnikowego. Jest to dobrze znana miara R-kwadrat powszechnie stosowana w analizach regresji liniowej wielokrotnej: hi2 = RX2 i | X j ,..., X k i≠ j≠k i, j , k = 1, 2,... p [64] Inną równie powszechnie stosowaną metodą szacowania wartości communalities jest uznanie za wartość tego parametru największej wartości bezwzględnej współczynnika korelacji liniowej r spośród wartości współczynników wyliczonych dla par złożonych z jednej strony ze zmiennej X i oraz pojedynczo wszystkich pozostałych zmiennych uwzględnionych w wyjściowym zestawie wskaźników. Warunek ten można sformułować w następujący sposób (Kim i Mueller 1978a; b): hi2 = max rij i ≠ j i, j = 1, 2,... p [65] Kolejnym wskazywanym w literaturze sposobem wyznaczania wartości na diagonalnej zredukowanej macierzy korelacji Ȉ1 jest przeciętna wartość współczynnika korelacji r obliczona dla wszystkich par zmiennych złożonych z jednej strony ze zmiennej X i oraz pojedynczo wszystkich pozostałych zmiennych (Ostasiewicz 1999; Witkowska 2002): h = 2 i 1 p −1 p ∑r j =1 j ≠i ij i, j = 1, 2,... p [66] Innym, ostatnim spośród tu omawianych, rodzajem, wskazywania zasobów zmienności wspólnej jest odsetek przyrównujący iloczyn dwóch najwyższych współczynników korelacji zmiennej X i z pozostałymi zmiennymi (powiedzmy, że będą to X j oraz X k ) do współczynnika korelacji pomiędzy Skalowanie druk.indb 174 2009-12-09 14:25:34 Wprowadzenie do eksploracyjnej analizy czynnikowej... 175 tymi zmiennymi. W tym wypadku oszacowanie hi2 zmiennej X i będzie dane jako: hi2 = rij rik rjk i≠ j≠k i, j , k = 1, 2,... p [67] gdzie: rij rik są maksymalnymi co do wartości bezwzględnej współczynnikami korelacji liniowej zmiennej X i z innymi zmiennymi wskaźnikowymi uwzględnionymi jako wskaźniki w modelu czynnikowym. Należy tu podkreślić, że przedstawione powyżej metody szacowania wartości głównej przekątnej macierzy Ȉ1 dotyczą jedynie pierwszego, początkowego rozwiązania problemu wyznaczenia ładunków czynnikowych na podstawie macierzy korelacji wskaźników Ȉ. Jest to tak zwane rozwiązanie wstępne. Kiedy za pomocą jednej ze wskazanych wyżej metod wyznaczone są wartości communalities, automatycznie znane są już na tej podstawie ładunki czynnikowe modelu (patrz: następny rozdział). Następnie, na podstawie obliczonych ładunków czynnikowych wyznaczana jest zredukowana macierz korelacji (dla odróżnienia, że jest to macierz wyznaczana z bazującego na szacunkach modelu, oznaczmy ją „daszkiem” Ȉ̂1). A potem macierze Ȉ1 i Ȉ̂1są ze sobą porównywane. Weryfikowana jest hipoteza o równości obydwu ˆ 1 . Zwykle pierwsze rezultaty porównań są wysoce niemacierzy: h0 : Ȉ1 = Ȉ satysfakcjonujące – wskazują, że macierz Ȉ̂1 oszacowana na podstawie wyznaczonego modelu opartego na „odgadniętych” wartościach communalities znacznie odbiega od macierzy danych obserwowanych Ȉ1. Szacunki communalities służą jednak jako pierwszy krok do wyznaczenia wstępnego – można powiedzieć „jakiegokolwiek” w miarę sensownego – rozwiązania, które następnie będzie stanowiło punkt wyjścia do dalszej, iteracyjnej procedury wyznaczania rozwiązania czynnikowego (Tacq 1997). Rozwiązanie uważa się za ostateczne w sytuacji, gdy zostaną osiągnięte zadane kryteria zbieżności – polegające głównie (choć nie tylko) na tym, że w perspektywie tych kryteriów różnica pomiędzy macierzą odtworzoną z modelu a macierzą zaobserwowaną w danych będzie nieistotna. Istnieje wiele metod iteracyjnego wyznaczania rozwiązania czynnikowego, z których każda przyjmuje inne kryteria zbieżności. Można wymienić tu kilka: metodę osi głównych (Principal Axis Factoring – PAF), metodę najmniejszych reszt (Unweighted Least Squ- Skalowanie druk.indb 175 2009-12-09 14:25:34 176 Mariusz Grzęda ares – ULS, znana także pod skrótem MINRES), metodę uogólnionych kwadratów (Generalised Least Squares – GLS) czy wreszcie metodę największej wiarygodności (Maximum Likelihood – ML). Mimo, że oparte są one na różnych zasadach działania, to wyniki przez nie generowane w postaci modeli czynnikowych rzadko różnią się pomiędzy sobą (Górniak 2000). Metody te zostały szczegółowo opisane w literaturze (również w języku polskim: np. Górniak 2000, Malarska 2005). Z punktu widzenia postawionego w tym podpunkcie problemu decyzyjnego bardziej interesująca może być jednak kwestia wpływu metody wstępnego szacowania wartości communalities na ostateczne wyniki rozwiązania czynnikowego. Otóż, jak podsumowuje wyniki swoich analiz Raymond Cattel – znawca tej metody – różne kryteria estymacji zasobów zmienności wspólnej i technik analitycznych nie mają większego znaczenia. Uzyskiwane różnice w rozwiązaniach ostatecznych są zwykle niewielkie (za: Child 2006). Tak więc podsumowując ten punkt można stwierdzić, że pomimo istotnego stopnia arbitralności wyboru metody wyznaczania zasobów zmienności wspólnej na główną diagonalną zredukowanej macierzy korelacji ostateczne rozwiązania czynnikowe nie są z tego powodu zróżnicowane. Wyznaczanie ładunków czynnikowych Jak zostało już wcześniej wielokrotnie zasygnalizowane, w sytuacji w której oszacowane są już zasoby zmienności wspólnej (communalities), rozwiązanie czynnikowe jest praktycznie gotowe. W tym miejscu przyjrzymy się nieco dokładniej temu stwierdzeniu, sprawdzając, w jaki sposób jest ono generowane. Można tu również dodać, że wszystkie szczegółowe metody analizy czynnikowej w oparte na wyznaczonych wartościach communalities korzystają z tego samego sposobu generowania rozwiązania problemu znalezienia ładunków czynnikowych. Jak się okaże, sposób ten jest również oparty w kilku punktach na arbitralnych założeniach. Poniżej przedstawiono jego szczegóły. Podstawą analizy czynnikowej jest zredukowana macierz korelacji Ȉ1, która na diagonalnej zawiera oszacowania zasobów zmienności wspólnej każdej zmiennej (communalities) oraz współczynniki korelacji pomiędzy wskaźnikami poza diagonalną. W oparciu o macierz Ȉ1 dokonuje się wnio- Skalowanie druk.indb 176 2009-12-09 14:25:36 Wprowadzenie do eksploracyjnej analizy czynnikowej... 177 skowania o postaci modelu czynnikowego, a dokładniej o ładunkach czynnikowych. W celu wygenerowania rozwiązania tego problemu przyjmowane jest założenie o tym, że czynniki wspólne są liniowo niezależne, co w kontekście modelu oznacza, że ich macierz korelacji będzie macierzą jednostkową: ĭ=I [68] W późniejszym etapie analizy czynnikowej zwanym rotacją, to arbitralne założenie może (i najczęściej powinno) zostać uchylone, o czym Czytelnik przekona się w jednym z następnych podrozdziałów. Niemniej jednak założenie [68] ma pewne istotne konsekwencje: • Jeżeli wiadomo, że czynniki wspólne mają być niezależne liniowo, to w świetle założeń modelu, zasób zmienności wspólnej każdego wskaźnika hi2 będzie równy podniesionym do kwadratu zsumowanym ładunkom czynnikowym: q hi2 = ∑ λij2 = λi21 + λi22 + j =1 • + λiq2 −1 + λiq2 [69] Jednocześnie poszukiwane są takie wartości współczynników liniowych żeby była spełniona zależność: q σ ij = ∑ λik λ jk = λi1λ j1 + λi 2λ j 2 + k =1 + λiq −1λ jq −1 + λi1λ jq [70] Warto zwrócić uwagę, że w powyższych wzorach [69] [70] z uwagi na brak korelacji pomiędzy czynnikami nie występują już elementy związane z ich wspólnym efektem na zmienne (reprezentowanym we wzorach przez kowariancje czynników). A zatem, uogólniając powyższe warunki do zapisu macierzowego można pokazać, że: Ȉ1 = ȁĭȁ ' = ȁIȁ ' = ȁȁ ' [71] W oparciu o pierwszy i ostatni wyraz równania [71] można sformułować zatem problem w następujący sposób: poszukiwana jest macierz ładunków czynnikowych, która pozwoli odtworzyć zredukowaną macierz korelacji. Należy zatem rozwiązać równanie [71] ze względu na ȁ . Do wyznaczenia rozwiązania stosowana jest znana z algebry liniowej procedura dekompozycji Skalowanie druk.indb 177 2009-12-09 14:25:37 178 Mariusz Grzęda macierzy na wektory i wartości własne (Singular Value Decomposition – SVD). Pozwala ona przedstawić macierz Ȉ1 jako następujący iloczyn: Ȉ1 = īǻī ' [72] gdzie: ī – macierz utworzona z wektorów własnych [ Ȗ1...Ȗ p ] macierzy Ȉ1 ǻ – macierz diagonalna, której elementami na głównej przekątnej są wartości własne α1 ,..., α p macierzy Ȉ1. Procedura SVD pozwala przedstawić każdą macierz jako iloczyn trzech innych macierzy. W tym miejscu w kilku zdaniach poniżej objaśniono działanie procedury SVD, wskazując w szczegółach sposób jej zastosowania w analizie czynnikowej. Procedura dekompozycji macierzy na wartości i wektory własne – SVD Jako punkt wyjścia przyjmijmy ważne definicje: Ortogonalność Dwa różne wektory o tym samym wymiarze są ortogonalne, gdy ich iloczyn skalarny jest równy zeru. A zatem dwa przykładowe wektory a i b są ortogonalne gdy: a b=0 [72] a ' b = b'a = 0 [73] lub równoważnie: Macierz jest macierzą ortogonalną, jeśli iloczyn tej macierzy i jej transpozycji będzie dawał w wyniku macierz jednostkową. A zatem przykładowa macierz A jest ortogonalna, gdy zachodzi warunek: AA ' = A'A = I [74] W przypadku, gdy ortogonalna macierz A jest macierzą kwadratową to odwrotność tej macierzy jest równa jej transpozycji: A −1 = A ' Skalowanie druk.indb 178 [75] 2009-12-09 14:25:37 Wprowadzenie do eksploracyjnej analizy czynnikowej... 179 A zatem w przypadku takiej macierzy będzie zachodziła prawidłowość: AA ' = A'A = AA−1 = A−1A = I [76] Ortonormalność Dwa różne wektory o tym samym wymiarze są ortonormalne, gdy są ortogonalne i jednocześnie długość każdego z nich jest równa jeden. A zatem dwa przykładowe wektory a i b są ortonormalne, gdy: a ' b = b'a = 0 ∧ a = b = 1 [77] Macierz jest macierzą ortonormalną jeśli jest ortogonalna oraz gdy jej kolumny są wektorami o długości jeden. A zatem przykładowa macierz A = [a1a 2 ...a n ] jest ortonormalna, jeśli: AA ' = A'A = I ∧ a1 = a 2 = ... = a n = 1 [78] Wprowadziwszy podstawowe pojęcia zdefiniujmy procedurę SVD, odwołując się do kontekstu statystycznej analizy danych. Weźmy prostokątną macierz danych X o n-wierszach oraz p-kolumnach, o której założymy, że jest macierzą danych, w której każda z p kolumn reprezentuje pojedynczą zmienną (dla wygody w postaci scentrowanej); a każdy z n wierszy reprezentuje pojedynczą jednostkę obserwacji. Zakładamy tu również, że n>p : ⎛ x11 … x1 p ⎞ ⎜ ⎟ [79] X n× p = ⎜ ⎟ ⎜x xnp ⎠⎟ ⎝ n1 Dekompozycję SVD macierzy X można dla potrzeb prezentacji analizy czynnikowej, zdefiniować specyficznie jako iloczyn trzech następujących macierzy (Tacq 1997): [80] X = ȉLī' gdzie: L – macierz diagonalna zawierająca na głównej przekątnej niezerowe pierwiastki kwadratowe wartości własnych iloczynu macierzy X ' X oraz XX ' 12 T – ortonormalna macierz wektorów własnych macierzy będącej wynikiem iloczynu XX ' ; ī – ortonormalna macierz wektorów własnych macierzy będącej wynikiem iloczynu X ' X ; Nie ma tu różnicy, czy bierzemy pod uwagę macierz XX ' czy też X ' X , ponieważ niezerowe wartości własne dla obydwu macierzy są zawsze takie same. 12 Skalowanie druk.indb 179 2009-12-09 14:25:39 180 Mariusz Grzęda O wartościach własnych powiedzmy na razie w tym punkcie tylko tyle, że stanowią pewne wartości liczbowe, charakterystyczne dla macierzy, której dotyczą, innymi słowy ujmują jej unikalność i specyfikę. Natomiast wektor własny jest to taki wektor, który odpowiada pojedynczej wartości własnej. Niebawem dodamy na temat wartości i wektorów własnych więcej, w tym miejscu zajmijmy się jednak zbadaniem konsekwencji możliwości ujęcia macierzy danych X w formie iloczynu trzech wspomnianych macierzy. Załóżmy teraz, że chcemy przedstawić macierz korelacji/kowariancji zmiennych zawartych w macierzy X za pomocą iloczynu trzech macierzy ze wzoru [80] ( X = ȉLī' ) . Jak wiadomo, macierz kowariancji dla zmiennych z macierzy X w zapisie macierzowym będzie dana wzorem: Ȉ= 1 n X'X [81] Aby to wykonać, należy określić transpozycję macierzy X , która będzie dana wzorem: X ' = īL ' ȉ ' [82] Wówczas iloczyn tworzący macierz Ȉ może być przedstawiony w postaci: Ȉ= 1 n X'X = 1 n īL ' ȉ ' ȉLī' [83] Ponieważ wiadomo już o macierzach T i ī z założenia równania [80], że są ortonormalne, a zatem również i ortogonalne, to w tej sytuacji wiadomo, że ȉ ' ȉ = I . Natomiast o macierzy L wiadomo, że jest diagonalną macierzą, która zawiera na przekątnej pierwiastki wartości własnych macierzy XX ' . Oznacza to, że wynik mnożenia L ' L wygeneruje macierz diagonalną z wartościami własnymi macierzy XX ' , co można zapisać jako L ' L = L2 = ǻ . 1 A ponieważ wiadomo, że X'X , jest równe macierzy korelacji Ȉ, to n można wobec tego równie dobrze badać strukturę własną macierzy Ȉ, ponieważ wartości własne macierzy Ȉ są po prostu wartościami własnymi macierzy X'X przez n. A zatem macierz korelacji Ȉ po wszystkich uproszczeniach można zapisać w efekcie jako [84], co pokazuje że znalezienie struktury własnej macierzy X jest tym samym co znalezienie struktury własnej macierzy Ȉ (Tacq, 1997). W efekcie zapis [84] Ȉ = īǻī ' Skalowanie druk.indb 180 [84] 2009-12-09 14:25:39 Wprowadzenie do eksploracyjnej analizy czynnikowej... 181 jest analogiczny z zapisem [72]. Różnica jest taka, że w przypadku równania [72] dekomponowaną macierzą jest macierz zredukowana (communalities na głównej przekątnej), natomiast w przypadku [84] dekompozycji poddawana była macierz korelacji (z jedynkami na głównej przekątnej). Zastosowanie SVD do pełnej macierzy korelacji Ȉ (z jedynkami na głównej diagonalnej) jest przedmiotem dekompozycji w analizie głównych składowych13, w tym miejscu podkreślmy, skupiamy się na zastosowaniu tej procedury dekompozycyjnej do zredukowanej macierzy korelacji Ȉ1 będącej przedmiotem właściwej analizy czynnikowej. Wyznaczanie ładunków Tak więc problem rozwiązania czynnikowego polega na znalezieniu macierzy spełniających powyższy schemat dekompozycji. Oznacza to, że należy znaleźć takie wartości macierzy ī i ǻ, aby na ich podstawie można było odtworzyć zredukowaną macierz korelacji Ȉ1. Możliwość znalezienia macierzy spełniających zadane postulaty istnieje dzięki równaniu definiującemu wektory i wartości własne macierzy Ȉ1. Oto ono Ȉ1Ȗ = α Ȗ [85] Równanie to można przekształcić w: Ȉ1Ȗ − α Ȗ = 0 [86] ( Ȉ1 − α I ) Ȗ = 0 [87] a następnie w: Jeżeli poszukujemy nietrywialnego rozwiązania powyższego równania, czyli takiego, gdzie Ȗ ≠ 0 , (a tylko takie ma sens w analizie czynnikowej), to fakt ten oznacza, że poszukiwana jest dla macierzy Ȉ1 taka wartość własna Analiza głównych składowych – Principal Component Analysis (PCA), jest metodą redukcji danych opierającą się na zupełnie odmiennych założeniach niż analiza czynnikowa. Mimo to w kluczowym punkcie metoda ta sprowadza się do dekompozycji macierzy korelacji zmiennych obserwowalnych. Od właściwej analizy czynnikowej metoda ta różni się zatem w tym punkcie jedynie tym, że na głównej diagonalnej są jedynki, a nie jak w przypadku analizy czynnikowej – zasoby zmienności wspólnej każdej zmiennej (communalities). 13 Skalowanie druk.indb 181 2009-12-09 14:25:42 182 Mariusz Grzęda α oraz taki niezerowy wektor Ȗ , które po podstawieniu do równania [86] w wyniku mnożenia dadzą w wyniku wektor zerowy 0 . Niezerowe rozwiązania tego równania przy założonym warunku co do wektora własnego ( Ȗ ≠ 0 ) można uzyskać wtedy, gdy wyznacznik przekształconej macierzy korelacji Ȉ1 będzie równy zeru. A zatem macierz ( Ȉ1 − α I ) powinna być macierzą osobliwą. A zatem wynika z tego kolejne równanie, które można już w sposób stosunkowo prosty rozwiązać. Równanie to będzie miało postać: det(Ȉ1 − α I) = 0 [88] Obliczenie wyznacznika macierzy ( Ȉ1 − α I ) przyjmuje postać równania wielomianowego, w którym niewiadomą jest wartość własna α . Rozwiązaniem tego równania są pierwiastki wielomianu otrzymanego w wyniku rozwinięcia lewej strony wyrażenia [80] według wzoru na wyznacznik macierzy i przyrównania go do zera. Równanie wielomianowe, o którym tu mowa, jest tego samego stopnia co wyjściowa zredukowana macierz korelacji Ȉ1 czyli w naszym przypadku p. Fakt ten oznacza z kolei, że jak wszystkie równania wielomianowe (przynajmniej drugiego stopnia) wyrażenie [88] może mieć więcej niż jedno rozwiązanie, co z kolei oznacza, że macierz Ȉ1 może mieć wiele różniących się od siebie wartości własnych α . To zaś wreszcie prowadzi do tego, że dla każdej wartości własnej α możemy wyznaczyć osobny (niezerowy) wektor własny Ȗ . Obliczony wektor własny Ȗ wstawiamy jako daną do układu równań [87]. Jednak i w tym punkcie pojawia się kolejny problem, który w tym wypadku polega na tym, że układ równań uzyskany po podstawieniu wartości własnej α do wyrażenia [87] może mieć nieskonćzenie wiele rozwiązań. W związku z tym, aby uniknąć braku jednoznaczności przyjmuje się dodatkowe założenie, wedle którego długość (norma) każdego wektora własnego Ȗ musi wynosić 1, co jest tożsame z wprowadzonym wyżej pojęciem ortonormalności: Ȗi = 1 dla i=1,…,p [89] Zapis ten z definicji normy /długości wektora oznacza, że suma kwadratów elementów tego wektora musi być równa jeden, co można najprościej zapisać jako: Skalowanie druk.indb 182 2009-12-09 14:25:44 Wprowadzenie do eksploracyjnej analizy czynnikowej... 183 1 = Ȗ i ' Ȗ i = γ 21i + γ 2 2 i + " + γ 2 pi [90] Dzięki ograniczeniu [89] można dopiero teraz w sposób jednoznaczny wyznaczać wektory własne Ȗ i odpowiadające analogicznym wartościom własnym α i macierzy Ȉ1. Kiedy zostaną wyznaczone wszystkie wektory własne Ȗ1 ,..., Ȗ p odpowiadające poszczególnym wartościom własnym α1 ,..., α p macierzy Ȉ1, można zestawić je w jednej macierzy, złożonej z wektorów kolumnowych Ȗ1 ,..., Ȗ p . Jest to już macierz ī z równania [72]: ī = ⎡⎣ Ȗ1 Ȗ 2 " Ȗ p ⎤⎦ [91] Wszystkie wektory własne wyznaczone w powyższy sposób dla różnych wartości własnych α i i α j ( α i ≠ α j ) posiadają właściwość ortonormalności. A zatem, gdy dwa wektory Ȗ i i Ȗ j są wektorami własnymi odpowiadającymi odpowiednio dwóm różnym wartościom własnym α i i α j tej macierzy to wiadomo, że będą one także ortogonalne. Jak pamiętamy macierz ī złożona z ortonormalnych wektorów Ȗ1Ȗ 2 ...Ȗ p także będzie ortonormalna (a zatem też i ortogonalna). W przypadku macierzy ī będzie to oznaczało: īī' = ī'ī = I [92] W analizie czynnikowej przyjmuje się, że wielkość wyznaczonej wartości własnej α i odpowiada wariancji czynnika. Jest to ta część wspólnej wariancji zmiennych X 1 , X 2 ,..., X p , którą można przypisać danemu czynnikowi. W analizie czynnikowej procedura wyznaczania kolejnych wymiarów przebiega od czynnika, któremu można przypisać największą część wspólnej wariancji zmiennych X 1 , X 2 ,..., X p aż do czynnika q odpowiadającego za najmniejszą część wspólnej wariancji. Oznacza to, że w praktyce wszystkie pierwiastki równania charakterystycznego zaraz po wyznaczeniu zostają posortowane w porządku malejącym w celu wyznaczania kolejnych czynników wyjaśniających coraz mniejszą część ogólnego zróżnicowania. Na tym etapie spośród p wartości własnych wybieranych jest tylko q największych: [93] α1 > α 2 > > α q Kolejny krok w analizie czynnikowej polega na tym, że arbitralnie zakłada się iż każdej kolejnej spośród wybranych q wartości własnych odpowiada wartość wariancji kolejnego czynnika wspólnego oznaczana jako φii φ11 > φ22 > Skalowanie druk.indb 183 > φqq [94] 2009-12-09 14:25:46 184 Mariusz Grzęda W praktyce oznacza to, że jeżeli czynniki wspólne są niewystandaryzowane, to zapisy [93] i [94] są tożsame. Po decyzji (zwykle arbitralnej) o tym, ile czynników wybrać do modelu, można wyznaczyć ładunki czynnikowe. Wówczas na podstawie pierwszych q (najwyższych) wartości własnych i odpowiadających im wektorów własnych wyznaczana jest macierz ȁ . Ładunki są wyznaczane jako iloczyn każdego wektora własnego i pierwiastka wartości własnej, której ten odpowiada. W zapisie macierzowym do wyznaczenia macierzy ȁ korzysta się ze wzoru: ȁ = īǻ [95] 1/ 2 Po wyznaczeniu macierzy ȁ zachodzą ważne prawidłowości w zbiorze obiektów w analizie czynnikowej, które dobrze ilustruje poniższa tabela. ξ1 ξ2 … ξq Wyjaśniona przez model część wariancji wspólnej hj SUMA X1 λ112 λ122 … λ1q2 h 2j X2 λ212 λ222 … λ2q2 h22 … … … …. … … Xp λ p21 λ p22 … 2 λ pq hp2 SUMA: α1 α2 Wartości własne α i (wariancje czynników niestandaryzowanych) αq … φ11 φ22 φqq q p i =1 j =1 ∑ α i = ∑ h2j Źródło: na podstawie Rószkiewicz 2002 Suma kwadratów wszystkich ładunków czynnikowych jednej zmiennej po wszystkich czynnikach jest równa wartości zasobów zmienności wspólnej tej zmiennej. Skalowanie druk.indb 184 2009-12-09 14:25:49 Wprowadzenie do eksploracyjnej analizy czynnikowej... 185 Suma kwadratów ładunków czynnikowych jednego czynnika po wszystkich zmiennych jest równa wartości własnej czyli wartości wariancji danego czynnika (w postaci niewystandaryzowanej). Suma wszystkich wyznaczonych wartości własnych jest równa sumie wszystkich communalities wstawionych na główną przekątną zredukowanej macierzy korelacji. Przedstawiony powyżej sposób wyznaczania rozwiązania czynnikowego zawiera wiele arbitralnych punktów. Już nawet tak pobieżne przedstawienie tego procesu jak powyżej odsłoniło praktyczny brak innego niż pragmatyczne uzasadnienia dla przyjęcia chociażby ortonormalności wektorów własnych czy przypisania wartościom własnym wariancji czynników wspólnych. Jednak bez tych założeń rozwiązań czynnikowych już na tym etapie byłaby nieskończoność i wyznaczenie modelu byłoby niemożliwe. Trzeba więc podkreślić w tym punkcie, że wobec tych kroków praktycznie nie ma alternatywy. Liczba czynników w modelu Bez wątpienia decyzją równie ważną, co podejmowane w poprzednich punktach, jest wybór liczby czynników, które mają być obecne w modelu. Decyzja ta ma szczególne znaczenie, ponieważ za sprawą tego kroku można otrzymać zupełnie różne modele, pasujące do tej samej macierzy korelacji. I w tym przypadku, podobnie jak w poprzednich, istnieje wiele różnych kryteriów sugerujących badaczowi decyzję co do liczby czynników w modelu. Spośród nich istnieją dwa kryteria szczególnie popularne, biorące pod uwagę bardzo ważne charakterystyki analizowanej macierzy korelacji (Banaszak 2004a, b), choć jak trzeba wspomnieć poważnie krytykowane (Child 2006). W rzeczywistości w literaturze toczy się długa dyskusja na temat kryteriów decydowania o liczbie czynników w modelu, zapewne z uwagi na poważne konsekwencje wyboru któregoś z kryteriów. Poniżej obok dwóch powszechnie znanych i stosowanych kryteriów przedstawiamy dodatkowo dwa inne. W każdym przypadku przedstawiono właściwości wybranych metod oraz główną linię ich krytyki. Przed prezentacją należy jeszcze dodać, że wszystkie są regułami arbitralnymi (tak zwanymi regułami kciuka – rule of thumb). Skalowanie druk.indb 185 2009-12-09 14:25:51 186 Mariusz Grzęda Pierwsze z kryteriów, bazujących na matematycznych właściwościach macierzy korelacji, a dokładniej na liczbach będących jej wartościami własnymi – pojęciem wprowadzonym w poprzednim podrozdziale, nosi nazwę kryterium Kaisera-Guttmana lub kryterium wartości własnej większej niż jeden, czasem też zwanej regułą pojedynczej jednostki (unit). Kryterium to (zaproponowane przez Guttmana, a zaadaptowane przez Kaisera – stąd jego pełna nazwa) jest bardzo proste. Nakazuje bowiem uwzględnić w modelu tyle czynników, ile wartości własnych wejściowej macierzy korelacji jest większych niż jeden ( α > 1 ). Podkreślmy tu, wyraźnie, że nie chodzi tym razem o macierz zredukowaną, lecz o macierz korelacji. Odpowiedź na od razu pojawiające się tu pytanie, o to dlaczego akurat wartość jeden jest wartością graniczną, jest następująca: Uzasadnieniem tej reguły jest fakt, że wariancja każdej zmiennej wskaźnikowej w modelu wynosi właśnie jeden – z uwagi na założenie (f) wprowadzone w pierwszej części niniejszego artykułu (założenie o standaryzacji). Jak wiemy z poprzedniej części, wartość własna macierzy oznacza wielkość całkowitej wariancji wskaźników wyjaśnianych przez dany czynnik. W tej sytuacji, gdyby pozostawiać w modelu czynniki o wartościach własnych mniejszych niż jeden wówczas każdy z nich wyjaśniałby w modelu mniejszą ilość wariancji niż pojedyncza zmienna obserwowalna (innymi słowy, zamiast redukować informację – mnożyłby ją). Sytuacja ta jest wbrew podstawowemu celowi analizy czynnikowej, jakim jest między innymi redukcja liczby zmiennych wyjściowych (Brown 2006). Reguła ta jest często stosowana z uwagi na jej prostotę i klarowną interpretację oraz obiektywny charakter. Z drugiej jednak strony jest jednocześnie przez wielu metodologów krytykowana z uwagi na problem prze- i niedofaktoryzowania modelu – czyli problemu ekstrakcji zbyt wielu lub zbyt niewielu czynników. Cattel i Gorush (za: Child 2006) wskazują, że w sytuacji dużej liczby zmiennych i niskich communalities, pojawia się ryzyko ekstrakcji zbyt wielu czynników w modelu. Zbyt mało czynników jest wyodrębnianych, gdy liczba zmiennych wejściowych jest mała. Co więcej, jest ona wrażliwa na błąd pomiaru. Problem zbyt małej liczby czynników pojawia się też, gdy próby są bardzo liczne. Ponadto zdaniem przywołanych autorów test ten wydaje się być najbardziej rzetelny w następującej sytuacji: między 20 a 50 wskaźników z rozsądnie wysokimi zasobami zmienności wspólnej oraz umiarkowanie duża próba (Netemeyer i Bearden i Sharma 2003; Child 2006). Skalowanie druk.indb 186 2009-12-09 14:25:51 187 Wprowadzenie do eksploracyjnej analizy czynnikowej... Drugim testem również polegającym na analizie wartości własnych, jest i tak zwany scree test (kryterium osypiska R. Cattela). Kryterium osypiska wskazuje, aby uszeregować malejąco wszystkie wyznaczone wartości własne i uwzględnić w modelu tyle czynników, ile wartości własnych jest dużo większych od pozostałych plus jeden czynnik. Dokładniej, kryterium to oznacza, że jeśli w gronie posortowanych malejąco wartości własnych macierzy różnice pomiędzy sąsiadującymi zmiennymi zaczynają się zmniejszać, to wówczas należy uwzględnić w modelu tyle czynników dla ilu kolejnych wartości własnych różnice te były duże. Najprostszą ilustracją tego kryterium jest jednak wykres, na którym punktami zaznacza się kolejne wartości własne macierzy, a następnie punkty te łączy się linią. Na powstałym w ten sposób rysunku powstaje wizerunek podobny do stoku. Kryterium Cattela (scree test) nakazuje uwzględnić tyle czynników, ile wartości własnych tworzy jego zbocze. Kryterium scree sugeruje, by zaprzestać wyznaczania kolejnych czynników, gdy zbocze przestaje być strome i zaczyna się „wypłaszczać” – tworząc osypisko (Kim i Mueller 1978a, b). Metoda ta jest krytykowana z uwagi na swoją oczywistą arbitralność. Na poniższym przykładowym rysunku równie dobrze można „doszukać” się początku osypiska przy trzech czynnikach, jak i już przy dwóch. Innym kryterium często pojawiającym się w literaturze jest tak zwana procedura analizy równoległej. Jest ona oparta na analizie linii przedstawionej na wykresie scree, oznaczającej wartości własne w zaobserwowanej próbie, a jednocześnie na tym samym wykresie odkłada się punkty wskazujące 3,00 2,50 2,00 1,50 1,00 0,50 0,00 1 Skalowanie druk.indb 187 2 3 4 5 6 7 8 9 10 2009-12-09 14:25:51 188 Mariusz Grzęda wartości wyestymowane ze zbioru danych liczb losowych (np. odkłada się średnie wartości własne uzyskane z wielu kompletnie losowych zbiorów danych). Obydwie linie są odkładane na tym samym wykresie. Liczba czynników jest wyznaczana na podstawie punktu przecięcia obydwu linii. Metoda ta ma prostą i przekonującą interpretację: należy wybrać tylko tyle czynników wspólnych, ile wartości własnych jest większych niż w danych losowych. Przeważnie procedurę losowej estymacji wartości własnych powtarza się około 50 razy. Poniżej zamieszczamy przykład, sugerujący dwa czynniki. Podobnie jak w przypadku testu scree zarzuca się tej metodzie arbitralność, a także podobnie jak w przypadku testu Kaisera wrażliwość na błędy losowe (Brown 2006). Pewna procedura wyznaczania liczby czynników jest również wpisana w metodę maksymalnej wiarygodności jako metody generującej rozwiązanie problemu czynnikowego. W ramach tej metody stosowany jest test istotności oparty na rozkładzie chi kwadrat, który weryfikuje hipotezę, jak dalece model z określoną liczbą czynników dobrze odtwarza zredukowaną macierz korelacji oraz czy należy zwiększyć liczbę czynników wspólnych występujących w modelu (Banaszak 2004a, b). Istnieje jeszcze wiele innych metod podejmowania decyzji o liczbie czynników w modelu, ale duża grupa z nich ma z założenia zastosowanie jedynie do analizy głównych składowych. W związku z tym metody te zostaną tu pominięte. Ich szeroki przegląd można znaleźć również w literaturze polskiej (Górniak 2000). 3,00 2,50 2,00 1,50 1,00 0,50 0,00 1 Skalowanie druk.indb 188 2 3 4 5 6 7 8 9 10 2009-12-09 14:25:51 Wprowadzenie do eksploracyjnej analizy czynnikowej... 189 Problem rotacji czynników do rozwiązania finalnego Następnym punktem krytycznym w przypadku wykonywania analizy czynnikowej jest problem rotacji rozwiązania wstępnego. Po ustaleniu liczby wymiarów w modelu oraz po wyznaczeniu macierzy ładunków uzyskana konfiguracja czynników jest ortogonalna, co implikuje również, że czynniki wspólne są sobą liniowo niezależne. Zwykle uzyskana konfiguracja jest mało czytelna i wzór zależności pomiędzy czynnikami a wskaźnikami wydaje się skomplikowany, co może utrudniać lub wręcz uniemożliwić interpretację otrzymanej konfiguracji. Wówczas stosuje się tak zwaną rotację czynników, której celem jest uproszczenie uzyskanego rozwiązania czynnikowego i nadanie mu merytorycznej interpretacji. Poszukuje się na tym etapie tak zwanej „prostej struktury rozwiązania” (Child 2006). Istnieje wiele metod rotacji wstępnego rozwiązania czynnikowego. Generalnie jednak wyróżnia się wśród nich dwa podejścia. Każde z nich nieco inaczej poszukuje „prostego układu czynnikowego” i w oparciu o przyjęte kryteria zbieżności inaczej przekształca uzyskany wcześniej model czynnikowy. Poniżej uwaga skupiona będzie tylko na dwóch metodach rotacji, dobrze reprezentujących dwie wspomniane szkoły podejścia do tego problemu. Pierwsze z nich to tak zwane podejście ortogonalne, a drugie ukośnokątne. Pierwsze z wymienionych podejść zachowuje niezależność wymiarów wyodrębnionych w pierwszym kroku. Natomiast drugie pozwala na uzyskanie ostatecznego rozwiązania, w którym czynniki mogą być ze sobą skorelowane. Podejście ortogonalne Popularnym sposobem rotacji w przypadku podejścia ortogonalnego jest rotacja nosząca nazwę varimax. Rotacja ortogonalna varimax rotuje czynniki w ten sposób, aby wariancja podniesionych do kwadratu ładunków czynnikowych przypisanych poszczególnym zmiennym dla każdego z wyodrębnionych czynników była maksymalna, a jednocześnie nie dopuszcza do zmiany kątów (prostych) pomiędzy czynnikami, jakie uzyskano w pierwszym etapie analizy. (W interpretacji geometrycznej – jeżeli założyć, że czynniki są wektorami o jednakowej długości, to stopień korelacji liniowej pomiędzy nimi oddaje wartość funkcji cosinus wyliczonej dla kąta pomiędzy tymi wektorami. Dla kąta równego 90 stopni wartość funkcji cosinus wynosi 0, co w przełożeniu na relacje statystyczne oznacza niezależność pomiędzy Skalowanie druk.indb 189 2009-12-09 14:25:51 190 Mariusz Grzęda zmiennymi. A zatem można powiedzieć, że rotacja ortogonalna varimax zachowuje kąty proste pomiędzy wektorami oznaczającymi czynniki). Celem rotacji ortogonalnej jest uzyskanie „kontrastu” między ładunkami czynnikowymi. Algorytm tego rozwiązania jest skonstruowany w ten sposób, że szukana jest maksymalna wartość wyrażenia Z: Z → max gdzie: [94] p q q Z = ∑ zj = ∑ j =1 j =1 p p ∑ λij4 − (∑ λij2 ) 2 i =1 i =1 p 2 [95] Z – suma wariancji podniesionych do kwadratu ładunków czynnikowych wyliczonych osobno dla każdego czynnika. (W sytuacji gdy czynniki są niezależne, czyli kowariancja między nimi jest równa zero, łączna wariancja wszystkich czynników jest równa sumie wariancji kwadratów ładunków obliczonych dla pojedynczych czynników) z j – wariancja podniesionych do kwadratu ładunków czynnikowych dla czynnika j (dla j=1,...,q) p – liczba zmiennych obserwowalnych uwzględnionych w modelu λij – ładunek czynnika j w zmiennej i (dla i=1,...,p) (Kim i Mueller 1978b) Podejście ukośnokątne Druga grupa metod to tak zwane rotacje ukośnokątne. Jest to taki typ rotacji, który dopuszcza pewien stopień skorelowania pomiędzy czynnikami. Z geometrycznego punktu widzenia rotacja taka (ukośna) czyni możliwym, aby pomiędzy osiami czynników był inny kąt niż kąt prosty (tożsamy z brakiem korelacji liniowej między czynnikami). Kim i Mueller (1978 a,b) twierdzą, że rotacja ukośnokątna jest ogólniejszym typem przekształcania wstępnego rozwiązania czynnikowego, gdyż nie ogranicza relacji między wyodrębnionymi wcześniej wymiarami. Ponadto cytowani autorzy wskazują, że zaletą ukośnych metod rotacji jest fakt, iż mogą one również generować rozwiązania, w których czynniki nie będą ze sobą skorelowane. Wówczas model z czynnikami ortogonalnymi zyskuje większe potwierdzenie, a badacz może mieć pewność, że Skalowanie druk.indb 190 2009-12-09 14:25:51 Wprowadzenie do eksploracyjnej analizy czynnikowej... 191 niezależność czynników nie jest artefaktem będącym pochodną przyjętej metody rotacji. Jedną z metod wpisujących się w ukośnokątne podejście do problemu rotowania początkowego rozwiązania czynnikowego jest metoda rotacji bezpośredniej ukośnokątnej (direct oblimin). W ramach tego podejścia poszukiwane jest takie rozwiązanie, które zapewni największą prostotę rozumianą jako minimalny stopień współzmienności kwadratów ładunków czynnikowych. Rotacja ta wykorzystuje definiowany przez badacza parametr δ *, za sprawą którego determinowany jest dopuszczalny stopień związku statystycznego między czynnikami. Poniższe wyrażenie pokazuje minimalizowaną wartość D: D → min [96] Gdzie: D= q ∑ j < k =1 δ * – parametr skośności ⎡ p 2 2 δ * ⎛ p 2 p 2 ⎞⎤ ⎢ ∑ λij λik − ⎜ ∑ λij ∑ λik ⎟ ⎥ p ⎝ i =1 i =1 ⎠ ⎦ ⎣ i =1 [97] W powyższym wyrażeniu zwraca uwagę parametr δ * , którego wartość, jak już było wspomniane, jest definiowana w sposób arbitralny. Szczególnym przypadkiem jest przyjęcie, że jego wartość jest równa zeru. Wówczas dopuszczana jest sytuacja, w której zachodzi silny związek statystyczny pomiędzy czynnikami. Wydaje się, że w warunkach braku jakichkolwiek przesłanek i argumentów teoretycznych przemawiających za określonym kształtem związku pomiędzy wyodrębnionymi czynnikami, najrozsądniejsze byłoby przyjęcie δ * = 0 , dopuszczając tym samym wysoki stopień korelacji pomiędzy czynnikami. W przypadku rotacji należy podsumować, że autor przyjmuje stanowisko, wedle którego rozwiązanie czynnikowe należy rotować w sposób ukośnokątny. W większości przypadków nie ma bowiem żadnych obiektywnych merytorycznych przesłanek ku temu, aby uważać, że czynniki pozostają ze sobą w tak niespotykanym związku jak zupełny brak korelacji. Co więcej jak wskazane było powyżej podejście ukośnokątne bardziej pasuje do eksploracyjnej analizy czynnikowej, gdyż jest podejściem praktycznie bezzałożenio- Skalowanie druk.indb 191 2009-12-09 14:25:51 192 Mariusz Grzęda wym. Na koniec należy dodać, że z matematycznego punktu widzenia rotacja w żaden sposób nie zmienia wyodrębnionego pierwotnie układu relacji pomiędzy czynnikami a zmiennymi. W rzeczywistości sprowadza się bowiem do manipulowania układem odniesienia dla ładunków czynnikowych, nie zmieniając relacji pomiędzy nimi. Na koniec można i w tym punkcie powtórzyć to samo co w poprzednich a mianowicie, że wybór sposobu rotacji jest zawsze wyborem arbitralnym i ma służyć przede wszystkim badaczowi do tego, aby był w stanie zinterpretować otrzymany model w kategoriach teoretycznych. Teorie jednak rzadko zakładają (czy też powinny zakładać) apriorycznie brak korelacji pomiędzy konstruktami stąd zdecydowana rekomendacja by wyniki analizy czynnikowej zawsze rotować w sposób ukośnokątny. Alokacja wskaźników między czynnikami Kolejnym problemem decyzyjnym w analizie czynnikowej jest kwestia przyporządkowania wskaźników poszczególnym czynnikom. Problem przyporządkowania wskaźników pojawia się tylko w przypadku modeli wieloczynnikowych. Podstawą przypisania wskaźników do poszczególnych czynników jest analiza macierzy ładunków. Na jej podstawie można określić wielkość wariancji każdej zmiennej, za którą są odpowiedzialne czynniki (communalities). Przyjmowanym w literaturze kryterium istotności jest wielkość wariancji wspólnej >10%. Oznacza to, że ładunek takiej zmiennej na czynniku będzie wynosił poniżej |0,3|. Przyjmuje się wówczas, że związek pomiędzy czynnikiem a wskaźnikiem nie jest istotny. W przeciwnym przypadku uznaje się, że jest to związek istotny. Ponadto musi zostać w tym względzie wzięty również pod uwagę problem tak zwanej jednoznaczności wskaźnika. Przyjmuje się, że wskaźnik powinien posiadać nie tylko ładunek większy co do wartości bezwzględnej od 0,3 na czynniku ale powinien być również w sposób jednoznaczny przypisany do tego czynnika, co oznacza że nie powinien mieć istotnych ładunków na innych czynnikach (Kim i Mueller 1978a, 1978b, Banaszak 2004a, b, Child 2006). I w tym kontekście proponowane kryterium decyzyjne ma charakter arbitralny. Skalowanie druk.indb 192 2009-12-09 14:25:52 Wprowadzenie do eksploracyjnej analizy czynnikowej... 193 Selekcja wskaźników Macierz ładunków czynnikowych służy również jako podstawa selekcji istotnych wskaźników w modelu i usuwania wskaźników nieistotnych. W tym względzie obowiązują kryteria istotności w odniesieniu do wartości communality 0,1. Wskaźniki dla których zasoby zmienności wspólnej są niższe od 0,1 uznaje się za nieistotne. Oznacza to, że wszystkie czynniki wspólne w modelu nie wyjaśniają więcej niż 10% zmienności wskaźnika i na żadnym z nich ładunek czynnikowy tego wskaźnika nie przekracza wartości |0,3|. Kolejnym ważnym aspektem problemu selekcji/usuwania wskaźników jest problem tak zwanej niejednoznaczności wskaźników. Przyjmuje się, że jeśli wskaźnik ma istotne ładunki czynnikowe na dwóch lub większej liczbie czynników wówczas należy również rozważyć usunięcie go z modelu. Podobnie jak w wyżej omawianym przypadku kryterium to ma charakter zalecanej „reguły kciuka” (Banaszak 2004a, b). Problem oceny dopasowania modelu W przypadku budowaniu modeli statystycznych na podstawie danych, rzeczą fundamentalną jest możliwość oceny dopasowania modelu do nich. Niestety w analizie czynnikowej o charakterze eksploracyjnym praktycznie tylko jedna metoda posiada wbudowany test oceny jakości modelu – metoda maksymalnej wiarygodności. Metoda największej wiarygodności jest popularnym i szczególnie odpowiednim do sondażowego charakteru narzędziem analizy danych. Głównym celem analizy czynnikowej przeprowadzanej metodą największej wiarygodności jest odnalezienie takiego rozwiązania czynnikowego, które najlepiej pasuje do macierzy korelacji pomiędzy obserwowanymi zmiennymi. Metoda ta uwzględnia fakt, że zaobserwowane korelacje pochodzą z próby będącej losową reprezentacją populacji. Zakłada się w niej, że do populacji, z której pochodzi próba, idealnie pasuje model z k czynnikami wspólnymi. Liczbę k czynników wspólnych arbitralnie wyznacza badacz albo jest ona wyznaczana na podstawie zdefiniowanych wcześniej kryteriów (na przykład kryterium Kaisera: liczba wartości własnych macierzy korelacji większych niż 1). Dodatkowo zakłada się, że w populacji zarówno zmienne, jak i czynniki mają wielowymiarowy rozkład normalny. Analiza czynnikowa wykonywa- Skalowanie druk.indb 193 2009-12-09 14:25:52 194 Mariusz Grzęda na tą metodą szacuje wartości ładunków czynnikowych w populacji na podstawie zredukowanej macierzy korelacji zaobserwowanych w próbie pomiędzy zmiennymi. Metoda największej wiarygodności polega na poszukiwaniu takiej konfiguracji ładunków czynnikowych, na podstawie której można by było (przy założonej liczbie czynników) jak najdokładniej odtworzyć macierz korelacji obserwowalnych zmiennych. Rozwiązanie czynnikowe jest uzyskiwane na podstawie równania macierzowego zawierającego zredukowaną macierz korelacji oraz wartości własne tej macierzy. Metoda największej wiarygodności wylicza statystykę odpowiadającą na pytanie, jak dalece zbudowany model pasuje do danych. Operacyjnie posiada ona test, który jest tak skonstruowany, żeby na jego podstawie można było ocenić czy macierz korelacji obserwowanych zmiennych różni się istotnie od macierzy korelacji wyznaczonej na podstawie oszacowanych parametrów modelu czynnikowego i przyjętej liczby czynników. Statystyka testowa, o której tu mowa ma rozkład χ2 (Kim i Mueller 1978b, Lee 2007). Jednakże praktyka pokazuje, że test ten bywa zbyt surowy, gdyż przy dużych próbach wystarczą relatywnie niewielkie odchylenia macierzy odtworzonej od zaobserwowanej, aby wyliczona wartość statystyki dawała (wysoką) wartość sugerującą odrzucenie uzyskanego modelu i w konsekwencji prowadzącą do wyodrębniania zbyt dużej liczby czynników. W związku z tym wyniki tego testu nie powinny być brane pod uwagę w analizach (Górniak, 2000). Problem naruszania założeń pomiarowych modelu Niezwykle częstą sytuacją – szczególnie w badaniach społecznych – jest fakt, że pomiar jest przeprowadzany na poziomie nominalnym lub porządkowym. Jak wiadomo, w sytuacji, gdy zmienne wskaźnikowe mają charakter porządkowy, posługiwanie się miarą współczynnika korelacji liniowej Pearsona w analizie czynnikowej nie jest w pełni poprawne, ponieważ zarówno ten współczynnik, jak i sama analiza czynnikowa, zakłada, że zmienne są przynajmniej na poziomie interwałowym (od tego poziomu można wykonywać przekształcenia liniowe). Jeżeli zmienne obserwowalne rozpatrywane w modelu są mierzone przykładowo na poziomie porządkowym, to okazuje się, że stosowanie podejścia Skalowanie druk.indb 194 2009-12-09 14:25:52 Wprowadzenie do eksploracyjnej analizy czynnikowej... 195 nie jest ani uprawnione metodologicznie ani – jak pokazują badania symulacyjne – optymalne (Babakus i Ferguson i Joreskog 1987). Kwestia optymalności jest tu rozumiana jako przyjęcie takiej miary związku pomiędzy zmiennymi, która zapewni że wykonana na jej podstawie analiza czynnikowa wygeneruje rezultaty „najbliższe” rzeczywistym (prawdziwym) relacjom pomiędzy rozpatrywanymi zmiennymi. Wspomniane analizy symulacyjne pokazują, że kwestia doboru odpowiedniej (adekwatnej do danych) miary korelacji pomiędzy zmiennymi wydaje się sprawą bardzo istotną i może wpływać na jakość wyników analizy czynnikowej. Przeprowadzone przez Babkusa, Fergusona i Joreskoga badania koncentrują się między innymi na kwestiach wrażliwości wyników analizy czynnikowej na naruszanie założeń dotyczących skal pomiarowych. Główną inspiracją i zarazem punktem wyjścia tego eksperymentu było stwierdzenie, że w naukach społecznych większość wykonywanych analiz czynnikowych nie spełnia teoretycznych założeń poziomu pomiaru zmiennych. Jedną z bardziej rozpowszechnionych praktyk, łamiącą zasady sformułowane przez S.S. Stevensa jest „nadużywanie” współczynnika korelacji liniowej w przypadku zmiennych, których poziom pomiaru nie jest (przynajmniej) interwałowy, lecz porządkowy. Autorzy cytowanego artykułu odpowiadają na pytanie, który ze znanych współczynników korelacji jest miarą najbardziej odpowiednią do prowadzenia analiz czynnikowych na danych występujących w naukach społecznych. Przedmiotem analiz symulacyjnych były cztery różne współczynniki korelacji zastosowane do tych samych danych. Zastosowano następujące miary związku pomiędzy zmiennymi: 1. r – współczynnik korelacji liniowej Pearsona; 2. r* – współczynnik korelacji polichorycznej; 3. rs – współczynnik korelacji rangowej Spearmana; 4. τb – współczynnik korelacji rangowej Kendalla. Pierwszy z wymienionych współczynników to dobrze znana i powszechnie stosowana miara związku liniowego odpowiednia dla zmiennych przynajmniej na poziomie interwałowym. (Oznacza to, że jej stosowanie do zmiennych na porządkowym poziomie pomiaru jest niepoprawne). Natomiast dwie ostatnie miary (3. i 4.) to współczynniki korelacji używane dla zmiennych porządkowych, porównujące rangi poszczególnych przypadków. Natomiast trzecia z analizowanych miar – współczynnik korelacji polichorycznej, jest miarą mniej znaną, która ze względu na wyniki badań i innych zostanie szerzej dalej omówiona. Skalowanie druk.indb 195 2009-12-09 14:25:52 196 Mariusz Grzęda Omawiany eksperyment symulacyjny polegał na tym, że autorzy za pomocą specjalnego oprogramowania wygenerowali obserwacje, które spełniały założone warunki modelu czynnikowego. Założono model z jednym czynnikiem wspólnym i czterema wskaźnikami. Dane dla wskaźników były wygenerowane w oparciu o wcześniej założone wartości ładunków czynnikowych (czyli wag, współczynników liniowych informujących o związku pomiędzy wartościami czynnikowymi a poszczególnymi zmiennymi). W konsekwencji uzyskiwane dane dla wskaźników miały charakter ciągły. Aby odtworzyć sytuację, jaką często spotyka się w badaniach sondażowych, gdzie zwykle mamy do czynienia ze skalami składającymi się z niewielkiej liczby dyskretnych (nieciągłych) kategorii, oznaczających kolejne poziomy wartości zmiennej, wygenerowane we wcześniejszym kroku dane kategoryzowano w taki sposób, aby uzyskane rozkłady posiadały pięć uporządkowanych kategorii. W ten sposób zapewniono, że sytuacja przypominała częsty w badaniach społecznych przypadek, kiedy to pomiar jest prowadzony na kilkustopniowych skalach z werbalnymi etykietami wskazującymi respondentowi porządek oferowanych mu odpowiedzi. Analizę czynnikową metodą największej wiarygodności zawsze wykonywano dwukrotnie. Najpierw dla danych wygenerowanych na poziomie ciągłym, a następnie dla danych pokategoryzowanych – na poziomie porządkowym. W pierwszej kolejności (dla danych ciągłych) estymowano parametry modelu oparte na macierzy współczynników korelacji Pearsona. Następnie po kategoryzacji zmiennych (do pięciu kategorii) znowu szacowano parametry modelu czynnikowego, używając wówczas jednej z czterech wyżej wspomnianych miar korelacji. Symulacja została przeprowadzona w kilku wariantach. Obok miar korelacji manipulowano również innymi uznanymi za istotne aspektami danych i modelu: – wielkością zakładanych ładunków czynnikowych, wielkością próby (czyli liczbą przypadków poddawanych analizie), typem rozkładów (pokategoryzowanych) zmiennych wskaźnikowych. Wyniki przeprowadzonych analiz czynnikowych porównywano między innymi pod względem parametrów uzyskanych modeli czynnikowych (wartości ładunków czynnikowych), statystyk informujących o dobroci dopasowania modelu do danych oraz przypadków, gdy odnalezienie rozwiązania czynnikowego metodą największej wiarygodności okazywało się niemożliwe (noncovergence) lub błędne (improper solutions). Wyniki przeprowadzonego eksperymentu pokazują, że w przypadku danych po kategoryzacji do kilku Skalowanie druk.indb 196 2009-12-09 14:25:52 Wprowadzenie do eksploracyjnej analizy czynnikowej... 197 wartości posługiwanie się współczynnikiem korelacji polichorycznej daje najlepsze rezultaty rozumiane jako największa zbieżność wyników analizy czynnikowej z danymi prawdziwymi. Innymi słowy, uzyskane wartości ładunków czynnikowych są wówczas najbliższe wartościom założonym na początku, na podstawie których były generowane dane. Do określania stopnia dokładności (accuracy) uzyskanych wyników posłużono się dwiema miarami. Pierwsza to błąd wynikający z kategoryzacji, czyli procedury przekształcenia danych o charakterze ciągłym (continuous) w zmienne o wartościach dyskretnych (discrete) (Categorization Bias – CB). Błąd ten został określony jako różnica pomiędzy ładunkiem czynnikowym wyznaczonym na podstawie zmiennych ciągłych a ładunkiem wyznaczonym na podstawie danych po kategoryzacji (dyskretnych). Natomiast druga miara to błąd kwadratowy (Squared Error – SE). Miara ta została zdefiniowana jako podniesiona do kwadratu różnica pomiędzy prawdziwym (założonym) ładunkiem czynnikowym a ładunkiem czynnikowym wyznaczonym na podstawie danych po kategoryzacji. Przeprowadzone porównania koncentrowały się przede wszystkim na określeniu wpływu jaki ma przyjmowanie różnych miar korelacji pomiędzy zmiennymi na odchylenie uzyskanych ładunków czynnikowych od wartości prawdziwych. Analiza przeciętnych wartości obydwu powyżej zdefiniowanych miar błędów pokazała, że zastosowane (do danych po kategoryzacji) współczynniki korelacji polichorycznej (r*) generują ładunki czynnikowe, które w najmniejszym stopniu są obciążone błędami. W większym stopniu obciążone błędami okazały się ładunki czynnikowe wygenerowane na podstawie współczynników korelacji liniowej (r) i specjalne współczynniki dla zmiennych porządkowych: współczynnik korelacji rangowej Spearmana i Kendalla (odpowiednio rs i τb). Autorzy eksperymentu zwracają uwagę, że przyczyną zaobserwowanych różnic był fakt, że współczynniki korelacji polichorycznej (obliczone dla danych po kategoryzacji) jak żadne inne generowały oszacowania związków pomiędzy wskaźnikami najbliższe wartościom rzeczywistym. Prawidłowość ta miała miejsce bez względu na wielkość próby, a także przyjęte typy rozkładów zmiennych wskaźnikowych. Pozostałe miary korelacji systematycznie niedoszacowały natężenia tych związków. W konsekwencji, analizy czynnikowe prowadzone przy wykorzystaniu silniej obciążonej błędami miary skorelowania zmiennych dawały ładunki czynnikowe w większym stopniu odbiegające od wartości rzeczywistych. Skalowanie druk.indb 197 2009-12-09 14:25:52 198 Mariusz Grzęda Innym bardzo interesującym aspektem badań symulacyjnych jest wynik pokazujący, że statystyka χ2 używana jako miara jakości modelu czynnikowego paradoksalnie częściej sugeruje odrzucanie wyników analiz czynnikowych, które dawały prawidłowe lub bliskie prawidłowym szacunki ładunków czynnikowych. Dotyczy to przede wszystkim analiz czynnikowych, które opierały się na współczynniku korelacji polichorycznej – tym właśnie który (jak wspomniano wyżej) zapewniał największą zgodność oszacowanego modelu z prawdziwymi relacjami. Co więcej, dla analiz czynnikowych opartych na współczynniku korelacji τb, który we wszystkich wariantach symulacji dawał wyniki najbardziej odbiegające od rzeczywistych relacji, statystyka χ2 przyjmowała przeciętnie najmniejsze wartości – najczęściej sugerujące przyjmowanie modelu. Zdaniem autorów tego badania fakt ten oznacza, że korzystanie z testu χ2 zwiększa prawdopodobieństwo odrzucania prawidłowych modeli czynnikowych i nieodrzucania fałszywych14. Ujmując to w kategoriach statystycznej weryfikacji hipotez można zatem stwierdzić, że wyniki eksperymentu sugerują, iż posługiwanie się tą statystyką naraża badacza na częstsze popełnianie błędów zarówno I rodzaju (polegających na odrzucaniu hipotezy zerowej, która w rzeczywistości jest prawdziwa), jak i II rodzaju (polegających na nieodrzucaniu hipotezy zerowej, która w rzeczywistości jest fałszywa). W tej sytuacji posługiwanie się tymi miarami w analizie czynnikowej należy uznać, za dość ryzykowne. Warto również zauważyć w tym miejscu, że wniosek ten potwierdza niewielką przydatność testu χ2w analizie czynnikowej przeprowadzanej metodą największej wiarygodności, którą sygnalizowano już wyżej (Górniak, 2000). Podsumowując ten punkt rozważań można zwrócić uwagę na dwie sprawy. Po pierwsze gdy – tak jak w przypadku danych sondażowych – mamy do czynienia ze zmiennymi na poziomie porządkowym posługiwanie się miarą korelacji liniowej Pearsona narusza założenia teoretyczne sformułowane Warto również w tym punkcie dodać, że ta sama prawidłowość dotyczy innych statystyk, służących do oceny modelu. Autorzy eksperymentu zajmują się następującymi statystykami: a. GFI – indeks dobroci dopasowania (Goodness-of-Fit Index). Przyjmuje wartości w granicach od 0 do 1. Teoretyczne może jednak również przyjmować nic nie znaczące wartości negatywne; b. AGFI – dostosowany indeks dobroci dopasowania (Adjusted Goodness-of-Fit Index). Używa się w tej mierze kwadratów średnich, a nie tak jak w poprzedniej mierze sum kwadratów. c. RMR – pierwiastek ze średniego kwadratu reszt (Babakus, Ferguson i Joreskog 1986). 14 Skalowanie druk.indb 198 2009-12-09 14:25:52 Wprowadzenie do eksploracyjnej analizy czynnikowej... 199 przez S. Stevensa i sprawia, że przeprowadzanie analizy czynnikowej na podstawie macierzy współczynników Pearsona jest procedurą, która nie ma uzasadnienia metodologicznego. Z drugiej strony wyniki przytoczonego wyżej eksperymentu symulacyjnego, pokazują że powszechnie znane współczynniki korelacji rangowej Spearmana (rs) i Kendalla (τb), które nie naruszają ograniczeń związanych ze zmiennymi porządkowymi dają takie konfiguracje ładunków czynnikowych, które są dalekie od rzeczywistych relacji łączących wartości ukrytych czynników wspólnych ze zmiennymi obserwowalnymi. W tej sytuacji wyniki symulacji sugerują, że dobrym podejściem zarówno z punktu widzenia poprawności metodologicznej jak również jakości wyników jest posłużenie się w analizie czynnikowej alternatywną miarą – współczynnikiem korelacji polichorycznej. Aneks Poziom pomiaru zmiennych Założenie o interwałowym poziomie pomiaru nawiązuje do koncepcji podziału zmiennych sformułowanej na przełomie lat czterdziestych i pięćdziesiątych przez psychologa i fizyka zarazem S.S. Stevensa w pracach On theory of scales of measurement (1946) oraz Mathematics, measurement and psychophysics (1951). Według Stevensa istnieją cztery poziomy pomiaru: nominalny, porządkowy, interwałowy oraz ilorazowy. Więcej elementarnych informacji o poziomie pomiaru zmiennych i jego konsekwencjach dla analizy danych zamieszczono w Banaszak i Nowotny 1984; Mayntz, Holm i Huebner 1985; Lissowski, Haman i Jasiński 2008. Korelacja polichoryczna Idea współczynnika korelacji polichorycznej opiera się na założeniu, że własności mierzone za pomocą skal porządkowych w rzeczywistości mają charakter ciągły a rozkład normalny. Zakłada się, że własność mimo tego, że ma charakter ciągły, może być zmierzona jedynie w sposób dyskretny, przy Skalowanie druk.indb 199 2009-12-09 14:25:52 200 Mariusz Grzęda użyciu niewielkiej liczby uporządkowanych kategorii reprezentujących przedziały zmiennej ciągłej. Założenie to oznacza zatem, że porządkowa zmienna obserwowalna Xi posiada swój ukryty (nieobserwowalny) ciągły odpowiednik w postaci zmiennej Yi o rozkładzie normalnym. Współczynnik korelacji polichorycznej r* pomiędzy dwiema zmiennymi porządkowymi Xi i Xj jest współczynnikiem korelacji liniowej r pomiędzy ich ciągłymi odpowiednikami Yi i Yj o normalnych rozkładach (por. Uebersax 2000): rX*i X j = rYiY j [98] Wartość współczynnika r* trzeba wyliczyć z łącznego rozkładu obserwowalnych zmiennych Xi i Xj. Używane są w tym celu jedno- lub dwu- stopniowe procedury iteracyjne, które, jak wskazuje Uebersax (2000a, b) prowadzą do podobnych oszacowań. Jak pokazują wyniki symulacji, analizy czynnikowe przeprowadzane z użyciem współczynników korelacji polichorycznych dla „dyskretyzowanych” zmiennych normalnych dają bardzo dobre rezultaty – stopień zgodności uzyskanych w ten sposób wyników z rzeczywistymi relacjami pomiędzy zmiennymi ciągłymi jest bardzo wysoki. Używanie macierzy korelacji polichorycznych zamiast macierzy korelacji liniowej między zmiennymi porządkowymi jest zatem zabiegiem uzasadnionym, jeśli mamy wystarczające podstawy, aby przyjąć założenia, które leżą u podstaw ich wyznaczania. Literatura Alwin, Duane F., (2000), Factor analysis, w: Edgar F. Borgatta, Rhonda J.V. Montgomery, (red.) Encyclopedia of sociology, vol. 2, New York: Macmillan Reference USA. Anastasi, Anne, Susana Urbina, (1999), Testy psychologiczne, Warszawa: Pracowania Testów Psychologicznych PTP. Babakus, Emin, Carl E., J.R. Ferguson i Karl G. Joreskog, (1987), Sensitivity of confirmatory maximum likelihood factor analysis to violations of measurement scale and distributional assumptions, „Journal of Marketing Research”, vol. XXIV (May 1987), s. 222–228. Skalowanie druk.indb 200 2009-12-09 14:25:53 Wprowadzenie do eksploracyjnej analizy czynnikowej... 201 Banaszak, Henryk, (2004a), Analiza czynnikowa, w: Gordon Marshall (red.), Słownik socjologiczny i nauk społecznych, Warszawa: Wydawnictwo Naukowe PWN. Banaszak, Henryk, (2004b), Równania strukturalne, w: Gordon, Marshall (red.), Słownik socjologiczny i nauk społecznych, Warszawa: Wydawnictwo Naukowe PWN. Banaszak, Henryk i Sławomir Nowotny, (1984), Statystyka, zeszyt II, Warszawa: skrypt na prawach rękopisu. Brown, A., Timothy, (2006), Confirmatory Factor Analysis for Applied Research, New York, London: The Guilford Press. Child, Dennis, (2006), The essentials of factor analysis, London, New York: Continuum. Jennings, Kent M., Vicki Zeitner, (2003), Internet use and civic engagement, „Public Opinion Quarterly”, vol. 67: 311–334. Jensen, Arthur, (2006), Profiles in Research, „Journal of educational and behavioral statistics”, vol. 31 nr 3: 327–352. Kim, Jae-On, Charles W. Mueller, (1978a), Introduction to Factor Analysis. What it is and how to do it. Series: Quantitative Applications in the Social Sciences. Newbury Park, London, New Dehli: Sage Publications. Kim, Jae-On, Charles W. Mueller, (1978b), Factor Analysis. Statistical Methods and Practical Issues. Series: Quantitative Applications in the Social Sciences. Newbury Park, London, New Dehli: Sage Publications. Kline, Rex B., (1998), Principles and practice of structural equation modeling, New York, London: The Guilford Press. Lee, Sik-Yum, (2007), Structural Equation Modeling, New York: John Wiley & Sons. Lissowski, Grzegorz, Jacek Haman i Mikołaj Jasiński, (2008), Statystyka dla socjologów, Warszawa: Wydawnictwo Scholar. Lissowski, Grzegorz, (2005), Analiza wielowymiarowa, w: Władysław Kwaśniewicz i in. (red.), Encyklopedia socjologii. Suplement. Malarska, Anna, (2005), Statystyczna analiza danych wspomagana programem SPSS, Kraków: SPSS Polska. Mayntz, Renate, Kurt Holm i Peter Hubner, (1985), Wprowadzenie do metod socjologii empirycznej, Warszawa: PWN. Skalowanie druk.indb 201 2009-12-09 14:25:53 202 Mariusz Grzęda Mulaik, Stanley A., (1987), A Brief History of the Philosophical Foundations of Exploratory Factor Analysis, „Multivariate Behavioral Research”, vol. 22: 267–305. Netemeyer, Richard, G., William O., Bearden, Subhash, Sharma, (2003), Scaling procedures. Issues and applications. Thousands Oaks, London, New Dehli: SAGE Publications. Ostasiewicz, Walenty (red.), (1999), Statystyczne metody analizy danych, Wrocław: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu. Rószkiewicz, Małgorzata, (2002), Metody ilościowe w badaniach marketingowych, Warszawa: Wydawnictwa Naukowe PWN. Sternberg, Robert J., (2001), Psychologia poznawcza, Warszawa: Wydawnictwa Szkolne i Pedagogiczne. Tacq, Jacques, (1997), Multivariate analysis techniques in social science research. From problem to analysis, London: Sage Publications. Uebersax, John (2000a), Estimating the latent trait model by factor analysis of tetrachoric Correlations, 2000, (http://ourworld.compuserve.com/homepages/jsuebersax/irt.htm#intro). Uebersax John, (2000b), Latent Trait Models for Rater Agreement, 2000 (http://ourworld.compuserve.com/homepages/jsuebersax/ltrait.htm). Uebersax, John, (2000c), The tetrachoric and polychoric correlation coefficients, 2000 (http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm). Witkowska, Dorota, (2002), Sztuczne sieci neuronowe i metody statystyczne, Warszawa: Wydawnictwo CH Beck. www.sciencemag.org. Zakrzewska, Marzenna, (1994), Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych, Poznań: Wydawnictwo Naukowe UAM. Skalowanie druk.indb 202 2009-12-09 14:25:53