Zeszyt 8

Transkrypt

Zeszyt 8
SPIS TREŚCI
WPROWADZENIE ............................................................................................................. 3
1. ISTOTA ANALIZY KLAS UKRYTYCH ...................................................................... 4
2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH ............................................... 5
3. KLASYFIKACJA MODELI KLAS UKRYTYCH....................................................... 6
4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE
LOKALNEJ NIEZALEŻNOŚCI.................................................................................. 13
5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ
WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW .................. 17
6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI.................................................. 19
7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW
JAKOŚCIOWYCH (SKOKOWYCH)......................................................................... 22
8. OCENA DOPASOWANIA MODELU...................................................................... 27
9. PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ.... 29
10. PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY. ....................................... 35
11. ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW
DEMOGRAFICZNYCH ............................................................................................... 40
12. WYBRANE PROGRAMY KOMPUTEROWE........................................................ 46
LITERATURA.................................................................................................................... 47
1
2
WPROWADZENIE
Celem niniejszego opracowania jest przedstawienie wybranych zagadnień
przedstawionych podczas seminarium szkoleniowego “Basic and Advanced Topics in
Modelling” – Generalized Linear Models with Latent Variables. ZA Spring Seminar 2003,
które odbyło się w dniach 17-21 marzec 2003 w Niemczech w Kolonii. Opracowanie nie
zamieszcza przykładów własnych. Aplikacje takie są planowane w przyszłości. Tekst
bazuje głownie na przykładach prezentowanych podczas szkolenia, jak również
przykładzie zaczerpniętym z literatury demograficznej. Celem opracowania jest
rozpowszechnianie informacji o nowych metodach i technikach badawczych i ich
zastosowaniach.
W ostatnich latach opublikowano wiele prac na temat ukrytych zmiennych (Latent
Class – LC) oraz skończonych mieszanych modeli1 niż na temat jakichkolwiek innych
modeli statystycznych. Ów wzrost zainteresowania w temacie LC spowodowany jest
rozwojem zaawansowanych algorytmów komputerowych, które pozwalają dzisiejszym
“maszynom” na przeprowadzenie analizy ukrytych klas na zbiorach danych zawierających
więcej niż tylko kilka zmiennych. Co ciekawe, badacze coraz częściej zdają sobie sprawę z
tego, że zastosowanie modeli ukrytych klas może dać przewagę nad tradycyjnymi
podejściami analizy skupień, czy też analizy czynnikowej.
W takich dyscyplinach jak: socjologia, ekonomia czy psychologia do badania
zależności, czy związku między badanymi zmiennymi łatwo jest zastosować metody
statystyczne, w sytuacji gdy mamy do czynienia z obserwowalnymi cechami mierzalnymi.
Problem natomiast pojawia się, gdy w przypadku cech ukrytych, czyli takich, których nie
da się bezpośrednio zmierzyć, a ich ocena jest subiektywna. Kolejnym zagadnieniem jest
badanie charakteru i siły zależności między cechami niemierzalnymi (ukrytymi).2
Przykładami zmiennych ukrytych są między innymi: preferencje, nastawienia,
intencje zachowań czy cechy osobowości. Takiego rodzaju charakterystyki mogą zostać
jedynie zmierzone pośrednio przez średnie obserwowalnych wskaźników; np. poprzez
kwestionariusz skonstruowany w taki sposób, by otrzymać odpowiedzi powiązane z
nastawieniem, czy preferencjami. Z tego też powodu rozwinięto różne techniki skalowania
1
2
Pod pojęciem modeli mieszanych rozumie się modele które zawierają zmienne o różnych rozkładach.
A. Bartkowiak “Analiza struktur ukrytych” 22/05/2002, str. 1
3
by dostarczyć informacje o nieobserwowalnych cechach używając wskaźników.
Przykładem takich technik są modele z ukrytymi zmiennymi (latent class models).3
1. ISTOTA ANALIZY KLAS UKRYTYCH
Analiza ukrytych klas jest metodą statystyczną służącą do odkrywania podtypów w
powiązanych ze sobą wielowymiarowych kategorialnych cech. Ukryta klasa określa pewną
abstrakcyjną cechę lub charakterystykę, która nie może być zaobserwowana bezpośrednio.
Tak, więc jeśli ukryty konstrukt (construct) ma charakter skokowy, to znaczy cecha jest
jakościowa i różnią się warianty – w ramach danej zmiennej, to można potraktować każdą
cechę jako ukrytą klasę.
Podstawową ideą,4 której podlega analiza ukrytych klas jest bardzo prosta: niektóre
parametry w postulowanym statystycznym modelu różnią się, co do ukrytych podgrup. Te
podgrupy tworzą warianty ukrytych zmiennych skokowych. Idea, o której była mowa na
początku ma kilka pozornie niezwiązanych ze sobą zastosowań, z których najważniejszymi
są: clustering, scaling, density estimation oraz random effect modelling. Poza naukami
społecznymi modele ukrytych klas odnoszą się często do skończonych modeli mieszanych
(finite mixture models). Modele klas ukrytych dostarczają niezwykle ważnego narzędzia do
analizy danych wielowymiarowych (D.J. Bartholomew, M. Knott 2002). Modele te oferują
ramy modelowe, wewnątrz których wiele ważnych metod może zostać połączonych ale też
z których nowe metody mogą być rozwijane. Model statystyczny określa wspólny rozkład
zbioru losowych zmiennych i staje się modelem z ukrytymi zmiennymi w momencie gdy
niektóre z tych zmiennych są nieobserwowalne. Pytaniem jest dlaczego wprowadzana jest
w ogóle ukryta zmienna do modelu oraz co wnosi jej obecność z punktu widzenia analizy
naukowej?
Pierwszą przyczyną zastosowania zmiennych ukrytych jest redukcja “wymiarowości”.
Jeśli informacja zawarta we wzajemnej relacji wielu zmiennych może zostać wyrażona w
pewnym dobrym przybliżeniu w znacznie mniejszym zbiorze zmiennych to zdolność
badacza do wyjaśniania struktury danych zmiennych wzrośnie. Jest to generalna idea
przyświecająca
analizie
czynnikowej
czy
też
zastosowaniu
liniowych
modeli
strukturalnych. Z kolei modele klas ukrytych odpowiedzą na pytanie w jaki sposób
ograniczyć liczbę zmiennych z którymi mamy do czynienia na początku badania do
znacznie mniejszej liczby wskaźników minimalizując przy tym stratę informacji. Po drugie
3
4
J. K Vermunt i J. Magidson “Latent variable”, str. 1 (www.statisticalinnovations.com)
J. Magidson, J.K. Vermunt “A nontechnical introduction to latent class models”
4
ukryte wielkości są obecnie niezbyt trudne do znalezienia, coraz powszechniejsze, w
obszarach zastosowań metod statystycznych. Dotyczy to przede wszystkim nauk
społecznych.
Z formalnego statystycznego punktu widzenia nastąpił duży postęp jeśli chodzi o
estymację i testowanie modeli ukrytych klas. Niektóre osiągnięcia w ekonometrii,
biometrii i statystyce matematycznej – na polu modeli skończonych (finite models), modeli
z nieobserwowalną heterogenicznością (unobserved heterogeneity) czy też modeli
losowych (random effects models) – są blisko “spokrewnione” z modelami klas ukrytych.
Ponadto w naukach społecznych i behawioralnych odkryty został bliski związek
między modelami klas ukrytych a modelami logarytmiczno-liniwymi oraz związek między
modelami klas ukrytych a modelami IRM (Item Response Modelling) (J. A. Hagenaars,
A. L. McCutcheon 2002). Doprowadziło to do sytuacji, w której analiza klas ukrytych stała
się postrzegana jako ogólny model z ukrytymi zmiennymi dla jakościowych zmiennych.
Wreszcie analiza klas ukrytych dostarcza bardzo użytecznych narzędzi pozwalających
znaleźć odpowiedź na wiele pytań w naukach społecznych i behavioralnych.
Pomimo że obecnie dostępnych jest wiele programów, które w łatwy sposób
pozwalają na zastosowanie modeli klas ukrytych to “praktykujący” badacze nie zawsze
uważają analizę klas ukrytych jako dobrą alternatywę dla lepiej znanych technik, takich jak
analiza czynnikowa czy modelowanie liniowe równań strukturalnych nawet w przypadku
gdy analiza klas ukrytych jest bardziej właściwa do zastosowania w danej sytuacji.
2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH
Problem mierzenia relacji (związku) czy też braku niezależności między dwoma
lub więcej obserwowalnymi (dycho- poli- tomicznymi) zmiennymi ma długą historię. Już
w XIX wieku temat ten był podejmowany przez badaczy w różnych obszarach zastosowań
(J. A. Hagenaars, A. L. McCutcheon 2002). Z kolei zastosowanie modeli klas ukrytych
jako narzędzia pozwalającego na głębsze zrozumienie zaobserwowanego związku ma
znacznie krótszą historię. Ciekawe jest jednak iż modele, które powstały wcześniej są
odpowiednikami pewnych specjalnych odmian modeli klas ukrytych czy innych modeli
struktur ukrytych. Jednakże główny rozwój modeli klas ukrytych datuje się na drugą
połowę XX wieku, natomiast praktyczne zastosowanie tych modeli, na różnych polach
badawczych, w ostatnim dwudziestopięcioleciu.
5
Analiza ukrytych klas została wprowadzona w 1950 roku przez Lazarfeld’a, który użył tej
techniki jako narzędzia do zbudowania pewnej typologii, segmentów na podstawie
zaobserwowanych dychotomicznych zmiennych. Ponad 20 lat później w 1974 Goodman
uczynił go użytecznym w praktyce dzięki rozwinięciu algorytmu pozwalającego otrzymać
estymatory
metody
największej
wiarogodności
parametrów
modelu.
Ponadto
5
zaproponował rozwinięcie dla politomicznych (polytomous) zmiennych obserwowalnych
oraz wielokrotnych ukrytych zmiennych. Goodman opracował również bardzo wiele w
temacie identyfikacji modelu. W tym samym okresie Haberman (1979) pokazał związek
pomiędzy modelami ukrytych klas oraz modelami logarytmiczno-liniowymi dla tabel
częstości z brakującymi (nieznanymi) liczebnościami komórek. Od tamtego czasu
zaproponowanych zostało bardzo wiele ważnych rozwinięć klasycznych modeli ukrytych
klas, takich jak np. modeli zawierających ciągłe zmienne, lokalne niezależności,
porządkowe zmienne, kilka ukrytych zmiennych oraz powtarzalne miary. Ogólne ramy dla
analizy kategorialnych zmiennych ze skokowymi zmiennych ukrytymi zostały opracowane
przez Hagenaars’a (1990) i rozwinięte przez Vermunt’a (1997).
Podczas gdy w naukach społecznych modele ukrytych klas oraz modele mieszane
są traktowane jako narzędzia używane głównie w analizie jakościowych danych, natomiast
mogą one być z powodzeniem wykorzystywane również w kilku innych obszarach analiz.
Jednym z nich jest estymacja funkcji gęstości, w której wykorzystuje się fakt, iż złożone
funkcje gęstości mogą być przybliżane do ich kombinacji ze skończonymi elementami o
prostszej funkcji gęstości. Analiza ukrytych klas może być również wykorzystywana jako
narzędzie do probabilistycznej analizy skupień dla ciągłych zmiennych obserwowalnych.
Jest to podejście oferujące wiele zalet w stosunku do tradycyjnych technik
wykorzystywanych w analizie skupień takich jak “segmentowanie” za pomocą metody Kśrednich. Kolejnym obszarem zastosowania jest zajmowanie się, radzenie sobie z
nieobserwowalną heterogenicznością; np. w analizie regresji z zależnymi obserwacjami.
3. KLASYFIKACJA MODELI KLAS UKRYTYCH
Model z ukrytymi zmiennymi jest nieliniową ścieżką analizy problemu. Ponadto
model zawiera jedną lub więcej ukrytych zmiennych reprezentujących interesujące
5
zmienna politomiczna to zmienna z wieloma kategoriami w przeciwieństwie do zmiennej dychotomicznej,
która posiada tylko dwie kategorie.
6
badającego charakterystyki, które nie są obserwowalne. Istnieją dwa podstawowe
założenia definiujące przyczynowy mechanizm, któremu podlegają odpowiedzi.
Pierwsze, zakłada się, że odpowiedzi dotyczące wskaźników są wynikiem wpływu
jednostki na ukrytą zmienną.
Po drugie zmienne obserwowalne nie mają ze sobą nic wspólnego po wprowadzeniu
zmiennych ukrytych; co jest często referowane jako aksjomat lokalnej niezależności.
Pozostałe dwa założenia dotyczą rozkładu ukrytych jak i obserwowalnych zmiennych.
Rozkład tych zmiennych determinuje różne rodzaje modeli. Tak jak podaje Bartholomew
wyróżniamy cztery główne rodzaje modeli:
•
analiza czynnikowa (FACTOR ANALYSIS – FA)
•
analiza z ukrytymi charakterystykami (LATENT TRAIT ANALYSIS – LTA)
•
analiza z ukrytymi profilami (LATENT PROFILE ANALYIS – LPA)
•
analiza z ukrytymi zmiennymi (LATENT CLASS ANALYSIS – LCA)
Tablica 1. Klasyfikacja metod analizy klas ukrytych
Zmienna ukryta
Zmienna obserwowalna Ciągła
Ciągła
Skokowa
Skokowa
FA
LPA
LTA
LCA
Źródło: D.J. Bartholomew i M. Knott 2002, Latent Variable Models and Factor Analysis, str. 3
Jak pokazuje powyższe zestawienie, w FA oraz LTA zmienne ukryte są traktowane
jako ciągłe o rozkładzie normalnym. Z kolei zmienne obserwowalne są ciągłe i w
większości przypadków warunkowy rozkład zmiennych obserwowalnych dla danych
ukrytych zmiennych jest zakładany jako normalny. Natomiast w przypadku LPA i LCA
ukryte zmienne są skokowe i zakłada się, że pochodzą z rozkładu wielomianowego,
natomiast zmienne niezależne (wskaźniki) obserwowalne są dychotomiczne, porządkowe
czy też nominalne jakościowe, a ich rozkłady warunkowe mają rozkład dwu- lub
wielomianowy.
LPA oraz LCA składają się na analizę ukrytych struktur, opartej na założeniu, że
zmienne obserwowalne są wskaźnikami pewnej ukrytej struktury. Głównym aspektem
analizy jest powiązanie pomiędzy zmiennymi obserwowalnymi i ukrytymi, które można
przedstawić za pomocą formalnych modeli matematycznych. Wspomniana analiza
7
ukrytych struktur powstała na potrzeby nauk społecznych; w socjologii służy mierzeniu
postaw społecznych, w psychologii dotyczy raczej zdolności niż postaw a w ekonomii przy
badaniu np. jakości życia, statusu ekonomicznego, opinii czy aktywności konsumenta.6
Fundamentalnym założeniem we wspomnianej wcześniej typologii Bartholomew’a
jest rozróżnienie pomiędzy zmienną ciągłą i skokową. Badacz musi sam zadecydować czy
bardziej naturalnym jest traktować zmienne jako ciągłe czy też skokowe. Jednakże jak
wykazał Heinen (T. Hainen 1996), rozkład ukrytej ciągłej zmiennej może być
aproksymowany przez rozkład skokowy, co pokazuje, że rozgraniczenie z początku tego
akapitu nie jest wcale takie fundamentalne jakby można było początkowo sądzić.
Specyfika rozkładów warunkowych zmiennych objaśniających wynika naturalnie z typu
przyjętej skali. Dynamiczny rozwój modeli z ukrytymi zmiennymi w naturalny sposób
skłania się ku temu by dopuścić różny rozkład dla każdej ze zmiennych. Mogą to być:
rozkłady: normalny, t-studenta, lognormalny, gamma czy wykładniczy dla zmiennych
ciągłych; rozkłady: dwumianowy dla dychotomicznych zmiennych, wielomianowy dla
porządkowych i nominalnych oraz Poisson’a, dwumianowy i dwumianowy odwrotny dla
liczebności. Zależnie od tego czy zmienna ukryta jest traktowana jako ciągła czy skokowa
otrzymuje się jedną z form modeli: LTA lub LCA.7
Dotychczas omówiono modele klas ukrytych dla wskaźników jakościowych.
Jednakże podstawowe założenie analizy ukrytych klas mówiące o tym, że parametry
statystycznego modelu różnią się pomiędzy nieobserwowalnymi podgrupami, może
również być nakładane na modele ze zmiennymi różnych typów skali. W literaturze
przedmiotu wyodrębnia się 3 ważne typy aplikacji modeli klas ukrytych lub skończonych
modeli mieszanych, które nie mieszczą się w ramach jakościowej analizy danych, a
mianowicie: segmentacja ze zmiennymi ciągłymi, estymacja funkcji gęstości i
modelowanie efektów losowych (random-effect modelling).
W ciągu ostatnich 10 lat powróciło zainteresowanie analizą ukrytych klas jako
narzędzia do analizy skupień z ciągłymi zmiennymi. Model ukrytych klas może być
postrzegany jako probabilistyczny albo jako oparty na modelu (modelowy) wariant
tradycyjnej niehierarchicznej procedury analizy skupień jak np. metoda K-średnich.
Pokazano, że procedura segmentowania oparta na ukrytych klasach jest skuteczniejsza od
6
7
A. Bartkowiak ..., str. 1 i 2
Ibidem, str. 2
8
większości tradycyjnych metod ad hoc.8 Metoda ta znana jest jako: model ukrytego profilu
(latent profile model), segmentowanie modelu mieszanego, oparte na modelu
segmentowanie, ukryta analiza dyskryminacyjna oraz segmentowanie ukrytych klas. W
podstawowej formule modelu prawdopodobieństwa zostały zastąpione przez gęstości. Z
ciągłymi zmiennymi, klasowo wyszczególnione gęstości zazwyczaj są przyjmowane jako
(ograniczone) wielowymiarowe normalne, gdzie każda ukryta klasa posiada swój własny
średni wektor oraz macierz kowariancji. Innym ważnym zastosowaniem ukrytych klas jest
nieparametryczny model efektów losowych. Leżący u podstaw pomysł polega na tym, że
parametry modelu regresji mogą się różnić w obrębie nie obserwowalnych podgrup. Dla
tego rodzaju analizy, do której często nawiązuje się jako do analizy regresji ukrytych klas,
zmienna ukrytych klas (ukryta klasa) pełni rolę zmiennej uśredniającej (moderating). Owa
metoda jest bardzo podobna do modeli regresji dla powtarzalnych miar lub zbiorów
dwupoziomowych danych, z tą różnicą, że brak jest założenia dotyczącego rozkładu
losowych czynników.
Tradycyjne modele używane w analizie regresji, analizie dyskryminacyjnej czy logliniowej zawierają parametry, które opisują tylko zależności między obserwowalnymi
zmiennymi. Modele ukrytych klas różnią się od poprzednio wspomnianych tym, że
zawierają jedną lub więcej skokowych nie obserwowalnych zmiennych. W badaniach
marketingowych interpretuje się kategorie ukrytych klas, (ukrytych zmiennych) jako
segmenty. Wśród swoich zastosowań analiza ukrytych klas dostarcza nowego narzędzia,
pomagającego zidentyfikować ważne segmenty rynkowe w marketingu.
Ostatnio został wykryty bliski związek pomiędzy modelami ukrytych klas oraz
modelami efektów losowych (random effects models – REM). Ponadto uwidoczniło się
również powiązanie między ukrytymi klasami a “ukrytymi warstwami” w najszerzej
używanym modelu sieci neuronowych (multilayer perceptron – MLP). Rozwój tych
technik otworzył drogę do zastosowania modeli ukrytych klas w nieliniowej regresji
dostarczając udoskonaleń, przewagi nad obecnymi podejściami REM i MLP jeśli chodzi o
szybkość i skuteczność estymacji, a także interpretacji wyników.
Modele ukrytych klas nie polegają założeniom tradycyjnego modelowania, które w
praktyce są często naruszane; chodzi o liniowy związek, rozkład normalny czy
homogeniczność. Stąd, są mniej podatne na obciążenia (dotyczące) związane z danymi,
które nie podlegają modelowym założeniom. Również dla polepszenia opisu (i predykcji)
8
metody ad hoc nie zakładają “z góry” przed dokonaną analizą istnienie pewnych prawidłowości w
analizowanych zmiennych np. ilość analizowanych klas.
9
segmentów, związek między ukrytymi klasami a zmiennymi (covariates) może być
szacowany jednocześnie wraz z identyfikacją klas (segmentów). To pozwala na
wyeliminowanie stosowanego zazwyczaj drugiego kroku analizy, w której analiza
dyskryminacyjna jest przeprowadzana w celu powiązania segmentów lub czynników,
otrzymanych tradycyjnymi metodami, z demograficznymi lub innymi zmiennymi. Ostatnio
modele ukrytych klas zostały rozszerzone o zmienne o różnych typach skali (nominalne,
porządkowe, ciągłe oraz liczebności) zawarte w tej samej analizie.
Poniżej przedstawiono krótką charakterystykę 3-ch rodzajów modeli ukrytych klas.
Analiza wykorzystująca te modele może być wykorzystana do analizy jako substytucyjna
do tradycyjnych technik analizy skupień, jako narzędzie zastępujące tradycyjną analizę
czynnikową – redukującą wymiarowość, oraz jako narzędzie estymacji osobnych modeli
regresji dla poszczególnych segmentów.
Istnieją trzy główne obszary analizy z wykorzystaniem modeli ukrytych klas, które
to obejmują: umieszczanie analizowanych przypadków w segmentach, redukcję
zmiennych, konstrukcję skali oraz predykcję zmiennej zależnej.
Można więc wyróżnić trzy główne rodzaje modeli ukrytych klas:
•
modele ukrytych klas z wykorzystaniem segmentów (Latent Class Cluster Models)
•
modele ukrytych klas z wykorzystaniem czynników (Latent Class Factor Models)
•
modele ukrytych klas w regresji i modelach wyboru (Latent Class Regressioon and
Choice Models).
Modelowanie ukrytych klas z wykorzystaniem segmentacji polega na identyfikacji
segmentów obejmujących jednostki obserwacji mających te same zainteresowania,
charakteryzujących się takimi samymi postawami, zachowaniem czy wyznających te same
wartości. LC Cluster Modele zawierają zmienną ukrytą o K – kategoriach, z których każda
reprezentuje segment. Przewagę jaką powyżej wspomniane modele mają nad tradycyjną
analizą skupień to:
•
klasyfikacja, przynależność bazuje na prawdopodobieństwach wyestymowanych
bezpośrednio z modelu
•
zmienne mogą być ciągłe, kategorialne (nominalne lub porządkowe) lub
liczebności, lub ich dowolną kombinacją
•
do opisu segmentów można używać zmiennych demograficznych oraz innych
zmiennych objaśniających.
10
Tradycyjne podejście wykorzystują podejście algorytmu “niekontrolowanego” uczenia się
(klasyfikacji), którego mechanizm polega na grupowaniu cech, które są “blisko” siebie
biorąc przyjmując ad hoc definicję “dystansu”. W ostatniej dekadzie zainteresowanie
przesunęło się w stronę modeli bazujących na podejściu wykorzystujących oszacowane
prawdopodobieństwa do sklasyfikowania cech do odpowiedniej klasy. Najpopularniejszy
model wykorzystuje podejście, w którym każda ukryta klasa reprezentuje ukryty segment.
W badaniach marketingowych metoda ta nazywana jest “ukrytą analizą dyskryminacyjną”.
W dzisiejszych czasach posiadając szybkie komputery w łatwy sposób można
przeprowadzać te żmudne obliczeniowo analizy.
W przypadku zmiennej ciągłej Magidson i Vermunt pokazali, że analiza ukrytych
klas z wykorzystaniem klas daje taki sam wynik, jak w przypadku zastosowania algorytmu
K - średnich.
W przypadku modeli ukrytych klas z wykorzystaniem czynników:
•
mamy do czynienia z identyfikacją czynników, które grupują ze sobą zmienne
posiadające to samo źródło wariancji,
•
model może zawierać kilka porządkowych ukrytych czynników, z których każdy
ma 2 lub więcej poziomów,
•
czynniki mogą być skorelowane lub nieskorelowane (ortogonalne).
Zalety powyższych modeli nad tradycyjną analizą czynnikową są następujące:
•
nie ma potrzeby obracania czynników by je interpretować,
•
estymacja ocen czynników metodą największej wiarogodności są otrzymywane
bezpośrednio z modelu bez nakładania dodatkowych założeń,
•
zmienne mogą być ciągłe, jakościowe (nominalne lub porządkowe) lub liczebności,
lub ich dowolną kombinacją,
•
rozbudowane modele czynnikowe mogą być oszacowane zawierając zmienne
objaśniające oraz skorelowane reszty.
Z
kolei
tradycyjne
podejście
analizy
czynnikowej
stosowane
przez
badaczy
marketingowych zawiera:
•
szacowanie złożonych zmiennych z przedmiotów badań będących postawami,
•
szacowanie “perceptualnych” map i wykresów wiążących ze sobą produkt i jego
markę z zachowaniami, postawą oraz cechami demograficznymi jednostek,
•
estymacja ocen faktorów,
•
bezpośrednią konwersję, przejście od faktorów do segmentów.
11
Ponadto analiza ukrytych klas z wykorzystaniem czynników może być
przeprowadzona dla mniejszej liczby zmiennych niż tradycyjna analiza czynnikowa. Na
przykład: w przypadku tradycyjnej analizy czynnikowej potrzeba przynajmniej trzech
zmiennych ciągłych i taka właśnie analiza biorąca pod uwagę 3 zmienne daje tylko jeden
czynnik. Natomiast w przypadku modelu ze zmiennymi ukrytymi 3 zmienne
dychotomiczne dostarczają 1 czynnik. Oczywiście analiza ukrytych klas z wykorzystaniem
czynników nie ogranicza się tylko do zmiennych dychotomicznych, a włączenie do analizy
dodatkowych zmiennych pozwala na identyfikowanie kolejnych czynników. Na przykład
w analizie jednej lub dwóch ciągłych zmiennych, nawet bez zmiennych objaśniających
może dostarczyć w rozwiązaniu 2 lub więcej czynników. Co więcej, wyniki dwuczynnikowego rozwiązania mogą być czytelnie zilustrowane graficznie.9
Wreszcie model ukrytych klas w regresji, znany również jako model segmentacji ukrytych
klas, charakteryzuje się tym, że:
•
jest wykorzystywany do predykcji zależnej zmiennej będącej funkcją predyktorów,
•
zawiera zmienną ukrytą o R-kategoriach, z których każda reprezentuje
homogeniczną populację (klasę, segment),
•
dla każdego z ukrytych segmentów można wyestymować inny model regresji,
•
klasyfikuje cechy w segmenty i symultanicznie szacuje dla każdego z nich modele
regresji.
Zaletami, którymi może się podejście poszczycić, jest to, iż:
•
osłabienie tradycyjnych założeń, mówiących o tym, że każdy model dla wszystkich
cech zakłada R=1, co pozwala na oszacowanie osobnego modelu regresji dla
każdego z segmentów,
•
diagnostyczne statystyki pozwalają na określenie wartości dla R,
•
w przypadku, gdy R>1, model może zostać rozszerzony o dodatkowe zmienne
objaśniające,
by
przeprowadzona
analiza
była
dokładniejsza
i
by
przyporządkowanie do segmentu było bardziej klarowne.
Typowe zastosowanie w marketingu tradycyjnego odpowiednika powyższego modelu
ukrytych klas zawiera:
9
(Modele czynnikowe mogą mieć również zastosowanie, gdy mamy do czynienia z mierzeniem i
klasyfikacją błędów w jakościowych zmiennych. Właściwie można to porównać do modeli ukrytych
charakterystyk (IRT), w przypadku których nie jest wymagane założenie o normalności rozkładu
charakterystyk (traits) poddanych analizie.)
12
•
studia, analiza satysfakcji klienta: identyfikację poszczególnych determinant
satysfakcji klienta, które są odpowiednie dla każdego segmentu,
•
wspólne studia: identyfikacja atrybutów produktów, które należą do różnych
segmentów rynku,
•
bardziej ogólnie: identyfikacja ukrytych segmentów, które mogą wyjaśnić
nieobserwowalną heterogeniczność wśród danych.
Zatem ogólnie rzecz biorąc, opisane modele (Latent Class Models) oferują ciekawe
podejście badaczom, których obszarami zainteresowania jest szeroko pojęty marketing i
identyfikacja segmentów rynkowych, ale nie tylko, mogą one również znaleźć
zastosowanie w innych dziedzinach nauk społecznych i ekonomicznych.
4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH.
ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI
Konstrukcja modelu Latent Class Model jest oparta na przyjęciu trzech założeń:
Pierwsze - Liczebności klas - oznacza to, że klasy wykluczają się na wzajem, co implikuje
to, że wszystkie osoby mogą być przyporządkowane jednej z nich, naturalnie z
określonymi prawdopodobieństwami.
Drugie
-
Określone
przyporządkowane
klasom
prawdopodobieństwa
(pozycje,
przyszeregowania) spełniają:
I
∑Π
i =1
A' X
i
= 1 dla i = 1 ... I
J
∑Π
j =1
B'X
j
= 1 dla j = 1 .... J
(1)
gdzie: B’X - prawdopodobieństwo zrealizowania się zdarzenia B;
A’X - prawdopodobieństwo zrealizowania się zdarzenia A.
Każda z klas ma dla każdego wyrażenia wszystkich zaobserwowanych zmiennych
określone prawdopodobieństwo = prawdopodobieństwo warunkowe. I właśnie te
prawdopodobieństwa charakteryzują klasy, ich zróżnicowanie wewnątrz każdej z nich oraz
pomiędzy nimi.
Trzecie - Lokalna stochastyczna niezależność - oznacza to, że wewnątrz każdej z klas
odpowiedzi respondentów na zmienne (pytania) są brane jako stochastycznie niezależne;
co oznacza, że prawdopodobieństwo wszystkich odpowiedzi poszczególnej osoby
wewnątrz klas równe jest produktowi prawdopodobieństwa jego pojedynczej odpowiedzi.
13
W modelu klas ukrytych brak jest ograniczającego założenia o liniowości,
normalności rozkładu danych czy też jednorodności wariancji.
Analiza ukrytych klas obejmuje analizę ukrytych charakterystyk (np. inteligencji,
zadowolenia, postawy), czyli takich, których nie można bezpośrednio zmierzyć. Jednakże
poprzez analizę zmiennych mierzalnych, manifestowanych i próbę znalezienia związku
między tymi zmiennymi a ukrytą lub ukrytymi zmiennymi, które są właściwym obiektem
badań. Badając np. dwie dychotomiczne zmienne w poniższej tablicy kontyngencji.
Tablica 2. Tablica kontyngencji dla przykładu zwolenników dwóch seriali.
Oglądam
Oglądam regularnie serial
regularnie
“Strasznie miła rodzina”
“Tematy dnia”
Tak
Nie
Tak
93
197
290
Nie
417
93
510
510
290
800
Źródło: Prof. Herrmann, University of Mainz, Department of Marketing
Sprawdzając zależność między tymi zmiennymi używając testu Chi-kwadrat otrzymujemy
obliczoną statystykę na poziomie 197,6 przy 1 stopniu swobody, co oczywiście daje
podstawy do odrzucenia hipotezy mówiącej o braku zależności między badanymi
zmiennymi. Jaka jest przyczyna występowania tej zależności? W tej sytuacji należałoby się
doszukiwać czegoś ukrytego, czegoś co nie jest mierzalne. Odpowiedź brzmi: ukryta
zmienna. Ukryta zmienna odpowiada za przynależność respondentów do jednej z np.
dwóch klas. Jeżeli zatem założymy, że ukryta wyrażana jest przez dwie klasy. Następnym
krokiem przeprowadzenia analizy ukrytych klas jest wyznaczenie osobnej tablicy
kontyngencji dla każdej z klas, tak aby wewnątrz klas zachowana została tzw. lokalna
niezależność.
Tablica 3a. Tablica kontyngencji dla KLASY NR1 – 300 osób
Oglądam
Oglądam regularnie serial
regularnie
“Strasznie miła rodzina”
“Tematy dnia”
Tak
Nie
Tak
48
192
240
Nie
12
48
60
60
240
300
14
Źródło: jak w tablicy 2.
Tablica 3b. Tablica kontyngencji dla KLASY NR2 – 500 osób
Oglądam
regularnie
“Tematy dnia”
Oglądam regularnie serial
“Strasznie miła rodzina”
Tak
Nie
Tak
45
5
50
Nie
405
45
450
450
50
500
Źródło: jak w tablicy 2.
Obecność ukrytych klas jest przyczyną istnienia zależności między powyższymi
zmiennymi. Przesłanką dla przeprowadzenia analizy są:
•
tablica kontyngencji z obserwacjami,
•
założenie o liczbie obserwacji w każdej z klas
•
istnienie niezależności wewnątrz klas (każda z osób może być przyporządkowana tylko
do jednej z klas).
Z przedstawionego prostego przykładu wynika cel analizy ukrytych klas. Analiza ukrytych
klas ma na celu znalezienie, zdefiniowanie odpowiedniej liczby klas, w których
zaobserwowane zmienne są od siebie niezależne, co odpowiada tzw. lokalnej niezależności.
Ponadto lokalna niezależność oznacza również niezależność wewnątrz każdej z klas.
Chcąc wyprowadzić model z powyższego przykładu należy najpierw wprowadzić
odpowiednie oznaczenia:
A - zmienna - Oglądam regularnie serial “Strasznie miła rodzina”
i - warianty zmiennej A
B - zmienna - Oglądam regularnie “Tematy dnia”
j - warianty zmiennej B
X - zmienna ukryta
t - warianty zmiennej X (t=1,...,T), w przykładzie T=2
Пij - prawdopodobieństwo, że respondent wybierze i-ty oraz j-ty wariant
odpowiednio zmiennej A i B
pij - zaobserwowana wartość Пij
T
Πij = ∑ Πijt
ABX
(2)
i =1
15
Zaobserwowane zmienne można wyrazić jako funkcję wielu nieznanych parametrów w
postaci:
Π
ABX
ijt
= Π t * Π it * Π jt
X
A' X
B' X
(3)
gdzie:
wyrażenia po prawej stronie równania oznaczają odpowiednio:
Π
t
Π
it
X
- prawdopodobieństwo przynależności do klasy t
A' X
- warunkowe prawdopodobieństwo, że respondent wybrał i-ty wariant zdarzenia A,
pod warunkiem znalezienia się w klasie t
Π
B'X
jt
- warunkowe prawdopodobieństwo, że respondent wybrał j-ty wariant zdarzenia B,
pod warunkiem znalezienia się w klasie t
W przykładzie "telewizyjnym", załóżmy, że mielibyśmy dane wszystkie nieznane
parametry:
Zaobserwowana zmienna:
p11 = 93 / 800 = 0,116
Prawdopodobieństwo przynależności do klas:
П1X = 300 / 800 = 0,375
П2X = 500 / 800 = 0,625
Warunkowe prawdopodobieństwa bycia w klasie 1:
П11A'X = 0,2
П11B'X = 0,8
Warunkowe prawdopodobieństwa bycia w klasie 2:
П12A'X = 0,9
П12B'X = 0,1
Łatwo podstawić do wzoru ogólnego powyższe współczynniki by otrzymać wartość
prawdopodobieństwa Π11:
Π11 = Σ ΠtX * ΠitA’X * ΠjtB’X
0,116 = 0,375*0,2*0,8 + 0,625*0,9*0,1
16
Jednakże nieznane są wartości parametrów znajdujących się po prawej stronie ogólnego
wzoru, zatem najpierw muszą one zostać oszacowane przy pomocy użycia metody
największej wiarogodności (Maximum Likelihood Estimation – MLE).
5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY
NAJWIĘKSZEJ
WIARYGODNOŚCI.
OGRANICZENIA
W
ZASTOSOWANIU MNW
Niech I oznacza całkowitą liczbę wariantów możliwych odpowiedzi w L-wymiarowej
L
tabeli częstości, tak że I = ∏ Dl , oraz niech i oznacza konkretną daną wejściową, ni
l =1
zaobserwowaną częstość w komórce i, oraz P(Y=yi) prawdopodobieństwo posiadania
schematu odpowiedzi komórki i.
Do oszacowania parametrów modeli ukrytych klas używa się metody największej
wiarogodności.
Istotą
MNW
jest
budowa
funkcji
wiarogodności,
która
jest
maksymalizowana. Dla wygody obliczeń zazwyczaj wykorzystuje się logarytm funkcji
wiarygodności który zapisuje się jako:
I
ln L = ∑ ni ln P (Y = y i )
(4)
i =1
Należy zauważyć, że tylko niezerowe zaobserwowane dane wejściowe odnoszą się do
funkcji wiarogodności, jest to cecha którą wykorzystuje bardziej wydajne oprogramowanie
stworzone do szacowania ukrytych klas, stworzone na przestrzeni ostatnich lat.
Pierwszym z różnych problemów powstałych przy szacowaniu modeli ukrytych klas jest
to, że parametry modelu mogą być niezidentyfikowane nawet, jeśli liczba stopni swobody
jest większa lub równa zero. Nieidentyfikowalność oznacza różne zbiory wartości
parametrów dają takie same maksimum funkcji log-wiarogodności albo inaczej mówiąc, że
nie ma jedynego zbioru oszacowań parametrów. Formalnie sprawdza się identyfikację
poprzez zidentyfikowanie dodatniej macierzy informacji. Kolejnym sposobem jest
szacowanie modelu z różnymi zbiorami wartości (danych) początkowych. Poza
rozwiązaniami lokalnymi zidentyfikowany model daje takie same wyniki dla każdego
zbioru wartości początkowych.
17
Pomimo, że brak jest pewnych ogólnych zasad uwzględniających identyfikację modeli
ukrytych zmiennych możliwe jest wyznaczenie konkretnych oczekiwań i wskazanie
błędów (niezgodności). Przy braku ograniczeń dla analizy ukrytych klas potrzebne są co
najmniej 3 wskaźniki, ale w przypadku gdy są one dychotomiczne to nie więcej niż 2
ukryte klasy mogą być zidentyfikowane. Należy uważać przy 4 dychotomicznych
zmiennych, w którym to przypadku 3 klasowy model bez nałożonych ograniczeń jest
niezidentyfikowany, pomimo, że posiada dodatnią liczbę stopni swobody. Z 5
dychotomicznymi wskaźnikami nawet pięcioklasowy model jest identyfikowalny. Zwykle
możliwe jest osiągnięcie identyfikacji poprzez ograniczanie konkretnych parametrów
modelu: np. ograniczenia P(Yl=1|X=1)=P(Yl=2|X=2) mogą być wykorzystane do
zidentyfikowania modelu dwuklasowego z dwiema dychotomicznymi wskaźnikami.
Drugi problem, który odnosi się do estymacji modeli ukrytych klas to obecność lokalnych
maksimów. Funkcja log-wiarogodności modelu ukrytych klas nie zawsze jest wypukła, co
oznacza rosnące (wstępujące) algorytmy mogą zbiegać się do innego maksimum zależnie
od wartości początkowych. Zazwyczaj najlepszym sposobem jest więc, oszacować model
przy użyciu różnych zbiorów losowych wartości początkowych. Zazwyczaj kilka zbiorów
zbiega się do tej samej najwyższej wartości funkcji log-wiarogodności, które później mogą
zostać przypisane rozwiązaniom największej wiarogodności. Niektóre programy
zautomatyzowały używanie kilku zbiorów losowych wartości początkowych aby
zredukować prawdopodobieństwo otrzymania rozwiązania lokalnego.
Trzecim problemem w modelowaniu ukrytych klas jest pojawianie się rozwiązań
granicznych, które są prawdopodobieństwami równymi 0 lub 1, albo log-liniowymi
parametrami dążącymi do + lub – nieskończoności. One to mogą powodować
obliczeniowe problemy w szacowaniu algorytmów, pojawianie się rozwiązań lokalnych,
komplikacje w obliczaniu (szacowaniu) standardowych błędów i liczby stopni swobody
dla testów zgodności. Można zapobiec pojawianiu się rozwiązań granicznych poprzez
narzucanie ograniczeń lub biorąc pod uwagę inne rodzaje wcześniej istniejących
informacji o parametrach modelu.
Najbardziej
popularnymi
metodami
numerycznymi
wykorzystywanymi
w
estymacji modeli są algorytmy EM-Expectation-Maximization oraz Newton-Raphson-NR.
EM jest bardzo stabilną iteracyjną metodą do szacowania maksymalnej wiarogodności z
niekompletnymi danymi. NR jest szybszą procedurą, jednakże aby funkcjonować
potrzebuje dobrych wartości początkowych. Druga z tych metod wykorzystuje macierz
18
drugiego rzędu pochodnych funkcji log-wiarogodności, która jest również potrzebna dla
otrzymania standardowych błędów parametrów modelu.
6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI
W przypadku modeli klas ukrytych niektóre z kryteriów oceny dopasowania
modelu stały się w większym lub mniejszym stopniu standardowe. Cała procedura
sprowadza się do sprawdzenia jak dobrze teoretyczne liczebności komórek replikują
empiryczne zaobserwowane liczebności. Najczęściej używanymi testami są: Chi-kwadrat,
likelihood ratio L2, AIC oraz BIC10. Wszystkie te testy sprowadzają się do porównywania
między teoretycznymi częstościami reprezentowanymi przez oszacowane parametry
modelu oraz zaobserwowanymi w danych empirycznych. Model klas ukrytych prowadzący
do dużych rozbieżności między wspomnianymi częstościami jest nie do przyjęcia,
oczywiście gdy teoretyczne częstości są zbliżone do zaobserwowanych to istnieje
możliwość jego akceptacji i zastosowania.
Modele z większą liczbą parametrów zazwyczaj dają lepsze dopasowanie do danych
(teoretyczne częstości znajdują się bliżej zaobserwowanych). Modele z mniejszą liczbą
parametrów dają nieco gorsze dopasowanie ale zadaniem badacza jest znalezienie
najbardziej “ubogiego” (z jak najmniejszą liczbą szacowanych parametrów) modelu czyli
jak najmniej skomplikowanego który reprezentuje akceptowalne (zadowalające)
dopasowanie do zaobserwowanych danych.
Istnieje kilka podejść estymacji dopasowania modeli ukrytych klas. Najczęściej używanym
jest podejście wykorzystujące iloraz wiarygodności chi-kwadrat statystyki L2 w celu
oszacowania obszaru, w którym wyniki estymacji dla teoretycznych częstości F̂ijkl różnią
się od korespondujących z nimi zaobserwowanych częstości f ijkl :
L2 = ∑ f ijkl ln( Fˆijkl / f ijkl ) )
(5)
ijkl
Model jest dopasowany do danych, jeżeli wartość L2 jest dostatecznie niska, biorąc pod
uwagę powszechnie używany limit statystycznego błędu na poziome 0,05.
F̂ijkl (częstości teoretyczne) są otrzymywane w wyniku dwustopniowego procesu.
Najpierw otrzymywane są oszacowania największej wiarygodności parametrów modelu
10
AIC – Akaike’s Information Criterium; BIC – Bayesian Information Criterium; opis tych miar został
podany w dalszej części opracowania.
19
oraz zastępowane w prawej stronie równania (8) w celu otrzymania oszacowań
prawdopodobieństw πˆ ijklt . Te oszacowania prawdopodobieństw są sumowane wewnątrz
ukrytych klas w celu otrzymania teoretycznych prawdopodobieństw dla każdej z komórek
w zaobserwowanej tablicy oraz pomnożone przez rozmiar próby N w celu otrzymania
oszacowań największej wiarygodności dla teoretycznych częstości.
T
Fˆijkl = N ∑ πˆ ijklt
(6)
t =1
W przypadku, gdy F̂ijkl = f ijkl dla każdej komórki (i, j, k, l) model będzie idealnie
dopasowany, a L2 wyniesie 0. Gdy wartość L2 przekracza 0, mierzy brak dopasowania
modelu, kwantyfikując siłę związku (braku niezależności), która pozostaje niewyjaśniona
przez model. Natomiast, kiedy N jest wystarczająco duże L2 zbiega do rozkładu chikwadrat oraz liczba stopni swobody (DF) jest równa liczbie komórek w pełnym
wielowymiarowym modelu minus liczba niezależnych parametrów M. W przypadku
modelu z czterema kategorialnymi zmiennymi liczba komórek jest równa IJKL, a liczba
parametrów:
M = T − 1 + T [( I − 1) + ( J − 1) + ( K − 1) + ( L − 1)]
(7)
M jest otrzymywane poprzez wyznaczenie T-1 niezależnych prawdopodobieństw ukrytych
klas oraz dla każdej klasy I-1 warunkowych prawdopodobieństw powiązanych z
kategoriami
zmiennej
A,
J-1
niezależnych
warunkowych
prawdopodobieństwa
powiązanych z B, itd. Ze względu na to, że prawdopodobieństwa sumują się do jedności
prawdopodobieństwo powiązane z jedną kategorią każdej zmiennej jest odrzucane (stąd
nie jest liczone jako niezależny parametr): może być zatem otrzymane jako jeden minus
suma pozostałych. Jeżeli okazałoby się, że DF < 0 (degrees of freedom tj. stopnie
swobody) wtedy model nie jest identyfikowalny, co oznacza, że niektóre oszacowania nie
są dostępne dla wszystkich parametrów. Na przykład, dla I = J = K = L = 2, DF=-4 dla T
= 4, co oznacza, że czteroklasowy model nie jest identyfikowalny. Jednakże w niektórych
przypadkach może się zdarzyć, że DF > 0, a mimo to model nadal będzie
nieidentyfikowalny.
W przypadku, gdy mamy do czynienia z brakami danych w badaniu, rozkład chi-kwadrat
nie powinien być używany do wyliczenia wartości p (p-value), ponieważ L2 nie został
właściwie przybliżony.
Zamiast
tego
do
estymacji
p
można użyć podejścia
bootstrapowego. Z brakami danych mamy do czynienia w przypadku, gdy liczba
zaobserwowanych zmiennych lub liczba kategorii tych zmiennych jest duża. W takiej
20
sytuacji liczba komórek w otrzymanej wielowymiarowej tablicy będzie duża odpowiednio
do rozmiaru próby, z czego wynikają puste komórki. Braki danych również występują w
przypadku, gdy modele ukrytych klas zostaną rozszerzone o zmienne ciągłe.
Kolejnym podejściem oceniającym dopasowanie modelu w przypadku braku danych jest
podejście wykorzystujące ważone kryterium informacyjne. Miary takie jak: AIC i BIC są
szczególnie przydatne przy porównywaniu modeli. Najczęściej używaną jest statystyka
BIC zdefiniowana jako BIC = L2 – ln(N) DF. Model z niższą wartością BIC jest
preferowany bardziej niż ten z wartością wyższą.
Inforamtion Criteria sprawdzają wiarygodność modeli estymowanych dla coraz to
większej liczby parametrów wymagalnych do oszacowania bardziej pełnego modelu.
Sprawdzają one wiarygodność poprzez redukcję będąc funkcją rosnącej liczby
parametrów.
Jeżeli model bazowy daje właściwe dopasowanie do danych, nie jest potrzebna analiza
ukrytych klas, ponieważ nie istnieje związek między zmiennymi, który można wyjaśniać.
W większości przypadków jest jednak tak, że model bazowy nie jest dobrze dopasowany
do danych i L2 służy jako podstawowa miara całkowitej zależności. To sugeruje trzecie
podejście w szacowaniu dopasowania modeli ukrytych klas polegające na porównywaniu
L2 związanych z modelami ukrytych klas, dla których T > 1 z bazową wartością L2(H0) w
celu otrzymania procentu redukcji L2. Tak więc skoro całkowita zależność może być
skfantyfikowana przez L2(H0), miara procentu redukcji reprezentuje całkowity związek
wyjaśniony przez model. To mniej formalne podejście może być dopełnieniem dwóch
pozostałych podejść, bardziej precyzyjnych, L2 i BIC. Przykładem na to, jak
wykorzystywać te miary niech będzie: załóżmy, że L2 sugeruje, że trzyklasowy model
prawie daje dokładne dopasowanie do niektórych danych (niech p=0,04), ale wyjaśnia
90% całkowitej zależności. Ponadto załóżmy, że czteroklasowy model jest najprostszym
modelem, który jest dopasowany do danych zgodnie ze statystyką L2, ale model ten
wyjaśnia tylko 91% zależności. W tym przypadku na podstawie praktycznego podejścia
trzyklasowy model zostanie wybrany, jako że wyjaśnia prawie tyle samo całkowitego
związku.
Kolejną miarą, która może być przydatna do oceny jakości modelu jest statystyka
Crossie’go-Read’a która jest wykorzystywana do walidacji chi-kwadrat modelu. Jeśli nie
otrzyma się p-value podobnego jak w przypadku chi-kwadrat wtedy nie można uznać pvalue wyznaczonego dla chi-kwadrat.
21
Standardowe błędy ocen parametrów – służą do identyfikacji istotności parametrów i mogą
być użyteczne przy diagnozowaniu modelu czy też jego modyfikacji.
Statystyka Walda jest wykorzystywana do stwierdzenia statystycznej istotności zbioru
oszacowanych parametrów dla danej zmiennej. Testuje ona hipotezę mówiącą o tym że
wartości
każdego z parametrów znajdujących się w zbiorze są równe zero wobec
alternatywnej że są różne.
7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW
JAKOŚCIOWYCH (SKOKOWYCH)
W niniejszym opracowaniu skoncentrowano się na przedstawieniu jednego z
modeli klas ukrytych określonego jako model klas ukrytych dla kategorialnych
wskaźników w którym obie zmienne obserwowalna i nieobserwowalna są zmiennymi
skokowymi.
Tradycyjna analiza ukrytych klas zakłada, że każda obserwacja przynależy do jednej i
tylko jednej T ukrytej (nieobserwowlanej) klasy oraz że istnieje lokalna niezależność
między manifestowanymi zmiennymi. Oznacza to, że warunkowe przynależność do
ukrytej klasy jest jednoznaczna z tym, że zaobserwowane zmienne są wzajemnie od siebie
niezależne.
Model
ten
może
być
wyrażony
przy
użyciu
bezwarunkowych
prawdopodobieństw przynależności do każdej ukrytej klasy oraz warunkowych
prawdopodobieństw jako parametrów. Na przykład, w przypadku czterech nominalnych
manifestowanych zmiennych A, B, C, D mamy:11
π ijklt = π tX π itA X π Bjt X π ktC X π ltD X
(8)
gdzie π tX oznacza prawdopodobieństwo znalezienia się w ukrytej klasie t = 1, 2,…T
ukrytej zmiennej X; π itA| X oznacza warunkowe prawdopodobieństwo otrzymania i-tego
wariantu odpowiedzi zmiennej A, pod warunkiem przynależności do klasy t; π Bjt| X , π ktC | X ,
π ltD| X dla j = 1, 2,..,J; k = 1, 2,…,K; l = 1, 2,…,L oznaczają odpowiednie warunkowe
prawdopodobieństwa dla zmiennych B, C, D.
Założony model może zostać opisany graficznie w postaci diagramu ścieżkowego
(patrz poniżej). Ów diagram pokazuje, że manifestowane zmienne nie są połączone ze sobą
11
J. Vermunt, J. Magidson Latent Class Models, D. Kaplan (Ed) Handbook for Quantitative Methodology
22
w sposób bezpośredni, ale pośrednio przez zmienną X. Zakłada się, że ukryta zmienna
wyjaśnia wszystkie zależności między manifestowanymi zmiennymi. Celem tradycyjnej
analizy ukrytych klas jest determinacja jak najmniejszej liczby ukrytych klas T, które w
wystarczający sposób wyjaśnią zaobserwowane zależności między manifestowanymi
zmiennymi.
Typowa analiza rozpoczyna się dostosowaniem T = 1 (jednoklasowego) bazowego
modelu, który pokazuje wzajemną niezależność między zmiennymi. Model bazowy:
π ijkl = π iAπ Bjπ kC π lD
(9)
Zakłada się, że ten tak zwany zerowany model nie zapewnia dokładnego dopasowania do
danych, natomiast jednowymiarowy model ukrytych klas z T = 2 jest dopasowany do
danych. Proces ten jest kontynuowany poprzez dopasowywanie kolejnych modeli ukrytych
klas, dodając za każdym razem kolejny wymiar poprzez zwiększenie liczby klas o 1,
dopóki najprostszy model, który zapewnia dokładne dopasowanie, nie zostanie znaleziony.
Dla przykładu: niech X reprezentuje zmienną ukrytą a Yl jedną z L zmiennych
zaobserwowanych, gdzie 1 ≤ l ≤ L . Ponadto niech C będzie liczbą ukrytych klas a Dl
liczbą wariantów (poziomów) Yl. Poszczególne ukryte klasy są numerowane indeksami x,
x=1,2...,C natomiast poszczególne Yl indeksami yl , yl =1,2..., Dl . Wektorowy zapis Y oraz
y jest używany do odniesienia się do schematu pełnej odpowiedzi. W celu przybliżenia,
konkretyzacji teorii rozpatrzmy poniższy zbiór danych otrzymanych z General Social
Survey 1987;
Trzy dychotomiczne wskaźniki Y1, Y2, i Y3 są odpowiedziami odpowiednio na pytania:
•
czy pozwolić antyreligistom mówić (1=pozwolić, 2=nie pozwolić),
•
czy pozwolić antyreligistom nauczać (1=pozwolić, 2=nie pozwolić),
•
usunąć antyreligijne książki z biblioteki (1=usunąć, 2=nie usuwać).
23
Tablica 4. Fragment bazy danych z GSS 1987.
Y1
Y2
Y3
Częstość
P(X=1|Y=y)
P(X=2|Y=y)
1
1
1
696
,998
,002
1
1
2
68
,929
,071
1
2
1
275
,876
,124
1
2
2
130
,168
,832
2
1
1
34
,848
,152
2
1
2
19
,138
,862
2
2
1
125
,080
,920
2
2
2
366
,002
,998
Źródło: jak w tablicy 6.
Wykorzystując
analizę
ukrytych
klas
możliwa
jest
identyfikacja
podgrup
charakteryzujących się różnym stopniem tolerancji w stosunku do antyreligistów. Pojęciem
leżącym
u
podstaw
dowolnego
typu
z
modeli
ukrytych
klas
jest
to,
że
prawdopodobieństwo otrzymania schematu odpowiedzi y, P(Y=y), jest średnią ważoną
specyficznych dla C klas prawdopodobieństw P(Y=y|X=x); co oznacza, że:
C
P (Y = y ) = ∑ P ( X = x) P (Y = y X = x)
(10)
x =1
Gdzie, P(X=x) oznacza proporcję osób należących do klasy x.
Podstawowa idea klasycznego modelu ukrytych klas jest powiązana z założeniem lokalnej
niezależności. Zakłada się, że L manifestowanych zmiennych wziętych do analizy jest
wzajemnie niezależne wewnątrz każdej z ukrytych klas. Można to zapisać przy pomocy
następującej formuły:
L
P (Y = y X = x) =∏ P (Yl = y l X = x)
(11)
l =1
Po oszacowaniu prawdopodobieństwa warunkowej odpowiedzi P(Yl=yl|X=x), porównanie
tych prawdopodobieństw między klasami pokazuje jak klasy różnią się między sobą, co
może zostać wykorzystane do nazwania klas. Z połączenia dwóch podstawowych równań
[10] i [11] powstaje następujący model dla P(Y=y):
C
L
x =1
l =1
P (Y = y ) = ∑ P ( X = x)∏ P (Yl = y l X = x)
24
(12)
Wyestymowany dwuklasowy model dla zbioru danych z powyższego przykładu daje
następujące wyniki (por. zbiór danych z tablicy 4):
Tablica 5. Wyniki modelu dwuklasowego.
X=1
(tolerancyjni)
,62
X=2
(nietolerancyjni)
,38
P(Y1=1|X=x)
,96
,23
P(Y2=1|X=x)
,74
,04
P(Y3=1|X=x)
,92
,24
P(X=x)
Źródło: jak w tablicy 6.
Klasy zawierają odpowiednio 62 oraz 38 procent jednostek. Widać ponadto, że klasa
pierwsza nazwijmy ją (tolerancyjni) ze względu na znacznie wyższe prawdopodobieństwa
odpowiedzenia tolerancyjnie na zadane pytania, wskaźniki niż jednostki należące do
drugiej klasy - nietolerancyjni.
Podobnie jak w analizie skupień, jednym z celów analizy ukrytych klas może być
przyporządkowanie jednostek obserwacji do ukrytych klas. Prawdopodobieństwo
przynależności do ukrytej klasy x – do której często odnosi się prawdopodobieństwo
przynależności a posteriori – może zostać otrzymane zgodnie z regułą Bayes’owską:
P( X = x Y = y) =
P ( X = x) P (Y = y X = x)
P (Y = y )
(13)
Najczęściej spotykanym sposobem (regułą) klasyfikacji jest dostosowanie, które wydaje
się być dostosowaniem (przyporządkowaniem) każdej z jednostek do ukrytej klasy z
zachowaniem najwyższego prawdopodobieństwa P(X=x)P(Y=y|X=x).
Prawdopodobieństwa przynależności do klas pokazane w pierwszej tabeli wskazują na
ludzi tolerancyjnych, którzy
udzielili na co najmniej dwa pytania “tolerancyjnej”
odpowiedzi i dlatego sklasyfikowani do klasy pierwszej (“tolerancyjni”).
Haberman (S.J. Haberman 1979) pokazał, że model ukrytych klas może być
również określony jako logliniowy model dla tabeli z brakami w komórkach, danych
wejściowych, albo bardziej precyzyjnie jako model dla rozszerzonej tabeli zawierającej
ukrytą zmienną X jako dodatkowy wymiar tejże tabeli. Powiązany logliniowy model dla
P(X=x, Y=y) ma następującą postać:
25
L
L
l =1
l =1
ln P ( X = x, Y = y ) = β + β xX + ∑ β yYll + ∑ β xX, y,Yl l
(14)
zawiera główny efekt, jednozmienne przypadki dla ukrytej zmiennej i wskaźników oraz
dwuzmienne przypadki zawierające X i każdy ze wskaźników. Należy zauważyć, że
przypadki z 2 lub więcej manifestowanymi zmiennymi są pominięte z racji założenia
lokalnej niezależności.
Związek
pomiędzy
logliniowymi
parametrami
a
prawdopodobieństwem
warunkowej odpowiedzi reprezentuje poniższy wzór:
P (Yl = y l X = x) =
(
exp β yYll + β xX, y,Yl l
(
)
∑r =1 exp β rYl + β xX,r,Yl
Dl
)
(15)
Ten zapis wskazuje, że logliniowe sformułowanie odnosi się do wyszczególnienia
logitowego modelu dla każdego prawdopodobieństwa warunkowej odpowiedzi. Rodzaj
użytego sformułowania ukrytych klas zaczyna mieć znaczenie w przypadku określenia
ograniczeń (restrykcji). Pomimo, że ograniczenia nałożone na prawdopodobieństwo mogą
czasami być transformowane na ograniczenia na logliniowe parametry i odwrotnie, istnieje
wiele sytuacji, gdy jest to niemożliwe.
Zostało zaproponowanych kilka modyfikacji podstawowego modelu ukrytych klas. Jedną z
najważniejszych modyfikacji jest zawarcie zmiennych lub grupowanie zmiennych
opisujących (prognozujących) zmienną ukrytą X. Zostało to osiągnięte dzięki określeniu
multinominalnego modelu logitowego dla prawdopodobieństwa przynależności do ukrytej
klasy x; tzn:
P( X = x Z = z ) =
(
exp γ xX + ∑k =1 γ xX , Z k z k
∑
K
(
)
exp γ rX + ∑k =1 γ rX , Z k z k
r =1
C
K
)
(16)
Gdzie zk wartość zmiennej k.
Kolejną ważną modyfikacją jest powiązane z używaniem informacji do porządkowania
kategorii. W schemacie log-liniowym ukrytej zmiennej, porządkowe ograniczenia mogą
być narzucone poprzez struktury asocjacyjnego modelu (association model) dla dwuzmiennych warunków β xX, y,lyl . Na przykład jeśli Yl jest porządkowym wskaźnikiem można
ograniczyć β xX, y, lyl = β xX , yl ⋅ yl Podobne ograniczenia mogą być użyte dla ukrytej zmiennej.
W przypadku gdy C-klasowy model nie pasuje do danych, założenie lokalnej
niezależności nie jest spełnione dla jednej lub więcej par wskaźników. Powszechną metodą
26
dopasowania w analizie ukrytych klas jest zwiększanie liczby ukrytych klas do momentu
aż założenie lokalnej niezależności zacznie się sprawdzać. Zostały stworzone dwa
rozwinięcia, pozwalające wykorzystać inne strategie. Zamiast zwiększania liczby ukrytych
klas, alternatywnym podejściem jest złagodzenie (poluźnienie) założenia lokalnej
zależności poprzez uwzględnienie bezpośrednich zależności pomiędzy konkretnymi
wskaźnikami – bezpośrednie rozwinięcie log-liniowego modelu ukrytych klas. Kolejną
alternatywną strategią jest zwiększanie liczby ukrytych zmiennych zamiast liczby ukrytych
klas. To tak zwane podejście czynnikowej analizy ukrytych klas jest szczególnie użyteczne
jeśli wskaźniki określają kilka wymiarów.
Inne ważne modyfikacje opierają się na analizie danych wzdłużnych (longitudialnych)
oraz
częściowo
obserwowalnych
parametrów.
Najbardziej
ogólnym
modelem
zawierającym wszystkie omawiane wcześniej, jak również specjalne przypadki jest
równanie strukturalnego modelu dla kategorialnych danych, zaproponowane przez
Hagenaarsa (1990) oraz Vermunta (1997).12
8. OCENA DOPASOWANIA MODELU
Dopasowanie oszacowanego modelu jest zazwyczaj testowane przy użyciu statystyki
Pearsona lub statystyki zgodności Chi-kwadrat. Ta ostatnia jest zdefiniowana jako:
I
L2 = 2∑ ni ln
i =1
ni
N ⋅ P(Y = y i )
(17)
Gdzie N oznacza wielkość próby. Tak jak w analizie log-liniowej, liczba stopni swobody
L
jest równa liczbie komórek w tabeli częstości minus jeden,
∏D
l
, minus liczba
l =1
niezależnych parametrów. W nieograniczonym modelu ukrytych klas liczba stopni
swobody:
L


df = ∏ Dl − C ⋅ 1 + ∑ ( Dl − 1)
l =1
 l =1

(18)
Pomimo, iż nietrudno oszacować modele ukrytych klas z 10, 20 czy 50 wskaźnikami, to w
takich przypadkach tabele częstości mogą stać się bardzo rozrzucone, w wyniku czego
asymptotyczne wartości p mogą stać się nieprawdziwe. Jednym z możliwych, aczkolwiek
czasochłonnym rozwiązaniem tego problemu jest szacowanie wartości p parametryczną
12
w tym opracowaniu nie jest ono omawiane, zainteresowanego czytelnika odsyłamy do wspomnianej
publikacji;
27
metodą “bootstrapową”. Kolejnym sposobem jest ocenić dopasowanie modelu w
brzegowych tabelach niższego rzędu, na przykład w dwuwymiarowych tabelach
brzegowych (marginalnych).
Niesłusznym jest porównywanie modeli z C i C+1 klasami poprzez odejmowanie ich
wartości L2 oraz stopni swobody ponieważ ten warunkowy test nie posiada
asymptotycznego rozkładu Chi-kwadrat. Oznacza to, że potrzebne są alternatywne metody
do porównywania modeli z różnymi liczbami klas. Jedną popularną metodą jest
wykorzystanie kryteriów informacyjnych takich jak AIC oraz BIC. Kolejną bardziej
opisową metodą jest mierzenie proporcji całkowitego związku przypisanego modelowi z C
klasami, [L2(1) – L2(C)]/L2(1), gdzie wartość L2 jednoklasowego (niezależnego) modelu,
L2(1), jest wykorzystywana jako miara całkowitego związku w L-wymiarowej tabeli
częstości.
Zazwyczaj nie jesteśmy zainteresowani tylko dopasowaniem, ale również działaniem
reguły klasyfikacji modalnej. Szacowana proporcja błędów klasyfikacji w klasyfikacji
modalnej równa jest:
I
E=∑
i =1
ni
{1 − max[P(X = x Y = yi )]}
N
(19)
Liczba ta może być porównana z proporcją błędów klasyfikacji opartych na
bezwarunkowych prawdopodobieństwach P(X = x), dając miarę redukcji błędów λ:
λ = 1−
E
max[P ( X = x)]
(20)
Im bliżej tej nominalnej mierze typu R2 do jedności (1), tym lepsza klasyfikacja modelu.
Następnym krokiem tradycyjnej analizy ukrytych zmiennych jest usunięcie z modelu tych
wszystkich zmiennych, które nie dowodzą istotnych różnic pomiędzy klasami. Aby
sprawdzić, czy należy skasować zmienną A z T-klasowego modelu należy przetestować
hipotezę zerową, czy dystrybuanta w I kategoriach zmiennej A jest identyczna wewnątrz
każdej klasy t:
π iA1 X = π iA2 X = ... = π iIA X
Aby
użyć
tego
testu
dla i=1,2,…I
należy
wykorzystać
(21)
zależność
pomiędzy
warunkowym
prawdopodobieństwem odpowiedzi i log-liniowymi parametrami (szerzej: Haberman
1979; Formann,1992; Heinen, 1996):
π itA X =
(
exp λiA + λitAX
∑ exp(λ
l
i ′ =1
A
i′
+λ
)
AX
i ′t
(22)
)
28
Standardowe techniki modelowania log-liniowego mogą być użyte w celu testowania
hipotezy zerowej przetransformowanej w doniesieniu do log-liniowych parametrów
związanych z relacją AX:
AX
AX
λiAX
1 = λi 2 = ... = λiI
dla i=1,2,…I
(23)
Końcowym etapem w tradycyjnej analizie ukrytych zmiennych jest użycie
rezultatów modelu do klasyfikacji przypadków do odpowiedniej klasy. Dla każdego wzoru
odpowiedzi (i,j,k,l), oszacowanie dla następujących prawdopodobieństw przynależności
może być uzyskane przy użyciu teorii Bayesowskiej w następujący sposób:
πˆ
X ABCD
tijkl
=
ABCDX
πˆ ijklt
T
∑ πˆ
t =1
t = 1,2,…, T
(24)
ABCDX
ijklt
gdzie licznik i mianownik równania (24) uzyskuje się poprzez zastąpienie oszacowań
parametrów modelu odpowiednimi parametrami z równania (8). Magidson and Vermunt
(2001) określają ten rodzaj modelu jako model segmentowy ukrytych zmiennych,
ponieważ cel klasyfikacji w podziale na T homogenicznych grup jest identyczny do celu
klasycznej analizy skupień. W przeciwieństwie do miar dystansu ad hoc używanych w
klasycznej analizie skupień do zdefiniowania homogeniczności analiza ukrytych
zmiennych definiuje homogeniczność w kontekście prawdopodobieństw. Jak można
wywnioskować z równania (8) przypadki w obrębie tej samej klasy modelu ukrytych
zmiennych są do siebie podobne, ponieważ odpowiedzi tworzone są na bazie tej samej
dystrybuanty prawdopodobieństwa.
9. PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ
I POLSKIEJ
Przykład 1 (Mc. Cutcheon, 1997; Magidson & Vermunt, Soc. Meth, 2001)
Celem badania była identyfikacja różnych typów respondentów z wykorzystaniem
dwóch zmiennych wyrażających opinii respondentów w kwestii celowości badania (A),
dostosowania badania do jego celu (B) oraz dwóch dodatkowych zmiennych będących
oceną ankieterów: stopnia zrozumienia przez respondenta pytań zawartych w badaniu (C) i
współpracy przy odpowiedzi na pytania (D). Celowi przyporządkowane było zbadanie
różnic pomiędzy tymi typami z wykorzystaniem modeli klasowych oraz czynnikowych.
29
Klasyfikacja respondentów z wykorzystaniem w/w modeli. Rozkład zaobserwowanych
liczebności poszczególnych wariantów w/w zmiennych przedstawia poniższa tablica.
Tablica 6. Rozkład liczebności zaobserwowanych.
Celowość
Dobra
Adekwatność
Prawdziwa
Zrozumienie
Dobre
Współpraca
Liczebności
Zainteresowany
419
Współpracujący
35
Niecierpliwy
2
Słabe
Zainteresowany
71
Współpracujący
25
Niecierpliwy
5
Nieprawdziwa
Dobre
Zainteresowany
270
Współpracujący
25
Niecierpliwy
4
Słabe
Zainteresowany
42
Współpracujący
16
Niecierpliwy
5
To zależy
Prawdziwa
Dobre
Zainteresowany
23
Współpracujący
4
Niecierpliwy
1
Słabe
Zainteresowany
6
Współpracujący
2
Niecierpliwy
0
Nieprawdziwa
Dobre
Zainteresowany
43
Współpracujący
9
Niecierpliwy
2
Słabe
Zainteresowany
9
Współpracujący
3
Niecierpliwy
2
Strata czasu
Prawdziwa
Dobre
Zainteresowany
26
Współpracujący
3
Niecierpliwy
0
Słabe
Zainteresowany
1
Współpracujący
2
Niecierpliwy
0
Nieprawdziwa
Dobre
Zainteresowany
85
Współpracujący
23
Niecierpliwy
6
Słabe
Zainteresowany
13
Współpracujący
12
Niecierpliwy
8
Źródło: Materiały prezentowane na seminarium szkoleniowym “Basic and Advanced Topics in Modelling” –
Generalized Linear Models with Latent Variables. ZA Spring Seminar 17-21 marzec 2003 w Niemczech w
Kolonii, autorstwa J. Vermunt’a.
Następnie wyniki estymacji modeli 1, 2, 3, 4 – klasowych posłużyły do porównania
stopnia dopasowania modeli w zależności od liczby klas.
Zgodnie z procedurą standardowego postępowania na wstępie został oszacowany model
zerowy jako podstawa do porównania z modelami zawierającymi zmienne. Porównanie
modelu z dwoma i trzema klasami dowiodło iż znacznie lepszy jest model z 3 klasami
ponieważ w przypadku tego modelu otrzymujemy większą redukcję L2 a dodatkowo
mniejszą wartość BIC. Model czteroklasowy dostarcza dalszego polepszenia w redukcji L2
30
ale jednocześnie wzrasta wartość BIC i wzrasta wartość błędu losowego mówiącego o
odsetku jednostek blędnie przyporządkowanych do klas (por. tablica 7).
Tablica 7. Wyniki estymacji modeli.
Model
χ2
Redukcja χ2
1-klasa
257,2
6
79,51
22,09
6,61
0,00
Stopnie
swobody
29
0,69
0,91
0,97
22
15
8
2-klasy
3-klasy
4-klasy
p-value
BIC
AIC
0,00
51,6
199,26
Błąd
losowy
0,00
0,00
0,11
0,58
-76,51
-84,29
-50,12
35,51
-7,91
-9,39
0,08
0,13
0,20
Źródło: jak w tablicy 6.
kryteria służące do porównywania jakości dopasowania modeli IC=L2 – w*df
1) BIC : w = ln(N)
AIC : w = 2
CAIC : w = ln(N) + 1
2) Proporcjonalną redukcję χ2 można taktować w przybliżeniu jako R2.
3) Błąd losowy mówi o % respondentów, którzy będą według tego modelu
zakwalifikowani do niewłaściwej klasy.
Jak wynika z otrzymanych rezultatów zaproponowany wstępnie podział na 3 klasy okazał
się trafny, ponieważ model z 3 klasami daje najlepsze wyniki i najlepsze dopasowanie.
Respondenci zostali przydzieleni do odpowiednio określonych klas: Idealiści, Wierzący,
Sceptycy, z prawdopodobieństwami warunkowymi pokazanymi w tablicy 8. Bazując na
danych prawdopodobieństwach i rozkładzie respondentów według poszczególnych
kategorii autorzy określili powstałe w modelu trzy klasy jako “idealistów” (klasa 1 licząca
prawie 62% respondentów), “wierzących” (klasa 2 licząca niewiele ponad 20%
respondentów) oraz “sceptyków” (klasa 3 licząca tylko niespełna 18% respondentów).
Najbardziej wartościową grupę respondentów stanowią “idealiści” czyli osoby które w 9
na 10 przypadków uważały iż badanie jest celowe, w 6 przypadkach na 10 uważali oni iż
badanie jest dostosowane do osiągnięcia celu oraz doskonale rozumieli pytania (prawie 10
na 10 osób) i byli w wysokim stopniu zainteresowani współpracą.
31
Tablica 8. Prawdopodobieństwa warunkowe.
Prawdopodobieństwo znalezienia się
w ukrytej klasie
Klasa 1
Klasa 2
Klasa 3
Idealiści Wierzący Sceptycy
0,6169
0,2038
0,1793
Prawdopodobieństwa warunkowe
Celowość:
Dobra
Zależy
Strata czasu
Adekwatność: Prawdziwa
Nieprawdziwa
Zrozumienie: Dobre
Słabe
Współpraca: Zainteresowany
Współpracujący
Niecierpliwy
0,8905
0,0524
0,0570
0,6148
0,3852
0,9957
0,0043
0,9452
0,0547
0,0001
0,9157
0,0706
0,0137
0,6527
0,3473
0,3241
0,6759
0,6879
0,2583
0,0538
0,1592
0,2220
0,6189
0,0426
0,9574
0,7532
0,2468
0,6432
0,2559
0,1009
Źródło: jak w tablicy 6.
Sposób przyporządkowania odpowiedzi do poszczególnych klas został przedstawiony w
tablicy 9.
Tablica 9. Sposób przyporządkowania odpowiedzi (fragment tablicy z danymi).
Celowość
Adekwatność
Zrozumienie
Współpraca
Model
Klaster 1
Klaster 2
Klaster 3
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
1
1
1
1
1
1
2
2
2
2
2
2
1
1
1
1
1
1
1
2
2
2
1
1
1
2
2
2
1
1
1
2
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
1
1
2
2
2
2
1
1
3
2
2
2
1
1
2
2
0,9197
0,6382
0,0155
0,0238
0,0037
0,0000
0,8780
0,5188
0,0068
0,0246
0,0038
0,0000
0,8653
0,4934
0,0070
0,0173
0,0786
0,3537
0,9435
0,9729
0,9927
0,9932
0,0637
0,2442
0,3503
0,8528
0,8644
0,7761
0,0968
0,3579
0,5560
0,9257
0,0017
0,0081
0,0410
0,0033
0,0036
0,0068
0,0583
0,2369
0,6429
0,1227
0,1318
0,2238
0,0380
0,1487
0,4370
0,0570
Źródło: jak w tablicy 6.
Tablica 10 zawiera rezultaty testów istotności 4 zmiennych w trzyklasowym modelu. Lewa
część tablicy przedstawia rezultaty testu różnicy L2, gdzie ∆L2 jest wyliczana jako różnica
między statystykami L2 pozyskanymi z trzyklasowych modeli z ograniczeniami i bez
ograniczeń. W prawej części tablicy umieszczono odpowiednio rezultaty statystyki Walda,
która jest łatwiejsza do wyliczenia, lecz słabsza niż statystyka ∆L2. Uwzględniając
32
założenie, że model bez ograniczeń jest prawdziwy obie statystyki mają asymptotyczny
rozkład chi-kwadrat o liczbie stopni swobody określanej jako DF = (I-1)*(T-1), gdzie I
określa liczbę kategorii zmiennej nominalnej.
Wyniki umieszczone w Tablicy 10 wskazują, że każda z czterech zmiennych włączonych
do modelu jest istotna.
Tablica 10. Ocena istotności wpływu włączonych zmiennych.
L² redukcja
Zmienna
(A) Celowość
(B) Adekwatność
(C) Zrozumienie
(D) Współpraca
St. swob.
4
2
2
4
∆L²
145.3
125.4
61.3
101.1
p-value
2.1x10-30
5.8x10-28
4.9x10-14
5.6x10-21
test Walda
Wald
29.6
8.4
7.4
19.0
p-value
6.0x10-6
0.015
0.024
0.0008
Źródło: jak w tablicy 6.
Końcowym etapem w tradycyjnej analizie ukrytych zmiennych jest użycie rezultatów
modelu do klasyfikacji przypadków do odpowiedniej klasy z wykorzystaniem teorii
Bayesowskiej. Cel zastosowania tego przyporządkowania jest analogiczny jak w
przypadku analizy skupień: utworzenie T homogenicznych grup. W przeciwieństwie
jednak do analizy skupień, która wykorzystuje najmniejsze odległości pomiędzy
jednostkami w analizie klas ukrytych homogeniczność definiowana jest w ujęciu
prawdopodobieństw. Jednostki w tej samej klasie są podobne ponieważ ich odpowiedzi są
generowane przy tych samych warunkowych rozkładach prawdopodobieństw. Wszystkie
przypadki są przypisane do klasy, dla której ostateczna wartość prawdopodobieństwa jest
najwyższa. Ostateczna przynależność prawdopodobieństw dla trzyklasowego modelu
ukrytych zmiennych przedstawiona jest w Tablicy 11 (prawdopodobieństwa modalne są
przedstawione pogrubioną czcionką).
33
Tablica 11. Klasyfikacja przypadków do klas.
A
B
C
Celowość Adekwatność Zrozumienie
Dobra
Prawdziwa
Dobre
Słabe
Nieprawdziwa
Dobre
Słabe
To zależy
Prawdziwa
Dobre
Słabe
Nieprawdziwa
Dobre
Słabe
Strata czasu
Prawdziwa
Dobre
Słabe
Nieprawdziwa
Dobre
Słabe
D
Współpraca
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Zainteresowany
Współpracujący
Niecierpliwy
Źródło: jak w tablicy 6.
34
Otrzymane
Prawdopodobieństwa
Idealiści Wierzący Sceptycy
0.92
0.64
0.02
0.02
0.00
0.00
0.88
0.52
0.01
0.02
0.00
0.00
0.87
0.49
0.01
0.02
0.00
0.00
0.37
0.08
0.00
0.01
0.00
0.00
0.88
0.53
0.01
0.05
0.01
0.00
0.20
0.03
0.00
0.00
0.00
0.00
0.08
0.35
0.94
0.97
0.99
0.99
0.06
0.24
0.35
0.85
0.86
0.78
0.10
0.36
0.56
0.93
0.94
0.89
0.04
0.05
0.03
0.28
0.27
0.16
0.02
0.07
0.08
0.50
0.51
0.36
0.00
0.00
0.00
0.03
0.02
0.01
0.00
0.01
0.04
0.00
0.00
0.01
0.06
0.24
0.64
0.12
0.13
0.22
0.04
0.15
0.44
0.06
0.06
0.11
0.59
0.87
0.97
0.72
0.73
0.84
0.10
0.41
0.91
0.44
0.48
0.64
0.80
0.96
1.00
0.97
0.97
0.99
10. PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY.
Ponieważ dla każdego wzoru odpowiedzi (i,j,k,l) T-klasowe prawdopodobieństwa
przynależności sumują się do 1 trzeba tylko T-1 wszystkich prawdopodobieństw,
a prawdopodobieństwo przynależności do pozostającej klasy wylicza się z pozostałych.
X ABCD
Stąd prawdopodobieństwa przynależności πˆ tijkl
może być użyte do umiejscowienia
każdego wzory odpowiedzi w T-1 wymiarowej przestrzeni. Na przykład dla T = 3 można
stworzyć kilka dwuwymiarowych wykresów barycentrycznych13 współrzędnych. Zamiast
przedstawiać każdy z możliwych wariantów odpowiedzi można stworzyć taki rodzaj
wykresów, jakiego używa analiza współzależności, gdzie punkty narysowane są dla każdej
kategorii zmiennej, jak również dla wszystkich istotnych agregacji prawdopodobieństw
(Magidson and Vermunt, 2001).
Rysunek 1
Źródło: jak w tablicy 6.
13
barycentryczny tzn. posiadający środek ciężkości;
35
Rysunek 1 pokazuje wykres barycentrycznych współrzędnych dla trzyklasowego modelu
ukrytych zmiennych. Punkty odznaczone są dla każdej z 4 kategorii zmiennych z
przykładu. Ponieważ punkty te zawierają taką samą informację, jak oszacowania
parametrów modelu ukrytych zmiennych (Van der Heijden, Gilula and Van der Ark, 1999)
ten rodzaj wykresu jest graficzną alternatywą do tabelarycznego przedstawienia oszacowań
parametrów wnoszącą nowe możliwości analizy danych. Dwa przedstawione na rysunku 2
dodatkowe zagregowania związane z kategoriami odpowiedzi: Zrozumienie = “dobre”
oraz “słabe” (k=1,2) pośród tych, dla których Współpraca = “niecierpliwy” (l=3).
Wymiar poziomu wykresu odnosi się do różnic pomiędzy typami “Idealiści”
i “Wierzący” (ukryta klasa 1 i 2). Można zauważyć, że kategorie zmiennej C mają
tendencję do “rozbiegania się” wzdłuż tego wymiaru. Respondenci wykazujący się
“dobrym” zrozumieniem najczęściej należą do klasy idealistów (odpowiedni symbol
narysowany jest w dolnym lewym rogu obszaru odpowiadającego klasie 1), podczas gdy
odznaczający się “słabym” zrozumieniem są przedstawieni bliżej prawego dolnego
obszaru odpowiadającego klasie 2.
Różnice wzdłuż pionowego wymiaru wykresu są najlepiej przedstawione przez
kategorie A i B. Respondenci twierdzący, że celowość przeprowadzonej ankiety jest
“dobra” przedstawieni są w dolnej lewej części obszaru (klasa 1). Ci, którzy twierdzą, że
“to zależy” znajdują się pomiędzy klasą 1 i klasą 3 (góra wykresu). Twierdzący, że to
“strata czasu” najczęściej znajdują się w klasie 3 (w górnej części wykresu). Fakt, iż
kategorie A i B są rozłożone wzdłuż pionowego wymiaru wykresu sugeruje wysoki stopień
asocjacji pomiędzy tymi zmiennymi. Z kolei sugestia, jakoby kategoria C, rozłożona
wzdłuż poziomego wymiary wykresu, była w jakimś stopniu związana z pozostałymi
dwiema zmiennymi A i B jest bezzasadna.
Kategorie zmiennej
D
formują ciekawy wzór diagonalny.
Respondenci
“zainteresowani” pytaniami najczęściej znajdują się w klasie 1 (“idealiści”), podczas gdy
“współpracujący” albo “niecierpliwi” znajdują się na rysunku bliżej klasy 2 i 3. To
sugeruje hipotezę, że niecierpliwość powstaje na skutek dwóch różnych powodów: 1) nie
zgodzenia się, że ankieta służy właściwemu celowi (przedstawione na pionowym
wymiarze wykresu) oraz/lub 2) brak zrozumienia (wskazany przez poziomy wymiar).
Dodatkowe punkty narysowane na wykresie dotyczą relacji pomiędzy zmienną C i
D. Umiejscowienie tych punktów, że pośród niecierpliwych respondentów ci, którzy
wykazują dobre zrozumienie pytań znajdują się częściej w klasie 3, natomiast ci, którzy
słabo rozumieją pytania z reguły znajdują się w klasach 2 i 3.
36
Przykład 2 (Magenaars 1993)14
W badaniu orientacji politycznej wykorzystano 5 zmiennych dychotomicznych:
-
odpowiedniość systemu (wysoka/niska);
-
poziom ideologiczny (nieideologiczny/ideologiczny);
-
potencjał represyjny (wysoki/niski);
-
aprobata protestów (niska/wysoka);
-
udział w działalności (niski/wysoki).
W oszacowanym modelu otrzymano wysoki poziom składnika resztowego i zdecydowano
o dopuszczeniu do lokalnej zależności pomiędzy dwiema zmiennymi poprzez dodanie
parametru:
Tablica 12. Wyniki estymacji modelu włączającego dodatkowe zmienne.
Model
χ2
BIC
1-klasa
2-klasy
3-klasy
4-klasy
2-faktory
2-klasy + 1 efekt bezpośredni
(zależność lokalna)
296,56
95,82
24,8
7,45
12,3
19,10
p-value
113
-45
-74
-49
-86
Stopnie
swobody
26
20
14
8
14
-115
19
0,45
0,00
0,00
0,04
0,49
0,58
Źródło: jak w tablicy 6.
Jako najlepiej dopasowany uznano model z 3 klasami. Do tego modelu włączono zmienne
poprzez dodanie dodatkowego równania regresji do modelu.
Tablica 13. Oszacowanie parametrów (współczynnik Logit). Latent Variable(s) (gamma)
Wyraz wolny
Zmienne
Sex (Płeć)
Educ (Edukacja)
Age (Wiek)
Mężczyźni
Kobiety
Wyższe
Mniej niż wyższe
16-34
35-57
58-91
Klasa 1
0,5907
Klasa 1
0,2951
-0,2951
0,9812
-0,9812
-0,3910
0,2776
0,1134
Klasa 2
-0,0762
Klasa 2
-0,2291
0,2291
-0,5570
0,5570
-0,8987
0,0491
0,8497
Klasa 3
-0,5146
Klasa 3
-0,0660
0,0660
-0,4242
0,4242
1,2897
-0,3266
-0,9631
Źródło: jak w tablicy 6.
14
jest to przykład pokazujący możliwość włączenia do modelu dodatkowych zmiennych niezależnych
obserwowalnych;
37
Wyniki uzyskane z tej estymacji pozwalają na stwierdzenie która z grup np. kobiety
czy mężczyźni ma większe prawdopodobieństwo znalezienia się w określonej klasie
(mówi o tym znak ujemny lub dodatni)
Wyniki dla prawdopodobieństw zostały przedstawione w poniższej tablicy.
Tablica 14. Rozkład prawdopodobieństw przynależności do klas i prawdopodobieństw
warunkowych.
Całkowite prawdopodobieństwo
Zmienne
Sex (Płeć)
Mężczyźni
Kobiety
Educ (Edukacja) Wyższe
Mniej niż wyższe
Age (Wiek)
16-34
35-57
58-91
Klasa 1
0,4167
Klasa 1
0,5283
0,3294
0,7660
0,1767
0,3898
0,5213
0,3296
Klasa 2
0,3526
Klasa 2
0,2507
0,4325
0,0969
0,5285
0,0979
0,3466
0,6153
Klasa 3
0,2307
Klasa 3
0,2210
0,2381
0,1371
0,2949
0,5124
0,1320
0,0551
Źródło: jak w tablicy 6.
Wartości uzyskane dla poszczególnych prawdopodobieństw mówią o tym z jakim
prawdopodobieństwem będą mężczyźni przydzieleni do klasy 1 2 3 a z jakim kobiety itp.
Przykład 3 (Maria Nawojczyk 2002)15
Problemem badawczym jest stosunek Polaków do legalizacji aborcji (dane z PGSS
1999). Według pytań zadawanych w ankiecie pogrupowano dwa typy sytuacji
obejmujących “etyczno-medyczne” powody aborcji (A, B, C) oraz “społeczne” powody
aborcji (D, E, F). Rozkład odpowiedzi na stawiane pytania przedstawia poniższa tabelka.
Tablica 15. Rozkład otrzymanych odpowiedzi.
Wskaźnik
A. zagrożenie zdrowia kobiety
B. poważne uszkodzenie płodu
C. ciąża po gwałcie
D. niskie dochody rodziny
E. nie chce więcej dzieci
F. samotna kobieta
TAK
86,7%
82,0%
77,6%
49,7%
43,0%
34,1%
NIE
13,3%
18,0%
22,4%
50,3%
57,0%
65,9%
Źródło: M. Nawojczyk, Przewodnik po statystyce dla socjologów, 2002, str. 253.
15
przykład z literatury polskiej;
38
Pierwszą decyzją jest decyzja co do ilości klas ukrytych które należy zidentyfikować. W
analizie tego typu nie ma obowiązku zakładania z góry hipotezy co do ilości klas. Można
dochodzić do tego stopniowo na zasadzie oceny dopasowania kolejnego modelu. Ze
względu na wcześniejsze badania jak i ze względu na rozkład zaobserwowanych
odpowiedzi można stwierdzić, iż najlepiej przedstawioną sytuację opisuje model z trzema
klasami:
a) osoby akceptujące legalizację wszystkich powodów aborcji;
b) osoby nie akceptujące żadnego powodu legalizacji aborcji;
c) osoby
akceptujące
legalizację
aborcji
z
powodów
“etyczno-medycznych”,
a nie akceptujące legalizacji z powodów “społecznych”.
Prawdopodobieństwa klas ukrytych i prawdopodobieństwa warunkowe dala modelu
3-klasowego opisującego postawy Polaków były następujące (wg. oszacowanego modelu
za pomocą programu MLLSA Maximum Likelihood Latent Structure Analysis).
Tablica 16. Rozkład prawdopodobieństw.
Wskaźnik
A. zagrożenie zdrowia kobiety
B. poważne uszkodzenie płodu
C. ciąża po gwałcie
D. niskie dochody rodziny
E. nie chce więcej dzieci
F. samotna kobieta
Prawdopodobieństwo klas ukrytych
I
1,00
1,00
1,00
0,982
0,926
0,834
0,4544
Klasa
II
0,968
0,916
0,813
0,236
0,163
0,056
0,3725
III
0,142
0,062
0,026
0,000
0,007
0,000
0,1731
Źródło: M. Nawojczyk, Przewodnik po statystyce dla socjologów, 2002, str. 256.
I klasa to osoby, które aprobują legalizację aborcji bez zastrzeżeń ze względów “etycznomedycznych” (1,0), ze względów “społecznych” (0,98-0,83)
II klasa to osoby, które aprobują legalizację aborcji ze względów “etyczno-medycznych”
(0,96-0,8), ale nie aprobują ze względów “społecznych” (0,23-0,06)
III klasa to osoby, które nie aprobują żadnych podstaw do legalizacji aborcji (0,14-0,0)
Zaskakująca okazałą się proporcja liczebności tych trzech klas, aż 45% osób było w grupie
I, czyli opowiadających się za legalizacją bez zastrzeżeń.
39
11. ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK
PROCESÓW DEMOGRAFICZNYCH
Jako przykład zastosowania modeli klas ukrytych w demografii można
wykorzystać artykuł Guy’a Moors’a, opublikowany w European Journal of Population 19
vol.2, pod tytułem “Wspólny efekt roli płci oraz formowania rodziny: logarytmiczno-
liniowy model z ukrytymi zmiennymi. (Estimating the reciprocal effect of gender role
attitudes and family formation: a log-linear path model with latent variables).
Stosunek do roli płci oraz formowanie rodziny są powiązane wzajemnie w
dynamicznym procesie. Zademonstrowane zostało, iż podejście, stosunek do roli płci ma
wpływ na formowanie rodziny i jest powiązany z pewnymi określonymi stanami.
Emancypacyjna rola płci powoduje wzrost prawdopodobieństwa życia samotnie czy też w
kohabitacji. Pozostawanie w określonej sytuacji przez co najmniej 2 lata powoduje, że
kobiety będą dalej rozwijały swoje emancypacyjne podejście. A jak wiadomo z
tradycyjnymi wartościami rodziny powiązane są tradycyjne formy rodziny jak
pozostawanie w związku małżeńskim, czy bycie matką. Jak twierdzi autor, z
metodologicznego punktu widzenia tylko dane panelowe mogą być wykorzystane w tego
typu analzie. Do opisu istoty badanych procesów został zaproponowany model
logarytmiczno-liniowy ze zmiennymi ukrytymi. – jest to jedna z wielu odmian modeli
należących do rodziny modeli klas ukrytych czy szerzej analizy ukrytych struktur.
W artykule autor podejmuje próbę zweryfikowania relacji między podejściem do roli płci,
a formowaniem rodziny wśród kobiet w ich wczesnej dorosłości. Autor koncentruje się na
tym szczególnym etapie życia, który nazywa “turbulentnym” ze względu na znaczące
zdarzenia zachodzące właśnie w tym okresie cyklu ludzkiego życia. Autor stawia również
pytanie czy wartości wpływają na zachowanie czy może jest zupełnie na odwrót?
DANE WYKORZYSTANE W ANALZIE
Dane panelowe pochodzą z projektu “Familienentwicklung in Nordrhein-Westfalen”
przeprowadzonego przez “Institute fuer Bevoelkerungsforschung und Sozialpolitik”
Uniwersytetu w Bielefeld. Początkowo zbadano 2620 losowo wybranych kobiet w wieku
18-30 w 1982, następnie przeprowadzono 2 kolejne badania co 2 lata. W omawianym
przykładzie wykorzystano wyniki dwóch pierwszych badań. Przy czym tylko 56%
respondentów z pierwszego badania brało udział również w drugim, duża część redukcji
udziału da się wytłumaczyć prawnymi aspektami badania, ponieważ na końcu ankiety
40
respondent był zobowiązany odpowiedzieć na pytanie czy zgadza się na wzięcie udziału w
przyszłych badaniach, pozwalając badaczom zachować dane o adresie zamieszkania.
Tylko 68% podpisało taką deklarację po pierwszym badaniu.
KLUCZOWE ZMIENNE
Pierwsza zmienna, a właściwie zbiór zmiennych odnosi się do roli płci. Z bogatego
zakresu, zbioru pytań dotyczących roli płci wybrane zostały cztery:
Autonomia osobista czyli znaczenie w życiu takich wartości jak:
poszukiwanie nowych wyzwań
odkrywanie świata
wolność osobista
kontynuacja rozwoju osobistego
zaangażowanie w politykę
podejmowanie wyzwań
bycie niezależnym
posiadanie przyjaciół
Tradycyjna opinia dotycząca małżeństwa związana z ustosunkowaniem się do stwierdzeń:
do założenia rodziny potrzebny jest ślub
przez małżeństwo związek staje się bardziej scementowany
przez małżeństwo partnerzy zbliżają się do siebie
małżeństwo daje poczucie bezpieczeństwa
Podejście do roli w gospodarstwie domowym czyli ustosunkowanie się do stwierdzeń:
obowiązkiem jest zaangażowanie w gospodarstwo domowe
rodzina stanie na pierwszym miejscu
nawet zatrudniona kobieta jest w obowiązku dbać o ognisko domowe
kobieta powinna zrezygnować ze swoich interesów, jeśli chodzi o rodzinę
zależy mi bardziej na dbaniu o gosp. domowe niż być zatrudnionym
Wartość dzieci czyli ustosunkowanie się do opinii:
posiadanie dzieci sprawia, że jest się prawdziwą kobietą
posiadanie dzieci jest najważniejszą rzecz w życiu kobiety
dzieci nadają sens życiu
bez dzieci nie można być naprawdę szczęśliwym
dzieci oznaczają spełnienie życiowe
41
Całkowita wielkość próby w badaniu wynosi 1315 osób. Jak wiadomo zbyt duża liczba
parametrów może prowadzić do “rozsianych” danych, co może być powodem otrzymania
rozwiązań brzegowych lub warunkowych prawdopodobieństw na poziomie 0, które to z
kolei mogą powodować obciążenie wyników. Z tego powodu ograniczona została liczba
kategorii tych 4-ch pytań do 3-ch poziomów: ”zgadzam się” jako niski, średni i wysoki. 3 z
4-ch pytań odnoszą się do tradycyjnych opinii na temat roli płci (kobiety): znaczenie
małżeństwa, wartość dzieci, zdanie na temat roli w gospodarstwie domowym. Natomiast 4te pytanie “osobista autonomia” oddaje nastawienie do rodziny. Wyestymowany został
model ukrytych klas pokazujący ukrytą postawę, rolę płci (por. tablica 17).
Tablica 17. Selekcja modelu
p-value
354,25
Stopnie
swobody
1
1,46
-312,03
1
0,00
0,71
-321,65
1
0,06
Wybór modelu
L2
BIC
1 klasowy
8,78
2 klasowy
3 klasowy
0,00
Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear
path model with latent variables, European Journal of Population 19 vol.2, 2003.
W tablicy 17 pokazane zostały podstawowe statystyki wykorzystane przy wyborze
odpowiedniego modelu. Model z jedną klasą ukrytą, czyli model niezależny nie ma on
większego znaczenia, natomiast służy jako punkt odniesienia dla porównywania wartości
L2. Na podstawie dwóch powyższych kryteriów wybrano model z trzema klasami.
Tablica 18 reprezentuje parametry modelu wraz z warunkowymi prawdopodobieństwami
przynależności określonej kategorii do ukrytej klasy. Wskaźniki określają wiersze,
natomiast kolumny to ukryte zmienne.
Druga zmienna w modelu to formowanie rodziny, z wariantami:
zamieszkiwanie z rodzicami bez dzieci
życie w pojedynkę bez dzieci
życie w kohabitacji bez dzieci
małżeństwo z wcześniejszą kohabitacją bez dzieci
małżeństwo bez wcześniejszej kohabitacji bez dzieci
niemałżeńska ciąża lub dzieci
małżeńska ciąża lub dzieci bez wcześniejszej kohabitacji
małżeńska ciąża lub dzieci z wcześniejszą kohabitacją
42
W tym przypadku skoncentrowano się na oszacowaniu efektu nastawienia na wybór życia i
macierzyństwa, właściwym jest skoncentrowanie się na kobietach, które weszły w
określony stan w drugim badaniu i porównanie ich z kobietami, które już w tym stanie
były podczas pierwszego badania.
Tablica 18. Zmienna ukryta: Postawa wobec równości płci
Emancypacyjna
Pośrednia
współczynnik udział% współczynnik udział%
Tradycyjna prorodzinna
współczynnik
udział%
A. Osobista autonomia
Niska
-1,408
2,4%
0,421
25,5%
0,998
40,9%
Średnia
0,254
46,3%
-0,119
54,2%
-0,135
48,5%
Wysoka
1,155
51,3%
-0,302
20,3%
-0,853
10,6%
B. Tradycyjna opinia na temat małżeństwa
Niska
1,185
76,7%
-0,088
35,1%
-1,097
9,3%
Średnia
-0,116
16,8%
0,136
35,4%
-0,02
22,0%
Wysoka
-1,069
6,5%
-0,049
29,5%
1,117
68,7%
C. Orientacja w podziale ról w gospodarstwie domowym
Niska
2,208
86,4%
0,006
31,6%
-2,214
1,5%
Średnia
-0,115
12,9%
0,012
48,4%
0,103
23,6%
Wysoka
-2,093
0,8%
-0,018
20,0%
2,111
74,9%
D. Wartość dzieci
Niska
2,133
84%
-0,180
38,4%
-1,954
4,5%
Średnia
0,281
15,7%
-0,222
44,0%
-0,059
35,5%
Wysoka
-2,414
0,2%
0,401
17,6%
2,013
60,1%
Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear
path model with latent variables, European Journal of Population 19 vol.2, 2003.
MODEL
Kobiety biorące udział w obu badaniach zostały podzielone w grupy z uwzględnieniem ich
sytuacji rodzinnej w drugim badaniu. Podział nastąpił na kobiety, które pozostały w danym
stanie oraz te, które zmieniły stan między badaniami. Badanie koncentruje się na tym, że
jest podejrzenie, iż ukryta postawa może prognozować tych, którzy przechodzą między
stanami i tych, którzy pozostają. Np. ktoś może pozostawać z drugą osobą bez potrzeby,
43
czy planowania małżeństwa, w jego przypadku kohabitacja będzie ostatecznym stanem.
Dla innych z kolei kohabitacja może być stanem przejściowym między opuszczeniem
domu rodzinnego i wejścia w związek małżeński. Oczekiwany jest silniejszy efekt ukrytej
postawy co do pierwszego przykładu niż kohabitacji jako przejściowego stanu. Podobna
argumentacja może zostać podniesiona w przypadku pozostawania w stanie wolnym i
bezdzietnym. Również szacowanie wpływu ukrytej postawy na prawdopodobieństwo
pozostania w określonym typie sytuacji rodzinnej jest także ważne podobnie jak badanie
przejścia.
Oszacowany został efekt postawy zmierzony przy pierwszym badaniu (X1) na
przynależność do jednej z kategorii sytuacji rodzinnej w drugim badaniu (F), kontrolując
profil społeczno-demograficzny respondenta (R).
Tablica 19. Wyniki dla zmiennej X1.
Latent variable X1: gender role attitudes
Emancypatory
Middle position
Traditional family attitudes
beta
Column %
beta
Column %
beta
Column %
1. Cohabiting or single
1.431
61.8%
0.080
21.9%
-1.511
2.7%
2. Married no children
-0.428
5.3%
0.114
12.5%
0.314
9.2%
3. Married with children
-0.822
12.6%
-0.165
33.3%
0.987
63.4%
4 else
-0.181
20.3%
-0.029
32.3%
0.210
24.7%
1. Stayers
0.031
68.7%
0.036
68.9%
-0.068
64.3%
2 incomers
-0.031
31.3%
-0.036
31.1%
0.068
35.7%
Family state
Transision state
1. Stayers 1. Cohabiting or single
0.744
79.8%
0.356
30.1%
-1.101
0.6%
2. Married no children
-0.115
2.9%
-0.255
9.3%
0.370
8.3%
3. Married with children
-0.710
3.8%
0.092
35.0%
0.618
73.8%
4 else
0.080
13.5%
-0.193
25.6%
0.113
17.3%
-0.744
36.9%
-0.356
15.2%
1.101
11.4%
2. Married no children
0.115
7.5%
0.255
16.0%
-0.370
9.0%
3. Married with children
0.710
32.2%
-0.092
30.1%
-0.618
48.4%
4 else
-0.080
23.5%
0.193
38.8%
-0.113
31.2%
1. Incomers 1. Cohabiting or single
Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear
path model with latent variables, European Journal of Population 19 vol.2, 2003.
Oszacowano efekt sytuacji rodzinnej (F) na ukrytą postawę otrzymaną w drugim badaniu
(X2), kontrolując profil społeczno-demograficzny respondenta (R) oraz ukrytą postawę z
pierwszego badania (X1) – zatem szacowany jest wpływ sytuacji rodzinnej na zmianę w
postawie. (F) jest zmienną łączącą (S – stayers) i (T – transition state).
44
Tablica 20. Wyniki dla zmiennej X2.
Latent variable X2: gender role attitudes
Emancypatory
Middle position
Traditional family attitudes
beta
Column %
beta
Column %
beta
Column %
1. Cohabiting or single
0.637
25.2%
0.327
60.3%
-0.310
14.4%
2. Married no children
-0.232
9.1%
-0.045
68.7%
0.277
22.2%
3. Married with children
-0.952
3.4%
0.258
70.9%
0.694
25.7%
4 else
0.547
18.2%
0.114
73.9%
-0.661
8.0%
1. Stayers
0.415
17.4%
-0.015
71.2%
-0.40
11.4%
2 incomers
-0.415
7.2%
0.015
69.0%
0.40
23.8%
Family state
Transision state
1. Stayers 1. Cohabiting or single
0.176
34.8%
0.503
42.1%
-0.327
23.1%
2. Married no children
1.243
28.9%
0.036
65.4%
-1.279
5.7%
3. Married with children
-0.349
2.0%
0.222
73.7%
0.127
24.3%
4 else
-1.070
5.2%
0.246
79.4%
0.825
15.3%
-0.176
16.1%
-0.503
76.0%
0.327
7.9%
2. Married no children
-1.243
1.8%
-0.036
44.5%
1.279
53.7%
3. Married with children
0.349
5.7%
-0.222
67.4%
-0.127
26.9%
4 else
1.070
46.4%
-0.246
50.6%
-0.825
3.1%
1. Incomers 1. Cohabiting or single
Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear
path model with latent variables, European Journal of Population 19 vol.2, 2003.
W ten sposób oszacowano wpływ roli płci na formowanie rodziny, a następnie wpływ
sytuacji rodzinnej na zmianę postawy. Potwierdziło się, że stosunek do roli płci ma wpływ
na formowanie rodziny i na odwrót. Postawa emancypacyjna powoduje wzrost
prawdopodobieństwa kohabitacji młodych kobiet czy formowania jednoosobowych
gospodarstw domowych, oraz spadek ich skłonności do macierzyństwa. Naturalnym jest
również, że “tradycyjnie zorientowane” kobiety reprezentują odwrotną postawę. Także
emancypantki są skłonne w mniejszym stopniu wstępować w związki małżeńskie. Z kolei
nowo zamężne kobiety – po pierwszym badaniu również stały się bardziej konserwatywne;
bardziej prorodzinna = mniej emancypacyjna. Jednakże między kobietami, które były
zamężne podczas pierwszego badania i pozostały bezdzietne, stały się bardziej
“wyemancypowane”. Podsumowując, wyniki sugerują, iż wpływ postawy jednostki na
formowanie rodziny jest tak samo ważny jak efekt formowania rodziny na zmianę postawy
jednostki.
•
określony wariant zmiennej ukrytej ma wpływ na stan (sytuacja) rodzinny,
wyemancypowane kobiety są bardziej skłonne do kohabitacji oraz życia w
pojedynkę i mniej skłonne do wstępowania w związek małżeński i/lub posiadania
dzieci,
45
•
w celu zweryfikowania wpływu roli płci na formowanie rodziny ocenie poddano
różnice między tymi kobietami, które zmieniły stan między dwoma badaniami i
tymi, które tego nie uczyniły
W literaturze polskiej zastosowanie modeli ze zmiennymi ukrytymi jest jeszcze bardzo
wąsko opisane i wymaga wielu prac badawczych. Jednocześnie należy stwierdzić iż
modele ze zmiennymi ukrytymi dają możliwości analiz zachowań postaw i opinii, które
nie są obserwowalne i mierzalne. Mamy nadzieję iż przykład przedstawiony przez nas
stanie się inspiracja do dalszych prac w tej dziedzinie w środowisku młodych demografów
w Polsce.
12. WYBRANE PROGRAMY KOMPUTEROWE
Na zakończenie podajemy informacje o programach komputerowych, które mogą być
wykorzystywane w estymacji modeli klas ukrytych. Jednym z programów, który doskonale
nadaje się na potrzeby estymacji przykładowych obliczeń z wykorzystaniem opisanych 3ch przypadków zastosowania ukrytych klas jest LATENT GOLD 3.0.
Inne programy możliwe do wykorzystania przy estymacji modeli ze zmiennymi ukrytymi
to:
- PANMARK
- LEMWin
- MLLSA
- GLIMMIX
- WINLTA
Oraz programy pozwalające na własnoręczne programowanie:
- GAUSS
- MATLAB
- MAPLE V
- SPSS (MATRIX-INTERPRETER)
- SAS (PROGRAMMER-TOOL)
46
LITERATURA
1.
Bartholomew D.J., M. Knott 2002; Latent Variable Models and Factor Analysis,
Arnold.
2. Bartkowiak A. 2000; Analiza struktur ukrytych, (22/05/2000)
3. Examples and Tutorials (Latent GOLD® 3.0): additional technical information.
(www.statisticalinnovations.com)
4. Forman A.K. 1992; Linear logistic latent class analysis for polytomous data, Journal of
the American Statistical Association, 87.
5. Goodman L.A. 1974a; Exploratory latent structure analysis using both identifiable and
unidentifiable models, Biometrika, 61.
6. Goodman L.A. 1974b; The analysis of systems of qualitative variables when some of
the variables are unobservable. Part I. A modified latent structure approach, American
Journal of Sociology, 79.
7. Hagenaars J. 1993; Loglinear Models with Latent Variables, Newbury Park, CA. Sage.
8. Hagenaars J.A, A.L. McCutcheon (red.) 2002; Applied Latent Class Analysis,
Cambridge University Press.
9. Hagenaars J.A. 1990; Categorical Longitudinal Data – Loglinear Analysis of Panel,
Trend and Cohort Data, Newbury Park, Sage.
10. Heinen T. 1996; Latent Class and Discrete Latent Trait Models: Similarities and
Differences, Advanced Quantitative Techniques in the Social Sciences, Sage
Publications, Thousand Oaks, CA.
11. Hoberman S.J. 1979; Analysis of Qualitative Data, Voulme 2, New Developments,
Academic Press, New York.
12. Latent Class Models, Forthcoming (2003). In D. Kaplan (Ed) Handbook for
Quantitative Methodology, Sage.
13. Latent Variable; Local Independence; Latent Class Analysis Lazarfeld P.F., N.W.
Henry 1968; Latent Structure Analysis, Boston, Houghton Mill.
15. Moors G. 2003; Estimating the reciprocal effect of gender role attitudes and family
formation: a log-linear path model with latent variables, European Journal of
Population 19 vol.2.
16. Nawojczyk M. 2002; Przewodnik po statystyce dla socjologów, Kraków SPSS.
47
17. Nontechnical Introduction to Latent Class Models, 2002. Statistical Innovations White
Paper #1.
18. Technical Appendix, From the Latent GOLD® manual.
19. Tutorial 1: Using Latent GOLD® 3.0 to estimate LC Cluster Models
20. Tutorial 2: LC Regression with Repeated Measures
21. Tutorial 3: Using Latent GOLD® 3.0 to estimate LC Factor Models
22. Van der Heijden P.G.M., Z. Giulia, L.A. Van der Ark 1999; On a relationship between
joint correspondence analysis and latent class analysis, Sociological Methodology, 29.
23. Vermunt J., J. Magidson 2003; artykuły w publikacji Encyclopedia of Social Science
Research Methods, Sage Publications: Vermunt J.K. 1997; Log-linear Models for
Event Histories, Thousand Oaks, Sage Publications.
48

Podobne dokumenty