Zeszyt 8
Transkrypt
Zeszyt 8
SPIS TREŚCI WPROWADZENIE ............................................................................................................. 3 1. ISTOTA ANALIZY KLAS UKRYTYCH ...................................................................... 4 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH ............................................... 5 3. KLASYFIKACJA MODELI KLAS UKRYTYCH....................................................... 6 4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI.................................................................................. 13 5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW .................. 17 6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI.................................................. 19 7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH)......................................................................... 22 8. OCENA DOPASOWANIA MODELU...................................................................... 27 9. PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ.... 29 10. PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY. ....................................... 35 11. ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW DEMOGRAFICZNYCH ............................................................................................... 40 12. WYBRANE PROGRAMY KOMPUTEROWE........................................................ 46 LITERATURA.................................................................................................................... 47 1 2 WPROWADZENIE Celem niniejszego opracowania jest przedstawienie wybranych zagadnień przedstawionych podczas seminarium szkoleniowego “Basic and Advanced Topics in Modelling” – Generalized Linear Models with Latent Variables. ZA Spring Seminar 2003, które odbyło się w dniach 17-21 marzec 2003 w Niemczech w Kolonii. Opracowanie nie zamieszcza przykładów własnych. Aplikacje takie są planowane w przyszłości. Tekst bazuje głownie na przykładach prezentowanych podczas szkolenia, jak również przykładzie zaczerpniętym z literatury demograficznej. Celem opracowania jest rozpowszechnianie informacji o nowych metodach i technikach badawczych i ich zastosowaniach. W ostatnich latach opublikowano wiele prac na temat ukrytych zmiennych (Latent Class – LC) oraz skończonych mieszanych modeli1 niż na temat jakichkolwiek innych modeli statystycznych. Ów wzrost zainteresowania w temacie LC spowodowany jest rozwojem zaawansowanych algorytmów komputerowych, które pozwalają dzisiejszym “maszynom” na przeprowadzenie analizy ukrytych klas na zbiorach danych zawierających więcej niż tylko kilka zmiennych. Co ciekawe, badacze coraz częściej zdają sobie sprawę z tego, że zastosowanie modeli ukrytych klas może dać przewagę nad tradycyjnymi podejściami analizy skupień, czy też analizy czynnikowej. W takich dyscyplinach jak: socjologia, ekonomia czy psychologia do badania zależności, czy związku między badanymi zmiennymi łatwo jest zastosować metody statystyczne, w sytuacji gdy mamy do czynienia z obserwowalnymi cechami mierzalnymi. Problem natomiast pojawia się, gdy w przypadku cech ukrytych, czyli takich, których nie da się bezpośrednio zmierzyć, a ich ocena jest subiektywna. Kolejnym zagadnieniem jest badanie charakteru i siły zależności między cechami niemierzalnymi (ukrytymi).2 Przykładami zmiennych ukrytych są między innymi: preferencje, nastawienia, intencje zachowań czy cechy osobowości. Takiego rodzaju charakterystyki mogą zostać jedynie zmierzone pośrednio przez średnie obserwowalnych wskaźników; np. poprzez kwestionariusz skonstruowany w taki sposób, by otrzymać odpowiedzi powiązane z nastawieniem, czy preferencjami. Z tego też powodu rozwinięto różne techniki skalowania 1 2 Pod pojęciem modeli mieszanych rozumie się modele które zawierają zmienne o różnych rozkładach. A. Bartkowiak “Analiza struktur ukrytych” 22/05/2002, str. 1 3 by dostarczyć informacje o nieobserwowalnych cechach używając wskaźników. Przykładem takich technik są modele z ukrytymi zmiennymi (latent class models).3 1. ISTOTA ANALIZY KLAS UKRYTYCH Analiza ukrytych klas jest metodą statystyczną służącą do odkrywania podtypów w powiązanych ze sobą wielowymiarowych kategorialnych cech. Ukryta klasa określa pewną abstrakcyjną cechę lub charakterystykę, która nie może być zaobserwowana bezpośrednio. Tak, więc jeśli ukryty konstrukt (construct) ma charakter skokowy, to znaczy cecha jest jakościowa i różnią się warianty – w ramach danej zmiennej, to można potraktować każdą cechę jako ukrytą klasę. Podstawową ideą,4 której podlega analiza ukrytych klas jest bardzo prosta: niektóre parametry w postulowanym statystycznym modelu różnią się, co do ukrytych podgrup. Te podgrupy tworzą warianty ukrytych zmiennych skokowych. Idea, o której była mowa na początku ma kilka pozornie niezwiązanych ze sobą zastosowań, z których najważniejszymi są: clustering, scaling, density estimation oraz random effect modelling. Poza naukami społecznymi modele ukrytych klas odnoszą się często do skończonych modeli mieszanych (finite mixture models). Modele klas ukrytych dostarczają niezwykle ważnego narzędzia do analizy danych wielowymiarowych (D.J. Bartholomew, M. Knott 2002). Modele te oferują ramy modelowe, wewnątrz których wiele ważnych metod może zostać połączonych ale też z których nowe metody mogą być rozwijane. Model statystyczny określa wspólny rozkład zbioru losowych zmiennych i staje się modelem z ukrytymi zmiennymi w momencie gdy niektóre z tych zmiennych są nieobserwowalne. Pytaniem jest dlaczego wprowadzana jest w ogóle ukryta zmienna do modelu oraz co wnosi jej obecność z punktu widzenia analizy naukowej? Pierwszą przyczyną zastosowania zmiennych ukrytych jest redukcja “wymiarowości”. Jeśli informacja zawarta we wzajemnej relacji wielu zmiennych może zostać wyrażona w pewnym dobrym przybliżeniu w znacznie mniejszym zbiorze zmiennych to zdolność badacza do wyjaśniania struktury danych zmiennych wzrośnie. Jest to generalna idea przyświecająca analizie czynnikowej czy też zastosowaniu liniowych modeli strukturalnych. Z kolei modele klas ukrytych odpowiedzą na pytanie w jaki sposób ograniczyć liczbę zmiennych z którymi mamy do czynienia na początku badania do znacznie mniejszej liczby wskaźników minimalizując przy tym stratę informacji. Po drugie 3 4 J. K Vermunt i J. Magidson “Latent variable”, str. 1 (www.statisticalinnovations.com) J. Magidson, J.K. Vermunt “A nontechnical introduction to latent class models” 4 ukryte wielkości są obecnie niezbyt trudne do znalezienia, coraz powszechniejsze, w obszarach zastosowań metod statystycznych. Dotyczy to przede wszystkim nauk społecznych. Z formalnego statystycznego punktu widzenia nastąpił duży postęp jeśli chodzi o estymację i testowanie modeli ukrytych klas. Niektóre osiągnięcia w ekonometrii, biometrii i statystyce matematycznej – na polu modeli skończonych (finite models), modeli z nieobserwowalną heterogenicznością (unobserved heterogeneity) czy też modeli losowych (random effects models) – są blisko “spokrewnione” z modelami klas ukrytych. Ponadto w naukach społecznych i behawioralnych odkryty został bliski związek między modelami klas ukrytych a modelami logarytmiczno-liniwymi oraz związek między modelami klas ukrytych a modelami IRM (Item Response Modelling) (J. A. Hagenaars, A. L. McCutcheon 2002). Doprowadziło to do sytuacji, w której analiza klas ukrytych stała się postrzegana jako ogólny model z ukrytymi zmiennymi dla jakościowych zmiennych. Wreszcie analiza klas ukrytych dostarcza bardzo użytecznych narzędzi pozwalających znaleźć odpowiedź na wiele pytań w naukach społecznych i behavioralnych. Pomimo że obecnie dostępnych jest wiele programów, które w łatwy sposób pozwalają na zastosowanie modeli klas ukrytych to “praktykujący” badacze nie zawsze uważają analizę klas ukrytych jako dobrą alternatywę dla lepiej znanych technik, takich jak analiza czynnikowa czy modelowanie liniowe równań strukturalnych nawet w przypadku gdy analiza klas ukrytych jest bardziej właściwa do zastosowania w danej sytuacji. 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH Problem mierzenia relacji (związku) czy też braku niezależności między dwoma lub więcej obserwowalnymi (dycho- poli- tomicznymi) zmiennymi ma długą historię. Już w XIX wieku temat ten był podejmowany przez badaczy w różnych obszarach zastosowań (J. A. Hagenaars, A. L. McCutcheon 2002). Z kolei zastosowanie modeli klas ukrytych jako narzędzia pozwalającego na głębsze zrozumienie zaobserwowanego związku ma znacznie krótszą historię. Ciekawe jest jednak iż modele, które powstały wcześniej są odpowiednikami pewnych specjalnych odmian modeli klas ukrytych czy innych modeli struktur ukrytych. Jednakże główny rozwój modeli klas ukrytych datuje się na drugą połowę XX wieku, natomiast praktyczne zastosowanie tych modeli, na różnych polach badawczych, w ostatnim dwudziestopięcioleciu. 5 Analiza ukrytych klas została wprowadzona w 1950 roku przez Lazarfeld’a, który użył tej techniki jako narzędzia do zbudowania pewnej typologii, segmentów na podstawie zaobserwowanych dychotomicznych zmiennych. Ponad 20 lat później w 1974 Goodman uczynił go użytecznym w praktyce dzięki rozwinięciu algorytmu pozwalającego otrzymać estymatory metody największej wiarogodności parametrów modelu. Ponadto 5 zaproponował rozwinięcie dla politomicznych (polytomous) zmiennych obserwowalnych oraz wielokrotnych ukrytych zmiennych. Goodman opracował również bardzo wiele w temacie identyfikacji modelu. W tym samym okresie Haberman (1979) pokazał związek pomiędzy modelami ukrytych klas oraz modelami logarytmiczno-liniowymi dla tabel częstości z brakującymi (nieznanymi) liczebnościami komórek. Od tamtego czasu zaproponowanych zostało bardzo wiele ważnych rozwinięć klasycznych modeli ukrytych klas, takich jak np. modeli zawierających ciągłe zmienne, lokalne niezależności, porządkowe zmienne, kilka ukrytych zmiennych oraz powtarzalne miary. Ogólne ramy dla analizy kategorialnych zmiennych ze skokowymi zmiennych ukrytymi zostały opracowane przez Hagenaars’a (1990) i rozwinięte przez Vermunt’a (1997). Podczas gdy w naukach społecznych modele ukrytych klas oraz modele mieszane są traktowane jako narzędzia używane głównie w analizie jakościowych danych, natomiast mogą one być z powodzeniem wykorzystywane również w kilku innych obszarach analiz. Jednym z nich jest estymacja funkcji gęstości, w której wykorzystuje się fakt, iż złożone funkcje gęstości mogą być przybliżane do ich kombinacji ze skończonymi elementami o prostszej funkcji gęstości. Analiza ukrytych klas może być również wykorzystywana jako narzędzie do probabilistycznej analizy skupień dla ciągłych zmiennych obserwowalnych. Jest to podejście oferujące wiele zalet w stosunku do tradycyjnych technik wykorzystywanych w analizie skupień takich jak “segmentowanie” za pomocą metody Kśrednich. Kolejnym obszarem zastosowania jest zajmowanie się, radzenie sobie z nieobserwowalną heterogenicznością; np. w analizie regresji z zależnymi obserwacjami. 3. KLASYFIKACJA MODELI KLAS UKRYTYCH Model z ukrytymi zmiennymi jest nieliniową ścieżką analizy problemu. Ponadto model zawiera jedną lub więcej ukrytych zmiennych reprezentujących interesujące 5 zmienna politomiczna to zmienna z wieloma kategoriami w przeciwieństwie do zmiennej dychotomicznej, która posiada tylko dwie kategorie. 6 badającego charakterystyki, które nie są obserwowalne. Istnieją dwa podstawowe założenia definiujące przyczynowy mechanizm, któremu podlegają odpowiedzi. Pierwsze, zakłada się, że odpowiedzi dotyczące wskaźników są wynikiem wpływu jednostki na ukrytą zmienną. Po drugie zmienne obserwowalne nie mają ze sobą nic wspólnego po wprowadzeniu zmiennych ukrytych; co jest często referowane jako aksjomat lokalnej niezależności. Pozostałe dwa założenia dotyczą rozkładu ukrytych jak i obserwowalnych zmiennych. Rozkład tych zmiennych determinuje różne rodzaje modeli. Tak jak podaje Bartholomew wyróżniamy cztery główne rodzaje modeli: • analiza czynnikowa (FACTOR ANALYSIS – FA) • analiza z ukrytymi charakterystykami (LATENT TRAIT ANALYSIS – LTA) • analiza z ukrytymi profilami (LATENT PROFILE ANALYIS – LPA) • analiza z ukrytymi zmiennymi (LATENT CLASS ANALYSIS – LCA) Tablica 1. Klasyfikacja metod analizy klas ukrytych Zmienna ukryta Zmienna obserwowalna Ciągła Ciągła Skokowa Skokowa FA LPA LTA LCA Źródło: D.J. Bartholomew i M. Knott 2002, Latent Variable Models and Factor Analysis, str. 3 Jak pokazuje powyższe zestawienie, w FA oraz LTA zmienne ukryte są traktowane jako ciągłe o rozkładzie normalnym. Z kolei zmienne obserwowalne są ciągłe i w większości przypadków warunkowy rozkład zmiennych obserwowalnych dla danych ukrytych zmiennych jest zakładany jako normalny. Natomiast w przypadku LPA i LCA ukryte zmienne są skokowe i zakłada się, że pochodzą z rozkładu wielomianowego, natomiast zmienne niezależne (wskaźniki) obserwowalne są dychotomiczne, porządkowe czy też nominalne jakościowe, a ich rozkłady warunkowe mają rozkład dwu- lub wielomianowy. LPA oraz LCA składają się na analizę ukrytych struktur, opartej na założeniu, że zmienne obserwowalne są wskaźnikami pewnej ukrytej struktury. Głównym aspektem analizy jest powiązanie pomiędzy zmiennymi obserwowalnymi i ukrytymi, które można przedstawić za pomocą formalnych modeli matematycznych. Wspomniana analiza 7 ukrytych struktur powstała na potrzeby nauk społecznych; w socjologii służy mierzeniu postaw społecznych, w psychologii dotyczy raczej zdolności niż postaw a w ekonomii przy badaniu np. jakości życia, statusu ekonomicznego, opinii czy aktywności konsumenta.6 Fundamentalnym założeniem we wspomnianej wcześniej typologii Bartholomew’a jest rozróżnienie pomiędzy zmienną ciągłą i skokową. Badacz musi sam zadecydować czy bardziej naturalnym jest traktować zmienne jako ciągłe czy też skokowe. Jednakże jak wykazał Heinen (T. Hainen 1996), rozkład ukrytej ciągłej zmiennej może być aproksymowany przez rozkład skokowy, co pokazuje, że rozgraniczenie z początku tego akapitu nie jest wcale takie fundamentalne jakby można było początkowo sądzić. Specyfika rozkładów warunkowych zmiennych objaśniających wynika naturalnie z typu przyjętej skali. Dynamiczny rozwój modeli z ukrytymi zmiennymi w naturalny sposób skłania się ku temu by dopuścić różny rozkład dla każdej ze zmiennych. Mogą to być: rozkłady: normalny, t-studenta, lognormalny, gamma czy wykładniczy dla zmiennych ciągłych; rozkłady: dwumianowy dla dychotomicznych zmiennych, wielomianowy dla porządkowych i nominalnych oraz Poisson’a, dwumianowy i dwumianowy odwrotny dla liczebności. Zależnie od tego czy zmienna ukryta jest traktowana jako ciągła czy skokowa otrzymuje się jedną z form modeli: LTA lub LCA.7 Dotychczas omówiono modele klas ukrytych dla wskaźników jakościowych. Jednakże podstawowe założenie analizy ukrytych klas mówiące o tym, że parametry statystycznego modelu różnią się pomiędzy nieobserwowalnymi podgrupami, może również być nakładane na modele ze zmiennymi różnych typów skali. W literaturze przedmiotu wyodrębnia się 3 ważne typy aplikacji modeli klas ukrytych lub skończonych modeli mieszanych, które nie mieszczą się w ramach jakościowej analizy danych, a mianowicie: segmentacja ze zmiennymi ciągłymi, estymacja funkcji gęstości i modelowanie efektów losowych (random-effect modelling). W ciągu ostatnich 10 lat powróciło zainteresowanie analizą ukrytych klas jako narzędzia do analizy skupień z ciągłymi zmiennymi. Model ukrytych klas może być postrzegany jako probabilistyczny albo jako oparty na modelu (modelowy) wariant tradycyjnej niehierarchicznej procedury analizy skupień jak np. metoda K-średnich. Pokazano, że procedura segmentowania oparta na ukrytych klasach jest skuteczniejsza od 6 7 A. Bartkowiak ..., str. 1 i 2 Ibidem, str. 2 8 większości tradycyjnych metod ad hoc.8 Metoda ta znana jest jako: model ukrytego profilu (latent profile model), segmentowanie modelu mieszanego, oparte na modelu segmentowanie, ukryta analiza dyskryminacyjna oraz segmentowanie ukrytych klas. W podstawowej formule modelu prawdopodobieństwa zostały zastąpione przez gęstości. Z ciągłymi zmiennymi, klasowo wyszczególnione gęstości zazwyczaj są przyjmowane jako (ograniczone) wielowymiarowe normalne, gdzie każda ukryta klasa posiada swój własny średni wektor oraz macierz kowariancji. Innym ważnym zastosowaniem ukrytych klas jest nieparametryczny model efektów losowych. Leżący u podstaw pomysł polega na tym, że parametry modelu regresji mogą się różnić w obrębie nie obserwowalnych podgrup. Dla tego rodzaju analizy, do której często nawiązuje się jako do analizy regresji ukrytych klas, zmienna ukrytych klas (ukryta klasa) pełni rolę zmiennej uśredniającej (moderating). Owa metoda jest bardzo podobna do modeli regresji dla powtarzalnych miar lub zbiorów dwupoziomowych danych, z tą różnicą, że brak jest założenia dotyczącego rozkładu losowych czynników. Tradycyjne modele używane w analizie regresji, analizie dyskryminacyjnej czy logliniowej zawierają parametry, które opisują tylko zależności między obserwowalnymi zmiennymi. Modele ukrytych klas różnią się od poprzednio wspomnianych tym, że zawierają jedną lub więcej skokowych nie obserwowalnych zmiennych. W badaniach marketingowych interpretuje się kategorie ukrytych klas, (ukrytych zmiennych) jako segmenty. Wśród swoich zastosowań analiza ukrytych klas dostarcza nowego narzędzia, pomagającego zidentyfikować ważne segmenty rynkowe w marketingu. Ostatnio został wykryty bliski związek pomiędzy modelami ukrytych klas oraz modelami efektów losowych (random effects models – REM). Ponadto uwidoczniło się również powiązanie między ukrytymi klasami a “ukrytymi warstwami” w najszerzej używanym modelu sieci neuronowych (multilayer perceptron – MLP). Rozwój tych technik otworzył drogę do zastosowania modeli ukrytych klas w nieliniowej regresji dostarczając udoskonaleń, przewagi nad obecnymi podejściami REM i MLP jeśli chodzi o szybkość i skuteczność estymacji, a także interpretacji wyników. Modele ukrytych klas nie polegają założeniom tradycyjnego modelowania, które w praktyce są często naruszane; chodzi o liniowy związek, rozkład normalny czy homogeniczność. Stąd, są mniej podatne na obciążenia (dotyczące) związane z danymi, które nie podlegają modelowym założeniom. Również dla polepszenia opisu (i predykcji) 8 metody ad hoc nie zakładają “z góry” przed dokonaną analizą istnienie pewnych prawidłowości w analizowanych zmiennych np. ilość analizowanych klas. 9 segmentów, związek między ukrytymi klasami a zmiennymi (covariates) może być szacowany jednocześnie wraz z identyfikacją klas (segmentów). To pozwala na wyeliminowanie stosowanego zazwyczaj drugiego kroku analizy, w której analiza dyskryminacyjna jest przeprowadzana w celu powiązania segmentów lub czynników, otrzymanych tradycyjnymi metodami, z demograficznymi lub innymi zmiennymi. Ostatnio modele ukrytych klas zostały rozszerzone o zmienne o różnych typach skali (nominalne, porządkowe, ciągłe oraz liczebności) zawarte w tej samej analizie. Poniżej przedstawiono krótką charakterystykę 3-ch rodzajów modeli ukrytych klas. Analiza wykorzystująca te modele może być wykorzystana do analizy jako substytucyjna do tradycyjnych technik analizy skupień, jako narzędzie zastępujące tradycyjną analizę czynnikową – redukującą wymiarowość, oraz jako narzędzie estymacji osobnych modeli regresji dla poszczególnych segmentów. Istnieją trzy główne obszary analizy z wykorzystaniem modeli ukrytych klas, które to obejmują: umieszczanie analizowanych przypadków w segmentach, redukcję zmiennych, konstrukcję skali oraz predykcję zmiennej zależnej. Można więc wyróżnić trzy główne rodzaje modeli ukrytych klas: • modele ukrytych klas z wykorzystaniem segmentów (Latent Class Cluster Models) • modele ukrytych klas z wykorzystaniem czynników (Latent Class Factor Models) • modele ukrytych klas w regresji i modelach wyboru (Latent Class Regressioon and Choice Models). Modelowanie ukrytych klas z wykorzystaniem segmentacji polega na identyfikacji segmentów obejmujących jednostki obserwacji mających te same zainteresowania, charakteryzujących się takimi samymi postawami, zachowaniem czy wyznających te same wartości. LC Cluster Modele zawierają zmienną ukrytą o K – kategoriach, z których każda reprezentuje segment. Przewagę jaką powyżej wspomniane modele mają nad tradycyjną analizą skupień to: • klasyfikacja, przynależność bazuje na prawdopodobieństwach wyestymowanych bezpośrednio z modelu • zmienne mogą być ciągłe, kategorialne (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją • do opisu segmentów można używać zmiennych demograficznych oraz innych zmiennych objaśniających. 10 Tradycyjne podejście wykorzystują podejście algorytmu “niekontrolowanego” uczenia się (klasyfikacji), którego mechanizm polega na grupowaniu cech, które są “blisko” siebie biorąc przyjmując ad hoc definicję “dystansu”. W ostatniej dekadzie zainteresowanie przesunęło się w stronę modeli bazujących na podejściu wykorzystujących oszacowane prawdopodobieństwa do sklasyfikowania cech do odpowiedniej klasy. Najpopularniejszy model wykorzystuje podejście, w którym każda ukryta klasa reprezentuje ukryty segment. W badaniach marketingowych metoda ta nazywana jest “ukrytą analizą dyskryminacyjną”. W dzisiejszych czasach posiadając szybkie komputery w łatwy sposób można przeprowadzać te żmudne obliczeniowo analizy. W przypadku zmiennej ciągłej Magidson i Vermunt pokazali, że analiza ukrytych klas z wykorzystaniem klas daje taki sam wynik, jak w przypadku zastosowania algorytmu K - średnich. W przypadku modeli ukrytych klas z wykorzystaniem czynników: • mamy do czynienia z identyfikacją czynników, które grupują ze sobą zmienne posiadające to samo źródło wariancji, • model może zawierać kilka porządkowych ukrytych czynników, z których każdy ma 2 lub więcej poziomów, • czynniki mogą być skorelowane lub nieskorelowane (ortogonalne). Zalety powyższych modeli nad tradycyjną analizą czynnikową są następujące: • nie ma potrzeby obracania czynników by je interpretować, • estymacja ocen czynników metodą największej wiarogodności są otrzymywane bezpośrednio z modelu bez nakładania dodatkowych założeń, • zmienne mogą być ciągłe, jakościowe (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją, • rozbudowane modele czynnikowe mogą być oszacowane zawierając zmienne objaśniające oraz skorelowane reszty. Z kolei tradycyjne podejście analizy czynnikowej stosowane przez badaczy marketingowych zawiera: • szacowanie złożonych zmiennych z przedmiotów badań będących postawami, • szacowanie “perceptualnych” map i wykresów wiążących ze sobą produkt i jego markę z zachowaniami, postawą oraz cechami demograficznymi jednostek, • estymacja ocen faktorów, • bezpośrednią konwersję, przejście od faktorów do segmentów. 11 Ponadto analiza ukrytych klas z wykorzystaniem czynników może być przeprowadzona dla mniejszej liczby zmiennych niż tradycyjna analiza czynnikowa. Na przykład: w przypadku tradycyjnej analizy czynnikowej potrzeba przynajmniej trzech zmiennych ciągłych i taka właśnie analiza biorąca pod uwagę 3 zmienne daje tylko jeden czynnik. Natomiast w przypadku modelu ze zmiennymi ukrytymi 3 zmienne dychotomiczne dostarczają 1 czynnik. Oczywiście analiza ukrytych klas z wykorzystaniem czynników nie ogranicza się tylko do zmiennych dychotomicznych, a włączenie do analizy dodatkowych zmiennych pozwala na identyfikowanie kolejnych czynników. Na przykład w analizie jednej lub dwóch ciągłych zmiennych, nawet bez zmiennych objaśniających może dostarczyć w rozwiązaniu 2 lub więcej czynników. Co więcej, wyniki dwuczynnikowego rozwiązania mogą być czytelnie zilustrowane graficznie.9 Wreszcie model ukrytych klas w regresji, znany również jako model segmentacji ukrytych klas, charakteryzuje się tym, że: • jest wykorzystywany do predykcji zależnej zmiennej będącej funkcją predyktorów, • zawiera zmienną ukrytą o R-kategoriach, z których każda reprezentuje homogeniczną populację (klasę, segment), • dla każdego z ukrytych segmentów można wyestymować inny model regresji, • klasyfikuje cechy w segmenty i symultanicznie szacuje dla każdego z nich modele regresji. Zaletami, którymi może się podejście poszczycić, jest to, iż: • osłabienie tradycyjnych założeń, mówiących o tym, że każdy model dla wszystkich cech zakłada R=1, co pozwala na oszacowanie osobnego modelu regresji dla każdego z segmentów, • diagnostyczne statystyki pozwalają na określenie wartości dla R, • w przypadku, gdy R>1, model może zostać rozszerzony o dodatkowe zmienne objaśniające, by przeprowadzona analiza była dokładniejsza i by przyporządkowanie do segmentu było bardziej klarowne. Typowe zastosowanie w marketingu tradycyjnego odpowiednika powyższego modelu ukrytych klas zawiera: 9 (Modele czynnikowe mogą mieć również zastosowanie, gdy mamy do czynienia z mierzeniem i klasyfikacją błędów w jakościowych zmiennych. Właściwie można to porównać do modeli ukrytych charakterystyk (IRT), w przypadku których nie jest wymagane założenie o normalności rozkładu charakterystyk (traits) poddanych analizie.) 12 • studia, analiza satysfakcji klienta: identyfikację poszczególnych determinant satysfakcji klienta, które są odpowiednie dla każdego segmentu, • wspólne studia: identyfikacja atrybutów produktów, które należą do różnych segmentów rynku, • bardziej ogólnie: identyfikacja ukrytych segmentów, które mogą wyjaśnić nieobserwowalną heterogeniczność wśród danych. Zatem ogólnie rzecz biorąc, opisane modele (Latent Class Models) oferują ciekawe podejście badaczom, których obszarami zainteresowania jest szeroko pojęty marketing i identyfikacja segmentów rynkowych, ale nie tylko, mogą one również znaleźć zastosowanie w innych dziedzinach nauk społecznych i ekonomicznych. 4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI Konstrukcja modelu Latent Class Model jest oparta na przyjęciu trzech założeń: Pierwsze - Liczebności klas - oznacza to, że klasy wykluczają się na wzajem, co implikuje to, że wszystkie osoby mogą być przyporządkowane jednej z nich, naturalnie z określonymi prawdopodobieństwami. Drugie - Określone przyporządkowane klasom prawdopodobieństwa (pozycje, przyszeregowania) spełniają: I ∑Π i =1 A' X i = 1 dla i = 1 ... I J ∑Π j =1 B'X j = 1 dla j = 1 .... J (1) gdzie: B’X - prawdopodobieństwo zrealizowania się zdarzenia B; A’X - prawdopodobieństwo zrealizowania się zdarzenia A. Każda z klas ma dla każdego wyrażenia wszystkich zaobserwowanych zmiennych określone prawdopodobieństwo = prawdopodobieństwo warunkowe. I właśnie te prawdopodobieństwa charakteryzują klasy, ich zróżnicowanie wewnątrz każdej z nich oraz pomiędzy nimi. Trzecie - Lokalna stochastyczna niezależność - oznacza to, że wewnątrz każdej z klas odpowiedzi respondentów na zmienne (pytania) są brane jako stochastycznie niezależne; co oznacza, że prawdopodobieństwo wszystkich odpowiedzi poszczególnej osoby wewnątrz klas równe jest produktowi prawdopodobieństwa jego pojedynczej odpowiedzi. 13 W modelu klas ukrytych brak jest ograniczającego założenia o liniowości, normalności rozkładu danych czy też jednorodności wariancji. Analiza ukrytych klas obejmuje analizę ukrytych charakterystyk (np. inteligencji, zadowolenia, postawy), czyli takich, których nie można bezpośrednio zmierzyć. Jednakże poprzez analizę zmiennych mierzalnych, manifestowanych i próbę znalezienia związku między tymi zmiennymi a ukrytą lub ukrytymi zmiennymi, które są właściwym obiektem badań. Badając np. dwie dychotomiczne zmienne w poniższej tablicy kontyngencji. Tablica 2. Tablica kontyngencji dla przykładu zwolenników dwóch seriali. Oglądam Oglądam regularnie serial regularnie “Strasznie miła rodzina” “Tematy dnia” Tak Nie Tak 93 197 290 Nie 417 93 510 510 290 800 Źródło: Prof. Herrmann, University of Mainz, Department of Marketing Sprawdzając zależność między tymi zmiennymi używając testu Chi-kwadrat otrzymujemy obliczoną statystykę na poziomie 197,6 przy 1 stopniu swobody, co oczywiście daje podstawy do odrzucenia hipotezy mówiącej o braku zależności między badanymi zmiennymi. Jaka jest przyczyna występowania tej zależności? W tej sytuacji należałoby się doszukiwać czegoś ukrytego, czegoś co nie jest mierzalne. Odpowiedź brzmi: ukryta zmienna. Ukryta zmienna odpowiada za przynależność respondentów do jednej z np. dwóch klas. Jeżeli zatem założymy, że ukryta wyrażana jest przez dwie klasy. Następnym krokiem przeprowadzenia analizy ukrytych klas jest wyznaczenie osobnej tablicy kontyngencji dla każdej z klas, tak aby wewnątrz klas zachowana została tzw. lokalna niezależność. Tablica 3a. Tablica kontyngencji dla KLASY NR1 – 300 osób Oglądam Oglądam regularnie serial regularnie “Strasznie miła rodzina” “Tematy dnia” Tak Nie Tak 48 192 240 Nie 12 48 60 60 240 300 14 Źródło: jak w tablicy 2. Tablica 3b. Tablica kontyngencji dla KLASY NR2 – 500 osób Oglądam regularnie “Tematy dnia” Oglądam regularnie serial “Strasznie miła rodzina” Tak Nie Tak 45 5 50 Nie 405 45 450 450 50 500 Źródło: jak w tablicy 2. Obecność ukrytych klas jest przyczyną istnienia zależności między powyższymi zmiennymi. Przesłanką dla przeprowadzenia analizy są: • tablica kontyngencji z obserwacjami, • założenie o liczbie obserwacji w każdej z klas • istnienie niezależności wewnątrz klas (każda z osób może być przyporządkowana tylko do jednej z klas). Z przedstawionego prostego przykładu wynika cel analizy ukrytych klas. Analiza ukrytych klas ma na celu znalezienie, zdefiniowanie odpowiedniej liczby klas, w których zaobserwowane zmienne są od siebie niezależne, co odpowiada tzw. lokalnej niezależności. Ponadto lokalna niezależność oznacza również niezależność wewnątrz każdej z klas. Chcąc wyprowadzić model z powyższego przykładu należy najpierw wprowadzić odpowiednie oznaczenia: A - zmienna - Oglądam regularnie serial “Strasznie miła rodzina” i - warianty zmiennej A B - zmienna - Oglądam regularnie “Tematy dnia” j - warianty zmiennej B X - zmienna ukryta t - warianty zmiennej X (t=1,...,T), w przykładzie T=2 Пij - prawdopodobieństwo, że respondent wybierze i-ty oraz j-ty wariant odpowiednio zmiennej A i B pij - zaobserwowana wartość Пij T Πij = ∑ Πijt ABX (2) i =1 15 Zaobserwowane zmienne można wyrazić jako funkcję wielu nieznanych parametrów w postaci: Π ABX ijt = Π t * Π it * Π jt X A' X B' X (3) gdzie: wyrażenia po prawej stronie równania oznaczają odpowiednio: Π t Π it X - prawdopodobieństwo przynależności do klasy t A' X - warunkowe prawdopodobieństwo, że respondent wybrał i-ty wariant zdarzenia A, pod warunkiem znalezienia się w klasie t Π B'X jt - warunkowe prawdopodobieństwo, że respondent wybrał j-ty wariant zdarzenia B, pod warunkiem znalezienia się w klasie t W przykładzie "telewizyjnym", załóżmy, że mielibyśmy dane wszystkie nieznane parametry: Zaobserwowana zmienna: p11 = 93 / 800 = 0,116 Prawdopodobieństwo przynależności do klas: П1X = 300 / 800 = 0,375 П2X = 500 / 800 = 0,625 Warunkowe prawdopodobieństwa bycia w klasie 1: П11A'X = 0,2 П11B'X = 0,8 Warunkowe prawdopodobieństwa bycia w klasie 2: П12A'X = 0,9 П12B'X = 0,1 Łatwo podstawić do wzoru ogólnego powyższe współczynniki by otrzymać wartość prawdopodobieństwa Π11: Π11 = Σ ΠtX * ΠitA’X * ΠjtB’X 0,116 = 0,375*0,2*0,8 + 0,625*0,9*0,1 16 Jednakże nieznane są wartości parametrów znajdujących się po prawej stronie ogólnego wzoru, zatem najpierw muszą one zostać oszacowane przy pomocy użycia metody największej wiarogodności (Maximum Likelihood Estimation – MLE). 5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW Niech I oznacza całkowitą liczbę wariantów możliwych odpowiedzi w L-wymiarowej L tabeli częstości, tak że I = ∏ Dl , oraz niech i oznacza konkretną daną wejściową, ni l =1 zaobserwowaną częstość w komórce i, oraz P(Y=yi) prawdopodobieństwo posiadania schematu odpowiedzi komórki i. Do oszacowania parametrów modeli ukrytych klas używa się metody największej wiarogodności. Istotą MNW jest budowa funkcji wiarogodności, która jest maksymalizowana. Dla wygody obliczeń zazwyczaj wykorzystuje się logarytm funkcji wiarygodności który zapisuje się jako: I ln L = ∑ ni ln P (Y = y i ) (4) i =1 Należy zauważyć, że tylko niezerowe zaobserwowane dane wejściowe odnoszą się do funkcji wiarogodności, jest to cecha którą wykorzystuje bardziej wydajne oprogramowanie stworzone do szacowania ukrytych klas, stworzone na przestrzeni ostatnich lat. Pierwszym z różnych problemów powstałych przy szacowaniu modeli ukrytych klas jest to, że parametry modelu mogą być niezidentyfikowane nawet, jeśli liczba stopni swobody jest większa lub równa zero. Nieidentyfikowalność oznacza różne zbiory wartości parametrów dają takie same maksimum funkcji log-wiarogodności albo inaczej mówiąc, że nie ma jedynego zbioru oszacowań parametrów. Formalnie sprawdza się identyfikację poprzez zidentyfikowanie dodatniej macierzy informacji. Kolejnym sposobem jest szacowanie modelu z różnymi zbiorami wartości (danych) początkowych. Poza rozwiązaniami lokalnymi zidentyfikowany model daje takie same wyniki dla każdego zbioru wartości początkowych. 17 Pomimo, że brak jest pewnych ogólnych zasad uwzględniających identyfikację modeli ukrytych zmiennych możliwe jest wyznaczenie konkretnych oczekiwań i wskazanie błędów (niezgodności). Przy braku ograniczeń dla analizy ukrytych klas potrzebne są co najmniej 3 wskaźniki, ale w przypadku gdy są one dychotomiczne to nie więcej niż 2 ukryte klasy mogą być zidentyfikowane. Należy uważać przy 4 dychotomicznych zmiennych, w którym to przypadku 3 klasowy model bez nałożonych ograniczeń jest niezidentyfikowany, pomimo, że posiada dodatnią liczbę stopni swobody. Z 5 dychotomicznymi wskaźnikami nawet pięcioklasowy model jest identyfikowalny. Zwykle możliwe jest osiągnięcie identyfikacji poprzez ograniczanie konkretnych parametrów modelu: np. ograniczenia P(Yl=1|X=1)=P(Yl=2|X=2) mogą być wykorzystane do zidentyfikowania modelu dwuklasowego z dwiema dychotomicznymi wskaźnikami. Drugi problem, który odnosi się do estymacji modeli ukrytych klas to obecność lokalnych maksimów. Funkcja log-wiarogodności modelu ukrytych klas nie zawsze jest wypukła, co oznacza rosnące (wstępujące) algorytmy mogą zbiegać się do innego maksimum zależnie od wartości początkowych. Zazwyczaj najlepszym sposobem jest więc, oszacować model przy użyciu różnych zbiorów losowych wartości początkowych. Zazwyczaj kilka zbiorów zbiega się do tej samej najwyższej wartości funkcji log-wiarogodności, które później mogą zostać przypisane rozwiązaniom największej wiarogodności. Niektóre programy zautomatyzowały używanie kilku zbiorów losowych wartości początkowych aby zredukować prawdopodobieństwo otrzymania rozwiązania lokalnego. Trzecim problemem w modelowaniu ukrytych klas jest pojawianie się rozwiązań granicznych, które są prawdopodobieństwami równymi 0 lub 1, albo log-liniowymi parametrami dążącymi do + lub – nieskończoności. One to mogą powodować obliczeniowe problemy w szacowaniu algorytmów, pojawianie się rozwiązań lokalnych, komplikacje w obliczaniu (szacowaniu) standardowych błędów i liczby stopni swobody dla testów zgodności. Można zapobiec pojawianiu się rozwiązań granicznych poprzez narzucanie ograniczeń lub biorąc pod uwagę inne rodzaje wcześniej istniejących informacji o parametrach modelu. Najbardziej popularnymi metodami numerycznymi wykorzystywanymi w estymacji modeli są algorytmy EM-Expectation-Maximization oraz Newton-Raphson-NR. EM jest bardzo stabilną iteracyjną metodą do szacowania maksymalnej wiarogodności z niekompletnymi danymi. NR jest szybszą procedurą, jednakże aby funkcjonować potrzebuje dobrych wartości początkowych. Druga z tych metod wykorzystuje macierz 18 drugiego rzędu pochodnych funkcji log-wiarogodności, która jest również potrzebna dla otrzymania standardowych błędów parametrów modelu. 6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI W przypadku modeli klas ukrytych niektóre z kryteriów oceny dopasowania modelu stały się w większym lub mniejszym stopniu standardowe. Cała procedura sprowadza się do sprawdzenia jak dobrze teoretyczne liczebności komórek replikują empiryczne zaobserwowane liczebności. Najczęściej używanymi testami są: Chi-kwadrat, likelihood ratio L2, AIC oraz BIC10. Wszystkie te testy sprowadzają się do porównywania między teoretycznymi częstościami reprezentowanymi przez oszacowane parametry modelu oraz zaobserwowanymi w danych empirycznych. Model klas ukrytych prowadzący do dużych rozbieżności między wspomnianymi częstościami jest nie do przyjęcia, oczywiście gdy teoretyczne częstości są zbliżone do zaobserwowanych to istnieje możliwość jego akceptacji i zastosowania. Modele z większą liczbą parametrów zazwyczaj dają lepsze dopasowanie do danych (teoretyczne częstości znajdują się bliżej zaobserwowanych). Modele z mniejszą liczbą parametrów dają nieco gorsze dopasowanie ale zadaniem badacza jest znalezienie najbardziej “ubogiego” (z jak najmniejszą liczbą szacowanych parametrów) modelu czyli jak najmniej skomplikowanego który reprezentuje akceptowalne (zadowalające) dopasowanie do zaobserwowanych danych. Istnieje kilka podejść estymacji dopasowania modeli ukrytych klas. Najczęściej używanym jest podejście wykorzystujące iloraz wiarygodności chi-kwadrat statystyki L2 w celu oszacowania obszaru, w którym wyniki estymacji dla teoretycznych częstości F̂ijkl różnią się od korespondujących z nimi zaobserwowanych częstości f ijkl : L2 = ∑ f ijkl ln( Fˆijkl / f ijkl ) ) (5) ijkl Model jest dopasowany do danych, jeżeli wartość L2 jest dostatecznie niska, biorąc pod uwagę powszechnie używany limit statystycznego błędu na poziome 0,05. F̂ijkl (częstości teoretyczne) są otrzymywane w wyniku dwustopniowego procesu. Najpierw otrzymywane są oszacowania największej wiarygodności parametrów modelu 10 AIC – Akaike’s Information Criterium; BIC – Bayesian Information Criterium; opis tych miar został podany w dalszej części opracowania. 19 oraz zastępowane w prawej stronie równania (8) w celu otrzymania oszacowań prawdopodobieństw πˆ ijklt . Te oszacowania prawdopodobieństw są sumowane wewnątrz ukrytych klas w celu otrzymania teoretycznych prawdopodobieństw dla każdej z komórek w zaobserwowanej tablicy oraz pomnożone przez rozmiar próby N w celu otrzymania oszacowań największej wiarygodności dla teoretycznych częstości. T Fˆijkl = N ∑ πˆ ijklt (6) t =1 W przypadku, gdy F̂ijkl = f ijkl dla każdej komórki (i, j, k, l) model będzie idealnie dopasowany, a L2 wyniesie 0. Gdy wartość L2 przekracza 0, mierzy brak dopasowania modelu, kwantyfikując siłę związku (braku niezależności), która pozostaje niewyjaśniona przez model. Natomiast, kiedy N jest wystarczająco duże L2 zbiega do rozkładu chikwadrat oraz liczba stopni swobody (DF) jest równa liczbie komórek w pełnym wielowymiarowym modelu minus liczba niezależnych parametrów M. W przypadku modelu z czterema kategorialnymi zmiennymi liczba komórek jest równa IJKL, a liczba parametrów: M = T − 1 + T [( I − 1) + ( J − 1) + ( K − 1) + ( L − 1)] (7) M jest otrzymywane poprzez wyznaczenie T-1 niezależnych prawdopodobieństw ukrytych klas oraz dla każdej klasy I-1 warunkowych prawdopodobieństw powiązanych z kategoriami zmiennej A, J-1 niezależnych warunkowych prawdopodobieństwa powiązanych z B, itd. Ze względu na to, że prawdopodobieństwa sumują się do jedności prawdopodobieństwo powiązane z jedną kategorią każdej zmiennej jest odrzucane (stąd nie jest liczone jako niezależny parametr): może być zatem otrzymane jako jeden minus suma pozostałych. Jeżeli okazałoby się, że DF < 0 (degrees of freedom tj. stopnie swobody) wtedy model nie jest identyfikowalny, co oznacza, że niektóre oszacowania nie są dostępne dla wszystkich parametrów. Na przykład, dla I = J = K = L = 2, DF=-4 dla T = 4, co oznacza, że czteroklasowy model nie jest identyfikowalny. Jednakże w niektórych przypadkach może się zdarzyć, że DF > 0, a mimo to model nadal będzie nieidentyfikowalny. W przypadku, gdy mamy do czynienia z brakami danych w badaniu, rozkład chi-kwadrat nie powinien być używany do wyliczenia wartości p (p-value), ponieważ L2 nie został właściwie przybliżony. Zamiast tego do estymacji p można użyć podejścia bootstrapowego. Z brakami danych mamy do czynienia w przypadku, gdy liczba zaobserwowanych zmiennych lub liczba kategorii tych zmiennych jest duża. W takiej 20 sytuacji liczba komórek w otrzymanej wielowymiarowej tablicy będzie duża odpowiednio do rozmiaru próby, z czego wynikają puste komórki. Braki danych również występują w przypadku, gdy modele ukrytych klas zostaną rozszerzone o zmienne ciągłe. Kolejnym podejściem oceniającym dopasowanie modelu w przypadku braku danych jest podejście wykorzystujące ważone kryterium informacyjne. Miary takie jak: AIC i BIC są szczególnie przydatne przy porównywaniu modeli. Najczęściej używaną jest statystyka BIC zdefiniowana jako BIC = L2 – ln(N) DF. Model z niższą wartością BIC jest preferowany bardziej niż ten z wartością wyższą. Inforamtion Criteria sprawdzają wiarygodność modeli estymowanych dla coraz to większej liczby parametrów wymagalnych do oszacowania bardziej pełnego modelu. Sprawdzają one wiarygodność poprzez redukcję będąc funkcją rosnącej liczby parametrów. Jeżeli model bazowy daje właściwe dopasowanie do danych, nie jest potrzebna analiza ukrytych klas, ponieważ nie istnieje związek między zmiennymi, który można wyjaśniać. W większości przypadków jest jednak tak, że model bazowy nie jest dobrze dopasowany do danych i L2 służy jako podstawowa miara całkowitej zależności. To sugeruje trzecie podejście w szacowaniu dopasowania modeli ukrytych klas polegające na porównywaniu L2 związanych z modelami ukrytych klas, dla których T > 1 z bazową wartością L2(H0) w celu otrzymania procentu redukcji L2. Tak więc skoro całkowita zależność może być skfantyfikowana przez L2(H0), miara procentu redukcji reprezentuje całkowity związek wyjaśniony przez model. To mniej formalne podejście może być dopełnieniem dwóch pozostałych podejść, bardziej precyzyjnych, L2 i BIC. Przykładem na to, jak wykorzystywać te miary niech będzie: załóżmy, że L2 sugeruje, że trzyklasowy model prawie daje dokładne dopasowanie do niektórych danych (niech p=0,04), ale wyjaśnia 90% całkowitej zależności. Ponadto załóżmy, że czteroklasowy model jest najprostszym modelem, który jest dopasowany do danych zgodnie ze statystyką L2, ale model ten wyjaśnia tylko 91% zależności. W tym przypadku na podstawie praktycznego podejścia trzyklasowy model zostanie wybrany, jako że wyjaśnia prawie tyle samo całkowitego związku. Kolejną miarą, która może być przydatna do oceny jakości modelu jest statystyka Crossie’go-Read’a która jest wykorzystywana do walidacji chi-kwadrat modelu. Jeśli nie otrzyma się p-value podobnego jak w przypadku chi-kwadrat wtedy nie można uznać pvalue wyznaczonego dla chi-kwadrat. 21 Standardowe błędy ocen parametrów – służą do identyfikacji istotności parametrów i mogą być użyteczne przy diagnozowaniu modelu czy też jego modyfikacji. Statystyka Walda jest wykorzystywana do stwierdzenia statystycznej istotności zbioru oszacowanych parametrów dla danej zmiennej. Testuje ona hipotezę mówiącą o tym że wartości każdego z parametrów znajdujących się w zbiorze są równe zero wobec alternatywnej że są różne. 7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH) W niniejszym opracowaniu skoncentrowano się na przedstawieniu jednego z modeli klas ukrytych określonego jako model klas ukrytych dla kategorialnych wskaźników w którym obie zmienne obserwowalna i nieobserwowalna są zmiennymi skokowymi. Tradycyjna analiza ukrytych klas zakłada, że każda obserwacja przynależy do jednej i tylko jednej T ukrytej (nieobserwowlanej) klasy oraz że istnieje lokalna niezależność między manifestowanymi zmiennymi. Oznacza to, że warunkowe przynależność do ukrytej klasy jest jednoznaczna z tym, że zaobserwowane zmienne są wzajemnie od siebie niezależne. Model ten może być wyrażony przy użyciu bezwarunkowych prawdopodobieństw przynależności do każdej ukrytej klasy oraz warunkowych prawdopodobieństw jako parametrów. Na przykład, w przypadku czterech nominalnych manifestowanych zmiennych A, B, C, D mamy:11 π ijklt = π tX π itA X π Bjt X π ktC X π ltD X (8) gdzie π tX oznacza prawdopodobieństwo znalezienia się w ukrytej klasie t = 1, 2,…T ukrytej zmiennej X; π itA| X oznacza warunkowe prawdopodobieństwo otrzymania i-tego wariantu odpowiedzi zmiennej A, pod warunkiem przynależności do klasy t; π Bjt| X , π ktC | X , π ltD| X dla j = 1, 2,..,J; k = 1, 2,…,K; l = 1, 2,…,L oznaczają odpowiednie warunkowe prawdopodobieństwa dla zmiennych B, C, D. Założony model może zostać opisany graficznie w postaci diagramu ścieżkowego (patrz poniżej). Ów diagram pokazuje, że manifestowane zmienne nie są połączone ze sobą 11 J. Vermunt, J. Magidson Latent Class Models, D. Kaplan (Ed) Handbook for Quantitative Methodology 22 w sposób bezpośredni, ale pośrednio przez zmienną X. Zakłada się, że ukryta zmienna wyjaśnia wszystkie zależności między manifestowanymi zmiennymi. Celem tradycyjnej analizy ukrytych klas jest determinacja jak najmniejszej liczby ukrytych klas T, które w wystarczający sposób wyjaśnią zaobserwowane zależności między manifestowanymi zmiennymi. Typowa analiza rozpoczyna się dostosowaniem T = 1 (jednoklasowego) bazowego modelu, który pokazuje wzajemną niezależność między zmiennymi. Model bazowy: π ijkl = π iAπ Bjπ kC π lD (9) Zakłada się, że ten tak zwany zerowany model nie zapewnia dokładnego dopasowania do danych, natomiast jednowymiarowy model ukrytych klas z T = 2 jest dopasowany do danych. Proces ten jest kontynuowany poprzez dopasowywanie kolejnych modeli ukrytych klas, dodając za każdym razem kolejny wymiar poprzez zwiększenie liczby klas o 1, dopóki najprostszy model, który zapewnia dokładne dopasowanie, nie zostanie znaleziony. Dla przykładu: niech X reprezentuje zmienną ukrytą a Yl jedną z L zmiennych zaobserwowanych, gdzie 1 ≤ l ≤ L . Ponadto niech C będzie liczbą ukrytych klas a Dl liczbą wariantów (poziomów) Yl. Poszczególne ukryte klasy są numerowane indeksami x, x=1,2...,C natomiast poszczególne Yl indeksami yl , yl =1,2..., Dl . Wektorowy zapis Y oraz y jest używany do odniesienia się do schematu pełnej odpowiedzi. W celu przybliżenia, konkretyzacji teorii rozpatrzmy poniższy zbiór danych otrzymanych z General Social Survey 1987; Trzy dychotomiczne wskaźniki Y1, Y2, i Y3 są odpowiedziami odpowiednio na pytania: • czy pozwolić antyreligistom mówić (1=pozwolić, 2=nie pozwolić), • czy pozwolić antyreligistom nauczać (1=pozwolić, 2=nie pozwolić), • usunąć antyreligijne książki z biblioteki (1=usunąć, 2=nie usuwać). 23 Tablica 4. Fragment bazy danych z GSS 1987. Y1 Y2 Y3 Częstość P(X=1|Y=y) P(X=2|Y=y) 1 1 1 696 ,998 ,002 1 1 2 68 ,929 ,071 1 2 1 275 ,876 ,124 1 2 2 130 ,168 ,832 2 1 1 34 ,848 ,152 2 1 2 19 ,138 ,862 2 2 1 125 ,080 ,920 2 2 2 366 ,002 ,998 Źródło: jak w tablicy 6. Wykorzystując analizę ukrytych klas możliwa jest identyfikacja podgrup charakteryzujących się różnym stopniem tolerancji w stosunku do antyreligistów. Pojęciem leżącym u podstaw dowolnego typu z modeli ukrytych klas jest to, że prawdopodobieństwo otrzymania schematu odpowiedzi y, P(Y=y), jest średnią ważoną specyficznych dla C klas prawdopodobieństw P(Y=y|X=x); co oznacza, że: C P (Y = y ) = ∑ P ( X = x) P (Y = y X = x) (10) x =1 Gdzie, P(X=x) oznacza proporcję osób należących do klasy x. Podstawowa idea klasycznego modelu ukrytych klas jest powiązana z założeniem lokalnej niezależności. Zakłada się, że L manifestowanych zmiennych wziętych do analizy jest wzajemnie niezależne wewnątrz każdej z ukrytych klas. Można to zapisać przy pomocy następującej formuły: L P (Y = y X = x) =∏ P (Yl = y l X = x) (11) l =1 Po oszacowaniu prawdopodobieństwa warunkowej odpowiedzi P(Yl=yl|X=x), porównanie tych prawdopodobieństw między klasami pokazuje jak klasy różnią się między sobą, co może zostać wykorzystane do nazwania klas. Z połączenia dwóch podstawowych równań [10] i [11] powstaje następujący model dla P(Y=y): C L x =1 l =1 P (Y = y ) = ∑ P ( X = x)∏ P (Yl = y l X = x) 24 (12) Wyestymowany dwuklasowy model dla zbioru danych z powyższego przykładu daje następujące wyniki (por. zbiór danych z tablicy 4): Tablica 5. Wyniki modelu dwuklasowego. X=1 (tolerancyjni) ,62 X=2 (nietolerancyjni) ,38 P(Y1=1|X=x) ,96 ,23 P(Y2=1|X=x) ,74 ,04 P(Y3=1|X=x) ,92 ,24 P(X=x) Źródło: jak w tablicy 6. Klasy zawierają odpowiednio 62 oraz 38 procent jednostek. Widać ponadto, że klasa pierwsza nazwijmy ją (tolerancyjni) ze względu na znacznie wyższe prawdopodobieństwa odpowiedzenia tolerancyjnie na zadane pytania, wskaźniki niż jednostki należące do drugiej klasy - nietolerancyjni. Podobnie jak w analizie skupień, jednym z celów analizy ukrytych klas może być przyporządkowanie jednostek obserwacji do ukrytych klas. Prawdopodobieństwo przynależności do ukrytej klasy x – do której często odnosi się prawdopodobieństwo przynależności a posteriori – może zostać otrzymane zgodnie z regułą Bayes’owską: P( X = x Y = y) = P ( X = x) P (Y = y X = x) P (Y = y ) (13) Najczęściej spotykanym sposobem (regułą) klasyfikacji jest dostosowanie, które wydaje się być dostosowaniem (przyporządkowaniem) każdej z jednostek do ukrytej klasy z zachowaniem najwyższego prawdopodobieństwa P(X=x)P(Y=y|X=x). Prawdopodobieństwa przynależności do klas pokazane w pierwszej tabeli wskazują na ludzi tolerancyjnych, którzy udzielili na co najmniej dwa pytania “tolerancyjnej” odpowiedzi i dlatego sklasyfikowani do klasy pierwszej (“tolerancyjni”). Haberman (S.J. Haberman 1979) pokazał, że model ukrytych klas może być również określony jako logliniowy model dla tabeli z brakami w komórkach, danych wejściowych, albo bardziej precyzyjnie jako model dla rozszerzonej tabeli zawierającej ukrytą zmienną X jako dodatkowy wymiar tejże tabeli. Powiązany logliniowy model dla P(X=x, Y=y) ma następującą postać: 25 L L l =1 l =1 ln P ( X = x, Y = y ) = β + β xX + ∑ β yYll + ∑ β xX, y,Yl l (14) zawiera główny efekt, jednozmienne przypadki dla ukrytej zmiennej i wskaźników oraz dwuzmienne przypadki zawierające X i każdy ze wskaźników. Należy zauważyć, że przypadki z 2 lub więcej manifestowanymi zmiennymi są pominięte z racji założenia lokalnej niezależności. Związek pomiędzy logliniowymi parametrami a prawdopodobieństwem warunkowej odpowiedzi reprezentuje poniższy wzór: P (Yl = y l X = x) = ( exp β yYll + β xX, y,Yl l ( ) ∑r =1 exp β rYl + β xX,r,Yl Dl ) (15) Ten zapis wskazuje, że logliniowe sformułowanie odnosi się do wyszczególnienia logitowego modelu dla każdego prawdopodobieństwa warunkowej odpowiedzi. Rodzaj użytego sformułowania ukrytych klas zaczyna mieć znaczenie w przypadku określenia ograniczeń (restrykcji). Pomimo, że ograniczenia nałożone na prawdopodobieństwo mogą czasami być transformowane na ograniczenia na logliniowe parametry i odwrotnie, istnieje wiele sytuacji, gdy jest to niemożliwe. Zostało zaproponowanych kilka modyfikacji podstawowego modelu ukrytych klas. Jedną z najważniejszych modyfikacji jest zawarcie zmiennych lub grupowanie zmiennych opisujących (prognozujących) zmienną ukrytą X. Zostało to osiągnięte dzięki określeniu multinominalnego modelu logitowego dla prawdopodobieństwa przynależności do ukrytej klasy x; tzn: P( X = x Z = z ) = ( exp γ xX + ∑k =1 γ xX , Z k z k ∑ K ( ) exp γ rX + ∑k =1 γ rX , Z k z k r =1 C K ) (16) Gdzie zk wartość zmiennej k. Kolejną ważną modyfikacją jest powiązane z używaniem informacji do porządkowania kategorii. W schemacie log-liniowym ukrytej zmiennej, porządkowe ograniczenia mogą być narzucone poprzez struktury asocjacyjnego modelu (association model) dla dwuzmiennych warunków β xX, y,lyl . Na przykład jeśli Yl jest porządkowym wskaźnikiem można ograniczyć β xX, y, lyl = β xX , yl ⋅ yl Podobne ograniczenia mogą być użyte dla ukrytej zmiennej. W przypadku gdy C-klasowy model nie pasuje do danych, założenie lokalnej niezależności nie jest spełnione dla jednej lub więcej par wskaźników. Powszechną metodą 26 dopasowania w analizie ukrytych klas jest zwiększanie liczby ukrytych klas do momentu aż założenie lokalnej niezależności zacznie się sprawdzać. Zostały stworzone dwa rozwinięcia, pozwalające wykorzystać inne strategie. Zamiast zwiększania liczby ukrytych klas, alternatywnym podejściem jest złagodzenie (poluźnienie) założenia lokalnej zależności poprzez uwzględnienie bezpośrednich zależności pomiędzy konkretnymi wskaźnikami – bezpośrednie rozwinięcie log-liniowego modelu ukrytych klas. Kolejną alternatywną strategią jest zwiększanie liczby ukrytych zmiennych zamiast liczby ukrytych klas. To tak zwane podejście czynnikowej analizy ukrytych klas jest szczególnie użyteczne jeśli wskaźniki określają kilka wymiarów. Inne ważne modyfikacje opierają się na analizie danych wzdłużnych (longitudialnych) oraz częściowo obserwowalnych parametrów. Najbardziej ogólnym modelem zawierającym wszystkie omawiane wcześniej, jak również specjalne przypadki jest równanie strukturalnego modelu dla kategorialnych danych, zaproponowane przez Hagenaarsa (1990) oraz Vermunta (1997).12 8. OCENA DOPASOWANIA MODELU Dopasowanie oszacowanego modelu jest zazwyczaj testowane przy użyciu statystyki Pearsona lub statystyki zgodności Chi-kwadrat. Ta ostatnia jest zdefiniowana jako: I L2 = 2∑ ni ln i =1 ni N ⋅ P(Y = y i ) (17) Gdzie N oznacza wielkość próby. Tak jak w analizie log-liniowej, liczba stopni swobody L jest równa liczbie komórek w tabeli częstości minus jeden, ∏D l , minus liczba l =1 niezależnych parametrów. W nieograniczonym modelu ukrytych klas liczba stopni swobody: L df = ∏ Dl − C ⋅ 1 + ∑ ( Dl − 1) l =1 l =1 (18) Pomimo, iż nietrudno oszacować modele ukrytych klas z 10, 20 czy 50 wskaźnikami, to w takich przypadkach tabele częstości mogą stać się bardzo rozrzucone, w wyniku czego asymptotyczne wartości p mogą stać się nieprawdziwe. Jednym z możliwych, aczkolwiek czasochłonnym rozwiązaniem tego problemu jest szacowanie wartości p parametryczną 12 w tym opracowaniu nie jest ono omawiane, zainteresowanego czytelnika odsyłamy do wspomnianej publikacji; 27 metodą “bootstrapową”. Kolejnym sposobem jest ocenić dopasowanie modelu w brzegowych tabelach niższego rzędu, na przykład w dwuwymiarowych tabelach brzegowych (marginalnych). Niesłusznym jest porównywanie modeli z C i C+1 klasami poprzez odejmowanie ich wartości L2 oraz stopni swobody ponieważ ten warunkowy test nie posiada asymptotycznego rozkładu Chi-kwadrat. Oznacza to, że potrzebne są alternatywne metody do porównywania modeli z różnymi liczbami klas. Jedną popularną metodą jest wykorzystanie kryteriów informacyjnych takich jak AIC oraz BIC. Kolejną bardziej opisową metodą jest mierzenie proporcji całkowitego związku przypisanego modelowi z C klasami, [L2(1) – L2(C)]/L2(1), gdzie wartość L2 jednoklasowego (niezależnego) modelu, L2(1), jest wykorzystywana jako miara całkowitego związku w L-wymiarowej tabeli częstości. Zazwyczaj nie jesteśmy zainteresowani tylko dopasowaniem, ale również działaniem reguły klasyfikacji modalnej. Szacowana proporcja błędów klasyfikacji w klasyfikacji modalnej równa jest: I E=∑ i =1 ni {1 − max[P(X = x Y = yi )]} N (19) Liczba ta może być porównana z proporcją błędów klasyfikacji opartych na bezwarunkowych prawdopodobieństwach P(X = x), dając miarę redukcji błędów λ: λ = 1− E max[P ( X = x)] (20) Im bliżej tej nominalnej mierze typu R2 do jedności (1), tym lepsza klasyfikacja modelu. Następnym krokiem tradycyjnej analizy ukrytych zmiennych jest usunięcie z modelu tych wszystkich zmiennych, które nie dowodzą istotnych różnic pomiędzy klasami. Aby sprawdzić, czy należy skasować zmienną A z T-klasowego modelu należy przetestować hipotezę zerową, czy dystrybuanta w I kategoriach zmiennej A jest identyczna wewnątrz każdej klasy t: π iA1 X = π iA2 X = ... = π iIA X Aby użyć tego testu dla i=1,2,…I należy wykorzystać (21) zależność pomiędzy warunkowym prawdopodobieństwem odpowiedzi i log-liniowymi parametrami (szerzej: Haberman 1979; Formann,1992; Heinen, 1996): π itA X = ( exp λiA + λitAX ∑ exp(λ l i ′ =1 A i′ +λ ) AX i ′t (22) ) 28 Standardowe techniki modelowania log-liniowego mogą być użyte w celu testowania hipotezy zerowej przetransformowanej w doniesieniu do log-liniowych parametrów związanych z relacją AX: AX AX λiAX 1 = λi 2 = ... = λiI dla i=1,2,…I (23) Końcowym etapem w tradycyjnej analizie ukrytych zmiennych jest użycie rezultatów modelu do klasyfikacji przypadków do odpowiedniej klasy. Dla każdego wzoru odpowiedzi (i,j,k,l), oszacowanie dla następujących prawdopodobieństw przynależności może być uzyskane przy użyciu teorii Bayesowskiej w następujący sposób: πˆ X ABCD tijkl = ABCDX πˆ ijklt T ∑ πˆ t =1 t = 1,2,…, T (24) ABCDX ijklt gdzie licznik i mianownik równania (24) uzyskuje się poprzez zastąpienie oszacowań parametrów modelu odpowiednimi parametrami z równania (8). Magidson and Vermunt (2001) określają ten rodzaj modelu jako model segmentowy ukrytych zmiennych, ponieważ cel klasyfikacji w podziale na T homogenicznych grup jest identyczny do celu klasycznej analizy skupień. W przeciwieństwie do miar dystansu ad hoc używanych w klasycznej analizie skupień do zdefiniowania homogeniczności analiza ukrytych zmiennych definiuje homogeniczność w kontekście prawdopodobieństw. Jak można wywnioskować z równania (8) przypadki w obrębie tej samej klasy modelu ukrytych zmiennych są do siebie podobne, ponieważ odpowiedzi tworzone są na bazie tej samej dystrybuanty prawdopodobieństwa. 9. PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ Przykład 1 (Mc. Cutcheon, 1997; Magidson & Vermunt, Soc. Meth, 2001) Celem badania była identyfikacja różnych typów respondentów z wykorzystaniem dwóch zmiennych wyrażających opinii respondentów w kwestii celowości badania (A), dostosowania badania do jego celu (B) oraz dwóch dodatkowych zmiennych będących oceną ankieterów: stopnia zrozumienia przez respondenta pytań zawartych w badaniu (C) i współpracy przy odpowiedzi na pytania (D). Celowi przyporządkowane było zbadanie różnic pomiędzy tymi typami z wykorzystaniem modeli klasowych oraz czynnikowych. 29 Klasyfikacja respondentów z wykorzystaniem w/w modeli. Rozkład zaobserwowanych liczebności poszczególnych wariantów w/w zmiennych przedstawia poniższa tablica. Tablica 6. Rozkład liczebności zaobserwowanych. Celowość Dobra Adekwatność Prawdziwa Zrozumienie Dobre Współpraca Liczebności Zainteresowany 419 Współpracujący 35 Niecierpliwy 2 Słabe Zainteresowany 71 Współpracujący 25 Niecierpliwy 5 Nieprawdziwa Dobre Zainteresowany 270 Współpracujący 25 Niecierpliwy 4 Słabe Zainteresowany 42 Współpracujący 16 Niecierpliwy 5 To zależy Prawdziwa Dobre Zainteresowany 23 Współpracujący 4 Niecierpliwy 1 Słabe Zainteresowany 6 Współpracujący 2 Niecierpliwy 0 Nieprawdziwa Dobre Zainteresowany 43 Współpracujący 9 Niecierpliwy 2 Słabe Zainteresowany 9 Współpracujący 3 Niecierpliwy 2 Strata czasu Prawdziwa Dobre Zainteresowany 26 Współpracujący 3 Niecierpliwy 0 Słabe Zainteresowany 1 Współpracujący 2 Niecierpliwy 0 Nieprawdziwa Dobre Zainteresowany 85 Współpracujący 23 Niecierpliwy 6 Słabe Zainteresowany 13 Współpracujący 12 Niecierpliwy 8 Źródło: Materiały prezentowane na seminarium szkoleniowym “Basic and Advanced Topics in Modelling” – Generalized Linear Models with Latent Variables. ZA Spring Seminar 17-21 marzec 2003 w Niemczech w Kolonii, autorstwa J. Vermunt’a. Następnie wyniki estymacji modeli 1, 2, 3, 4 – klasowych posłużyły do porównania stopnia dopasowania modeli w zależności od liczby klas. Zgodnie z procedurą standardowego postępowania na wstępie został oszacowany model zerowy jako podstawa do porównania z modelami zawierającymi zmienne. Porównanie modelu z dwoma i trzema klasami dowiodło iż znacznie lepszy jest model z 3 klasami ponieważ w przypadku tego modelu otrzymujemy większą redukcję L2 a dodatkowo mniejszą wartość BIC. Model czteroklasowy dostarcza dalszego polepszenia w redukcji L2 30 ale jednocześnie wzrasta wartość BIC i wzrasta wartość błędu losowego mówiącego o odsetku jednostek blędnie przyporządkowanych do klas (por. tablica 7). Tablica 7. Wyniki estymacji modeli. Model χ2 Redukcja χ2 1-klasa 257,2 6 79,51 22,09 6,61 0,00 Stopnie swobody 29 0,69 0,91 0,97 22 15 8 2-klasy 3-klasy 4-klasy p-value BIC AIC 0,00 51,6 199,26 Błąd losowy 0,00 0,00 0,11 0,58 -76,51 -84,29 -50,12 35,51 -7,91 -9,39 0,08 0,13 0,20 Źródło: jak w tablicy 6. kryteria służące do porównywania jakości dopasowania modeli IC=L2 – w*df 1) BIC : w = ln(N) AIC : w = 2 CAIC : w = ln(N) + 1 2) Proporcjonalną redukcję χ2 można taktować w przybliżeniu jako R2. 3) Błąd losowy mówi o % respondentów, którzy będą według tego modelu zakwalifikowani do niewłaściwej klasy. Jak wynika z otrzymanych rezultatów zaproponowany wstępnie podział na 3 klasy okazał się trafny, ponieważ model z 3 klasami daje najlepsze wyniki i najlepsze dopasowanie. Respondenci zostali przydzieleni do odpowiednio określonych klas: Idealiści, Wierzący, Sceptycy, z prawdopodobieństwami warunkowymi pokazanymi w tablicy 8. Bazując na danych prawdopodobieństwach i rozkładzie respondentów według poszczególnych kategorii autorzy określili powstałe w modelu trzy klasy jako “idealistów” (klasa 1 licząca prawie 62% respondentów), “wierzących” (klasa 2 licząca niewiele ponad 20% respondentów) oraz “sceptyków” (klasa 3 licząca tylko niespełna 18% respondentów). Najbardziej wartościową grupę respondentów stanowią “idealiści” czyli osoby które w 9 na 10 przypadków uważały iż badanie jest celowe, w 6 przypadkach na 10 uważali oni iż badanie jest dostosowane do osiągnięcia celu oraz doskonale rozumieli pytania (prawie 10 na 10 osób) i byli w wysokim stopniu zainteresowani współpracą. 31 Tablica 8. Prawdopodobieństwa warunkowe. Prawdopodobieństwo znalezienia się w ukrytej klasie Klasa 1 Klasa 2 Klasa 3 Idealiści Wierzący Sceptycy 0,6169 0,2038 0,1793 Prawdopodobieństwa warunkowe Celowość: Dobra Zależy Strata czasu Adekwatność: Prawdziwa Nieprawdziwa Zrozumienie: Dobre Słabe Współpraca: Zainteresowany Współpracujący Niecierpliwy 0,8905 0,0524 0,0570 0,6148 0,3852 0,9957 0,0043 0,9452 0,0547 0,0001 0,9157 0,0706 0,0137 0,6527 0,3473 0,3241 0,6759 0,6879 0,2583 0,0538 0,1592 0,2220 0,6189 0,0426 0,9574 0,7532 0,2468 0,6432 0,2559 0,1009 Źródło: jak w tablicy 6. Sposób przyporządkowania odpowiedzi do poszczególnych klas został przedstawiony w tablicy 9. Tablica 9. Sposób przyporządkowania odpowiedzi (fragment tablicy z danymi). Celowość Adekwatność Zrozumienie Współpraca Model Klaster 1 Klaster 2 Klaster 3 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 1 1 1 1 1 1 2 2 2 2 2 2 1 1 1 1 1 1 1 2 2 2 1 1 1 2 2 2 1 1 1 2 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 1 1 2 2 2 2 1 1 3 2 2 2 1 1 2 2 0,9197 0,6382 0,0155 0,0238 0,0037 0,0000 0,8780 0,5188 0,0068 0,0246 0,0038 0,0000 0,8653 0,4934 0,0070 0,0173 0,0786 0,3537 0,9435 0,9729 0,9927 0,9932 0,0637 0,2442 0,3503 0,8528 0,8644 0,7761 0,0968 0,3579 0,5560 0,9257 0,0017 0,0081 0,0410 0,0033 0,0036 0,0068 0,0583 0,2369 0,6429 0,1227 0,1318 0,2238 0,0380 0,1487 0,4370 0,0570 Źródło: jak w tablicy 6. Tablica 10 zawiera rezultaty testów istotności 4 zmiennych w trzyklasowym modelu. Lewa część tablicy przedstawia rezultaty testu różnicy L2, gdzie ∆L2 jest wyliczana jako różnica między statystykami L2 pozyskanymi z trzyklasowych modeli z ograniczeniami i bez ograniczeń. W prawej części tablicy umieszczono odpowiednio rezultaty statystyki Walda, która jest łatwiejsza do wyliczenia, lecz słabsza niż statystyka ∆L2. Uwzględniając 32 założenie, że model bez ograniczeń jest prawdziwy obie statystyki mają asymptotyczny rozkład chi-kwadrat o liczbie stopni swobody określanej jako DF = (I-1)*(T-1), gdzie I określa liczbę kategorii zmiennej nominalnej. Wyniki umieszczone w Tablicy 10 wskazują, że każda z czterech zmiennych włączonych do modelu jest istotna. Tablica 10. Ocena istotności wpływu włączonych zmiennych. L² redukcja Zmienna (A) Celowość (B) Adekwatność (C) Zrozumienie (D) Współpraca St. swob. 4 2 2 4 ∆L² 145.3 125.4 61.3 101.1 p-value 2.1x10-30 5.8x10-28 4.9x10-14 5.6x10-21 test Walda Wald 29.6 8.4 7.4 19.0 p-value 6.0x10-6 0.015 0.024 0.0008 Źródło: jak w tablicy 6. Końcowym etapem w tradycyjnej analizie ukrytych zmiennych jest użycie rezultatów modelu do klasyfikacji przypadków do odpowiedniej klasy z wykorzystaniem teorii Bayesowskiej. Cel zastosowania tego przyporządkowania jest analogiczny jak w przypadku analizy skupień: utworzenie T homogenicznych grup. W przeciwieństwie jednak do analizy skupień, która wykorzystuje najmniejsze odległości pomiędzy jednostkami w analizie klas ukrytych homogeniczność definiowana jest w ujęciu prawdopodobieństw. Jednostki w tej samej klasie są podobne ponieważ ich odpowiedzi są generowane przy tych samych warunkowych rozkładach prawdopodobieństw. Wszystkie przypadki są przypisane do klasy, dla której ostateczna wartość prawdopodobieństwa jest najwyższa. Ostateczna przynależność prawdopodobieństw dla trzyklasowego modelu ukrytych zmiennych przedstawiona jest w Tablicy 11 (prawdopodobieństwa modalne są przedstawione pogrubioną czcionką). 33 Tablica 11. Klasyfikacja przypadków do klas. A B C Celowość Adekwatność Zrozumienie Dobra Prawdziwa Dobre Słabe Nieprawdziwa Dobre Słabe To zależy Prawdziwa Dobre Słabe Nieprawdziwa Dobre Słabe Strata czasu Prawdziwa Dobre Słabe Nieprawdziwa Dobre Słabe D Współpraca Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Zainteresowany Współpracujący Niecierpliwy Źródło: jak w tablicy 6. 34 Otrzymane Prawdopodobieństwa Idealiści Wierzący Sceptycy 0.92 0.64 0.02 0.02 0.00 0.00 0.88 0.52 0.01 0.02 0.00 0.00 0.87 0.49 0.01 0.02 0.00 0.00 0.37 0.08 0.00 0.01 0.00 0.00 0.88 0.53 0.01 0.05 0.01 0.00 0.20 0.03 0.00 0.00 0.00 0.00 0.08 0.35 0.94 0.97 0.99 0.99 0.06 0.24 0.35 0.85 0.86 0.78 0.10 0.36 0.56 0.93 0.94 0.89 0.04 0.05 0.03 0.28 0.27 0.16 0.02 0.07 0.08 0.50 0.51 0.36 0.00 0.00 0.00 0.03 0.02 0.01 0.00 0.01 0.04 0.00 0.00 0.01 0.06 0.24 0.64 0.12 0.13 0.22 0.04 0.15 0.44 0.06 0.06 0.11 0.59 0.87 0.97 0.72 0.73 0.84 0.10 0.41 0.91 0.44 0.48 0.64 0.80 0.96 1.00 0.97 0.97 0.99 10. PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY. Ponieważ dla każdego wzoru odpowiedzi (i,j,k,l) T-klasowe prawdopodobieństwa przynależności sumują się do 1 trzeba tylko T-1 wszystkich prawdopodobieństw, a prawdopodobieństwo przynależności do pozostającej klasy wylicza się z pozostałych. X ABCD Stąd prawdopodobieństwa przynależności πˆ tijkl może być użyte do umiejscowienia każdego wzory odpowiedzi w T-1 wymiarowej przestrzeni. Na przykład dla T = 3 można stworzyć kilka dwuwymiarowych wykresów barycentrycznych13 współrzędnych. Zamiast przedstawiać każdy z możliwych wariantów odpowiedzi można stworzyć taki rodzaj wykresów, jakiego używa analiza współzależności, gdzie punkty narysowane są dla każdej kategorii zmiennej, jak również dla wszystkich istotnych agregacji prawdopodobieństw (Magidson and Vermunt, 2001). Rysunek 1 Źródło: jak w tablicy 6. 13 barycentryczny tzn. posiadający środek ciężkości; 35 Rysunek 1 pokazuje wykres barycentrycznych współrzędnych dla trzyklasowego modelu ukrytych zmiennych. Punkty odznaczone są dla każdej z 4 kategorii zmiennych z przykładu. Ponieważ punkty te zawierają taką samą informację, jak oszacowania parametrów modelu ukrytych zmiennych (Van der Heijden, Gilula and Van der Ark, 1999) ten rodzaj wykresu jest graficzną alternatywą do tabelarycznego przedstawienia oszacowań parametrów wnoszącą nowe możliwości analizy danych. Dwa przedstawione na rysunku 2 dodatkowe zagregowania związane z kategoriami odpowiedzi: Zrozumienie = “dobre” oraz “słabe” (k=1,2) pośród tych, dla których Współpraca = “niecierpliwy” (l=3). Wymiar poziomu wykresu odnosi się do różnic pomiędzy typami “Idealiści” i “Wierzący” (ukryta klasa 1 i 2). Można zauważyć, że kategorie zmiennej C mają tendencję do “rozbiegania się” wzdłuż tego wymiaru. Respondenci wykazujący się “dobrym” zrozumieniem najczęściej należą do klasy idealistów (odpowiedni symbol narysowany jest w dolnym lewym rogu obszaru odpowiadającego klasie 1), podczas gdy odznaczający się “słabym” zrozumieniem są przedstawieni bliżej prawego dolnego obszaru odpowiadającego klasie 2. Różnice wzdłuż pionowego wymiaru wykresu są najlepiej przedstawione przez kategorie A i B. Respondenci twierdzący, że celowość przeprowadzonej ankiety jest “dobra” przedstawieni są w dolnej lewej części obszaru (klasa 1). Ci, którzy twierdzą, że “to zależy” znajdują się pomiędzy klasą 1 i klasą 3 (góra wykresu). Twierdzący, że to “strata czasu” najczęściej znajdują się w klasie 3 (w górnej części wykresu). Fakt, iż kategorie A i B są rozłożone wzdłuż pionowego wymiaru wykresu sugeruje wysoki stopień asocjacji pomiędzy tymi zmiennymi. Z kolei sugestia, jakoby kategoria C, rozłożona wzdłuż poziomego wymiary wykresu, była w jakimś stopniu związana z pozostałymi dwiema zmiennymi A i B jest bezzasadna. Kategorie zmiennej D formują ciekawy wzór diagonalny. Respondenci “zainteresowani” pytaniami najczęściej znajdują się w klasie 1 (“idealiści”), podczas gdy “współpracujący” albo “niecierpliwi” znajdują się na rysunku bliżej klasy 2 i 3. To sugeruje hipotezę, że niecierpliwość powstaje na skutek dwóch różnych powodów: 1) nie zgodzenia się, że ankieta służy właściwemu celowi (przedstawione na pionowym wymiarze wykresu) oraz/lub 2) brak zrozumienia (wskazany przez poziomy wymiar). Dodatkowe punkty narysowane na wykresie dotyczą relacji pomiędzy zmienną C i D. Umiejscowienie tych punktów, że pośród niecierpliwych respondentów ci, którzy wykazują dobre zrozumienie pytań znajdują się częściej w klasie 3, natomiast ci, którzy słabo rozumieją pytania z reguły znajdują się w klasach 2 i 3. 36 Przykład 2 (Magenaars 1993)14 W badaniu orientacji politycznej wykorzystano 5 zmiennych dychotomicznych: - odpowiedniość systemu (wysoka/niska); - poziom ideologiczny (nieideologiczny/ideologiczny); - potencjał represyjny (wysoki/niski); - aprobata protestów (niska/wysoka); - udział w działalności (niski/wysoki). W oszacowanym modelu otrzymano wysoki poziom składnika resztowego i zdecydowano o dopuszczeniu do lokalnej zależności pomiędzy dwiema zmiennymi poprzez dodanie parametru: Tablica 12. Wyniki estymacji modelu włączającego dodatkowe zmienne. Model χ2 BIC 1-klasa 2-klasy 3-klasy 4-klasy 2-faktory 2-klasy + 1 efekt bezpośredni (zależność lokalna) 296,56 95,82 24,8 7,45 12,3 19,10 p-value 113 -45 -74 -49 -86 Stopnie swobody 26 20 14 8 14 -115 19 0,45 0,00 0,00 0,04 0,49 0,58 Źródło: jak w tablicy 6. Jako najlepiej dopasowany uznano model z 3 klasami. Do tego modelu włączono zmienne poprzez dodanie dodatkowego równania regresji do modelu. Tablica 13. Oszacowanie parametrów (współczynnik Logit). Latent Variable(s) (gamma) Wyraz wolny Zmienne Sex (Płeć) Educ (Edukacja) Age (Wiek) Mężczyźni Kobiety Wyższe Mniej niż wyższe 16-34 35-57 58-91 Klasa 1 0,5907 Klasa 1 0,2951 -0,2951 0,9812 -0,9812 -0,3910 0,2776 0,1134 Klasa 2 -0,0762 Klasa 2 -0,2291 0,2291 -0,5570 0,5570 -0,8987 0,0491 0,8497 Klasa 3 -0,5146 Klasa 3 -0,0660 0,0660 -0,4242 0,4242 1,2897 -0,3266 -0,9631 Źródło: jak w tablicy 6. 14 jest to przykład pokazujący możliwość włączenia do modelu dodatkowych zmiennych niezależnych obserwowalnych; 37 Wyniki uzyskane z tej estymacji pozwalają na stwierdzenie która z grup np. kobiety czy mężczyźni ma większe prawdopodobieństwo znalezienia się w określonej klasie (mówi o tym znak ujemny lub dodatni) Wyniki dla prawdopodobieństw zostały przedstawione w poniższej tablicy. Tablica 14. Rozkład prawdopodobieństw przynależności do klas i prawdopodobieństw warunkowych. Całkowite prawdopodobieństwo Zmienne Sex (Płeć) Mężczyźni Kobiety Educ (Edukacja) Wyższe Mniej niż wyższe Age (Wiek) 16-34 35-57 58-91 Klasa 1 0,4167 Klasa 1 0,5283 0,3294 0,7660 0,1767 0,3898 0,5213 0,3296 Klasa 2 0,3526 Klasa 2 0,2507 0,4325 0,0969 0,5285 0,0979 0,3466 0,6153 Klasa 3 0,2307 Klasa 3 0,2210 0,2381 0,1371 0,2949 0,5124 0,1320 0,0551 Źródło: jak w tablicy 6. Wartości uzyskane dla poszczególnych prawdopodobieństw mówią o tym z jakim prawdopodobieństwem będą mężczyźni przydzieleni do klasy 1 2 3 a z jakim kobiety itp. Przykład 3 (Maria Nawojczyk 2002)15 Problemem badawczym jest stosunek Polaków do legalizacji aborcji (dane z PGSS 1999). Według pytań zadawanych w ankiecie pogrupowano dwa typy sytuacji obejmujących “etyczno-medyczne” powody aborcji (A, B, C) oraz “społeczne” powody aborcji (D, E, F). Rozkład odpowiedzi na stawiane pytania przedstawia poniższa tabelka. Tablica 15. Rozkład otrzymanych odpowiedzi. Wskaźnik A. zagrożenie zdrowia kobiety B. poważne uszkodzenie płodu C. ciąża po gwałcie D. niskie dochody rodziny E. nie chce więcej dzieci F. samotna kobieta TAK 86,7% 82,0% 77,6% 49,7% 43,0% 34,1% NIE 13,3% 18,0% 22,4% 50,3% 57,0% 65,9% Źródło: M. Nawojczyk, Przewodnik po statystyce dla socjologów, 2002, str. 253. 15 przykład z literatury polskiej; 38 Pierwszą decyzją jest decyzja co do ilości klas ukrytych które należy zidentyfikować. W analizie tego typu nie ma obowiązku zakładania z góry hipotezy co do ilości klas. Można dochodzić do tego stopniowo na zasadzie oceny dopasowania kolejnego modelu. Ze względu na wcześniejsze badania jak i ze względu na rozkład zaobserwowanych odpowiedzi można stwierdzić, iż najlepiej przedstawioną sytuację opisuje model z trzema klasami: a) osoby akceptujące legalizację wszystkich powodów aborcji; b) osoby nie akceptujące żadnego powodu legalizacji aborcji; c) osoby akceptujące legalizację aborcji z powodów “etyczno-medycznych”, a nie akceptujące legalizacji z powodów “społecznych”. Prawdopodobieństwa klas ukrytych i prawdopodobieństwa warunkowe dala modelu 3-klasowego opisującego postawy Polaków były następujące (wg. oszacowanego modelu za pomocą programu MLLSA Maximum Likelihood Latent Structure Analysis). Tablica 16. Rozkład prawdopodobieństw. Wskaźnik A. zagrożenie zdrowia kobiety B. poważne uszkodzenie płodu C. ciąża po gwałcie D. niskie dochody rodziny E. nie chce więcej dzieci F. samotna kobieta Prawdopodobieństwo klas ukrytych I 1,00 1,00 1,00 0,982 0,926 0,834 0,4544 Klasa II 0,968 0,916 0,813 0,236 0,163 0,056 0,3725 III 0,142 0,062 0,026 0,000 0,007 0,000 0,1731 Źródło: M. Nawojczyk, Przewodnik po statystyce dla socjologów, 2002, str. 256. I klasa to osoby, które aprobują legalizację aborcji bez zastrzeżeń ze względów “etycznomedycznych” (1,0), ze względów “społecznych” (0,98-0,83) II klasa to osoby, które aprobują legalizację aborcji ze względów “etyczno-medycznych” (0,96-0,8), ale nie aprobują ze względów “społecznych” (0,23-0,06) III klasa to osoby, które nie aprobują żadnych podstaw do legalizacji aborcji (0,14-0,0) Zaskakująca okazałą się proporcja liczebności tych trzech klas, aż 45% osób było w grupie I, czyli opowiadających się za legalizacją bez zastrzeżeń. 39 11. ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW DEMOGRAFICZNYCH Jako przykład zastosowania modeli klas ukrytych w demografii można wykorzystać artykuł Guy’a Moors’a, opublikowany w European Journal of Population 19 vol.2, pod tytułem “Wspólny efekt roli płci oraz formowania rodziny: logarytmiczno- liniowy model z ukrytymi zmiennymi. (Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables). Stosunek do roli płci oraz formowanie rodziny są powiązane wzajemnie w dynamicznym procesie. Zademonstrowane zostało, iż podejście, stosunek do roli płci ma wpływ na formowanie rodziny i jest powiązany z pewnymi określonymi stanami. Emancypacyjna rola płci powoduje wzrost prawdopodobieństwa życia samotnie czy też w kohabitacji. Pozostawanie w określonej sytuacji przez co najmniej 2 lata powoduje, że kobiety będą dalej rozwijały swoje emancypacyjne podejście. A jak wiadomo z tradycyjnymi wartościami rodziny powiązane są tradycyjne formy rodziny jak pozostawanie w związku małżeńskim, czy bycie matką. Jak twierdzi autor, z metodologicznego punktu widzenia tylko dane panelowe mogą być wykorzystane w tego typu analzie. Do opisu istoty badanych procesów został zaproponowany model logarytmiczno-liniowy ze zmiennymi ukrytymi. – jest to jedna z wielu odmian modeli należących do rodziny modeli klas ukrytych czy szerzej analizy ukrytych struktur. W artykule autor podejmuje próbę zweryfikowania relacji między podejściem do roli płci, a formowaniem rodziny wśród kobiet w ich wczesnej dorosłości. Autor koncentruje się na tym szczególnym etapie życia, który nazywa “turbulentnym” ze względu na znaczące zdarzenia zachodzące właśnie w tym okresie cyklu ludzkiego życia. Autor stawia również pytanie czy wartości wpływają na zachowanie czy może jest zupełnie na odwrót? DANE WYKORZYSTANE W ANALZIE Dane panelowe pochodzą z projektu “Familienentwicklung in Nordrhein-Westfalen” przeprowadzonego przez “Institute fuer Bevoelkerungsforschung und Sozialpolitik” Uniwersytetu w Bielefeld. Początkowo zbadano 2620 losowo wybranych kobiet w wieku 18-30 w 1982, następnie przeprowadzono 2 kolejne badania co 2 lata. W omawianym przykładzie wykorzystano wyniki dwóch pierwszych badań. Przy czym tylko 56% respondentów z pierwszego badania brało udział również w drugim, duża część redukcji udziału da się wytłumaczyć prawnymi aspektami badania, ponieważ na końcu ankiety 40 respondent był zobowiązany odpowiedzieć na pytanie czy zgadza się na wzięcie udziału w przyszłych badaniach, pozwalając badaczom zachować dane o adresie zamieszkania. Tylko 68% podpisało taką deklarację po pierwszym badaniu. KLUCZOWE ZMIENNE Pierwsza zmienna, a właściwie zbiór zmiennych odnosi się do roli płci. Z bogatego zakresu, zbioru pytań dotyczących roli płci wybrane zostały cztery: Autonomia osobista czyli znaczenie w życiu takich wartości jak: poszukiwanie nowych wyzwań odkrywanie świata wolność osobista kontynuacja rozwoju osobistego zaangażowanie w politykę podejmowanie wyzwań bycie niezależnym posiadanie przyjaciół Tradycyjna opinia dotycząca małżeństwa związana z ustosunkowaniem się do stwierdzeń: do założenia rodziny potrzebny jest ślub przez małżeństwo związek staje się bardziej scementowany przez małżeństwo partnerzy zbliżają się do siebie małżeństwo daje poczucie bezpieczeństwa Podejście do roli w gospodarstwie domowym czyli ustosunkowanie się do stwierdzeń: obowiązkiem jest zaangażowanie w gospodarstwo domowe rodzina stanie na pierwszym miejscu nawet zatrudniona kobieta jest w obowiązku dbać o ognisko domowe kobieta powinna zrezygnować ze swoich interesów, jeśli chodzi o rodzinę zależy mi bardziej na dbaniu o gosp. domowe niż być zatrudnionym Wartość dzieci czyli ustosunkowanie się do opinii: posiadanie dzieci sprawia, że jest się prawdziwą kobietą posiadanie dzieci jest najważniejszą rzecz w życiu kobiety dzieci nadają sens życiu bez dzieci nie można być naprawdę szczęśliwym dzieci oznaczają spełnienie życiowe 41 Całkowita wielkość próby w badaniu wynosi 1315 osób. Jak wiadomo zbyt duża liczba parametrów może prowadzić do “rozsianych” danych, co może być powodem otrzymania rozwiązań brzegowych lub warunkowych prawdopodobieństw na poziomie 0, które to z kolei mogą powodować obciążenie wyników. Z tego powodu ograniczona została liczba kategorii tych 4-ch pytań do 3-ch poziomów: ”zgadzam się” jako niski, średni i wysoki. 3 z 4-ch pytań odnoszą się do tradycyjnych opinii na temat roli płci (kobiety): znaczenie małżeństwa, wartość dzieci, zdanie na temat roli w gospodarstwie domowym. Natomiast 4te pytanie “osobista autonomia” oddaje nastawienie do rodziny. Wyestymowany został model ukrytych klas pokazujący ukrytą postawę, rolę płci (por. tablica 17). Tablica 17. Selekcja modelu p-value 354,25 Stopnie swobody 1 1,46 -312,03 1 0,00 0,71 -321,65 1 0,06 Wybór modelu L2 BIC 1 klasowy 8,78 2 klasowy 3 klasowy 0,00 Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables, European Journal of Population 19 vol.2, 2003. W tablicy 17 pokazane zostały podstawowe statystyki wykorzystane przy wyborze odpowiedniego modelu. Model z jedną klasą ukrytą, czyli model niezależny nie ma on większego znaczenia, natomiast służy jako punkt odniesienia dla porównywania wartości L2. Na podstawie dwóch powyższych kryteriów wybrano model z trzema klasami. Tablica 18 reprezentuje parametry modelu wraz z warunkowymi prawdopodobieństwami przynależności określonej kategorii do ukrytej klasy. Wskaźniki określają wiersze, natomiast kolumny to ukryte zmienne. Druga zmienna w modelu to formowanie rodziny, z wariantami: zamieszkiwanie z rodzicami bez dzieci życie w pojedynkę bez dzieci życie w kohabitacji bez dzieci małżeństwo z wcześniejszą kohabitacją bez dzieci małżeństwo bez wcześniejszej kohabitacji bez dzieci niemałżeńska ciąża lub dzieci małżeńska ciąża lub dzieci bez wcześniejszej kohabitacji małżeńska ciąża lub dzieci z wcześniejszą kohabitacją 42 W tym przypadku skoncentrowano się na oszacowaniu efektu nastawienia na wybór życia i macierzyństwa, właściwym jest skoncentrowanie się na kobietach, które weszły w określony stan w drugim badaniu i porównanie ich z kobietami, które już w tym stanie były podczas pierwszego badania. Tablica 18. Zmienna ukryta: Postawa wobec równości płci Emancypacyjna Pośrednia współczynnik udział% współczynnik udział% Tradycyjna prorodzinna współczynnik udział% A. Osobista autonomia Niska -1,408 2,4% 0,421 25,5% 0,998 40,9% Średnia 0,254 46,3% -0,119 54,2% -0,135 48,5% Wysoka 1,155 51,3% -0,302 20,3% -0,853 10,6% B. Tradycyjna opinia na temat małżeństwa Niska 1,185 76,7% -0,088 35,1% -1,097 9,3% Średnia -0,116 16,8% 0,136 35,4% -0,02 22,0% Wysoka -1,069 6,5% -0,049 29,5% 1,117 68,7% C. Orientacja w podziale ról w gospodarstwie domowym Niska 2,208 86,4% 0,006 31,6% -2,214 1,5% Średnia -0,115 12,9% 0,012 48,4% 0,103 23,6% Wysoka -2,093 0,8% -0,018 20,0% 2,111 74,9% D. Wartość dzieci Niska 2,133 84% -0,180 38,4% -1,954 4,5% Średnia 0,281 15,7% -0,222 44,0% -0,059 35,5% Wysoka -2,414 0,2% 0,401 17,6% 2,013 60,1% Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables, European Journal of Population 19 vol.2, 2003. MODEL Kobiety biorące udział w obu badaniach zostały podzielone w grupy z uwzględnieniem ich sytuacji rodzinnej w drugim badaniu. Podział nastąpił na kobiety, które pozostały w danym stanie oraz te, które zmieniły stan między badaniami. Badanie koncentruje się na tym, że jest podejrzenie, iż ukryta postawa może prognozować tych, którzy przechodzą między stanami i tych, którzy pozostają. Np. ktoś może pozostawać z drugą osobą bez potrzeby, 43 czy planowania małżeństwa, w jego przypadku kohabitacja będzie ostatecznym stanem. Dla innych z kolei kohabitacja może być stanem przejściowym między opuszczeniem domu rodzinnego i wejścia w związek małżeński. Oczekiwany jest silniejszy efekt ukrytej postawy co do pierwszego przykładu niż kohabitacji jako przejściowego stanu. Podobna argumentacja może zostać podniesiona w przypadku pozostawania w stanie wolnym i bezdzietnym. Również szacowanie wpływu ukrytej postawy na prawdopodobieństwo pozostania w określonym typie sytuacji rodzinnej jest także ważne podobnie jak badanie przejścia. Oszacowany został efekt postawy zmierzony przy pierwszym badaniu (X1) na przynależność do jednej z kategorii sytuacji rodzinnej w drugim badaniu (F), kontrolując profil społeczno-demograficzny respondenta (R). Tablica 19. Wyniki dla zmiennej X1. Latent variable X1: gender role attitudes Emancypatory Middle position Traditional family attitudes beta Column % beta Column % beta Column % 1. Cohabiting or single 1.431 61.8% 0.080 21.9% -1.511 2.7% 2. Married no children -0.428 5.3% 0.114 12.5% 0.314 9.2% 3. Married with children -0.822 12.6% -0.165 33.3% 0.987 63.4% 4 else -0.181 20.3% -0.029 32.3% 0.210 24.7% 1. Stayers 0.031 68.7% 0.036 68.9% -0.068 64.3% 2 incomers -0.031 31.3% -0.036 31.1% 0.068 35.7% Family state Transision state 1. Stayers 1. Cohabiting or single 0.744 79.8% 0.356 30.1% -1.101 0.6% 2. Married no children -0.115 2.9% -0.255 9.3% 0.370 8.3% 3. Married with children -0.710 3.8% 0.092 35.0% 0.618 73.8% 4 else 0.080 13.5% -0.193 25.6% 0.113 17.3% -0.744 36.9% -0.356 15.2% 1.101 11.4% 2. Married no children 0.115 7.5% 0.255 16.0% -0.370 9.0% 3. Married with children 0.710 32.2% -0.092 30.1% -0.618 48.4% 4 else -0.080 23.5% 0.193 38.8% -0.113 31.2% 1. Incomers 1. Cohabiting or single Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables, European Journal of Population 19 vol.2, 2003. Oszacowano efekt sytuacji rodzinnej (F) na ukrytą postawę otrzymaną w drugim badaniu (X2), kontrolując profil społeczno-demograficzny respondenta (R) oraz ukrytą postawę z pierwszego badania (X1) – zatem szacowany jest wpływ sytuacji rodzinnej na zmianę w postawie. (F) jest zmienną łączącą (S – stayers) i (T – transition state). 44 Tablica 20. Wyniki dla zmiennej X2. Latent variable X2: gender role attitudes Emancypatory Middle position Traditional family attitudes beta Column % beta Column % beta Column % 1. Cohabiting or single 0.637 25.2% 0.327 60.3% -0.310 14.4% 2. Married no children -0.232 9.1% -0.045 68.7% 0.277 22.2% 3. Married with children -0.952 3.4% 0.258 70.9% 0.694 25.7% 4 else 0.547 18.2% 0.114 73.9% -0.661 8.0% 1. Stayers 0.415 17.4% -0.015 71.2% -0.40 11.4% 2 incomers -0.415 7.2% 0.015 69.0% 0.40 23.8% Family state Transision state 1. Stayers 1. Cohabiting or single 0.176 34.8% 0.503 42.1% -0.327 23.1% 2. Married no children 1.243 28.9% 0.036 65.4% -1.279 5.7% 3. Married with children -0.349 2.0% 0.222 73.7% 0.127 24.3% 4 else -1.070 5.2% 0.246 79.4% 0.825 15.3% -0.176 16.1% -0.503 76.0% 0.327 7.9% 2. Married no children -1.243 1.8% -0.036 44.5% 1.279 53.7% 3. Married with children 0.349 5.7% -0.222 67.4% -0.127 26.9% 4 else 1.070 46.4% -0.246 50.6% -0.825 3.1% 1. Incomers 1. Cohabiting or single Źródło: G. Moors, Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables, European Journal of Population 19 vol.2, 2003. W ten sposób oszacowano wpływ roli płci na formowanie rodziny, a następnie wpływ sytuacji rodzinnej na zmianę postawy. Potwierdziło się, że stosunek do roli płci ma wpływ na formowanie rodziny i na odwrót. Postawa emancypacyjna powoduje wzrost prawdopodobieństwa kohabitacji młodych kobiet czy formowania jednoosobowych gospodarstw domowych, oraz spadek ich skłonności do macierzyństwa. Naturalnym jest również, że “tradycyjnie zorientowane” kobiety reprezentują odwrotną postawę. Także emancypantki są skłonne w mniejszym stopniu wstępować w związki małżeńskie. Z kolei nowo zamężne kobiety – po pierwszym badaniu również stały się bardziej konserwatywne; bardziej prorodzinna = mniej emancypacyjna. Jednakże między kobietami, które były zamężne podczas pierwszego badania i pozostały bezdzietne, stały się bardziej “wyemancypowane”. Podsumowując, wyniki sugerują, iż wpływ postawy jednostki na formowanie rodziny jest tak samo ważny jak efekt formowania rodziny na zmianę postawy jednostki. • określony wariant zmiennej ukrytej ma wpływ na stan (sytuacja) rodzinny, wyemancypowane kobiety są bardziej skłonne do kohabitacji oraz życia w pojedynkę i mniej skłonne do wstępowania w związek małżeński i/lub posiadania dzieci, 45 • w celu zweryfikowania wpływu roli płci na formowanie rodziny ocenie poddano różnice między tymi kobietami, które zmieniły stan między dwoma badaniami i tymi, które tego nie uczyniły W literaturze polskiej zastosowanie modeli ze zmiennymi ukrytymi jest jeszcze bardzo wąsko opisane i wymaga wielu prac badawczych. Jednocześnie należy stwierdzić iż modele ze zmiennymi ukrytymi dają możliwości analiz zachowań postaw i opinii, które nie są obserwowalne i mierzalne. Mamy nadzieję iż przykład przedstawiony przez nas stanie się inspiracja do dalszych prac w tej dziedzinie w środowisku młodych demografów w Polsce. 12. WYBRANE PROGRAMY KOMPUTEROWE Na zakończenie podajemy informacje o programach komputerowych, które mogą być wykorzystywane w estymacji modeli klas ukrytych. Jednym z programów, który doskonale nadaje się na potrzeby estymacji przykładowych obliczeń z wykorzystaniem opisanych 3ch przypadków zastosowania ukrytych klas jest LATENT GOLD 3.0. Inne programy możliwe do wykorzystania przy estymacji modeli ze zmiennymi ukrytymi to: - PANMARK - LEMWin - MLLSA - GLIMMIX - WINLTA Oraz programy pozwalające na własnoręczne programowanie: - GAUSS - MATLAB - MAPLE V - SPSS (MATRIX-INTERPRETER) - SAS (PROGRAMMER-TOOL) 46 LITERATURA 1. Bartholomew D.J., M. Knott 2002; Latent Variable Models and Factor Analysis, Arnold. 2. Bartkowiak A. 2000; Analiza struktur ukrytych, (22/05/2000) 3. Examples and Tutorials (Latent GOLD® 3.0): additional technical information. (www.statisticalinnovations.com) 4. Forman A.K. 1992; Linear logistic latent class analysis for polytomous data, Journal of the American Statistical Association, 87. 5. Goodman L.A. 1974a; Exploratory latent structure analysis using both identifiable and unidentifiable models, Biometrika, 61. 6. Goodman L.A. 1974b; The analysis of systems of qualitative variables when some of the variables are unobservable. Part I. A modified latent structure approach, American Journal of Sociology, 79. 7. Hagenaars J. 1993; Loglinear Models with Latent Variables, Newbury Park, CA. Sage. 8. Hagenaars J.A, A.L. McCutcheon (red.) 2002; Applied Latent Class Analysis, Cambridge University Press. 9. Hagenaars J.A. 1990; Categorical Longitudinal Data – Loglinear Analysis of Panel, Trend and Cohort Data, Newbury Park, Sage. 10. Heinen T. 1996; Latent Class and Discrete Latent Trait Models: Similarities and Differences, Advanced Quantitative Techniques in the Social Sciences, Sage Publications, Thousand Oaks, CA. 11. Hoberman S.J. 1979; Analysis of Qualitative Data, Voulme 2, New Developments, Academic Press, New York. 12. Latent Class Models, Forthcoming (2003). In D. Kaplan (Ed) Handbook for Quantitative Methodology, Sage. 13. Latent Variable; Local Independence; Latent Class Analysis Lazarfeld P.F., N.W. Henry 1968; Latent Structure Analysis, Boston, Houghton Mill. 15. Moors G. 2003; Estimating the reciprocal effect of gender role attitudes and family formation: a log-linear path model with latent variables, European Journal of Population 19 vol.2. 16. Nawojczyk M. 2002; Przewodnik po statystyce dla socjologów, Kraków SPSS. 47 17. Nontechnical Introduction to Latent Class Models, 2002. Statistical Innovations White Paper #1. 18. Technical Appendix, From the Latent GOLD® manual. 19. Tutorial 1: Using Latent GOLD® 3.0 to estimate LC Cluster Models 20. Tutorial 2: LC Regression with Repeated Measures 21. Tutorial 3: Using Latent GOLD® 3.0 to estimate LC Factor Models 22. Van der Heijden P.G.M., Z. Giulia, L.A. Van der Ark 1999; On a relationship between joint correspondence analysis and latent class analysis, Sociological Methodology, 29. 23. Vermunt J., J. Magidson 2003; artykuły w publikacji Encyclopedia of Social Science Research Methods, Sage Publications: Vermunt J.K. 1997; Log-linear Models for Event Histories, Thousand Oaks, Sage Publications. 48