Modele mieszane z wykorzystaniem języka programowania SAS

Transkrypt

Modele mieszane z wykorzystaniem języka programowania SAS
Modele mieszane z wykorzystaniem
języka programowania SAS
Autor: Paweł Grabowski
Streszczenie
Głównym celem pracy jest analiza modeli mieszanych. Model mieszany łączy w swojej budowie
część stałą (zwaną efektami stałymi) oraz część losową (zwaną efektami losowymi). Istnieją trzy
rodzaje modeli mieszanych: liniowy model mieszany, nieliniowy model mieszany oraz uogólniony
liniowy model mieszany. Modele mieszane stosowane są dla danych sklastrowanych, danych pochodzących z powtórzonych pomiarów oraz danych wzdłużnych. W pracy omawiam szczegółowo
liniowy model mieszany. Przedstawiam definicję czynnika stałego oraz czynnika losowego. Dzięki
wprowadzeniu tych pojęć tłumaczę różnicę między efektami stałymi oraz efektami losowymi w
modelach mieszanych. Co więcej w modelach hierarchicznych (do których zaliczane są modele mieszane) wyróżnia się poziomy danych. W pracy przedstawiam zależność między poziomami danych
a ilością czynników losowych. Opisuję bardzo dokładnie estymację parametrów liniowego modelu
mieszanego (m. in. przedstawiam lemat Rao). Udowadniam kilka ważnych własności dla uogólnionego estymatora najmniejszych kwadratów parametrów efektów stałych (którego postać prezentuję
za pomocą twierdzenia Markowa-Gaussa-Aitkena) oraz najlepszego liniowego nieobciążonego predyktora efektów losowych (np. udowadniam, że uogólniony estymator najmniejszych kwadratów
parametrów efektów stałych jest najlepszym liniowym nieobciążonym estymatorem parametrów
efektów efektów stałych). Wprowadzam pojęcie warunkowego liniowego modelu mieszanego, który
jest wykorzystywany przy estymacji liniowego modelu mieszanego. Przedstawiam procedury dla
każdego z rodzai modeli mieszanych w języku programowania SAS. W pracy została umieszczona
szczegółowa składnia procedury PROC MIXED dla liniowych modeli mieszanych. Badam oraz
analizuję trzy-poziomowy model dla danych sklastrowanych korzystając z liniowego modelu mieszanego. W przykładzie tym jednostki analityczne (Poziom 1) są zagnieżdżone w losowo wybranych
klastrach pierwszego czynnika losowego (Poziom 2), którego klastry są zagnieżdżone w losowo wybranych klastrach drugiego czynnika losowego (Poziom 3). Zapisuję postać modelu, przeprowadzam
estymację w języku programowania SAS oraz analizuję otrzymane rezultaty.
Słowa kluczowe: model mieszany, dane sklastrowane, efekty stałe, efekty losowe, czynnik stały,
czynnik losowy.
1
Abstract
The aim of this thesis is to analyse the mixed models. A mixed model is a model that contains
fixed and random effects. There are three types of mixed models: linear mixed models, nonlinear
mixed models and generalized linear mixed model. Mixed models are used for clustered data,
repeated-measures data and longitudinal data. This work mainly concentrates on the linear mixed models. I introduce the definition of the fixed factor and the random factor. These terms are
helpful to explain the difference between the fixed effects and random effects in mixed models.
Moreover, in hierarchical models (which include mixed models), we distinguish levels of data. I
show the relationship between the level of data and the number of random factors. I use Rao
Lemma to estimate the parameters in the linear mixed model. I prove some properties for the
generalized least-squares estimator of fixed effect (Gauss-Markov-Aitken theorem) and the best
linear unbiased predictor of random effects (for example: I prove that the generalized least-squares
estimator of fixed effect is the best linear unbiased estimator of fixed effects). I introduce the marginal linear mixed model which is used in estimation the parameters in the linear mixed model.
I present different procedures for each type of mixed models in SAS software. The work contains
the syntax of the PROC MIXED procedure for linear mixed models. I study three-level model for
clustered data. In this example, the units of analysis (Level 1) are nested within randomly sampled clusters (Level 2), which are in turn nested within other randomly sampled clusters (Level
3). I write a model for my data, estimate model using SAS software and analyse the received results.
KEYWORDS: mixed model, clustered data, fixed effects, random effects, fixed factor, random
factor.
2
Spis treści
1 Wstęp
5
2 Modele mieszane
7
2.1
Definicja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Czynnik stały oraz czynnik losowy . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3
Efekty stałe i efekty losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.4
Rodzaje danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.5
Poziomy danych sklastrowanych a ilość czynników losowych . . . . . . . . . . . . .
9
2.6
Rodzaje modeli mieszanych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
3 Liniowy model mieszany
10
3.1
Postać modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
3.2
Różne struktury macierzy kowariancji G . . . . . . . . . . . . . . . . . . . . . . . .
13
3.2.1
Niestrukturalna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.2.2
Komponentów wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.3
Różne struktury macierzy kowariancji Ri
. . . . . . . . . . . . . . . . . . . . . . .
14
3.3.1
Komponentów wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.3.2
Symetrii związku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.3.3
Autoregresji I rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.3.4
Toeplitza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.4
Warunkowy liniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.5
Estymacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.5.1
Parametry efektów stałych β . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.5.2
Predyktor efektów losowych b̂ . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.5.3
Lemat Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5.4
Metoda największej wiarygodności (ML) . . . . . . . . . . . . . . . . . . . .
27
3.5.5
Ograniczona metoda największej wiarygodności (REML) . . . . . . . . . .
30
3.6
Model zagnieżdżony . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.7
Badanie istotności parametrów liniowego modelu mieszanego . . . . . . . . . . . .
31
3.7.1
Test wskaźnika wiarygodności (LTR) . . . . . . . . . . . . . . . . . . . . . .
31
3.7.2
T-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.7.3
Test Walda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Kryterium informacyjne Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.8
4 Nieliniowy model mieszany i uogólniony liniowy model mieszany
36
4.1
Nieliniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.2
Uogólniony liniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
5 Program SAS dla liniowych modeli mieszanych
39
5.1
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.2
Procedura PROC MIXED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.3
Zapis modelu dla procedury PROC MIXED . . . . . . . . . . . . . . . . . . . . . .
42
5.3.1
Kod 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5.3.2
Kod 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3
6 Trzy-poziomowe dane sklastrowane dla liniowego modelu mieszanego
45
6.1
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
6.2
Prezentacja danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
6.3
Analiza danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
6.3.1
Statystyki dla zmiennych bez brakujących wartości . . . . . . . . . . . . . .
48
6.3.2
Statystyki dla wszystkich zmiennych . . . . . . . . . . . . . . . . . . . . . .
50
Postać modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
6.4.1
Model główny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.4.2
Model dla poziomu 1 (ucznia) . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.4.3
Model dla poziomu 2 (klas) . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.4.4
6.4
6.5
6.6
Model dla poziomu 3 (szkół) . . . . . . . . . . . . . . . . . . . . . . . . . .
53
Badanie i estymacja modelu głównego . . . . . . . . . . . . . . . . . . . . . . . . .
53
6.5.1
Etap 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
6.5.2
Etap 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
6.5.3
Etap 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
6.5.4
Etap 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
7 Dodatek A
69
7.1
Ogólny model liniowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
7.2
Metody estymacji stopni swobody . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
7.3
Metoda Newtona-Raphsona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
7.3.1
Metoda Newtona-Raphsona - przypadek ogólny . . . . . . . . . . . . . . . .
70
7.3.2
Metoda Newtona-Raphsona - logarytm funkcji wiarygodności . . . . . . . .
71
8 Dodatek B
72
8.1
Spis rysunków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
8.2
Spis tablic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
8.3
Spis skrótów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
8.4
Kod programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Literatura
77
4
1
Wstęp
Modele mieszane łącząc w swojej budowie część stałą (zwaną efektami stałymi) oraz część
losową (zwaną efektami losowymi) umożliwiają zaawansowaną i wielopoziomową analizę danych.
Nazywane są także modelami hierarchicznymi (co stanowi nawiązanie do tego, że modele mieszane
są głównie stosowane dla danych posiadających hierarchiczną strukturę danych) bądź modelami
o efektach mieszanych (co z kolei jest nawiązaniem do tego, że modele mieszane są połączeniem
efektów stałych oraz efektów losowych). Zastosowanie modeli mieszanych można głównie odnaleźć
w badaniach medycznych oraz społecznych (gdzie do badania wybierane są próbki z rozważanej
populacji i na ich podstawie wnioskuje się na temat całej populacji) jak i coraz częściej w badaniach
finansowych.
W mojej pracy (rozdział drugi) przedstawiam ogólną definicję modelu mieszanego. Wyjaśniam
czym są efekty stałe i efekty losowe wprowadzając definicję czynnika stałego oraz czynnika losowego. Podkreślam, że zdefiniowanie efektów stałych i efektów losowych dla modelu mieszanego nie
jest łatwe i wymaga często sporego doświadczenia oraz wiedzy badacza, lecz stanowi podstawę
do poprawnej analizy modelu mieszanego. W rozdziale tym wymieniam rodzaje danych dla jakich
stosowane są modele mieszane. Dla jednego z opisywanych rodzai danych wyjaśniam jak ich poziom wpływa na ilość czynników losowych w modelu. Na końcu tego rozdziału podaję jakie istnieją
rodzaje modeli mieszanych.
Rozdział trzeci opisuje liniowe modele mieszane będące jednym z rodzi modeli mieszanych. Modele te stanowią główny cel i temat moich rozważań w pracy. Na początku tego rozdziału definiuję
postać liniowego modelu mieszanego dla jednego czynnika losowego oraz przedstawiam definicję
tego modelu używając notacji macierzowej. Następnie przedstawiam i opisuję różne struktury macierzy kowariancji związanej z efektami losowymi oraz macierzy kowariancji związanej z błędami w
liniowym modelu mieszanym. W rozdziale tym wprowadzam pojęcie warunkowego liniowego modelu mieszanego. Głównym celem wprowadzenia tego zagadnienia jest to, że estymacja liniowego
modelu mieszanego jest przeprowadzana przy użyciu warunkowego liniowego modelu mieszanego.
Przedstawiam bardzo dokładnie estymację liniowego modelu mieszanego (m.in. prezentuję twierdzenie Gaussa-Markowa-Aitkena oraz Lemat Rao). Przy zagadnieniu estymacji najbardziej korzystam z warsztatu matematycznego. Wprowadzam również zagadnienie modelu zagnieżdżonego oraz
wyjaśniam kiedy taki model jest stosowany. Kończąc rozdział prezentuję hipotezy oraz statystyki
dla rożnych testów badających istotność parametrów liniowego modelu mieszanego.
W rozdziale czwartym przybliżam pokrótce pozostałe rodzaje modeli mieszanych, czyli nieliniowy model mieszany oraz uogólniony liniowy model mieszany.
W rozdziale piątym wymieniam procedury jakie wykorzystywane są do analizy i estymacji
modeli mieszanych w języku programowania SAS. Następnie opisuję składnię procedury PROC
MIXED, która została wprowadzona w programie SAS do estymacji liniowych modeli mieszanych
w 1992 roku w ramach pakietu statystycznego SAS/STAT. Pod koniec rozdziału analizuję zapis i
strukturę liniowego modelu mieszanego na podstawie przykładowych kodów dla procedury PROC
MIXED.
5
W następnym rozdziale (rozdział szósty) rozważam przykład dla trzy-poziomowych danych
sklastrowanych liniowego modelu mieszanego. W przykładzie tym badane są jednostki analityczne
(poziom 1) dla których klastry czynnika losowego (poziom 2) są zagnieżdżone w klastrach innego
czynnika losowego (poziom 3). Na początku przeprowadzam dokładną prezentację i analizę danych.
Następnie dokonuję wyboru modelu oraz zapisuję jego postać. W kolejnym kroku przeprowadzam
rozbudowaną analizę modelu głównego dzieląc ją na cztery etapy. Na każdym etapie analizy wprowadzam nowy model, który zbudowany jest na podstawie modelu głównego. Dla niektórych etapów
buduję i analizuję model zagnieżdżony w celu użycia testu wskaźnika wiarygodności badającego
istotność parametrów liniowego modelu mieszanego. Na końcu rozdziału przedstawiam model uzyskany po przeprowadzonej analizie (nazywając go modelem końcowym), dla którego wyciągam
wnioski oraz prezentuję otrzymane rezultaty w programie SAS.
W mojej pracy często porównuję liniowy model mieszany z ogólnym liniowym modelem, dlatego
w Dodatku A (rozdział siódmy) m. in. przypominam postać ogólnego modelu liniowego.
6
2
2.1
Modele mieszane
Definicja
Definicja 1 (Model mieszany) [1]
Model mieszany jest to model zawierający stałe i losowe efekty.
Definicja 1 jest ogólną definicją modeli mieszanych nawiązującą do ich istoty, czyli połączenia
efektów stałych z efektami losowymi. Zauważmy, że w większości modeli statystycznych rozważamy zazwyczaj tylko efekty stałe. Natomiast w modelach mieszanych wprowadzone zostały jeszcze efekty losowe, które umożliwiają nam zaawansowaną i wielopoziomową analizą danych. Tym
samym, głównym celem modeli mieszanych jest analiza danych na różnych ich poziomach (dlatego
modele te mają często strukturę hierarchiczną i są nazywane również modelami hierarchicznymi).
2.2
Czynnik stały oraz czynnik losowy
Ważnymi pojęciami, które pojawiają się w definicji modelu mieszanego są efekty stałe i efekty
losowe. Aby poprawnie zdefiniować te pojęcia należy najpierw wyjaśnić czym jest czynnik stały
oraz czynnik losowy.
Czynnik stały definiujemy jako zmienną kategoryczną lub zmienną klasyfikacji, która obejmuje
wszystkie klastry będące przedmiotem zainteresowania w danym badaniu. W modelu mieszanym
czynnik stały nazywany jest zmienną objaśniającą (niezależną) o efekcie stałym. Czynnik ten stanowią zmienne objaśniające jakościowe (np. płeć), zmienne klasyfikacji wyznaczone przez plan
losowania próby (np. region) oraz zmienne porządkowe rozważane w danym badaniu (np. grupy
wiekowe). Natomiast czynnik losowy jest zmienną klasyfikacji identyfikującą daną klastrę, która
jest wybierana losowo dla badanej populacji. Warto podkreślić zatem, że zbiór danych służący do
estymacji modelu mieszanego zawiera tylko wybrane klastry dla danego czynnika losowego. Celem
badacza jest jednak, aby na podstawie wybranych klastr czynnika losowego wnioskować o całej
populacji. W modelu mieszany, czynnik losowy jest opisywany przez zmienne objaśniające (niezależne) o efektach losowych.
Przykład 1
Można powiedzieć, że płeć jest czynnikiem stałym, ponieważ znamy wszystkie wartości tej zmiennej
(mężczyzna lub kobieta), a wartości te są niezależne od siebie (wzajemnie się wykluczają) i (zazwyczaj) nie zmieniają się.
Zmienna taka jak klasa szkoły średniej jest czynnikiem losowym, ponieważ może tylko wnioskować na ’próbce’ klas oraz co więcej, uczniowie mogą zmieniać klasy każdego roku.
Przykład 1 prezentuje zmienne jakie mogą być uznane za czynnik stały oraz za czynnik losowy
w przykładowym badaniu. Zauważmy, że pojęcie czynnika stałego oraz losowego nie jest łatwe.
Warto podkreślić, że jeżeli daną zmienną przyjmiemy jako czynnik stały to nie oznacza, że w innym
badaniu zmienna ta będzie również czynnikiem stałym. Poprawne odróżnienie czynnika stałego od
7
czynnika losowego stanowi podstawę do budowania modelu mieszanego i wymaga często sporego
doświadczenia oraz wiedzy badacza.
2.3
Efekty stałe i efekty losowe
Po wprowadzeni pojęć czynnika stałego oraz czynnika losowego można przejść do zdefiniowania
efektów stałych i efektów losowych.
Efekty stałe (nazywane również nieznanymi parametrami efektów stałych) opisują zależności pomiędzy zmienną objaśnianą, a czynnikami stałymi (zmienne objaśniające o efektach stałych) dla
całej populacji rozważanej jednostki analitycznej.
Gdy klastra danego czynnika została wybrana jako ’próbka’ z rozpatrywanej przestrzeni próbkowej (na przykład: klasy czy kliniki są losowo wybrane z większej populacji klas czy klinik) to
efekty związane z klastrą tego czynnika nazywane są efektami losowymi. Zazwyczaj efekty losowe
stanowią losowe odchylenie od związków opisywanych przez efekty stałe. W przeciwieństwie do
efektów stałych, które są reprezentowane przez nieznane stałe parametry, losowe efekty są reprezentowane przez nieznane zmienne losowe, o których zwykle zakłada się, że mają rozkład normalny.
Zwróćmy uwagę, że podczas gdy parametry efektów stałych opisują relacje zmiennych objaśniających o efektach stałych do zmiennej objaśnianej dla całej populacji, to efekty losowe znajdują
zastosowanie dla klastr będących wewnątrz populacji. Czyli efekty stałe dla danego modelu będą
takie same na każdym poziomie rozważanych danych, natomiast efekty losowe będą odnosiły się
do analizy między poziomami danych.
Powyższe zdania w bardzo prosty sposób obrazuje nam to co zaznaczyłem na wstępie mojej pracy,
czyli, że to właśnie wprowadzenie efektów losowych umożliwia wielopoziomową analizę danych.
2.4
Rodzaje danych
Modele mieszane używana są dla:
• danych sklastrowanych (zgrupowanych)
Dane sklastrowane definiujemy jako zbiór danych, w którym zmienna objaśniana jest mierzona jednokrotnie dla każdej jednostki analitycznej (np. pacjenta), a jednostki analityczne są pogrupowane
lub zagnieżdżone w klastry (np. pacjenci według lekarza prowadzącego).
• danych pochodzących z powtórzonych pomiarów
Dane z powtórzonych pomiarów są zbiorami danych, dla których zmienna objaśniana jest mierzona
kilkakrotnie (więcej niż raz) dla każdej jednostki analitycznej (dla której prowadzone jest badanie).
Dane te nie muszą być rozmieszczone w czasie.
• danych wzdłużnych
Przez dane wzdłużne rozumiemy zbiory danych, dla których zmienna objaśniana jest mierzona w
kilku punktach czasowych dla każdej jednostki analitycznej (często w ciągu dość długiego okresu).
8
Wszystkie zaprezentowane rodzaje danych mogą być wykorzystywane dla modeli opierających
się na strukturze hierarchicznej (czyli m. in. modele mieszane). Dane posiadające taką strukturę
są głownie wykorzystywane w badaniach medycznych oraz społecznych. Warto podkreślić jednak,
że coraz częściej dane te (szczególnie wzdłużne) są wykorzystywane w modelowaniu finansowym.
Zwróćmy również uwagę, że głównym czynnikiem rozróżniającym dane pochodzące z powtórzonych
pomiarów od danych wzdłużnych jest czas, a dokładniej mówiąc ’umieszczenie’ danych w czasie.
W danych z powtórzonych pomiarów nie jest wymagany schemat czasowy dla kolejnego pomiaru
(nie interesuje badacza odstęp czasowy między pomiarami), natomiast dla danych wzdłużnych
przyjmuje się, że dla kolejnego pomiaru zapisywany jest odstęp czasowy od poprzedniego.
2.5
Poziomy danych sklastrowanych a ilość czynników losowych
Dla danych sklastrowanych modeli mieszanych wyróżnia się poziomy danych oraz można zauważyć pewną własność odnoszącą się do ilość czynników losowych w zależności od poziomu danych
sklastrowanych.
Tablica 1: Przykład trzy-poziomowych danych sklastrowanych dla dwóch wybranych dziedzin badań. Opracowane na podstawie literatury [1].
Dziedzina badań
Poziom danych
Edukacja
Medycyna
Poziom 3
Szkoła
Klinika
wielkość szkoły,
liczba doktorów
poziom ubóstwa
zatrudnionych w klinice,
sąsiedztwa wokół
rodzaj kliniki
szkoły
(publiczna lub prywatna)
Klasa
Doktor
Klastra II (klastra klastry I)
(czynnik losowy)
Zmienne objaśniające
Poziom 2
Klastra I (klastra jednostki
analitycznej)
(czynnik losowy)
Zmienne objaśniające
wielkość klasy,
specjalizacja,
lata doświadczenia
lata doświadczenia
nauczyciela
Poziom 1
Jednostka analityczna
Uczeń
Pacjent
Zmienna objaśniana
wynik testu
ciśnienie krwi
Zmienna objaśniająca
płeć, wiek
wiek, nasilenie choroby
Tablica 1 przedstawia trzy-poziomowe dane sklastrowane dla dwóch wybranych dziedzin badań.
Poziom 1 definiuje jednostkę analityczną w rozpatrywanym badaniu oraz określa dla niej zmienną
objaśnianą i zmienne objaśniające. Na podstawie samego poziomu 1 można by było budować ogólny
model statystyczny oparty tylko na efektach stałych (np. ogólny model liniowy). Na poziomie 2
pojawia się pierwszy czynnik losowy (czynnik losowy nr 1) oraz zmienne objaśniające dla klastr
9
tego czynnika losowego. Na poziomie 3 uzyskujemy kolejny czynnik losowy (czynnik losowy nr 2)
oraz zmienne objaśniające dla kastr czynnika losowego nr 2. Co więcej, klastry czynnika losowego
nr 1 są zagnieżdżone w klastrach czynnika losowego nr 2 (np. klasy są zagnieżdżone w szkołach).
Na podstawie Tablicy 1 można łatwo wnioskować, że poziom danych ma istotny wpływ na ilość
czynników losowych w badaniu. Zauważmy, że jeżeli rozpatrywane dane mają n poziomów to tym
samym oznacza, że posiadają n − 1 czynników losowych.
2.6
Rodzaje modeli mieszanych
Wyróżniamy trzy rodzaje modeli mieszanych:
• liniowy model mieszany
• nieliniowy model mieszany
• uogólniony liniowy model mieszany.
W praktyce najczęściej spotyka się (a zatem najczęściej jest wykorzystywany) liniowy model mieszany. Dlatego w mojej pracy chciałbym się głównie skupić na liniowym modelu mieszanym. Rysunek 1 przedstawie graficzny podział modeli mieszanych.
Rysunek 1: Rodzaje modeli mieszanych.
3
Liniowy model mieszany
3.1
Postać modelu
Liniowy model mieszany jest uogólnieniem ogólnego modelu liniowego.
Definicja 2 (Liniowy model mieszany) [3]
Postać liniowego modelu mieszanego (dla jednego czynnika losowego) można zapisać jako
yij = x1ij β1 + ... + xpij βp + z1ij bi1 + ... + zqij biq + ij dla j = 1, 2, ... , ni
i = 1, 2, ... , m
(1)
gdzie:
yij - zmienna objaśniana dla j-tej z ni obserwacji (jednostek analitycznych) znajdującej się w i-tej
klastrze (grupie)
β1 , ... , βp - nieznane parametry efektów stałych, które są identyczne dla wszystkich klastr
x1ij , ... , xpij - p zmiennych objaśniających o efektach stałych dla j-tej obserwacji w i -tej klastrze
bi1 , ... , biq - nieznane zmienne losowe efektów losowych dla i-tej klastry
z1ij , ... , zqij - q zmiennych objaśniających o efektach losowych dla j-tej obserwacji w i-tej klastrze
10
ij - błąd dla j-tej obserwacji w i-tej klastrze
m - liczba klastr czynnika losowego
ni - liczba obserwacji w i-tej klastrze czynnika losowego.
Postać liniowego modelu mieszanego jest rozszerzeniem postaci ogólnego liniowego modelu o efekty
losowe. Zwróćmy uwagę, że wzór (1) jest zdefiniowany dla jednego czynnika losowego. W przypadku
większej ilości czynników losowych postać modelu byłaby jeszcze bardziej obszerna.
Co więcej, na poziomie klastr możemy użyć notacji macierzowej do zdefiniowania modelu [3]
Yi = Xi β + Zi bi + i
gdzie:
Yi - wektor

zmiennych objaśnianych w i-tej klastrze, wymiaru ni × 1
Y1i


 Y2i 

Yi = 
 ... 


Yni i
β - wektor nieznanych p parametrów efektów stałych, wymiaru p×1 (identyczny dla każdej klastry)
 
β1
 
 β2 

β=
 ... 
 
βp
Xi - macierz
zmiennych objaśniających
o efektach stałych dla i-tej klastry, wymiaru ni × p


X1i1 X2i1 ... Xpi1


 X1i2 X2i2 ... Xpi2 

Xi = 
 ...
...
...
... 


X1ini X2ini ... Xpini
Jeżeli model zawiera wyraz wolny to pierwsza kolumna musi być równa 1 dla wszystkich obserwacji.
bi - wektor
  nieznanych q zmiennych losowych efektów losowych dla i-tej klastry, wymiaru q × 1
b1i
 
b2i 

bi = 
 ... 
 
bqi
Zi - macierz
zmiennych objaśniających
o efektach losowych dla i-tej klastry, wymiaru ni × q


Z1i1 Z2i1 ... Zqi1


 Z1i2 Z2i2 ... Zqi2 


Zi = 
...
...
... 
 ...

Z1ini Z2ini ... Zqini
i - wektor

 błędów dla obserwacji w i-tej klastrze, wymiaru ni × 1
1i


 2i 


i = 

 ... 
ni i
11
bi ∼ N (0, G)
gdzie:
G - symetryczna i dodatnio określona macierz kowariancji (zwana również macierzą wariancji kowariancji) dla efektów losowych, wymiaru q × q


V ar(b1i )
cov(b1i , b2i ) ... cov(b1i , bqi )


cov(b1i , b2i )
V ar(b2i )
... cov(b2i , bqi )

.
G = V ar(bi ) = 

...
...
...
...


cov(b1i , bqi ) cov(b1i , bqi ) ...
V ar(bqi )
Elementy (wariancje i kowariancje) macierzy G są zdefiniowane jako funkcje parametrów kowariancji zapisanych w wektorze oznaczonym przez θG . Różne struktury macierzy G zostały omówione
w rozdziale 3.2.
i ∼ N (0, Ri )
gdzie:
Ri - symetryczna i dodatnio określona macierz kowariancji (zwana również macierzą wariancji kowariancji) dla błędów w i-tej klastrze, wymiaru ni × ni


V ar(1i )
cov(1i , 2i ) ... cov(1i , ni i )


 cov(1i , 2i )
V ar(2i )
... cov(2i , ni i )
.
Ri = V ar(i ) = 


...
...
...
...


cov(1i , ni i ) cov(1i , ni i ) ...
V ar(ni i )
Elementy (wariancje i kowariancje) macierzy Ri są zdefiniowane jako funkcje parametrów kowariancji zapisanych w wektorze oznaczonym przez θR . Różne struktury macierzy Ri zostały omówione
w rozdziale 3.3.
Uwaga 1
Zauważmy, że w liniowym modelu mieszanym przyjmuje się, że błędy i efekty losowe mają rozkład
normalny oraz ich kowariancja jest równa zero. Zatem można powiedzieć, że są niezależne, a tym
samym nieskorelowane, co z kolei można zapisać jako
0
0
0
0
cov(bi , i ) = E((bi − E(bi ))(i − E(i )) ) = E((bi − 0)(i − 0) ) = E(bi i ) = E(bi )E(i ) = 0.
W przypadku gdy sam czynnik losowy stanowi jedyną zmienną o efektach losowych dla i-tych klastr
(tego czynnika) to wówczas przyjmuje się, że macierz Zi jest macierzą złożoną z jednej kolumny,
której elementem jest jedynka dla i-tej klastry. W takim przypadku badana jest losowość wynikająca tylko ze zmiany klastr dla danego czynnika losowego. Sytuacja taka (czyli w której tylko
wyraz wolny reprezentuje i-te klastry dla danego czynnika losowego) jest dosyć często spotykana
oraz stosowana w liniowych modelach mieszanych.
12
Uwaga 2
Przy powyższych założeniach zmienna objaśniana (zależna) Yi ma rozkład normalny
Yi ∼ N (Xi β, Zi GZi0 + Ri ).
oraz
cov(Yi , bi ) = Zi G
cov(Yi , i ) = Ri .
Dowód.
E(Yi ) = E(Xi β + Zi bi + i ) = E(Xi β) + E(Zi bi ) + E(i ) = Xi β + 0 + 0 = Xi β
V ar(Yi ) = V ar(Xi β + Zi bi + i ) = V ar(Xi β) + V ar(Zi bi ) + V ar(i ) = 0 + Zi V ar(bi )Zi0 + V ar(i ) =
Zi GZi0 + Ri
cov(Yi , bi ) = cov(Xi β + Zi bi + i , bi ) = cov(Xi β, bi ) + Zi cov(bi , bi ) + cov(i , bi ) = 0 + Zi G + 0 = Zi G
cov(Yi , i ) = cov(Xi β + Zi bi + i , i ) = cov(Xi β, i ) + cov(Zi bi , i ) + cov(i , i ) = 0 + 0 + Ri = Ri 3.2
Różne struktury macierzy kowariancji G
3.2.1
Niestrukturalna
Macierz kowariancji G bez dodatkowych ograniczeń na wartości jej elementów (oprócz dodatniej
określoności oraz symetrii) jest definiowana jako niestrukturalna macierz G. Taka struktura jest
często używana do modeli o współczynnikach losowych. Symetria w q × q wymiarowej macierzy G
implikuje, że wektor θG ma
q(q+1)
2
parametrów.
Poniższa macierz przedstawia przykład niestrukturalnej macierzy kowariancji G w liniowym modelu mieszanym posiadający dwa efekty losowe w i-tej klastrze. Przyjmujemy, że macierz G jest
identyczna dla każdej klastry.
"
G = V ar(bi ) =
2
σb1
σb1,b2
σb1,b2
2
σb2
#
.
W tym przypadku wektor θG zawiera trzy parametry

2
σb1




θG = 
σb1,b2 .
2
σb2
3.2.2
Komponentów wariancji
Dość powszechną strukturą macierzy kowariancji G jest również struktura komponentów wariancji
(zwana diagonalną), w której przyjmuje się, że każdy efekt losowy w i-tej klastrze (czyli bi ) posiada
własną wariancję oraz, że wszystkie kowariancje w macierzy G są równe zero. Zatem wektor θG
będzie zawierał q parametrów będącymi wariancjami (które znajdują się na przekątnej macierzy
G).
13
Poniższa macierz przedstawia przykład macierzy kowariancji G o strukturze komponentów wariancji w liniowym modelu mieszanym posiadający dwa efekty losowe w i-tej klastrze. Przyjmujemy,
że macierz G jest identyczna dla każdej klastry.
G = V ar(bi ) =
"
2
σb1
0
0
#
2
σb2
.
Wektor θG dla rozważanego przypadku zawiera dwa parametry
θG =
" #
2
σb1
2
σb2
.
Uwaga 3
Struktura komponentów wariancji i niestrukturalna macierz G są najbardziej powszechnymi i najczęściej używanymi strukturami macierzy kowariancji G. Sporą ich zaletą jest to, że są dostępne w
większości języków programowania (np. R, SAS).
3.3
Różne struktury macierzy kowariancji Ri
Przedstawione teraz zostaną wybrane struktury macierzy kowariancji Ri . Najczęstszym przypadkiem w liniowych modelach mieszanych jest założenie, że macierz kowariancji Ri = R dla wszystkich
klastr w rozważanym modelu.
3.3.1
Komponentów wariancji
Najprostszą postacią macierzy kowariancji Ri jest struktura komponentów wariancji (struktura
diagonalna), w której zakłada się, że błędy powiązane z obserwacjami na i-tej klastrze są nieskorelowane i posiadają równe wariancje.
Diagonalna macierz Ri dla i-tej klastry przyjmuje postać

σ2

0
Ri = V ar(i ) = σ 2 I = 
 ...

0
0
...
σ2
...
...
0
0


0
.
... ... 

2
... σ
Diagonala postać macierzy i stała wariancja powodują, że wektor θR zawiera tylko jeden parametr
h i
θR = σ 2 .
3.3.2
Symetrii związku
Struktura symetrii związku jest często używaną strukturą dla macierzy Ri .
14
Macierz Ri dla i-tej klastry przyjmuje postać

σ 2 + σ1

 σ1
Ri = V ar(i ) = 
 ...

σ1
σ1
...
σ1

σ 2 + σ1
...
σ1
...
...


.


σ1
...
...
2
σ + σ1
Wektor θR zawiera dwa parametry będące wariancjami i kowariancjami macierzy Ri
" #
σ2
θR =
.
σ1
Zwróćmy uwagę, że w strukturze symetrii związku (macierzy kowariancji Ri ) zakładamy, że ni
błędów powiązanych z zaobserwowanymi wartościami dla i-tej klastry czynnika losowego ma stałą
kowariancję σ1 oraz stałą wariancję σ 2 + σ1 . Struktura ta jest często stosowana przy założeniu
równych korelacji błędów (np. w badaniu, w którym dane z powtórzonych pomiarów są mierzone
w tych samych warunkach).
3.3.3
Autoregresji I rzędu
Struktura autoregresji I rzędu (oznaczana przez AR(1)) jest kolejną chętnie stosowaną strukturą
macierzy kowariancji Ri .
Ogólna postać macierzy Ri dla rozpatrywanej struktury jest następująca

σ2

 σ2 ρ
Ri = V ar(i ) = 
 ...

σ 2 ρni −1
σ 2 ρni −1

σ2 ρ
...
σ2

σ 2 ρni −2 
.
...
... 

...
σ2
...
σ 2 ρni −2
...
Wektor θR posiada tylko dwa parametry (parametr wariancji σ 2 oraz parametr korelacji ρ)
"
θR =
σ2
ρ
#
.
Zauważmy, że σ 2 musi być dodatnia, natomiast ρ przyjmuje wartości między -1 a 1. W strukturze AR(1) przyjmuje się, że wariancja błędów jest stała oraz kowariancja błędów obserwacji
oddalonych w jednostek od siebie jest równa σ 2 ρw . Oznacza to, że wszystkie sąsiednie błędy (czyli
błędy powiązane z obserwacjami będącymi obok siebie w sekwencji wzdłużnej dla danego badania)
mają kowariancje σ 2 ρ, natomiast błędy obserwacji oddalonych dwoma jednostkami od siebie (w
sekwencji wzdłużnej) mają kowariancję σ 2 ρ2 i tak dalej.
Struktura autoregresji I rzędu macierzy kowariancji Ri jest stosowana głównie dla danych wzdłużnych, dla których badanie przyjmuje jednakową jednostkę czasu kolejnych pomiarów dla badanych
jednostek analitycznych.
15
3.3.4
Toeplitza
Kolejną strukturą macierzy kowariancji Ri jest struktura Toeplitza, która dopuszcza większą elastyczność w korelacjach, lecz kosztem wykorzystania większej liczby parametrów w wektorze θR .
Poniżej znajduje się przykład macierzy kowariancji Ri o strukturze Toeplitza w liniowym modelu mieszanym posiadającym trzy efekty losowe w i-tej klastrze.

σ2

 σ1
Ri = V ar(i ) = 
σ
 2
σ3

σ1
σ2
σ3
σ2
σ1
σ1
σ2
σ2
σ1

σ2 
.
σ1 

σ2
Wektor θR zawiera cztery parametry
 
σ2
 
 σ1 

θR = 
σ .
 2
σ3
3.4
Warunkowy liniowy model mieszany
Definicja 3 (Warunkowy liniowy model mieszany) [1]
Niech Vi będzie macierzą wariancji-kowariancji (wymiaru ni × ni ) definiowaną jako Vi = Zi GZi0 +
Ri . Wówczas warunkowy liniowy model mieszany jest postaci
Yi = Xi β + ∗i
gdzie:
∗i ∼ N (0, Vi )
Yi ∼ N (Xi β, Zi GZi0 + Ri ).
Uwaga 4
Warunkowemu liniowemu modelowi mieszanemu odpowiadają te same parametry kowariancji θG
oraz θR .
Model ten stanowi istotne zagadnienie w analizie liniowego modelu mieszanego. Przy jego pomocy przeprowadza się estymację parametrów efektów stałych i kowariancji w liniowym modelu
mieszanym. Korzystając z warunkowego liniowego modelu mieszanego jesteśmy również w stanie
przeprowadzić analizę modelu dla ujemnie określonej macierzy G. Warto jednak zaznaczyć, że
często (mimo swojej znaczącej roli) warunkowy liniowy model mieszany jest bardzo ogólnie przedstawiany bądź nawet pomijany w literaturach na temat modeli mieszanych.
Najistotniejsze różnice między liniowym modelem mieszanym a warunkowym liniowym modelem
mieszanym:
• W liniowym modelu mieszanym nałożonych jest więcej ograniczeń dla parametrów kowariancji niż w warunkowym liniowym modelu mieszanym. Przykład: elementy na przekątnej
16
(czyli wariancje) w macierzy G i Ri muszą być dodatnie w liniowym modelu mieszanym. W
przypadku warunkowego liniowego modelu mieszanego nie jest to wymagane.
• W liniowym modelu mieszanym macierze G i Ri muszą być dodatnio określone, natomiast w
warunkowym liniowym modelu mieszanym wymaga się tylko, żeby macierz Vi była dodatnio
określona.
Definicja 4 (Zakres macierzy (ang. range of matrix))[15]
Niech A będzie macierzą wymiaru m×n (czyli A ∈ Rm×n ). Przez R(A) oznaczamy zakres macierzy
A, czyli podprzestrzeń przestrzeni Rm rozpiętą przez kolumny macierzy A, co można zapisać jako
R(A) = {z : z = Ax =
Pn
i=1
a(i) xi ,
x ∈ Rn } ⊂ Rm
gdzie:
x = (x1 ... xn )
A = [a(1) ... a(n) ]
a(1) , ... , a(n) - kolumny macierzy A.
Własności:
(a) R(A) ⊂ R(B) ⇒ A = BC dla pewnej macierzy C
(b) R(AA0 ) = R(A) gdzie A0 jest transpozycją macierzy A
(c) R(AB) ⊆ R(A) dla dowolnej macierzy A oraz B
(d) Dla A ­ 0 i dla dowolnej B, R(BAB 0 ) = R(BA).
Definicja 5 (Uogólniona odwrotność)[15]
Niech A będzie macierzą wymiaru m × n. Macierz A− (wymiaru n × m) jest nazywana uogólnioną
odwrotnością macierzy A jeśli zachodzi
AA− A = A.
Twierdzenie 1 [15]
Uogólniona odwrotność zawsze istnieje.
Definicja 6 (Macierz idempotentna)[15]
Kwadratową macierz A nazywamy idempotentną jeśli zachodzi
A2 = AA = A.
Twierdzenie 2 [15]
Dla każdej macierzy A (m × n) oraz uogólnionej odwrotności A− (n × m) otrzymujemy, że:
(a) A− A i AA− są idempotentne
(b) rz(A) = rz(AA− ) = rz(A− A) gdzie rz(A) jest rzędem macierzy A
(c) rz(A) ¬ rz(A− ).
Dowód.
(a) korzystając definicji uogólnionej odwrotności otrzymujemy
(A− A)(A− A) = A− (AA− A) = A− A
oraz
(AA− )(AA− ) = (AA− A)A− = AA−
17
(b) korzystając z własności rzędu macierzy i definicji uogólnionej odwrotności otrzymujemy:
rz(A) = rz(AA− A) ¬ rz(A− A) ¬ rz(A), zatem rz(A− A) = rz(A)
rz(A) = rz(AA− A) ¬ rz(AA− ) ¬ rz(A), zatem rz(AA− ) = rz(A)
(c) rz(A) = rz(AA− A) ¬ rz(AA− ) ¬ rz(A− )
Dla macierzy wariancji-kowariancji Vi zostanie teraz zaprezentowane kilka własności (Uwaga 5).
Uwaga 5 [15]
0
Niech rz(Ri ) = z ¬ ni , rz(Zi ) = r ¬ q, Vi = Zi GZi + Ri , R(Ri ) ⊂ R(Vi ) oraz R(Zi ) ⊂ R(Vi ).
Wówczas:
0
0
0
0
(a) Zi (Zi Vi− Zi )− Zi Vi Zi = Zi
0
(b) Zi (Zi Vi− Zi )− Zi Vi− Vi Mi = 0 jeżeli Xi Mi = 0
0
0
(c) tr(Vi− Vi − Zi (Zi Vi− Zi )− Zi ) = rz(Ri : Zi ) − rz(Zi ) gdzie tr(A) jest śladem macierzy A.
3.5
Estymacja
W liniowych modelach mieszanych estymowane są parametry efektów stałych β oraz parametry
kowariancji θG i θR odpowiednio dla macierzy G oraz Ri .
Zauważmy, że to co odróżnia liniowy model mieszany od ogólnego modelu liniowego (przypomnienie postaci ogólnego modelu liniowego znajduje się w rozdziale 7.1) to parametry kowariancji. W
ogólnym modelu liniowym estymowane są tylko parametry efektów stałych, ponieważ zakładamy
w tym modelu, że wszystkie obserwacje są niezależne.
W liniowych modelach mieszanych estymowane są dodatkowo jeszcze parametry kowariancji z
następujących powodów:
• jednostki analityczne dla których dane są mierzone, mogą być sklastrowane, a dane pochodzące ze wspólnej klastry mogą być skorelowane
• pomiary są powtarzane dla tych samych jednostek analitycznych, a więc dane z powtórzonych
pomiarów są skorelowane
Pierwszy przypadek dotyczy danych, dla których klastry danego czynnika losowego są zagnieżdżone
w klastrach innego czynnika losowego.
3.5.1
Parametry efektów stałych β
Twierdzenie 3 przedstawia wzór estymatora parametrów efektów stałych dla liniowego modelu
mieszanego przyjmując, że rozważany model posiada jedna klastrę.
Twierdzenie 3 (Gauss-Markow-Aitken)[15]
Niech macierze kowariancji G oraz R będą znane, V = ZGZ 0 + R oraz Y = Xβ + ∗ gdzie ∗ ∼
N (0, V ). Wówczas uogólniony estymator najmniejszych kwadratów parametrów efektów stałych β
jest dany wzorem
0
0
β̂ = (X V −1 X)−1 X V −1 y
18
(2)
i jest nieobciążonym estymatorem β oraz jego wariancja jest równa
0
V ar(β̂) = (X V −1 X)−1 .
(3)
Dowód.
(a) Najpierw zostanie udowodniony wzór (2).
Dowód odnosi się do ogólnego modelu liniowego, którego postać znajduję się w rozdziale 7.1.
Wiemy, że dla ogólnego modelu liniowego estymator efektów stałych wyznaczony metodą naj0
0
mniejszych kwadratów jest dany wzorem β̂ = (X X)−1 X y. Do estymacji efektów stałych liniowego modelu mieszanego będziemy korzystać z postaci warunkowego liniowego modelu mieszanego
dla jednej klastry, czyli
Y = Xβ + ∗
(4)
gdzie:
∗ ∼ N (0, V )
V = ZGZ 0 + R
Y ∼ N (Xβ, V ).
Ponieważ V jest symetryczna i dodatnio określona (co wynika z symetryczności i dodatniej określoności macierzy G oraz R) to V −1 jest również symetryczna i dodatnio określona. Zatem istnieje
macierz M oraz N taka, że (rozkład Choleskiego)
V = M 0M
V −1 = N 0 N .
oraz
Mnożąc lewostronnie przez N warunkowy liniowy model mieszany (4) oraz przyjmując, że Y = y
otrzymujemy
N y = N Xβ + N ∗ .
Niech
N y = ỹ
N ∗ = ˜
N X = X̃
zauważmy, że
E(˜
) = E(N ∗ ) = 0
V ar(˜
) = V ar(N ∗ ) = N V ar(∗ )N 0 = N V N 0 = N (N 0 N )−1 N =
N N −1 (N 0 )−1 N 0 = Irz(V ) = Ini .
Czyli model ỹ = X̃β + ˜ spełnia założenia Gaussa-Markowa o składniku losowym metody najmniejszym kwadratów. Zatem możemy skorzystać z postaci estymatora efektów stałych ogólnego
modelu liniowego dla modelu ỹ = X̃β + ˜. Wówczas uogólniony estymator najmniejszych kwadratów parametrów efektów stałych β̂ dla warunkowego liniowego modelu mieszanego można zapisać
jako
0
0
0
0
0
0
β̂ = (X̃ 0 X̃)−1 X̃ 0 ỹ = (X N N X)−1 X N N y = (X V −1 X)−1 X V −1 y.
Wprowadzając i klastr do modelu (4) otrzymujemy, że
P 0
P 0
β̂ = ( i Xi Vi−1 Xi )−1 i Xi Vi−1 yi .
19
(5)
(b) Pokazane teraz zostanie, że estymator β̂ = (
0
P
i
Xi Vi−1 Xi )−1
P
i
0
Xi Vi−1 yi jest estymatorem
nieobciążonym.
0
0
0
0
0
0
E(β̂) = E((X V −1 X)−1 X V −1 y) = (X V −1 X)−1 X V −1 E(y) = (X V −1 X)−1 X V −1 Xβ = β.
0
(c) Udowodnimy teraz, że V ar(β̂) = (X V −1 X)−1 .
0
0
0
0
0
V ar(β̂) = V ar((X V −1 X)−1 X V −1 y) = (X V −1 X)−1 X V −1 V ar(y)V −1 X(X V −1 X)−1 =
0
0
0
0
0
0
0
= (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1 = (X V −1 X)−1 X V −1 X(X V −1 X)−1 = (X V −1 X)−1 .
Wprowadzając i klastr do warunkowego liniowego modelu mieszanego (4) otrzymujemy, że
P 0
V ar(β̂) = ( i Xi Vi−1 Xi )−1 .
(6)
Definicja 7 (Najlepszy liniowy nieobciążony estymator)[15]
Najlepszy liniowy nieobciążony estymator (NLNE) parametrów β odnoszących się do danych y:
(a) jest liniową funkcją y, czyli β̂ = Ay dla pewnej macierzy A
(b) jest nieobciążony, czyli E(Ay) = β
(c) posiada minimalną wariancje (pośród wszystkich nieobciążonych liniowych estymatorów).
Twierdzenie 4 [15]
0
0
Uogólniony estymator najmniejszych kwadratów β̂ = (X V −1 X)−1 X V −1 y jest NLNE.
Dowód.
Niech d będzie kolejnym liniowym i nieobciążonym estymatorem parametrów efektów stałych β
takim, że
d = C̃y
gdzie:
C̃ = Ĉ + A
0
0
Ĉ = (X V −1 X)−1 X V −1 .
Z nieobciążoności otrzymujemy, że
E(C̃y) = C̃Xβ = β ⇒ AX = 0.
Następnie wyliczamy wariancję d
0
0
0
0
V ar(d) = V ar(C̃y) = C̃V ar(y)C̃ = (Ĉ + A)V (Ĉ + A) = ĈV Ĉ + AV A =
0
0
0
0
0
0
= (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1 + AV A = (X V −1 X)−1 + AV A = V ar(β̂) + AV A
i otrzymujemy, że
0
V ar(d) − V ar(β̂) = AV A .
20
0
0
Jeśli macierz A = 0 to wariancję są równe. Gdy A > 0 to macierz AV A jest dodatnio określona.
Zatem istnieje minimalna wariancja.
Definicja 8 przedstawia alternatywną formę zapisy estymatora parametrów efektów stałych liniowego modelu mieszanego.
Definicja 8 [15]
Jeżeli Y = Xβ + ∗ gdzie ∗i ∼ N (0, V ) to wówczas estymator parametrów efektów stałych β
jest dany wzorem
β̂ = argmin(y − Xβ)0 V −1 (y − Xβ)
β
którego jednoznaczne rozwiązanie jest postaci
0
0
β̂ = (X V −1 X)−1 X V −1 y.
3.5.2
Predyktor efektów losowych b̂
Gdy macierze Ri i G są znane to istnieje najlepszy liniowy nieobciążony predytor dla efektów
losowych liniowego modelu mieszanego o czym mówi twierdzenie 5 przyjmując, że model mieszany
zawiera jedną klastrę.
Twierdzenie 5 [15]
Niech macierz kowariancji R oraz G będzie znana. Wówczas warunkowa wartość oczekiwana efektów losowych po zaobserwowanych danych (nazywana najlepszym liniowym nieobciążonym predytorem (NLNP) efektów losowych) dana jest wzorem
0
b̂ = GZ V −1 (y − X β̂).
Dowód.
Najlepszy liniowy nieobciążony predyktor (NLNP) jest warunkową wartością oczekiwaną efektów
losowych po zaobserwowanych danych, zatem
E(b|Y = y) = E(b) +
cov(b,y)
var(y) (y
− E(y)) = 0 +
GZ
V
0
0
(y − Xβ) = GZ V −1 (y − Xβ)
ostatecznie
0
b̂ = GZ V −1 (y − X β̂).
Wprowadzając i klastr do liniowego modelu mieszanego otrzymujemy, że
P
0
bˆi = i GZi Vi−1 (yi − Xi β̂).
21
Uwaga 6
0
0
0
V ar(b̂) = GZ (V −1 − V −1 X(X V −1 X)−1 X V −1 )ZG
Dowód.
0
0
Niech P = X(X V −1 X)−1 X V −1 , wówczas y − X β̂ można zapisać jako
0
0
y − X β̂ = y − X(X V −1 X)−1 X V −1 y = (I − P )y.
Wówczas
0
0
0
0
V ar(y − X β̂) = (I − P )V ar(y)(I − P ) = (I − P )V (I − P ) = V − P V − V P + P V P .
Następnie wyliczamy
0
0
V ar(b̂) = GZ V −1 V ar(y − X β̂)V −1 ZG = |G = G , ponieważ macierz kowariancji G jest sy0
0
0
metryczna i dodatnio określona| = GZ V −1 (V − P V − V P + P V P )V −1 ZG =
0
0
0
= GZ (V −1 V V −1 − V −1 P V V −1 − V −1 V P V −1 + V −1 P V P V −1 )ZG =
0
0
0
= GZ (V −1 − V −1 P − P V −1 + V −1 P V P V −1 )ZG.
Zauważając, że
0
0
0
0
V −1 P = P V −1 = V −1 P V P V −1 = V −1 X(X V −1 X)−1 X V −1
otrzymujemy ostatecznie
0
0
0
0
V ar(b̂) = GZ (V −1 − V −1 P )ZG = GZ (V −1 − V −1 X(X V −1 X)−1 X V −1 )ZG.
Uwaga 7
cov(β̂, b̂) = 0
Dowód.
Korzystając z reguły dla dwóch losowych wektorów X i y
cov(AX, By) = Acov(X, y)B
0
gdzie A i B są znanymi macierzami, otrzymujemy
0
0
0
cov(β̂, b̂) = cov((X V −1 X)−1 X V −1 y, GZ V −1 (y − X β̂)) =
0
0
0
0
0
= cov((X V −1 X)−1 X V −1 y, GZ V −1 (y − X(X V −1 X)−1 X V −1 y)) =
0
0
0
0
0
0
= (X V −1 X)−1 X V −1 cov(y, y)V −1 ZG − (X V −1 X)−1 X V −1 cov(y, y)V −1 X(X V −1 X)−1
0
0
0
0
0
0
0
0
0
0
0
0
X V −1 ZG = (X V −1 X)−1 X V −1 V V −1 ZG − (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1
0
0
0
0
0
0
X V −1 ZG = (X V −1 X)−1 X V −1 ZG − (X V −1 X)−1 X V −1 X(X V −1 X)−1 X V −1 ZG =
0
0
0
0
0
0
= (X V −1 X)−1 X V −1 ZG − (X V −1 X)−1 X V −1 ZG = 0.
22
Uwaga 8
cov(β̂ − β, b̂ − b) 6= 0
Dowód.
cov(β̂ − β, b̂ − b) = cov(β̂, b̂) − cov(β̂, b) = 0 − cov(β̂, b) = −cov(β̂, b) =
0
0
0
0
= −cov((X V −1 X)−1 X V −1 y, b) = −(X V −1 X)−1 X V −1 cov(y, b) =
0
0
0
0
= −(X V −1 X)−1 X V −1 cov(Zb, b) = −(X V −1 X)−1 X V −1 ZG 6= 0.
3.5.3
Lemat Rao
Dla przejrzystości zapisu przyjmujemy, że liniowy model mieszany posiada jedną klastrę.
Lemat 1 (Rao)[15]
Niech R : n × n, X : n × p, F : n × p oraz P : p × p będą danymi macierzami takimi, że
0
R(F ) ⊂ R(R : X), R(P ) ⊂ R(X ) oraz rozważmy p × p funkcję macierzową A : n × p
0
0
0
f (A) = A RA − A F − F A.
Wówczas
min f (A) = f (A∗ )
X 0 A=P
gdzie:
(A∗ , B∗ ) jest rozwiązaniem układu równań

RA + XB = F
X 0 A = P
.
(7)
Co więcej
0
0
0
0
f (A∗ ) = min
f (A) = −A∗ F − B∗ P = −F A∗ − P B∗ .
0
(7A)
X A=P
Dowód.
0
Niech (A∗ , B∗ ) będzie rozwiązaniem układu równań (7). Każda macierz A (taka, że X A = P )
może być zapisana jako A∗ + ZC, gdzie Z = X ⊥ (X ⊥ jest ortogonalnym dopełnieniem X) oraz
macierz C jest dowolna. Wówczas
0
0
0
0
0
0
f (A) = A V A − A F − F A = (A∗ + ZC) V (A∗ + ZC) − (A∗ + ZC) F − F (A∗ + ZC) =
0
0
0
0
0
0
0
0
0
=(A∗ V A∗ − A∗ F − F A∗ ) + C Z V ZC + (A∗ V − F )ZC + C Z (V A∗ − F ) =
0
0
0
0
0
0
(7B)
0
=(A∗ V A∗ − A∗ F − F A∗ ) + C Z V ZC = f (A∗ ) + C Z V ZC.
Korzystając z układu równań (7) otrzymujemy, że

C 0 Z 0 (V A∗ − F ) = 0
V A∗ + XB∗ = F ⇒
(A0 V − F 0 )ZC = 0
.
∗
Zatem dwa ostanie wyrażenia w równaniu (7B) są równe 0. Zauważmy również, że f (A) − f (A∗ ) =
0
0
C Z V ZC.
23
Następnie zapisujemy
0
0
0
0
0
0
0
0
0
f (A∗ ) = A∗ V A∗ − A∗ F − F A∗ = A∗ (V A∗ − F ) − F A∗ = −A∗ XB∗ − F A∗ = −P B∗ − F A∗ =
0
0
= −A∗ F − B∗ P .
Co dowodzi prawdziwości wzoru (7A).
Twierdzenie 6 [15]
Niech R będzie macierzą wymiaru n × n oraz X macierzą wymiaru n × p. Wówczas uogólniona
odwrotność macierzy
"
R
X
X
0
#
0
jest postaci
"
C1
0
#
C2
C2
−C4
#−
"
czyli
"
R
X
0
X
0
=
C1
#
C2
0
−C4
C2
gdzie:
[ . ]− jest uogólnioną odwrotną macierzą
0
0
C1 = T − − T − X(X T X)− X T −
0
0
0
C2 = (X T − X)− X T −
0
0
−C4 = (X T − X)− (X T − X − I)
0
T = R + XX .
Uwaga 9
Na podstawie Lematu 1 oraz Twierdzenia 6 otrzymujemy, że
0
B∗ = C2 F − C4 P .
A∗ = C1 F + C2 P ,
Dowód.
(A∗ , B∗ ) spełnia układ równań (7) zatem

RA∗ + XB∗ = F
X 0 A = P
.
(8)
∗
Układ równań (8) można zapisać równoważnie jako


RA∗ + XB∗ = F + XP − XP
RA∗ + XB∗ = F + XP − XX 0 A∗
⇐⇒
⇐⇒
X 0 A = P
X 0 A = P
∗
∗


RA∗ + −XX 0 A∗ + XB∗ = F + XP
(R + XX 0 )A∗ + XB∗ = F + XP
⇐⇒
. (9)
X 0 A = P
X 0 A = P
∗
∗
24
0
Niech T = R + XX . Wówczas z pierwszego równania (9) otrzymujemy
0
0
(R + XX )A∗ + XB∗ = F + XP ⇐⇒ (R + XX )A∗ = F + XP − XB∗ ⇐⇒
0
A∗ = (R + XX )− (F + XP − XB∗ ) ⇐⇒ A∗ = T − (F + XP − XB∗ ).
Następnie podstawiamy A∗ do drugiego równania (9) otrzymując
0
0
X A∗ = P ⇐⇒ X T − (F + XP − XB∗ ) = P .
Następnie zapisujemy, że
0
0
0
X T − (F + XP − XB∗ ) = P ⇐⇒ X T − (F + XP ) − X T − X(B∗ ) = P ⇐⇒
0
0
(X T − X)B∗ = X T − (F + XP ) − P .
(10)
Korzystając ze wzoru (10) można wyznaczyć rozwiązanie dla B∗ oraz A∗ postaci
0
0
0
0
0
B∗ = (X T − X)− X T − F + (X T − X)− (X T − X − I)P = C2 F − C4 P
0
0
0
A∗ = (T − − T − X(X T X)− X T − )F + T − X(X T − X)− P = C1 F + C2 P .
Uwaga 10
Korzystając z Uwagi 9 można zapisać, że

P 0 C 4 P
f (A∗ ) =
−F 0 C F
1
jeśli F = 0
.
jeśli P = 0
Dowód.
0
0
0
0
0
f (A∗ ) = −P B∗ − F A∗ = −P (C2 F − C4
P ) − F (C1 F + C2 P ) =
0

P C4 P
jeśli F = 0
0
0
0
0
0
= P C4 P − P C2 F − F C2 P − F C1 F =
0
−F C F jeśli P = 0
1
• Estymacja Xβ
0
Niech A y będzie nieobciążonym estymatorem Xβ. Wówczas
0
0
0
0
E(A y) = A Xβ = Xβ dla każdego β ⇒ A X = X ⇐⇒ X A = X
0
oraz
0
0
0
0
0
0
0
0
V ar(A y−Xβ) = E[(A y−Xβ)(A y−Xβ) ] = E[A (Zb+)(Zb+) A] = A V ar(Zb+)A = A V A
gdzie:
V = ZGZ + R.
Problemem jest znalezienie
0
min 0 A V A.
0
X A=X
25
Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu
równań postaci

V A + XB = 0
X 0 A = X 0
.
Zauważmy, że macierz R została zastąpiona macierzą V . Następnie zapisujemy, że
"
#− "
#
V X
C1 C2
=
0
0
X
0
C2 −C4
otrzymując
0
0
0
B∗ = C2 F − C4 P = −C4 X .
A∗ = C1 F + C2 P = C2 X ,
Zatem nieobciążony estymator Xβ jest postaci
0
0
A∗ y = XC2 y.
• Predykcja Zb
0
Niech A y będzie predyktorem Zb takim, że
0
0
0
0
0
E(A y − Zb) = A Xβ − 0 = A Xβ = 0 ⇒ A X = 0 ⇐⇒ XA = 0.
Wówczas
0
0
0
0
0
0
0
0
0
V ar(A y − Zb) = E[(A y − Zb)(A y − Zb) ] = E[(A − I)Zbb Z (A − I)] + E[A A] =
0
0
0
0
0
0
0
0
= (A − I)E(Zbb Z )(A − I) + A E( )A = (A − I)ZV ar(b)Z (A − I) + A V ar()A =
0
0
0
0
0
0
0
0
= (A − I)ZGZ (A − I) + A RA = A V A − A ZGZ − ZGZ A + ZGZ =
0
0
= A V A − A W − WA + W
gdzie:
0
V = ZGZ + R = W + R
0
W = ZGZ .
Problemem jest znalezienie
0
0
min
(A V A − A W − W A + W ).
0
XA =0
Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu
równań postaci

V A + XB = W
X 0 A = 0
.
Następnie zapisujemy, że
"
V
X
X
0
0
#−
"
=
26
C1
0
C2
C2
−C4
#
otrzymując
0
0
B∗ = C2 F − C4 P = C2 W .
A∗ = C1 F + C2 P = C1 W,
Zatem predyktor Zb jest postaci
0
0
0
A∗ y = W C1 y.
• Estymacja 0
Niech A y będzie estymatorem takim, że
0
0
0
0
0
E(A y − ) = A Xβ − 0 = A Xβ = 0 ⇒ A X = 0 ⇐⇒ XA = 0.
Wówczas
0
0
0
0
0
0
0
0
0
0
0
0
V ar(A y − ) = E[(A y − )(A y − ) ] = E[A Zbb Z A] + E[(A − I) (A − I)] = A E(Zbb Z )A +
0
0
0
0
0
0
0
0
(A − I)E( )(A − I) = A ZV ar(b)Z A + (A − I)V ar()(A − I) = A ZGZ A + (A − I)R(A − I) =
0
0
A V A − A R − RA + R
gdzie:
0
V = ZGZ + R.
Problemem jest znalezienie
0
0
min
(A V A − A R − RA + R).
0
XA =0
Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu
równań postaci

RA + XB = V
X 0 A = 0
.
Następnie zapisujemy, że
"
R
X
0
X
#−
0
=
"
C1
0
C2
C2
#
−C4
otrzymując
0
0
B∗ = C2 F − C4 P = C2 V .
A∗ = C1 F + C2 P = C1 V,
Zatem estymator jest postaci
0
0
0
A∗ y = V C1 y.
3.5.4
Metoda największej wiarygodności (ML)
Metoda największej wiarygodności (w skrócie ML) jest metodą wykorzystywaną do estymacji nieznanych parametrów liniowego modelu mieszanego przez maksymalizację logarytmu funkcji wiarygodności. Parametry w tej metodzie stają się argumentami funkcji wiarygodności. Do estymacji
parametrów korzysta się z postaci warunkowego liniowego modelu mieszanego.
27
Funkcja gęstości wielowymiarowego rozkładu normalnego f (Yi |β, θG , θR ) jest postaci [1]
f (yi |β, θG , θR ) = (2π)−
ni
2
1
det(Vi (θG , θR ))− 2 exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β))
gdzie:
det - oznacza wyznacznik
Vi = Zi GZi0 + Ri .
Zatem funkcja wiarygodności odnosząca się to i-tej klastry jest definiowana jako [1]
Li (β, θG , θR ) = f (yi |β, θG , θR ) =
(2π)
−
ni
2
1
det(Vi (θG , θR ))− 2 exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)).
Następnie zapisujemy funkcję wiarygodności L(β, θG , θR ) jako iloczyn m niezależnych składników
(zdefiniowanych wyżej dla pojedynczego i, i=1,2, ... ,m) [1]
L(β, θG , θR ) =
Q
i (2π)
−
ni
2
det(Vi (θG , θR ))
− 21
Q
i
Li (β, θG , θR ) =
exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)).
Czyli logarytm funkcji wiarygodności l(β, θG , θR ) jest definiowany jako [1]
l(β, θG , θR ) = lnL(β, θG , θR ) =
P
i (−0.5ni
· ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)).
Uwaga 11
Pomimo, że często jest możliwe estymowanie β, θG i θR jednocześnie przez maksymalizowanie
l(β, θG , θR ) jednakże większość algorytmów obliczeniowych upraszcza optymalizację wyodrębniając
β z l(β, θG , θR ).
Rozważmy teraz dwa przypadki:
• θG oraz θR są znane
Skoro θG oraz θR są znane to tym samym znana jest również macierz kowariancji G oraz Ri .
Gdy znamy macierz kowariancji G oraz Ri to wówczas możemy wyznaczyć macierz Vi (ponieważ
Vi = Zi GZi0 + Ri ). Podsumowując, skoro znamy θG oraz θR to znamy również macierz Vi .
Zatem tylko β pozostaje nam do estymacji. Do estymowanie parametrów efektów stałych β wykorzystuję się (zgodnie z założeniami metody) warunkowy liniowy model mieszany, a następnie na
jego podstawie wyznacza się uogólnionych estymator najmniejszych kwadratów (5) (którego postać
została przedstawiona oraz udowodniona w rozdziale 3.5.1), czyli
P 0
P 0
β̂ = ( i Xi Vi−1 Xi )−1 i Xi Vi−1 yi .
• θG oraz θR nie są znane
W tym przypadku ponownie korzystamy z uogólnionego estymatora najmniejszych kwadratów
parametrów efektów stałych zapisując go w równoważnej postaci do wzoru (5) jako funkcję parametrów θG , θR (dla przejrzystości zapisu)
28
β̂ = β̂(θG , θR ) = (
0
P
i
Xi Vi−1 (θG , θR )Xi )−1
P
i
0
Xi Vi−1 (θG , θR )yi .
Następnie podstawiamy postać estymatora β̂ do logarytmu funkcji wiarygodności l(β, θG , θR ) otrzymując
l(β̂, θG , θR )M L =
P
i (−0.5ni
0
· ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5ˆ
i Vi−1 (θG , θR )ˆ
i )
gdzie:
P 0
P 0
ˆi = yi − Xi β̂ = yi − Xi ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi .
Kolejnym krokiem jest maksymalizacja l(β̂, θG , θR )M L (korzystając np. z metody Newtona-Raphsona)
czyli uzyskanie θˆG i θˆR , a tym samym Ĝ i R̂i . Zatem możliwe jest wyznaczenie V̂i
0
V̂i = Zi ĜZi + R̂i .
Ponownie korzystając z metody uogólnionych najmniejszych kwadratów możemy zapisać, że uogólniony estymator parametrów efektów stałych β̂ jest postaci
P 0
P 0
β̂ = ( i Xi V̂i−1 Xi )−1 i Xi V̂i−1 yi .
Zauważmy, że wzór na estymator β̂ (dla przypadku gdy θG oraz θR nie są znane) różni się tylko
zamianą macierzy Vi (która mogła zostać wyliczona gdy θG oraz θR były znane) na wyestymowaną
wartość V̂i .
Często przyjmuję się, że macierz Ri posiada strukturę komponentów wariancji (czyli Ri = σ 2 I).
Zatem warunkowy liniowy model mieszany jest postaci
Yi = Xi β + ∗i
gdzie:
∗i ∼ N (0, Vi ).
Macierz Vi możemy zapisać jako:
0
0
Vi = Zi GZi + σ 2 I = σ 2 (Zi G̃Zi + I) = σ 2 Ṽi
gdzie:
G̃ =
1
σ 2 G.
Wówczas logarytm funkcji wiarygodności dla takiego modelu można zapisać jako
P
0
l(β̂, θG , σ 2 )M L = i (−0.5ni · ln(2π) − 0.5ln(det(Vi (θG , σ 2 ))) − 0.5ˆ
i Vi−1 (θG , σ 2 )ˆ
i ) =
P
2
−2 0 −1
˜i Ṽi (θG )˜
i )
i (−0.5ni · ln(2π) − 0.5ni ln(σ ) − 0.5ln(det(Ṽi (θG ))) − 0.5σ
gdzie:
˜i = yi − Xi (
P
i
0
Xi V ˜−1 i (θG )Xi )−1
P
i
0
Xi Ṽi−1 (θG )yi .
Estymator największej wiarygodności σ 2 obliczamy przyrównując do zera różniczkę l(β̂, θG , σ 2 )M L
względem σ 2 , zatem otrzymujemy
∂l(β̂,θG ,σ 2 )M L
∂σ 2
= 0 ⇒ σ̂ 2 = P1 n
i
29
0
˜i Ṽi−1 (θG )˜
i
i
P
i
= σ̂ 2 (θG ).
Podstawiając σ̂ 2 do l(β̂, θG , σ 2 )M L uzyskujemy skrócony logarytm funkcji wiarygodności dany
wzorem
l(β̂, θG , σ̂ 2 )M L =
3.5.5
P
i (−0.5ni
0
· ln(2π) − 0.5ln(det(Ṽi (θG ))) − 0.5ni · ˜i Ṽi−1 (θG )˜
i ).
Ograniczona metoda największej wiarygodności (REML)
Ograniczona metoda największej wiarygodności (w skrócie REML) jest częściej preferowana niż
metoda największej wiarygodności (ML), ponieważ wytwarza nieobciążone estymatory parametrów kowariancji biorąc pod uwagę utratę stopni swobody, które wynikają z estymacji parametrów
efektów stałych β. Podobnie jak dla metody ML do estymacji parametrów liniowego modelu mieszanego korzysta się z postaci warunkowego liniowego modelu mieszanego.
Metoda ta polega na maksymalizacji logarytm funkcji wiarygodności danego wzorem [1]
P
0
l(β̂, θG , θR )REM L = l(β̂, θG , θR )M L + 0.5p · ln(2π) − 0.5 i ln(det(Xi Vi−1 (θG , θR )Xi )) =
P
0
i Vi−1 (θG , θR )ˆ
i −
i (−0.5(ni − p) · ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5ˆ
0
0.5ln(det(Xi Vi−1 (θG , θR )Xi )))
gdzie:
p - ilość parametrów efektów stałych
0
Vi = Vi (θG , θR ) = Zi GZi + Ri
P 0
P 0
β̂ = ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi
P 0
P 0
ˆi = yi − Xi β̂ = yi − Xi ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi .
W odróżnieniu do metody największej wiarygodności (ML), ograniczona metoda największej wiarygodności (REML) nie wyprowadza wzoru na estymator β̂. Zatem dla parametrów efektów stałych
stałych korzystamy ze wzoru dla metody ML (uogólniony estymator najmniejszych kwadratów
(20)). Warto zauważyć, że pomimo korzystania z tego samego wzoru otrzymamy różne rezultaty
dla β̂, ponieważ θˆG oraz θˆR (wyestymowana wartość θG oraz θR ) są różne dla każdej metody (wynika to z odmiennych wzorów na logarytm funkcji wiarygodności dla obu metod).
Podsumowując, metody największej wiarygodności (ML oraz REML) są używane w celu estymacji
parametrów efektów losowych θG oraz θR w liniowym modelu mieszanym. Następnie przeprowadza się estymację parametrów efektów stałych β. Estymator β̂ wyznacza się korzystając z metody
uogólnionych najmniejszych kwadratów.
3.6
Model zagnieżdżony
W niektórych liniowych modelach mieszanych można wyróżnić model, który nazywany jest modelem zagnieżdżonym. Dla modelu głównego (czyli takiego, który zawiera zmienne objaśniające
wszystkich poziomów danych w rozważanym badaniu) należny ustalić, czy istnieje dla niego taka
para modeli (model referencyjny oraz model zagnieżdżony), w której możemy wyróżnić ’zagnieżdżony’ związek między nimi. Głównym celem dla którego szukana jest taka para modeli jest danie
możliwości badaczowi lepszego wyboru w ustaleniu odpowiedniego modelu dla zebranych danych.
Co więcej, jeżeli został wyodrębniony model zagnieżdżony to wówczas mamy możliwość skorzystania z testu wskaźnika wiarygodności badającego istotność parametrów liniowego modelu mieszanego poprzez porównanie modelu referencyjnego z modelem zagnieżdżonym.
30
Przypuśćmy, że mamy dwa modele: Model A i Model B. Model A definiujemy jako zagnieżdżony
w Modelu B jeżeli Model A jest ’specjalnym przypadkiem’ Modelu B. Pod wyrażeniem ’specjalny
przypadek’ rozumiemy, że przestrzeń parametrów zagnieżdżonego Modelu A jest podprzestrzenią
bardziej ogólnej przestrzeni parametrów Modelu B. Mniej formalnie można powiedzieć, że parametry w modelu zagnieżdżonym można uzyskać przez nałożenie pewnych ograniczeń na parametry w
bardziej ogólnym modelu.
W praktyce modele zagnieżdżone dla liniowych modeli mieszanych występują głównie dla danych
sklastrowanych. Przypomnę, że dla danych tych wyróżniamy poziomy danych, a klastry danego
poziomu mogą być zagnieżdżone w klastrach innego poziomu. Warto zauważyć, że model główny
nie musi być zawsze modelem referencyjnym, ponieważ na jego podstawie można budować model
referencyjny i model zagnieżdżony. Istnieją różne sposoby wyznaczenia modelu referencyjnego oraz
modelu zagnieżdżonego na podstawie modelu głównego. Wykorzystywane są w zależności co i na
jakim etapie chcemy badać w modelu głównym. Jedno z podejść nawiązuje do tego, że w danych
sklastrowanych na każdym poziomie możemy wyodrębnić osobny model dla danego badania, a w
modelach na różnych poziomach może wystąpić związek ’zagnieżdżenia’ między nimi. Innym sposobem może być zbudowanie modelu referencyjnego na podstawie modelu głównego, a następnie
otrzymanie modelu zagnieżdżonego przez usunięcie części stałej bądź części losowej z modelu referencyjnego. Jeżeli chcemy badać ’stałość’ bądź ’losowość’ między modelami, to aby uzyskać model
zagnieżdżony wystarczy usunąć z modelu referencyjnego interesującą nas zmienną objaśniającą o
efektach stałych bądź o efektach losowych.
3.7
Badanie istotności parametrów liniowego modelu mieszanego
W liniowym modelu mieszanym przeprowadzane jest badanie istotności parametrów efektów stałych β oraz parametrów kowariancji θG i θR odpowiednio dla macierzy G oraz Ri .
3.7.1
Test wskaźnika wiarygodności (LTR)
Test wskaźnika wiarygodności (w skrócie LTR) jest testem opartym na porównaniu wartości funkcji
wiarygodności dla dwóch modeli (modelu zagnieżdżonego i modelu referencyjnego). Test LTR może
być stosowany do badania hipotez dotyczących parametrów kowariancji jak i parametrów efektów
stałych oraz nazywany jest pośrednim sposobem badania istotności tych parametrów. Statystyka
testu LTR jest obliczana jako różnica -2(logarytm wiarygodności) modelu referencyjnego od modelu
zagnieżdżonego, co prezentuje poniższy wzór
L
) = −2log(Lzagniezdzony ) − (−2log(Lref erencyjny )) ∼ χ2df
LT R = −2log( Lzagniezdzony
ref erencyjny
gdzie:
logLzagniezdzony - logarytm funkcji wiarygodności oszacowany metodą ML lub REML dla parametrów modelu zagnieżdżonego
logLref erencyjny - logarytm funkcji wiarygodności oszacowany metodą ML lub REML dla parametrów modelu referencyjnego
df - stopnie swobody (wyznaczane jako różnica pomiędzy liczbą parametrów w modelu referencyjnym i w modelu zagnieżdżonym).
31
Bazując na powyższej statystyce możemy budować hipotezy dotyczące parametrów w liniowym
modelu mieszanym. Jeżeli wartość statystyki LTR znajduje się w obszarze odrzuceń χ2 (czyli
jest większa niż wartość χ2 , zwróćmy uwagę, że wartość rozkładu χ2 jest liczona dla odpowiednich stopni swobody na zadanym poziomie istotności dla każdego badania) to wówczas odrzucamy
hipotezę zerową (odnosząca się do modelu zagnieżdżonego) na korzyść hipotezy alternatywnej (odnoszącej się do modelu referencyjnego). Jeżeli statystyka LTR jest stosunkowa mała (nie znajduje
się w obszarze odrzuceń χ2 ) to nie mamy podstaw do odrzucenia hipotezy zerowej. Używając ogólnego zapisu hipotezy testu LTR można zapisać jako:
H0 : hipoteza odnosząca się do modelu zagnieżdżonego
HA : hipoteza odnosząca się do modelu referencyjnego.
• Test wskaźnika wiarygodności dla parametrów efektów stałych.
Test wskaźnika wiarygodności dla parametrów efektów stałych bazuje na metodzie największej
wiarygodności. Zatem, w ogólnym wzorze na statystykę LTR podstawiany jest logarytm funkcji
wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych odpowiednio dla modelu zagnieżdżonego i referencyjnego, natomiast stopnie swobody df rozkładu χ2
wyznaczane są jako różnica pomiędzy liczbą parametrów efektów stałych w modelu referencyjnym
i w modelu zagnieżdżonego, co można zapisać następująco
LM L
LT R = −2log( LM Lzagniezdzony ) = −2log(LM Lzagniezdzony ) − (−2log(LM Lref erencyjny )) ∼ χ2dfr −dfz
ref erencyjny
gdzie:
logLM Lzagniezdzony - logarytm funkcji wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych modelu zagnieżdżonego
logLM Lref erencyjny ) - logarytm funkcji wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych modelu referencyjnego
dfr - stopnie swobody modelu referencyjnego (równe liczbie parametrów efektów stałych w modelu
referencyjnym)
dfz - stopnie swobody modelu zagnieżdżonego (równe liczbie parametrów efektów stałych w modelu
zagnieżdżonym).
W teście LTR przyjmuje się liniowe hipotezy odnoszące się do parametrów efektów stałych oraz
zakłada się, że model zagnieżdżony oraz model referencyjny mają ten zbiór parametrów kowariancji
lecz różne zbiory parametrów efektów stałych.
Przykładem zastosowania testu LTR w badaniu istotności parametrów efektów stałych w liniowym modelu mieszanym jest przyjecie modelu zagnieżdżonego bez efektów stałych, lecz z takimi
samymi efektami losowymi co w modelu referencyjnym. Wówczas w takim przypadku będziemy
badać istotność zbioru parametrów efektów stałych znajdujących się w modelu referencyjnym (hipoteza zerowa będzie mówiła o nieistotności parametrów efektów stałych, natomiast alternatywna
o istotności parametrów efektów stałych).
• Test wskaźnika wiarygodności dla parametrów kowariancji.
Używając testu wskaźnika wiarygodności do badania parametrów kowariancji liniowego modelu
mieszanego należy użyć do estymacji ograniczonej metody największej wiarygodności (REML).
32
Korzystanie z tego testu wymaga założenia, że zagnieżdżony model i model referencyjny mają te
sam zbiór parametrów efektów stałych, lecz różne zbiory parametrów kowariancji. Statystyka LTR
jest definiowana jak wzorem
LREM L
LT R = −2log( LREM Lzagniezdzony ) = −2log(LREM Lzagniezdzony ) − (−2log(LREM Lref erencyjny ))
ref erencyjny
gdzie:
logLREM Lzagniezdzony - logarytm funkcji wiarygodności oszacowany ograniczoną metodą największej wiarygodności dla parametrów kowariancji modelu zagnieżdżonego
logLREM Lref erencyjny ) - logarytm funkcji wiarygodności oszacowany ograniczoną metodą największej wiarygodności dla parametrów kowariancji modelu referencyjnego.
W teście LTR dla parametrów kowariancji rozkład statystyki LTR jest inny niż dla testu LTR badającego istotność parametrów efektów stałych liniowego modelu mieszanego. W rozpatrywanym
przypadku statystyka LTR posiada rozkład będący mieszaniną rozkładów χ2 z równymi wagami
dla modelu referencyjnego oraz modelu zagnieżdżonego. Na przykład gdy rozważany jest model z
dwoma efektami losowymi (model referencyjny) w stosunku do modelu nieposiadającego efektów
losowych (model zagnieżdżony), to statystyka LTR ma mieszaninę rozkładów χ22 i χ20 z równymi
wagami 0.5. Jeśli natomiast rozważany jest model z dwoma efektami losowymi w stosunku do modelu z jednym efektem losowym to statystyka LTR ma mieszaninę rozkładów χ22 i χ21 z równymi
wagami 0.5.
Chcąc badać istotność parametrów kowariancji liniowego modelu mieszanego za pomocą testu LTR
można postępować w analogiczny sposób jak dla badania istotności parametrów efektów stałych.
W tym przypadku przyjmujemy, że model zagnieżdżony nie posiada efektów losowych, lecz takie
same efekty stałe co w modelu referencyjnym. Wówczas w takim przypadku będziemy badać istotność parametrów kowariancji znajdujących się w modelu referencyjnym (hipoteza zerowa będzie
mówiła o nieistotności parametrów kowariancji, natomiast alternatywna o istotności parametrów
kowariancji). Pamiętajmy, że jest to przykład zastosowania tego testu. Oznacza to tym samym,
że używając testu LTR może rozważać przypadek, w którym z modelu referencyjnego usuwane są
tylko zmienne objaśniające o efektach losowych, których istotność parametrów kowariancji chcemy
badać, lecz co najważniejsze modele te muszą posiadać ten sam zbiór efektów stałych (analogicznie
rozumowanie można przeprowadzić przy badaniu istotności parametrów efektów stałych, pamiętając, że w tamtym przypadku zbiór efektów losowych musi być identyczny).
3.7.2
T-test
T-test służy do badania istotności pojedynczego parametru efektu stałego w liniowych modelach
mieszanych.
Hipotezy tego testu wyglądają następująco:
H0 : β = 0
(hipoteza zerowa mówi o nieistotności parametru efektu stałego)
HA : β 6= 0.
(hipoteza alternatywa mówi o istotności parametru efektu stałego)
33
Statystyka t-testu jest obliczana wzorem
t=
β̂
se(β̂)
gdzie:
β̂ - wyestymowana wartość parametru efektu stałego
se - błąd standardowy
se(β̂)q
- błąd standardowy wyestymowanego parametru efektu stałego, który można inaczej zapisać
jako
V ar(β̂) (V ar(β̂) jest definiowana wzorem (6)).
Statystyka t przybliża t-rozkład. Co więcej, w przeciwieństwie do ogólnego modelu liniowego liczba
stopni swobody nie jest równa n − p (gdzie n jest liczbą obserwacji, a p jest liczbą wyestymowanych
parametrów efektów stałych). W tym przypadku musimy wyestymować stopnie swobody mianownika używając odpowiednich metod (lista wybranych metod estymacji stopni swobody mianownika
statystyki t znajduje się w rozdziale 7.2).
Uwaga 12
Szczególną uwagę powinniśmy zwrócić przy estymowaniu stopni swobody dla małych zbiorów danych. Dla większych zbiorów danych (czyli takich dla których liczba obserwacji na każdym poziomie
jest większa niż 100) wybór metody estymowania stopni swobody nie jest istotny, ponieważ różnice
w obliczeniach stopni swobody dla mianownika nie są krytyczne dla t statystyki.
3.7.3
Test Walda
Test Walda służy do badania istotności pojedynczego parametru kowariancji w liniowym modelu
mieszanym.
Hipotezy testu Walda wyglądają następująco:
H0 : θ = 0
(hipoteza zerowa mówi o nieistotności parametru kowariancji)
HA : θ > 0.
(hipoteza alternatywa mówi o istotności parametru kowariancji)
Zauważmy, że jeżeli dla macierzy kowariancji Ri przyjmiemy strukturę komponentów wariancji
(diagonalną) to hipotezy można zapisać jako
H0 : σ 2 = 0
HA : σ 2 > 0.
Statystyka testu Walda obliczana jest jako iloraz wyestymowanego parametru kowariancji i błędu
standardowego wyestymowanego parametru kowariancji, co możemy zapisać jako
z=
θ̂
.
se(θ̂)
Uwaga 13
Test Walda jest wiarygodny tylko dla dużych próbek danych. Dla małych próbek danych test ten może
być niewiarygodny, ponieważ małe próbki danych znane są z tego, że produkują rozkłady graniczne
34
dla z statystyki (wiec test ten będzie niewiarygodny dla hipotez odnoszących się do parametrów
kowariancji znajdujących się na granicy przestrzeni parametrów). Dla małych danych zalecane jest
zatem użycie testu wskaźnika wiarygodności (LTR).
Podsumowując:
• T-test oraz test Walda służą do badania istotności pojedynczego parametru (odpowiednio)
efektu stałych lub kowariancji liniowego modelu mieszanego.
• Wyróżniamy dwa testy wskaźnika wiarygodności. Jeden bada istotność parametrów efektów stałych, drugi natomiast służy do badania istotności parametrów kowariancji liniowego
modelu mieszanego.
• Test wskaźnika wiarygodności może być stosowany do liniowych hipotez badających istotność parametrów efektów stałych bądź parametrów kowariancji. Zatem, za pomocą testu LTR
można badać pojedynczy parametr jak i jednocześnie kilka parametrów efektów stałych bądź
parametrów kowariancji (wówczas hipoteza zerowa będzie mówiła o nieistotności wszystkich
badanych parametrów, natomiast hipoteza alternatywna będzie mówiła o istotności któregokolwiek z badanych parametrów).
• Rozkład statystyki LT R jest liczony w zależności od rodzaju testu.
• Używając testu LTR do badania istotności parametrów efektów stałych, model referencyjny
oraz model zagnieżdżony musi być estymowany metodą największej wiarygodności (ML).
• Chcą użyć testu LTR do badanie istotności parametrów kowariancji, model referencyjny oraz
model zagnieżdżony musi być estymowany ograniczoną metodą największej wiarygodności
(REML).
• Wybór metody estymacji stopni swobody dla mianownika statystyki t nie ma znaczenia przy
dużej liczbie obserwacji.
• Test Walda nie jest wiarygodny dla małych próbek danych.
3.8
Kryterium informacyjne Akaike
Kryterium informacyjne Akaike (w skrócie AIC) jest wykorzystywane do porównywania liniowych
modeli mieszanych odnoszących się do tego samego zbioru obserwacji (im mniejsza wartość kryteria
informacyjnego AIC tym model jest lepiej dopasowany).
Definicja 9 (Kryterium informacyjne AIC)[1]
Kryterium informacyjne AIC w liniowych modelach mieszanych może być obliczane bazując na
(ML lub REML) logarytmie funkcji wiarygodności l(β, θG , θR ) dopasowanego modelu, czyli
AIC = −2l(β̂, θˆG , θˆR ) + 2p
gdzie:
p oznacza liczbę wszystkich parametrów, które zostały oszacowane w modelu zarówno dla efektów
stałych i efektów losowych.
35
Modele zagnieżdżone wykorzystywane są nie tylko przy badaniu istotności parametrów liniowych
modeli mieszanych. W danych, w których możemy wyodrębnić model zagnieżdżony wykorzystuje
się też kryterium AIC. Kryterium AIC w tym przypadku często służy badaczowi do szerszej analizy
danych oraz porównania który z modeli (referencyjny bądź zagnieżdżony) jest lepiej dopasowany
do rozważanych danych.
4
Nieliniowy model mieszany i uogólniony liniowy model
mieszany
W rozdziale tym zostaną pokrótce przedstawione pozostałe rodzaje modeli mieszanych.
4.1
Nieliniowy model mieszany
Nieliniowe modele mieszane są mieszanymi modelami, w których stałe i losowe efekty są zapisywane
nieliniowo. Modele te najczęściej stosowane są dla danych z powtórzonych pomiarów bądź danych
wzdłużnych. Istnieje kilka różnych form zapisu nieliniowego modelu mieszanego. Przedstawię teraz
postać modelu zaproponowaną przez Lindstorma i Batesa (1990) (zaproponowany zapis nieliniowego modelu mieszanego dopuszcza przypadek zagnieżdżenia klastr czynnika losowego w klastrach
innego czynnika losowego oraz jest często stosowany dla danych z powtórzonych pomiarów).
Definicja 10 (Nieliniowy model mieszany) [6]
Postać nieliniowego modelu mieszanego dla j-tej obserwacji w i-tej klastrze można zapisać jako
yij = f (øij , xij ) + ij dla j = 1, 2, ... , ni
i = 1, 2, ... , m
gdzie:
yij - zmienna objaśniana dla j-tej z ni obserwacji (jednostek analitycznych) znajdującej się w i-tej
klastrze (grupie)
øij - wektor parametrów efektów stałych i efektów losowych dla j-tej obserwacji w i-tej klastrze
(øij jest również definiowana jako funkcja liniowa parametrów efektów stałych i efektów losowych,
zatem øij odnosi się do postaci liniowego modelu mieszanego)
f - nieliniowa funkcja parametrów øij
xij - zmienne objaśniające dla j-tej obserwacji w i-tej klastrze
m - liczba klastr czynnika losowego
ni - liczba obserwacji w i-tej klastrze czynnika losowego.
Na poziomie klastr można zapisać nieliniowy model mieszany używając notacji macierzowej
Yi = f (øi , Xi ) + i dla i = 1, 2, ... , m
gdzie:
Y1i



 Y2i 

Yi = 
 ... 


Yni i

f (ø1i , X1i )



 f (ø2i , X2i ) 

f (øi , Xi ) = 


...


f (øni i , Xni i )
i ∼ N (0, Ri ).
36

1i



 2i 

i = 
 ... 


ni i
Do estymacji nieliniowych modeli mieszanych można użyć metody największej wiarygodności (ML)
oraz ograniczonej metody największej wiarygodności (REML). Warto jednak zaznaczyć, że nie są
to jedyne metody estymacji (jak w przypadku liniowych modeli mieszanych). Opis i lista możliwych
metod estymacji nieliniowych modeli mieszanych znajduje się w literaturze [6].
Przykład 2
Przykład nielinowego modelu mieszanego dla krzywej wzrostu logistycznego dla j-tej obserwacji w
i-tej klastrze jest postaci
f (øij , xij ) = f (β, bi , xij ) =
β1 +b1i
x
−β2
2i
1+exp(− βij+b
3
)
yij = f (β, bi , xij ) + ij
" #
b1i
b2i
" # "
2
0
σb1
∼ N(
,
0
σb1,b2
σb1,b2
2
σb2
#
)
(czyli dla macierzy G przyjmujemy postać niestrukturalną dla i-tej klastry)
ij ∼ N (0, Ri ).
4.2
Uogólniony liniowy model mieszany
Różnica pomiędzy uogólnionym liniowym modelem mieszanym, a liniowym modelem mieszanym
polega na tym, że w uogólnionym liniowym modelu mieszanym zmienna zależna może pochodzić
z innego rozkładu niż Gaussowski (na przykład może mieć rozkład Poissona lub dwumianowy).
Zostanie teraz przedstawiona definicja uogólnionego liniowego modelu mieszanego na poziomie
klastr (używając notacji macierzowej).
Definicja 11 (Uogólniony liniowy model mieszany) [14]
Niech ηi będzie kombinacją liniową efektów stałych oraz efektów losowych dla i-tej klastry (ηi nazywana jest liniowym predyktorem dla i-tej klastry), czyli
ηi = Xi β + Zi bi
gdzie:
β - wektor nieznanych p parametrów efektów stałych
Xi - macierz zmiennych objaśniających o efektach stałych dla i-tej klastry
bi - wektor nieznanych q zmiennych losowych efektów losowych dla i-tej klastry, bi ∼ N (0, G)
Zi - macierz zmiennych objaśniających o efektach losowych dla i-tej klastry
(wymiary macierz są takie same jak w definicji liniowego modelu mieszanego).
Następnie wprowadźmy funkcję wiążącą g. Funkcja wiążąca g łączy wartość oczekiwaną zaobserwowanych danych dla i-tej klastry (czyli µi ) z predyktorem liniowym ηi (czyli g(µi ) = ηi ). Wówczas
uogólniony liniowy model mieszany dla warunkowej wartości oczekiwanej Y (warunkowej, ponieważ
wartość oczekiwana uzależniona jest od różnych klastr predyktora liniowego) jest postaci
g(E(Yi |bi )) = ηi
37
lub równoważnie można zapisać
E(Yi |bi ) = g −1 (ηi ) = g −1 (Xi β + Zi bi ) = µi
gdzie:
Yi - wektor zmiennych objaśnianych w i-tej klastrze
g −1 - odwrotność funkcji wiążącej g.
Dla Yi można użyć zapisu
Yi = g −1 (ηi ) + i
gdzie:
i - wektor błędów dla obserwacji w i-tej klastrze (i ∼ N (0, Ri )).
Tablica 2: Przykłady funkcji wiążących dla uogólnionego liniowego modelu mieszanego. Opracowano na podstawie literatury [2] oraz [10].
µ = g −1 (η) =
Funkcja wiążąca
g(µ) = η =
identyczności
µ
η
log
log(µ)
eη
logit
µ
log( 1−µ
)
1
1+e−η
loglog
−log(−log(µ))
exp(−exp(−η))
cloglog
log(−log(1 − µ))
1 − exp(−exp(η))
potęgowa
1
µ2
√1
η
1
µ
1
η
(z wykładnikiem -2)
odwrotna
Zauważmy, że za pomocą uogólnionego liniowego modelu mieszanego można badać liniowy model
mieszany. Jeżeli założymy, że zaobserwowane dane w rozważanym badaniu mają rozkład normalny
oraz przyjmiemy, że funkcja wiążąca jest postaci identycznościowej to otrzymamy liniowy model
mieszany.
38
5
Program SAS dla liniowych modeli mieszanych
5.1
Wprowadzenie
W języku programowania SAS istnieje możliwość analizowania każdego z rodzai modeli mieszanych (Rysunek 2). W mojej pracy skupiam się głównie na liniowych modelach mieszanych, dlatego
w następnym rozdziale opiszę procedurę PROC MIXED (dla liniowych modeli mieszanych). Gdy
czytelnik zapozna się oraz dobrze zrozumie procedurę PROC MIXED to powinien poradzić sobie z użyciem innych procedur dla pozostałych rodzai modeli mieszanych (opis procedury PROC
NLMIXED dla nieliniowego modelu mieszanego oraz PROC GLIMMIXED dla uogólnionego liniowego modelu mieszanego znajduje się literaturze (odpowiednio) [10] oraz [11]). Zwróćmy również
uwagę, że dla liniowych modeli mieszanych można użyć dwóch procedur (PROC MIXED i PROC
HPMIXED). Wyjaśnienie kiedy stosowana jest każda z procedur znajduje się w rozdziale 5.2.
Rysunek 2: Nazwy procedury w języku programowania SAS dla modeli mieszanych.
5.2
Procedura PROC MIXED
Liniowe modele mieszane są uogólnieniem ogólnych modeli liniowych dla których w programie SAS
istnieje procedura PROC GLM. Zatem za pomocą procedury PROC MIXED możemy estymować
nie tylko liniowy model mieszany, lecz również ogólny model liniowy.
Podstawowe informacje na temat procedury PROC MIXED:
• przed rozpoczęciem pracy z procedurą PROC MIXED należy sprawdzić czy zmienna zależna
(zmienna objaśniana) ma rozkład normalny
• zapewnia spory wybór struktur kowariancji (dzięki czemu możemy badać np. dane wzdłużne
czy dane z powtórzonego pomiaru)
• wykonuje testy istotności dla parametrów np. t-test, test Walda
• estymuje parametry modelu korzystając z metod m. in. ML oraz REML
• do optymalizacji funkcji wiarygodności wykorzystuje algorytm Newtona-Raphsona (w skrócie
N-R, opis algorytmu N-R znajduje się w rozdziale 7.3)
39
Tablica 3 przedstawia przykład składni dla procedury PROC MIXED.
Tablica 3: Składnia procedury PROC MIXED. Opracowano na podstawie literatury [8].
Wyrażenie
Przykładowe
Przykładowe
oraz opis wyrażenia
opcje
”pod opcje”
PROC MIXED
DATA=
deklaracja zbioru wejściowego
METHOD=
deklaracja metody estymacji
=REML
Opis opcji i ”pod opcji”
ograniczona metoda największej
wiarygodności (opcja domyślna*)
=ML
metoda największej wiarygodności
COVTEST
obliczenie błędów standardowych
dla F statystyki oraz obliczenie testu
Walda dla parametrów kowariancji
MAXITER=
możliwość określenia maksymalnej
liczby iteracji dla metody N-R
(opcja domyślna* wynosi 150)
=(liczba)
deklaracja liczby iteracji
NOCLPRINT
brak wypisania tabeli
”Informacje o poziomach klasyfikacji”
NOITPRINT
brak wypisania iteracji
dla metody optymalizacji N-R
PLOTS=
rysowanie wykresów statystycznych**
=ALL
wyrysowanie wszystkich możliwych
wykresów dla danego badania
CLASS
deklaracja
zmiennych
klasyfikujących
MODEL
S
wypisanie wyników dla parametrów
efektów stałych (wyliczenie
deklaracja
estymatorów parametrów efektów
zmiennej
stałych, badanie istotności parametrów
objaśnianej
i zmiennych
efektów stałych)
OUTP=
deklaracja zbioru wyjściowego,
objaśniających
do którego zostaną zapisane
o efektach
wyniki
stałych
DDF=
możliwość deklaracji przez
użytkownika liczby stopni
swobody dla każdego efektu stałego***
=(lista)
deklaracja liczby stopni
dla efektów stałych (np.=3, ... ,4,7)
40
DDFM=
deklaracja metody obliczania
stopni swobody dla parametrów
efektów stałych ***
=CONTAIN
metoda podzbiorów (opcja
domyślna*, gdy zostało zadeklarowane
w programie wyrażenie RANDOM)
=BETWITHIN
metoda pomiędzy-w (opcja
domyślna*, gdy zostało użyte
w programie wyrażenie REPEATED,
lecz nie zostało zadeklarowane
wyrażenie RANDOM)
=SATTERTHWAITE
metoda Satterthwaita
=KENWARDROGER
metoda Kenwarda-Rogera
ALPHA=
deklaracja poziomu istotności
dla testów badających istotność
parametrów efektów stałych
(opcja domyślna*: α = 0.05)
NOINT
deklaracja, aby rozpatrywany model
nie zawierał wyrazu wolnego
(opcja domyślna* zawiera wyraz wolny)
RANDOM
S
wypisanie wyników dla parametrów
kowariancji efektów losowych θG
deklaracja
(wyliczenie estymatorów, badanie
zmiennych
istotności parametrów kowariancji
objaśniających
o efektach
dla efektów losowych: test Walda)
TYPE=
deklaracja struktury macierzy
kowariancji G
losowych
oraz deklaracja
=UN
ustawień
dla macierzy G
niestrukturalna
=VC
struktura komponentów wariancji
G
wypisanie wyestymowanej
macierzy G (czyli Ĝ)
SUBJECT=
definiowanie klastr w modelu
=(zmienna)
ALPHA=
podanie klastr modelu
deklaracja poziomu istotności
dla testu badającego istotność
parametrów kowariancji efektów
losowych (opcja domyślna*:α = 0.05)
wczytanie macierzy G
GDATA=
ze zbioru danych****
V
wypisanie wyestymowanej macierzy Vi
VCORR
wypisanie macierzy korelacji dla
(czyli V̂i )
wyestymowanej macierzy Vi
REPEATED
TYPE=
deklaracja struktury macierzy
kowariancji Ri
deklaracja
=AR(1)
struktura autoregresji I rzędu
ustawień
=VC
struktura komponentów wariancji
dla macierzy Ri
(opcja domyślna*)
41
=TOEP
struktura Toeplitza
=CS
struktura symetrii związku
R
wypisanie wyestymowanej
macierzy Ri (czyli R̂i )
SUBJECT=
definiowanie klastr w modelu
=(zmienna)
podanie klastr modelu
RUN;
* opcja domyślna rozumiana jest jako wartość opcji ustawiona automatycznie w programie SAS
w przypadku braku deklaracji tej opcji
** opcja PLOTS aby zadziałała wymaga modułu graficznego (czyli przed PROC MIXED
należy wstawić wyrażenie ’ODS GRAPHICS ON’, a po RUN wyrażenie ’ODS GRAPHICS OFF’)
*** stopnie swobody liczone np. dla mianownika t statystyki
**** przy założeniu, że macierz G jest znana (wówczas macierz Ri jest wyznaczana metodą N-R)
Zauważmy, że za pomocą Tablicy 3 można analizować proste oraz bardziej skomplikowane liniowe
modele mieszane. Dobra znajomości procedury PROC MIXED pozwala na podstawie samego kodu
programu odczytać budowę tego modelu, wskazać klastry, czynniki losowe oraz model zagnieżdżony
(w rozdziale 5.3 zostały przedstawione przykłady procedury PROC MIXED dla różnych modeli).
Do estymacji liniowych modeli mieszanych w języku programowania SAS (oprócz procedury PROC
MIXED) możemy skorzystać z procedury PROC HPMIXED. Uwaga 14 wyjaśnia kiedy stosowana
jest procedura PROC HPMIXED.
Uwaga 14
Procedura PROC HPMIXED stosowana jest dla liniowego modelu mieszanego, w którym występuje
spora liczba efektów stałych, efektów losowych oraz obserwacji. Składnia procedury PROC HPMIXED jest bardzo podobna do składni procedury PROC MIXED (więcej na temat procedury PROC
HPMIXED można przeczytać w literaturze [9]).
5.3
Zapis modelu dla procedury PROC MIXED
Przedstawione teraz zostaną kody programów dla procedury PROC MIXED. W rozdziale tym nie
będziemy pracować na konkretnych danych. Głównym celem jest pokazanie jak w praktyce można
wykorzystać składnie procedury PROC MIXED przedstawioną w Tablicy 3 oraz jak na podstawie
przykładowego kodu można odczytać postać liniowego modelu mieszanego i odwrotnie (czyli jak
dany model zapisać za pomocą procedury PROC MIXED).
Przyjmijmy, że prowadzimy badanie, którego celem jest sprawdzenie czy wzrost zależy płci oraz od
rodziny z której pochodzimy. Wybieramy losowo cztery rodziny z populacji rodzin. Czyli rodzina
jest czynnikiem losowym.
Rysunek 3 przedstawia analizę czynnika losowego.
42
Rysunek 3: Analiza czynnika losowego (przykład - wzrost).
Zostały wybrane losowo cztery rodziny zatem mamy cztery klastry czynnika losowego (jakim jest
rodzina). Klastra nr 1 (czyli Rodzina 1) zawiera pięć obserwacji (czyli pięciu członków rodziny).
Rodzina 2 składa się z sześciu członków rodziny, rodzina 3 z dwóch członków, a ostatnia rodzina
(Rodzina 4) z pięciu członków rodziny.
5.3.1
Kod 1
Rysunek 4: Kod nr 1 (przykład - wzrost).
Rysunek 4 przedstawia kod programu nr 1. Na początku kodu został zdefiniowany zbiór z którego mają zostać wczytane dane, następnie wprowadzona została zmienna klasyfikująca czyli płeć.
Kolejnym krokiem jest zapisanie modelu (czyli zmienna objaśniana = zmienne objaśniające). W
kodzie zostało również zapisane polecenie, aby program wypisał estymatory parametrów stałych
oraz wykonał testy istotności dla parametrów efektów stałych. Nie zdefiniowaliśmy struktur macierzy kowariancji Ri , dlatego program przyjmuje domyślnie strukturę komponentów wariancji.
Zauważmy, że w przykładzie tym nie rozważmy czynnika losowego. Jak zostało wspomniane w
rozdziale 3.1 liniowy model mieszany jest uogólnieniem ogólnego modelu liniowego. Przykład ten
(Rysunek 4) jest badaniem ogólnego modelu liniowego za pomocą procedury PROC MIXED dla
liniowych modeli mieszanych. Na podstawie kodu można zapisać, że rozpatrywany model jest postaci
wzrostij = β0 + P LECij × β1 + ij
gdzie:
wzrostij - zmienna objaśniana o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze
β0 - wyraz wolny (średnia kategorii referencyjnej)
β1 - nieznany parametr efektu stałego związanego z zmienną objaśniającą (płeć)
P LECij - zmienna objaśniająca o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze
ij - błąd dla j-tej obserwacji w i-tej klastrze, ij ∼ N (0, σR ).
43
5.3.2
Kod 2
Rysunek 5: Kod nr 2 (przykład - wzrost).
W kodzie nr 2 (Rysunek 5) pojawia się już wyrażenie RANDOM, zatem rozważany przez nas model jest liniowym modelem mieszanym. Użycie opcji COVTEST spowoduje wyliczenie z statystyki
dla testu Walda badającego istotność parametrów kowariancji. W kodzie została użyta dwukrotnie
opcja S w celu wypisania estymatorów parametrów efektów stałych oraz estymatorów parametrów
kowariancji. Jeżeli w wyrażeniu RANDOM niewpisane zostaną zmienne objaśniające o efektach
losowych, a sam czynnik losowy to oznacza, że badana jest losowość wynikająca ze zmiany i-tej
klastry dla czynnika losowego (czyli tak jak w rozważanym przykładzie).
Rysunek 6: Kod nr 2 - alternatywna wersja (przykład - wzrost).
Rysunek 5 i Rysunek 6 wyrażają ten sam model, a uzyskane wyniki za pomocą programu SAS są
identyczne. Różnica polega na tym, że na Rysunku 6 wyrażenie RANDOM zostało zapisane bardziej czytelnie z punktu widzenia analitycznego, ponieważ jest dokładne wskazanie klastr czynnika
losowego. Zauważmy również, że nie zostały zdefiniowane struktury macierzy kowariancji G oraz
Ri , dlatego program przyjmuje domyślnie strukturę komponentów wariancji dla obydwu macierzy.
Procedura PROC MIXED domyślnie przyjmuje wyraz wolny (w kodzie nr 2 nie została użyta
opcja usuwająca wyraz wolny, ponieważ jak zostało wspomniane wcześniej chcemy badać losowość
wynikająca tylko ze zmiany i-tej klastry) zatem rozważany model jest postaci
wzrostij = β0 + P LECij × β1 + b0i + ij
gdzie:
wzrostij - zmienna objaśniana o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze
β0 - wyraz wolny (średnia kategorii referencyjnej)
β1 - nieznany parametr efektu stałego związanego z zmienną objaśniającą (płeć)
P LECij - zmienna objaśniająca o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze
b0i - efekty losowe związane z i-tymi klastrami czynnika losowego ’rodzina’, b0i ∼ N (0, σG )
ij - błąd dla j-tej obserwacji w i-tej grupie, ij ∼ N (0, σR ).
44
Zaprezentowane przykłady pokazują jak na podstawie znajomości tylko kodu programu możemy
odczytać strukturę i postać modelu. Umiejąc odczytywać postać modelu z kodu programu będziemy tym samym umieli zapisać model dla innego badania za pomocą procedury PROC MIXED.
Rozdział ten jest wprowadzeniem przed bardziej zaawansowaną analizą danych, gdzie pojawia się
większa liczba efektów losowych oraz klastr. Przykładem zaawansowanej analizy odnoszącej się do
konkretnych danych jest np. analiza trzy-poziomowych danych sklastrowanych przeprowadzona w
kolejnym rozdziale (rozdział 6).
6
Trzy-poziomowe dane sklastrowane dla liniowego modelu
mieszanego
6.1
Wprowadzenie
W rozdziale tym będziemy analizować liniowy model mieszany dla danych sklastrowanych, które
posiadają trzy poziomy. W trzy-poziomowych danych sklastrowanych jednostki analityczne (Poziom 1) są zagnieżdżone w losowo wybranych klastrach czynnika losowego 1 (Poziom 2), natomiast
klastry te są zagnieżdżone w losowo wybranych klastrach czynnika losowego 2 (Poziom). Zatem
rozpatrywany model będzie zawierał dwa czynniki losowe. Model, którego dane posiadają strukturę
poziomową (hierarchiczną) pozwala badaczowi na analizowanie czy zmienne objaśniające znajdujące się na którymkolwiek z poziomów mają wpływ na zmienną objaśnianą (która zawsze jest
mierzona na poziomie 1). Modele opierające się na trzy-poziomowych danych sklastrowanych nazywane są też trzy-poziomowymi modelami hierarchicznymi. Przykład trzy-poziomowych danych
sklastrowanych (dla wybranych dwóch dziedzin badań) pokazuje Tablica 1 (rozdział 2.5). W tablicy
tej jedną z rozważanych dziedzin badań jest edukacja. W tym przypadku zmienna objaśniana jest
mierzona dla każdej jednostki analitycznej, a zmienne objaśniające są rozpatrywane na każdym
poziomie danych. Podobny przykład będzie rozważany w tym rozdziale.
6.2
Prezentacja danych
Trzy-poziomowe dane zostały zebrane przez naukowców (H. C. Hill, B. Rowan i D. L. Ball, 2004) z
Uniwersytetu Michigan. Celem ich badania było sprawdzenie jak wiedza matematyczna nauczycieli
wpływa na osiągnięcia matematyczne uczniów pierwszej oraz trzeciej klasy szkoły podstawowej z
losowo wybranych szkół ze Stanów Zjednoczonych.
Na potrzeby tego przykładu będziemy rozważać tylko dane zabrane dla klas pierwszych szkoły
podstawowej dla 1 190 uczniów z losowo wybranych 312 klas znajdujących się w losowo wybranych
107 szkołach. Dane pobrałem ze strony internetowej B. Westa [12] (po otrzymaniu mailowej zgody
na ich pobranie oraz wykorzystanie w pracy), który jest m. in. współautorem literatury [1].
Rysunek 7 przedstawia hierarchiczną strukturę rozpatrywanych w tym rozdziale trzy-poziomowych
danych sklastrowanych. Zauważmy, że uczniowie (Poziom 1) są zagnieżdżeni w klasach (Poziom
2), a klasy są zagnieżdżone w szkołach (Poziom 3). Badany model posiadał dwa czynniki losowe.
Pierwszy czynnik losowy ’klasy’ zawiera 312 klastr, które są zagnieżdżone w 107 klastrach drugiego
czynnika losowego ’szkoła’.
45
Rysunek 7: Hierarchiczna struktura danych dla przykładu KLASY.
Tablica 4: Zmienne dla trzy-poziomowych danych.
Zmienna
Opis zmiennej
Poziom 3 (Szkoła)
SZKOLA ID
numer identyfikacyjny szkoły (numer klastry czynnika losowego - szkoła)
DOM SZKOLA
odsetek gospodarstw domowych poniżej poziom ubóstwa w sąsiedztwie
szkoły
Poziom 2 (Klasa)
KLASA ID
numer identyfikacyjny klasy (numer klastry czynnika losowego - klasa)
LATA N
lata doświadczenia zawodowego nauczyciela
PRZY M
przygotowanie zawodowe nauczyciela (np. liczba odbytych kursów
matematycznych)
MAT W
wiedza matematyczna nauczyciela (bazująca na 30 stopniowej skali,
im większa wartość tym większa wiedza matematyczna nauczyciela)
Poziom 1 (Uczeń)
UCZEN ID
numer identyfikacyjny ucznia (numer jednostki analitycznej)
MAT TEST
liczba punktów uzyskana przez każdego ucznia na teście sprawdzającym
wiedzę matematyczną przed rozpoczęciem nauki w pierwszej klasie
MAT OS
różnica punktów pomiędzy wynikiem uzyskanym na teście
opisanym za pomocą zmiennej MAT TEST, a wynikiem uzyskanym na teście,
który również sprawdza wiedzę matematyczną na tej samej grupie uczniów,
lecz został wykonany po roku od MAT TEST (gdzie badana grupa uczniów
uczęszczała już do pierwszej klasy szkoły podstawowej)
(zmienna objaśniana)
PLEC
zmienna klasyfikująca płeć ucznia (0 = chłopiec, 1 = dziewczynka)
46
MNIEJ U
zmienna klasyfikująca czy dany uczeń pochodzi z mniejszości narodowej
(0 = uczeń nie pochodzi z mniejszości narodowej, 1 = uczeń pochodzi
z mniejszości narodowej)
SSU
status socjoekonomiczny ucznia
Tablica 4 przedstawia i opisuje zmienne jakie zostały wybrane oraz zmierzone dla jednostek analitycznych. Zmienne te zostały dodatkowo podzielone według poziomu danych w celu lepszego zobrazowania hierarchicznej struktury rozważanych danych sklastrowanych. Celem naszej analizy będzie
badanie wpływu zmiennych objaśniających na wybranych poziomach (poziom-ucznia, poziom-klas,
poziom-szkół) na zmienną objaśnianą odnoszącą się do osiągnięć ucznia (MAT OS).
Rysunek 8: Fragment danych dla badania KLASY.
Zbiór danych jak i samo badanie nazwijmy KLASY. Rysunek 8 zawiera fragment (26 z pośród
1 190) obserwacji oraz zebranych dla nich danych. Pierwszy wiersz zawiera nazwy zmiennych,
natomiast kolumny prezentują uzyskane dane dla konkretnej zmiennej.
Tablica 5: Fragment danych dla badania KLASY (z podziałem na
poziomy i klastry danych).
Szkoła (Poziom 3)
Klastry
Zmienna
Klasa (Poziom 2)
Klastry
objaśniająca
Uczeń (Poziom 1)
Zmienna
Jednostka
Zmienna
Zmienna
objaśniająca
analityczna
objaśniana
objaśniająca
PRZY M
UCZEN ID
MAT OS
PLEC
SZKOLA ID
DOM SZKOLA
KLASA ID
1
0.082
160
2
1
32
1
1
0.082
160
2
2
109
0
47
1
0.082
160
2
3
56
1
1
0.082
217
3.25
4
83
0
1
0.082
217
3.25
5
53
0
1
0.082
217
3.25
6
65
1
1
0.082
217
3.25
7
51
0
1
0.082
217
3.25
8
66
0
1
0.082
217
3.25
9
88
1
1
0.082
217
3.25
10
7
0
1
0.082
217
3.25
11
60
0
2
0.082
197
2.5
12
2
1
2
0.082
197
2.5
13
101
0
2
0.082
211
2.33
14
30
0
2
0.082
211
2.33
15
65
0
...
Opierając się na Tablicy 5 najłatwiej można zaobserwować hierarchiczną strukturę rozważanych
przez nas trzy-poziomowych danych sklastrowanych. Dla każdego poziomu została wybrana przykładowa zmienna oraz fragment zaobserwowanych dla niej danych. Dla każdej zaobserwowanej
wielkości został przypisany numer klastry z uwzględnieniem jakiego czynnika losowego jest to klastra.
Na podstawie Tablicy 5 może odczytać na przykład, że z losowo wybranej szkoły o numerze 1
do badania zaproszono jedenaścioro uczniów z dwóch losowo wybranych klas z tej szkoły (z klasy 1
wybrano losowo trójkę uczniów, natomiast z klasy 2 wybrano losowo dziewięcioro uczniów). Wśród
uczniów ze szkoły 1 było siedmioro chłopców i cztery dziewczynki (z klasy 1: losowo wybrano
jednego chłopca oraz dwie dziewczynki, z klasy 2: wybrano losowo sześciu chłopców i dwie dziewczynki). Możemy również w szybki sposób odczytać, że przykładowo uczeń o numerze 4 to chłopiec,
który jest przypisany do klasy o numerze 160, a klasa ta pochodzi ze szkoły o numerze 1.
6.3
Analiza danych
Zostanie teraz przeprowadzona statystyczna analiza dla danych (opisanych w rozdziale 6.2) za pomocą języka programowania SAS. Analiza ta stanowi ważny element w modelowaniu matematycznym, ponieważ to głównie podczas jej decyduje się jaki rodzaj modelu będzie najlepiej odpowiadał
do danych zmierzonych na potrzeby prowadzonego badania (dlatego powinna być wykonywana
przed wyborem i estymacją modelu). Analizę taką przeprowadza się również w celu szerszego spojrzenia na strukturę naszych danych poprzez wyliczenie podstawowych statystyk dla nich (takich
jak np. średnia, odchylenie standardowe).
6.3.1
Statystyki dla zmiennych bez brakujących wartości
Za pomocą procedury PROC IMPORT wczytujemy zebrane dane ze zbioru (kod programu znajduje się w rozdziale 8.4). Zbiór danych nazwany został KLASA i zapisany jest w formacie XLSX.
Fragment zaimplementowanych danych do programu SAS przedstawia Rysunek 9.
48
Rysunek 9: Zaimplementowane dane w programie SAS.
Następnie wyliczane są statystyki (Rysunek 10) dla zmiennych znajdujących się na Poziomie 1
(czyli dla MAT TEST, MAT OS, PLEC, MNIEJ U oraz SSU) korzystając z procedury PROC
MEANS (kod programu - rozdział 8.3).
Rysunek 10: Statystyki - poziom 1.
Każda ze zmiennych na poziomie 1 posiada 1 190 obserwacji. Oznacza to, że zmienne objaśniające
na poziomie 1 zostały zmierzone dla całkowitej liczby jednostek analitycznych (uczniów). Z Rysunku 10 możemy odczytać na przykład, że 51% wszystkich uczniów stanowią dziewczynki oraz że
68% z nich posiada status mniejszości narodowej. Średni wynik wszystkich uczniów z testu sprawdzającego wiedzę wyniósł 467 punktów, a po roku został poprawiony o średnio 58 punktów.
Chcąc wyliczyć statystyki dla zmiennych znajdujących się na poziomie 2 nie możemy od razu
użyć procedury PROC MEANS, ponieważ uzyskalibyśmy wyniki dla 1 190 obserwacji. Zmienne
na poziomie 2 odnoszą się do czynnika losowego jakim jest klasa. Jak wiemy dane zostały zebrane
dla 312 losowo wybranych klas. Nie biorąc tego pod uwagę (czyli licząc statystyki jak dla poziomu
1) obliczone statystyki można byłoby potraktować jakby były liczone dla 1 190 klas. Aby uniknąć tego błędu należy najpierw posortować dane (zapisując je do nowego zbioru) według numeru
identyfikacyjnego każdej klasy (KLASA ID) korzystając z procedury PROC SORT, a następnie
stworzyć nowy zbiór danych, gdzie za pomocą wyrażenia IF pozostawimy tylko jedną obserwację
dla każdego KLASA ID. Wówczas dla tak przygotowanego zbioru danych możemy użyć procedury
PROC MEANS (kod programu - rozdział 8.3).
49
Rysunek 11: Statystyki - poziom 2.
Na poziomie 2 rozważamy statystyki dla zmiennych LATA N oraz PRZY M. W rozdziale 6.3.2
zostanie wytłumaczone dlaczego pominęliśmy teraz zmienną MAT W odnoszącą się także do poziomu danych 2. W oparciu o Rysunek 11 możemy odczytać, że zmienna LATA N zawiera 312
obserwacji, ponieważ odnosi się do czynnika losowego ’klasa’ zawierającego 312 klastr. Średni wiek
doświadczenia zawodowego 312 nauczycieli (liczba nauczycieli jest równa 312, ponieważ zostało
losowo wybranych 312 klas) wynosi 12 lat.
Wyliczając statystyki dla zmiennych znajdujących się na poziomie 3 postępujemy podobnie jak dla
statystyk poziomu 2 z drobnymi zmianami. Sortujemy nasz główny zbiór KLASA według zmiennej
klasyfikującej szkołę (SZKOLA ID), a następnie za pomocą wyrażenia IF usuwamy obserwacje tak
aby pozostawić tylko jedną dla każdego SZKOLA ID (kod programu - rozdział 8.3).
Rysunek 12: Statystyki - poziom 3.
Rysunek 12 przedstawia statystyki dla zmiennych znajdujących się na poziomie 3 zebranych danych. Zmienna DOM SZKOLA posiada 107 obserwacji, ponieważ odnosi się do czynnika losowego
’szkoła’, a w rozważanym badaniu zostało losowo wybranych 107 klastr tego czynnika. Na podstawie otrzymanych statystyk możemy odczytać, że średni odsetek gospodarstw domowych poniżej
poziomu ubóstwa w sąsiedztwie badanych 107 szkół wynosi 19%.
6.3.2
Statystyki dla wszystkich zmiennych
Rozważane statystyki były przeprowadzone dla zmiennych, które nie posiadały żadnych brakujących wartości (dlatego została wykluczona zmienna na poziomie 2 MAT W). W konsekwencji
statystyki były wyliczane dla wszystkich obserwacji (uczniów) n=1190. Teraz przy wyliczaniu statystyk dla odpowiedniego poziomu danych weźmiemy pod uwagę wszystkie zmienne (czyli będziemy
również rozważać zmienną MAT W). Należy zatem usunąć obserwacje o brakującej wartości dla
zmiennej MAT W. W tym przypadku całkowita ilość kompletnych obserwacji (uczniów) będzie
wynosiła n=1081 (ponieważ dla takiej liczby uczniów zebrano dane dla każdej zmiennej w prowadzonym badaniu).
50
Przed wyliczeniem statystyk dla opisanego wyżej przypadku należy za pomocą wyrażenia IF zapisać do nowego zbioru danych tylko te obserwację, dla których zostały zmierzone wszystkie zmienne
(czyli usunąć obserwacje z brakującą wielkością dla zmiennej MAT W). Następnie postępujemy
podobnie jak przy wyliczaniu statystyk dla każdego poziomu danych w rozdziale 6.3.1 (kod programu - rozdział 8.3).
Rysunek 13: Statystyki - wszystkie poziomy.
Na Rysunku 13 przedstawione zostały wyliczone statystyki przez program SAS dla każdego poziomu danych (po uwzględnieniu wszystkich zmiennych). Zauważmy, że w wyniku usunięcia obserwacji z niekompletnymi danymi liczba klas zmniejszyła się o 27, liczba szkół zmniejszyła się o
2, a liczba uczniów dla których wyliczono statystyki wynosi 1081. Tak niewielka ilość usuniętych
szkół w porównaniu z ilością usuniętych klas wynika z tego, że brak wartości zmiennej MAT W dla
danej klasy wyrzucą ją ze zbioru danych, natomiast dla szkoły z której pochodzi ta klasa może być
rozważna jeszcze inna klasa dla której zmierzono wartość MAT W. W konsekwencji szkoła nadal
rozważana jest w badaniu lecz pomniejszona o ilość klas.
6.4
Postać modelu
W rozdziale tym zostanie przedstawiona postać modelu głównego. Korzystając z tego, że badany
liniowy model mieszany jest modelem hierarchicznym zaprezentowane zostaną także postacie modelu z podziałem na poziom danych. Dla naszego przykładu przyjmujemy strukturę komponentów
wariancji (strukturę diagonalną) dla macierzy kowariancji efektów losowych oraz dla macierzy
kowariancji odnoszącej się do błędów. W rozważanym modelu będzie badana losowość związana
ze zmianą i-tej (j-tej) klastry dla czynnika losowego ’klasa’ (’szkoła’), dlatego ’losowość’ będzie
związana tylko z wyrazem wolnym dla danego czynnika losowego.
51
6.4.1
Model główny
Model główny (zawierający zmienne na wszystkich trzech poziomach) dla rozważanych w tym
badaniu danych sklastrowanych jest postaci
M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 +
LAT A Nijk ×β5 +P RZY Mijk ×β6 +M AT Wijk ×β7 +DOM SZKOLAijk ×β8 +b0i|k +b0k +ijk
gdzie:
M AT OSijk - zmienna objaśniana dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej
w k-tej szkole
β0 - wyraz wolny (średnia kategorii referencyjnej)
β1 , ... , β8 - nieznane parametry efektów stałych
M AT T ESTijk , P LECijk , M N IEJ Uijk , SSUijk - zmienne objaśniające o efektach stałych (poziom 1) dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole
P RZY Mijk , M AT Wijk , LAT A Nijk - zmienne objaśniające o efektach stałych (poziom 2) dla
j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole
DOM SZKOLAiji - zmienna objaśniająca o efektach stałych (poziom 3) dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole
b0i|k - efekty losowe (wyrazu wolnego) związane z i-tymi klastrami czynnika losowego ’klasa’, za2
gnieżdżonych w j-tych klastrach czynnika losowego ’szkoła’, b0i|k ∼ N (0, σklasa
)
b0k - efekty losowe (wyrazu wolnego) związane z j-tymi klastrami czynnika losowego ’szkoła’,
2
b0k ∼ N (0, σszkola
)
ijk - błąd dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole,
ijk ∼ N (0, σ 2 ).
W modelu przyjmujemy, że i-te klastry związane z "
klasami są niezależne
od k-tych klastr związa#
2
σklasa
0
.
nych ze szkołami, czyli macierz G jest postaci G =
2
0
σszkola
6.4.2
Model dla poziomu 1 (ucznia)
Na poziomie 1 model główny jest postaci
M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + ijk
(opis zmiennych jak dla modelu głównego)
6.4.3
Model dla poziomu 2 (klas)
Na poziomie czynnika losowego ’klasa’ (poziom 2) model główny można zapisać jako
M AT OSijk = β0 + LAT A Nijk × β5 + P RZY Mijk × β6 + M AT Wijk × β7 + b0i|k + ijk
(opis zmiennych jak dla modelu głównego)
52
6.4.4
Model dla poziomu 3 (szkół)
Model na poziomie 3 dla rozważanych danych sklastrowanych jest postaci
M AT OSijk = β0 + DOM SZKOLAjik × β8 + b0k + ijk
(opis zmiennych jak dla modelu głównego)
6.5
Badanie i estymacja modelu głównego
Model główny jest zaawansowanym modelem, dlatego nie powinno się go estymować za pomocą
procedury PROC MIXED w programu SAS i wnioskować na podstawie tak uzyskanych wyników.
Dlatego w tym rozdziale zostanie przeprowadzona analiza modelu w czterech etapach. Dla testów
badających istotność parametrów liniowego modelu mieszanego przyjmujemy poziom istotności
α=0.05. Kody programów znajdują się w rozdziale 8.4.
6.5.1
Etap 1
• Opis etapu.
W etapie tym będziemy zajmowali się modelem trzy-poziomowym (model 1.1) zawierającym tylko
wyraz wolny dla efektów stałych oraz wyrazy wolne dla efektów losowych dla klas (Poziom 2) oraz
dla szkół (Poziom 3). Zatem model 1.1 będzie badał losowość wynikającą ze zmiany i-tej klastry
czynnika losowego ’klasa’ zagnieżdżonej w k-tej klastrze czynnika losowego ’szkoła’. Następnie
zostanie zbudowany model 1.1A usuwając z modelu 1.1 efekt losowy (wyraz wolny) dla klas. Na
końcu etapu zostanie przeprowadzone porównywanie modelu 1.1 z modelem 1.1A (na podstawie
testu wskaźnika wiarygodności), aby podjąć decyzje czy należy usunąć wyraz wolny związany z
efektami losowymi dla klas z modelu 1.1.
• Zapis modelu i kod programu (model 1.1).
Model 1.1 jest postaci
M AT OSijk = β0 + b0i|k + b0k + ijk
gdzie:
2
b0i|k ∼ N (0, σklasa
)
2
b0k ∼ N (0, σszkola
)
ijk ∼ N (0, σ 2 ).
Model 1.1 nie zawiera efektów stałych dla zmiennych objaśniających, dlatego nazywany jest również modelem bezwarunkowym (bądź modelem o efektach losowych).
Rysunek 14: Model 1.1 - kod programu.
53
Rysunek 14 przedstawia kod programu dla modelu 1.1. Na początku procedury PROC MIXED
wczytujemy zbiór KLASA z danymi oraz używamy opcji COVTEST w celu wypisania statystyki
z testu Walda. Następnie korzystając z wyrażenia CLASS definiujemy zmienne klasyfikujące oraz
używając wyrażenia MODEL deklarujemy zmienną objaśnianą i zmienne objaśniające o efektach
stałych (w modelu 1.1 nie występują zmienne objaśniające o efektach stałych). Zauważmy, że nie
trzeba deklarować wyrazu wolnego w wyrażeniu MODEL, ponieważ program SAS automatycznie
bada wyraz wolny. Używając opcji S chcemy aby zostały wypisane wyniki dla wyrazu wolnego
efektów stałych. Rozważany model (model 1.1) zawiera dwa czynniki losowe, dlatego w kodzie
programu (Rysunek 14) zostało podwójnie użyte wyrażenie RANDOM. Najpierw jest definiowany czynnik losowy ’szkoła’ oraz wskazane zostały klastry tego czynnika. Następnie deklarowany
jest czynnik losowy ’klasa’ oraz zostały zaznaczone klastry tego czynnika. Używając opcji SUBJECT=KLASA ID(SZKOLA ID) wskazujemy w programie, że klastry czynnika losowego ’klasa’ są
zagnieżdżone w klastrach czynnika losowego ’szkoła’. Opcja S dla wyrażenia RANDOM spowoduje
wypisanie wartości wyestymowanych parametrów kowariancji.
Rysunek 15: Model 1.1 - program SAS (część 1).
Rysunek 15 oraz Rysunek 16 przedstawiają tablice jakie są wyświetlane w programie SAS przy
użyciu procedury PROC MIXED. W pierwszej z nich znajdują się informacje o modelu, czyli m.
in. zbiór z jakiego zostały wczytane dane, jaka jest zmienna objaśniana w modelu, struktura macierzy kowariancji dla efektów losowych oraz dla błędów (nie deklarowaliśmy struktury macierzy
kowariancji w kodzie programu, dlatego SAS przyjął strukturę komponentów wariancji), metodę
estymacji parametrów modelu (również została wybrana opcja domyślna, czyli ograniczona metoda
największej wiarygodności REML) oraz metodę wyznaczenia stopni swobody (zbiór danych jest
54
spory dlatego nie ma dla nas znaczenia jaka metoda będzie wybrana do wyliczenia stopni swobody
dla mianownika t statystyki, została wybrana opcja domyślna przy zdefiniowaniu wyrażenia RANDOM, czyli metoda podzbiorów).
Zauważmy, że tabela ’Wymiary’ odnosi się do czynnika losowego ’szkoła’. Najpierw wskazana została ilość parametrów kowariancji, następnie ilość kolumn macierzy X oraz ilość kolumn (dla
każdej szkoły) macierzy Z (liczba 10 jest wyliczana jako maksymalna liczba klas dla rozważanych
szkół plus pojedyncza kolumna dla szkoły), ilość klastr czynnika losowego ’szkoła’ oraz maksymalną liczbę uczniów dla jednej szkoły.
Kolejna tabela (’Liczba obserwacji’) prezentuje ile obserwacji zostało wczytanych oraz użytych
dla badanego modelu.
Rysunek 16: Model 1.1 - program SAS (część 2).
W tabeli ’Historia iteracji’ (Rysunek 16) możemy odczytać ile iteracji zostało wykonanych metodą Newtona-Raphsona do optymalizacji logarytmu wiarygodności. Natomiast tabela ’Statystki
dopasowania’ prezentuje m. in. kryterium informacyjne Akaike (AIC) dla rozważanego modelu.
• Parametry efektów stałych i kowariancji.
Rysunek 17: Model 1.1 - parametry efektów stałych i kowariancji.
55
Na Rysunku 17 zostały przedstawione uzyskane rezultaty dla parametrów efektów stałych oraz
parametrów kowariancji dla modelu 1.1. Na podstawie Rysunku 17 można odczytać wartości tych
parametrów, co zostało zaprezentowane w Tablicy 6.
Tablica 6: Model 1.1 - parametry i ich wartości.
Parametr
Wartość parametru
β0
57.43
2
σklasa
2
σszkoa
2
99.19
σ
77.44
1028.28
• Zapis modelu i kod programu (model 1.1A).
Model 1.1A jest postaci
M AT OSijk = β0 + b0k + ijk
gdzie:
2
b0k ∼ N (0, σszkola
)
ijk ∼ N (0, σ 2 ).
Model 1.1A można nazwać modelem zagnieżdżonym w modelu 1.1, ponieważ powstał przez usunięcie z modelu 1.1 efektów losowych związanych z klastrami czynnika losowego ’klasa’. Głównym
celem dla jakiego rozważamy model 1.1A jest użycie testu wskaźnika wiarygodności dla parametrów kowariancji związanych z efektami losowymi dla klas.
Rysunek 18 prezentuje kody programów dla modelu 1.1A. Za pomocą tych kodów otrzymywane
są jednakowe wyniki dla naszego modelu. Różnica polega na przejrzystości zapisu. Zauważmy, że
jedynym elementem w uzyskanych rezultatach różnym dla obydwu kodów jest postać tabeli ’Wymiary’. W kodzie po lewej stronie zaznaczyliśmy klastry czynnika losowego ’szkoła’. Zatem w tabeli
tej w pozycji Tematy mamy wielkość 107, czyli 107 klastr posiada rozpatrywany czynnik losowy.
W kodzie po prawej stronie nie zaznaczaliśmy klastr czynnika losowego i w rezultacie otrzymujemy wielkość Tematy równą 1. Czyli mogłoby się wydawać, że czynnik losowy ma jedną klastrę
(ponieważ klastry te zostały wpisane do macierzy Z). Nie wpływa to na uzyskane wyniki, lecz dla
nas jako badaczy jest oczywistym, że ilość szkół wynosi 107. Natomiast dla osoby, która będzie
analizowała badanie na podstawie uzyskanych rezultatów w programie SAS nie będzie czytelne ile
klastr ma czynnik losowy i będzie musiała odwołać się do przeprowadzonej prezentacji danych oraz
zapisu modelu aby zrozumieć, że ilość klastr wynosi 107. Gdy zastosujemy w kodzie wskazanie
klastr czynnika losowego to uzyskane wyniki są czytelniejsze i pokazują większą staranność oraz
doświadczenie badacza.
56
Rysunek 18: Model 1.1A - kod programu i rezultaty.
W modelu 1.1A nie interesują nas parametry efektów stałych oraz parametry kowariancji, ponieważ model ten został stworzony na potrzeby użycia testu wskaźnika wiarygodności.
• Badanie istotności efektów losowych dla klastr czynnika losowego ’klasa’ dla modelu 1.1.
Przeprowadzony teraz zostanie test istotności parametru kowariancji efektów losowych dla klas. Na
potrzeby testu stworzyliśmy model zagnieżdżony 1.1A w modelu referencyjnym 1.1. Dzięki temu
możemy użyć testu wskaźnika wiarygodności (LTR) aby zadecydować, czy efekty losowe związane z
wyrazem wolnym dla klas można pominąć w modelu 1.1. Pamiętajmy, że aby użyć testu wskaźnika
wiarygodności dla parametrów kowariancji należny użyć do estymacji modelu ograniczonej metody
wiarygodności (metoda ta została użyta dla modelu 1.1 oraz modelu 1.1A, Rysunek 15 i Rysunek
18).
Hipotezy dla tego testu są postaci:
2
H0 : σklasa
= 0 (hipoteza zerowa odnosząca się do modelu zagnieżdżonego)
2
HA : σklasa
> 0 (hipoteza alternatywna odnosząca się do modelu referencyjnego).
Z Rysunku 16 odczytujemy, że funkcja wiarygodności −2logLREM L dla modelu referencyjnego
wynosi 11768.8, natomiast z Rysunku 18 wiemy, że funkcja wiarygodności −2logLREM L dla modelu zagnieżdżonego wynosi 11776.7. Następnie obliczmy statystykę LTR
LT R = −2log(LREM Lzagniezdzony ) − (−2log(LREM Lref erencyjny )) = 11776.7 − 11768.8 = 7.9.
57
Statystyka ta posiada mieszaninę rozkładów χ20 i χ21 z równymi wagami 0.5 (czyli 0.5χ20 +0.5χ21 ).
Obliczamy teraz wartość p (korzystając z tablic rozkładu chi kwadrat)
p = 0.5 × P (χ20 > 7.9) + 0.5 × P (χ21 > 7.9) < 0.01.
Wartość p jest mniejsza od poziomu istotności α = 0.05. Zatem odrzucamy hipotezę zerową na
korzyść hipotezy alternatywnej. Tym samym decydujemy się na pozostawienie efektów losowych
powiązanych z klastrami czynnika losowego ’klasa’ w modelu 1.1.
Dodatkowo na podstawie uzyskanych wyników (Rysunek 17) można przeprowadzić test Walda
dla parametru kowariancji dla klas oraz parametru kowariancji dla szkół modelu 1.1. Zostanie teraz przeprowadzony test Walda dla parametru kowariancji efektu losowego dla klas.
Hipotezy dla testu Walda dla parametru kowariancji dla klas wyglądają następująco:
2
H0 : σklasa
= 0 (hipoteza zerowa mówi o nieistotności parametru kowariancji)
2
HA : σklasa
> 0 (hipoteza alternatywna mówi o istotności parametru kowariancji).
Z Rysunku 17 odczytujemy, że wartość p (p=0.0088) jest mniejsza od poziomu istotności α=0.05.
Zatem należny odrzucić hipotezę zerową na korzyść hipotezy alternatywnej. Na podstawie testu
Walda otrzymaliśmy również istotność dla parametru kowariancji dla klas.
2
Zauważmy, że gdyby test Walda został przeprowadzony dla parametru kowariancji dla szkół (σszkola
)
modelu 1.1 to wartość p byłaby mniejsza od poziomu istotności α, a zatem parametr kowariancji
dla szkół jest także istotny w modelu 1.1.
6.5.2
Etap 2
• Opis etapu.
Etap ten polega na badaniu modelu 1.2 uzyskanego przez dodanie do modelu 1.1 zmiennych objaśniających poziomu 1 (ucznia). Następnie używając testu wskaźnika wiarygodności będziemy
porównywać model 1.2 z modelem 1.1, decydując czy należy dodać zmienne objaśniająca poziomu
1 do modelu 1.1.
• Zapis modelu i kod programu (model 1.2).
Do modelu 1.1 dodajemy cztery zmienne objaśniające znajdujące się na poziomie ucznia (PLEC,
MAT TEST, MNIEJ U oraz SSE) otrzymując model 1.2. Zatem model 1.2 jest postaci
M AT OSijk =
β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + b0i|k + b0k + ijk
gdzie:
2
b0i|k ∼ N (0, σklasa
)
2
b0k ∼ N (0, σszkola
)
ijk ∼ N (0, σ 2 ).
58
Rysunek 19: Model 1.2 - kod programu i rezultaty.
Jeżeli chcemy użyć testu wskaźnika wiarygodności do badania parametrów efektów stałych modelu
1.2 należy skorzystać z metody największej wiarygodności do estymacji modelu referencyjnego 1.2
oraz modelu zagnieżdżonego 1.1. W programie SAS uzyskujemy to korzystając z opcji METHOD.
Zauważmy, że w rezultatach jakie otrzymaliśmy (Rysunek 19) zaznaczone jest w informacjach o
modelu, że wybrana metoda estymacji to metoda największej wiarygodności (ML).
• Parametry efektów stałych i kowariancji (model 1.2).
Rysunek 20: Model 1.2 - parametry efektów stałych i kowariancji.
59
Tablica 7: Model 1.2 - parametry i ich wartości.
Parametr
Wartość parametru
β0
282.71
β1
-0.47
β2
-1.25
β3
-8.26
β4
5.34
2
σklasa
2
σszkoa
2
83.16
σ
72.68
732.21
Na podstawie uzyskanych wyników dla parametrów efektów stałych oraz parametrów kowariancji
dla modelu 1.2 w programie SAS (Rysunek 20) została stworzona Tablica 7 zawierająca wszystkie
parametry tego modelu oraz oszacowane dla nich wartości metodą największej wiarygodności ML.
• Badanie istotności parametrów efektów stałych dla modelu 1.2.
Zajmiemy się teraz badaniem istotności parametrów efektów stałych zmiennych objaśniających
(poziomu 1), które zostały dodane do modelu 1.1 tworząc model 1.2. W tym celu skorzystamy z
testu wskaźnika wiarygodności (LTR) dla parametrów efektów stałych.
Rysunek 21: Model 1.1 - estymacja metodą ML.
60
Chcąc użyć testu LTR dla modelu referencyjnego 1.2 w odniesieniu do modelu zagnieżdżonego 1.1
obydwa modele muszą być estymowane metodą ML. Dla modelu 1.2 została wykonana estymacja
metodą ML, natomiast model 1.1 (rozważany w rozdziale 6.5.1) był estymowany metodą REML.
Dlatego należny wykonać ponowną estymacje modelu 1.1 korzystając tym razem z metody ML.
Rysunek 21 przedstawia uzyskane wyniki dla modelu 1.1 potrzebne do przeprowadzenia testu LTR.
Hipotezy dla testu LTR są postaci:
H0 : β1 = β2 = β3 = β4 = 0
HA : przynajmniej jeden parametr efektów stałych nie jest równy zero.
Funkcja wiarygodności −2logLM L dla modelu referencyjnego (model 1.2) wynosi 11391.0 (Rysunek 19), natomiast dla modelu zagnieżdżonego (model 1.1) funkcja wiarygodności −2logLM L
jest równa 11771.3 (Rysunek 21). Przechodzimy teraz do wyliczenia statystyki LTR
LT R = −2log(LM Lzagniezdzony ) − (−2log(LM Lref erencyjny )) = 11771.3 − 11391.0 = 380.3.
Statystyka ta posiada rozkład chi kwadrat z 4 stopniami swobody, czyli χ24 . Obliczmy teraz wartość
p (korzystając z tablic rozkładu chi kwadrat)
p = P (χ24 > 380.3) < 0.001.
Wartość p jest mniejsza od poziomu istotności α = 0.05. Zatem przyjmujemy hipotezę alternatywną mówiącą o tym, że przynajmniej jeden parametr efektów stałych nie jest równy zeru. Na
podstawie tego testu decydujemy się na pozostawienie parametrów efektów stałych w modelu 4.2.
6.5.3
Etap 3
• Opis etapu.
W etapie tym zostaną dodane do modelu 1.2 zmienne objaśniające o efektach stałych zmierzone
na poziomie 2 (czyli na poziomie klastr czynnika losowego ’klasa’) tworząc model 1.3. Zdecydujemy także, czy dodane zmienne objaśniające (poziomu 2) do modelu 1.2 są istotne statystycznie
korzystając z t-testu. Model 1.3 zostanie estymowany przy użyciu metody REML.
• Zapis modelu i kod programu (model 1.3).
Model 1.3 powstał przez dodanie zmiennych objaśniających o efektach stałych LATA N, PRZY M
oraz MAT W znajdujących się na poziomie klas (poziom 2), zatem model 1.3 przyjmuje postać
M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 +
LAT A Nijk × β5 + P RZY Mijk × β6 + M AT Wijk × β7 + b0i|k + b0k + ijk
gdzie:
2
b0i|k ∼ N (0, σklasa
)
2
b0k ∼ N (0, σszkola
)
ijk ∼ N (0, σ 2 ).
61
Rysunek 22: Model 1.3 - kod programu i rezultaty.
Rysunek 22 przedstawia rezultaty uzyskane dla modelu 1.3 w programie SAS. Szczególną uwagę
zwróćmy na tabelę ’Liczba obserwacji’. Na jej podstawie można przeczytać, że wczytano 1190
obserwacji, lecz użyto 1081 obserwacji. Spowodowane jest to tym, że model 1.3 zawiera zmienne
objaśniające dla poziomu 2, a jedna z tych zmiennych (MAT W ) posiada brakujące obserwacje.
Natomiast do estymacji modelu mogą być tylko użyte jednostki analityczne z kompletnymi danymi.
• Parametry efektów stałych i kowariancji (model 1.3).
Rysunek 23: Model 1.3 - parametry efektów stałych i kowariancji.
62
Rysunek 23 ilustruje otrzymane wyniki dla parametrów efektów stałych oraz parametrów kowariancji modelu 1.3.
Tablica 8: Model 1.3 - parametry i ich wartości.
Parametr
Wartość parametru
β0
282.02
β1
-0.48
β2
-1.34
β3
-7.87
β4
5.42
β5
0.04
β6
1.09
β7
1.91
2
σklasa
2
σszkoa
2
86.52
σ
75.24
713.91
Tablica 8 podsumowuje uzyskane rezultaty w programie SAS (Rysunek 23) dla modelu 1.3.
• Badanie istotności parametrów efektów stałych poziomu 2 dla modelu 1.3.
Przejdziemy teraz do badania istotności parametrów efektów stałych zmiennych objaśniających
LATA N, PRZY M, MAT W, czyli tych które zostały dodane do modelu 1.2, aby utworzyć model
1.3. Do badania istotność posłużymy się t-testem, czyli będziemy badać istotność każdego z parametrów osobno. Nie możemy użyć w tym przypadku testu wskaźnika wiarygodności dla parametrów
efektów stałych (jak w etapie 2) porównując model referencyjny 1.3 z modelem zagnieżdżonym
1.2, ponieważ zostały użyte różne zbiory obserwacji do estymacji modelu 1.2 oraz modelu 1.3. Test
wskaźnika wiarygodności wymaga, aby model referencyjny oraz model zagnieżdżony odnosił się do
tego samego zbioru danych. Zatem w tej sytuacji użyjemy t-testu.
Hipotezy t-testu dla parametru efektu stałego zmiennej LATA N:
H0 : β5 = 0 (hipoteza zerowa mówi o nieistotności parametru efektu stałego)
HA : β5 6= 0 (hipoteza alternatywna mówi o istotności parametru efektu stałego).
Z Rysunku 23 odczytuje się wartość p dla parametru efektu stałego zmiennej objaśniającej LATA N.
Wartość ta wynosi 0.73 i jest większa od poziomu istotności α=0.05. W związku z tym nie mamy
podstaw do odrzucenia hipotezy zerowej mówiącej nieistotności rozważanego parametru efektu stałego.
Hipotezy t-testu dla parametru efektu stałego zmiennej PRZY M:
H0 : β6 = 0
HA : β6 6= 0.
63
Wartość p (Rysunek 23) dla rozpatrywanego parametru efektu stałego wynosi 0.34 i jest większa od poziomu istotności α=0.05. Zatem nie odrzucamy hipotezy zerowej.
Hipotezy t-testu dla parametru efektu stałego zmiennej MAT W:
H0 : β7 = 0
HA : β7 6= 0.
Wartość p (Rysunek 23) dla parametru efektu stałego zmiennej objaśniającej MAT W wynosi
0.1. Wartość ta jest większa od poziomu istotności α=0.05, zatem przyjmujemy hipotezę zerową.
T-test dla wszystkich po kolei badanych parametrów efektów stałych wykazał ich nieistotność.
Zatem podejmujemy decyzje o usunięciu zmiennych objaśniających o efektach stałych poziomu 2
LATA N, PRZY M, MAT W z modelu 1.3, a zatem model 1.2 pozostaje po etapie 3 naszej analizy
modelem preferowanym.
6.5.4
Etap 4
• Opis etapu.
Etap 4 polega na zbudowaniu modelu 1.4 poprzez dodanie do modelu 1.2 zmiennych objaśniających
(o efektach stałych) poziomu 3 (związanego z klastrami czynnika losowego ’szkoła’). Zmienne te
dodajemy do modelu 1.2, ponieważ po etapie 3 model 1.2 jest modelem preferowanym. Na końcu
tego etapu przeprowadzimy t-test badając istotność dodanych zmiennych objaśniających.
• Zapis modelu i kod programu (model 1.4).
Model 1.4 jest postaci
M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 +
DOM SZKOLAijk × β8 + b0i|k + b0k + ijk
gdzie:
2
b0i|k ∼ N (0, σklasa
)
2
b0k ∼ N (0, σszkola
)
ijk ∼ N (0, σ 2 ).
Model 1.4 powstał przez dodanie zmiennych objaśniających o efektach stałych poziomu 3 (czyli
tylko jednej zmiennej DOM SZKOLA) do modelu 1.2 (etap 2).
Kod programu do estymacji modelu 1.4 w programie SAS oraz wybrane rezultaty otrzymane za
pomocą procedury PROC MIXED przedstawia Rysunek 24.
64
Rysunek 24: Model 1.4 - kod programu i rezultaty.
• Parametry efektów stałych i kowariancji (model 1.4).
Rysunek 25 pokazuje otrzymane wyniki dla parametrów efektów stałych i parametrów kowariancji
modelu 1.4.
Rysunek 25: Model 1.4 - parametry efektów stałych i kowariancji.
65
Tablica 9: Model 1.4 - parametry i ich wartości.
Parametr
Wartość parametru
β0
285.06
β1
-0.47
β2
-1.23
β3
-7.76
β4
5.24
β8
-11.44
2
σklasa
81.52
2
σszkoa
2
77.77
σ
734.44
Tablica 9 podsumowuje uzyskane wartości dla parametrów efektów stałych i parametrów kowariancji modelu 1.4.
• Badanie istotności parametrów efektów stałych poziomu 3 dla modelu 1.4.
Będziemy teraz badać istotność parametru efektu stałego zmiennej objaśniającej DOM SZKOLA,
która jest jedyną zmienną objaśniającą powiązaną z poziomem klastr czynnika losowego ’szkoła’
(poziom 3). Do badania istotność tego parametru posłużymy się t-testem.
Hipotezy t-testu dla parametru efektu stałego zmiennej DOM SZKOLA:
H0 : β8 = 0 (hipoteza zerowa mówi o nieistotności parametru efektu stałego)
HA : β8 6= 0 (hipoteza alternatywna mówi o istotności parametru efektu stałego).
Z Rysunku 25 odczytujemy wartość p dla parametru efektu stałego zmiennej objaśniającej DOM SZKOLA.
Wartość ta wynosi 0.25 (p=0.25) i jest większa od poziomu istotności α=0.05. Zatem nie mamy
podstaw do odrzucenia hipotezy zerowej.
Na podstawie uzyskanych wyników t-test dla modelu 1.4 decydujemy o usunięciu z niego zmiennej
objaśniającej o efektach stałych DOM SZKOLA. Tym samym model 1.2 staje się naszym modelem preferencyjnym, a w związku z końcem etapów estymacji dla modelu głównego możemy go
nazywać modelem końcowym.
6.6
Podsumowanie
W rozdziale 6.5 przeprowadzone zostały etapy estymacji modelu głównego. Na ich podstawie uznałem, że modelem najlepiej opisującym rozpatrywane dane jest liniowy model mieszany 1.2. W etapie
2 model ten był estymowany przy pomocy metody największej wiarygodności (ponieważ chcieliśmy
użyć test wskaźnika wiarygodności do badania istotności parametrów efektów stałych zmiennych
objaśniających poziomu 1). Przeprowadzimy teraz estymację modelu 1.2 ograniczoną metodą największej wiarygodność (bardziej preferowaną).
66
Rysunek 26: Model końcowy - kod programu i rezultaty.
Kod programu dla modelu końcowego oraz informacje na jego temat możemy odczytać z Rysunku
26. Zwróćmy uwagę, że w tabeli zawierającej informację na temat modelu końcowego metodą estymacji jest ograniczona metoda największej wiarygodności (REML).
Rysunek 27: Model końcowy - parametry efektów stałych i kowariancji.
Rysunek 27 prezentuje wyestymowane wartości parametrów efektów stałych i parametrów kowa-
67
riancji jak i statystykę t-testu oraz statystykę testu Walda.
Tablica 10: Model końcowy - parametry i ich wartości.
Parametr
Wartość parametru
β0
282.79
β1
-0.47
β2
-1.25
β3
-8.26
β4
5.35
2
σklasa
2
σszkoa
2
83.24
σ
75.22
734.59
W Tablicy 10 podsumowane zostały wyestymowane wartości parametrów dla modelu końcowego.
Na postawie Tablicy 10 można zapisać ostateczną postać modelu końcowego
M AT ˆOSijk =
ˆ + bˆ0k
287.79−0.47×M AT T ESTijk −01.25×P LECijk −8.26×M N IEJ Uijk +5.35×SSUijk + b0i|k
gdzie:
ˆ ∼ N (0, 83.24)
b0i|k
bˆ0k ∼ N (0, 75.22).
Model końcowy zawiera jeden nieistotny parametr o efektach stałych na podstawie t-testu (Rysunek 27). Parametr ten odnosi się do zmiennej objaśniającej o efektach stałych PLEC. Postanowiłem
jednak pozostawić ten parametr w modelu końcowym opierając się na teście wskaźnika wiarygodności przeprowadzonym na etapie 2.
Zauważmy, że wyestymowany efekt stały dla testu sprawdzającego wiedzę matematyczną uczniów
MAT TEST w odniesieniu do ich osiągnięć matematycznych MAT OS (obliczanych jako różnica punktów miedzy wynikiem testu matematycznego MAT TEST wykonanym przed pójściem
uczniów do pierwszej klasy, a wynikiem uzyskanym przez tym samych uczniów po roku) jest ujemny
(-0.47). Oznacz to, że uczniowie uzyskali średnio wyższe wyniki na teście sprawdzającym ich wiedzę
matematyczną przed rozpoczęciem nauki w pierwszej klasie, niż na drugim teście przeprowadzonym
po roku gdy byli już uczniami pierwszej klasy szkoły podstawowej. Zatem przewidywany postęp
osiągnięć matematycznych jest negatywny (po uwzględnieniu innych zmiennych objaśniających,
czyli PLEC, MNIEJ U, SSU). Wynik ten można interpretować również tak, że uczniowie, którzy
dobrze radzili sobie w matematyce przed rozpoczęciem pierwszej klasy nie poprawili swojej wiedzy
po roku na tyle, aby przewyższyć uczniów którzy źle radzili sobie w matematyce.
Przewidywany postęp osiągnięć matematycznych MAT OS uczniów, którzy posiadają status mniejszości narodowej jest średnio o 8.26 punktów mniejszy niż uczniów nie mających tego statusu.
68
Dla uczniów z wyższym wskaźnikiem statusu socjoekonomicznego (SSU) przewiduje się większy
postęp w osiągnięciach z matematyki niż dla uczniów z niższym statusem socjoekonomicznym.
Głównym celem tego przykładu (oprócz uzyskania modelu końcowego i konkretnych wyników dla
zebranych danych) było pokazanie jak zaawansowana jest analiza trzy-poziomych danych sklastrowanych dla liniowego modelu mieszanego oraz jak ją przeprowadzić w języku programowania SAS.
Opierając się na tym przykładzie czytelnik będzie mógł odnieść się do innych danych (dwu, trzy
lub więcej poziomowych), przeprowadzić ich analizę, zbudować dla nich liniowy model mieszany,
przeprowadzić estymację modelu w języku programowania SAS oraz wyciągnąć wnioski z uzyskany
wyników w programie SAS.
7
Dodatek A
7.1
Ogólny model liniowy
Ogólny model liniowy dla j-tej obserwacji jest postaci [15]
yj = x1j β1 + ... + xkj βk + j dla j = 1, 2, ... , n
gdzie:
yj - zmienna objaśniana dla j-tej z n obserwacji
β1 , ... , βk - k nieznanych parametrów (nazywanych współczynnikami regresji)
x1j , ... , xkj - k zmiennych objaśniających dla j-tej obserwacji
j - błąd losowy dla j-tej obserwacji.
Używając słownictwa dla modeli mieszanych można powiedzieć, że parametry oraz zmienne objaśniające w ogólnym modelu liniowym są parametrami o efektach stałych oraz zmiennymi objaśniającymi o efektach stałych, a jedyną losowością w tym modelu są błędy dla j-tej obserwacji.
Do zapisu ogólnego modelu liniowego możemy użyć także notacji macierzowej, wówczas ogólny
model liniowy jest postaci
Y = Xβ + gdzie:
Y - wektor
  zmiennych objaśnianych, wymiaru n × 1
Y1
 
 Y2 

Y =
 ... 
 
Yn
β - wektor
  nieznanych k parametrów, wymiaru k × 1
β1
 
 β2 

β=
 ... 
 
βp
69
X - macierz

X11

 X12
X=
 ...

X1n
zmiennych objaśniających,
wymiaru n × k

X21 ... Xk1

X22 ... Xk2 

... ... ... 

X2n ... Xkn
- wektor
  błędów dla obserwacji, wymiaru n × 1
1
 
 2 

=
 ... 
 
n
∼ N (0, σ 2 In )
gdzie In - macierz jednostkowa wymiaru n × n.
7.2
Metody estymacji stopni swobody
W rozdziale tym zostanie przedstawiona lista wybranych metod estymacji stopni swobody potrzebnych do wyznaczenia rozkładu statystyki t w liniowym modelu mieszanym.
Do estymacji stopni swobody mianownika t statystyki można użyć:
• metody podzbiorów
• metody pomiędzy-w
• metody Satterthwaita
• metody Kenwarda-Rogera.
Wszystkie te metody służą do wyznaczania stopni swobody mianownika t statystyki. Warto podkreślić, że metoda Kenwarda-Rogera różni się od pozostałych metod tym, że uwzględnia w wyestymowanej macierzy kowariancji zmianę Vi na V̂i . Więcej na temat wymienionych metod można
przeczytać w literaturze [8].
7.3
Metoda Newtona-Raphsona
W języku programowania SAS metoda Newtona-Raphsona (N-R) jest używana do optymalizacji
logarytmu funkcji wiarygodności.
7.3.1
Metoda Newtona-Raphsona - przypadek ogólny
Metoda Newtona-Raphsona służy do wyznaczenia przybliżonej wartości pojedynczego pierwiastka
funkcji f (X) = 0. Do wyznaczenia przybliżonej wartości pierwiastka korzysta się z iteracyjnego
wzoru (z zadanym punktem startowym x0 ) postaci [8]
xn+1 = xn −
gdzie:
f (xn ) - jest wartością funkcji f w punkcie xn
f 0 (xn ) - jest pochodną funkcji f (xn ).
70
f (xn )
f 0 (xn )
Rozważmy teraz prosty przykład korzystając z metody Newtona-Raphsona.
Niech będzie dana funkcja x2 = 3. Za pomocą metody N-R wyznaczymy przybliżoną wartość do√
datniego pierwiastka tej funkcji. Wiemy, że dodatnim pierwiastkiem tej funkcji jest 3 =≈ 1.7321.
Zapisujemy funkcję f (x) i liczymy jej pochodną
f (x) = x2 − 3
f 0 (x) = 2x.
Wybieramy punkt startowy x0 = 1 (im bliższy punkt startowy wartości pierwiastka tym mniej
iteracji będzie trzeba wykonać metodą N-R) i wyliczmy kolejne iteracje korzystając ze wzoru iteracyjnego
xn+1 = xn −
f (xn )
f 0 (xn )
= xn −
x2n −3
2xn
x0 = 1
x1 = 1− = 1 −
x2 =
x3 =
1−3
2
= 1 − (−1) = 2
1
2 − 4−3
4 =2− 4
1.752 −3
1.75 − 2·1.75 =
= 1.75
1.75 −
0.0625
3.5
= 1.75 − 0.017857 = 1.732143 ≈ 1.7321.
Metoda N-R w trzeciej iteracji osiągnęła zbieżność.
7.3.2
Metoda Newtona-Raphsona - logarytm funkcji wiarygodności
Przedstawiony teraz zostanie przykład użycia metody N-R dla logarytmu funkcji wiarygodności.
Niech L(β) będzie funkcją wiarygodności oraz niech l(β) = logL(β) będzie logarytmem funkcji
wiarygodności. Maksymalizacja logarytmu wiarygodności jest równoważna ze znalezieniem rozwiązania β̂ dla równania postaci
∂l(β)
∂β
= 0.
Niech β̂0 = 0 będzie punktem startowym, wówczas iteracyjny wzór N-R jest postaci [13]
2
l(β̂n ) −1 l(β̂n )
β̂n+1 = β̂n − ( ∂ ∂β
)
2
∂β .
Wyrażenie po znaku minus jest nazywane krokiem Newtona-Raphsona. Jeżeli oszacowana wartość β̂n+1 jest mniejsza niż β̂n , to wówczas wartość β̂n+1 jest ponownie liczona używając połowy
kroku Newtona-Raphsona. Iteracyjny wzór N-R jest kontynuowany dopóki nie zostanie osiągnięta
zbieżność, czyli dopóki β̂n+1 nie będzie satysfakcjonujący blisko β̂n . Wyestymowana wartość parametru β uzyskana przez maksymalizację logarytmu funkcji wiarygodności przy wykorzystaniu
metody N-R jest równa β̂ = β̂n+1 .
71
8
Dodatek B
8.1
Spis rysunków
Spis rysunków
1
Rodzaje modeli mieszanych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2
Nazwy procedury w języku programowania SAS dla modeli mieszanych. . . . . . .
39
3
Analiza czynnika losowego (przykład - wzrost). . . . . . . . . . . . . . . . . . . . .
43
4
Kod nr 1 (przykład - wzrost). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5
Kod nr 2 (przykład - wzrost). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
6
Kod nr 2 - alternatywna wersja (przykład - wzrost). . . . . . . . . . . . . . . . . .
44
7
Hierarchiczna struktura danych dla przykładu KLASY. . . . . . . . . . . . . . . .
46
8
Fragment danych dla badania KLASY. . . . . . . . . . . . . . . . . . . . . . . . . .
47
9
Zaimplementowane dane w programie SAS. . . . . . . . . . . . . . . . . . . . . . .
49
10
Statystyki - poziom 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
11
Statystyki - poziom 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
12
Statystyki - poziom 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
13
Statystyki - wszystkie poziomy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
14
Model 1.1 - kod programu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
15
Model 1.1 - program SAS (część 1). . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
16
Model 1.1 - program SAS (część 2). . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
17
Model 1.1 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . .
55
18
Model 1.1A - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . .
57
19
Model 1.2 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . .
59
20
Model 1.2 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . .
59
21
Model 1.1 - estymacja metodą ML. . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
22
Model 1.3 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . .
62
23
Model 1.3 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . .
62
24
Model 1.4 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . .
65
25
Model 1.4 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . .
65
26
Model końcowy - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . .
67
27
Model końcowy - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . .
67
8.2
Spis tablic
Spis tablic
1
Przykład trzy-poziomowych danych sklastrowanych dla dwóch wybranych dziedzin
badań. Opracowane na podstawie literatury [1]. . . . . . . . . . . . . . . . . . . . .
2
9
Przykłady funkcji wiążących dla uogólnionego liniowego modelu mieszanego. Opracowano na podstawie literatury [2] oraz [10]. . . . . . . . . . . . . . . . . . . . . . .
38
3
Składnia procedury PROC MIXED. Opracowano na podstawie literatury [8]. . . .
40
4
Zmienne dla trzy-poziomowych danych. . . . . . . . . . . . . . . . . . . . . . . . .
46
5
Fragment danych dla badania KLASY (z podziałem na poziomy i klastry danych).
47
6
Model 1.1 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . .
56
72
7
Model 1.2 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . .
60
8
Model 1.3 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . .
63
9
Model 1.4 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . .
66
10
Model końcowy - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . .
68
8.3
Spis skrótów
AR(1)
struktura autoregresji I rzędu macierzy kowariancji Ri
ML
metoda największej wiarygodności
REML
ograniczona metoda największej wiarygodności
LTR
test wskaźnika wiarygodności
AIC
kryterium informacyjne Akaike
N-R
metoda Newtona-Raphsona
8.4
Kod programu
p r o c import out=work . k l a s a
d a t a f i l e =”( s c i e ż k a d o s t ę p u ) \ k l a s a . x l s x ”
dbms=x l s x r e p l a c e ;
getnames=y e s ;
datarow =2;
g u e s s i n g r o w s =20;
run ;
t i t l e ” S t a t y s t y k i − poziom 1 ” ;
p r o c means data = k l a s a ;
var p l e c m n i e j u m a t t e s t mat os s s u ;
run ;
/∗ s o r t o w a n i e z b i o r u danych ∗/
p r o c s o r t data = k l a s a out=danes1 ;
by k l a s a i d ;
run ;
/∗ p r z y g o t o w a n i e danych d l a poziomu 2∗/
data danepoz2 ;
s e t danes1 ;
by k l a s a i d ;
if
f i r s t . k l a s a i d then output ;
run ;
t i t l e ” S t a t y s t y k i − poziom 2 ” ;
p r o c means data = danepoz2 ;
var l a t a n przy m ;
run ;
73
/∗ s o r t o w a n i e z b i o r u danych ∗/
p r o c s o r t data = k l a s a out=danes2 ;
by s z k o l a i d ;
run ;
data danepoz3 ;
s e t danes2 ;
by s z k o l a i d ;
if
f i r s t . s z k o l a i d then output ;
run ;
t i t l e ” S t a t y s t y k i − poziom 3 ” ;
p r o c means data = danepoz3 ;
var d o m s z k o l a ;
run ;
data k l a s a c a l ;
set klasa ;
i f mat w ne . ;
run ;
t i t l e ” S t a t y s t y k i − poziom 1 ( w s z y s t k i e zmienne ) ” ;
p r o c means data = k l a s a c a l ;
var p l e c m n i e j u m a t t e s t mat os s s u ;
run ;
p r o c u n i v a r i a t e data=danepoz3 NORMAL;
var mat os ;
run ;
/∗ s o r t o w a n i e z b i o r u danych ( w s z y s t k i e zmienne ) ∗ /
p r o c s o r t data = k l a s a c a l out=danes1w ;
by k l a s a i d ;
run ;
data danepoz2w ;
s e t danes1w ;
by k l a s a i d ;
if
f i r s t . k l a s a i d then output ;
run ;
t i t l e ” S t a t y s t y k i − poziom 2 ( w s z y s t k i e zmienne ) ” ;
p r o c means data = danepoz2w ;
var l a t a n przy m mat w ;
run ;
74
/∗ s o r t o w a n i e z b i o r u danych ( w s z y s t k i e zmienne ) ∗ /
p r o c s o r t data = k l a s a c a l out=danes2w ;
by s z k o l a i d ;
run ;
data danepoz3w ;
s e t danes2w ;
by s z k o l a i d ;
if
f i r s t . s z k o l a i d then output ;
run ;
t i t l e ” S t a t y s t y k i − poziom 3 ( w s z y s t k i e zmienne ) ” ;
p r o c means data = danepoz3w ;
var d o m s z k o l a ;
run ;
t i t l e ” Model 1 . 1 ” ;
p r o c mixed data = k l a s a c o v t e s t ;
class klasa id szkola id ;
model mat os =
/ s;
random i n t / s u b j e c t=s z k o l a i d s ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ;
run ;
t i t l e ” Model 1 . 1A” ;
p r o c mixed data = k l a s a ;
class klasa id szkola id ;
model mat os = ;
random i n t / s u b j e c t=s z k o l a i d ;
run ;
t i t l e ” Model 1 . 1A ( inny z a p i s kodu ) ” ;
p r o c mixed data = k l a s a ;
class klasa id szkola id ;
model mat os = ;
random s z k o l a i d ;
run ;
t i t l e ” Model 1 . 2 ( e s t y m a c j a ML) ” ;
p r o c mixed data = k l a s a c o v t e s t method=ML;
class klasa id szkola id ;
model mat os = m a t t e s t p l e c m n i e j u s s u / s ;
random i n t / s u b j e c t=s z k o l a i d s ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ;
75
run ;
t i t l e ” Model 1 . 1 ( e s t y m a c j a ML) ” ;
p r o c mixed data = k l a s a c o v t e s t method=ML;
class klasa id szkola id ;
model mat os =
/ s;
random i n t / s u b j e c t=s z k o l a i d s ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ;
run ;
t i t l e ” Model 1 . 3 ” ;
p r o c mixed data = k l a s a c o v t e s t ;
class klasa id szkola id ;
model mat os = m a t t e s t p l e c m n i e j u s s u l a t a n przy m mat w / s ;
random i n t / s u b j e c t=s z k o l a i d ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ;
run ;
t i t l e ” Model 1 . 4 ” ;
p r o c mixed data = k l a s a c o v t e s t ;
class klasa id szkola id ;
model mat os = m a t t e s t p l e c m n i e j u s s u d o m s z k o l a / s ;
random i n t / s u b j e c t=s z k o l a i d ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ;
run ;
t i t l e ” Model 1 . 2 ( model koncowy ) ” ;
p r o c mixed data = k l a s a c o v t e s t ;
class klasa id szkola id ;
model mat os = m a t t e s t p l e c m n i e j u s s u / s ;
random i n t / s u b j e c t=s z k o l a i d ;
random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ;
run ;
76
Literatura
[1] B. T. West, K. B. Welch, A. T. Gałecki, Linear Mixed Models: A Practical Guide Using Statistical Software, Chapman and Hall/CRC, 2007.
[2] J. Fox, Applied Regression Analysis and Generalized Linear Models, Chapter 15: Generalized
Linear Models, SAGE Publications, 2008.
[3] Y, Fang, Asymptotic Equivalence between Cross-Validations and Akaike Information Criteria
in Mixed-Effects Models, Journal of Data Science, 2011.
[4] J. Fox, Linear Mixed Models: Appendix to An R and S-PLUS Companion to Applied Regression,
SAGE Publications, 2002.
[5] M. J. Lindstrom, D. M. Bates, Nonlinear mixed-effects models for repeated measures data,
Biometrics Vol. 46, 1990
[6] J. C. Pinheiro, Topics in Mixed Effects Models, University of Wisconsin, 1994
[7] E. Frątczak, Statystyka – zastosowania biznesowe i społeczne: Analiza danych wzdłużnych wybrane zagadnienia, Wydawnictwo Wyższej Szkoły Menedżerskiej w Warszawie, 2014.
[8] SAS/STAT 13.2 User’s Guide: The MIXED Procedure
http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer.
htm#statug_mixed_overview.htm *
[9] SAS/STAT 13.2 User’s Guide: The HPMIXED Procedure
http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer.
htm#statug_hpmixed_overview.htm *
[10] SAS/STAT 13.2 User’s Guide: The GLIMMIXED Procedure
http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer.
htm#statug_glimmix_overview.htm *
[11] SAS/STAT 13.2 User’s Guide: The NLMIXED Procedure
http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer.
htm#statug_nlmixed_overview.htm *
[12] http://www-personal.umich.edu/~bwest/classroom.csv *
[13] http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer.
htm#statug_phreg_details18.htm *
[14] http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm *
[15] C. R. Rao, H. Toutenburg, Shalabh, C. Heumann, Linear Models and Generalizations, Springer, 2008.
* data dostępu 15.07.2015 r.
77

Podobne dokumenty