Modele mieszane z wykorzystaniem języka programowania SAS
Transkrypt
Modele mieszane z wykorzystaniem języka programowania SAS
Modele mieszane z wykorzystaniem języka programowania SAS Autor: Paweł Grabowski Streszczenie Głównym celem pracy jest analiza modeli mieszanych. Model mieszany łączy w swojej budowie część stałą (zwaną efektami stałymi) oraz część losową (zwaną efektami losowymi). Istnieją trzy rodzaje modeli mieszanych: liniowy model mieszany, nieliniowy model mieszany oraz uogólniony liniowy model mieszany. Modele mieszane stosowane są dla danych sklastrowanych, danych pochodzących z powtórzonych pomiarów oraz danych wzdłużnych. W pracy omawiam szczegółowo liniowy model mieszany. Przedstawiam definicję czynnika stałego oraz czynnika losowego. Dzięki wprowadzeniu tych pojęć tłumaczę różnicę między efektami stałymi oraz efektami losowymi w modelach mieszanych. Co więcej w modelach hierarchicznych (do których zaliczane są modele mieszane) wyróżnia się poziomy danych. W pracy przedstawiam zależność między poziomami danych a ilością czynników losowych. Opisuję bardzo dokładnie estymację parametrów liniowego modelu mieszanego (m. in. przedstawiam lemat Rao). Udowadniam kilka ważnych własności dla uogólnionego estymatora najmniejszych kwadratów parametrów efektów stałych (którego postać prezentuję za pomocą twierdzenia Markowa-Gaussa-Aitkena) oraz najlepszego liniowego nieobciążonego predyktora efektów losowych (np. udowadniam, że uogólniony estymator najmniejszych kwadratów parametrów efektów stałych jest najlepszym liniowym nieobciążonym estymatorem parametrów efektów efektów stałych). Wprowadzam pojęcie warunkowego liniowego modelu mieszanego, który jest wykorzystywany przy estymacji liniowego modelu mieszanego. Przedstawiam procedury dla każdego z rodzai modeli mieszanych w języku programowania SAS. W pracy została umieszczona szczegółowa składnia procedury PROC MIXED dla liniowych modeli mieszanych. Badam oraz analizuję trzy-poziomowy model dla danych sklastrowanych korzystając z liniowego modelu mieszanego. W przykładzie tym jednostki analityczne (Poziom 1) są zagnieżdżone w losowo wybranych klastrach pierwszego czynnika losowego (Poziom 2), którego klastry są zagnieżdżone w losowo wybranych klastrach drugiego czynnika losowego (Poziom 3). Zapisuję postać modelu, przeprowadzam estymację w języku programowania SAS oraz analizuję otrzymane rezultaty. Słowa kluczowe: model mieszany, dane sklastrowane, efekty stałe, efekty losowe, czynnik stały, czynnik losowy. 1 Abstract The aim of this thesis is to analyse the mixed models. A mixed model is a model that contains fixed and random effects. There are three types of mixed models: linear mixed models, nonlinear mixed models and generalized linear mixed model. Mixed models are used for clustered data, repeated-measures data and longitudinal data. This work mainly concentrates on the linear mixed models. I introduce the definition of the fixed factor and the random factor. These terms are helpful to explain the difference between the fixed effects and random effects in mixed models. Moreover, in hierarchical models (which include mixed models), we distinguish levels of data. I show the relationship between the level of data and the number of random factors. I use Rao Lemma to estimate the parameters in the linear mixed model. I prove some properties for the generalized least-squares estimator of fixed effect (Gauss-Markov-Aitken theorem) and the best linear unbiased predictor of random effects (for example: I prove that the generalized least-squares estimator of fixed effect is the best linear unbiased estimator of fixed effects). I introduce the marginal linear mixed model which is used in estimation the parameters in the linear mixed model. I present different procedures for each type of mixed models in SAS software. The work contains the syntax of the PROC MIXED procedure for linear mixed models. I study three-level model for clustered data. In this example, the units of analysis (Level 1) are nested within randomly sampled clusters (Level 2), which are in turn nested within other randomly sampled clusters (Level 3). I write a model for my data, estimate model using SAS software and analyse the received results. KEYWORDS: mixed model, clustered data, fixed effects, random effects, fixed factor, random factor. 2 Spis treści 1 Wstęp 5 2 Modele mieszane 7 2.1 Definicja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Czynnik stały oraz czynnik losowy . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Efekty stałe i efekty losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4 Rodzaje danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Poziomy danych sklastrowanych a ilość czynników losowych . . . . . . . . . . . . . 9 2.6 Rodzaje modeli mieszanych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 Liniowy model mieszany 10 3.1 Postać modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2 Różne struktury macierzy kowariancji G . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2.1 Niestrukturalna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2.2 Komponentów wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Różne struktury macierzy kowariancji Ri . . . . . . . . . . . . . . . . . . . . . . . 14 3.3.1 Komponentów wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3.2 Symetrii związku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3.3 Autoregresji I rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.4 Toeplitza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.4 Warunkowy liniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.5 Estymacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5.1 Parametry efektów stałych β . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5.2 Predyktor efektów losowych b̂ . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.5.3 Lemat Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5.4 Metoda największej wiarygodności (ML) . . . . . . . . . . . . . . . . . . . . 27 3.5.5 Ograniczona metoda największej wiarygodności (REML) . . . . . . . . . . 30 3.6 Model zagnieżdżony . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.7 Badanie istotności parametrów liniowego modelu mieszanego . . . . . . . . . . . . 31 3.7.1 Test wskaźnika wiarygodności (LTR) . . . . . . . . . . . . . . . . . . . . . . 31 3.7.2 T-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.7.3 Test Walda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Kryterium informacyjne Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.8 4 Nieliniowy model mieszany i uogólniony liniowy model mieszany 36 4.1 Nieliniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.2 Uogólniony liniowy model mieszany . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5 Program SAS dla liniowych modeli mieszanych 39 5.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Procedura PROC MIXED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.3 Zapis modelu dla procedury PROC MIXED . . . . . . . . . . . . . . . . . . . . . . 42 5.3.1 Kod 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.3.2 Kod 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3 6 Trzy-poziomowe dane sklastrowane dla liniowego modelu mieszanego 45 6.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.2 Prezentacja danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.3 Analiza danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.3.1 Statystyki dla zmiennych bez brakujących wartości . . . . . . . . . . . . . . 48 6.3.2 Statystyki dla wszystkich zmiennych . . . . . . . . . . . . . . . . . . . . . . 50 Postać modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.4.1 Model główny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.4.2 Model dla poziomu 1 (ucznia) . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.4.3 Model dla poziomu 2 (klas) . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.4.4 6.4 6.5 6.6 Model dla poziomu 3 (szkół) . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Badanie i estymacja modelu głównego . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.5.1 Etap 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.5.2 Etap 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.5.3 Etap 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.5.4 Etap 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7 Dodatek A 69 7.1 Ogólny model liniowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 7.2 Metody estymacji stopni swobody . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.3 Metoda Newtona-Raphsona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.3.1 Metoda Newtona-Raphsona - przypadek ogólny . . . . . . . . . . . . . . . . 70 7.3.2 Metoda Newtona-Raphsona - logarytm funkcji wiarygodności . . . . . . . . 71 8 Dodatek B 72 8.1 Spis rysunków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 8.2 Spis tablic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 8.3 Spis skrótów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 8.4 Kod programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Literatura 77 4 1 Wstęp Modele mieszane łącząc w swojej budowie część stałą (zwaną efektami stałymi) oraz część losową (zwaną efektami losowymi) umożliwiają zaawansowaną i wielopoziomową analizę danych. Nazywane są także modelami hierarchicznymi (co stanowi nawiązanie do tego, że modele mieszane są głównie stosowane dla danych posiadających hierarchiczną strukturę danych) bądź modelami o efektach mieszanych (co z kolei jest nawiązaniem do tego, że modele mieszane są połączeniem efektów stałych oraz efektów losowych). Zastosowanie modeli mieszanych można głównie odnaleźć w badaniach medycznych oraz społecznych (gdzie do badania wybierane są próbki z rozważanej populacji i na ich podstawie wnioskuje się na temat całej populacji) jak i coraz częściej w badaniach finansowych. W mojej pracy (rozdział drugi) przedstawiam ogólną definicję modelu mieszanego. Wyjaśniam czym są efekty stałe i efekty losowe wprowadzając definicję czynnika stałego oraz czynnika losowego. Podkreślam, że zdefiniowanie efektów stałych i efektów losowych dla modelu mieszanego nie jest łatwe i wymaga często sporego doświadczenia oraz wiedzy badacza, lecz stanowi podstawę do poprawnej analizy modelu mieszanego. W rozdziale tym wymieniam rodzaje danych dla jakich stosowane są modele mieszane. Dla jednego z opisywanych rodzai danych wyjaśniam jak ich poziom wpływa na ilość czynników losowych w modelu. Na końcu tego rozdziału podaję jakie istnieją rodzaje modeli mieszanych. Rozdział trzeci opisuje liniowe modele mieszane będące jednym z rodzi modeli mieszanych. Modele te stanowią główny cel i temat moich rozważań w pracy. Na początku tego rozdziału definiuję postać liniowego modelu mieszanego dla jednego czynnika losowego oraz przedstawiam definicję tego modelu używając notacji macierzowej. Następnie przedstawiam i opisuję różne struktury macierzy kowariancji związanej z efektami losowymi oraz macierzy kowariancji związanej z błędami w liniowym modelu mieszanym. W rozdziale tym wprowadzam pojęcie warunkowego liniowego modelu mieszanego. Głównym celem wprowadzenia tego zagadnienia jest to, że estymacja liniowego modelu mieszanego jest przeprowadzana przy użyciu warunkowego liniowego modelu mieszanego. Przedstawiam bardzo dokładnie estymację liniowego modelu mieszanego (m.in. prezentuję twierdzenie Gaussa-Markowa-Aitkena oraz Lemat Rao). Przy zagadnieniu estymacji najbardziej korzystam z warsztatu matematycznego. Wprowadzam również zagadnienie modelu zagnieżdżonego oraz wyjaśniam kiedy taki model jest stosowany. Kończąc rozdział prezentuję hipotezy oraz statystyki dla rożnych testów badających istotność parametrów liniowego modelu mieszanego. W rozdziale czwartym przybliżam pokrótce pozostałe rodzaje modeli mieszanych, czyli nieliniowy model mieszany oraz uogólniony liniowy model mieszany. W rozdziale piątym wymieniam procedury jakie wykorzystywane są do analizy i estymacji modeli mieszanych w języku programowania SAS. Następnie opisuję składnię procedury PROC MIXED, która została wprowadzona w programie SAS do estymacji liniowych modeli mieszanych w 1992 roku w ramach pakietu statystycznego SAS/STAT. Pod koniec rozdziału analizuję zapis i strukturę liniowego modelu mieszanego na podstawie przykładowych kodów dla procedury PROC MIXED. 5 W następnym rozdziale (rozdział szósty) rozważam przykład dla trzy-poziomowych danych sklastrowanych liniowego modelu mieszanego. W przykładzie tym badane są jednostki analityczne (poziom 1) dla których klastry czynnika losowego (poziom 2) są zagnieżdżone w klastrach innego czynnika losowego (poziom 3). Na początku przeprowadzam dokładną prezentację i analizę danych. Następnie dokonuję wyboru modelu oraz zapisuję jego postać. W kolejnym kroku przeprowadzam rozbudowaną analizę modelu głównego dzieląc ją na cztery etapy. Na każdym etapie analizy wprowadzam nowy model, który zbudowany jest na podstawie modelu głównego. Dla niektórych etapów buduję i analizuję model zagnieżdżony w celu użycia testu wskaźnika wiarygodności badającego istotność parametrów liniowego modelu mieszanego. Na końcu rozdziału przedstawiam model uzyskany po przeprowadzonej analizie (nazywając go modelem końcowym), dla którego wyciągam wnioski oraz prezentuję otrzymane rezultaty w programie SAS. W mojej pracy często porównuję liniowy model mieszany z ogólnym liniowym modelem, dlatego w Dodatku A (rozdział siódmy) m. in. przypominam postać ogólnego modelu liniowego. 6 2 2.1 Modele mieszane Definicja Definicja 1 (Model mieszany) [1] Model mieszany jest to model zawierający stałe i losowe efekty. Definicja 1 jest ogólną definicją modeli mieszanych nawiązującą do ich istoty, czyli połączenia efektów stałych z efektami losowymi. Zauważmy, że w większości modeli statystycznych rozważamy zazwyczaj tylko efekty stałe. Natomiast w modelach mieszanych wprowadzone zostały jeszcze efekty losowe, które umożliwiają nam zaawansowaną i wielopoziomową analizą danych. Tym samym, głównym celem modeli mieszanych jest analiza danych na różnych ich poziomach (dlatego modele te mają często strukturę hierarchiczną i są nazywane również modelami hierarchicznymi). 2.2 Czynnik stały oraz czynnik losowy Ważnymi pojęciami, które pojawiają się w definicji modelu mieszanego są efekty stałe i efekty losowe. Aby poprawnie zdefiniować te pojęcia należy najpierw wyjaśnić czym jest czynnik stały oraz czynnik losowy. Czynnik stały definiujemy jako zmienną kategoryczną lub zmienną klasyfikacji, która obejmuje wszystkie klastry będące przedmiotem zainteresowania w danym badaniu. W modelu mieszanym czynnik stały nazywany jest zmienną objaśniającą (niezależną) o efekcie stałym. Czynnik ten stanowią zmienne objaśniające jakościowe (np. płeć), zmienne klasyfikacji wyznaczone przez plan losowania próby (np. region) oraz zmienne porządkowe rozważane w danym badaniu (np. grupy wiekowe). Natomiast czynnik losowy jest zmienną klasyfikacji identyfikującą daną klastrę, która jest wybierana losowo dla badanej populacji. Warto podkreślić zatem, że zbiór danych służący do estymacji modelu mieszanego zawiera tylko wybrane klastry dla danego czynnika losowego. Celem badacza jest jednak, aby na podstawie wybranych klastr czynnika losowego wnioskować o całej populacji. W modelu mieszany, czynnik losowy jest opisywany przez zmienne objaśniające (niezależne) o efektach losowych. Przykład 1 Można powiedzieć, że płeć jest czynnikiem stałym, ponieważ znamy wszystkie wartości tej zmiennej (mężczyzna lub kobieta), a wartości te są niezależne od siebie (wzajemnie się wykluczają) i (zazwyczaj) nie zmieniają się. Zmienna taka jak klasa szkoły średniej jest czynnikiem losowym, ponieważ może tylko wnioskować na ’próbce’ klas oraz co więcej, uczniowie mogą zmieniać klasy każdego roku. Przykład 1 prezentuje zmienne jakie mogą być uznane za czynnik stały oraz za czynnik losowy w przykładowym badaniu. Zauważmy, że pojęcie czynnika stałego oraz losowego nie jest łatwe. Warto podkreślić, że jeżeli daną zmienną przyjmiemy jako czynnik stały to nie oznacza, że w innym badaniu zmienna ta będzie również czynnikiem stałym. Poprawne odróżnienie czynnika stałego od 7 czynnika losowego stanowi podstawę do budowania modelu mieszanego i wymaga często sporego doświadczenia oraz wiedzy badacza. 2.3 Efekty stałe i efekty losowe Po wprowadzeni pojęć czynnika stałego oraz czynnika losowego można przejść do zdefiniowania efektów stałych i efektów losowych. Efekty stałe (nazywane również nieznanymi parametrami efektów stałych) opisują zależności pomiędzy zmienną objaśnianą, a czynnikami stałymi (zmienne objaśniające o efektach stałych) dla całej populacji rozważanej jednostki analitycznej. Gdy klastra danego czynnika została wybrana jako ’próbka’ z rozpatrywanej przestrzeni próbkowej (na przykład: klasy czy kliniki są losowo wybrane z większej populacji klas czy klinik) to efekty związane z klastrą tego czynnika nazywane są efektami losowymi. Zazwyczaj efekty losowe stanowią losowe odchylenie od związków opisywanych przez efekty stałe. W przeciwieństwie do efektów stałych, które są reprezentowane przez nieznane stałe parametry, losowe efekty są reprezentowane przez nieznane zmienne losowe, o których zwykle zakłada się, że mają rozkład normalny. Zwróćmy uwagę, że podczas gdy parametry efektów stałych opisują relacje zmiennych objaśniających o efektach stałych do zmiennej objaśnianej dla całej populacji, to efekty losowe znajdują zastosowanie dla klastr będących wewnątrz populacji. Czyli efekty stałe dla danego modelu będą takie same na każdym poziomie rozważanych danych, natomiast efekty losowe będą odnosiły się do analizy między poziomami danych. Powyższe zdania w bardzo prosty sposób obrazuje nam to co zaznaczyłem na wstępie mojej pracy, czyli, że to właśnie wprowadzenie efektów losowych umożliwia wielopoziomową analizę danych. 2.4 Rodzaje danych Modele mieszane używana są dla: • danych sklastrowanych (zgrupowanych) Dane sklastrowane definiujemy jako zbiór danych, w którym zmienna objaśniana jest mierzona jednokrotnie dla każdej jednostki analitycznej (np. pacjenta), a jednostki analityczne są pogrupowane lub zagnieżdżone w klastry (np. pacjenci według lekarza prowadzącego). • danych pochodzących z powtórzonych pomiarów Dane z powtórzonych pomiarów są zbiorami danych, dla których zmienna objaśniana jest mierzona kilkakrotnie (więcej niż raz) dla każdej jednostki analitycznej (dla której prowadzone jest badanie). Dane te nie muszą być rozmieszczone w czasie. • danych wzdłużnych Przez dane wzdłużne rozumiemy zbiory danych, dla których zmienna objaśniana jest mierzona w kilku punktach czasowych dla każdej jednostki analitycznej (często w ciągu dość długiego okresu). 8 Wszystkie zaprezentowane rodzaje danych mogą być wykorzystywane dla modeli opierających się na strukturze hierarchicznej (czyli m. in. modele mieszane). Dane posiadające taką strukturę są głownie wykorzystywane w badaniach medycznych oraz społecznych. Warto podkreślić jednak, że coraz częściej dane te (szczególnie wzdłużne) są wykorzystywane w modelowaniu finansowym. Zwróćmy również uwagę, że głównym czynnikiem rozróżniającym dane pochodzące z powtórzonych pomiarów od danych wzdłużnych jest czas, a dokładniej mówiąc ’umieszczenie’ danych w czasie. W danych z powtórzonych pomiarów nie jest wymagany schemat czasowy dla kolejnego pomiaru (nie interesuje badacza odstęp czasowy między pomiarami), natomiast dla danych wzdłużnych przyjmuje się, że dla kolejnego pomiaru zapisywany jest odstęp czasowy od poprzedniego. 2.5 Poziomy danych sklastrowanych a ilość czynników losowych Dla danych sklastrowanych modeli mieszanych wyróżnia się poziomy danych oraz można zauważyć pewną własność odnoszącą się do ilość czynników losowych w zależności od poziomu danych sklastrowanych. Tablica 1: Przykład trzy-poziomowych danych sklastrowanych dla dwóch wybranych dziedzin badań. Opracowane na podstawie literatury [1]. Dziedzina badań Poziom danych Edukacja Medycyna Poziom 3 Szkoła Klinika wielkość szkoły, liczba doktorów poziom ubóstwa zatrudnionych w klinice, sąsiedztwa wokół rodzaj kliniki szkoły (publiczna lub prywatna) Klasa Doktor Klastra II (klastra klastry I) (czynnik losowy) Zmienne objaśniające Poziom 2 Klastra I (klastra jednostki analitycznej) (czynnik losowy) Zmienne objaśniające wielkość klasy, specjalizacja, lata doświadczenia lata doświadczenia nauczyciela Poziom 1 Jednostka analityczna Uczeń Pacjent Zmienna objaśniana wynik testu ciśnienie krwi Zmienna objaśniająca płeć, wiek wiek, nasilenie choroby Tablica 1 przedstawia trzy-poziomowe dane sklastrowane dla dwóch wybranych dziedzin badań. Poziom 1 definiuje jednostkę analityczną w rozpatrywanym badaniu oraz określa dla niej zmienną objaśnianą i zmienne objaśniające. Na podstawie samego poziomu 1 można by było budować ogólny model statystyczny oparty tylko na efektach stałych (np. ogólny model liniowy). Na poziomie 2 pojawia się pierwszy czynnik losowy (czynnik losowy nr 1) oraz zmienne objaśniające dla klastr 9 tego czynnika losowego. Na poziomie 3 uzyskujemy kolejny czynnik losowy (czynnik losowy nr 2) oraz zmienne objaśniające dla kastr czynnika losowego nr 2. Co więcej, klastry czynnika losowego nr 1 są zagnieżdżone w klastrach czynnika losowego nr 2 (np. klasy są zagnieżdżone w szkołach). Na podstawie Tablicy 1 można łatwo wnioskować, że poziom danych ma istotny wpływ na ilość czynników losowych w badaniu. Zauważmy, że jeżeli rozpatrywane dane mają n poziomów to tym samym oznacza, że posiadają n − 1 czynników losowych. 2.6 Rodzaje modeli mieszanych Wyróżniamy trzy rodzaje modeli mieszanych: • liniowy model mieszany • nieliniowy model mieszany • uogólniony liniowy model mieszany. W praktyce najczęściej spotyka się (a zatem najczęściej jest wykorzystywany) liniowy model mieszany. Dlatego w mojej pracy chciałbym się głównie skupić na liniowym modelu mieszanym. Rysunek 1 przedstawie graficzny podział modeli mieszanych. Rysunek 1: Rodzaje modeli mieszanych. 3 Liniowy model mieszany 3.1 Postać modelu Liniowy model mieszany jest uogólnieniem ogólnego modelu liniowego. Definicja 2 (Liniowy model mieszany) [3] Postać liniowego modelu mieszanego (dla jednego czynnika losowego) można zapisać jako yij = x1ij β1 + ... + xpij βp + z1ij bi1 + ... + zqij biq + ij dla j = 1, 2, ... , ni i = 1, 2, ... , m (1) gdzie: yij - zmienna objaśniana dla j-tej z ni obserwacji (jednostek analitycznych) znajdującej się w i-tej klastrze (grupie) β1 , ... , βp - nieznane parametry efektów stałych, które są identyczne dla wszystkich klastr x1ij , ... , xpij - p zmiennych objaśniających o efektach stałych dla j-tej obserwacji w i -tej klastrze bi1 , ... , biq - nieznane zmienne losowe efektów losowych dla i-tej klastry z1ij , ... , zqij - q zmiennych objaśniających o efektach losowych dla j-tej obserwacji w i-tej klastrze 10 ij - błąd dla j-tej obserwacji w i-tej klastrze m - liczba klastr czynnika losowego ni - liczba obserwacji w i-tej klastrze czynnika losowego. Postać liniowego modelu mieszanego jest rozszerzeniem postaci ogólnego liniowego modelu o efekty losowe. Zwróćmy uwagę, że wzór (1) jest zdefiniowany dla jednego czynnika losowego. W przypadku większej ilości czynników losowych postać modelu byłaby jeszcze bardziej obszerna. Co więcej, na poziomie klastr możemy użyć notacji macierzowej do zdefiniowania modelu [3] Yi = Xi β + Zi bi + i gdzie: Yi - wektor zmiennych objaśnianych w i-tej klastrze, wymiaru ni × 1 Y1i Y2i Yi = ... Yni i β - wektor nieznanych p parametrów efektów stałych, wymiaru p×1 (identyczny dla każdej klastry) β1 β2 β= ... βp Xi - macierz zmiennych objaśniających o efektach stałych dla i-tej klastry, wymiaru ni × p X1i1 X2i1 ... Xpi1 X1i2 X2i2 ... Xpi2 Xi = ... ... ... ... X1ini X2ini ... Xpini Jeżeli model zawiera wyraz wolny to pierwsza kolumna musi być równa 1 dla wszystkich obserwacji. bi - wektor nieznanych q zmiennych losowych efektów losowych dla i-tej klastry, wymiaru q × 1 b1i b2i bi = ... bqi Zi - macierz zmiennych objaśniających o efektach losowych dla i-tej klastry, wymiaru ni × q Z1i1 Z2i1 ... Zqi1 Z1i2 Z2i2 ... Zqi2 Zi = ... ... ... ... Z1ini Z2ini ... Zqini i - wektor błędów dla obserwacji w i-tej klastrze, wymiaru ni × 1 1i 2i i = ... ni i 11 bi ∼ N (0, G) gdzie: G - symetryczna i dodatnio określona macierz kowariancji (zwana również macierzą wariancji kowariancji) dla efektów losowych, wymiaru q × q V ar(b1i ) cov(b1i , b2i ) ... cov(b1i , bqi ) cov(b1i , b2i ) V ar(b2i ) ... cov(b2i , bqi ) . G = V ar(bi ) = ... ... ... ... cov(b1i , bqi ) cov(b1i , bqi ) ... V ar(bqi ) Elementy (wariancje i kowariancje) macierzy G są zdefiniowane jako funkcje parametrów kowariancji zapisanych w wektorze oznaczonym przez θG . Różne struktury macierzy G zostały omówione w rozdziale 3.2. i ∼ N (0, Ri ) gdzie: Ri - symetryczna i dodatnio określona macierz kowariancji (zwana również macierzą wariancji kowariancji) dla błędów w i-tej klastrze, wymiaru ni × ni V ar(1i ) cov(1i , 2i ) ... cov(1i , ni i ) cov(1i , 2i ) V ar(2i ) ... cov(2i , ni i ) . Ri = V ar(i ) = ... ... ... ... cov(1i , ni i ) cov(1i , ni i ) ... V ar(ni i ) Elementy (wariancje i kowariancje) macierzy Ri są zdefiniowane jako funkcje parametrów kowariancji zapisanych w wektorze oznaczonym przez θR . Różne struktury macierzy Ri zostały omówione w rozdziale 3.3. Uwaga 1 Zauważmy, że w liniowym modelu mieszanym przyjmuje się, że błędy i efekty losowe mają rozkład normalny oraz ich kowariancja jest równa zero. Zatem można powiedzieć, że są niezależne, a tym samym nieskorelowane, co z kolei można zapisać jako 0 0 0 0 cov(bi , i ) = E((bi − E(bi ))(i − E(i )) ) = E((bi − 0)(i − 0) ) = E(bi i ) = E(bi )E(i ) = 0. W przypadku gdy sam czynnik losowy stanowi jedyną zmienną o efektach losowych dla i-tych klastr (tego czynnika) to wówczas przyjmuje się, że macierz Zi jest macierzą złożoną z jednej kolumny, której elementem jest jedynka dla i-tej klastry. W takim przypadku badana jest losowość wynikająca tylko ze zmiany klastr dla danego czynnika losowego. Sytuacja taka (czyli w której tylko wyraz wolny reprezentuje i-te klastry dla danego czynnika losowego) jest dosyć często spotykana oraz stosowana w liniowych modelach mieszanych. 12 Uwaga 2 Przy powyższych założeniach zmienna objaśniana (zależna) Yi ma rozkład normalny Yi ∼ N (Xi β, Zi GZi0 + Ri ). oraz cov(Yi , bi ) = Zi G cov(Yi , i ) = Ri . Dowód. E(Yi ) = E(Xi β + Zi bi + i ) = E(Xi β) + E(Zi bi ) + E(i ) = Xi β + 0 + 0 = Xi β V ar(Yi ) = V ar(Xi β + Zi bi + i ) = V ar(Xi β) + V ar(Zi bi ) + V ar(i ) = 0 + Zi V ar(bi )Zi0 + V ar(i ) = Zi GZi0 + Ri cov(Yi , bi ) = cov(Xi β + Zi bi + i , bi ) = cov(Xi β, bi ) + Zi cov(bi , bi ) + cov(i , bi ) = 0 + Zi G + 0 = Zi G cov(Yi , i ) = cov(Xi β + Zi bi + i , i ) = cov(Xi β, i ) + cov(Zi bi , i ) + cov(i , i ) = 0 + 0 + Ri = Ri 3.2 Różne struktury macierzy kowariancji G 3.2.1 Niestrukturalna Macierz kowariancji G bez dodatkowych ograniczeń na wartości jej elementów (oprócz dodatniej określoności oraz symetrii) jest definiowana jako niestrukturalna macierz G. Taka struktura jest często używana do modeli o współczynnikach losowych. Symetria w q × q wymiarowej macierzy G implikuje, że wektor θG ma q(q+1) 2 parametrów. Poniższa macierz przedstawia przykład niestrukturalnej macierzy kowariancji G w liniowym modelu mieszanym posiadający dwa efekty losowe w i-tej klastrze. Przyjmujemy, że macierz G jest identyczna dla każdej klastry. " G = V ar(bi ) = 2 σb1 σb1,b2 σb1,b2 2 σb2 # . W tym przypadku wektor θG zawiera trzy parametry 2 σb1 θG = σb1,b2 . 2 σb2 3.2.2 Komponentów wariancji Dość powszechną strukturą macierzy kowariancji G jest również struktura komponentów wariancji (zwana diagonalną), w której przyjmuje się, że każdy efekt losowy w i-tej klastrze (czyli bi ) posiada własną wariancję oraz, że wszystkie kowariancje w macierzy G są równe zero. Zatem wektor θG będzie zawierał q parametrów będącymi wariancjami (które znajdują się na przekątnej macierzy G). 13 Poniższa macierz przedstawia przykład macierzy kowariancji G o strukturze komponentów wariancji w liniowym modelu mieszanym posiadający dwa efekty losowe w i-tej klastrze. Przyjmujemy, że macierz G jest identyczna dla każdej klastry. G = V ar(bi ) = " 2 σb1 0 0 # 2 σb2 . Wektor θG dla rozważanego przypadku zawiera dwa parametry θG = " # 2 σb1 2 σb2 . Uwaga 3 Struktura komponentów wariancji i niestrukturalna macierz G są najbardziej powszechnymi i najczęściej używanymi strukturami macierzy kowariancji G. Sporą ich zaletą jest to, że są dostępne w większości języków programowania (np. R, SAS). 3.3 Różne struktury macierzy kowariancji Ri Przedstawione teraz zostaną wybrane struktury macierzy kowariancji Ri . Najczęstszym przypadkiem w liniowych modelach mieszanych jest założenie, że macierz kowariancji Ri = R dla wszystkich klastr w rozważanym modelu. 3.3.1 Komponentów wariancji Najprostszą postacią macierzy kowariancji Ri jest struktura komponentów wariancji (struktura diagonalna), w której zakłada się, że błędy powiązane z obserwacjami na i-tej klastrze są nieskorelowane i posiadają równe wariancje. Diagonalna macierz Ri dla i-tej klastry przyjmuje postać σ2 0 Ri = V ar(i ) = σ 2 I = ... 0 0 ... σ2 ... ... 0 0 0 . ... ... 2 ... σ Diagonala postać macierzy i stała wariancja powodują, że wektor θR zawiera tylko jeden parametr h i θR = σ 2 . 3.3.2 Symetrii związku Struktura symetrii związku jest często używaną strukturą dla macierzy Ri . 14 Macierz Ri dla i-tej klastry przyjmuje postać σ 2 + σ1 σ1 Ri = V ar(i ) = ... σ1 σ1 ... σ1 σ 2 + σ1 ... σ1 ... ... . σ1 ... ... 2 σ + σ1 Wektor θR zawiera dwa parametry będące wariancjami i kowariancjami macierzy Ri " # σ2 θR = . σ1 Zwróćmy uwagę, że w strukturze symetrii związku (macierzy kowariancji Ri ) zakładamy, że ni błędów powiązanych z zaobserwowanymi wartościami dla i-tej klastry czynnika losowego ma stałą kowariancję σ1 oraz stałą wariancję σ 2 + σ1 . Struktura ta jest często stosowana przy założeniu równych korelacji błędów (np. w badaniu, w którym dane z powtórzonych pomiarów są mierzone w tych samych warunkach). 3.3.3 Autoregresji I rzędu Struktura autoregresji I rzędu (oznaczana przez AR(1)) jest kolejną chętnie stosowaną strukturą macierzy kowariancji Ri . Ogólna postać macierzy Ri dla rozpatrywanej struktury jest następująca σ2 σ2 ρ Ri = V ar(i ) = ... σ 2 ρni −1 σ 2 ρni −1 σ2 ρ ... σ2 σ 2 ρni −2 . ... ... ... σ2 ... σ 2 ρni −2 ... Wektor θR posiada tylko dwa parametry (parametr wariancji σ 2 oraz parametr korelacji ρ) " θR = σ2 ρ # . Zauważmy, że σ 2 musi być dodatnia, natomiast ρ przyjmuje wartości między -1 a 1. W strukturze AR(1) przyjmuje się, że wariancja błędów jest stała oraz kowariancja błędów obserwacji oddalonych w jednostek od siebie jest równa σ 2 ρw . Oznacza to, że wszystkie sąsiednie błędy (czyli błędy powiązane z obserwacjami będącymi obok siebie w sekwencji wzdłużnej dla danego badania) mają kowariancje σ 2 ρ, natomiast błędy obserwacji oddalonych dwoma jednostkami od siebie (w sekwencji wzdłużnej) mają kowariancję σ 2 ρ2 i tak dalej. Struktura autoregresji I rzędu macierzy kowariancji Ri jest stosowana głównie dla danych wzdłużnych, dla których badanie przyjmuje jednakową jednostkę czasu kolejnych pomiarów dla badanych jednostek analitycznych. 15 3.3.4 Toeplitza Kolejną strukturą macierzy kowariancji Ri jest struktura Toeplitza, która dopuszcza większą elastyczność w korelacjach, lecz kosztem wykorzystania większej liczby parametrów w wektorze θR . Poniżej znajduje się przykład macierzy kowariancji Ri o strukturze Toeplitza w liniowym modelu mieszanym posiadającym trzy efekty losowe w i-tej klastrze. σ2 σ1 Ri = V ar(i ) = σ 2 σ3 σ1 σ2 σ3 σ2 σ1 σ1 σ2 σ2 σ1 σ2 . σ1 σ2 Wektor θR zawiera cztery parametry σ2 σ1 θR = σ . 2 σ3 3.4 Warunkowy liniowy model mieszany Definicja 3 (Warunkowy liniowy model mieszany) [1] Niech Vi będzie macierzą wariancji-kowariancji (wymiaru ni × ni ) definiowaną jako Vi = Zi GZi0 + Ri . Wówczas warunkowy liniowy model mieszany jest postaci Yi = Xi β + ∗i gdzie: ∗i ∼ N (0, Vi ) Yi ∼ N (Xi β, Zi GZi0 + Ri ). Uwaga 4 Warunkowemu liniowemu modelowi mieszanemu odpowiadają te same parametry kowariancji θG oraz θR . Model ten stanowi istotne zagadnienie w analizie liniowego modelu mieszanego. Przy jego pomocy przeprowadza się estymację parametrów efektów stałych i kowariancji w liniowym modelu mieszanym. Korzystając z warunkowego liniowego modelu mieszanego jesteśmy również w stanie przeprowadzić analizę modelu dla ujemnie określonej macierzy G. Warto jednak zaznaczyć, że często (mimo swojej znaczącej roli) warunkowy liniowy model mieszany jest bardzo ogólnie przedstawiany bądź nawet pomijany w literaturach na temat modeli mieszanych. Najistotniejsze różnice między liniowym modelem mieszanym a warunkowym liniowym modelem mieszanym: • W liniowym modelu mieszanym nałożonych jest więcej ograniczeń dla parametrów kowariancji niż w warunkowym liniowym modelu mieszanym. Przykład: elementy na przekątnej 16 (czyli wariancje) w macierzy G i Ri muszą być dodatnie w liniowym modelu mieszanym. W przypadku warunkowego liniowego modelu mieszanego nie jest to wymagane. • W liniowym modelu mieszanym macierze G i Ri muszą być dodatnio określone, natomiast w warunkowym liniowym modelu mieszanym wymaga się tylko, żeby macierz Vi była dodatnio określona. Definicja 4 (Zakres macierzy (ang. range of matrix))[15] Niech A będzie macierzą wymiaru m×n (czyli A ∈ Rm×n ). Przez R(A) oznaczamy zakres macierzy A, czyli podprzestrzeń przestrzeni Rm rozpiętą przez kolumny macierzy A, co można zapisać jako R(A) = {z : z = Ax = Pn i=1 a(i) xi , x ∈ Rn } ⊂ Rm gdzie: x = (x1 ... xn ) A = [a(1) ... a(n) ] a(1) , ... , a(n) - kolumny macierzy A. Własności: (a) R(A) ⊂ R(B) ⇒ A = BC dla pewnej macierzy C (b) R(AA0 ) = R(A) gdzie A0 jest transpozycją macierzy A (c) R(AB) ⊆ R(A) dla dowolnej macierzy A oraz B (d) Dla A 0 i dla dowolnej B, R(BAB 0 ) = R(BA). Definicja 5 (Uogólniona odwrotność)[15] Niech A będzie macierzą wymiaru m × n. Macierz A− (wymiaru n × m) jest nazywana uogólnioną odwrotnością macierzy A jeśli zachodzi AA− A = A. Twierdzenie 1 [15] Uogólniona odwrotność zawsze istnieje. Definicja 6 (Macierz idempotentna)[15] Kwadratową macierz A nazywamy idempotentną jeśli zachodzi A2 = AA = A. Twierdzenie 2 [15] Dla każdej macierzy A (m × n) oraz uogólnionej odwrotności A− (n × m) otrzymujemy, że: (a) A− A i AA− są idempotentne (b) rz(A) = rz(AA− ) = rz(A− A) gdzie rz(A) jest rzędem macierzy A (c) rz(A) ¬ rz(A− ). Dowód. (a) korzystając definicji uogólnionej odwrotności otrzymujemy (A− A)(A− A) = A− (AA− A) = A− A oraz (AA− )(AA− ) = (AA− A)A− = AA− 17 (b) korzystając z własności rzędu macierzy i definicji uogólnionej odwrotności otrzymujemy: rz(A) = rz(AA− A) ¬ rz(A− A) ¬ rz(A), zatem rz(A− A) = rz(A) rz(A) = rz(AA− A) ¬ rz(AA− ) ¬ rz(A), zatem rz(AA− ) = rz(A) (c) rz(A) = rz(AA− A) ¬ rz(AA− ) ¬ rz(A− ) Dla macierzy wariancji-kowariancji Vi zostanie teraz zaprezentowane kilka własności (Uwaga 5). Uwaga 5 [15] 0 Niech rz(Ri ) = z ¬ ni , rz(Zi ) = r ¬ q, Vi = Zi GZi + Ri , R(Ri ) ⊂ R(Vi ) oraz R(Zi ) ⊂ R(Vi ). Wówczas: 0 0 0 0 (a) Zi (Zi Vi− Zi )− Zi Vi Zi = Zi 0 (b) Zi (Zi Vi− Zi )− Zi Vi− Vi Mi = 0 jeżeli Xi Mi = 0 0 0 (c) tr(Vi− Vi − Zi (Zi Vi− Zi )− Zi ) = rz(Ri : Zi ) − rz(Zi ) gdzie tr(A) jest śladem macierzy A. 3.5 Estymacja W liniowych modelach mieszanych estymowane są parametry efektów stałych β oraz parametry kowariancji θG i θR odpowiednio dla macierzy G oraz Ri . Zauważmy, że to co odróżnia liniowy model mieszany od ogólnego modelu liniowego (przypomnienie postaci ogólnego modelu liniowego znajduje się w rozdziale 7.1) to parametry kowariancji. W ogólnym modelu liniowym estymowane są tylko parametry efektów stałych, ponieważ zakładamy w tym modelu, że wszystkie obserwacje są niezależne. W liniowych modelach mieszanych estymowane są dodatkowo jeszcze parametry kowariancji z następujących powodów: • jednostki analityczne dla których dane są mierzone, mogą być sklastrowane, a dane pochodzące ze wspólnej klastry mogą być skorelowane • pomiary są powtarzane dla tych samych jednostek analitycznych, a więc dane z powtórzonych pomiarów są skorelowane Pierwszy przypadek dotyczy danych, dla których klastry danego czynnika losowego są zagnieżdżone w klastrach innego czynnika losowego. 3.5.1 Parametry efektów stałych β Twierdzenie 3 przedstawia wzór estymatora parametrów efektów stałych dla liniowego modelu mieszanego przyjmując, że rozważany model posiada jedna klastrę. Twierdzenie 3 (Gauss-Markow-Aitken)[15] Niech macierze kowariancji G oraz R będą znane, V = ZGZ 0 + R oraz Y = Xβ + ∗ gdzie ∗ ∼ N (0, V ). Wówczas uogólniony estymator najmniejszych kwadratów parametrów efektów stałych β jest dany wzorem 0 0 β̂ = (X V −1 X)−1 X V −1 y 18 (2) i jest nieobciążonym estymatorem β oraz jego wariancja jest równa 0 V ar(β̂) = (X V −1 X)−1 . (3) Dowód. (a) Najpierw zostanie udowodniony wzór (2). Dowód odnosi się do ogólnego modelu liniowego, którego postać znajduję się w rozdziale 7.1. Wiemy, że dla ogólnego modelu liniowego estymator efektów stałych wyznaczony metodą naj0 0 mniejszych kwadratów jest dany wzorem β̂ = (X X)−1 X y. Do estymacji efektów stałych liniowego modelu mieszanego będziemy korzystać z postaci warunkowego liniowego modelu mieszanego dla jednej klastry, czyli Y = Xβ + ∗ (4) gdzie: ∗ ∼ N (0, V ) V = ZGZ 0 + R Y ∼ N (Xβ, V ). Ponieważ V jest symetryczna i dodatnio określona (co wynika z symetryczności i dodatniej określoności macierzy G oraz R) to V −1 jest również symetryczna i dodatnio określona. Zatem istnieje macierz M oraz N taka, że (rozkład Choleskiego) V = M 0M V −1 = N 0 N . oraz Mnożąc lewostronnie przez N warunkowy liniowy model mieszany (4) oraz przyjmując, że Y = y otrzymujemy N y = N Xβ + N ∗ . Niech N y = ỹ N ∗ = ˜ N X = X̃ zauważmy, że E(˜ ) = E(N ∗ ) = 0 V ar(˜ ) = V ar(N ∗ ) = N V ar(∗ )N 0 = N V N 0 = N (N 0 N )−1 N = N N −1 (N 0 )−1 N 0 = Irz(V ) = Ini . Czyli model ỹ = X̃β + ˜ spełnia założenia Gaussa-Markowa o składniku losowym metody najmniejszym kwadratów. Zatem możemy skorzystać z postaci estymatora efektów stałych ogólnego modelu liniowego dla modelu ỹ = X̃β + ˜. Wówczas uogólniony estymator najmniejszych kwadratów parametrów efektów stałych β̂ dla warunkowego liniowego modelu mieszanego można zapisać jako 0 0 0 0 0 0 β̂ = (X̃ 0 X̃)−1 X̃ 0 ỹ = (X N N X)−1 X N N y = (X V −1 X)−1 X V −1 y. Wprowadzając i klastr do modelu (4) otrzymujemy, że P 0 P 0 β̂ = ( i Xi Vi−1 Xi )−1 i Xi Vi−1 yi . 19 (5) (b) Pokazane teraz zostanie, że estymator β̂ = ( 0 P i Xi Vi−1 Xi )−1 P i 0 Xi Vi−1 yi jest estymatorem nieobciążonym. 0 0 0 0 0 0 E(β̂) = E((X V −1 X)−1 X V −1 y) = (X V −1 X)−1 X V −1 E(y) = (X V −1 X)−1 X V −1 Xβ = β. 0 (c) Udowodnimy teraz, że V ar(β̂) = (X V −1 X)−1 . 0 0 0 0 0 V ar(β̂) = V ar((X V −1 X)−1 X V −1 y) = (X V −1 X)−1 X V −1 V ar(y)V −1 X(X V −1 X)−1 = 0 0 0 0 0 0 0 = (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1 = (X V −1 X)−1 X V −1 X(X V −1 X)−1 = (X V −1 X)−1 . Wprowadzając i klastr do warunkowego liniowego modelu mieszanego (4) otrzymujemy, że P 0 V ar(β̂) = ( i Xi Vi−1 Xi )−1 . (6) Definicja 7 (Najlepszy liniowy nieobciążony estymator)[15] Najlepszy liniowy nieobciążony estymator (NLNE) parametrów β odnoszących się do danych y: (a) jest liniową funkcją y, czyli β̂ = Ay dla pewnej macierzy A (b) jest nieobciążony, czyli E(Ay) = β (c) posiada minimalną wariancje (pośród wszystkich nieobciążonych liniowych estymatorów). Twierdzenie 4 [15] 0 0 Uogólniony estymator najmniejszych kwadratów β̂ = (X V −1 X)−1 X V −1 y jest NLNE. Dowód. Niech d będzie kolejnym liniowym i nieobciążonym estymatorem parametrów efektów stałych β takim, że d = C̃y gdzie: C̃ = Ĉ + A 0 0 Ĉ = (X V −1 X)−1 X V −1 . Z nieobciążoności otrzymujemy, że E(C̃y) = C̃Xβ = β ⇒ AX = 0. Następnie wyliczamy wariancję d 0 0 0 0 V ar(d) = V ar(C̃y) = C̃V ar(y)C̃ = (Ĉ + A)V (Ĉ + A) = ĈV Ĉ + AV A = 0 0 0 0 0 0 = (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1 + AV A = (X V −1 X)−1 + AV A = V ar(β̂) + AV A i otrzymujemy, że 0 V ar(d) − V ar(β̂) = AV A . 20 0 0 Jeśli macierz A = 0 to wariancję są równe. Gdy A > 0 to macierz AV A jest dodatnio określona. Zatem istnieje minimalna wariancja. Definicja 8 przedstawia alternatywną formę zapisy estymatora parametrów efektów stałych liniowego modelu mieszanego. Definicja 8 [15] Jeżeli Y = Xβ + ∗ gdzie ∗i ∼ N (0, V ) to wówczas estymator parametrów efektów stałych β jest dany wzorem β̂ = argmin(y − Xβ)0 V −1 (y − Xβ) β którego jednoznaczne rozwiązanie jest postaci 0 0 β̂ = (X V −1 X)−1 X V −1 y. 3.5.2 Predyktor efektów losowych b̂ Gdy macierze Ri i G są znane to istnieje najlepszy liniowy nieobciążony predytor dla efektów losowych liniowego modelu mieszanego o czym mówi twierdzenie 5 przyjmując, że model mieszany zawiera jedną klastrę. Twierdzenie 5 [15] Niech macierz kowariancji R oraz G będzie znana. Wówczas warunkowa wartość oczekiwana efektów losowych po zaobserwowanych danych (nazywana najlepszym liniowym nieobciążonym predytorem (NLNP) efektów losowych) dana jest wzorem 0 b̂ = GZ V −1 (y − X β̂). Dowód. Najlepszy liniowy nieobciążony predyktor (NLNP) jest warunkową wartością oczekiwaną efektów losowych po zaobserwowanych danych, zatem E(b|Y = y) = E(b) + cov(b,y) var(y) (y − E(y)) = 0 + GZ V 0 0 (y − Xβ) = GZ V −1 (y − Xβ) ostatecznie 0 b̂ = GZ V −1 (y − X β̂). Wprowadzając i klastr do liniowego modelu mieszanego otrzymujemy, że P 0 bˆi = i GZi Vi−1 (yi − Xi β̂). 21 Uwaga 6 0 0 0 V ar(b̂) = GZ (V −1 − V −1 X(X V −1 X)−1 X V −1 )ZG Dowód. 0 0 Niech P = X(X V −1 X)−1 X V −1 , wówczas y − X β̂ można zapisać jako 0 0 y − X β̂ = y − X(X V −1 X)−1 X V −1 y = (I − P )y. Wówczas 0 0 0 0 V ar(y − X β̂) = (I − P )V ar(y)(I − P ) = (I − P )V (I − P ) = V − P V − V P + P V P . Następnie wyliczamy 0 0 V ar(b̂) = GZ V −1 V ar(y − X β̂)V −1 ZG = |G = G , ponieważ macierz kowariancji G jest sy0 0 0 metryczna i dodatnio określona| = GZ V −1 (V − P V − V P + P V P )V −1 ZG = 0 0 0 = GZ (V −1 V V −1 − V −1 P V V −1 − V −1 V P V −1 + V −1 P V P V −1 )ZG = 0 0 0 = GZ (V −1 − V −1 P − P V −1 + V −1 P V P V −1 )ZG. Zauważając, że 0 0 0 0 V −1 P = P V −1 = V −1 P V P V −1 = V −1 X(X V −1 X)−1 X V −1 otrzymujemy ostatecznie 0 0 0 0 V ar(b̂) = GZ (V −1 − V −1 P )ZG = GZ (V −1 − V −1 X(X V −1 X)−1 X V −1 )ZG. Uwaga 7 cov(β̂, b̂) = 0 Dowód. Korzystając z reguły dla dwóch losowych wektorów X i y cov(AX, By) = Acov(X, y)B 0 gdzie A i B są znanymi macierzami, otrzymujemy 0 0 0 cov(β̂, b̂) = cov((X V −1 X)−1 X V −1 y, GZ V −1 (y − X β̂)) = 0 0 0 0 0 = cov((X V −1 X)−1 X V −1 y, GZ V −1 (y − X(X V −1 X)−1 X V −1 y)) = 0 0 0 0 0 0 = (X V −1 X)−1 X V −1 cov(y, y)V −1 ZG − (X V −1 X)−1 X V −1 cov(y, y)V −1 X(X V −1 X)−1 0 0 0 0 0 0 0 0 0 0 0 0 X V −1 ZG = (X V −1 X)−1 X V −1 V V −1 ZG − (X V −1 X)−1 X V −1 V V −1 X(X V −1 X)−1 0 0 0 0 0 0 X V −1 ZG = (X V −1 X)−1 X V −1 ZG − (X V −1 X)−1 X V −1 X(X V −1 X)−1 X V −1 ZG = 0 0 0 0 0 0 = (X V −1 X)−1 X V −1 ZG − (X V −1 X)−1 X V −1 ZG = 0. 22 Uwaga 8 cov(β̂ − β, b̂ − b) 6= 0 Dowód. cov(β̂ − β, b̂ − b) = cov(β̂, b̂) − cov(β̂, b) = 0 − cov(β̂, b) = −cov(β̂, b) = 0 0 0 0 = −cov((X V −1 X)−1 X V −1 y, b) = −(X V −1 X)−1 X V −1 cov(y, b) = 0 0 0 0 = −(X V −1 X)−1 X V −1 cov(Zb, b) = −(X V −1 X)−1 X V −1 ZG 6= 0. 3.5.3 Lemat Rao Dla przejrzystości zapisu przyjmujemy, że liniowy model mieszany posiada jedną klastrę. Lemat 1 (Rao)[15] Niech R : n × n, X : n × p, F : n × p oraz P : p × p będą danymi macierzami takimi, że 0 R(F ) ⊂ R(R : X), R(P ) ⊂ R(X ) oraz rozważmy p × p funkcję macierzową A : n × p 0 0 0 f (A) = A RA − A F − F A. Wówczas min f (A) = f (A∗ ) X 0 A=P gdzie: (A∗ , B∗ ) jest rozwiązaniem układu równań RA + XB = F X 0 A = P . (7) Co więcej 0 0 0 0 f (A∗ ) = min f (A) = −A∗ F − B∗ P = −F A∗ − P B∗ . 0 (7A) X A=P Dowód. 0 Niech (A∗ , B∗ ) będzie rozwiązaniem układu równań (7). Każda macierz A (taka, że X A = P ) może być zapisana jako A∗ + ZC, gdzie Z = X ⊥ (X ⊥ jest ortogonalnym dopełnieniem X) oraz macierz C jest dowolna. Wówczas 0 0 0 0 0 0 f (A) = A V A − A F − F A = (A∗ + ZC) V (A∗ + ZC) − (A∗ + ZC) F − F (A∗ + ZC) = 0 0 0 0 0 0 0 0 0 =(A∗ V A∗ − A∗ F − F A∗ ) + C Z V ZC + (A∗ V − F )ZC + C Z (V A∗ − F ) = 0 0 0 0 0 0 (7B) 0 =(A∗ V A∗ − A∗ F − F A∗ ) + C Z V ZC = f (A∗ ) + C Z V ZC. Korzystając z układu równań (7) otrzymujemy, że C 0 Z 0 (V A∗ − F ) = 0 V A∗ + XB∗ = F ⇒ (A0 V − F 0 )ZC = 0 . ∗ Zatem dwa ostanie wyrażenia w równaniu (7B) są równe 0. Zauważmy również, że f (A) − f (A∗ ) = 0 0 C Z V ZC. 23 Następnie zapisujemy 0 0 0 0 0 0 0 0 0 f (A∗ ) = A∗ V A∗ − A∗ F − F A∗ = A∗ (V A∗ − F ) − F A∗ = −A∗ XB∗ − F A∗ = −P B∗ − F A∗ = 0 0 = −A∗ F − B∗ P . Co dowodzi prawdziwości wzoru (7A). Twierdzenie 6 [15] Niech R będzie macierzą wymiaru n × n oraz X macierzą wymiaru n × p. Wówczas uogólniona odwrotność macierzy " R X X 0 # 0 jest postaci " C1 0 # C2 C2 −C4 #− " czyli " R X 0 X 0 = C1 # C2 0 −C4 C2 gdzie: [ . ]− jest uogólnioną odwrotną macierzą 0 0 C1 = T − − T − X(X T X)− X T − 0 0 0 C2 = (X T − X)− X T − 0 0 −C4 = (X T − X)− (X T − X − I) 0 T = R + XX . Uwaga 9 Na podstawie Lematu 1 oraz Twierdzenia 6 otrzymujemy, że 0 B∗ = C2 F − C4 P . A∗ = C1 F + C2 P , Dowód. (A∗ , B∗ ) spełnia układ równań (7) zatem RA∗ + XB∗ = F X 0 A = P . (8) ∗ Układ równań (8) można zapisać równoważnie jako RA∗ + XB∗ = F + XP − XP RA∗ + XB∗ = F + XP − XX 0 A∗ ⇐⇒ ⇐⇒ X 0 A = P X 0 A = P ∗ ∗ RA∗ + −XX 0 A∗ + XB∗ = F + XP (R + XX 0 )A∗ + XB∗ = F + XP ⇐⇒ . (9) X 0 A = P X 0 A = P ∗ ∗ 24 0 Niech T = R + XX . Wówczas z pierwszego równania (9) otrzymujemy 0 0 (R + XX )A∗ + XB∗ = F + XP ⇐⇒ (R + XX )A∗ = F + XP − XB∗ ⇐⇒ 0 A∗ = (R + XX )− (F + XP − XB∗ ) ⇐⇒ A∗ = T − (F + XP − XB∗ ). Następnie podstawiamy A∗ do drugiego równania (9) otrzymując 0 0 X A∗ = P ⇐⇒ X T − (F + XP − XB∗ ) = P . Następnie zapisujemy, że 0 0 0 X T − (F + XP − XB∗ ) = P ⇐⇒ X T − (F + XP ) − X T − X(B∗ ) = P ⇐⇒ 0 0 (X T − X)B∗ = X T − (F + XP ) − P . (10) Korzystając ze wzoru (10) można wyznaczyć rozwiązanie dla B∗ oraz A∗ postaci 0 0 0 0 0 B∗ = (X T − X)− X T − F + (X T − X)− (X T − X − I)P = C2 F − C4 P 0 0 0 A∗ = (T − − T − X(X T X)− X T − )F + T − X(X T − X)− P = C1 F + C2 P . Uwaga 10 Korzystając z Uwagi 9 można zapisać, że P 0 C 4 P f (A∗ ) = −F 0 C F 1 jeśli F = 0 . jeśli P = 0 Dowód. 0 0 0 0 0 f (A∗ ) = −P B∗ − F A∗ = −P (C2 F − C4 P ) − F (C1 F + C2 P ) = 0 P C4 P jeśli F = 0 0 0 0 0 0 = P C4 P − P C2 F − F C2 P − F C1 F = 0 −F C F jeśli P = 0 1 • Estymacja Xβ 0 Niech A y będzie nieobciążonym estymatorem Xβ. Wówczas 0 0 0 0 E(A y) = A Xβ = Xβ dla każdego β ⇒ A X = X ⇐⇒ X A = X 0 oraz 0 0 0 0 0 0 0 0 V ar(A y−Xβ) = E[(A y−Xβ)(A y−Xβ) ] = E[A (Zb+)(Zb+) A] = A V ar(Zb+)A = A V A gdzie: V = ZGZ + R. Problemem jest znalezienie 0 min 0 A V A. 0 X A=X 25 Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu równań postaci V A + XB = 0 X 0 A = X 0 . Zauważmy, że macierz R została zastąpiona macierzą V . Następnie zapisujemy, że " #− " # V X C1 C2 = 0 0 X 0 C2 −C4 otrzymując 0 0 0 B∗ = C2 F − C4 P = −C4 X . A∗ = C1 F + C2 P = C2 X , Zatem nieobciążony estymator Xβ jest postaci 0 0 A∗ y = XC2 y. • Predykcja Zb 0 Niech A y będzie predyktorem Zb takim, że 0 0 0 0 0 E(A y − Zb) = A Xβ − 0 = A Xβ = 0 ⇒ A X = 0 ⇐⇒ XA = 0. Wówczas 0 0 0 0 0 0 0 0 0 V ar(A y − Zb) = E[(A y − Zb)(A y − Zb) ] = E[(A − I)Zbb Z (A − I)] + E[A A] = 0 0 0 0 0 0 0 0 = (A − I)E(Zbb Z )(A − I) + A E( )A = (A − I)ZV ar(b)Z (A − I) + A V ar()A = 0 0 0 0 0 0 0 0 = (A − I)ZGZ (A − I) + A RA = A V A − A ZGZ − ZGZ A + ZGZ = 0 0 = A V A − A W − WA + W gdzie: 0 V = ZGZ + R = W + R 0 W = ZGZ . Problemem jest znalezienie 0 0 min (A V A − A W − W A + W ). 0 XA =0 Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu równań postaci V A + XB = W X 0 A = 0 . Następnie zapisujemy, że " V X X 0 0 #− " = 26 C1 0 C2 C2 −C4 # otrzymując 0 0 B∗ = C2 F − C4 P = C2 W . A∗ = C1 F + C2 P = C1 W, Zatem predyktor Zb jest postaci 0 0 0 A∗ y = W C1 y. • Estymacja 0 Niech A y będzie estymatorem takim, że 0 0 0 0 0 E(A y − ) = A Xβ − 0 = A Xβ = 0 ⇒ A X = 0 ⇐⇒ XA = 0. Wówczas 0 0 0 0 0 0 0 0 0 0 0 0 V ar(A y − ) = E[(A y − )(A y − ) ] = E[A Zbb Z A] + E[(A − I) (A − I)] = A E(Zbb Z )A + 0 0 0 0 0 0 0 0 (A − I)E( )(A − I) = A ZV ar(b)Z A + (A − I)V ar()(A − I) = A ZGZ A + (A − I)R(A − I) = 0 0 A V A − A R − RA + R gdzie: 0 V = ZGZ + R. Problemem jest znalezienie 0 0 min (A V A − A R − RA + R). 0 XA =0 Korzystając z Lematu 1 otrzymujemy, że optymalną macierzą A (czyli A∗ ) jest rozwiązanie układu równań postaci RA + XB = V X 0 A = 0 . Następnie zapisujemy, że " R X 0 X #− 0 = " C1 0 C2 C2 # −C4 otrzymując 0 0 B∗ = C2 F − C4 P = C2 V . A∗ = C1 F + C2 P = C1 V, Zatem estymator jest postaci 0 0 0 A∗ y = V C1 y. 3.5.4 Metoda największej wiarygodności (ML) Metoda największej wiarygodności (w skrócie ML) jest metodą wykorzystywaną do estymacji nieznanych parametrów liniowego modelu mieszanego przez maksymalizację logarytmu funkcji wiarygodności. Parametry w tej metodzie stają się argumentami funkcji wiarygodności. Do estymacji parametrów korzysta się z postaci warunkowego liniowego modelu mieszanego. 27 Funkcja gęstości wielowymiarowego rozkładu normalnego f (Yi |β, θG , θR ) jest postaci [1] f (yi |β, θG , θR ) = (2π)− ni 2 1 det(Vi (θG , θR ))− 2 exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)) gdzie: det - oznacza wyznacznik Vi = Zi GZi0 + Ri . Zatem funkcja wiarygodności odnosząca się to i-tej klastry jest definiowana jako [1] Li (β, θG , θR ) = f (yi |β, θG , θR ) = (2π) − ni 2 1 det(Vi (θG , θR ))− 2 exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)). Następnie zapisujemy funkcję wiarygodności L(β, θG , θR ) jako iloczyn m niezależnych składników (zdefiniowanych wyżej dla pojedynczego i, i=1,2, ... ,m) [1] L(β, θG , θR ) = Q i (2π) − ni 2 det(Vi (θG , θR )) − 21 Q i Li (β, θG , θR ) = exp(−0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)). Czyli logarytm funkcji wiarygodności l(β, θG , θR ) jest definiowany jako [1] l(β, θG , θR ) = lnL(β, θG , θR ) = P i (−0.5ni · ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5(yi − Xi β)0 Vi−1 (θG , θR )(yi − Xi β)). Uwaga 11 Pomimo, że często jest możliwe estymowanie β, θG i θR jednocześnie przez maksymalizowanie l(β, θG , θR ) jednakże większość algorytmów obliczeniowych upraszcza optymalizację wyodrębniając β z l(β, θG , θR ). Rozważmy teraz dwa przypadki: • θG oraz θR są znane Skoro θG oraz θR są znane to tym samym znana jest również macierz kowariancji G oraz Ri . Gdy znamy macierz kowariancji G oraz Ri to wówczas możemy wyznaczyć macierz Vi (ponieważ Vi = Zi GZi0 + Ri ). Podsumowując, skoro znamy θG oraz θR to znamy również macierz Vi . Zatem tylko β pozostaje nam do estymacji. Do estymowanie parametrów efektów stałych β wykorzystuję się (zgodnie z założeniami metody) warunkowy liniowy model mieszany, a następnie na jego podstawie wyznacza się uogólnionych estymator najmniejszych kwadratów (5) (którego postać została przedstawiona oraz udowodniona w rozdziale 3.5.1), czyli P 0 P 0 β̂ = ( i Xi Vi−1 Xi )−1 i Xi Vi−1 yi . • θG oraz θR nie są znane W tym przypadku ponownie korzystamy z uogólnionego estymatora najmniejszych kwadratów parametrów efektów stałych zapisując go w równoważnej postaci do wzoru (5) jako funkcję parametrów θG , θR (dla przejrzystości zapisu) 28 β̂ = β̂(θG , θR ) = ( 0 P i Xi Vi−1 (θG , θR )Xi )−1 P i 0 Xi Vi−1 (θG , θR )yi . Następnie podstawiamy postać estymatora β̂ do logarytmu funkcji wiarygodności l(β, θG , θR ) otrzymując l(β̂, θG , θR )M L = P i (−0.5ni 0 · ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5ˆ i Vi−1 (θG , θR )ˆ i ) gdzie: P 0 P 0 ˆi = yi − Xi β̂ = yi − Xi ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi . Kolejnym krokiem jest maksymalizacja l(β̂, θG , θR )M L (korzystając np. z metody Newtona-Raphsona) czyli uzyskanie θˆG i θˆR , a tym samym Ĝ i R̂i . Zatem możliwe jest wyznaczenie V̂i 0 V̂i = Zi ĜZi + R̂i . Ponownie korzystając z metody uogólnionych najmniejszych kwadratów możemy zapisać, że uogólniony estymator parametrów efektów stałych β̂ jest postaci P 0 P 0 β̂ = ( i Xi V̂i−1 Xi )−1 i Xi V̂i−1 yi . Zauważmy, że wzór na estymator β̂ (dla przypadku gdy θG oraz θR nie są znane) różni się tylko zamianą macierzy Vi (która mogła zostać wyliczona gdy θG oraz θR były znane) na wyestymowaną wartość V̂i . Często przyjmuję się, że macierz Ri posiada strukturę komponentów wariancji (czyli Ri = σ 2 I). Zatem warunkowy liniowy model mieszany jest postaci Yi = Xi β + ∗i gdzie: ∗i ∼ N (0, Vi ). Macierz Vi możemy zapisać jako: 0 0 Vi = Zi GZi + σ 2 I = σ 2 (Zi G̃Zi + I) = σ 2 Ṽi gdzie: G̃ = 1 σ 2 G. Wówczas logarytm funkcji wiarygodności dla takiego modelu można zapisać jako P 0 l(β̂, θG , σ 2 )M L = i (−0.5ni · ln(2π) − 0.5ln(det(Vi (θG , σ 2 ))) − 0.5ˆ i Vi−1 (θG , σ 2 )ˆ i ) = P 2 −2 0 −1 ˜i Ṽi (θG )˜ i ) i (−0.5ni · ln(2π) − 0.5ni ln(σ ) − 0.5ln(det(Ṽi (θG ))) − 0.5σ gdzie: ˜i = yi − Xi ( P i 0 Xi V ˜−1 i (θG )Xi )−1 P i 0 Xi Ṽi−1 (θG )yi . Estymator największej wiarygodności σ 2 obliczamy przyrównując do zera różniczkę l(β̂, θG , σ 2 )M L względem σ 2 , zatem otrzymujemy ∂l(β̂,θG ,σ 2 )M L ∂σ 2 = 0 ⇒ σ̂ 2 = P1 n i 29 0 ˜i Ṽi−1 (θG )˜ i i P i = σ̂ 2 (θG ). Podstawiając σ̂ 2 do l(β̂, θG , σ 2 )M L uzyskujemy skrócony logarytm funkcji wiarygodności dany wzorem l(β̂, θG , σ̂ 2 )M L = 3.5.5 P i (−0.5ni 0 · ln(2π) − 0.5ln(det(Ṽi (θG ))) − 0.5ni · ˜i Ṽi−1 (θG )˜ i ). Ograniczona metoda największej wiarygodności (REML) Ograniczona metoda największej wiarygodności (w skrócie REML) jest częściej preferowana niż metoda największej wiarygodności (ML), ponieważ wytwarza nieobciążone estymatory parametrów kowariancji biorąc pod uwagę utratę stopni swobody, które wynikają z estymacji parametrów efektów stałych β. Podobnie jak dla metody ML do estymacji parametrów liniowego modelu mieszanego korzysta się z postaci warunkowego liniowego modelu mieszanego. Metoda ta polega na maksymalizacji logarytm funkcji wiarygodności danego wzorem [1] P 0 l(β̂, θG , θR )REM L = l(β̂, θG , θR )M L + 0.5p · ln(2π) − 0.5 i ln(det(Xi Vi−1 (θG , θR )Xi )) = P 0 i Vi−1 (θG , θR )ˆ i − i (−0.5(ni − p) · ln(2π) − 0.5ln(det(Vi (θG , θR ))) − 0.5ˆ 0 0.5ln(det(Xi Vi−1 (θG , θR )Xi ))) gdzie: p - ilość parametrów efektów stałych 0 Vi = Vi (θG , θR ) = Zi GZi + Ri P 0 P 0 β̂ = ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi P 0 P 0 ˆi = yi − Xi β̂ = yi − Xi ( i Xi Vi−1 (θG , θR )Xi )−1 i Xi Vi−1 (θG , θR )yi . W odróżnieniu do metody największej wiarygodności (ML), ograniczona metoda największej wiarygodności (REML) nie wyprowadza wzoru na estymator β̂. Zatem dla parametrów efektów stałych stałych korzystamy ze wzoru dla metody ML (uogólniony estymator najmniejszych kwadratów (20)). Warto zauważyć, że pomimo korzystania z tego samego wzoru otrzymamy różne rezultaty dla β̂, ponieważ θˆG oraz θˆR (wyestymowana wartość θG oraz θR ) są różne dla każdej metody (wynika to z odmiennych wzorów na logarytm funkcji wiarygodności dla obu metod). Podsumowując, metody największej wiarygodności (ML oraz REML) są używane w celu estymacji parametrów efektów losowych θG oraz θR w liniowym modelu mieszanym. Następnie przeprowadza się estymację parametrów efektów stałych β. Estymator β̂ wyznacza się korzystając z metody uogólnionych najmniejszych kwadratów. 3.6 Model zagnieżdżony W niektórych liniowych modelach mieszanych można wyróżnić model, który nazywany jest modelem zagnieżdżonym. Dla modelu głównego (czyli takiego, który zawiera zmienne objaśniające wszystkich poziomów danych w rozważanym badaniu) należny ustalić, czy istnieje dla niego taka para modeli (model referencyjny oraz model zagnieżdżony), w której możemy wyróżnić ’zagnieżdżony’ związek między nimi. Głównym celem dla którego szukana jest taka para modeli jest danie możliwości badaczowi lepszego wyboru w ustaleniu odpowiedniego modelu dla zebranych danych. Co więcej, jeżeli został wyodrębniony model zagnieżdżony to wówczas mamy możliwość skorzystania z testu wskaźnika wiarygodności badającego istotność parametrów liniowego modelu mieszanego poprzez porównanie modelu referencyjnego z modelem zagnieżdżonym. 30 Przypuśćmy, że mamy dwa modele: Model A i Model B. Model A definiujemy jako zagnieżdżony w Modelu B jeżeli Model A jest ’specjalnym przypadkiem’ Modelu B. Pod wyrażeniem ’specjalny przypadek’ rozumiemy, że przestrzeń parametrów zagnieżdżonego Modelu A jest podprzestrzenią bardziej ogólnej przestrzeni parametrów Modelu B. Mniej formalnie można powiedzieć, że parametry w modelu zagnieżdżonym można uzyskać przez nałożenie pewnych ograniczeń na parametry w bardziej ogólnym modelu. W praktyce modele zagnieżdżone dla liniowych modeli mieszanych występują głównie dla danych sklastrowanych. Przypomnę, że dla danych tych wyróżniamy poziomy danych, a klastry danego poziomu mogą być zagnieżdżone w klastrach innego poziomu. Warto zauważyć, że model główny nie musi być zawsze modelem referencyjnym, ponieważ na jego podstawie można budować model referencyjny i model zagnieżdżony. Istnieją różne sposoby wyznaczenia modelu referencyjnego oraz modelu zagnieżdżonego na podstawie modelu głównego. Wykorzystywane są w zależności co i na jakim etapie chcemy badać w modelu głównym. Jedno z podejść nawiązuje do tego, że w danych sklastrowanych na każdym poziomie możemy wyodrębnić osobny model dla danego badania, a w modelach na różnych poziomach może wystąpić związek ’zagnieżdżenia’ między nimi. Innym sposobem może być zbudowanie modelu referencyjnego na podstawie modelu głównego, a następnie otrzymanie modelu zagnieżdżonego przez usunięcie części stałej bądź części losowej z modelu referencyjnego. Jeżeli chcemy badać ’stałość’ bądź ’losowość’ między modelami, to aby uzyskać model zagnieżdżony wystarczy usunąć z modelu referencyjnego interesującą nas zmienną objaśniającą o efektach stałych bądź o efektach losowych. 3.7 Badanie istotności parametrów liniowego modelu mieszanego W liniowym modelu mieszanym przeprowadzane jest badanie istotności parametrów efektów stałych β oraz parametrów kowariancji θG i θR odpowiednio dla macierzy G oraz Ri . 3.7.1 Test wskaźnika wiarygodności (LTR) Test wskaźnika wiarygodności (w skrócie LTR) jest testem opartym na porównaniu wartości funkcji wiarygodności dla dwóch modeli (modelu zagnieżdżonego i modelu referencyjnego). Test LTR może być stosowany do badania hipotez dotyczących parametrów kowariancji jak i parametrów efektów stałych oraz nazywany jest pośrednim sposobem badania istotności tych parametrów. Statystyka testu LTR jest obliczana jako różnica -2(logarytm wiarygodności) modelu referencyjnego od modelu zagnieżdżonego, co prezentuje poniższy wzór L ) = −2log(Lzagniezdzony ) − (−2log(Lref erencyjny )) ∼ χ2df LT R = −2log( Lzagniezdzony ref erencyjny gdzie: logLzagniezdzony - logarytm funkcji wiarygodności oszacowany metodą ML lub REML dla parametrów modelu zagnieżdżonego logLref erencyjny - logarytm funkcji wiarygodności oszacowany metodą ML lub REML dla parametrów modelu referencyjnego df - stopnie swobody (wyznaczane jako różnica pomiędzy liczbą parametrów w modelu referencyjnym i w modelu zagnieżdżonym). 31 Bazując na powyższej statystyce możemy budować hipotezy dotyczące parametrów w liniowym modelu mieszanym. Jeżeli wartość statystyki LTR znajduje się w obszarze odrzuceń χ2 (czyli jest większa niż wartość χ2 , zwróćmy uwagę, że wartość rozkładu χ2 jest liczona dla odpowiednich stopni swobody na zadanym poziomie istotności dla każdego badania) to wówczas odrzucamy hipotezę zerową (odnosząca się do modelu zagnieżdżonego) na korzyść hipotezy alternatywnej (odnoszącej się do modelu referencyjnego). Jeżeli statystyka LTR jest stosunkowa mała (nie znajduje się w obszarze odrzuceń χ2 ) to nie mamy podstaw do odrzucenia hipotezy zerowej. Używając ogólnego zapisu hipotezy testu LTR można zapisać jako: H0 : hipoteza odnosząca się do modelu zagnieżdżonego HA : hipoteza odnosząca się do modelu referencyjnego. • Test wskaźnika wiarygodności dla parametrów efektów stałych. Test wskaźnika wiarygodności dla parametrów efektów stałych bazuje na metodzie największej wiarygodności. Zatem, w ogólnym wzorze na statystykę LTR podstawiany jest logarytm funkcji wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych odpowiednio dla modelu zagnieżdżonego i referencyjnego, natomiast stopnie swobody df rozkładu χ2 wyznaczane są jako różnica pomiędzy liczbą parametrów efektów stałych w modelu referencyjnym i w modelu zagnieżdżonego, co można zapisać następująco LM L LT R = −2log( LM Lzagniezdzony ) = −2log(LM Lzagniezdzony ) − (−2log(LM Lref erencyjny )) ∼ χ2dfr −dfz ref erencyjny gdzie: logLM Lzagniezdzony - logarytm funkcji wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych modelu zagnieżdżonego logLM Lref erencyjny ) - logarytm funkcji wiarygodności oszacowany metodą największej wiarygodności dla parametrów efektów stałych modelu referencyjnego dfr - stopnie swobody modelu referencyjnego (równe liczbie parametrów efektów stałych w modelu referencyjnym) dfz - stopnie swobody modelu zagnieżdżonego (równe liczbie parametrów efektów stałych w modelu zagnieżdżonym). W teście LTR przyjmuje się liniowe hipotezy odnoszące się do parametrów efektów stałych oraz zakłada się, że model zagnieżdżony oraz model referencyjny mają ten zbiór parametrów kowariancji lecz różne zbiory parametrów efektów stałych. Przykładem zastosowania testu LTR w badaniu istotności parametrów efektów stałych w liniowym modelu mieszanym jest przyjecie modelu zagnieżdżonego bez efektów stałych, lecz z takimi samymi efektami losowymi co w modelu referencyjnym. Wówczas w takim przypadku będziemy badać istotność zbioru parametrów efektów stałych znajdujących się w modelu referencyjnym (hipoteza zerowa będzie mówiła o nieistotności parametrów efektów stałych, natomiast alternatywna o istotności parametrów efektów stałych). • Test wskaźnika wiarygodności dla parametrów kowariancji. Używając testu wskaźnika wiarygodności do badania parametrów kowariancji liniowego modelu mieszanego należy użyć do estymacji ograniczonej metody największej wiarygodności (REML). 32 Korzystanie z tego testu wymaga założenia, że zagnieżdżony model i model referencyjny mają te sam zbiór parametrów efektów stałych, lecz różne zbiory parametrów kowariancji. Statystyka LTR jest definiowana jak wzorem LREM L LT R = −2log( LREM Lzagniezdzony ) = −2log(LREM Lzagniezdzony ) − (−2log(LREM Lref erencyjny )) ref erencyjny gdzie: logLREM Lzagniezdzony - logarytm funkcji wiarygodności oszacowany ograniczoną metodą największej wiarygodności dla parametrów kowariancji modelu zagnieżdżonego logLREM Lref erencyjny ) - logarytm funkcji wiarygodności oszacowany ograniczoną metodą największej wiarygodności dla parametrów kowariancji modelu referencyjnego. W teście LTR dla parametrów kowariancji rozkład statystyki LTR jest inny niż dla testu LTR badającego istotność parametrów efektów stałych liniowego modelu mieszanego. W rozpatrywanym przypadku statystyka LTR posiada rozkład będący mieszaniną rozkładów χ2 z równymi wagami dla modelu referencyjnego oraz modelu zagnieżdżonego. Na przykład gdy rozważany jest model z dwoma efektami losowymi (model referencyjny) w stosunku do modelu nieposiadającego efektów losowych (model zagnieżdżony), to statystyka LTR ma mieszaninę rozkładów χ22 i χ20 z równymi wagami 0.5. Jeśli natomiast rozważany jest model z dwoma efektami losowymi w stosunku do modelu z jednym efektem losowym to statystyka LTR ma mieszaninę rozkładów χ22 i χ21 z równymi wagami 0.5. Chcąc badać istotność parametrów kowariancji liniowego modelu mieszanego za pomocą testu LTR można postępować w analogiczny sposób jak dla badania istotności parametrów efektów stałych. W tym przypadku przyjmujemy, że model zagnieżdżony nie posiada efektów losowych, lecz takie same efekty stałe co w modelu referencyjnym. Wówczas w takim przypadku będziemy badać istotność parametrów kowariancji znajdujących się w modelu referencyjnym (hipoteza zerowa będzie mówiła o nieistotności parametrów kowariancji, natomiast alternatywna o istotności parametrów kowariancji). Pamiętajmy, że jest to przykład zastosowania tego testu. Oznacza to tym samym, że używając testu LTR może rozważać przypadek, w którym z modelu referencyjnego usuwane są tylko zmienne objaśniające o efektach losowych, których istotność parametrów kowariancji chcemy badać, lecz co najważniejsze modele te muszą posiadać ten sam zbiór efektów stałych (analogicznie rozumowanie można przeprowadzić przy badaniu istotności parametrów efektów stałych, pamiętając, że w tamtym przypadku zbiór efektów losowych musi być identyczny). 3.7.2 T-test T-test służy do badania istotności pojedynczego parametru efektu stałego w liniowych modelach mieszanych. Hipotezy tego testu wyglądają następująco: H0 : β = 0 (hipoteza zerowa mówi o nieistotności parametru efektu stałego) HA : β 6= 0. (hipoteza alternatywa mówi o istotności parametru efektu stałego) 33 Statystyka t-testu jest obliczana wzorem t= β̂ se(β̂) gdzie: β̂ - wyestymowana wartość parametru efektu stałego se - błąd standardowy se(β̂)q - błąd standardowy wyestymowanego parametru efektu stałego, który można inaczej zapisać jako V ar(β̂) (V ar(β̂) jest definiowana wzorem (6)). Statystyka t przybliża t-rozkład. Co więcej, w przeciwieństwie do ogólnego modelu liniowego liczba stopni swobody nie jest równa n − p (gdzie n jest liczbą obserwacji, a p jest liczbą wyestymowanych parametrów efektów stałych). W tym przypadku musimy wyestymować stopnie swobody mianownika używając odpowiednich metod (lista wybranych metod estymacji stopni swobody mianownika statystyki t znajduje się w rozdziale 7.2). Uwaga 12 Szczególną uwagę powinniśmy zwrócić przy estymowaniu stopni swobody dla małych zbiorów danych. Dla większych zbiorów danych (czyli takich dla których liczba obserwacji na każdym poziomie jest większa niż 100) wybór metody estymowania stopni swobody nie jest istotny, ponieważ różnice w obliczeniach stopni swobody dla mianownika nie są krytyczne dla t statystyki. 3.7.3 Test Walda Test Walda służy do badania istotności pojedynczego parametru kowariancji w liniowym modelu mieszanym. Hipotezy testu Walda wyglądają następująco: H0 : θ = 0 (hipoteza zerowa mówi o nieistotności parametru kowariancji) HA : θ > 0. (hipoteza alternatywa mówi o istotności parametru kowariancji) Zauważmy, że jeżeli dla macierzy kowariancji Ri przyjmiemy strukturę komponentów wariancji (diagonalną) to hipotezy można zapisać jako H0 : σ 2 = 0 HA : σ 2 > 0. Statystyka testu Walda obliczana jest jako iloraz wyestymowanego parametru kowariancji i błędu standardowego wyestymowanego parametru kowariancji, co możemy zapisać jako z= θ̂ . se(θ̂) Uwaga 13 Test Walda jest wiarygodny tylko dla dużych próbek danych. Dla małych próbek danych test ten może być niewiarygodny, ponieważ małe próbki danych znane są z tego, że produkują rozkłady graniczne 34 dla z statystyki (wiec test ten będzie niewiarygodny dla hipotez odnoszących się do parametrów kowariancji znajdujących się na granicy przestrzeni parametrów). Dla małych danych zalecane jest zatem użycie testu wskaźnika wiarygodności (LTR). Podsumowując: • T-test oraz test Walda służą do badania istotności pojedynczego parametru (odpowiednio) efektu stałych lub kowariancji liniowego modelu mieszanego. • Wyróżniamy dwa testy wskaźnika wiarygodności. Jeden bada istotność parametrów efektów stałych, drugi natomiast służy do badania istotności parametrów kowariancji liniowego modelu mieszanego. • Test wskaźnika wiarygodności może być stosowany do liniowych hipotez badających istotność parametrów efektów stałych bądź parametrów kowariancji. Zatem, za pomocą testu LTR można badać pojedynczy parametr jak i jednocześnie kilka parametrów efektów stałych bądź parametrów kowariancji (wówczas hipoteza zerowa będzie mówiła o nieistotności wszystkich badanych parametrów, natomiast hipoteza alternatywna będzie mówiła o istotności któregokolwiek z badanych parametrów). • Rozkład statystyki LT R jest liczony w zależności od rodzaju testu. • Używając testu LTR do badania istotności parametrów efektów stałych, model referencyjny oraz model zagnieżdżony musi być estymowany metodą największej wiarygodności (ML). • Chcą użyć testu LTR do badanie istotności parametrów kowariancji, model referencyjny oraz model zagnieżdżony musi być estymowany ograniczoną metodą największej wiarygodności (REML). • Wybór metody estymacji stopni swobody dla mianownika statystyki t nie ma znaczenia przy dużej liczbie obserwacji. • Test Walda nie jest wiarygodny dla małych próbek danych. 3.8 Kryterium informacyjne Akaike Kryterium informacyjne Akaike (w skrócie AIC) jest wykorzystywane do porównywania liniowych modeli mieszanych odnoszących się do tego samego zbioru obserwacji (im mniejsza wartość kryteria informacyjnego AIC tym model jest lepiej dopasowany). Definicja 9 (Kryterium informacyjne AIC)[1] Kryterium informacyjne AIC w liniowych modelach mieszanych może być obliczane bazując na (ML lub REML) logarytmie funkcji wiarygodności l(β, θG , θR ) dopasowanego modelu, czyli AIC = −2l(β̂, θˆG , θˆR ) + 2p gdzie: p oznacza liczbę wszystkich parametrów, które zostały oszacowane w modelu zarówno dla efektów stałych i efektów losowych. 35 Modele zagnieżdżone wykorzystywane są nie tylko przy badaniu istotności parametrów liniowych modeli mieszanych. W danych, w których możemy wyodrębnić model zagnieżdżony wykorzystuje się też kryterium AIC. Kryterium AIC w tym przypadku często służy badaczowi do szerszej analizy danych oraz porównania który z modeli (referencyjny bądź zagnieżdżony) jest lepiej dopasowany do rozważanych danych. 4 Nieliniowy model mieszany i uogólniony liniowy model mieszany W rozdziale tym zostaną pokrótce przedstawione pozostałe rodzaje modeli mieszanych. 4.1 Nieliniowy model mieszany Nieliniowe modele mieszane są mieszanymi modelami, w których stałe i losowe efekty są zapisywane nieliniowo. Modele te najczęściej stosowane są dla danych z powtórzonych pomiarów bądź danych wzdłużnych. Istnieje kilka różnych form zapisu nieliniowego modelu mieszanego. Przedstawię teraz postać modelu zaproponowaną przez Lindstorma i Batesa (1990) (zaproponowany zapis nieliniowego modelu mieszanego dopuszcza przypadek zagnieżdżenia klastr czynnika losowego w klastrach innego czynnika losowego oraz jest często stosowany dla danych z powtórzonych pomiarów). Definicja 10 (Nieliniowy model mieszany) [6] Postać nieliniowego modelu mieszanego dla j-tej obserwacji w i-tej klastrze można zapisać jako yij = f (øij , xij ) + ij dla j = 1, 2, ... , ni i = 1, 2, ... , m gdzie: yij - zmienna objaśniana dla j-tej z ni obserwacji (jednostek analitycznych) znajdującej się w i-tej klastrze (grupie) øij - wektor parametrów efektów stałych i efektów losowych dla j-tej obserwacji w i-tej klastrze (øij jest również definiowana jako funkcja liniowa parametrów efektów stałych i efektów losowych, zatem øij odnosi się do postaci liniowego modelu mieszanego) f - nieliniowa funkcja parametrów øij xij - zmienne objaśniające dla j-tej obserwacji w i-tej klastrze m - liczba klastr czynnika losowego ni - liczba obserwacji w i-tej klastrze czynnika losowego. Na poziomie klastr można zapisać nieliniowy model mieszany używając notacji macierzowej Yi = f (øi , Xi ) + i dla i = 1, 2, ... , m gdzie: Y1i Y2i Yi = ... Yni i f (ø1i , X1i ) f (ø2i , X2i ) f (øi , Xi ) = ... f (øni i , Xni i ) i ∼ N (0, Ri ). 36 1i 2i i = ... ni i Do estymacji nieliniowych modeli mieszanych można użyć metody największej wiarygodności (ML) oraz ograniczonej metody największej wiarygodności (REML). Warto jednak zaznaczyć, że nie są to jedyne metody estymacji (jak w przypadku liniowych modeli mieszanych). Opis i lista możliwych metod estymacji nieliniowych modeli mieszanych znajduje się w literaturze [6]. Przykład 2 Przykład nielinowego modelu mieszanego dla krzywej wzrostu logistycznego dla j-tej obserwacji w i-tej klastrze jest postaci f (øij , xij ) = f (β, bi , xij ) = β1 +b1i x −β2 2i 1+exp(− βij+b 3 ) yij = f (β, bi , xij ) + ij " # b1i b2i " # " 2 0 σb1 ∼ N( , 0 σb1,b2 σb1,b2 2 σb2 # ) (czyli dla macierzy G przyjmujemy postać niestrukturalną dla i-tej klastry) ij ∼ N (0, Ri ). 4.2 Uogólniony liniowy model mieszany Różnica pomiędzy uogólnionym liniowym modelem mieszanym, a liniowym modelem mieszanym polega na tym, że w uogólnionym liniowym modelu mieszanym zmienna zależna może pochodzić z innego rozkładu niż Gaussowski (na przykład może mieć rozkład Poissona lub dwumianowy). Zostanie teraz przedstawiona definicja uogólnionego liniowego modelu mieszanego na poziomie klastr (używając notacji macierzowej). Definicja 11 (Uogólniony liniowy model mieszany) [14] Niech ηi będzie kombinacją liniową efektów stałych oraz efektów losowych dla i-tej klastry (ηi nazywana jest liniowym predyktorem dla i-tej klastry), czyli ηi = Xi β + Zi bi gdzie: β - wektor nieznanych p parametrów efektów stałych Xi - macierz zmiennych objaśniających o efektach stałych dla i-tej klastry bi - wektor nieznanych q zmiennych losowych efektów losowych dla i-tej klastry, bi ∼ N (0, G) Zi - macierz zmiennych objaśniających o efektach losowych dla i-tej klastry (wymiary macierz są takie same jak w definicji liniowego modelu mieszanego). Następnie wprowadźmy funkcję wiążącą g. Funkcja wiążąca g łączy wartość oczekiwaną zaobserwowanych danych dla i-tej klastry (czyli µi ) z predyktorem liniowym ηi (czyli g(µi ) = ηi ). Wówczas uogólniony liniowy model mieszany dla warunkowej wartości oczekiwanej Y (warunkowej, ponieważ wartość oczekiwana uzależniona jest od różnych klastr predyktora liniowego) jest postaci g(E(Yi |bi )) = ηi 37 lub równoważnie można zapisać E(Yi |bi ) = g −1 (ηi ) = g −1 (Xi β + Zi bi ) = µi gdzie: Yi - wektor zmiennych objaśnianych w i-tej klastrze g −1 - odwrotność funkcji wiążącej g. Dla Yi można użyć zapisu Yi = g −1 (ηi ) + i gdzie: i - wektor błędów dla obserwacji w i-tej klastrze (i ∼ N (0, Ri )). Tablica 2: Przykłady funkcji wiążących dla uogólnionego liniowego modelu mieszanego. Opracowano na podstawie literatury [2] oraz [10]. µ = g −1 (η) = Funkcja wiążąca g(µ) = η = identyczności µ η log log(µ) eη logit µ log( 1−µ ) 1 1+e−η loglog −log(−log(µ)) exp(−exp(−η)) cloglog log(−log(1 − µ)) 1 − exp(−exp(η)) potęgowa 1 µ2 √1 η 1 µ 1 η (z wykładnikiem -2) odwrotna Zauważmy, że za pomocą uogólnionego liniowego modelu mieszanego można badać liniowy model mieszany. Jeżeli założymy, że zaobserwowane dane w rozważanym badaniu mają rozkład normalny oraz przyjmiemy, że funkcja wiążąca jest postaci identycznościowej to otrzymamy liniowy model mieszany. 38 5 Program SAS dla liniowych modeli mieszanych 5.1 Wprowadzenie W języku programowania SAS istnieje możliwość analizowania każdego z rodzai modeli mieszanych (Rysunek 2). W mojej pracy skupiam się głównie na liniowych modelach mieszanych, dlatego w następnym rozdziale opiszę procedurę PROC MIXED (dla liniowych modeli mieszanych). Gdy czytelnik zapozna się oraz dobrze zrozumie procedurę PROC MIXED to powinien poradzić sobie z użyciem innych procedur dla pozostałych rodzai modeli mieszanych (opis procedury PROC NLMIXED dla nieliniowego modelu mieszanego oraz PROC GLIMMIXED dla uogólnionego liniowego modelu mieszanego znajduje się literaturze (odpowiednio) [10] oraz [11]). Zwróćmy również uwagę, że dla liniowych modeli mieszanych można użyć dwóch procedur (PROC MIXED i PROC HPMIXED). Wyjaśnienie kiedy stosowana jest każda z procedur znajduje się w rozdziale 5.2. Rysunek 2: Nazwy procedury w języku programowania SAS dla modeli mieszanych. 5.2 Procedura PROC MIXED Liniowe modele mieszane są uogólnieniem ogólnych modeli liniowych dla których w programie SAS istnieje procedura PROC GLM. Zatem za pomocą procedury PROC MIXED możemy estymować nie tylko liniowy model mieszany, lecz również ogólny model liniowy. Podstawowe informacje na temat procedury PROC MIXED: • przed rozpoczęciem pracy z procedurą PROC MIXED należy sprawdzić czy zmienna zależna (zmienna objaśniana) ma rozkład normalny • zapewnia spory wybór struktur kowariancji (dzięki czemu możemy badać np. dane wzdłużne czy dane z powtórzonego pomiaru) • wykonuje testy istotności dla parametrów np. t-test, test Walda • estymuje parametry modelu korzystając z metod m. in. ML oraz REML • do optymalizacji funkcji wiarygodności wykorzystuje algorytm Newtona-Raphsona (w skrócie N-R, opis algorytmu N-R znajduje się w rozdziale 7.3) 39 Tablica 3 przedstawia przykład składni dla procedury PROC MIXED. Tablica 3: Składnia procedury PROC MIXED. Opracowano na podstawie literatury [8]. Wyrażenie Przykładowe Przykładowe oraz opis wyrażenia opcje ”pod opcje” PROC MIXED DATA= deklaracja zbioru wejściowego METHOD= deklaracja metody estymacji =REML Opis opcji i ”pod opcji” ograniczona metoda największej wiarygodności (opcja domyślna*) =ML metoda największej wiarygodności COVTEST obliczenie błędów standardowych dla F statystyki oraz obliczenie testu Walda dla parametrów kowariancji MAXITER= możliwość określenia maksymalnej liczby iteracji dla metody N-R (opcja domyślna* wynosi 150) =(liczba) deklaracja liczby iteracji NOCLPRINT brak wypisania tabeli ”Informacje o poziomach klasyfikacji” NOITPRINT brak wypisania iteracji dla metody optymalizacji N-R PLOTS= rysowanie wykresów statystycznych** =ALL wyrysowanie wszystkich możliwych wykresów dla danego badania CLASS deklaracja zmiennych klasyfikujących MODEL S wypisanie wyników dla parametrów efektów stałych (wyliczenie deklaracja estymatorów parametrów efektów zmiennej stałych, badanie istotności parametrów objaśnianej i zmiennych efektów stałych) OUTP= deklaracja zbioru wyjściowego, objaśniających do którego zostaną zapisane o efektach wyniki stałych DDF= możliwość deklaracji przez użytkownika liczby stopni swobody dla każdego efektu stałego*** =(lista) deklaracja liczby stopni dla efektów stałych (np.=3, ... ,4,7) 40 DDFM= deklaracja metody obliczania stopni swobody dla parametrów efektów stałych *** =CONTAIN metoda podzbiorów (opcja domyślna*, gdy zostało zadeklarowane w programie wyrażenie RANDOM) =BETWITHIN metoda pomiędzy-w (opcja domyślna*, gdy zostało użyte w programie wyrażenie REPEATED, lecz nie zostało zadeklarowane wyrażenie RANDOM) =SATTERTHWAITE metoda Satterthwaita =KENWARDROGER metoda Kenwarda-Rogera ALPHA= deklaracja poziomu istotności dla testów badających istotność parametrów efektów stałych (opcja domyślna*: α = 0.05) NOINT deklaracja, aby rozpatrywany model nie zawierał wyrazu wolnego (opcja domyślna* zawiera wyraz wolny) RANDOM S wypisanie wyników dla parametrów kowariancji efektów losowych θG deklaracja (wyliczenie estymatorów, badanie zmiennych istotności parametrów kowariancji objaśniających o efektach dla efektów losowych: test Walda) TYPE= deklaracja struktury macierzy kowariancji G losowych oraz deklaracja =UN ustawień dla macierzy G niestrukturalna =VC struktura komponentów wariancji G wypisanie wyestymowanej macierzy G (czyli Ĝ) SUBJECT= definiowanie klastr w modelu =(zmienna) ALPHA= podanie klastr modelu deklaracja poziomu istotności dla testu badającego istotność parametrów kowariancji efektów losowych (opcja domyślna*:α = 0.05) wczytanie macierzy G GDATA= ze zbioru danych**** V wypisanie wyestymowanej macierzy Vi VCORR wypisanie macierzy korelacji dla (czyli V̂i ) wyestymowanej macierzy Vi REPEATED TYPE= deklaracja struktury macierzy kowariancji Ri deklaracja =AR(1) struktura autoregresji I rzędu ustawień =VC struktura komponentów wariancji dla macierzy Ri (opcja domyślna*) 41 =TOEP struktura Toeplitza =CS struktura symetrii związku R wypisanie wyestymowanej macierzy Ri (czyli R̂i ) SUBJECT= definiowanie klastr w modelu =(zmienna) podanie klastr modelu RUN; * opcja domyślna rozumiana jest jako wartość opcji ustawiona automatycznie w programie SAS w przypadku braku deklaracji tej opcji ** opcja PLOTS aby zadziałała wymaga modułu graficznego (czyli przed PROC MIXED należy wstawić wyrażenie ’ODS GRAPHICS ON’, a po RUN wyrażenie ’ODS GRAPHICS OFF’) *** stopnie swobody liczone np. dla mianownika t statystyki **** przy założeniu, że macierz G jest znana (wówczas macierz Ri jest wyznaczana metodą N-R) Zauważmy, że za pomocą Tablicy 3 można analizować proste oraz bardziej skomplikowane liniowe modele mieszane. Dobra znajomości procedury PROC MIXED pozwala na podstawie samego kodu programu odczytać budowę tego modelu, wskazać klastry, czynniki losowe oraz model zagnieżdżony (w rozdziale 5.3 zostały przedstawione przykłady procedury PROC MIXED dla różnych modeli). Do estymacji liniowych modeli mieszanych w języku programowania SAS (oprócz procedury PROC MIXED) możemy skorzystać z procedury PROC HPMIXED. Uwaga 14 wyjaśnia kiedy stosowana jest procedura PROC HPMIXED. Uwaga 14 Procedura PROC HPMIXED stosowana jest dla liniowego modelu mieszanego, w którym występuje spora liczba efektów stałych, efektów losowych oraz obserwacji. Składnia procedury PROC HPMIXED jest bardzo podobna do składni procedury PROC MIXED (więcej na temat procedury PROC HPMIXED można przeczytać w literaturze [9]). 5.3 Zapis modelu dla procedury PROC MIXED Przedstawione teraz zostaną kody programów dla procedury PROC MIXED. W rozdziale tym nie będziemy pracować na konkretnych danych. Głównym celem jest pokazanie jak w praktyce można wykorzystać składnie procedury PROC MIXED przedstawioną w Tablicy 3 oraz jak na podstawie przykładowego kodu można odczytać postać liniowego modelu mieszanego i odwrotnie (czyli jak dany model zapisać za pomocą procedury PROC MIXED). Przyjmijmy, że prowadzimy badanie, którego celem jest sprawdzenie czy wzrost zależy płci oraz od rodziny z której pochodzimy. Wybieramy losowo cztery rodziny z populacji rodzin. Czyli rodzina jest czynnikiem losowym. Rysunek 3 przedstawia analizę czynnika losowego. 42 Rysunek 3: Analiza czynnika losowego (przykład - wzrost). Zostały wybrane losowo cztery rodziny zatem mamy cztery klastry czynnika losowego (jakim jest rodzina). Klastra nr 1 (czyli Rodzina 1) zawiera pięć obserwacji (czyli pięciu członków rodziny). Rodzina 2 składa się z sześciu członków rodziny, rodzina 3 z dwóch członków, a ostatnia rodzina (Rodzina 4) z pięciu członków rodziny. 5.3.1 Kod 1 Rysunek 4: Kod nr 1 (przykład - wzrost). Rysunek 4 przedstawia kod programu nr 1. Na początku kodu został zdefiniowany zbiór z którego mają zostać wczytane dane, następnie wprowadzona została zmienna klasyfikująca czyli płeć. Kolejnym krokiem jest zapisanie modelu (czyli zmienna objaśniana = zmienne objaśniające). W kodzie zostało również zapisane polecenie, aby program wypisał estymatory parametrów stałych oraz wykonał testy istotności dla parametrów efektów stałych. Nie zdefiniowaliśmy struktur macierzy kowariancji Ri , dlatego program przyjmuje domyślnie strukturę komponentów wariancji. Zauważmy, że w przykładzie tym nie rozważmy czynnika losowego. Jak zostało wspomniane w rozdziale 3.1 liniowy model mieszany jest uogólnieniem ogólnego modelu liniowego. Przykład ten (Rysunek 4) jest badaniem ogólnego modelu liniowego za pomocą procedury PROC MIXED dla liniowych modeli mieszanych. Na podstawie kodu można zapisać, że rozpatrywany model jest postaci wzrostij = β0 + P LECij × β1 + ij gdzie: wzrostij - zmienna objaśniana o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze β0 - wyraz wolny (średnia kategorii referencyjnej) β1 - nieznany parametr efektu stałego związanego z zmienną objaśniającą (płeć) P LECij - zmienna objaśniająca o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze ij - błąd dla j-tej obserwacji w i-tej klastrze, ij ∼ N (0, σR ). 43 5.3.2 Kod 2 Rysunek 5: Kod nr 2 (przykład - wzrost). W kodzie nr 2 (Rysunek 5) pojawia się już wyrażenie RANDOM, zatem rozważany przez nas model jest liniowym modelem mieszanym. Użycie opcji COVTEST spowoduje wyliczenie z statystyki dla testu Walda badającego istotność parametrów kowariancji. W kodzie została użyta dwukrotnie opcja S w celu wypisania estymatorów parametrów efektów stałych oraz estymatorów parametrów kowariancji. Jeżeli w wyrażeniu RANDOM niewpisane zostaną zmienne objaśniające o efektach losowych, a sam czynnik losowy to oznacza, że badana jest losowość wynikająca ze zmiany i-tej klastry dla czynnika losowego (czyli tak jak w rozważanym przykładzie). Rysunek 6: Kod nr 2 - alternatywna wersja (przykład - wzrost). Rysunek 5 i Rysunek 6 wyrażają ten sam model, a uzyskane wyniki za pomocą programu SAS są identyczne. Różnica polega na tym, że na Rysunku 6 wyrażenie RANDOM zostało zapisane bardziej czytelnie z punktu widzenia analitycznego, ponieważ jest dokładne wskazanie klastr czynnika losowego. Zauważmy również, że nie zostały zdefiniowane struktury macierzy kowariancji G oraz Ri , dlatego program przyjmuje domyślnie strukturę komponentów wariancji dla obydwu macierzy. Procedura PROC MIXED domyślnie przyjmuje wyraz wolny (w kodzie nr 2 nie została użyta opcja usuwająca wyraz wolny, ponieważ jak zostało wspomniane wcześniej chcemy badać losowość wynikająca tylko ze zmiany i-tej klastry) zatem rozważany model jest postaci wzrostij = β0 + P LECij × β1 + b0i + ij gdzie: wzrostij - zmienna objaśniana o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze β0 - wyraz wolny (średnia kategorii referencyjnej) β1 - nieznany parametr efektu stałego związanego z zmienną objaśniającą (płeć) P LECij - zmienna objaśniająca o efektach stałych dla j-tej obserwacji znajdującej się w i-tej klastrze b0i - efekty losowe związane z i-tymi klastrami czynnika losowego ’rodzina’, b0i ∼ N (0, σG ) ij - błąd dla j-tej obserwacji w i-tej grupie, ij ∼ N (0, σR ). 44 Zaprezentowane przykłady pokazują jak na podstawie znajomości tylko kodu programu możemy odczytać strukturę i postać modelu. Umiejąc odczytywać postać modelu z kodu programu będziemy tym samym umieli zapisać model dla innego badania za pomocą procedury PROC MIXED. Rozdział ten jest wprowadzeniem przed bardziej zaawansowaną analizą danych, gdzie pojawia się większa liczba efektów losowych oraz klastr. Przykładem zaawansowanej analizy odnoszącej się do konkretnych danych jest np. analiza trzy-poziomowych danych sklastrowanych przeprowadzona w kolejnym rozdziale (rozdział 6). 6 Trzy-poziomowe dane sklastrowane dla liniowego modelu mieszanego 6.1 Wprowadzenie W rozdziale tym będziemy analizować liniowy model mieszany dla danych sklastrowanych, które posiadają trzy poziomy. W trzy-poziomowych danych sklastrowanych jednostki analityczne (Poziom 1) są zagnieżdżone w losowo wybranych klastrach czynnika losowego 1 (Poziom 2), natomiast klastry te są zagnieżdżone w losowo wybranych klastrach czynnika losowego 2 (Poziom). Zatem rozpatrywany model będzie zawierał dwa czynniki losowe. Model, którego dane posiadają strukturę poziomową (hierarchiczną) pozwala badaczowi na analizowanie czy zmienne objaśniające znajdujące się na którymkolwiek z poziomów mają wpływ na zmienną objaśnianą (która zawsze jest mierzona na poziomie 1). Modele opierające się na trzy-poziomowych danych sklastrowanych nazywane są też trzy-poziomowymi modelami hierarchicznymi. Przykład trzy-poziomowych danych sklastrowanych (dla wybranych dwóch dziedzin badań) pokazuje Tablica 1 (rozdział 2.5). W tablicy tej jedną z rozważanych dziedzin badań jest edukacja. W tym przypadku zmienna objaśniana jest mierzona dla każdej jednostki analitycznej, a zmienne objaśniające są rozpatrywane na każdym poziomie danych. Podobny przykład będzie rozważany w tym rozdziale. 6.2 Prezentacja danych Trzy-poziomowe dane zostały zebrane przez naukowców (H. C. Hill, B. Rowan i D. L. Ball, 2004) z Uniwersytetu Michigan. Celem ich badania było sprawdzenie jak wiedza matematyczna nauczycieli wpływa na osiągnięcia matematyczne uczniów pierwszej oraz trzeciej klasy szkoły podstawowej z losowo wybranych szkół ze Stanów Zjednoczonych. Na potrzeby tego przykładu będziemy rozważać tylko dane zabrane dla klas pierwszych szkoły podstawowej dla 1 190 uczniów z losowo wybranych 312 klas znajdujących się w losowo wybranych 107 szkołach. Dane pobrałem ze strony internetowej B. Westa [12] (po otrzymaniu mailowej zgody na ich pobranie oraz wykorzystanie w pracy), który jest m. in. współautorem literatury [1]. Rysunek 7 przedstawia hierarchiczną strukturę rozpatrywanych w tym rozdziale trzy-poziomowych danych sklastrowanych. Zauważmy, że uczniowie (Poziom 1) są zagnieżdżeni w klasach (Poziom 2), a klasy są zagnieżdżone w szkołach (Poziom 3). Badany model posiadał dwa czynniki losowe. Pierwszy czynnik losowy ’klasy’ zawiera 312 klastr, które są zagnieżdżone w 107 klastrach drugiego czynnika losowego ’szkoła’. 45 Rysunek 7: Hierarchiczna struktura danych dla przykładu KLASY. Tablica 4: Zmienne dla trzy-poziomowych danych. Zmienna Opis zmiennej Poziom 3 (Szkoła) SZKOLA ID numer identyfikacyjny szkoły (numer klastry czynnika losowego - szkoła) DOM SZKOLA odsetek gospodarstw domowych poniżej poziom ubóstwa w sąsiedztwie szkoły Poziom 2 (Klasa) KLASA ID numer identyfikacyjny klasy (numer klastry czynnika losowego - klasa) LATA N lata doświadczenia zawodowego nauczyciela PRZY M przygotowanie zawodowe nauczyciela (np. liczba odbytych kursów matematycznych) MAT W wiedza matematyczna nauczyciela (bazująca na 30 stopniowej skali, im większa wartość tym większa wiedza matematyczna nauczyciela) Poziom 1 (Uczeń) UCZEN ID numer identyfikacyjny ucznia (numer jednostki analitycznej) MAT TEST liczba punktów uzyskana przez każdego ucznia na teście sprawdzającym wiedzę matematyczną przed rozpoczęciem nauki w pierwszej klasie MAT OS różnica punktów pomiędzy wynikiem uzyskanym na teście opisanym za pomocą zmiennej MAT TEST, a wynikiem uzyskanym na teście, który również sprawdza wiedzę matematyczną na tej samej grupie uczniów, lecz został wykonany po roku od MAT TEST (gdzie badana grupa uczniów uczęszczała już do pierwszej klasy szkoły podstawowej) (zmienna objaśniana) PLEC zmienna klasyfikująca płeć ucznia (0 = chłopiec, 1 = dziewczynka) 46 MNIEJ U zmienna klasyfikująca czy dany uczeń pochodzi z mniejszości narodowej (0 = uczeń nie pochodzi z mniejszości narodowej, 1 = uczeń pochodzi z mniejszości narodowej) SSU status socjoekonomiczny ucznia Tablica 4 przedstawia i opisuje zmienne jakie zostały wybrane oraz zmierzone dla jednostek analitycznych. Zmienne te zostały dodatkowo podzielone według poziomu danych w celu lepszego zobrazowania hierarchicznej struktury rozważanych danych sklastrowanych. Celem naszej analizy będzie badanie wpływu zmiennych objaśniających na wybranych poziomach (poziom-ucznia, poziom-klas, poziom-szkół) na zmienną objaśnianą odnoszącą się do osiągnięć ucznia (MAT OS). Rysunek 8: Fragment danych dla badania KLASY. Zbiór danych jak i samo badanie nazwijmy KLASY. Rysunek 8 zawiera fragment (26 z pośród 1 190) obserwacji oraz zebranych dla nich danych. Pierwszy wiersz zawiera nazwy zmiennych, natomiast kolumny prezentują uzyskane dane dla konkretnej zmiennej. Tablica 5: Fragment danych dla badania KLASY (z podziałem na poziomy i klastry danych). Szkoła (Poziom 3) Klastry Zmienna Klasa (Poziom 2) Klastry objaśniająca Uczeń (Poziom 1) Zmienna Jednostka Zmienna Zmienna objaśniająca analityczna objaśniana objaśniająca PRZY M UCZEN ID MAT OS PLEC SZKOLA ID DOM SZKOLA KLASA ID 1 0.082 160 2 1 32 1 1 0.082 160 2 2 109 0 47 1 0.082 160 2 3 56 1 1 0.082 217 3.25 4 83 0 1 0.082 217 3.25 5 53 0 1 0.082 217 3.25 6 65 1 1 0.082 217 3.25 7 51 0 1 0.082 217 3.25 8 66 0 1 0.082 217 3.25 9 88 1 1 0.082 217 3.25 10 7 0 1 0.082 217 3.25 11 60 0 2 0.082 197 2.5 12 2 1 2 0.082 197 2.5 13 101 0 2 0.082 211 2.33 14 30 0 2 0.082 211 2.33 15 65 0 ... Opierając się na Tablicy 5 najłatwiej można zaobserwować hierarchiczną strukturę rozważanych przez nas trzy-poziomowych danych sklastrowanych. Dla każdego poziomu została wybrana przykładowa zmienna oraz fragment zaobserwowanych dla niej danych. Dla każdej zaobserwowanej wielkości został przypisany numer klastry z uwzględnieniem jakiego czynnika losowego jest to klastra. Na podstawie Tablicy 5 może odczytać na przykład, że z losowo wybranej szkoły o numerze 1 do badania zaproszono jedenaścioro uczniów z dwóch losowo wybranych klas z tej szkoły (z klasy 1 wybrano losowo trójkę uczniów, natomiast z klasy 2 wybrano losowo dziewięcioro uczniów). Wśród uczniów ze szkoły 1 było siedmioro chłopców i cztery dziewczynki (z klasy 1: losowo wybrano jednego chłopca oraz dwie dziewczynki, z klasy 2: wybrano losowo sześciu chłopców i dwie dziewczynki). Możemy również w szybki sposób odczytać, że przykładowo uczeń o numerze 4 to chłopiec, który jest przypisany do klasy o numerze 160, a klasa ta pochodzi ze szkoły o numerze 1. 6.3 Analiza danych Zostanie teraz przeprowadzona statystyczna analiza dla danych (opisanych w rozdziale 6.2) za pomocą języka programowania SAS. Analiza ta stanowi ważny element w modelowaniu matematycznym, ponieważ to głównie podczas jej decyduje się jaki rodzaj modelu będzie najlepiej odpowiadał do danych zmierzonych na potrzeby prowadzonego badania (dlatego powinna być wykonywana przed wyborem i estymacją modelu). Analizę taką przeprowadza się również w celu szerszego spojrzenia na strukturę naszych danych poprzez wyliczenie podstawowych statystyk dla nich (takich jak np. średnia, odchylenie standardowe). 6.3.1 Statystyki dla zmiennych bez brakujących wartości Za pomocą procedury PROC IMPORT wczytujemy zebrane dane ze zbioru (kod programu znajduje się w rozdziale 8.4). Zbiór danych nazwany został KLASA i zapisany jest w formacie XLSX. Fragment zaimplementowanych danych do programu SAS przedstawia Rysunek 9. 48 Rysunek 9: Zaimplementowane dane w programie SAS. Następnie wyliczane są statystyki (Rysunek 10) dla zmiennych znajdujących się na Poziomie 1 (czyli dla MAT TEST, MAT OS, PLEC, MNIEJ U oraz SSU) korzystając z procedury PROC MEANS (kod programu - rozdział 8.3). Rysunek 10: Statystyki - poziom 1. Każda ze zmiennych na poziomie 1 posiada 1 190 obserwacji. Oznacza to, że zmienne objaśniające na poziomie 1 zostały zmierzone dla całkowitej liczby jednostek analitycznych (uczniów). Z Rysunku 10 możemy odczytać na przykład, że 51% wszystkich uczniów stanowią dziewczynki oraz że 68% z nich posiada status mniejszości narodowej. Średni wynik wszystkich uczniów z testu sprawdzającego wiedzę wyniósł 467 punktów, a po roku został poprawiony o średnio 58 punktów. Chcąc wyliczyć statystyki dla zmiennych znajdujących się na poziomie 2 nie możemy od razu użyć procedury PROC MEANS, ponieważ uzyskalibyśmy wyniki dla 1 190 obserwacji. Zmienne na poziomie 2 odnoszą się do czynnika losowego jakim jest klasa. Jak wiemy dane zostały zebrane dla 312 losowo wybranych klas. Nie biorąc tego pod uwagę (czyli licząc statystyki jak dla poziomu 1) obliczone statystyki można byłoby potraktować jakby były liczone dla 1 190 klas. Aby uniknąć tego błędu należy najpierw posortować dane (zapisując je do nowego zbioru) według numeru identyfikacyjnego każdej klasy (KLASA ID) korzystając z procedury PROC SORT, a następnie stworzyć nowy zbiór danych, gdzie za pomocą wyrażenia IF pozostawimy tylko jedną obserwację dla każdego KLASA ID. Wówczas dla tak przygotowanego zbioru danych możemy użyć procedury PROC MEANS (kod programu - rozdział 8.3). 49 Rysunek 11: Statystyki - poziom 2. Na poziomie 2 rozważamy statystyki dla zmiennych LATA N oraz PRZY M. W rozdziale 6.3.2 zostanie wytłumaczone dlaczego pominęliśmy teraz zmienną MAT W odnoszącą się także do poziomu danych 2. W oparciu o Rysunek 11 możemy odczytać, że zmienna LATA N zawiera 312 obserwacji, ponieważ odnosi się do czynnika losowego ’klasa’ zawierającego 312 klastr. Średni wiek doświadczenia zawodowego 312 nauczycieli (liczba nauczycieli jest równa 312, ponieważ zostało losowo wybranych 312 klas) wynosi 12 lat. Wyliczając statystyki dla zmiennych znajdujących się na poziomie 3 postępujemy podobnie jak dla statystyk poziomu 2 z drobnymi zmianami. Sortujemy nasz główny zbiór KLASA według zmiennej klasyfikującej szkołę (SZKOLA ID), a następnie za pomocą wyrażenia IF usuwamy obserwacje tak aby pozostawić tylko jedną dla każdego SZKOLA ID (kod programu - rozdział 8.3). Rysunek 12: Statystyki - poziom 3. Rysunek 12 przedstawia statystyki dla zmiennych znajdujących się na poziomie 3 zebranych danych. Zmienna DOM SZKOLA posiada 107 obserwacji, ponieważ odnosi się do czynnika losowego ’szkoła’, a w rozważanym badaniu zostało losowo wybranych 107 klastr tego czynnika. Na podstawie otrzymanych statystyk możemy odczytać, że średni odsetek gospodarstw domowych poniżej poziomu ubóstwa w sąsiedztwie badanych 107 szkół wynosi 19%. 6.3.2 Statystyki dla wszystkich zmiennych Rozważane statystyki były przeprowadzone dla zmiennych, które nie posiadały żadnych brakujących wartości (dlatego została wykluczona zmienna na poziomie 2 MAT W). W konsekwencji statystyki były wyliczane dla wszystkich obserwacji (uczniów) n=1190. Teraz przy wyliczaniu statystyk dla odpowiedniego poziomu danych weźmiemy pod uwagę wszystkie zmienne (czyli będziemy również rozważać zmienną MAT W). Należy zatem usunąć obserwacje o brakującej wartości dla zmiennej MAT W. W tym przypadku całkowita ilość kompletnych obserwacji (uczniów) będzie wynosiła n=1081 (ponieważ dla takiej liczby uczniów zebrano dane dla każdej zmiennej w prowadzonym badaniu). 50 Przed wyliczeniem statystyk dla opisanego wyżej przypadku należy za pomocą wyrażenia IF zapisać do nowego zbioru danych tylko te obserwację, dla których zostały zmierzone wszystkie zmienne (czyli usunąć obserwacje z brakującą wielkością dla zmiennej MAT W). Następnie postępujemy podobnie jak przy wyliczaniu statystyk dla każdego poziomu danych w rozdziale 6.3.1 (kod programu - rozdział 8.3). Rysunek 13: Statystyki - wszystkie poziomy. Na Rysunku 13 przedstawione zostały wyliczone statystyki przez program SAS dla każdego poziomu danych (po uwzględnieniu wszystkich zmiennych). Zauważmy, że w wyniku usunięcia obserwacji z niekompletnymi danymi liczba klas zmniejszyła się o 27, liczba szkół zmniejszyła się o 2, a liczba uczniów dla których wyliczono statystyki wynosi 1081. Tak niewielka ilość usuniętych szkół w porównaniu z ilością usuniętych klas wynika z tego, że brak wartości zmiennej MAT W dla danej klasy wyrzucą ją ze zbioru danych, natomiast dla szkoły z której pochodzi ta klasa może być rozważna jeszcze inna klasa dla której zmierzono wartość MAT W. W konsekwencji szkoła nadal rozważana jest w badaniu lecz pomniejszona o ilość klas. 6.4 Postać modelu W rozdziale tym zostanie przedstawiona postać modelu głównego. Korzystając z tego, że badany liniowy model mieszany jest modelem hierarchicznym zaprezentowane zostaną także postacie modelu z podziałem na poziom danych. Dla naszego przykładu przyjmujemy strukturę komponentów wariancji (strukturę diagonalną) dla macierzy kowariancji efektów losowych oraz dla macierzy kowariancji odnoszącej się do błędów. W rozważanym modelu będzie badana losowość związana ze zmianą i-tej (j-tej) klastry dla czynnika losowego ’klasa’ (’szkoła’), dlatego ’losowość’ będzie związana tylko z wyrazem wolnym dla danego czynnika losowego. 51 6.4.1 Model główny Model główny (zawierający zmienne na wszystkich trzech poziomach) dla rozważanych w tym badaniu danych sklastrowanych jest postaci M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + LAT A Nijk ×β5 +P RZY Mijk ×β6 +M AT Wijk ×β7 +DOM SZKOLAijk ×β8 +b0i|k +b0k +ijk gdzie: M AT OSijk - zmienna objaśniana dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole β0 - wyraz wolny (średnia kategorii referencyjnej) β1 , ... , β8 - nieznane parametry efektów stałych M AT T ESTijk , P LECijk , M N IEJ Uijk , SSUijk - zmienne objaśniające o efektach stałych (poziom 1) dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole P RZY Mijk , M AT Wijk , LAT A Nijk - zmienne objaśniające o efektach stałych (poziom 2) dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole DOM SZKOLAiji - zmienna objaśniająca o efektach stałych (poziom 3) dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole b0i|k - efekty losowe (wyrazu wolnego) związane z i-tymi klastrami czynnika losowego ’klasa’, za2 gnieżdżonych w j-tych klastrach czynnika losowego ’szkoła’, b0i|k ∼ N (0, σklasa ) b0k - efekty losowe (wyrazu wolnego) związane z j-tymi klastrami czynnika losowego ’szkoła’, 2 b0k ∼ N (0, σszkola ) ijk - błąd dla j-tego ucznia znajdującego się w i-tej klasie zagnieżdżonej w k-tej szkole, ijk ∼ N (0, σ 2 ). W modelu przyjmujemy, że i-te klastry związane z " klasami są niezależne od k-tych klastr związa# 2 σklasa 0 . nych ze szkołami, czyli macierz G jest postaci G = 2 0 σszkola 6.4.2 Model dla poziomu 1 (ucznia) Na poziomie 1 model główny jest postaci M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + ijk (opis zmiennych jak dla modelu głównego) 6.4.3 Model dla poziomu 2 (klas) Na poziomie czynnika losowego ’klasa’ (poziom 2) model główny można zapisać jako M AT OSijk = β0 + LAT A Nijk × β5 + P RZY Mijk × β6 + M AT Wijk × β7 + b0i|k + ijk (opis zmiennych jak dla modelu głównego) 52 6.4.4 Model dla poziomu 3 (szkół) Model na poziomie 3 dla rozważanych danych sklastrowanych jest postaci M AT OSijk = β0 + DOM SZKOLAjik × β8 + b0k + ijk (opis zmiennych jak dla modelu głównego) 6.5 Badanie i estymacja modelu głównego Model główny jest zaawansowanym modelem, dlatego nie powinno się go estymować za pomocą procedury PROC MIXED w programu SAS i wnioskować na podstawie tak uzyskanych wyników. Dlatego w tym rozdziale zostanie przeprowadzona analiza modelu w czterech etapach. Dla testów badających istotność parametrów liniowego modelu mieszanego przyjmujemy poziom istotności α=0.05. Kody programów znajdują się w rozdziale 8.4. 6.5.1 Etap 1 • Opis etapu. W etapie tym będziemy zajmowali się modelem trzy-poziomowym (model 1.1) zawierającym tylko wyraz wolny dla efektów stałych oraz wyrazy wolne dla efektów losowych dla klas (Poziom 2) oraz dla szkół (Poziom 3). Zatem model 1.1 będzie badał losowość wynikającą ze zmiany i-tej klastry czynnika losowego ’klasa’ zagnieżdżonej w k-tej klastrze czynnika losowego ’szkoła’. Następnie zostanie zbudowany model 1.1A usuwając z modelu 1.1 efekt losowy (wyraz wolny) dla klas. Na końcu etapu zostanie przeprowadzone porównywanie modelu 1.1 z modelem 1.1A (na podstawie testu wskaźnika wiarygodności), aby podjąć decyzje czy należy usunąć wyraz wolny związany z efektami losowymi dla klas z modelu 1.1. • Zapis modelu i kod programu (model 1.1). Model 1.1 jest postaci M AT OSijk = β0 + b0i|k + b0k + ijk gdzie: 2 b0i|k ∼ N (0, σklasa ) 2 b0k ∼ N (0, σszkola ) ijk ∼ N (0, σ 2 ). Model 1.1 nie zawiera efektów stałych dla zmiennych objaśniających, dlatego nazywany jest również modelem bezwarunkowym (bądź modelem o efektach losowych). Rysunek 14: Model 1.1 - kod programu. 53 Rysunek 14 przedstawia kod programu dla modelu 1.1. Na początku procedury PROC MIXED wczytujemy zbiór KLASA z danymi oraz używamy opcji COVTEST w celu wypisania statystyki z testu Walda. Następnie korzystając z wyrażenia CLASS definiujemy zmienne klasyfikujące oraz używając wyrażenia MODEL deklarujemy zmienną objaśnianą i zmienne objaśniające o efektach stałych (w modelu 1.1 nie występują zmienne objaśniające o efektach stałych). Zauważmy, że nie trzeba deklarować wyrazu wolnego w wyrażeniu MODEL, ponieważ program SAS automatycznie bada wyraz wolny. Używając opcji S chcemy aby zostały wypisane wyniki dla wyrazu wolnego efektów stałych. Rozważany model (model 1.1) zawiera dwa czynniki losowe, dlatego w kodzie programu (Rysunek 14) zostało podwójnie użyte wyrażenie RANDOM. Najpierw jest definiowany czynnik losowy ’szkoła’ oraz wskazane zostały klastry tego czynnika. Następnie deklarowany jest czynnik losowy ’klasa’ oraz zostały zaznaczone klastry tego czynnika. Używając opcji SUBJECT=KLASA ID(SZKOLA ID) wskazujemy w programie, że klastry czynnika losowego ’klasa’ są zagnieżdżone w klastrach czynnika losowego ’szkoła’. Opcja S dla wyrażenia RANDOM spowoduje wypisanie wartości wyestymowanych parametrów kowariancji. Rysunek 15: Model 1.1 - program SAS (część 1). Rysunek 15 oraz Rysunek 16 przedstawiają tablice jakie są wyświetlane w programie SAS przy użyciu procedury PROC MIXED. W pierwszej z nich znajdują się informacje o modelu, czyli m. in. zbiór z jakiego zostały wczytane dane, jaka jest zmienna objaśniana w modelu, struktura macierzy kowariancji dla efektów losowych oraz dla błędów (nie deklarowaliśmy struktury macierzy kowariancji w kodzie programu, dlatego SAS przyjął strukturę komponentów wariancji), metodę estymacji parametrów modelu (również została wybrana opcja domyślna, czyli ograniczona metoda największej wiarygodności REML) oraz metodę wyznaczenia stopni swobody (zbiór danych jest 54 spory dlatego nie ma dla nas znaczenia jaka metoda będzie wybrana do wyliczenia stopni swobody dla mianownika t statystyki, została wybrana opcja domyślna przy zdefiniowaniu wyrażenia RANDOM, czyli metoda podzbiorów). Zauważmy, że tabela ’Wymiary’ odnosi się do czynnika losowego ’szkoła’. Najpierw wskazana została ilość parametrów kowariancji, następnie ilość kolumn macierzy X oraz ilość kolumn (dla każdej szkoły) macierzy Z (liczba 10 jest wyliczana jako maksymalna liczba klas dla rozważanych szkół plus pojedyncza kolumna dla szkoły), ilość klastr czynnika losowego ’szkoła’ oraz maksymalną liczbę uczniów dla jednej szkoły. Kolejna tabela (’Liczba obserwacji’) prezentuje ile obserwacji zostało wczytanych oraz użytych dla badanego modelu. Rysunek 16: Model 1.1 - program SAS (część 2). W tabeli ’Historia iteracji’ (Rysunek 16) możemy odczytać ile iteracji zostało wykonanych metodą Newtona-Raphsona do optymalizacji logarytmu wiarygodności. Natomiast tabela ’Statystki dopasowania’ prezentuje m. in. kryterium informacyjne Akaike (AIC) dla rozważanego modelu. • Parametry efektów stałych i kowariancji. Rysunek 17: Model 1.1 - parametry efektów stałych i kowariancji. 55 Na Rysunku 17 zostały przedstawione uzyskane rezultaty dla parametrów efektów stałych oraz parametrów kowariancji dla modelu 1.1. Na podstawie Rysunku 17 można odczytać wartości tych parametrów, co zostało zaprezentowane w Tablicy 6. Tablica 6: Model 1.1 - parametry i ich wartości. Parametr Wartość parametru β0 57.43 2 σklasa 2 σszkoa 2 99.19 σ 77.44 1028.28 • Zapis modelu i kod programu (model 1.1A). Model 1.1A jest postaci M AT OSijk = β0 + b0k + ijk gdzie: 2 b0k ∼ N (0, σszkola ) ijk ∼ N (0, σ 2 ). Model 1.1A można nazwać modelem zagnieżdżonym w modelu 1.1, ponieważ powstał przez usunięcie z modelu 1.1 efektów losowych związanych z klastrami czynnika losowego ’klasa’. Głównym celem dla jakiego rozważamy model 1.1A jest użycie testu wskaźnika wiarygodności dla parametrów kowariancji związanych z efektami losowymi dla klas. Rysunek 18 prezentuje kody programów dla modelu 1.1A. Za pomocą tych kodów otrzymywane są jednakowe wyniki dla naszego modelu. Różnica polega na przejrzystości zapisu. Zauważmy, że jedynym elementem w uzyskanych rezultatach różnym dla obydwu kodów jest postać tabeli ’Wymiary’. W kodzie po lewej stronie zaznaczyliśmy klastry czynnika losowego ’szkoła’. Zatem w tabeli tej w pozycji Tematy mamy wielkość 107, czyli 107 klastr posiada rozpatrywany czynnik losowy. W kodzie po prawej stronie nie zaznaczaliśmy klastr czynnika losowego i w rezultacie otrzymujemy wielkość Tematy równą 1. Czyli mogłoby się wydawać, że czynnik losowy ma jedną klastrę (ponieważ klastry te zostały wpisane do macierzy Z). Nie wpływa to na uzyskane wyniki, lecz dla nas jako badaczy jest oczywistym, że ilość szkół wynosi 107. Natomiast dla osoby, która będzie analizowała badanie na podstawie uzyskanych rezultatów w programie SAS nie będzie czytelne ile klastr ma czynnik losowy i będzie musiała odwołać się do przeprowadzonej prezentacji danych oraz zapisu modelu aby zrozumieć, że ilość klastr wynosi 107. Gdy zastosujemy w kodzie wskazanie klastr czynnika losowego to uzyskane wyniki są czytelniejsze i pokazują większą staranność oraz doświadczenie badacza. 56 Rysunek 18: Model 1.1A - kod programu i rezultaty. W modelu 1.1A nie interesują nas parametry efektów stałych oraz parametry kowariancji, ponieważ model ten został stworzony na potrzeby użycia testu wskaźnika wiarygodności. • Badanie istotności efektów losowych dla klastr czynnika losowego ’klasa’ dla modelu 1.1. Przeprowadzony teraz zostanie test istotności parametru kowariancji efektów losowych dla klas. Na potrzeby testu stworzyliśmy model zagnieżdżony 1.1A w modelu referencyjnym 1.1. Dzięki temu możemy użyć testu wskaźnika wiarygodności (LTR) aby zadecydować, czy efekty losowe związane z wyrazem wolnym dla klas można pominąć w modelu 1.1. Pamiętajmy, że aby użyć testu wskaźnika wiarygodności dla parametrów kowariancji należny użyć do estymacji modelu ograniczonej metody wiarygodności (metoda ta została użyta dla modelu 1.1 oraz modelu 1.1A, Rysunek 15 i Rysunek 18). Hipotezy dla tego testu są postaci: 2 H0 : σklasa = 0 (hipoteza zerowa odnosząca się do modelu zagnieżdżonego) 2 HA : σklasa > 0 (hipoteza alternatywna odnosząca się do modelu referencyjnego). Z Rysunku 16 odczytujemy, że funkcja wiarygodności −2logLREM L dla modelu referencyjnego wynosi 11768.8, natomiast z Rysunku 18 wiemy, że funkcja wiarygodności −2logLREM L dla modelu zagnieżdżonego wynosi 11776.7. Następnie obliczmy statystykę LTR LT R = −2log(LREM Lzagniezdzony ) − (−2log(LREM Lref erencyjny )) = 11776.7 − 11768.8 = 7.9. 57 Statystyka ta posiada mieszaninę rozkładów χ20 i χ21 z równymi wagami 0.5 (czyli 0.5χ20 +0.5χ21 ). Obliczamy teraz wartość p (korzystając z tablic rozkładu chi kwadrat) p = 0.5 × P (χ20 > 7.9) + 0.5 × P (χ21 > 7.9) < 0.01. Wartość p jest mniejsza od poziomu istotności α = 0.05. Zatem odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej. Tym samym decydujemy się na pozostawienie efektów losowych powiązanych z klastrami czynnika losowego ’klasa’ w modelu 1.1. Dodatkowo na podstawie uzyskanych wyników (Rysunek 17) można przeprowadzić test Walda dla parametru kowariancji dla klas oraz parametru kowariancji dla szkół modelu 1.1. Zostanie teraz przeprowadzony test Walda dla parametru kowariancji efektu losowego dla klas. Hipotezy dla testu Walda dla parametru kowariancji dla klas wyglądają następująco: 2 H0 : σklasa = 0 (hipoteza zerowa mówi o nieistotności parametru kowariancji) 2 HA : σklasa > 0 (hipoteza alternatywna mówi o istotności parametru kowariancji). Z Rysunku 17 odczytujemy, że wartość p (p=0.0088) jest mniejsza od poziomu istotności α=0.05. Zatem należny odrzucić hipotezę zerową na korzyść hipotezy alternatywnej. Na podstawie testu Walda otrzymaliśmy również istotność dla parametru kowariancji dla klas. 2 Zauważmy, że gdyby test Walda został przeprowadzony dla parametru kowariancji dla szkół (σszkola ) modelu 1.1 to wartość p byłaby mniejsza od poziomu istotności α, a zatem parametr kowariancji dla szkół jest także istotny w modelu 1.1. 6.5.2 Etap 2 • Opis etapu. Etap ten polega na badaniu modelu 1.2 uzyskanego przez dodanie do modelu 1.1 zmiennych objaśniających poziomu 1 (ucznia). Następnie używając testu wskaźnika wiarygodności będziemy porównywać model 1.2 z modelem 1.1, decydując czy należy dodać zmienne objaśniająca poziomu 1 do modelu 1.1. • Zapis modelu i kod programu (model 1.2). Do modelu 1.1 dodajemy cztery zmienne objaśniające znajdujące się na poziomie ucznia (PLEC, MAT TEST, MNIEJ U oraz SSE) otrzymując model 1.2. Zatem model 1.2 jest postaci M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + b0i|k + b0k + ijk gdzie: 2 b0i|k ∼ N (0, σklasa ) 2 b0k ∼ N (0, σszkola ) ijk ∼ N (0, σ 2 ). 58 Rysunek 19: Model 1.2 - kod programu i rezultaty. Jeżeli chcemy użyć testu wskaźnika wiarygodności do badania parametrów efektów stałych modelu 1.2 należy skorzystać z metody największej wiarygodności do estymacji modelu referencyjnego 1.2 oraz modelu zagnieżdżonego 1.1. W programie SAS uzyskujemy to korzystając z opcji METHOD. Zauważmy, że w rezultatach jakie otrzymaliśmy (Rysunek 19) zaznaczone jest w informacjach o modelu, że wybrana metoda estymacji to metoda największej wiarygodności (ML). • Parametry efektów stałych i kowariancji (model 1.2). Rysunek 20: Model 1.2 - parametry efektów stałych i kowariancji. 59 Tablica 7: Model 1.2 - parametry i ich wartości. Parametr Wartość parametru β0 282.71 β1 -0.47 β2 -1.25 β3 -8.26 β4 5.34 2 σklasa 2 σszkoa 2 83.16 σ 72.68 732.21 Na podstawie uzyskanych wyników dla parametrów efektów stałych oraz parametrów kowariancji dla modelu 1.2 w programie SAS (Rysunek 20) została stworzona Tablica 7 zawierająca wszystkie parametry tego modelu oraz oszacowane dla nich wartości metodą największej wiarygodności ML. • Badanie istotności parametrów efektów stałych dla modelu 1.2. Zajmiemy się teraz badaniem istotności parametrów efektów stałych zmiennych objaśniających (poziomu 1), które zostały dodane do modelu 1.1 tworząc model 1.2. W tym celu skorzystamy z testu wskaźnika wiarygodności (LTR) dla parametrów efektów stałych. Rysunek 21: Model 1.1 - estymacja metodą ML. 60 Chcąc użyć testu LTR dla modelu referencyjnego 1.2 w odniesieniu do modelu zagnieżdżonego 1.1 obydwa modele muszą być estymowane metodą ML. Dla modelu 1.2 została wykonana estymacja metodą ML, natomiast model 1.1 (rozważany w rozdziale 6.5.1) był estymowany metodą REML. Dlatego należny wykonać ponowną estymacje modelu 1.1 korzystając tym razem z metody ML. Rysunek 21 przedstawia uzyskane wyniki dla modelu 1.1 potrzebne do przeprowadzenia testu LTR. Hipotezy dla testu LTR są postaci: H0 : β1 = β2 = β3 = β4 = 0 HA : przynajmniej jeden parametr efektów stałych nie jest równy zero. Funkcja wiarygodności −2logLM L dla modelu referencyjnego (model 1.2) wynosi 11391.0 (Rysunek 19), natomiast dla modelu zagnieżdżonego (model 1.1) funkcja wiarygodności −2logLM L jest równa 11771.3 (Rysunek 21). Przechodzimy teraz do wyliczenia statystyki LTR LT R = −2log(LM Lzagniezdzony ) − (−2log(LM Lref erencyjny )) = 11771.3 − 11391.0 = 380.3. Statystyka ta posiada rozkład chi kwadrat z 4 stopniami swobody, czyli χ24 . Obliczmy teraz wartość p (korzystając z tablic rozkładu chi kwadrat) p = P (χ24 > 380.3) < 0.001. Wartość p jest mniejsza od poziomu istotności α = 0.05. Zatem przyjmujemy hipotezę alternatywną mówiącą o tym, że przynajmniej jeden parametr efektów stałych nie jest równy zeru. Na podstawie tego testu decydujemy się na pozostawienie parametrów efektów stałych w modelu 4.2. 6.5.3 Etap 3 • Opis etapu. W etapie tym zostaną dodane do modelu 1.2 zmienne objaśniające o efektach stałych zmierzone na poziomie 2 (czyli na poziomie klastr czynnika losowego ’klasa’) tworząc model 1.3. Zdecydujemy także, czy dodane zmienne objaśniające (poziomu 2) do modelu 1.2 są istotne statystycznie korzystając z t-testu. Model 1.3 zostanie estymowany przy użyciu metody REML. • Zapis modelu i kod programu (model 1.3). Model 1.3 powstał przez dodanie zmiennych objaśniających o efektach stałych LATA N, PRZY M oraz MAT W znajdujących się na poziomie klas (poziom 2), zatem model 1.3 przyjmuje postać M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + LAT A Nijk × β5 + P RZY Mijk × β6 + M AT Wijk × β7 + b0i|k + b0k + ijk gdzie: 2 b0i|k ∼ N (0, σklasa ) 2 b0k ∼ N (0, σszkola ) ijk ∼ N (0, σ 2 ). 61 Rysunek 22: Model 1.3 - kod programu i rezultaty. Rysunek 22 przedstawia rezultaty uzyskane dla modelu 1.3 w programie SAS. Szczególną uwagę zwróćmy na tabelę ’Liczba obserwacji’. Na jej podstawie można przeczytać, że wczytano 1190 obserwacji, lecz użyto 1081 obserwacji. Spowodowane jest to tym, że model 1.3 zawiera zmienne objaśniające dla poziomu 2, a jedna z tych zmiennych (MAT W ) posiada brakujące obserwacje. Natomiast do estymacji modelu mogą być tylko użyte jednostki analityczne z kompletnymi danymi. • Parametry efektów stałych i kowariancji (model 1.3). Rysunek 23: Model 1.3 - parametry efektów stałych i kowariancji. 62 Rysunek 23 ilustruje otrzymane wyniki dla parametrów efektów stałych oraz parametrów kowariancji modelu 1.3. Tablica 8: Model 1.3 - parametry i ich wartości. Parametr Wartość parametru β0 282.02 β1 -0.48 β2 -1.34 β3 -7.87 β4 5.42 β5 0.04 β6 1.09 β7 1.91 2 σklasa 2 σszkoa 2 86.52 σ 75.24 713.91 Tablica 8 podsumowuje uzyskane rezultaty w programie SAS (Rysunek 23) dla modelu 1.3. • Badanie istotności parametrów efektów stałych poziomu 2 dla modelu 1.3. Przejdziemy teraz do badania istotności parametrów efektów stałych zmiennych objaśniających LATA N, PRZY M, MAT W, czyli tych które zostały dodane do modelu 1.2, aby utworzyć model 1.3. Do badania istotność posłużymy się t-testem, czyli będziemy badać istotność każdego z parametrów osobno. Nie możemy użyć w tym przypadku testu wskaźnika wiarygodności dla parametrów efektów stałych (jak w etapie 2) porównując model referencyjny 1.3 z modelem zagnieżdżonym 1.2, ponieważ zostały użyte różne zbiory obserwacji do estymacji modelu 1.2 oraz modelu 1.3. Test wskaźnika wiarygodności wymaga, aby model referencyjny oraz model zagnieżdżony odnosił się do tego samego zbioru danych. Zatem w tej sytuacji użyjemy t-testu. Hipotezy t-testu dla parametru efektu stałego zmiennej LATA N: H0 : β5 = 0 (hipoteza zerowa mówi o nieistotności parametru efektu stałego) HA : β5 6= 0 (hipoteza alternatywna mówi o istotności parametru efektu stałego). Z Rysunku 23 odczytuje się wartość p dla parametru efektu stałego zmiennej objaśniającej LATA N. Wartość ta wynosi 0.73 i jest większa od poziomu istotności α=0.05. W związku z tym nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej nieistotności rozważanego parametru efektu stałego. Hipotezy t-testu dla parametru efektu stałego zmiennej PRZY M: H0 : β6 = 0 HA : β6 6= 0. 63 Wartość p (Rysunek 23) dla rozpatrywanego parametru efektu stałego wynosi 0.34 i jest większa od poziomu istotności α=0.05. Zatem nie odrzucamy hipotezy zerowej. Hipotezy t-testu dla parametru efektu stałego zmiennej MAT W: H0 : β7 = 0 HA : β7 6= 0. Wartość p (Rysunek 23) dla parametru efektu stałego zmiennej objaśniającej MAT W wynosi 0.1. Wartość ta jest większa od poziomu istotności α=0.05, zatem przyjmujemy hipotezę zerową. T-test dla wszystkich po kolei badanych parametrów efektów stałych wykazał ich nieistotność. Zatem podejmujemy decyzje o usunięciu zmiennych objaśniających o efektach stałych poziomu 2 LATA N, PRZY M, MAT W z modelu 1.3, a zatem model 1.2 pozostaje po etapie 3 naszej analizy modelem preferowanym. 6.5.4 Etap 4 • Opis etapu. Etap 4 polega na zbudowaniu modelu 1.4 poprzez dodanie do modelu 1.2 zmiennych objaśniających (o efektach stałych) poziomu 3 (związanego z klastrami czynnika losowego ’szkoła’). Zmienne te dodajemy do modelu 1.2, ponieważ po etapie 3 model 1.2 jest modelem preferowanym. Na końcu tego etapu przeprowadzimy t-test badając istotność dodanych zmiennych objaśniających. • Zapis modelu i kod programu (model 1.4). Model 1.4 jest postaci M AT OSijk = β0 + M AT T ESTijk × β1 + P LECijk × β2 + M N IEJ Uijk × β3 + SSUijk × β4 + DOM SZKOLAijk × β8 + b0i|k + b0k + ijk gdzie: 2 b0i|k ∼ N (0, σklasa ) 2 b0k ∼ N (0, σszkola ) ijk ∼ N (0, σ 2 ). Model 1.4 powstał przez dodanie zmiennych objaśniających o efektach stałych poziomu 3 (czyli tylko jednej zmiennej DOM SZKOLA) do modelu 1.2 (etap 2). Kod programu do estymacji modelu 1.4 w programie SAS oraz wybrane rezultaty otrzymane za pomocą procedury PROC MIXED przedstawia Rysunek 24. 64 Rysunek 24: Model 1.4 - kod programu i rezultaty. • Parametry efektów stałych i kowariancji (model 1.4). Rysunek 25 pokazuje otrzymane wyniki dla parametrów efektów stałych i parametrów kowariancji modelu 1.4. Rysunek 25: Model 1.4 - parametry efektów stałych i kowariancji. 65 Tablica 9: Model 1.4 - parametry i ich wartości. Parametr Wartość parametru β0 285.06 β1 -0.47 β2 -1.23 β3 -7.76 β4 5.24 β8 -11.44 2 σklasa 81.52 2 σszkoa 2 77.77 σ 734.44 Tablica 9 podsumowuje uzyskane wartości dla parametrów efektów stałych i parametrów kowariancji modelu 1.4. • Badanie istotności parametrów efektów stałych poziomu 3 dla modelu 1.4. Będziemy teraz badać istotność parametru efektu stałego zmiennej objaśniającej DOM SZKOLA, która jest jedyną zmienną objaśniającą powiązaną z poziomem klastr czynnika losowego ’szkoła’ (poziom 3). Do badania istotność tego parametru posłużymy się t-testem. Hipotezy t-testu dla parametru efektu stałego zmiennej DOM SZKOLA: H0 : β8 = 0 (hipoteza zerowa mówi o nieistotności parametru efektu stałego) HA : β8 6= 0 (hipoteza alternatywna mówi o istotności parametru efektu stałego). Z Rysunku 25 odczytujemy wartość p dla parametru efektu stałego zmiennej objaśniającej DOM SZKOLA. Wartość ta wynosi 0.25 (p=0.25) i jest większa od poziomu istotności α=0.05. Zatem nie mamy podstaw do odrzucenia hipotezy zerowej. Na podstawie uzyskanych wyników t-test dla modelu 1.4 decydujemy o usunięciu z niego zmiennej objaśniającej o efektach stałych DOM SZKOLA. Tym samym model 1.2 staje się naszym modelem preferencyjnym, a w związku z końcem etapów estymacji dla modelu głównego możemy go nazywać modelem końcowym. 6.6 Podsumowanie W rozdziale 6.5 przeprowadzone zostały etapy estymacji modelu głównego. Na ich podstawie uznałem, że modelem najlepiej opisującym rozpatrywane dane jest liniowy model mieszany 1.2. W etapie 2 model ten był estymowany przy pomocy metody największej wiarygodności (ponieważ chcieliśmy użyć test wskaźnika wiarygodności do badania istotności parametrów efektów stałych zmiennych objaśniających poziomu 1). Przeprowadzimy teraz estymację modelu 1.2 ograniczoną metodą największej wiarygodność (bardziej preferowaną). 66 Rysunek 26: Model końcowy - kod programu i rezultaty. Kod programu dla modelu końcowego oraz informacje na jego temat możemy odczytać z Rysunku 26. Zwróćmy uwagę, że w tabeli zawierającej informację na temat modelu końcowego metodą estymacji jest ograniczona metoda największej wiarygodności (REML). Rysunek 27: Model końcowy - parametry efektów stałych i kowariancji. Rysunek 27 prezentuje wyestymowane wartości parametrów efektów stałych i parametrów kowa- 67 riancji jak i statystykę t-testu oraz statystykę testu Walda. Tablica 10: Model końcowy - parametry i ich wartości. Parametr Wartość parametru β0 282.79 β1 -0.47 β2 -1.25 β3 -8.26 β4 5.35 2 σklasa 2 σszkoa 2 83.24 σ 75.22 734.59 W Tablicy 10 podsumowane zostały wyestymowane wartości parametrów dla modelu końcowego. Na postawie Tablicy 10 można zapisać ostateczną postać modelu końcowego M AT ˆOSijk = ˆ + bˆ0k 287.79−0.47×M AT T ESTijk −01.25×P LECijk −8.26×M N IEJ Uijk +5.35×SSUijk + b0i|k gdzie: ˆ ∼ N (0, 83.24) b0i|k bˆ0k ∼ N (0, 75.22). Model końcowy zawiera jeden nieistotny parametr o efektach stałych na podstawie t-testu (Rysunek 27). Parametr ten odnosi się do zmiennej objaśniającej o efektach stałych PLEC. Postanowiłem jednak pozostawić ten parametr w modelu końcowym opierając się na teście wskaźnika wiarygodności przeprowadzonym na etapie 2. Zauważmy, że wyestymowany efekt stały dla testu sprawdzającego wiedzę matematyczną uczniów MAT TEST w odniesieniu do ich osiągnięć matematycznych MAT OS (obliczanych jako różnica punktów miedzy wynikiem testu matematycznego MAT TEST wykonanym przed pójściem uczniów do pierwszej klasy, a wynikiem uzyskanym przez tym samych uczniów po roku) jest ujemny (-0.47). Oznacz to, że uczniowie uzyskali średnio wyższe wyniki na teście sprawdzającym ich wiedzę matematyczną przed rozpoczęciem nauki w pierwszej klasie, niż na drugim teście przeprowadzonym po roku gdy byli już uczniami pierwszej klasy szkoły podstawowej. Zatem przewidywany postęp osiągnięć matematycznych jest negatywny (po uwzględnieniu innych zmiennych objaśniających, czyli PLEC, MNIEJ U, SSU). Wynik ten można interpretować również tak, że uczniowie, którzy dobrze radzili sobie w matematyce przed rozpoczęciem pierwszej klasy nie poprawili swojej wiedzy po roku na tyle, aby przewyższyć uczniów którzy źle radzili sobie w matematyce. Przewidywany postęp osiągnięć matematycznych MAT OS uczniów, którzy posiadają status mniejszości narodowej jest średnio o 8.26 punktów mniejszy niż uczniów nie mających tego statusu. 68 Dla uczniów z wyższym wskaźnikiem statusu socjoekonomicznego (SSU) przewiduje się większy postęp w osiągnięciach z matematyki niż dla uczniów z niższym statusem socjoekonomicznym. Głównym celem tego przykładu (oprócz uzyskania modelu końcowego i konkretnych wyników dla zebranych danych) było pokazanie jak zaawansowana jest analiza trzy-poziomych danych sklastrowanych dla liniowego modelu mieszanego oraz jak ją przeprowadzić w języku programowania SAS. Opierając się na tym przykładzie czytelnik będzie mógł odnieść się do innych danych (dwu, trzy lub więcej poziomowych), przeprowadzić ich analizę, zbudować dla nich liniowy model mieszany, przeprowadzić estymację modelu w języku programowania SAS oraz wyciągnąć wnioski z uzyskany wyników w programie SAS. 7 Dodatek A 7.1 Ogólny model liniowy Ogólny model liniowy dla j-tej obserwacji jest postaci [15] yj = x1j β1 + ... + xkj βk + j dla j = 1, 2, ... , n gdzie: yj - zmienna objaśniana dla j-tej z n obserwacji β1 , ... , βk - k nieznanych parametrów (nazywanych współczynnikami regresji) x1j , ... , xkj - k zmiennych objaśniających dla j-tej obserwacji j - błąd losowy dla j-tej obserwacji. Używając słownictwa dla modeli mieszanych można powiedzieć, że parametry oraz zmienne objaśniające w ogólnym modelu liniowym są parametrami o efektach stałych oraz zmiennymi objaśniającymi o efektach stałych, a jedyną losowością w tym modelu są błędy dla j-tej obserwacji. Do zapisu ogólnego modelu liniowego możemy użyć także notacji macierzowej, wówczas ogólny model liniowy jest postaci Y = Xβ + gdzie: Y - wektor zmiennych objaśnianych, wymiaru n × 1 Y1 Y2 Y = ... Yn β - wektor nieznanych k parametrów, wymiaru k × 1 β1 β2 β= ... βp 69 X - macierz X11 X12 X= ... X1n zmiennych objaśniających, wymiaru n × k X21 ... Xk1 X22 ... Xk2 ... ... ... X2n ... Xkn - wektor błędów dla obserwacji, wymiaru n × 1 1 2 = ... n ∼ N (0, σ 2 In ) gdzie In - macierz jednostkowa wymiaru n × n. 7.2 Metody estymacji stopni swobody W rozdziale tym zostanie przedstawiona lista wybranych metod estymacji stopni swobody potrzebnych do wyznaczenia rozkładu statystyki t w liniowym modelu mieszanym. Do estymacji stopni swobody mianownika t statystyki można użyć: • metody podzbiorów • metody pomiędzy-w • metody Satterthwaita • metody Kenwarda-Rogera. Wszystkie te metody służą do wyznaczania stopni swobody mianownika t statystyki. Warto podkreślić, że metoda Kenwarda-Rogera różni się od pozostałych metod tym, że uwzględnia w wyestymowanej macierzy kowariancji zmianę Vi na V̂i . Więcej na temat wymienionych metod można przeczytać w literaturze [8]. 7.3 Metoda Newtona-Raphsona W języku programowania SAS metoda Newtona-Raphsona (N-R) jest używana do optymalizacji logarytmu funkcji wiarygodności. 7.3.1 Metoda Newtona-Raphsona - przypadek ogólny Metoda Newtona-Raphsona służy do wyznaczenia przybliżonej wartości pojedynczego pierwiastka funkcji f (X) = 0. Do wyznaczenia przybliżonej wartości pierwiastka korzysta się z iteracyjnego wzoru (z zadanym punktem startowym x0 ) postaci [8] xn+1 = xn − gdzie: f (xn ) - jest wartością funkcji f w punkcie xn f 0 (xn ) - jest pochodną funkcji f (xn ). 70 f (xn ) f 0 (xn ) Rozważmy teraz prosty przykład korzystając z metody Newtona-Raphsona. Niech będzie dana funkcja x2 = 3. Za pomocą metody N-R wyznaczymy przybliżoną wartość do√ datniego pierwiastka tej funkcji. Wiemy, że dodatnim pierwiastkiem tej funkcji jest 3 =≈ 1.7321. Zapisujemy funkcję f (x) i liczymy jej pochodną f (x) = x2 − 3 f 0 (x) = 2x. Wybieramy punkt startowy x0 = 1 (im bliższy punkt startowy wartości pierwiastka tym mniej iteracji będzie trzeba wykonać metodą N-R) i wyliczmy kolejne iteracje korzystając ze wzoru iteracyjnego xn+1 = xn − f (xn ) f 0 (xn ) = xn − x2n −3 2xn x0 = 1 x1 = 1− = 1 − x2 = x3 = 1−3 2 = 1 − (−1) = 2 1 2 − 4−3 4 =2− 4 1.752 −3 1.75 − 2·1.75 = = 1.75 1.75 − 0.0625 3.5 = 1.75 − 0.017857 = 1.732143 ≈ 1.7321. Metoda N-R w trzeciej iteracji osiągnęła zbieżność. 7.3.2 Metoda Newtona-Raphsona - logarytm funkcji wiarygodności Przedstawiony teraz zostanie przykład użycia metody N-R dla logarytmu funkcji wiarygodności. Niech L(β) będzie funkcją wiarygodności oraz niech l(β) = logL(β) będzie logarytmem funkcji wiarygodności. Maksymalizacja logarytmu wiarygodności jest równoważna ze znalezieniem rozwiązania β̂ dla równania postaci ∂l(β) ∂β = 0. Niech β̂0 = 0 będzie punktem startowym, wówczas iteracyjny wzór N-R jest postaci [13] 2 l(β̂n ) −1 l(β̂n ) β̂n+1 = β̂n − ( ∂ ∂β ) 2 ∂β . Wyrażenie po znaku minus jest nazywane krokiem Newtona-Raphsona. Jeżeli oszacowana wartość β̂n+1 jest mniejsza niż β̂n , to wówczas wartość β̂n+1 jest ponownie liczona używając połowy kroku Newtona-Raphsona. Iteracyjny wzór N-R jest kontynuowany dopóki nie zostanie osiągnięta zbieżność, czyli dopóki β̂n+1 nie będzie satysfakcjonujący blisko β̂n . Wyestymowana wartość parametru β uzyskana przez maksymalizację logarytmu funkcji wiarygodności przy wykorzystaniu metody N-R jest równa β̂ = β̂n+1 . 71 8 Dodatek B 8.1 Spis rysunków Spis rysunków 1 Rodzaje modeli mieszanych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Nazwy procedury w języku programowania SAS dla modeli mieszanych. . . . . . . 39 3 Analiza czynnika losowego (przykład - wzrost). . . . . . . . . . . . . . . . . . . . . 43 4 Kod nr 1 (przykład - wzrost). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5 Kod nr 2 (przykład - wzrost). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6 Kod nr 2 - alternatywna wersja (przykład - wzrost). . . . . . . . . . . . . . . . . . 44 7 Hierarchiczna struktura danych dla przykładu KLASY. . . . . . . . . . . . . . . . 46 8 Fragment danych dla badania KLASY. . . . . . . . . . . . . . . . . . . . . . . . . . 47 9 Zaimplementowane dane w programie SAS. . . . . . . . . . . . . . . . . . . . . . . 49 10 Statystyki - poziom 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 11 Statystyki - poziom 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 12 Statystyki - poziom 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 13 Statystyki - wszystkie poziomy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 14 Model 1.1 - kod programu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 15 Model 1.1 - program SAS (część 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 16 Model 1.1 - program SAS (część 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 17 Model 1.1 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . . 55 18 Model 1.1A - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . 57 19 Model 1.2 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . . 59 20 Model 1.2 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . . 59 21 Model 1.1 - estymacja metodą ML. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 22 Model 1.3 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . . 62 23 Model 1.3 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . . 62 24 Model 1.4 - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . . . . 65 25 Model 1.4 - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . . . . 65 26 Model końcowy - kod programu i rezultaty. . . . . . . . . . . . . . . . . . . . . . . 67 27 Model końcowy - parametry efektów stałych i kowariancji. . . . . . . . . . . . . . . 67 8.2 Spis tablic Spis tablic 1 Przykład trzy-poziomowych danych sklastrowanych dla dwóch wybranych dziedzin badań. Opracowane na podstawie literatury [1]. . . . . . . . . . . . . . . . . . . . . 2 9 Przykłady funkcji wiążących dla uogólnionego liniowego modelu mieszanego. Opracowano na podstawie literatury [2] oraz [10]. . . . . . . . . . . . . . . . . . . . . . . 38 3 Składnia procedury PROC MIXED. Opracowano na podstawie literatury [8]. . . . 40 4 Zmienne dla trzy-poziomowych danych. . . . . . . . . . . . . . . . . . . . . . . . . 46 5 Fragment danych dla badania KLASY (z podziałem na poziomy i klastry danych). 47 6 Model 1.1 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . . 56 72 7 Model 1.2 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . . 60 8 Model 1.3 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . . 63 9 Model 1.4 - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . . . . 66 10 Model końcowy - parametry i ich wartości. . . . . . . . . . . . . . . . . . . . . . . . 68 8.3 Spis skrótów AR(1) struktura autoregresji I rzędu macierzy kowariancji Ri ML metoda największej wiarygodności REML ograniczona metoda największej wiarygodności LTR test wskaźnika wiarygodności AIC kryterium informacyjne Akaike N-R metoda Newtona-Raphsona 8.4 Kod programu p r o c import out=work . k l a s a d a t a f i l e =”( s c i e ż k a d o s t ę p u ) \ k l a s a . x l s x ” dbms=x l s x r e p l a c e ; getnames=y e s ; datarow =2; g u e s s i n g r o w s =20; run ; t i t l e ” S t a t y s t y k i − poziom 1 ” ; p r o c means data = k l a s a ; var p l e c m n i e j u m a t t e s t mat os s s u ; run ; /∗ s o r t o w a n i e z b i o r u danych ∗/ p r o c s o r t data = k l a s a out=danes1 ; by k l a s a i d ; run ; /∗ p r z y g o t o w a n i e danych d l a poziomu 2∗/ data danepoz2 ; s e t danes1 ; by k l a s a i d ; if f i r s t . k l a s a i d then output ; run ; t i t l e ” S t a t y s t y k i − poziom 2 ” ; p r o c means data = danepoz2 ; var l a t a n przy m ; run ; 73 /∗ s o r t o w a n i e z b i o r u danych ∗/ p r o c s o r t data = k l a s a out=danes2 ; by s z k o l a i d ; run ; data danepoz3 ; s e t danes2 ; by s z k o l a i d ; if f i r s t . s z k o l a i d then output ; run ; t i t l e ” S t a t y s t y k i − poziom 3 ” ; p r o c means data = danepoz3 ; var d o m s z k o l a ; run ; data k l a s a c a l ; set klasa ; i f mat w ne . ; run ; t i t l e ” S t a t y s t y k i − poziom 1 ( w s z y s t k i e zmienne ) ” ; p r o c means data = k l a s a c a l ; var p l e c m n i e j u m a t t e s t mat os s s u ; run ; p r o c u n i v a r i a t e data=danepoz3 NORMAL; var mat os ; run ; /∗ s o r t o w a n i e z b i o r u danych ( w s z y s t k i e zmienne ) ∗ / p r o c s o r t data = k l a s a c a l out=danes1w ; by k l a s a i d ; run ; data danepoz2w ; s e t danes1w ; by k l a s a i d ; if f i r s t . k l a s a i d then output ; run ; t i t l e ” S t a t y s t y k i − poziom 2 ( w s z y s t k i e zmienne ) ” ; p r o c means data = danepoz2w ; var l a t a n przy m mat w ; run ; 74 /∗ s o r t o w a n i e z b i o r u danych ( w s z y s t k i e zmienne ) ∗ / p r o c s o r t data = k l a s a c a l out=danes2w ; by s z k o l a i d ; run ; data danepoz3w ; s e t danes2w ; by s z k o l a i d ; if f i r s t . s z k o l a i d then output ; run ; t i t l e ” S t a t y s t y k i − poziom 3 ( w s z y s t k i e zmienne ) ” ; p r o c means data = danepoz3w ; var d o m s z k o l a ; run ; t i t l e ” Model 1 . 1 ” ; p r o c mixed data = k l a s a c o v t e s t ; class klasa id szkola id ; model mat os = / s; random i n t / s u b j e c t=s z k o l a i d s ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ; run ; t i t l e ” Model 1 . 1A” ; p r o c mixed data = k l a s a ; class klasa id szkola id ; model mat os = ; random i n t / s u b j e c t=s z k o l a i d ; run ; t i t l e ” Model 1 . 1A ( inny z a p i s kodu ) ” ; p r o c mixed data = k l a s a ; class klasa id szkola id ; model mat os = ; random s z k o l a i d ; run ; t i t l e ” Model 1 . 2 ( e s t y m a c j a ML) ” ; p r o c mixed data = k l a s a c o v t e s t method=ML; class klasa id szkola id ; model mat os = m a t t e s t p l e c m n i e j u s s u / s ; random i n t / s u b j e c t=s z k o l a i d s ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ; 75 run ; t i t l e ” Model 1 . 1 ( e s t y m a c j a ML) ” ; p r o c mixed data = k l a s a c o v t e s t method=ML; class klasa id szkola id ; model mat os = / s; random i n t / s u b j e c t=s z k o l a i d s ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) s ; run ; t i t l e ” Model 1 . 3 ” ; p r o c mixed data = k l a s a c o v t e s t ; class klasa id szkola id ; model mat os = m a t t e s t p l e c m n i e j u s s u l a t a n przy m mat w / s ; random i n t / s u b j e c t=s z k o l a i d ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ; run ; t i t l e ” Model 1 . 4 ” ; p r o c mixed data = k l a s a c o v t e s t ; class klasa id szkola id ; model mat os = m a t t e s t p l e c m n i e j u s s u d o m s z k o l a / s ; random i n t / s u b j e c t=s z k o l a i d ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ; run ; t i t l e ” Model 1 . 2 ( model koncowy ) ” ; p r o c mixed data = k l a s a c o v t e s t ; class klasa id szkola id ; model mat os = m a t t e s t p l e c m n i e j u s s u / s ; random i n t / s u b j e c t=s z k o l a i d ; random i n t / s u b j e c t=k l a s a i d ( s z k o l a i d ) ; run ; 76 Literatura [1] B. T. West, K. B. Welch, A. T. Gałecki, Linear Mixed Models: A Practical Guide Using Statistical Software, Chapman and Hall/CRC, 2007. [2] J. Fox, Applied Regression Analysis and Generalized Linear Models, Chapter 15: Generalized Linear Models, SAGE Publications, 2008. [3] Y, Fang, Asymptotic Equivalence between Cross-Validations and Akaike Information Criteria in Mixed-Effects Models, Journal of Data Science, 2011. [4] J. Fox, Linear Mixed Models: Appendix to An R and S-PLUS Companion to Applied Regression, SAGE Publications, 2002. [5] M. J. Lindstrom, D. M. Bates, Nonlinear mixed-effects models for repeated measures data, Biometrics Vol. 46, 1990 [6] J. C. Pinheiro, Topics in Mixed Effects Models, University of Wisconsin, 1994 [7] E. Frątczak, Statystyka – zastosowania biznesowe i społeczne: Analiza danych wzdłużnych wybrane zagadnienia, Wydawnictwo Wyższej Szkoły Menedżerskiej w Warszawie, 2014. [8] SAS/STAT 13.2 User’s Guide: The MIXED Procedure http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer. htm#statug_mixed_overview.htm * [9] SAS/STAT 13.2 User’s Guide: The HPMIXED Procedure http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer. htm#statug_hpmixed_overview.htm * [10] SAS/STAT 13.2 User’s Guide: The GLIMMIXED Procedure http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer. htm#statug_glimmix_overview.htm * [11] SAS/STAT 13.2 User’s Guide: The NLMIXED Procedure http://support.sas.com/documentation/cdl/en/statug/67523/HTML/default/viewer. htm#statug_nlmixed_overview.htm * [12] http://www-personal.umich.edu/~bwest/classroom.csv * [13] http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer. htm#statug_phreg_details18.htm * [14] http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm * [15] C. R. Rao, H. Toutenburg, Shalabh, C. Heumann, Linear Models and Generalizations, Springer, 2008. * data dostępu 15.07.2015 r. 77