Modele liniowe i mieszane na przykładzie analizy
Transkrypt
Modele liniowe i mieszane na przykładzie analizy
Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz¡t 6 Plan wykªadu Model mieszany 1. Podstawy teoretyczne 2. Przykªady w R Tomasz Suchocki, Modele liniowe ... Wykªad 2 2/27 Podstawy teoretyczne Model mieszany zmienna zale»na jest typu ci¡gªego komplementarnie do efektów staªych mo»emy okresli¢ efekty losowe, które w modelu uwzgl¦dniamy jako realizacje zmiennej losowej o pewnych parametrach Tomasz Suchocki, Modele liniowe ... Wykªad 2 3/27 Podstawy teoretyczne Dlaczego u¹ywamy efektów losowych? Efektów tych mo»e by¢ tak du»o, »e zamiast traktowa¢ je jako parametry modelu, przyjmujemy, »e s¡ to zmienne losowe z zadanego rozkªadu prawdopodobie«stwa, którego parametry b¦d¡ parametrami modelu. Mo»emy nie by¢ zainteresowani bezpo±redni¡ ocen¡ warto±ci efektów, lecz raczej zmienno±ci¡ tych efektów w populacji. Tomasz Suchocki, Modele liniowe ... Wykªad 2 4/27 Podstawy teoretyczne Ogólna posta¢ modelu: y Efekty staªe: X X = X β + Zu + , β - macierz wyst¡pie« dla efektów staªych (n × p ) β - parametry do estymacji (p × 1) Efekty losowe: Z Zu - macierz wyst¡pie« dla efektów losowych (n × q ) - wektor zmiennych losowych odpowiadaj¡cych efektom losowym (q × 1) u Tomasz Suchocki, Modele liniowe ... Wykªad 2 5/27 Podstawy teoretyczne Residua: - bªedy losowe (n × 1) Zakªada si¦, »e wektory normalnych: u u i s¡ niezale»ne i pochodz¡ z rozkªadów ∼ N (0, G ), z macierz¡ ∼ N (0, R ), z macierz¡ G R = Aσu2 o wymiarach (q × q ) = I σ2 o wymiarach (n × n) Przy powy»szych zaªo»eniach wariancja zmiennej y ma posta¢: ( ) = V = ZGZ T + R Var y Tomasz Suchocki, Modele liniowe ... Wykªad 2 6/27 Podstawy teoretyczne Estymatory efektów staªych β uzyskane przy pomocy metody najwi¦kszej wiarygodno±ci: y ∼ N (X β, V ) z macierz¡ V = ZGZ T + R Funkcja wiarygodno±ci powy»szego modelu mieszanego ma posta¢ −2 log L = n log (2π) + log |V | + (y − X β)T V −1 (y − X β) βb = X T V − 1 X − 1 · X T V − 1 y Tomasz Suchocki, Modele liniowe ... Wykªad 2 7/27 Podstawy teoretyczne Jak otrzyma¢ funkcj¦ najwi¦kszej wiarygodno±ci? Wiemy, »e je»eli z ∼ N (A, B ) to g¦sto±¢ prawdopodobie«stwa zmiennej y ma posta¢ 1 1 T −1 (z − A) 1 exp − (z − A) B 2 (2π) 2 |B | 2 n Korzystaj¡c z tego faktu mamy i z tego, »e y ∼ N (X β, V ) otrzymujemy 1 1 T −1 L = (y − X β) 1 exp − (y − X β) V 2 (2π) 2 |V | 2 n Tomasz Suchocki, Modele liniowe ... Wykªad 2 8/27 Podstawy teoretyczne Logarytmuj¡c otrzyman¡ funckj¦ wiarygodno±ci otrzymujemy 1 1 n log L = − log (2π) − log |V | − (y − X β)T V −1 (y − X β) 2 2 2 Mno»¡c otrzymany logarytm funkcji wiarygodno±ci przez liczb¦ (−2) otrzymujemy ostateczn¡ posta¢ funkcji wiarygodno±ci. Tomasz Suchocki, Modele liniowe ... Wykªad 2 9/27 Podstawy teoretyczne Jak otrzyma¢ wzór na estymatory parametrów β metod¡ najwi¦kszej wiarygodno±ci? −2 log L=n log (2π) + log |V | + y T V −1 y − y T V −1 X β −β T X T V −1 y + β T X T V −1 X β Ró»niczkuj¡c powy»sz¡ funkcj¦ wzgl¦dem parametru β i otrzymujemy ∂(−2 log L) =−y T V −1 X − X T V −1 y + 2X T V −1 X β ∂β =−2X T V −1 y + 2X T V −1 X β Tomasz Suchocki, Modele liniowe ... Wykªad 2 10/27 Podstawy teoretyczne Otrzyman¡ ró»niczk¦ funkcji wiarygodno±ci przyrównujemy do 0 i otrzymujemy ∂(−2 log L) = −2X T V −1 y + 2X T V −1 X β = 0 ∂β βb = Tomasz Suchocki, Modele liniowe ... X T V −1 X −1 · X T V −1 y Wykªad 2 11/27 Podstawy teoretyczne FAKT: ( Var Ay dla zmiennej losowej Tomasz Suchocki, Modele liniowe ... y ) = A · Var (y ) · AT , i znanej macierzy A Wykªad 2 12/27 Podstawy teoretyczne Macierz wariancji-kowariancji dla efektów staªych: − 1 T −1 T −1 b ·X V y β =Var X V X Var − 1 T −1 Var (y )V −1 X T −1 X −1 = X T V −1 X X V X V Podstawiaj¡c za Var ( ) = V otrzymujemy Var y −1 T −1 VV −1 X T −1 X −1 βb = X T V −1 X X V X V i ostatecznie mamy Var Tomasz Suchocki, Modele liniowe ... − 1 βb = X T V −1 X Wykªad 2 13/27 Podstawy teoretyczne Testowanie istotno±ci efektów staªych (Test Walda): b j) Dla ka»dego efektu βj , j = 1, . . . , p mamy SE (βbj ) = diag (Var (β) Hipotezy H0 : βj = 0 vs. Statystyka testowa W = H1 βbj SE Statystyka W : βj 6= 0 (βbj ) przy prawdziwo±ci Tomasz Suchocki, Modele liniowe ... H0 ma rozkªad N (0, 1) Wykªad 2 14/27 Podstawy teoretyczne Testowanie istotno±ci efektów staªych (Test Walda): Hipotezy H0 : Lβ = 0 vs. kontrastu L Statystyka testowa W H1 : Lβ 6= 0, dla danej macierzy = βbT LT −1 b ( T V −1 X )−1 LT Lβ L X Statystyka W przy prawdziwo±ci H0 ma rozkªad stopni swobody rown¡ rz¦dowi macierzy L Tomasz Suchocki, Modele liniowe ... Wykªad 2 chi 2 z liczb¡ 15/27 Podstawy teoretyczne Testowanie istotno±ci efektów staªych (Test oparty na ilorazie wiarygodno±ci - porównywanie modeli z ró»n¡ ilo±ci¡ efektów staªych): Hipotezy H0 : beta ∈ Ω0 , gdzie Ω0 ∈ Ω Statystyka testowa −2 log λN = −2 log LΩ0 LΩ Statystyka przy prawdziwo±ci H0 ma rozkªad chi 2 z liczb¡ stopni swobody rown¡ ró»nicy parametrów pomi¦dzy Ω i Ω0 Tomasz Suchocki, Modele liniowe ... Wykªad 2 16/27 Podstawy teoretyczne Estymacja parametrów wariancji: −2 log LREML = −2 log L + log |X T V −1 X | Metody estymacji parametrów wariancji: EM Newton-Raphson Fisher scoring Tomasz Suchocki, Modele liniowe ... Wykªad 2 17/27 Podstawy teoretyczne Testowanie istotno±ci efektów losowych (Test oparty na ilorazie wiarygodno±ci): Hipotezy H0 : σu2 = 0 Statystyka testowa −2 log λN = −2 log Lzredukowanej + 2 log Lpenej Statystyka przy prawdziwo±ci H0 jest mieszanin¡ rozkªadów 2 z 0 i 1 stopniem swobody ( 1 χ2 + 1 χ2 ) chi 2 0 2 1 Tomasz Suchocki, Modele liniowe ... Wykªad 2 18/27 Podstawy teoretyczne Porównywanie modeli: AIC = −2 log L + 2s BIC = −2 log L + s log (n∗ ) gdzie s - liczba wszystkich parametrów w modelu ∗ n ∗ n = n − p dla funkcji LREML = n dla funkcji L Tomasz Suchocki, Modele liniowe ... Wykªad 2 19/27 Podstawy teoretyczne Predykcja efektów losowych: T −1 T −1 X Z R X X R T R −1 X Z T R −1 Z T −1 X R y βb = − 1 T − 1 +G Z R y b u Z Warto przypomnie¢ sobie funkcje cbind() i rbind() Tomasz Suchocki, Modele liniowe ... Wykªad 2 20/27 Przykªad Zbiór danych o nazwie "milkgene¹ pakietu "PBImisc". Kolejne kolumny zawieraj¡: numer krowy numer laktacji gen BTM3a1 wydajno±¢ mleczn¡ wydajno±¢ tªuszczu Tomasz Suchocki, Modele liniowe ... Wykªad 2 21/27 Przykªad Chcemy sprawdzi¢, czy obserwowana mutacja w genie BTN3a1 wpªywa na mleczno±¢ krów. Mamy 915 pomiarów mleczno±ci dla osobników o genotypie 1 i 85 pomiarów dla genotypu 2. Nie mo»na zastosowa¢ w tym przypadku testu t-studenta dla dwóch grup, ani modelu z jednym efektem staªym genu poniewa» cz¦±¢ osobników byªa mierzona wi¦cej ni» jeden raz (przez kilka laktacji). Aby uwzgl¦dni¢ podobie«stwo w pomiarach do modelu doªo»ymy efekt losowy osobnika. Wybieramy efekt losowy, poniewa» krów jest du»o i nie chcemy wprowadza¢ tak wielu parametrów do modelu. Dodatkowo nie interesuje nas efekt pojedynczych osobników, a efekt genu. Tomasz Suchocki, Modele liniowe ... Wykªad 2 22/27 Przykªad Model: mleko = Xbtn3a1 βbtn3a1 + Xlaktacja βlaktacja + Zkrowa ukrowa + y 2 krowa - efekt losowy o rozkªadzie N (0, σkrowa ) u macierz Zkrowa ma wymiary 1000 × 409, zi ,j = 1 gdy wiersz dotyczy j tego osobnika oraz 0 w przeciwnym razie. Tomasz Suchocki, Modele liniowe ... Wykªad 2 i 23/27 Przykªad Formuªa: require(lme4) m1=lmer(milk btn3a1+lactation+(1|cow.id),data=milkgene) Otrzymujemy wyniki: Efekt staªy genu −244.07. O tyle ±rednio wy»sza jest mleczno±¢ osobników o genotypie 2 od osobników o genotypie 1. 2 Parametr σkrowa = 1240403 i jest praktycznie równy wariancji bª¦du. Nale»y sprawdzi¢ zaªo»enia modelu tzn. Normalno±¢ reszt i efektów losowych oraz ich niezale»no±¢. Tomasz Suchocki, Modele liniowe ... Wykªad 2 24/27 Przykªad Istotno±¢ efektów staªych: summary(m1)$coefs - testy t-studenta test opary na ilorazie wiarygodno±ci tzn. tworzymy dwa modele z i bez efektu genu btn3a1, nast¦pnie obliczamy logarytmy funkcji wiarygodno±ci dla ka»dego z modeli i wyznaczamy statystyk¦ λ. Rozkªad lambdy to χ21 . Istotno±¢ efektów losowych: test opary na ilorazie wiarygodno±ci tzn. tworzymy dwa modele z i bez efektu genu osobniczego, nast¦pnie obliczamy logarytmy funkcji wiarygodno±ci dla ka»dego z modeli i wyznaczamy statystyk¦ λ. Rozkªad lambdy to 12 χ20 + 12 χ21 . Tomasz Suchocki, Modele liniowe ... Wykªad 2 25/27 Przykªad Istotno±¢ efektów staªych: Efekt genu BTN3a1 wynosi −1.03 z p-warto±ci¡ p = 0.299 Istotno±¢ efektów losowych: Statystyka λ = 243.92 z p-warto±ci¡ Tomasz Suchocki, Modele liniowe ... p = 5.49e − 55 Wykªad 2 26/27 Dzi¦kuj¦ za uwag¦ Tomasz Suchocki, Modele liniowe ... Wykªad 2 27/27