Modele liniowe i mieszane na przykładzie analizy

Transkrypt

Modele liniowe i mieszane na przykładzie analizy
Modele liniowe i mieszane na przykªadzie analizy
danych biologicznych - Wykªad
Tomasz Suchocki
Uniwersytet Przyrodniczy we Wrocªawiu
Katedra Genetyki i Ogólnej Hodowli Zwierz¡t
6
Plan wykªadu
Model mieszany
1.
Podstawy teoretyczne
2.
Przykªady w R
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
2/27
Podstawy teoretyczne
Model mieszany
zmienna zale»na jest typu ci¡gªego
komplementarnie do efektów staªych mo»emy okresli¢ efekty losowe, które w modelu uwzgl¦dniamy jako realizacje zmiennej
losowej o pewnych parametrach
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
3/27
Podstawy teoretyczne
Dlaczego u¹ywamy efektów losowych?
Efektów tych mo»e by¢ tak du»o, »e zamiast traktowa¢ je jako
parametry modelu, przyjmujemy, »e s¡ to zmienne losowe z zadanego rozkªadu prawdopodobie«stwa, którego parametry b¦d¡
parametrami modelu.
Mo»emy nie by¢ zainteresowani bezpo±redni¡ ocen¡ warto±ci
efektów, lecz raczej zmienno±ci¡ tych efektów w populacji.
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
4/27
Podstawy teoretyczne
Ogólna posta¢ modelu:
y
Efekty staªe:
X
X
= X β + Zu + ,
β
- macierz wyst¡pie« dla efektów staªych (n × p )
β - parametry do estymacji (p × 1)
Efekty losowe:
Z
Zu
- macierz wyst¡pie« dla efektów losowych (n × q )
- wektor zmiennych losowych odpowiadaj¡cych efektom
losowym (q × 1)
u
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
5/27
Podstawy teoretyczne
Residua:
- bªedy losowe (n × 1)
Zakªada si¦, »e wektory
normalnych:
u
u
i s¡ niezale»ne i pochodz¡ z rozkªadów
∼ N (0, G ), z macierz¡
∼ N (0, R ), z macierz¡
G
R
= Aσu2 o wymiarach (q × q )
= I σ2 o wymiarach (n × n)
Przy powy»szych zaªo»eniach wariancja zmiennej
y
ma posta¢:
( ) = V = ZGZ T + R
Var y
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
6/27
Podstawy teoretyczne
Estymatory efektów staªych β uzyskane przy pomocy metody
najwi¦kszej wiarygodno±ci:
y
∼ N (X β, V ) z macierz¡
V
= ZGZ T + R
Funkcja wiarygodno±ci powy»szego modelu mieszanego ma
posta¢
−2 log L = n log (2π) + log |V | + (y − X β)T V −1 (y − X β)
βb =
X
T V − 1 X − 1 · X T V − 1 y
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
7/27
Podstawy teoretyczne
Jak otrzyma¢ funkcj¦ najwi¦kszej wiarygodno±ci? Wiemy, »e je»eli
z
∼ N (A, B ) to g¦sto±¢ prawdopodobie«stwa zmiennej y ma posta¢
1
1
T
−1
(z − A)
1 exp − (z − A) B
2
(2π) 2 |B | 2
n
Korzystaj¡c z tego faktu mamy i z tego, »e y ∼ N (X β, V )
otrzymujemy
1
1
T
−1
L =
(y − X β)
1 exp − (y − X β) V
2
(2π) 2 |V | 2
n
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
8/27
Podstawy teoretyczne
Logarytmuj¡c otrzyman¡ funckj¦ wiarygodno±ci otrzymujemy
1
1
n
log L = − log (2π) − log |V | − (y − X β)T V −1 (y − X β)
2
2
2
Mno»¡c otrzymany logarytm funkcji wiarygodno±ci przez liczb¦
(−2) otrzymujemy ostateczn¡ posta¢ funkcji wiarygodno±ci.
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
9/27
Podstawy teoretyczne
Jak otrzyma¢ wzór na estymatory parametrów β metod¡
najwi¦kszej wiarygodno±ci?
−2 log L=n log (2π) + log |V | + y T V −1 y − y T V −1 X β
−β T X T V −1 y + β T X T V −1 X β
Ró»niczkuj¡c powy»sz¡ funkcj¦ wzgl¦dem parametru β i
otrzymujemy
∂(−2 log L)
=−y T V −1 X − X T V −1 y + 2X T V −1 X β
∂β
=−2X T V −1 y + 2X T V −1 X β
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
10/27
Podstawy teoretyczne
Otrzyman¡ ró»niczk¦ funkcji wiarygodno±ci przyrównujemy do 0 i
otrzymujemy
∂(−2 log L)
= −2X T V −1 y + 2X T V −1 X β = 0
∂β
βb =
Tomasz Suchocki, Modele liniowe ...
X
T V −1 X
−1
· X T V −1 y
Wykªad
2
11/27
Podstawy teoretyczne
FAKT:
(
Var Ay
dla zmiennej losowej
Tomasz Suchocki, Modele liniowe ...
y
) = A · Var (y ) · AT ,
i znanej macierzy
A
Wykªad
2
12/27
Podstawy teoretyczne
Macierz wariancji-kowariancji dla efektów staªych:
− 1
T
−1
T
−1
b
·X V y
β =Var
X V
X
Var
− 1 T −1 Var (y )V −1 X
T −1 X −1
= X T V −1 X
X V
X V
Podstawiaj¡c za
Var
( ) = V otrzymujemy
Var y
−1 T −1 VV −1 X
T −1 X −1
βb = X T V −1 X
X V
X V
i ostatecznie mamy
Var
Tomasz Suchocki, Modele liniowe ...
− 1
βb = X T V −1 X
Wykªad
2
13/27
Podstawy teoretyczne
Testowanie istotno±ci efektów staªych (Test Walda):
b j)
Dla ka»dego efektu βj , j = 1, . . . , p mamy SE (βbj ) = diag (Var (β)
Hipotezy
H0
: βj = 0 vs.
Statystyka testowa
W
=
H1
βbj
SE
Statystyka
W
: βj 6= 0
(βbj )
przy prawdziwo±ci
Tomasz Suchocki, Modele liniowe ...
H0
ma rozkªad N (0, 1)
Wykªad
2
14/27
Podstawy teoretyczne
Testowanie istotno±ci efektów staªych (Test Walda):
Hipotezy H0 : Lβ = 0 vs.
kontrastu L
Statystyka testowa
W
H1
: Lβ 6= 0, dla danej macierzy
= βbT LT
−1
b
( T V −1 X )−1 LT
Lβ
L X
Statystyka W przy prawdziwo±ci H0 ma rozkªad
stopni swobody rown¡ rz¦dowi macierzy L
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
chi
2
z liczb¡
15/27
Podstawy teoretyczne
Testowanie istotno±ci efektów staªych (Test oparty na ilorazie
wiarygodno±ci - porównywanie modeli z ró»n¡ ilo±ci¡ efektów
staªych):
Hipotezy
H0
: beta ∈ Ω0 , gdzie Ω0 ∈ Ω
Statystyka testowa −2 log λN = −2 log
LΩ0
LΩ
Statystyka przy prawdziwo±ci H0 ma rozkªad chi 2 z liczb¡
stopni swobody rown¡ ró»nicy parametrów pomi¦dzy Ω i Ω0
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
16/27
Podstawy teoretyczne
Estymacja parametrów wariancji:
−2 log LREML = −2 log L + log |X T V −1 X |
Metody estymacji parametrów wariancji:
EM
Newton-Raphson
Fisher scoring
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
17/27
Podstawy teoretyczne
Testowanie istotno±ci efektów losowych (Test oparty na ilorazie
wiarygodno±ci):
Hipotezy
H0
: σu2 = 0
Statystyka testowa
−2 log λN = −2 log Lzredukowanej + 2 log Lpenej
Statystyka przy prawdziwo±ci H0 jest mieszanin¡ rozkªadów
2 z 0 i 1 stopniem swobody ( 1 χ2 + 1 χ2 )
chi
2 0
2 1
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
18/27
Podstawy teoretyczne
Porównywanie modeli:
AIC
= −2 log L + 2s
BIC
= −2 log L + s log (n∗ )
gdzie
s
- liczba wszystkich parametrów w modelu
∗
n
∗
n
= n − p dla funkcji LREML
= n dla funkcji L
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
19/27
Podstawy teoretyczne
Predykcja efektów losowych:
T −1
T −1
X
Z
R
X
X
R
T R −1 X Z T R −1 Z
T −1 X R
y
βb
=
−
1
T
−
1
+G
Z R
y
b
u
Z
Warto przypomnie¢ sobie funkcje cbind() i rbind()
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
20/27
Przykªad
Zbiór danych o nazwie "milkgene¹ pakietu "PBImisc". Kolejne
kolumny zawieraj¡:
numer krowy
numer laktacji
gen BTM3a1
wydajno±¢ mleczn¡
wydajno±¢ tªuszczu
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
21/27
Przykªad
Chcemy sprawdzi¢, czy obserwowana mutacja w genie BTN3a1
wpªywa na mleczno±¢ krów. Mamy 915 pomiarów mleczno±ci dla
osobników o genotypie 1 i 85 pomiarów dla genotypu 2. Nie mo»na
zastosowa¢ w tym przypadku testu t-studenta dla dwóch grup, ani
modelu z jednym efektem staªym genu poniewa» cz¦±¢ osobników
byªa mierzona wi¦cej ni» jeden raz (przez kilka laktacji).
Aby uwzgl¦dni¢ podobie«stwo w pomiarach do modelu doªo»ymy
efekt losowy osobnika. Wybieramy efekt losowy, poniewa» krów jest
du»o i nie chcemy wprowadza¢ tak wielu parametrów do modelu.
Dodatkowo nie interesuje nas efekt pojedynczych osobników, a
efekt genu.
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
22/27
Przykªad
Model:
mleko = Xbtn3a1 βbtn3a1 + Xlaktacja βlaktacja + Zkrowa ukrowa + y
2
krowa - efekt losowy o rozkªadzie N (0, σkrowa )
u
macierz Zkrowa ma wymiary 1000 × 409, zi ,j = 1 gdy wiersz
dotyczy j tego osobnika oraz 0 w przeciwnym razie.
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
i
23/27
Przykªad
Formuªa:
require(lme4)
m1=lmer(milk btn3a1+lactation+(1|cow.id),data=milkgene)
Otrzymujemy wyniki:
Efekt staªy genu −244.07. O tyle ±rednio wy»sza jest
mleczno±¢ osobników o genotypie 2 od osobników o genotypie
1.
2
Parametr σkrowa
= 1240403 i jest praktycznie równy wariancji
bª¦du.
Nale»y sprawdzi¢ zaªo»enia modelu tzn. Normalno±¢ reszt i efektów
losowych oraz ich niezale»no±¢.
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
24/27
Przykªad
Istotno±¢ efektów staªych:
summary(m1)$coefs - testy t-studenta
test opary na ilorazie wiarygodno±ci tzn. tworzymy dwa
modele z i bez efektu genu btn3a1, nast¦pnie obliczamy
logarytmy funkcji wiarygodno±ci dla ka»dego z modeli i
wyznaczamy statystyk¦ λ. Rozkªad lambdy to χ21 .
Istotno±¢ efektów losowych:
test opary na ilorazie wiarygodno±ci tzn. tworzymy dwa
modele z i bez efektu genu osobniczego, nast¦pnie obliczamy
logarytmy funkcji wiarygodno±ci dla ka»dego z modeli i
wyznaczamy statystyk¦ λ. Rozkªad lambdy to 12 χ20 + 12 χ21 .
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
25/27
Przykªad
Istotno±¢ efektów staªych:
Efekt genu BTN3a1 wynosi −1.03 z p-warto±ci¡
p
= 0.299
Istotno±¢ efektów losowych:
Statystyka λ = 243.92 z p-warto±ci¡
Tomasz Suchocki, Modele liniowe ...
p
= 5.49e − 55
Wykªad
2
26/27
Dzi¦kuj¦ za uwag¦
Tomasz Suchocki, Modele liniowe ...
Wykªad
2
27/27