Metody statystyczne w biologii - Wykład 8

Transkrypt

Metody statystyczne w biologii - Wykład 8
Metody statystyczne w biologii - Wykªad
Uniwersytet Przyrodniczy we Wrocªawiu
Katedra Genetyki i Ogólnej Hodowli Zwierz¡t
8
Plan wykªadu
Regresja logistyczna
1.
Podstawy teoretyczne i przykªady zastosowania
2.
Regresja logistyczna w pakiecie R
3.
Testy statystyczne w pakiecie R
, Modele liniowe ...
Wykªad
2
2/35
Podstawy teoretyczne
Model logistyczny
zmienna zale»na przyjmuje dwie mo»liwe warto±ci 0 lub 1 np.
czªowiek ma anemi¦, b¡d¹ nie
mo»liwo±¢ modelowania prawdopodobie«stwa zdarzenia opisywanego przez zmienn¡ zale»n¡ w zale»no±ci od ró»nych zmiennych niezale»nych (zarówno jako±ciowych jak i ilo±ciowych)
, Modele liniowe ...
Wykªad
2
3/35
Podstawy teoretyczne
Ogólna posta¢ modelu:
Y
∼ B(1, p )
sukcesu p .
- rozkªad dwumianowy z prawdopodobie«stwem
Tzn.
zmienna Y przyjmuje warto±¢ 1 z prawdo-
podobie«stwem p i warto±¢ 0 z prawdopodobie«stwem 1
p
= E (Y |X ) =
, Modele liniowe ...
− p.
( β)
1 + exp (X β)
exp X
Wykªad
2
4/35
Podstawy teoretyczne
Szansa (ang. odds) to funkcja prawdopodobie«stwa. Zamiast wyliczania klasycznego prawdopodobie«stwa, czyli stosunku liczby sukcesów do liczby wszystkich prób, wyliczamy stosunek prawdopodobie«stwa sukcesu do prawdopodobie«stwa pora»ki. Niech o oznacza
szans¦ oraz p prawdopodobie«stwo sukcesu. Wtedy:
o
=
p
=
, Modele liniowe ...
p
1
−p
o
1
+o
, o
∈ (0, ∞) →
, p
∈ (0, 1)
( ) ∈ (−∞, ∞)
log o
Wykªad
2
5/35
Podstawy teoretyczne
, Modele liniowe ...
Wykªad
2
6/35
Podstawy teoretyczne
, Modele liniowe ...
Wykªad
2
7/35
Podstawy teoretyczne
Funkcja logistyczna przyjmuje warto±ci od 0 do 1. Model mo»e
opisywa¢ warto±ci prawdopodobie«stwa, które s¡ zawsze zawarte
mi¦dzy 0 a 1.
Ksztaªt funkcji przypomina rozci¡gni¦t¡ liter¦ S. Pokazuje on, »e
zmiany funkcji s¡ minimalne, je±li warto±ci zmiennych s¡ mniejsze od pewnej warto±ci progowej. Gdy j¡ przekrocz¡, wówczas
warto±¢ funkcji zaczyna gwaªtownie rosn¡¢ do 1; prawdopodobie«stwo utrzymuje si¦ na wyj¡tkowo wysokim poziomie - blisko
1.
Poj¦cie warto±ci progowej jest cz¦sto u»ywane w badaniach medycznych i epidemiologicznych.
, Modele liniowe ...
Wykªad
2
8/35
Podstawy teoretyczne
Przykªad:
Anemi¦ zdiagnozowano u 80 na 100 pacjentów chorych na raka.
o
=
0.8
1
− 0.8
=
0.8
0.2
=4
Oznacza to, »e prawdopodobie«stwo wyst¡pienia anemii wsród
osób chorych na raka jest cztery razy wi¦ksze ni» prawdopodobie«stwo niepojawienia si¦ anemii.
, Modele liniowe ...
Wykªad
2
9/35
Podstawy teoretyczne
Regresja logistyczna wyra»a prawdopodobie«stwo jako szans¦ tzn:
( )
= exp (β0 + X1 β1 + . . . + Xn βn )
1 − P (X )
P X
Natomiast logarytm szans wynosi:
log
, Modele liniowe ...
( )
1 − P (X )
P X
= β0 + X1 β1 + . . . + Xn βn
Wykªad
2
10/35
Podstawy teoretyczne
exp
(βj ) >
1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj
dziaªa stymuluj¡co na mo»liwo±¢ wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w równaniu
exp
(βj ) <
1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj
dziaªa ograniczaj¡co na mo»liwo±¢ wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w równaniu
exp
(βj ) =
1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj
nie ma wpªywu na wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w
równaniu
, Modele liniowe ...
Wykªad
2
11/35
Podstawy teoretyczne
Iloraz szans (ang. odds ratio) stosuje si¦ w przypadku porównywania
dwóch klas obserwacji. Jest to iloraz szans, »e dane zdarzenie zajdzie
w pierwszej grupie elementów, oraz »e zajdzie ono równie» w drugiej.
Opisane jest wzorem:
OR
OR
>1
=
p1
1
− p1
·
1
− p2
p2
=
o1
o2
- zaj±cie zdarzenia jest bardziej prawdopodobne w gru-
pie nr 1
OR
<1
- zaj±cie zdarzenia jest bardziej prawdopodobne w gru-
pie nr 2
OR
=
1 - zaj±cie zdarzenia jest tak samo prawdopodobne w
grupie nr 1 i nr 2
, Modele liniowe ...
Wykªad
2
12/35
Podstawy teoretyczne
Przykªad:
Anemi¦ zdiagnozowano u 80 na 100 pacjentów chorych na raka
oraz u 20 na 100 zdrowych osób zdjagnozowano anemi¦.
o1
=
OR
1
=
0.8
0.8
=
=4
− 0.8
0.2
o1
o2
=
4
0.25
i o2
=
1
0.2
0.2
=
= 0.25
− 0.2
0.8
= 16
Oznacza to, »e jest szesnastokrotnie wi¦ksza szansa wyst¡pienia
anemii u ludzi chorych na raka ni» ludzi zdrowych.
, Modele liniowe ...
Wykªad
2
13/35
Podstawy teoretyczne
Zaªo»enia:
Zale»no±¢ mi¦dzy logarytmem szans a wektorem zmiennych obja±niaj¡cych musi by¢ liniowa.
Zmienna obja±niana musi by¢ binarna, gdzie poziom zakodowany jako 1 reprezentuje po»¡dany wynik (sukces).
Obserwacje musz¡ by¢ niezale»ne korzystamy z tego wyprowadzaj¡c posta¢ funkcji wiarygodno±ci.
Model musi by¢ dobrze dopasowany, to znaczy zawiera¢ tylko te
zmienne obja±niaj¡ce, które maj¡ wpªyw na zmienn¡ obja±nian¡,
oraz nie pomija¢ »adnej takiej zmiennej.
W danych nie mo»e wyst¦powa¢ silna wspóªliniowo±¢ jest ona
¹ródªem problemów numerycznych.
, Modele liniowe ...
Wykªad
2
14/35
Podstawy teoretyczne - Funkcja wiarygodno±ci
Zmienna zale»na Y jest binarna i dla pojedynczej obserwacji
zachodzi:
i | Xi =
Y
1, z prawdopodobie«stwem p (X1 )
0, z prawdopodobie«stwem 1
− p (X1 )
St¡d
( i , β)=P (Yi = 1|Xi )Y · P (Yi = 0|Xi )1−Y
=p (Xi )Y · [1 − p (Xi )]1−Y
i
L X
i
, Modele liniowe ...
i
i
Wykªad
2
15/35
Podstawy teoretyczne - Funkcja wiarygodno±ci
Zgodnie z zaªo»eniem o niezale»no±ci n zmiennych objasniaj¡cych
mamy
(
L X1
, . . . , Xn , β) =
n
Y
( i )Y · [1 − p (Xi )]1−Y
p X
i =1
i
i
Cz¦sto funkcj¦ wiarygodno±ci zast¦puje si¦ jej logarytmem, z uwagi
na ªatwiejsz¡ obliczeniowo posta¢:
( (
log L X1
, Modele liniowe ...
, . . . , Xn , β)) =
n
X
i =1
(Yi log p (Xi ) + (1 − Yi )log 1 − p (Xi ))
Wykªad
2
16/35
Podstawy teoretyczne - Testowanie hipotez
Statystyka dewiancji D:
D
= −2log (funkcja
wiarygodno±ci testowanego modelu
)
Hipotezy badawcze:
H0
: zbiór
H1
zmiennych w modelu jest nieistotny
: zbiór
zmiennych w modelu jest istotny
Statystyka testowa:
G
= −2log
, Modele liniowe ...
f. wiaryg. dla modelu z wyrazem wolnym
f. wiaryg. testowanego modelu
Wykªad
2
∼ χ2n
17/35
Podstawy teoretyczne - Testowanie hipotez
Hipotezy badawcze:
H0
: zmienna Xi
H1
nie jest istotna
: zmienna Xi
jest istotna
(βi = 0)
(βi 6= 0)
Statystyka testowa:
G
= −2log
, Modele liniowe ...
f. wiaryg. dla modelu bez zmiennej X
f. wiaryg. testowanego modelu
Wykªad
2
i
∼ χ21
18/35
Podstawy teoretyczne - Testowanie hipotez
Hipotezy badawcze:
H0
: zmienna Xi
H1
nie jest istotna
: zmienna Xi
jest istotna
(βi = 0)
(βi 6= 0)
Statystyka testowa:
W
=
βbi
∼ N (0, 1)
bi )
SE (β
Przedziaªy ufno±ci:
βbi ± SE (βbi ) · z1− α2
, Modele liniowe ...
Wykªad
2
19/35
Podstawy teoretyczne
Zmienne obja±niaj¡ce s¡ wspóªliniowe, gdy s¡ mocno skorelowane ze
sob¡.
Efekt ten wyra»any jest poprzez wspóªczynnik VIFi (ang. variance
ination factor), który pokazuje, o ile wariancje wspóªczynników s¡
zawy»one z powodu zale»no±ci liniowych w badanym modelu regresji.
Obliczamy go ze wzoru:
i=
VIF
1
1
− Ri2
,
2 jest wspóªczynnikiem wielokrotnej determinacji dla i-tej
gdzie Ri
zmiennej w modelu regresji liniowej.
Przyjmuje si¦, »e warto±¢ VIFi
> 10
wskazuje na obecno±¢
wspóªliniowo±ci w modelu.
, Modele liniowe ...
Wykªad
2
20/35
Przykªad analizy - Pakiet R
Zbiór danych skªada si¦ z 488 pacjentek pewnego szpitala
poªo»niczego w USA. B¦dziemy chcieli sprawdzi¢, czy pewne
zmienne, wpªywaj¡ na nisk¡ wag¦ noworodka. Zbiór danyc ma
nast¦pujac¡ struktur¦ kolumn:
numer identykacyjny pacjentki
numer porodu
czy pacjentka paliªa podczas ci¡»y (0 - Nie, 1 - Tak)
rasa (1 - biaªa, 2 - czarna, 3 - inna)
wiek matki (w latach)
, Modele liniowe ...
Wykªad
2
21/35
Przykªad analizy - Pakiet R
waga matki podczas ostatniej miesi¡czki (w funtach, 1 funt
= 0.45kg )
waga dziecka po porodzie (w gramach)
czy waga dziecka byªa za niska (0 - Nie, 1 - Tak (< 2500g ))
http://www.umass.edu/statdata/statdata/stat-logistic.html
, Modele liniowe ...
Wykªad
2
22/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
23/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
24/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
25/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
26/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
27/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
28/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
29/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
30/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
31/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
32/35
Przykªad analizy - Pakiet R
, Modele liniowe ...
Wykªad
2
33/35
Dzi¦kuj¦ za uwag¦
, Modele liniowe ...
Wykªad
2
34/35
Bibliograa
Joanna Giemza i Katarzyna Zwierzchowska Wprowadzenie do
modelu regresji logistycznej wraz z przykªadem zastosowania w
pakiecie statystycznym R do danych o pacjentach po
przeszczepie nerki'- praca magisterska na Uniwersytecie
Warszawskim Wydziaª Matematyki, Informatyki i Mechaniki
, Modele liniowe ...
Wykªad
2
35/35