Metody statystyczne w biologii - Wykład 8
Transkrypt
Metody statystyczne w biologii - Wykład 8
Metody statystyczne w biologii - Wykªad Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz¡t 8 Plan wykªadu Regresja logistyczna 1. Podstawy teoretyczne i przykªady zastosowania 2. Regresja logistyczna w pakiecie R 3. Testy statystyczne w pakiecie R , Modele liniowe ... Wykªad 2 2/35 Podstawy teoretyczne Model logistyczny zmienna zale»na przyjmuje dwie mo»liwe warto±ci 0 lub 1 np. czªowiek ma anemi¦, b¡d¹ nie mo»liwo±¢ modelowania prawdopodobie«stwa zdarzenia opisywanego przez zmienn¡ zale»n¡ w zale»no±ci od ró»nych zmiennych niezale»nych (zarówno jako±ciowych jak i ilo±ciowych) , Modele liniowe ... Wykªad 2 3/35 Podstawy teoretyczne Ogólna posta¢ modelu: Y ∼ B(1, p ) sukcesu p . - rozkªad dwumianowy z prawdopodobie«stwem Tzn. zmienna Y przyjmuje warto±¢ 1 z prawdo- podobie«stwem p i warto±¢ 0 z prawdopodobie«stwem 1 p = E (Y |X ) = , Modele liniowe ... − p. ( β) 1 + exp (X β) exp X Wykªad 2 4/35 Podstawy teoretyczne Szansa (ang. odds) to funkcja prawdopodobie«stwa. Zamiast wyliczania klasycznego prawdopodobie«stwa, czyli stosunku liczby sukcesów do liczby wszystkich prób, wyliczamy stosunek prawdopodobie«stwa sukcesu do prawdopodobie«stwa pora»ki. Niech o oznacza szans¦ oraz p prawdopodobie«stwo sukcesu. Wtedy: o = p = , Modele liniowe ... p 1 −p o 1 +o , o ∈ (0, ∞) → , p ∈ (0, 1) ( ) ∈ (−∞, ∞) log o Wykªad 2 5/35 Podstawy teoretyczne , Modele liniowe ... Wykªad 2 6/35 Podstawy teoretyczne , Modele liniowe ... Wykªad 2 7/35 Podstawy teoretyczne Funkcja logistyczna przyjmuje warto±ci od 0 do 1. Model mo»e opisywa¢ warto±ci prawdopodobie«stwa, które s¡ zawsze zawarte mi¦dzy 0 a 1. Ksztaªt funkcji przypomina rozci¡gni¦t¡ liter¦ S. Pokazuje on, »e zmiany funkcji s¡ minimalne, je±li warto±ci zmiennych s¡ mniejsze od pewnej warto±ci progowej. Gdy j¡ przekrocz¡, wówczas warto±¢ funkcji zaczyna gwaªtownie rosn¡¢ do 1; prawdopodobie«stwo utrzymuje si¦ na wyj¡tkowo wysokim poziomie - blisko 1. Poj¦cie warto±ci progowej jest cz¦sto u»ywane w badaniach medycznych i epidemiologicznych. , Modele liniowe ... Wykªad 2 8/35 Podstawy teoretyczne Przykªad: Anemi¦ zdiagnozowano u 80 na 100 pacjentów chorych na raka. o = 0.8 1 − 0.8 = 0.8 0.2 =4 Oznacza to, »e prawdopodobie«stwo wyst¡pienia anemii wsród osób chorych na raka jest cztery razy wi¦ksze ni» prawdopodobie«stwo niepojawienia si¦ anemii. , Modele liniowe ... Wykªad 2 9/35 Podstawy teoretyczne Regresja logistyczna wyra»a prawdopodobie«stwo jako szans¦ tzn: ( ) = exp (β0 + X1 β1 + . . . + Xn βn ) 1 − P (X ) P X Natomiast logarytm szans wynosi: log , Modele liniowe ... ( ) 1 − P (X ) P X = β0 + X1 β1 + . . . + Xn βn Wykªad 2 10/35 Podstawy teoretyczne exp (βj ) > 1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj dziaªa stymuluj¡co na mo»liwo±¢ wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w równaniu exp (βj ) < 1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj dziaªa ograniczaj¡co na mo»liwo±¢ wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w równaniu exp (βj ) = 1 - czynnik opisywany przez zmienn¡ niezale»n¡ Xj nie ma wpªywu na wyst¡pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl¦dnionych w równaniu , Modele liniowe ... Wykªad 2 11/35 Podstawy teoretyczne Iloraz szans (ang. odds ratio) stosuje si¦ w przypadku porównywania dwóch klas obserwacji. Jest to iloraz szans, »e dane zdarzenie zajdzie w pierwszej grupie elementów, oraz »e zajdzie ono równie» w drugiej. Opisane jest wzorem: OR OR >1 = p1 1 − p1 · 1 − p2 p2 = o1 o2 - zaj±cie zdarzenia jest bardziej prawdopodobne w gru- pie nr 1 OR <1 - zaj±cie zdarzenia jest bardziej prawdopodobne w gru- pie nr 2 OR = 1 - zaj±cie zdarzenia jest tak samo prawdopodobne w grupie nr 1 i nr 2 , Modele liniowe ... Wykªad 2 12/35 Podstawy teoretyczne Przykªad: Anemi¦ zdiagnozowano u 80 na 100 pacjentów chorych na raka oraz u 20 na 100 zdrowych osób zdjagnozowano anemi¦. o1 = OR 1 = 0.8 0.8 = =4 − 0.8 0.2 o1 o2 = 4 0.25 i o2 = 1 0.2 0.2 = = 0.25 − 0.2 0.8 = 16 Oznacza to, »e jest szesnastokrotnie wi¦ksza szansa wyst¡pienia anemii u ludzi chorych na raka ni» ludzi zdrowych. , Modele liniowe ... Wykªad 2 13/35 Podstawy teoretyczne Zaªo»enia: Zale»no±¢ mi¦dzy logarytmem szans a wektorem zmiennych obja±niaj¡cych musi by¢ liniowa. Zmienna obja±niana musi by¢ binarna, gdzie poziom zakodowany jako 1 reprezentuje po»¡dany wynik (sukces). Obserwacje musz¡ by¢ niezale»ne korzystamy z tego wyprowadzaj¡c posta¢ funkcji wiarygodno±ci. Model musi by¢ dobrze dopasowany, to znaczy zawiera¢ tylko te zmienne obja±niaj¡ce, które maj¡ wpªyw na zmienn¡ obja±nian¡, oraz nie pomija¢ »adnej takiej zmiennej. W danych nie mo»e wyst¦powa¢ silna wspóªliniowo±¢ jest ona ¹ródªem problemów numerycznych. , Modele liniowe ... Wykªad 2 14/35 Podstawy teoretyczne - Funkcja wiarygodno±ci Zmienna zale»na Y jest binarna i dla pojedynczej obserwacji zachodzi: i | Xi = Y 1, z prawdopodobie«stwem p (X1 ) 0, z prawdopodobie«stwem 1 − p (X1 ) St¡d ( i , β)=P (Yi = 1|Xi )Y · P (Yi = 0|Xi )1−Y =p (Xi )Y · [1 − p (Xi )]1−Y i L X i , Modele liniowe ... i i Wykªad 2 15/35 Podstawy teoretyczne - Funkcja wiarygodno±ci Zgodnie z zaªo»eniem o niezale»no±ci n zmiennych objasniaj¡cych mamy ( L X1 , . . . , Xn , β) = n Y ( i )Y · [1 − p (Xi )]1−Y p X i =1 i i Cz¦sto funkcj¦ wiarygodno±ci zast¦puje si¦ jej logarytmem, z uwagi na ªatwiejsz¡ obliczeniowo posta¢: ( ( log L X1 , Modele liniowe ... , . . . , Xn , β)) = n X i =1 (Yi log p (Xi ) + (1 − Yi )log 1 − p (Xi )) Wykªad 2 16/35 Podstawy teoretyczne - Testowanie hipotez Statystyka dewiancji D: D = −2log (funkcja wiarygodno±ci testowanego modelu ) Hipotezy badawcze: H0 : zbiór H1 zmiennych w modelu jest nieistotny : zbiór zmiennych w modelu jest istotny Statystyka testowa: G = −2log , Modele liniowe ... f. wiaryg. dla modelu z wyrazem wolnym f. wiaryg. testowanego modelu Wykªad 2 ∼ χ2n 17/35 Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H0 : zmienna Xi H1 nie jest istotna : zmienna Xi jest istotna (βi = 0) (βi 6= 0) Statystyka testowa: G = −2log , Modele liniowe ... f. wiaryg. dla modelu bez zmiennej X f. wiaryg. testowanego modelu Wykªad 2 i ∼ χ21 18/35 Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H0 : zmienna Xi H1 nie jest istotna : zmienna Xi jest istotna (βi = 0) (βi 6= 0) Statystyka testowa: W = βbi ∼ N (0, 1) bi ) SE (β Przedziaªy ufno±ci: βbi ± SE (βbi ) · z1− α2 , Modele liniowe ... Wykªad 2 19/35 Podstawy teoretyczne Zmienne obja±niaj¡ce s¡ wspóªliniowe, gdy s¡ mocno skorelowane ze sob¡. Efekt ten wyra»any jest poprzez wspóªczynnik VIFi (ang. variance ination factor), który pokazuje, o ile wariancje wspóªczynników s¡ zawy»one z powodu zale»no±ci liniowych w badanym modelu regresji. Obliczamy go ze wzoru: i= VIF 1 1 − Ri2 , 2 jest wspóªczynnikiem wielokrotnej determinacji dla i-tej gdzie Ri zmiennej w modelu regresji liniowej. Przyjmuje si¦, »e warto±¢ VIFi > 10 wskazuje na obecno±¢ wspóªliniowo±ci w modelu. , Modele liniowe ... Wykªad 2 20/35 Przykªad analizy - Pakiet R Zbiór danych skªada si¦ z 488 pacjentek pewnego szpitala poªo»niczego w USA. B¦dziemy chcieli sprawdzi¢, czy pewne zmienne, wpªywaj¡ na nisk¡ wag¦ noworodka. Zbiór danyc ma nast¦pujac¡ struktur¦ kolumn: numer identykacyjny pacjentki numer porodu czy pacjentka paliªa podczas ci¡»y (0 - Nie, 1 - Tak) rasa (1 - biaªa, 2 - czarna, 3 - inna) wiek matki (w latach) , Modele liniowe ... Wykªad 2 21/35 Przykªad analizy - Pakiet R waga matki podczas ostatniej miesi¡czki (w funtach, 1 funt = 0.45kg ) waga dziecka po porodzie (w gramach) czy waga dziecka byªa za niska (0 - Nie, 1 - Tak (< 2500g )) http://www.umass.edu/statdata/statdata/stat-logistic.html , Modele liniowe ... Wykªad 2 22/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 23/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 24/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 25/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 26/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 27/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 28/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 29/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 30/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 31/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 32/35 Przykªad analizy - Pakiet R , Modele liniowe ... Wykªad 2 33/35 Dzi¦kuj¦ za uwag¦ , Modele liniowe ... Wykªad 2 34/35 Bibliograa Joanna Giemza i Katarzyna Zwierzchowska Wprowadzenie do modelu regresji logistycznej wraz z przykªadem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki'- praca magisterska na Uniwersytecie Warszawskim Wydziaª Matematyki, Informatyki i Mechaniki , Modele liniowe ... Wykªad 2 35/35