Materiały.
Transkrypt
Materiały.
METODY PORÓWNYWANIA MODELI W ANALIZIE DANYCH DOŚWIADCZALNYCH Kryterium Informacji Akaike Kryterium Informacji Bayesa Oliwia Szklarczyk Opiekun: prof. dr hab. Jan Antosiewicz Zakres teorii • Teoria kategoryzacji • Rozmyte granice kategorii • Zakres i rozgraniczenie teorii w obecnym stanie nauk poznawczych stają się problemem • Porównanie zakresów i granic teorii jest moŜliwe, jeśli modele mają części wspólne Ogólne kryteria opisujące modele • Stopień fałszywości • Umiejętność wyjaśnienia badanego mechanizmu • MoŜliwość interpretacji modelu • Powtarzalność • Dokładność dopasowania do danych doświadczalnych • ZłoŜoność • Ogólność Dokładność dopasowania do danych doświadczalnych • Mierzymy w doświadczeniu sumę sygnału i szumu, więc nie znamy tych wartości z osobna • Dokładne dopasowanie do danych niekoniecznie jest dobrym dopasowaniem do regularności ZłoŜoność • Liczba parametrów • Forma teorii • Zbyt skomplikowany model moŜe zwiększać dopasowanie do danych, ale niekoniecznie odzwierciedla badaną regularność Ogólność • Occam’s razor: Model, który opisuje dane doświadczalne • wystarczająco dokładnie i jest najprostszy, jest najlepszym modelem • Przewidywalność teorii • W ujęciu statystycznym jest to średnia rozbieŜność między prawdą a badanym modelem, uśredniona po wszystkich moŜliwych wynikach Opis modelu • MODEL – sparametryzowana rodzina funkcji rozkładów prawdopodobieństw • Próba y = (y1, …, yn) • KaŜdy model określony przez wektor parametrów θ = (θ1, …, θk) • Funkcja gęstości prawdopodobieństwa f (y|θ) równowaŜna wiarygodności modelu L (θ) • Szukając najodpowiedniejszego modelu – maksymalizujemy funkcję L (θ) względem θ → L (θ*) (procedura MLE), co odpowiada dokładności dopasowania MLE Maximum Likelihood Estimation • Funkcja wiarygodności L (Likelihood) a funkcja gęstości prawdopodobieństwa f L(θ | x1 ,..., x n ) = f θ (x1 ,..., x n | θ) • Na przykład dla rozkładu dwumianowego: n i yi L(θ ) = ∏ θ i (1 − θ i ) ni − yi i =1 y i k • MLE – estymator największej wiarygodności parametru θ MLE (θ) = θ* • Oszacowanie największej wiarygodności funkcji parametru θ g* (θ) = g (θ*) Metody tradycyjne Testowanie hipotez • Test F tradycyjne testowanie hipotez • ANOVA (ANalysis Of VAriance) • Hipoteza zerowa (model prostszy) i hipoteza alternatywna (model skomplikowany) • Analiza róŜnic RSS oraz DF (ilość stopni swobody) obu modeli (RSSzer − RSS )/RSS alt alt RatioF = (DFzer − DF )/DF alt alt • RatioF ≈ 1 oznacza akceptację hipotezy zerowej, a wszelkie odstępstwa wynikają z przypadkowości Metody tradycyjne Testowanie hipotez • Ustalenie poziomu istotności α = 0.05 (dopuszczalne prawdopodobieństwo podjęcia błędnej decyzji) • Obliczenie wartości P na podstawie n, DFzer, DFalt (z tablic) • P>α → prostszy model jest lepszy • P<α → prostszy model jest gorszy → prostszy model jest lepszy, ale przypadkowy rozrzut był tak duŜy, Ŝe preferowanym modelem jest model bardziej skomplikowany • Np. P = 3.5% → prawdopodobieństwo, Ŝe odstępstwa od modelu prostszego są wynikiem przypadku, wynosi tylko 3.5% Dlaczego odchodzi się od metod tradycyjnych? TESTOWANIE HIPOTEZ METODY OPARTE NA TEORII INFORMACJI ZałoŜenie istnienia hipotezy prawdziwej Porównywanie modeli między sobą w sposób ilościowy Odgórna wartość α, która ma decydujący wpływ na naszą decyzję KaŜdy model ma pewną wagę, sami decydujemy Modele zagnieŜdŜone Modele zagnieŜdŜone i nie zagnieŜdŜone Ilość testowanych hipotez: 2 Ilość porównywanych modeli: wiele Metody oparte na teorii informacji Informacja Kullbacka – Leiblera • Ilościowy opis pojęcia informacji • Utrata informacji o rzeczywistym mechanizmie zjawiska f(x) I(f, g) = ∫ f(x)log dx g(x | θ) • I (f, g) = 0 model idealnie odzwierciedlający rzeczywistość • Minimalizacja I (f, g) względem g najlepszy model • Wymaga dokładnej znajomości prawdy i parametrów operowanie wartościami oczekiwanymi I(f, g) = ∫ f(x)log(f(x) )dx − ∫ f(x)log(g(x | θ) )dx I(f, g) = E f [log(f(x))] − E f [log(g(x | θ))] I(f, g) = const − E f [log(g(x | θ))] Metody oparte na teorii informacji AIC Akaike Information Criterion • Minimalizacja oszacowanej (n. p. poprzez metodę ML) odległości Kullbacka-Leiblera f(x) I * (f, g) = ∫ f(x)log dx g(x | θ*) • Przesunięcie o K względem log (L(θ*|y)) log( L(θˆ | y )) − K = const − Eˆ [ Iˆ( f , g )] θˆ • Ostatecznie: AIC = −2 log( L (θˆ | y )) + 2 K • Brak odniesienia do nieznanej prawdy; porównujemy modele między sobą, nie zakładając istnienia tego prawdziwego Metody oparte na teorii informacji AIC Akaike Information Criterion • AIC drugiego stopnia dla małych prób AIC = n log( RSS / n) + 2 K + 2 K ( K + 1) n − K −1 AICc = n log( RSS / n) + 2 K + 2 K ( K + 1) n − K −1 • Porównanie tylko modeli między sobą =0 najlepszy model 0 ÷ 2 bardzo dobre ∆i = AICi - AICmin 4 ÷ 7 znacznie gorsze > 10 zasadniczo do odrzucenia • Wagi Akaike exp(−∆ i /2) w= R ∑ exp(−∆ r /2) r =1 Metody oparte na twierdzeniu Bayesa • Niech: Wtedy: n X ⊂ U Tj ∧ Ti Tj = ∅, i ≠ j j=1 P(T | X) = P(T)P(X | T) ∫ P(T)P(X | T)dT • Prawdopodobieństwo teorii T, przy obserwacji X • Określenie prawdopodobieństw „początkowych” oraz „końcowych” • Czynnik Bayesa – przewaga jednego modelu nad drugim Bij = P(Ti | X) P(Tj | X) Metody oparte na twierdzeniu Bayesa BIC • PrzybliŜenie log czynnika Bayesa • Ostateczna postać BIC = −2log(L(θ̂ | y)) + Klog(n) BIC = n log( RSS / n) + K log(n) • ∆i = BICi - BICmin • Wagi w= exp(−∆ i /2) R ∑ exp(−∆ r /2) r =1 • Większe kary za złoŜoność modelu Przykłady zastosowania kryteriów wyboru modelu • Model kinetyki przenikania 2’,3’-dideoksyinozyny (ddI) przez skórę właściwą • Modele kinetyki wiązania się 7-metyloGuanozynomonofosforanu (7-mGMP) do białka eIF4E badane metodą spektroskopii zatrzymanego przepływu Przenikanie ddI przez skórę właściwą Trzy warstwy w skórze istotne dla przenikania leku: • Warstwa rogowa → największa bariera dla przenikających cząsteczek • Naskórek → zróŜnicowana poziomowo warstwa produkująca naskórek; jest przeszkodą jedynie dla cząsteczek silnie wiąŜących się z lipidami • Skóra właściwa → unaczyniona część skóry; rejon absorpcji leków przez krew i naczynia limfatyczne Przenikanie ddI przez skórę właściwą • Badanie stęŜenia leku w zaleŜności od głębokości tkanki C (x) • Sporządzono preparaty tkankowe po 6 godzinach od podania ddI na skórę • Analiza preparatów poprzez technikę HPLC • Model prostej dyfuzji (przyjęty przy przenikaniu przez nie unaczynione warstwę rogową i naskórek) C x = C0 − k 0 x • Model rozproszony (zaproponowany dla przenikania przez unaczynioną skórę właściwą) 0,693x + C b C x = (C0 − C b )exp − w 1/2 Przenikanie ddI przez skórę właściwą Kryteria wyboru modelu: • Współczynnik determinacji R R - współczynnik korelacji R 2 ∈ [0,1] → korelacja między wielkością zmierzoną a przewidzianą przez model • AIC • BIC 2 Przenikanie ddI przez skórę właściwą • Zaobserwowano wykładniczy spadek stęŜenia leku ddI w zaleŜności od głębokości tkanki (80% obniŜenie poziomu leku w skórze właściwej) • Otrzymane z modelu rozproszonego parametry: w1/2 = (386 +/- 118) µm C0 = 2,46 mg/g Cb = 0,29 mg/g Wiązanie się 7-mGMP do eIF4E • Białko eIF4E wiąŜe się z capem 5’ – mRNA → czynnik inicjacyjny translacji u organizmów eukariotycznych • Kinetyka asocjacji na podstawie pomiaru fluorescencji w spektroskopie zatrzymanego przepływu • Program DynaFit • Pytanie o sensowność metod AIC oraz BIC: jak bardzo stosowane kryteria dyskryminacji modeli karzą za ilość parametrów? Wiązanie się 7-mGMP do eIF4E E+L <==> K kael kdel E+L <==> K kael kdel K <==> C kkc kck E+L <==> K kael kdel K <==> C kkc kck C <==> D kkd kdk E+L <==> K kael kdel K <==> C kkc kck C <==> D kkd kdk D <==> F kkf kfk E+L <==> K kael kdel K <==> C kkc kck C <==> D kkd kdk D <==> F kkf kfk F <==> G kkg kgk Wiązanie się 7-mGMP do eIF4E Wnioskowanie na podstawie wielu modeli • Uśrednianie modeli R θ * = ∑ w iθ * i i =1 • θ*i – parametr θ oszacowany na podstawie modelu gi • Estymator „bezwarunkowej” wariancji dla MLE θ* R var* (θ *) = [ ∑ wi [var* (θ *i | g i ) + (θ *i −θ *) 2 ]]2 i =1 • Warunkowa wariancja obserwacji • var * (θ *i | g i ) 2 (θ * − θ *) Niepewność wyboru modelu i Literatura • J. I. Muyng, M. A. Pitt Model Comparison Methods • E. Błachut-Okrasińska, E. Bojarska, J. Stępiński, J. M. Antosiewicz Kinetics of binding the mRNA Cap Analogues to the Translation Initiation Factor eIF4E Under Second-Order Reaction Conditions • P. Kuzmic et al. Mixed-type noncompetetive inhibition of anthrax lethal factor protease by aminoglycosides • E. Gupta, M. G. Wientjes, J. Au Penetration Kinetics of 2’,3’Dideoxyinosine in Dermis Is Described by the Distributed Model • K. P. Burnham, D. R. Anderson Multimodel Interference: Understanding AIC and BIC in Model Selection • L. Wasserman Bayesian Model Selection and Model Averaging • J. E. Cutting Accuracy, Scope and Flexibility of Models • W. Zucchini An Introduction to Model Selection • H. Motulsky, A. Christopoulus Fitting Models to Biological Data using Linear and Nonlinear Regression Dziękuję za uwagę