Materiały.

Transkrypt

Materiały.

METODY PORÓWNYWANIA
MODELI
W ANALIZIE DANYCH
DOŚWIADCZALNYCH
Kryterium Informacji Akaike
Kryterium Informacji Bayesa
Oliwia Szklarczyk
Opiekun: prof. dr hab. Jan Antosiewicz
Zakres teorii
• Teoria kategoryzacji
• Rozmyte granice kategorii
• Zakres i rozgraniczenie teorii w obecnym
stanie nauk poznawczych stają się problemem
• Porównanie zakresów i granic teorii jest
moŜliwe, jeśli modele mają części wspólne
Ogólne kryteria opisujące modele
•
Stopień fałszywości
•
Umiejętność wyjaśnienia badanego mechanizmu
•
MoŜliwość interpretacji modelu
•
Powtarzalność
•
Dokładność dopasowania do danych doświadczalnych
•
ZłoŜoność
•
Ogólność
Dokładność dopasowania do danych
doświadczalnych
• Mierzymy w doświadczeniu sumę sygnału i szumu, więc nie
znamy tych wartości z osobna
• Dokładne dopasowanie do danych niekoniecznie jest dobrym
dopasowaniem do regularności
ZłoŜoność
• Liczba parametrów
• Forma teorii
• Zbyt skomplikowany model
moŜe zwiększać dopasowanie
do danych, ale niekoniecznie
odzwierciedla badaną
regularność
Ogólność
• Occam’s razor: Model, który opisuje dane doświadczalne
• wystarczająco dokładnie i jest najprostszy, jest najlepszym modelem
• Przewidywalność teorii
• W ujęciu statystycznym jest to średnia rozbieŜność między prawdą a
badanym modelem, uśredniona po wszystkich moŜliwych wynikach
Opis modelu
• MODEL – sparametryzowana rodzina funkcji rozkładów
prawdopodobieństw
• Próba
y = (y1, …, yn)
• KaŜdy model określony przez wektor parametrów
θ = (θ1, …, θk)
• Funkcja gęstości prawdopodobieństwa f (y|θ) równowaŜna
wiarygodności modelu L (θ)
• Szukając najodpowiedniejszego modelu – maksymalizujemy funkcję
L (θ) względem θ → L (θ*) (procedura MLE), co odpowiada
dokładności dopasowania
MLE
Maximum Likelihood Estimation
• Funkcja wiarygodności L (Likelihood) a funkcja gęstości
prawdopodobieństwa f
L(θ | x1 ,..., x n ) = f θ (x1 ,..., x n | θ)
• Na przykład dla rozkładu dwumianowego:
 n i  yi
L(θ ) = ∏  θ i (1 − θ i ) ni − yi
i =1  y i 
k
• MLE – estymator największej wiarygodności parametru θ
MLE (θ) = θ*
• Oszacowanie największej wiarygodności funkcji parametru θ
g* (θ) = g (θ*)
Metody tradycyjne
Testowanie hipotez
•
Test F tradycyjne testowanie hipotez
•
ANOVA (ANalysis Of VAriance)
•
Hipoteza zerowa (model prostszy) i hipoteza alternatywna (model
skomplikowany)
•
Analiza róŜnic RSS oraz DF (ilość stopni swobody) obu modeli
(RSSzer − RSS )/RSS
alt
alt
RatioF =
(DFzer − DF )/DF
alt
alt
•
RatioF ≈ 1 oznacza akceptację hipotezy zerowej, a wszelkie odstępstwa
wynikają z przypadkowości
Metody tradycyjne
Testowanie hipotez
• Ustalenie poziomu istotności α = 0.05 (dopuszczalne
prawdopodobieństwo podjęcia błędnej decyzji)
• Obliczenie wartości P na podstawie n, DFzer, DFalt
(z tablic)
• P>α
→ prostszy model jest lepszy
• P<α
→ prostszy model jest gorszy
→ prostszy model jest lepszy, ale przypadkowy rozrzut był
tak duŜy, Ŝe preferowanym modelem jest model bardziej skomplikowany
• Np. P = 3.5% → prawdopodobieństwo, Ŝe odstępstwa od modelu
prostszego są wynikiem przypadku, wynosi tylko 3.5%
Dlaczego odchodzi się
od metod tradycyjnych?
TESTOWANIE HIPOTEZ
METODY OPARTE NA TEORII
INFORMACJI
ZałoŜenie istnienia hipotezy
prawdziwej
Porównywanie modeli między
sobą w sposób ilościowy
Odgórna wartość α, która ma
decydujący wpływ na naszą
decyzję
KaŜdy model ma pewną wagę,
sami decydujemy
Modele zagnieŜdŜone
Modele zagnieŜdŜone i nie
zagnieŜdŜone
Ilość testowanych hipotez:
2
Ilość porównywanych modeli:
wiele
Metody oparte na teorii informacji
Informacja Kullbacka – Leiblera
• Ilościowy opis pojęcia informacji
• Utrata informacji o rzeczywistym mechanizmie zjawiska
 f(x) 
I(f, g) = ∫ f(x)log
dx
 g(x | θ) 
• I (f, g) = 0 model idealnie odzwierciedlający rzeczywistość
• Minimalizacja I (f, g) względem g najlepszy model
• Wymaga dokładnej znajomości prawdy i parametrów operowanie
wartościami oczekiwanymi
I(f, g) = ∫ f(x)log(f(x) )dx − ∫ f(x)log(g(x | θ) )dx
I(f, g) = E f [log(f(x))] − E f [log(g(x | θ))]
I(f, g) = const − E f [log(g(x | θ))]
AIC
Akaike Information Criterion
• Minimalizacja oszacowanej (n. p. poprzez metodę ML) odległości
Kullbacka-Leiblera
 f(x) 
I * (f, g) = ∫ f(x)log
dx
 g(x | θ*) 
• Przesunięcie o K względem log (L(θ*|y))
log( L(θˆ | y )) − K = const − Eˆ [ Iˆ( f , g )]
θˆ
• Ostatecznie:
AIC = −2 log( L (θˆ | y )) + 2 K
• Brak odniesienia do nieznanej prawdy; porównujemy modele
między sobą, nie zakładając istnienia tego prawdziwego
AIC
Akaike Information Criterion
• AIC drugiego stopnia dla małych prób
AIC = n log( RSS / n) + 2 K +
2 K ( K + 1)
n − K −1
AICc = n log( RSS / n) + 2 K +
2 K ( K + 1)
n − K −1
• Porównanie tylko modeli między sobą
=0
najlepszy model
0 ÷ 2 bardzo dobre
∆i = AICi - AICmin
4 ÷ 7 znacznie gorsze
> 10
zasadniczo do odrzucenia
• Wagi Akaike
exp(−∆ i /2)
w=
R
∑ exp(−∆ r /2)
r =1
Metody oparte na twierdzeniu Bayesa
• Niech:
Wtedy:
n
X ⊂ U Tj ∧ Ti Tj = ∅, i ≠ j
j=1
P(T | X) =
P(T)P(X | T)
∫ P(T)P(X | T)dT
• Prawdopodobieństwo teorii T, przy obserwacji X
• Określenie prawdopodobieństw „początkowych” oraz „końcowych”
• Czynnik Bayesa – przewaga jednego modelu nad drugim
Bij =
P(Ti | X)
P(Tj | X)
Metody oparte na twierdzeniu Bayesa
BIC
• PrzybliŜenie log czynnika Bayesa
• Ostateczna postać
BIC = −2log(L(θ̂ | y)) + Klog(n)
BIC = n log( RSS / n) + K log(n)
• ∆i = BICi - BICmin
• Wagi
w=
exp(−∆ i /2)
R
∑ exp(−∆ r /2)
r =1
• Większe kary za złoŜoność modelu
Przykłady zastosowania kryteriów
wyboru modelu
• Model kinetyki przenikania 2’,3’-dideoksyinozyny (ddI) przez skórę
właściwą
• Modele kinetyki wiązania się 7-metyloGuanozynomonofosforanu
(7-mGMP) do białka eIF4E badane metodą spektroskopii
zatrzymanego przepływu
Przenikanie ddI przez skórę właściwą
Trzy warstwy w skórze istotne dla przenikania leku:
• Warstwa rogowa → największa bariera dla przenikających cząsteczek
• Naskórek → zróŜnicowana poziomowo warstwa produkująca
naskórek; jest przeszkodą jedynie dla cząsteczek silnie wiąŜących
się z lipidami
• Skóra właściwa →
unaczyniona część
skóry; rejon absorpcji
leków przez krew
i naczynia limfatyczne
• Badanie stęŜenia leku w zaleŜności
od głębokości tkanki C (x)
• Sporządzono preparaty tkankowe po
6 godzinach od podania ddI na skórę
• Analiza preparatów poprzez technikę
HPLC
• Model prostej dyfuzji (przyjęty przy
przenikaniu przez nie unaczynione
warstwę rogową i naskórek)
C x = C0 − k 0 x
• Model rozproszony (zaproponowany dla przenikania przez unaczynioną
skórę właściwą)
 0,693x 
 + C b
C x = (C0 − C b )exp −
 w 1/2 
Kryteria wyboru modelu:
• Współczynnik determinacji R
R - współczynnik korelacji
R 2 ∈ [0,1] → korelacja
między wielkością zmierzoną
a przewidzianą przez model
• AIC
• BIC
2
•
Zaobserwowano wykładniczy spadek stęŜenia leku ddI w zaleŜności od głębokości tkanki
(80% obniŜenie poziomu leku w skórze właściwej)
•
Otrzymane z modelu rozproszonego parametry:
w1/2 = (386 +/- 118) µm
C0 = 2,46 mg/g
Cb = 0,29 mg/g
Wiązanie się 7-mGMP do eIF4E
•
Białko eIF4E wiąŜe się z capem 5’
– mRNA → czynnik inicjacyjny
translacji u organizmów
eukariotycznych
•
Kinetyka asocjacji na podstawie
pomiaru fluorescencji w
spektroskopie zatrzymanego
przepływu
•
Program DynaFit
•
Pytanie o sensowność metod AIC
oraz BIC: jak bardzo stosowane
kryteria dyskryminacji modeli
karzą za ilość parametrów?
E+L
<==>
K
kael
kdel
E+L
<==>
K
kael
kdel
K
<==>
C
kkc
kck
E+L
<==>
K
kael
kdel
K
<==>
C
kkc
kck
C
<==>
D
kkd
kdk
E+L
<==>
K
kael
kdel
K
<==>
C
kkc
kck
C
<==>
D
kkd
kdk
D
<==>
F
kkf
kfk
E+L
<==>
K
kael
kdel
K
<==>
C
kkc
kck
C
<==>
D
kkd
kdk
D
<==>
F
kkf
kfk
F
<==>
G
kkg
kgk
Wnioskowanie na podstawie wielu modeli
• Uśrednianie modeli
R
θ * = ∑ w iθ * i
i =1
• θ*i – parametr θ oszacowany na podstawie modelu gi
• Estymator „bezwarunkowej” wariancji dla MLE θ*
R
var* (θ *) = [ ∑ wi [var* (θ *i | g i ) + (θ *i −θ *) 2 ]]2
i =1
• Warunkowa wariancja obserwacji
•
var * (θ *i | g i )
2
(θ
*
−
θ
*)
Niepewność wyboru modelu
i
Literatura
• J. I. Muyng, M. A. Pitt Model Comparison Methods
• E. Błachut-Okrasińska, E. Bojarska, J. Stępiński, J. M. Antosiewicz
Kinetics of binding the mRNA Cap Analogues to the Translation
Initiation Factor eIF4E Under Second-Order Reaction Conditions
• P. Kuzmic et al. Mixed-type noncompetetive inhibition of anthrax
lethal factor protease by aminoglycosides
• E. Gupta, M. G. Wientjes, J. Au Penetration Kinetics of 2’,3’Dideoxyinosine in Dermis Is Described by the Distributed Model
• K. P. Burnham, D. R. Anderson Multimodel Interference:
Understanding AIC and BIC in Model Selection
• L. Wasserman Bayesian Model Selection and Model Averaging
• J. E. Cutting Accuracy, Scope and Flexibility of Models
• W. Zucchini An Introduction to Model Selection
• H. Motulsky, A. Christopoulus Fitting Models to Biological Data
using Linear and Nonlinear Regression
Dziękuję za uwagę

Materiały.

Transkrypt

Podobne dokumenty

ZESTAW II „Wyrażenia algebraiczne” 1. Średnia płaca w zakładzie

Tematy prac kontrolnych z matematyki dla kl. III

Lista zadań nr 9

Zadanie Dla jakich liczby: 1, log 2 1 , 25 w podanej

KOMPUTERY – POZIOM ZAAWANSOWANY

MATEMATYKA DYSKRETNA Lista 5 (Asymptotyka funkcji liczbowych)

WSISiZ, Egzamin — Algorytmy i Struktury Danych, Imię i Nazwisko

Zadanie 1. (1 pkt) Liczba jest równa A) 1 B) √3 − 3 C) 0,25 ∙ (√3 − 3

instrukcja