zastosowanie metody bayesowskiej w analizie rodzin dysmutaz pon

Transkrypt

zastosowanie metody bayesowskiej w analizie rodzin dysmutaz pon
Stanisław Dunin-Horkawicz
METODA BAYESOWSKA W FILOGENETYCE
Fragment wstępu do pracy magisterskiej Pt. „Rekonstrukcja filogenezy dwóch rodzin dysmutaz
ponadtlenkowych (SOD)” Uniwersytet Warszawski, Wydział Biologii, Warszawa, marzec 2007
Opis oparty został głównie o prace (Brown 2003), (Huelsenbeck et. al. 2001) i (Holder, Lewis
2003) oraz te, do których referencje zawarte są w podrozdziale. Szczegółowe przedstawienie
wszystkich aspektów metody bayesowskiej przekracza znacznie zakres tej pracy; autor miał na celu
przedstawić zwięzłą i znacząca z punktu widzenia biologa charakterystykę problemu.
Modele a hipoteza
W analizie ML, bayesowskiej, ale i w metodach odległościowych (chociaż w sposób niejawny)
obecne są modele opisujące ewolucję sekwencji: GTR i jego pochodne, gamma, model inwariantny.
Wartości wszystkich parametrów wymienionych powyżej modeli wraz z wartościami opisującymi
drzewo (topologia i długości gałęzi) razem stanowią hipotezę. Metoda bayesowska ma na celu
przeszukanie wielu wariantów hipotez w celu odnalezienia takich, które najlepiej opisują
analizowane dane.
Metoda Bayesowska
Teoria Bayesa (wielebny Thomas Bayes 1702-1761, angielski duchowny i matematyk) mówi o
szacowaniu prawdopodobieństwa zdarzenia z uwzględnieniem zarówno prawdopodobieństwa a
priori (przed obserwacją) zdarzenia jak i posiadanych danych. Teoria ta zapoczątkowała dział
statystyki, zapomniany i zaniedbywany przez całe stulecia a ostatnio zyskujący bardzo na
popularności, również w badaniach filogenezy. Wyobraźmy sobie przestrzeń, w której zawarte są
dwa obszary A i B (zdarzenia), które posiadają pewną część wspólną. Obszar wspólny określa
sytuację, w której zdarzenia A i B zachodzą równocześnie:
[1] Pr(A,B) = Pr(B,A)
Równanie [1] mówi, że prawdopodobieństwo (Pr) występowania równocześnie zdarzenia A i B jest
identyczne z prawdopodobieństwem równoczesnego wystąpienia B i A.
1
Używając przekształceń teorii prawdopodobieństwa wyrażenie [1] może przybrać postać
warunkową [2]:
[2] Pr(A,B) = Pr(A)*Pr(B|A)
Równanie [2] oznacza, że równoczesne zachodzenie zdarzeń A i B jest równoznaczne z
prawdopodobieństwem zajścia zdarzenia A przemnożonego przez warunkowe (tylko wtedy, kiedy
zaszło zdarzenie A) prawdopodobieństwo zajścia zdarzenia B. Skoro Pr(A,B)=Pr(B,A) [1], to
prawdziwe jest równanie [3]:
[3] Pr(A)*Pr(B|A) = Pr(B) * Pr(A|B),
które po przekształceniu daje równanie Bayesa [4]:
[4] Pr(B|A) = Pr(B) * Pr(A|B) / Pr(A)
Równanie [4] nabiera sensu w znaczeniu biologicznym, gdy za prawdopodobieństwa A i B
podstawimy dane (np. przyrównanie sekwencji, czy inną matrycę) i hipotezę (topologia drzewa
opisującego to przyrównanie i parametry modelu):
[5] Pr(hipoteza|dane) = Pr(hipoteza) * Pr(dane|hipoteza) / Pr(dane)
Lewą stronę równania [5] - Pr(hipoteza|dane) - czytamy jako prawdopodobieństwo prawdziwości
hipotezy (H) dla danych (D). Innymi słowy jest to prawdopodobieństwo a posteriori, że dana
hipoteza jest prawdziwa - miara zgodności obserwowanych danych z hipotezą (modelem). Na
prawą stronę równania składają się Pr(hipoteza), czyli prawdopodobieństwo a priori prawdziwości
hipotezy. Ten współczynnik jest miarą wiedzy (lub ignorancji) o obserwowanym zjawisku, a jego
wartość jest ustalana przed obserwacją danych. Pr(dane|hipoteza), czyli wiarygodność, ma zupełnie
inne znaczenie niż prawdopodobieństwo a posteriori. Wiarygodność może być rozumiana jako
prawdopodobieństwo prawdziwości danych dla danej hipotezy, czyli ma znacznie niejako
odwrotne. Pr(dane) jest rozumiane, jako prawdopodobieństwo danych dla modelu. W przypadku
analiz filogenetycznych jest to wartość mająca na celu przeskalowanie wyniku całego równania do
wartości z zakresu 0-1.
2
Rys 1. (za zgodą autora) (Brown 2003)
Typy dystrybucji prawdopodobieństw a priori (czerwone linie) w kontekście dystrybucji prawdopodobieństw a
posteriori. A: dystrybucja informatywna, nadająca wagi określonym przedziałom wyniku. C: Dystrybucja
prawdopodobieństw a priori nieinformatywna płaska. C: Dystrybucja prawdopodobieństw a priori
nieinformatywna, dodatkowo niwelująca wpływ swojej obecności.
Istotnym elementem metody bayesowskiej jest prawdopodobieństwo a priori. Przykładem
obrazującym to pojęcie jest eksperyment rzucania monetą. Naukowiec, który spędził większość
swojego życia na rzutach monetą może powiedzieć: „Moje odczucie jest takie, że
prawdopodobieństwo a priori, że w następnym rzucie uzyskam reszkę wynosi 0.49”. Oczywiście
inna osoba (np. oszust operujący odpowiednio przygotowaną monetą, która ma nierówną skłonność
do upadania na dwie różne strony) może mieć inne doświadczenia, tak więc jest to subiektywna
wartość określająca stan wiedzy na dany temat. Zgodnie z równaniem [5] prawdopodobieństwo a
priori wpływa na wartość prawdopodobieństwa a posteriori, jednakże znaczenie tego wpływu
maleje wraz z rosnącą ilością danych. Prawdopodobieństwa a priori zazwyczaj nie przyjmują
konkretnych wartości, ale są przedstawione w postaci dystrybucji wartości. Podstawowym
podziałem typów dystrybucji prawdopodobieństwa a priori, jest podział na dystrybucje
informatywne i nieinformatywne. Dystrybucje informatywne (Rys. 1A) wprowadzają do analizy
dane
wpływające
na
wynik
funkcji
prawdopodobieństwa
a
posteriori.
Dystrybucje
nieinformatywne nie wpływają na wynik; typowym przykładem nieinformatywnej dystrybucji jest
dystrybucja płaska (Rys. 1B) - wszystkie wartości parametru hipotezy są równie prawdopodobne a
priori. Istnieją różne typy dystrybucji, rozróżniane ze względu na typ danych, których dotyczą. Np.
Prawdopodobieństwa a priori dla danych binominalnych (rzut monetą, brak/obecność cechy itp.)
modelowane są zgodnie z dystrybucja Beta(alfa, beta). Parametry alfa i beta określają kształt
dystrybucji i są wystarczające do określenia rozkładów z Rys 1. Dane wielonominalne nie mogą
być wyrażone w postaci Beta, więc stosuje się bardziej złożone wielowymiarowe modele. Np.
Częstości podstawień a priori dla modelu GTR prezentuje się z użyciem dystrybucji Dirichleta
(Wikipedia 2007).
3
Obecność prawdopodobieństwa a priori daje w teorii możliwość wykorzystania w analizie wiedzy
już posiadanej, zapisanej w postaci prawdopodobieństwa związanego z jakimś parametrem (częścią
hipotezy). Przykładem może być sytuacja, w której analizowana jest duża rodzina genów, a w
literaturze (np. w 9 na 10 publikacji) sugeruje się, monofiletyczność pewnej grupy taksonów w tej
rodzinie. Możemy tą wiedzę wprowadzić do analizy przypisując prawdopodobieństwo a priori 0.9
dla prawdziwości takiej topologii drzewa. Niestety jest to bardziej możliwość teoretyczna niż
praktyczna, gdyż najbardziej zaawansowany pakiet do analizy bayesowskiej MrBayes, umożliwia
wprowadzanie tego typu założeń w niewielkim zakresie. Wszystkie zbiory parametrów mają
przypisane prawdopodobieństwa a priori o dystrybucji minimalizującej ich wpływ na
prawdopodobieństwa a posteriori i są to ustawienia rekomendowane. Niemniej istnieje możliwość
modyfikacji tych założeń, np. Poprzez wprowadzenie więzów na topologię pewnego fragmentu
drzewa lub zasugerowanie częstości występowania nukleotydów. Autorzy programu zapowiadają
jednak znaczne zmiany w możliwościach modyfikacji prawdopodobieństw a priori w przyszłych
jego wersjach.
Funkcja wiarygodności jest podstawą metody największej wiarygodności (ML), a w analizie
bayesowskiej, stanowi niejako narzędzie wydobywające informację z matrycy danych. Metody
bayesowska i ML różnią się jednak znacznie. Różnice te można sprowadzić do dwu kategorii: Co
jest szacowane? I w jaki sposób jest szacowane? Metoda ML zgodnie z funkcją wiarygodności
odpowiada na pytanie: jakie jest prawdopodobieństwo, że dany model (hipoteza) wygenerował
obserwowane dane? Podejście bayesowskie przelicza wiarygodność na prawdopodobieństwo a
posteriori, czyli odpowiada na pytanie: Jakie jest prawdopodobieństwo, że dana hipoteza wyjaśnia
obserwowane dane? Drugie podejście wydaje się być znacznie bardziej intuicyjne.
Parametrów funkcji wiarygodności jest zwykle wiele 1 : topologia drzewa, długości gałęzi oraz
wszystkie parametry odnoszące się w sposób bezpośredni do analizowanych danych (częstości
tranzycji, transwersji, parametr alfa modelu gamma itp.). Jednakże nie wszystkie spośród
parametrów są równie istotne dla badacza, np. o wiele bardziej znacząca jest topologia drzewa, niż
kształt dystrybucji gamma. Te parametry, które nie są bezpośrednim obiektem zainteresowania, ale
są niezbędne dla rozwiązania problemu nazywa się pobocznymi. W podejściu typowym, jak metoda
maksymalnej wiarygodności (ML), wszystkie parametry są przeszukiwane w poszukiwaniu
najwyższej wartości wiarygodności. Metoda bayesowska wprowadza możliwość marginalizowania
1
W przypadku programu MrBayes także typ wykorzystywanego modelu (w przypadku analizy sekwencji białkowych
np. WAG, BLOSUM, MtREV) może być traktowany jako parametr. Dzięki temu w trakcie analizy dokonuje się wybór
najlepszego (najwyższe prawdopodobieństwo a posteriori) modelu.
4
(wyłączania) parametrów pobocznych; w obliczeniu funkcji wiarygodności brane są pod uwagę nie
tyle konkretne wartości paramentów pobocznych, co ich zakresy. Zastosowanie marginalizacji
pozwala na uzyskanie lepszych wyników (oszacowanie wielu parametrów hipotezy) nawet przy
niewielkiej ilości danych. Rys 2. Przedstawia problem na uproszczonym przykładzie.
Rys 2. (za zgodą autora) (Brown 2003)
A: hipotetyczna przestrzeń dwóch parametrów: tree (topologia drzewa), omega (parametr reprezentujący
model substytucji). B: Marginalizacja parametru topologii drzewa
lub C: parametru omega i wpływ na
dystrybucje prawdopodobieństwa a posteriori.
MCMC
Zagadnieniem nie wynikającym bezpośrednio z założeń bayesowskich, ale związanym z analizą
filogenezy tą metodą jest teoria łańcuchów markowa Monte Carlo (MCMC). Obliczenie dystrybucji
prawdopodobieństwa a posteriori wymaga analizy wielowymiarowej przestrzeni parametrów.
Problem ten nie może być rozwiązany analitycznie ze względu na koszt obliczeniowy, trzeba więc
zastosować metodę próbkowania przestrzeni parametrów. Najlepszym podejściem do zagadnienia
okazało się zastosowanie teorii MCMC. Tak naprawdę, to dzięki niej możliwe jest zastosowanie
5
podejścia bayesowskiego do filogenetyki, a co za tym idzie rozwiązywanie problemów, dla których
metoda ML byłaby nie do zastosowania.
MCMC jest metodą losowego skanowania przestrzeni parametrów, mającą na celu oszacowanie
dystrybucji prawdopodobieństw a posteriori. Działanie MCMC można porównać do robota, który
w przypadku programu MrBayes wyposażony jest funkcję bayesowską. Działanie robota można
przedstawić w postaci algorytmu:
(0) Robot przetrzymuje w sobie wszystkie parametry hipotezy (H = cechy drzewa + parametry
modelu), które na początku mają wartości losowe. Jest to punkt początkowy w przestrzeni
parametrów. Obliczana jest początkowa wartość prawdopodobieństwa a posteriori:
P=bayes(H)
(1) Wartość P zapamiętywana jest jako P’
(2) Dokonywana jest perturbacja parametrów (H), zazwyczaj jednorazowo zmieniana jest jedna
z wartości.
(3) Dla nowego zestawu parametrów obliczane jest prawdopodobieństwo a posteriori
P=bayes(H)
(4) Jeśli P>P’ nowe wartości H są akceptowane, a P dodawane do łańcucha, jeśli P<P’ wtedy
przywracane są poprzednie wartości H.
(5) Skok do punktu 1.
W przypadku punktu 4. wprowadzone jest dodatkowe założenie, że nawet jeśli nowa wartość P ma
niższą wartość niż P, to z pewnym prawdopodobieństwem U (przeciwnie proporcjonalnym do
różnicy P’-P) ruch zostanie zaakceptowany. Taka innowacja zapobiega sytuacji, w której robot po
natrafieniu na ‘wzgórze’ w dystrybucji prawdopodobieństwa a posteriori, nigdy z niego nie
‘zejdzie’.
Dodatkową cechą analizy programem MrBayes jest wykorzystanie większej niż jednego łańcucha
MCMC. Analiza tego typu nosi nazwę Metropolis Coupled MCMC (MCMCMC = MC3). Istotne w
niej jest to, że nie wszystkie łańcuchy mają te same własności. Jeden z nich jest ‘zimny’, a
pozostałe ‘podgrzane’. Podgrzanie łańcucha oznacza, że uzyskane wartości prawdopodobieństwa a
posteriori są podnoszone do potęgi beta (0 < beta < 1). W przypadku programu MrBayes każdy z
ogrzewanych łańcuchów posiada inną wartość beta. W przypadku łańcucha zimnego beta = 1.
Rezultatem podgrzania łańcucha jest spłaszczenie powierzchni dystrybucji prawdopodobieństwa a
posteriori, a co za tym idzie mniejsza podatność na blokowanie się w maksimach (większe
6
prawdopodobieństwo akceptowania nowych ruchów). Łańcuch zimny (tylko jego wartości
prawdopodobieństwa są rejestrowane) jest nadrzędny i komunikuje się z pozostałymi. Jeśli łańcuch
ogrzewany odnajdzie wyższą wartość prawdopodobieństwa niż chłodzony, to zamieniają się one
swoimi pozycjami w przestrzeni parametrów (H zimnego staje się H ciepłego i na odwrót). Ideą
MC3 jest traktowanie łańcuchów ogrzewanych jako wywiadowców poruszających się swobodniej
po przestrzeni dystrybucji prawdopodobieństwa. W rezultacie jakość próbkowania jest znacznie
lepsza. W celu oszacowania, czy analiza była wystarczająco długa, by spróbkować przestrzeń
parametrów, stosuje się dwa równoległe procesy MC3. Są one zupełnie niezależne i nie komunikują
się ze sobą.
Jak już wspominano, metoda ML opiera się na znalezieniu takich wartości parametrów modelu,
które zmaksymalizują wartość wiarygodności. Wartości te mogą być oznaczane w sposób ścisły,
poprzez obliczanie wiarygodności dla wszystkich kombinacji parametrów. Jest to jednak podejście
zupełnie niepraktyczne dla realnych zestawów danych, ze względu na czas obliczeniowy. W
praktyce, stosuje się więc metody heurystyczne. Niezależnie od podejścia ostatecznym wynikiem
ML jest punkt w przestrzeni parametrów – zestaw wartości parametrów, dla którego wartość
wiarygodności jest zmaksymalizowana. By uzyskać wartość wsparcia statystycznego konieczne jest
przeprowadzenie analizy typu bootstrap (Efron et. al. 1996), co w oczywisty sposób wydłuża czas
analizy.
W przypadku analizy bayesowskiej poszukiwany jest nie punkt w przestrzeni parametrów
(pojedyncza wartość wiarygodności), a kształt (dystrybucja prawdopodobieństw a posteriori) .
Ujmując sprawę bardziej obrazowo, można powiedzieć, że w analizie bayesowskiej liczy się nie
tylko cel – jedno drzewo z najwyższym prawdopodobieństwem - ale i droga – zapis wędrówki
MCMC po przestrzeni parametrów. Wsparciem w analizie bayesowskiej z użyciem MCMC dla
danego regionu w przestrzeni parametrów jest w istocie częstość odwiedzania tego regionu przez
łańcuch MCMC.
Reasumując, główne zalety analiz filogenetycznych metodą bayesowska z użyciem pakietu
MrBayes są: Większa szybkość analiz, lepsze próbkowanie przestrzeni parametrów, wsparcia w
postaci prawdopodobieństw a posteriori, zamiast bootstrap. Mniejsza podatność na szum i większa
wrażliwość na sygnał filogenetyczny będące rezultatem zastosowania mechanizmu marginalizacji.
7
BIBLIOGRAFIA
1. Brown, J.W. (2003) The State of Bayesian Phylogenetics: Bayes for Uninitiated.
http://www-personal.umich.edu/~josephwb/.
2. Huelsenbeck, J.P. et al. (2001) Bayesian inference of phylogeny and its impact on
evolutionary biology. Science,. 294: 2310-4.
3. Holder, M. and P.O. Lewis (2003) Phylogeny estimation: traditional and Bayesian
approaches. Nat Rev Genet. 4: 275-84.
4. Wikipedia (2007) Dirichlet distribution. http://en.wikipedia.org/wiki/Dirichlet_distribution.
5. Efron, B., E. Halloran, and S. Holmes (1996) Bootstrap confidence levels for phylogenetic
trees. Proc Natl Acad Sci U S A 93: 13429-34.
8

Podobne dokumenty