zastosowanie metody bayesowskiej w analizie rodzin dysmutaz pon
Transkrypt
zastosowanie metody bayesowskiej w analizie rodzin dysmutaz pon
Stanisław Dunin-Horkawicz METODA BAYESOWSKA W FILOGENETYCE Fragment wstępu do pracy magisterskiej Pt. „Rekonstrukcja filogenezy dwóch rodzin dysmutaz ponadtlenkowych (SOD)” Uniwersytet Warszawski, Wydział Biologii, Warszawa, marzec 2007 Opis oparty został głównie o prace (Brown 2003), (Huelsenbeck et. al. 2001) i (Holder, Lewis 2003) oraz te, do których referencje zawarte są w podrozdziale. Szczegółowe przedstawienie wszystkich aspektów metody bayesowskiej przekracza znacznie zakres tej pracy; autor miał na celu przedstawić zwięzłą i znacząca z punktu widzenia biologa charakterystykę problemu. Modele a hipoteza W analizie ML, bayesowskiej, ale i w metodach odległościowych (chociaż w sposób niejawny) obecne są modele opisujące ewolucję sekwencji: GTR i jego pochodne, gamma, model inwariantny. Wartości wszystkich parametrów wymienionych powyżej modeli wraz z wartościami opisującymi drzewo (topologia i długości gałęzi) razem stanowią hipotezę. Metoda bayesowska ma na celu przeszukanie wielu wariantów hipotez w celu odnalezienia takich, które najlepiej opisują analizowane dane. Metoda Bayesowska Teoria Bayesa (wielebny Thomas Bayes 1702-1761, angielski duchowny i matematyk) mówi o szacowaniu prawdopodobieństwa zdarzenia z uwzględnieniem zarówno prawdopodobieństwa a priori (przed obserwacją) zdarzenia jak i posiadanych danych. Teoria ta zapoczątkowała dział statystyki, zapomniany i zaniedbywany przez całe stulecia a ostatnio zyskujący bardzo na popularności, również w badaniach filogenezy. Wyobraźmy sobie przestrzeń, w której zawarte są dwa obszary A i B (zdarzenia), które posiadają pewną część wspólną. Obszar wspólny określa sytuację, w której zdarzenia A i B zachodzą równocześnie: [1] Pr(A,B) = Pr(B,A) Równanie [1] mówi, że prawdopodobieństwo (Pr) występowania równocześnie zdarzenia A i B jest identyczne z prawdopodobieństwem równoczesnego wystąpienia B i A. 1 Używając przekształceń teorii prawdopodobieństwa wyrażenie [1] może przybrać postać warunkową [2]: [2] Pr(A,B) = Pr(A)*Pr(B|A) Równanie [2] oznacza, że równoczesne zachodzenie zdarzeń A i B jest równoznaczne z prawdopodobieństwem zajścia zdarzenia A przemnożonego przez warunkowe (tylko wtedy, kiedy zaszło zdarzenie A) prawdopodobieństwo zajścia zdarzenia B. Skoro Pr(A,B)=Pr(B,A) [1], to prawdziwe jest równanie [3]: [3] Pr(A)*Pr(B|A) = Pr(B) * Pr(A|B), które po przekształceniu daje równanie Bayesa [4]: [4] Pr(B|A) = Pr(B) * Pr(A|B) / Pr(A) Równanie [4] nabiera sensu w znaczeniu biologicznym, gdy za prawdopodobieństwa A i B podstawimy dane (np. przyrównanie sekwencji, czy inną matrycę) i hipotezę (topologia drzewa opisującego to przyrównanie i parametry modelu): [5] Pr(hipoteza|dane) = Pr(hipoteza) * Pr(dane|hipoteza) / Pr(dane) Lewą stronę równania [5] - Pr(hipoteza|dane) - czytamy jako prawdopodobieństwo prawdziwości hipotezy (H) dla danych (D). Innymi słowy jest to prawdopodobieństwo a posteriori, że dana hipoteza jest prawdziwa - miara zgodności obserwowanych danych z hipotezą (modelem). Na prawą stronę równania składają się Pr(hipoteza), czyli prawdopodobieństwo a priori prawdziwości hipotezy. Ten współczynnik jest miarą wiedzy (lub ignorancji) o obserwowanym zjawisku, a jego wartość jest ustalana przed obserwacją danych. Pr(dane|hipoteza), czyli wiarygodność, ma zupełnie inne znaczenie niż prawdopodobieństwo a posteriori. Wiarygodność może być rozumiana jako prawdopodobieństwo prawdziwości danych dla danej hipotezy, czyli ma znacznie niejako odwrotne. Pr(dane) jest rozumiane, jako prawdopodobieństwo danych dla modelu. W przypadku analiz filogenetycznych jest to wartość mająca na celu przeskalowanie wyniku całego równania do wartości z zakresu 0-1. 2 Rys 1. (za zgodą autora) (Brown 2003) Typy dystrybucji prawdopodobieństw a priori (czerwone linie) w kontekście dystrybucji prawdopodobieństw a posteriori. A: dystrybucja informatywna, nadająca wagi określonym przedziałom wyniku. C: Dystrybucja prawdopodobieństw a priori nieinformatywna płaska. C: Dystrybucja prawdopodobieństw a priori nieinformatywna, dodatkowo niwelująca wpływ swojej obecności. Istotnym elementem metody bayesowskiej jest prawdopodobieństwo a priori. Przykładem obrazującym to pojęcie jest eksperyment rzucania monetą. Naukowiec, który spędził większość swojego życia na rzutach monetą może powiedzieć: „Moje odczucie jest takie, że prawdopodobieństwo a priori, że w następnym rzucie uzyskam reszkę wynosi 0.49”. Oczywiście inna osoba (np. oszust operujący odpowiednio przygotowaną monetą, która ma nierówną skłonność do upadania na dwie różne strony) może mieć inne doświadczenia, tak więc jest to subiektywna wartość określająca stan wiedzy na dany temat. Zgodnie z równaniem [5] prawdopodobieństwo a priori wpływa na wartość prawdopodobieństwa a posteriori, jednakże znaczenie tego wpływu maleje wraz z rosnącą ilością danych. Prawdopodobieństwa a priori zazwyczaj nie przyjmują konkretnych wartości, ale są przedstawione w postaci dystrybucji wartości. Podstawowym podziałem typów dystrybucji prawdopodobieństwa a priori, jest podział na dystrybucje informatywne i nieinformatywne. Dystrybucje informatywne (Rys. 1A) wprowadzają do analizy dane wpływające na wynik funkcji prawdopodobieństwa a posteriori. Dystrybucje nieinformatywne nie wpływają na wynik; typowym przykładem nieinformatywnej dystrybucji jest dystrybucja płaska (Rys. 1B) - wszystkie wartości parametru hipotezy są równie prawdopodobne a priori. Istnieją różne typy dystrybucji, rozróżniane ze względu na typ danych, których dotyczą. Np. Prawdopodobieństwa a priori dla danych binominalnych (rzut monetą, brak/obecność cechy itp.) modelowane są zgodnie z dystrybucja Beta(alfa, beta). Parametry alfa i beta określają kształt dystrybucji i są wystarczające do określenia rozkładów z Rys 1. Dane wielonominalne nie mogą być wyrażone w postaci Beta, więc stosuje się bardziej złożone wielowymiarowe modele. Np. Częstości podstawień a priori dla modelu GTR prezentuje się z użyciem dystrybucji Dirichleta (Wikipedia 2007). 3 Obecność prawdopodobieństwa a priori daje w teorii możliwość wykorzystania w analizie wiedzy już posiadanej, zapisanej w postaci prawdopodobieństwa związanego z jakimś parametrem (częścią hipotezy). Przykładem może być sytuacja, w której analizowana jest duża rodzina genów, a w literaturze (np. w 9 na 10 publikacji) sugeruje się, monofiletyczność pewnej grupy taksonów w tej rodzinie. Możemy tą wiedzę wprowadzić do analizy przypisując prawdopodobieństwo a priori 0.9 dla prawdziwości takiej topologii drzewa. Niestety jest to bardziej możliwość teoretyczna niż praktyczna, gdyż najbardziej zaawansowany pakiet do analizy bayesowskiej MrBayes, umożliwia wprowadzanie tego typu założeń w niewielkim zakresie. Wszystkie zbiory parametrów mają przypisane prawdopodobieństwa a priori o dystrybucji minimalizującej ich wpływ na prawdopodobieństwa a posteriori i są to ustawienia rekomendowane. Niemniej istnieje możliwość modyfikacji tych założeń, np. Poprzez wprowadzenie więzów na topologię pewnego fragmentu drzewa lub zasugerowanie częstości występowania nukleotydów. Autorzy programu zapowiadają jednak znaczne zmiany w możliwościach modyfikacji prawdopodobieństw a priori w przyszłych jego wersjach. Funkcja wiarygodności jest podstawą metody największej wiarygodności (ML), a w analizie bayesowskiej, stanowi niejako narzędzie wydobywające informację z matrycy danych. Metody bayesowska i ML różnią się jednak znacznie. Różnice te można sprowadzić do dwu kategorii: Co jest szacowane? I w jaki sposób jest szacowane? Metoda ML zgodnie z funkcją wiarygodności odpowiada na pytanie: jakie jest prawdopodobieństwo, że dany model (hipoteza) wygenerował obserwowane dane? Podejście bayesowskie przelicza wiarygodność na prawdopodobieństwo a posteriori, czyli odpowiada na pytanie: Jakie jest prawdopodobieństwo, że dana hipoteza wyjaśnia obserwowane dane? Drugie podejście wydaje się być znacznie bardziej intuicyjne. Parametrów funkcji wiarygodności jest zwykle wiele 1 : topologia drzewa, długości gałęzi oraz wszystkie parametry odnoszące się w sposób bezpośredni do analizowanych danych (częstości tranzycji, transwersji, parametr alfa modelu gamma itp.). Jednakże nie wszystkie spośród parametrów są równie istotne dla badacza, np. o wiele bardziej znacząca jest topologia drzewa, niż kształt dystrybucji gamma. Te parametry, które nie są bezpośrednim obiektem zainteresowania, ale są niezbędne dla rozwiązania problemu nazywa się pobocznymi. W podejściu typowym, jak metoda maksymalnej wiarygodności (ML), wszystkie parametry są przeszukiwane w poszukiwaniu najwyższej wartości wiarygodności. Metoda bayesowska wprowadza możliwość marginalizowania 1 W przypadku programu MrBayes także typ wykorzystywanego modelu (w przypadku analizy sekwencji białkowych np. WAG, BLOSUM, MtREV) może być traktowany jako parametr. Dzięki temu w trakcie analizy dokonuje się wybór najlepszego (najwyższe prawdopodobieństwo a posteriori) modelu. 4 (wyłączania) parametrów pobocznych; w obliczeniu funkcji wiarygodności brane są pod uwagę nie tyle konkretne wartości paramentów pobocznych, co ich zakresy. Zastosowanie marginalizacji pozwala na uzyskanie lepszych wyników (oszacowanie wielu parametrów hipotezy) nawet przy niewielkiej ilości danych. Rys 2. Przedstawia problem na uproszczonym przykładzie. Rys 2. (za zgodą autora) (Brown 2003) A: hipotetyczna przestrzeń dwóch parametrów: tree (topologia drzewa), omega (parametr reprezentujący model substytucji). B: Marginalizacja parametru topologii drzewa lub C: parametru omega i wpływ na dystrybucje prawdopodobieństwa a posteriori. MCMC Zagadnieniem nie wynikającym bezpośrednio z założeń bayesowskich, ale związanym z analizą filogenezy tą metodą jest teoria łańcuchów markowa Monte Carlo (MCMC). Obliczenie dystrybucji prawdopodobieństwa a posteriori wymaga analizy wielowymiarowej przestrzeni parametrów. Problem ten nie może być rozwiązany analitycznie ze względu na koszt obliczeniowy, trzeba więc zastosować metodę próbkowania przestrzeni parametrów. Najlepszym podejściem do zagadnienia okazało się zastosowanie teorii MCMC. Tak naprawdę, to dzięki niej możliwe jest zastosowanie 5 podejścia bayesowskiego do filogenetyki, a co za tym idzie rozwiązywanie problemów, dla których metoda ML byłaby nie do zastosowania. MCMC jest metodą losowego skanowania przestrzeni parametrów, mającą na celu oszacowanie dystrybucji prawdopodobieństw a posteriori. Działanie MCMC można porównać do robota, który w przypadku programu MrBayes wyposażony jest funkcję bayesowską. Działanie robota można przedstawić w postaci algorytmu: (0) Robot przetrzymuje w sobie wszystkie parametry hipotezy (H = cechy drzewa + parametry modelu), które na początku mają wartości losowe. Jest to punkt początkowy w przestrzeni parametrów. Obliczana jest początkowa wartość prawdopodobieństwa a posteriori: P=bayes(H) (1) Wartość P zapamiętywana jest jako P’ (2) Dokonywana jest perturbacja parametrów (H), zazwyczaj jednorazowo zmieniana jest jedna z wartości. (3) Dla nowego zestawu parametrów obliczane jest prawdopodobieństwo a posteriori P=bayes(H) (4) Jeśli P>P’ nowe wartości H są akceptowane, a P dodawane do łańcucha, jeśli P<P’ wtedy przywracane są poprzednie wartości H. (5) Skok do punktu 1. W przypadku punktu 4. wprowadzone jest dodatkowe założenie, że nawet jeśli nowa wartość P ma niższą wartość niż P, to z pewnym prawdopodobieństwem U (przeciwnie proporcjonalnym do różnicy P’-P) ruch zostanie zaakceptowany. Taka innowacja zapobiega sytuacji, w której robot po natrafieniu na ‘wzgórze’ w dystrybucji prawdopodobieństwa a posteriori, nigdy z niego nie ‘zejdzie’. Dodatkową cechą analizy programem MrBayes jest wykorzystanie większej niż jednego łańcucha MCMC. Analiza tego typu nosi nazwę Metropolis Coupled MCMC (MCMCMC = MC3). Istotne w niej jest to, że nie wszystkie łańcuchy mają te same własności. Jeden z nich jest ‘zimny’, a pozostałe ‘podgrzane’. Podgrzanie łańcucha oznacza, że uzyskane wartości prawdopodobieństwa a posteriori są podnoszone do potęgi beta (0 < beta < 1). W przypadku programu MrBayes każdy z ogrzewanych łańcuchów posiada inną wartość beta. W przypadku łańcucha zimnego beta = 1. Rezultatem podgrzania łańcucha jest spłaszczenie powierzchni dystrybucji prawdopodobieństwa a posteriori, a co za tym idzie mniejsza podatność na blokowanie się w maksimach (większe 6 prawdopodobieństwo akceptowania nowych ruchów). Łańcuch zimny (tylko jego wartości prawdopodobieństwa są rejestrowane) jest nadrzędny i komunikuje się z pozostałymi. Jeśli łańcuch ogrzewany odnajdzie wyższą wartość prawdopodobieństwa niż chłodzony, to zamieniają się one swoimi pozycjami w przestrzeni parametrów (H zimnego staje się H ciepłego i na odwrót). Ideą MC3 jest traktowanie łańcuchów ogrzewanych jako wywiadowców poruszających się swobodniej po przestrzeni dystrybucji prawdopodobieństwa. W rezultacie jakość próbkowania jest znacznie lepsza. W celu oszacowania, czy analiza była wystarczająco długa, by spróbkować przestrzeń parametrów, stosuje się dwa równoległe procesy MC3. Są one zupełnie niezależne i nie komunikują się ze sobą. Jak już wspominano, metoda ML opiera się na znalezieniu takich wartości parametrów modelu, które zmaksymalizują wartość wiarygodności. Wartości te mogą być oznaczane w sposób ścisły, poprzez obliczanie wiarygodności dla wszystkich kombinacji parametrów. Jest to jednak podejście zupełnie niepraktyczne dla realnych zestawów danych, ze względu na czas obliczeniowy. W praktyce, stosuje się więc metody heurystyczne. Niezależnie od podejścia ostatecznym wynikiem ML jest punkt w przestrzeni parametrów – zestaw wartości parametrów, dla którego wartość wiarygodności jest zmaksymalizowana. By uzyskać wartość wsparcia statystycznego konieczne jest przeprowadzenie analizy typu bootstrap (Efron et. al. 1996), co w oczywisty sposób wydłuża czas analizy. W przypadku analizy bayesowskiej poszukiwany jest nie punkt w przestrzeni parametrów (pojedyncza wartość wiarygodności), a kształt (dystrybucja prawdopodobieństw a posteriori) . Ujmując sprawę bardziej obrazowo, można powiedzieć, że w analizie bayesowskiej liczy się nie tylko cel – jedno drzewo z najwyższym prawdopodobieństwem - ale i droga – zapis wędrówki MCMC po przestrzeni parametrów. Wsparciem w analizie bayesowskiej z użyciem MCMC dla danego regionu w przestrzeni parametrów jest w istocie częstość odwiedzania tego regionu przez łańcuch MCMC. Reasumując, główne zalety analiz filogenetycznych metodą bayesowska z użyciem pakietu MrBayes są: Większa szybkość analiz, lepsze próbkowanie przestrzeni parametrów, wsparcia w postaci prawdopodobieństw a posteriori, zamiast bootstrap. Mniejsza podatność na szum i większa wrażliwość na sygnał filogenetyczny będące rezultatem zastosowania mechanizmu marginalizacji. 7 BIBLIOGRAFIA 1. Brown, J.W. (2003) The State of Bayesian Phylogenetics: Bayes for Uninitiated. http://www-personal.umich.edu/~josephwb/. 2. Huelsenbeck, J.P. et al. (2001) Bayesian inference of phylogeny and its impact on evolutionary biology. Science,. 294: 2310-4. 3. Holder, M. and P.O. Lewis (2003) Phylogeny estimation: traditional and Bayesian approaches. Nat Rev Genet. 4: 275-84. 4. Wikipedia (2007) Dirichlet distribution. http://en.wikipedia.org/wiki/Dirichlet_distribution. 5. Efron, B., E. Halloran, and S. Holmes (1996) Bootstrap confidence levels for phylogenetic trees. Proc Natl Acad Sci U S A 93: 13429-34. 8