Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA
Transkrypt
Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA
Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 P LAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne, kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty zapisywania MSA, BaliBase: referencyjna baza uliniowień wielosekwencyjnych, edycja i wizualizacja MSA, zastosowania i algorytm ClustalW Dzisiaj : omówienie algorytmu i zastosowań T-Coffee T-C OFFEE Tree based Consistency Objective Function For alignmEnt Evaluation Ograniczenie wpływu bł˛ednego uliniowienia najbliżej spokrewnionych sekwencji na jakość końcowego MSA. Na każdym etapie progresywnego tworzenia MSA wykorzystana jest zarówno informacja o podobieństwie mi˛edzy wszystkimi parami sekwencji jak i dodatkowa informacja uzyskana z innych źródeł. interfejs tekstowy i sieciowy (http://igs-server.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi) – C. Notredame, D. Higgins, J. Heringa (2000) “T-Coffee: A novel method for fast and accurate multiple sequence alignment” Journal of Molecular Biology 302:205–217 – C. Notredame, L. Holme, D.G. Higgins (1998) “COFFEE: A New Objective Function For Multiple Sequence Alignment” Bioinformatics 14(5):407–422 A LGORYTM T-C OFFEE 1. utworzenie bibliotek pierwotnych (ang. primary libraries) zawierajacych ˛ uliniowienia lokalne i globalne par sekwencji 2. wyznaczenie i przypisanie wag uliniowieniom w bibliotekach pierwotnych 3. kompilacja bibliotek pierwotnych oraz (opcjonalnie) bibliotek wskazanych przez użytkownika zawierajacych ˛ dodatkowe informacje o uliniawianych sekwencjach (np. rozmieszczenie konserwowanych elementów struktury drugorz˛edowej, dopasowania strukturalne, r˛ecznie skorygowane MSA, etc.) 4. rozbudowa biblioteki: ustalenie ostatecznego wpływu poszczególnych uliniowień par sekwencji na ostateczne MSA 5. progresywne uliniowienie sekwencji z wykorzystaniem informacji zgromadzonych w uprzednio rozbudowanej bibliotece (ang. extended library) A LGORYTM T- COFFEE : (1) T WORZENIE BIBLIOTEK PIERWOTNYCH w bibliotekach pierwotnych programu T-coffee gromadzone sa˛ informacje o parach reszt wyst˛epujacych ˛ w uliniowieniach lokalnych i globalnych wykonanych dla każdej z pośród analizowanych sekwencji uliniowień globalnych i nie wi˛ecej niż dziesi˛eć razy tyle – łacznie ˛ suboptymalnych uliniowień lokalnych globalne uliniowienie dla każdej pary sekwencji wyznaczane jest w oparciu o algorytm ClustalW lokalne uliniowienia (dziesi˛eć najwyżej ocenionych) dla każdej pary sekwencji, wyznaczane jest w oparciu o algorytm Lalign (FASTA) każde z wyznaczonych uliniowień jest reprezentowane w bibliotece jako lista par reszt na odpowiadajacych ˛ sobie pozycjach w określonym uliniowieniu – każda z uliniowionych par reszt reprezentuje wi˛ezy, które b˛eda˛ narzucone w procesie konstruowania MSA – siła wi˛ezów zależy od jakości uliniowienia z którego pochodzi określona para reszt A LGORYTM T- COFFEE : (2) WYZNACZANIE I PRZYPISANIE WAG umownym wskaźnikiem jakości każdego z uliniowień pary sekwencji jest odsetek identyczności (odsetek identycznych reszt znajdujacych ˛ si˛e na odpowiadajacych ˛ sobie pozycjach uliniowienia, pozycje z przerwami w uliniowieniu sa˛ pomijane) A LGORYTM T- COFFEE : (3) KOMPILACJA BIBLIOTEK biblioteki uliniowień globalnych i lokalnych zostaja˛ scalone w obr˛ebie nakładajacych ˛ si˛e fragmentów uliniowień lokalnych i globalnych, wagi kolejnych par reszt ulegaja˛ zwi˛ekszeniu (sumowanie wkładów z dwóch uliniowień) po czym odpowiednie uliniowienie lokalne jest usuwane z biblioteki (wzmocnienie sygnału w celu oddzielenia go od szumu) A LGORYTM T- COFFEE : (4) ROZBUDOWA BIBLIOTEKI WTÓRNEJ celem realizowanym w tej cz˛eści algorytmu jest poszerzenie informacji wyrażajacej ˛ si˛e w sile wi˛ezów zwiazanych ˛ z każda˛ para˛ reszt reprezentowanych w bibliotece uliniowień o wkład innych sekwencji w analizowanym zbiorze problem jest numerycznie wysoce złożony i w algorytmie T-Coffee rozwiazywany ˛ jest w oparciu o tzw. heurystyk˛e trójkowa˛ (ang. triplet heuristics) nawiazuj ˛ ac ˛ a˛ do podobnej koncepcji zaimplementowanej w metodzie Dialign2 (Morgenstern, 1999) wagi dla wi˛ezów w każdym z uliniowień biblioteki wtórnej sa˛ przeliczane w zależności od cz˛estości z jaka˛ określone reszty sa˛ uliniawiane przy porównaniach obejmujacych ˛ kolejne pary sekwencji z każda˛ spośród pozostałych sekwencji T-C OFFEE : HEURYSTYKA TRÓJKOWA T T stopień zgodności (ang. consistency) uliniowienia poszczególnych par reszt wyznaczany jest w oparciu o analiz˛e wszystkich możliych trójek sekwencji dla określonych par reszt, tylko niektóre spośród analizowanych trójek sekwencji sa˛ informatywne (tzn. sa˛ i takie, w których uliniowienie par reszt nie obejmuje wszystkich trzech sekwencji), np. – tryplet a:c:b nie jest informatywny dla reszt na odcinku LAST sekwencji a – tryplet a:d:b nie jest informatywny dla reszt na odcinkach GARFIELD oraz LAST T jeśli uliniowienie określonej pary reszt znajduje potwierdzenie w uliniowieniu z udziałem sekwencji pośredniej (np. przy ulininiowieniu a i b poprzez c: a:c:b) waga tych par w wyjściowym uliniowieniu (np. a:b) ulega zwi˛ekszeniu o mniejsza˛ z wag uliniowień z sekwencja˛ pośrednia˛ (np. dla a:c:b, , – stad ˛ ; poczatkowa ˛ waga pary {a(T),b(T)} (w THE) wynosi , wkład trypletu a:c:b wynosi stad ˛ ostatecznie waga pary {a(T),b(T)} wyniesie , uwzgl˛edniajac ˛ wkład a:d:b, waga ta wzrośnie do , itd. UWVYX[Z]\A\ U_^ X Za`cbdb U V ^ X fZ Se ig kh dj WU lV nX m =U ^ %X o ]Z d\ \ pdp \A\ sAqdr `nqdr A LGORYTM T-C OFFEE : (5) KONSTRUKCJA ULINIOWIENIA WIELOSEKWENCYJNEGO we wtórnej bibliotece uliniowień, każdej parze reszt jest przypisana waga b˛edaca ˛ suma˛ jej wag z bibliotek pierwotnych oraz wag wyznaczonych na podstawie informatywnych trójek sekwencji stad, ˛ siła wi˛ezów zwiazanych ˛ z określona˛ para˛ reszt jest tym wi˛eksza, im wi˛ecej jest sekwencji, których uliniowienie obejmuje dana˛ par˛e parom reszt nie wyst˛epujacym ˛ w bibliotece wtórnej zostaje przypisana waga progresywne uliniowienie sekwencji jest prowadzone w oparciu o metod˛e programowania dynamicznego w którym kara za utworzenie i wydłużenie przerwy wynosi a konserwowanie reszt i ich podstawienia sa˛ oceniane na podstawie odpowiednich wag z biblioteki wtórnej (podejście równoważne wykorzystaniu pozycyjnie zróżnicowanego profilu podstawień, ang. Position-Specific Substitution Matrix, PSSM) przy uliniawianiu bloków wst˛epnie uliniowionych sekwencji, do oceny jakości dopasowania dwóch kolumn wykorzystywana jest średnia wartość wag par tworzonych przez reszty z obu kolumn " ! # # % $ '# & ( ( )(+* ,- -, ,/. 01 024 3 065 7 8 9 : =; < 7?>A@CBED@F@ G 7 > @CBHI@F@ G 7 > @CBEJK@ L G 7?ME@ON D @F@ G 7PM@ONEHI@F@ G 7PM @QN J @CLSR T- COFFEE : PRZYKŁADOWE ULINIOWIENIE t T-C OFFEE – PODSUMOWANIE t t metoda wykorzystywana do konstrukcji uliniawień niewielkiej liczby sekwencji, ponieważ obecna implementacja algorytmu T-Coffee jest stosunkowo wymagajaca ˛ obliczeniowo chociaż autorzy twierdza,˛ że w porównaniu z ClustalW, T-coffee oferuje znaczac ˛ a˛ popraw˛e jakości MSA, w praktyce – poprawa ta jest w wielu przypadkach nieznaczna (por. BaliBase); w szczególności, nierzadkie sa˛ przypadki bł˛ednego uliniawiania sekwencji istotnie różniacych ˛ si˛e długościa˛ niepodważalna˛ zaleta˛ T-Coffee jest możliwość wykorzystywania w procesie uliniawiania dodatkowych źródeł informacji