Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.
Transkrypt
Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.
Bioinformatyka 2 (BT172) Wykład 2 Uliniowienia wielosekwencyjne. Cze˛ ść I. dr Krzysztof Murzyn 17.X.2005 P LAN WYKŁADU 1. Podstawowe definicje i zastosowania uliniowień wielosekwencyjnych (MSA, ang. Multiple Sequence Alignment). 2. Problem złożoności obliczeniowej procesu wyznaczania MSA. U LINIOWIENIA WIELOSEKWENCYJNE zestawienie wielu sekwencji w sposób najlepiej obrazujacy ˛ ich pokrewieństwo ewolucyjne przejawiajace ˛ si˛e w podobieństwie własności kolejnych reszt na odpowiadajacych ˛ sobie pozycjach uliniowienia wyznaczane zarówno dla sekwencji nukleotydowych jak i aminokwasowych VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWYQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG LSLTCTVSGTSFDD--YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG-- B IOLOGICZNE PODSTAWY WYZNACZANIA MSA Reszty na odpowiadajacych ˛ sobie pozycjach w uliniowieniu wykazuja˛ podobieństwa na poziomie: strukturalnym : reszty aminokwasowe (nukleotydowe) w odpowiednich czasteczkach ˛ białek (kwasów nukleinowych) wyst˛epuja˛ zwykle we fragmentach czasteczek ˛ o tej samej strukturze przestrzennej ewolucyjnym : wspólna przeszłość/przodek fragmentów (np. domen) lub całych sekwencji manifestujaca ˛ si˛e zmiennościa˛ na danej pozycji wynikajac ˛ a˛ z utrwalonych ewolucyjnie mutacji punktowych oraz zjawisk insercji lub delecji funkcyjnym : ta sama rola wynikajaca ˛ z zachowanych określonych własności fizyko-chemicznych (centra aktywne enzymów, miejsc wiazania ˛ ligandów drobnoczasteczkowych, ˛ rozpoznawane motywy strukturalne, etc.) G ŁÓWNE OBSZARY ZASTOSOWA Ń klasyfikacja białek : wiarygodny MSA jest silny dowodem przemawiajacym ˛ za przypisaniem nieznanej sekwencji do znanej rodziny białek molekularna analiza filogenetyczna : odpowiedni dobór uliniawianych sekwencji pozwala odtworzyć przebieg historii ewolucyjnej na poziomie molekularnym identyfikacja motywów : silnie konserwowane fragmenty MSA zwykle zwiazane ˛ sa˛ z zachowaniem określonej funkcji regulacja ekspresji genów : scharakteryzowanie profilu zmienności w obr˛ebie miejsca wiazania ˛ znanego czynnika transkrypcyjnego umożliwia zastosowanie go do anlizy nieznanych rejonów promotorowych innych genów przewidywanie struktury przestrzennej : uzyskanie wiarygodnego MSA zawierajacego ˛ przynajmniej jedna˛ sekwencj˛e o znanej strukturze przestrzennej jest skuteczna˛ metoda˛ przewidywania struktury drugorz˛edowej białek i RNA; przy wi˛ekszej liczbie takich sekwencji, możliwe jest stworzenie wiarygodnego modelu struktury przestrzennej określonej domeny lub białka A MOGŁO BY Ć TAK PI EKNIE ˛ ... przebieg ewolucji sekwencji na poziomie molekularnym jest nieznany znajomość sekwencji nie pozwala na określenie odpowiadajacej ˛ jej struktury przestrzennej brak jednoznacznych kryteriów pozwalajacych ˛ uznać wybrane MSA za jednynie słuszne (tj. całkowicie poprawne) wykorzystanie metod programowania dynamicznego z powodzeniem stosowanych w uliniowieniach par sekwencji, już w przypadku współbieżnego uliniwawiania kilku średniej długości sekwencji jest niewykonalne obliczeniowo istniejace ˛ heurystyczne rozwiazania ˛ problemu wyznaczania MSA, niedość, że w wielu przypadkach sa˛ wymagajace ˛ obliczeniowo, to z definicji nie gwarantuja˛ osiagni˛ ˛ ecia optymalnego rozwiazania ˛ najcz˛eściej stosowane metody progresywnego uliniawiania (ang. progressive alignment) w mniejszym lub wi˛ekszym stopniu zależa˛ od liczby, rodzaju i kolejności sekwencji w uliniawianym zbiorze oraz parametrów uliniawiania (punktacja przerw, macierz podstawień aminokwasowych lub model ewolucji sekwencji nukleotydowych, algorytm tworzenia drzew filogenetycznych, współczyników różnicujacych ˛ wkłady poszczególnych sekwencji (ang. sequence weight), etc.) C ECHY SENSOWNEGO BIOLOGICZNIE MSA zbiór uliniawianych sekwencji jest odpowiednio zróżnicowany (obecność sekwencji o wysokim stopniu identyczności nie wnosi nowej informacji do MSA a może pomniejszać wkład innych sekwencji w procesie uliniawiania) – zróżnicowanie mi˛edzy sekwencjami w uliniawianym zbiorze (szczególnie dotyczy to najbliżej spokrewnionych sekwencji, od uliniowienia których rozpoczyna si˛e proces tworzenia MSA) nie może być zbyt duże w progresywnych metodach wyznaczania MSA, poniważ bł˛edy w uliniowieniu sekwencji o marginalnym podobieństwie sa˛ wzmacniane przy dodawaniu do MSA kolejnych sekwencji liczba przerw jest odpowiednia (ani za duża, ani za mała :) przerwy w MSA wyst˛epuja˛ mi˛edzy dobrze wyróżnionymi blokami, w obr˛ebie których stopień konserwowania reszt jest możliwie wysoki lub obserwowana zmienność reszt nie dotyczy istotnych własności własności fizyko-chemiczne (wielkość łańcucha bocznego, ładunek, polarność) uliniowione sekwencje nie zawieraja˛ domen lub powtarzalnych motywów (np. WD40, LRR w białkach lub sekwencje rozproszone (ALU, etc.) w sekwencjach nukleotydowych) M AŁE JEST PI EKNE ˛ ... D O NOT USE TOO MANY SEQUENCES ! 6 It is difficult to COMPUTE big alignments. Public servers do not have infinite resources. Your jobs may take a very long time to run (if it runs). For your, this makes it diffucylt to tune parameters and check alternatives. (These are also the reasons to use standalone programs instead of www services) 6 It is difficult to BUILD big alignments. Multiple alignment programs are not very good at handling very large sets of sequences (MUSCLE is an exception) 6 It is difficult to DISPLAY big alignments. You cannot print them and they clog your computer when you want to visualize them. If columns are longer than one page interpretation becomes impossible. 6 It is difficult to USE big alignments. Tree building and structure prediction programs cannot handle them easiy. 6 It is difficult to make ACCURATE big alignments. Multiple sequence alignment programs make mistakes. The curse is that these mistakes do not add up, they multiply! This is why it si easy to ruin an entire alignment with a tiny number of bad sequences. Of course the more sequences yoyu have the more likely this is to happen. “O PTYMALNE ” ULINIOWIENIE WIELOSEKWENCYJNE oczywiste uogólnienie metody programowania dynamicznego na przypadek -sekwencji prowadzi do wymiarowej macierzy wyników czastkowych ˛ zakładajac, ˛ że długość każdej z -sekwencji wynosi , macierz b˛edzie zawierać komórek procedura wypełniania macierzy b˛edzie wiazała ˛ si˛e z koniecznościa˛ rozważenia dla każdej z komórek jej komórek ( dla dwóch sekwencji, dla trzech, dla czterech, etc.) pozostaje problem wyznaczenia oceny kolejnych pozycji uliniowienia w -wymiarowym przypadku... Powszechnie stosowana metoda sumy par (suma ocen uliniowień par sekwencji) nie ma uzasadnienia matematycznego, ponieważ stosujac ˛ macierze BLOSUM lub PAM, np. dla : !#" * $&%')( % * ' * (,+ - .!/"0$&%' * % * '1+ !/"0$2'3( * ' * (1+ !/"4$2%5( * % * (,+ M ETODA WIELOSEKWENCYJNEGO PROGRAMOWANIA DYNAMICZNEGO MSA : Implementacja oparta o metod˛e programowania dynamicznego, w której zestaw heurystyk redukuje obliczenia wartości macierzy J jedynie do niewielkiej przestrzeni wokół jej głównej przekatnej, ˛ tym samym budujac ˛ rozwiazanie ˛ bliskie optymalnemu; wbrew powszechnemu przekonaniu, nie musi to być rozwiazanie ˛ dokładne, szczególnie w przypadkach kiedy zestaw uliniawianych sekwencji zawiera odległe homologii. Lipman DJ, Altschul SF and Kececioglu J (1989) “A Tool for Multiple Sequence Alignment” Proc Nat Acad Sci USA 86:4412-4415 Gupta SK, Kececioglu J and Schäffer AA (1995) “Improving the Practical Space and Time Efficiency of the Shortest-Paths Approach to Sum-of-Pairs Multiple Sequence Alignment” J Computational Biology 2(3):459-472 A NALIZA EFEKTYWNO ŚCI MSA 7 Złożoność obliczeniowa : 7 Zaj˛etość pami˛eci : 7 koszt obliczeniowy uliniowienia kilku sekwencji I -laktamaz, o długości ok. 260 reszt każda, algorytmem MSA 8H9; 8:9;=<?>!@A<B>DCFEG < G Liczba Czas Zaj˛etość Uwagi sekwencji uliniowienia [s] pami˛eci RAM [MB] 4 <1 1 BS 5 8 4 BS 6 30 6 BS 6+1 >4000 >270 6 BS + 1 NS 7 BS : blisko spokrewnione, NS : nie spokrewnione Wniosek: algorytm MSA można stosować jedynie dla kilku, stosunkowo krótkich i blisko spokrewnionych sekwencji