Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.

Transkrypt

Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.
Bioinformatyka 2 (BT172)
Wykład 2
Uliniowienia wielosekwencyjne. Cze˛ ść I.
dr Krzysztof Murzyn
17.X.2005
P LAN WYKŁADU
1. Podstawowe definicje i zastosowania uliniowień wielosekwencyjnych
(MSA, ang. Multiple Sequence Alignment).
2. Problem złożoności obliczeniowej procesu wyznaczania MSA.
U LINIOWIENIA WIELOSEKWENCYJNE
zestawienie wielu sekwencji w
sposób najlepiej obrazujacy
˛ ich
pokrewieństwo ewolucyjne
przejawiajace
˛ si˛e w podobieństwie
własności kolejnych reszt na
odpowiadajacych
˛
sobie pozycjach
uliniowienia
wyznaczane zarówno dla sekwencji
nukleotydowych jak i
aminokwasowych
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWYQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
LSLTCTVSGTSFDD--YYSTWVRQPPG
PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG--
B IOLOGICZNE PODSTAWY
WYZNACZANIA MSA
Reszty na odpowiadajacych
˛
sobie pozycjach w
uliniowieniu wykazuja˛ podobieństwa na poziomie:
strukturalnym : reszty aminokwasowe (nukleotydowe)
w odpowiednich czasteczkach
˛
białek (kwasów
nukleinowych) wyst˛epuja˛ zwykle we fragmentach
czasteczek
˛
o tej samej strukturze przestrzennej
ewolucyjnym : wspólna przeszłość/przodek
fragmentów (np. domen) lub całych sekwencji
manifestujaca
˛ si˛e zmiennościa˛ na danej pozycji
wynikajac
˛ a˛ z utrwalonych ewolucyjnie mutacji
punktowych oraz zjawisk insercji lub delecji
funkcyjnym : ta sama rola wynikajaca
˛ z zachowanych
określonych własności fizyko-chemicznych (centra
aktywne enzymów, miejsc wiazania
˛
ligandów
drobnoczasteczkowych,
˛
rozpoznawane motywy
strukturalne, etc.)
G ŁÓWNE OBSZARY ZASTOSOWA Ń
klasyfikacja białek : wiarygodny MSA jest silny dowodem przemawiajacym
˛
za przypisaniem
nieznanej sekwencji do znanej rodziny białek
molekularna analiza filogenetyczna : odpowiedni dobór uliniawianych sekwencji pozwala
odtworzyć przebieg historii ewolucyjnej na poziomie molekularnym
identyfikacja motywów : silnie konserwowane fragmenty MSA zwykle zwiazane
˛
sa˛ z
zachowaniem określonej funkcji
regulacja ekspresji genów : scharakteryzowanie profilu zmienności w obr˛ebie miejsca
wiazania
˛
znanego czynnika transkrypcyjnego umożliwia zastosowanie go do anlizy
nieznanych rejonów promotorowych innych genów
przewidywanie struktury przestrzennej : uzyskanie wiarygodnego MSA zawierajacego
˛
przynajmniej jedna˛ sekwencj˛e o znanej strukturze przestrzennej jest skuteczna˛ metoda˛
przewidywania struktury drugorz˛edowej białek i RNA; przy wi˛ekszej liczbie takich
sekwencji, możliwe jest stworzenie wiarygodnego modelu struktury przestrzennej
określonej domeny lub białka
A MOGŁO BY Ć TAK PI EKNIE
˛
...
przebieg ewolucji sekwencji na poziomie molekularnym jest nieznany
znajomość sekwencji nie pozwala na określenie odpowiadajacej
˛ jej struktury
przestrzennej
brak jednoznacznych kryteriów pozwalajacych
˛
uznać wybrane MSA za jednynie słuszne
(tj. całkowicie poprawne)
wykorzystanie metod programowania dynamicznego z powodzeniem stosowanych w
uliniowieniach par sekwencji, już w przypadku współbieżnego uliniwawiania kilku
średniej długości sekwencji jest niewykonalne obliczeniowo
istniejace
˛ heurystyczne rozwiazania
˛
problemu wyznaczania MSA, niedość, że w wielu
przypadkach sa˛ wymagajace
˛ obliczeniowo, to z definicji nie gwarantuja˛ osiagni˛
˛ ecia
optymalnego rozwiazania
˛
najcz˛eściej stosowane metody progresywnego uliniawiania (ang. progressive alignment)
w mniejszym lub wi˛ekszym stopniu zależa˛ od liczby, rodzaju i kolejności sekwencji w
uliniawianym zbiorze oraz parametrów uliniawiania (punktacja przerw, macierz
podstawień aminokwasowych lub model ewolucji sekwencji nukleotydowych, algorytm
tworzenia drzew filogenetycznych, współczyników różnicujacych
˛
wkłady
poszczególnych sekwencji (ang. sequence weight), etc.)
C ECHY SENSOWNEGO BIOLOGICZNIE MSA
zbiór uliniawianych sekwencji jest odpowiednio zróżnicowany
(obecność sekwencji o wysokim stopniu identyczności nie wnosi nowej
informacji do MSA a może pomniejszać wkład innych sekwencji w
procesie uliniawiania)
– zróżnicowanie mi˛edzy sekwencjami w uliniawianym zbiorze (szczególnie dotyczy
to najbliżej spokrewnionych sekwencji, od uliniowienia których rozpoczyna si˛e
proces tworzenia MSA) nie może być zbyt duże w progresywnych metodach
wyznaczania MSA, poniważ bł˛edy w uliniowieniu sekwencji o marginalnym
podobieństwie sa˛ wzmacniane przy dodawaniu do MSA kolejnych sekwencji
liczba przerw jest odpowiednia (ani za duża, ani za mała :)
przerwy w MSA wyst˛epuja˛ mi˛edzy dobrze wyróżnionymi blokami, w
obr˛ebie których stopień konserwowania reszt jest możliwie wysoki lub
obserwowana zmienność reszt nie dotyczy istotnych własności
własności fizyko-chemiczne (wielkość łańcucha bocznego, ładunek,
polarność)
uliniowione sekwencje nie zawieraja˛ domen lub powtarzalnych
motywów (np. WD40, LRR w białkach lub sekwencje rozproszone
(ALU, etc.) w sekwencjach nukleotydowych)
M AŁE JEST PI EKNE
˛
...
D O NOT USE TOO MANY SEQUENCES !
6
It is difficult to COMPUTE big alignments. Public servers do not have infinite resources.
Your jobs may take a very long time to run (if it runs). For your, this makes it diffucylt to
tune parameters and check alternatives. (These are also the reasons to use standalone
programs instead of www services)
6
It is difficult to BUILD big alignments. Multiple alignment programs are not very good at
handling very large sets of sequences (MUSCLE is an exception)
6
It is difficult to DISPLAY big alignments. You cannot print them and they clog your
computer when you want to visualize them. If columns are longer than one page
interpretation becomes impossible.
6
It is difficult to USE big alignments. Tree building and structure prediction programs
cannot handle them easiy.
6
It is difficult to make ACCURATE big alignments. Multiple sequence alignment
programs make mistakes. The curse is that these mistakes do not add up, they multiply!
This is why it si easy to ruin an entire alignment with a tiny number of bad sequences. Of
course the more sequences yoyu have the more likely this is to happen.
“O PTYMALNE ” ULINIOWIENIE
WIELOSEKWENCYJNE
oczywiste uogólnienie
metody programowania
dynamicznego na
przypadek -sekwencji prowadzi do wymiarowej macierzy wyników
czastkowych
˛
zakładajac,
˛ że długość każdej z -sekwencji wynosi , macierz b˛edzie zawierać komórek
procedura wypełniania macierzy b˛edzie wiazała
˛
si˛e z koniecznościa˛
rozważenia dla każdej z komórek jej komórek ( dla dwóch
sekwencji, dla trzech, dla czterech, etc.)
pozostaje
problem wyznaczenia oceny kolejnych pozycji uliniowienia w
-wymiarowym
przypadku... Powszechnie stosowana metoda sumy par
(suma ocen uliniowień par sekwencji) nie ma uzasadnienia
matematycznego,
ponieważ stosujac
˛ macierze BLOSUM lub PAM, np.
dla
:
!#"
*
$&%')(
%
*
'
*
(,+
-
.!/"0$&%'
*
%
*
'1+
!/"0$2'3(
*
'
*
(1+
!/"4$2%5(
*
%
*
(,+
M ETODA WIELOSEKWENCYJNEGO
PROGRAMOWANIA DYNAMICZNEGO
MSA : Implementacja oparta o metod˛e programowania dynamicznego,
w której zestaw heurystyk redukuje obliczenia wartości macierzy J
jedynie do niewielkiej przestrzeni wokół jej głównej przekatnej,
˛
tym
samym budujac
˛ rozwiazanie
˛
bliskie optymalnemu; wbrew
powszechnemu przekonaniu, nie musi to być rozwiazanie
˛
dokładne,
szczególnie w przypadkach kiedy zestaw uliniawianych sekwencji
zawiera odległe homologii.
Lipman DJ, Altschul SF and Kececioglu J (1989) “A Tool for Multiple Sequence Alignment”
Proc Nat Acad Sci USA 86:4412-4415
Gupta SK, Kececioglu J and Schäffer AA (1995) “Improving the Practical Space and Time
Efficiency of the Shortest-Paths Approach to Sum-of-Pairs Multiple Sequence
Alignment” J Computational Biology 2(3):459-472
A NALIZA EFEKTYWNO ŚCI MSA
7
Złożoność obliczeniowa :
7
Zaj˛etość pami˛eci :
7
koszt obliczeniowy uliniowienia kilku sekwencji I -laktamaz, o długości
ok. 260 reszt każda, algorytmem MSA
8H9;
8:9;=<?>!@A<B>DCFEG
< G
Liczba
Czas
Zaj˛etość
Uwagi
sekwencji uliniowienia [s] pami˛eci RAM [MB]
4
<1
1
BS
5
8
4
BS
6
30
6
BS
6+1
>4000
>270
6 BS + 1 NS
7
BS : blisko spokrewnione, NS : nie spokrewnione
Wniosek: algorytm MSA można stosować jedynie dla kilku, stosunkowo
krótkich i blisko spokrewnionych sekwencji

Podobne dokumenty