Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.

Transkrypt

Bioinformatyka 2 (BT172)
Wykład 2
Uliniowienia wielosekwencyjne. Cze˛ ść I.
dr Krzysztof Murzyn
17.X.2005
P LAN WYKŁADU
1. Podstawowe definicje i zastosowania uliniowień wielosekwencyjnych
(MSA, ang. Multiple Sequence Alignment).
2. Problem złożoności obliczeniowej procesu wyznaczania MSA.
U LINIOWIENIA WIELOSEKWENCYJNE
zestawienie wielu sekwencji w
sposób najlepiej obrazujacy
˛ ich
pokrewieństwo ewolucyjne
przejawiajace
˛ si˛e w podobieństwie
własności kolejnych reszt na
odpowiadajacych
˛
sobie pozycjach
uliniowienia
wyznaczane zarówno dla sekwencji
nukleotydowych jak i
aminokwasowych
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWYQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
LSLTCTVSGTSFDD--YYSTWVRQPPG
PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG--
B IOLOGICZNE PODSTAWY
WYZNACZANIA MSA
Reszty na odpowiadajacych
˛
sobie pozycjach w
uliniowieniu wykazuja˛ podobieństwa na poziomie:
strukturalnym : reszty aminokwasowe (nukleotydowe)
w odpowiednich czasteczkach
˛
białek (kwasów
nukleinowych) wyst˛epuja˛ zwykle we fragmentach
czasteczek
˛
o tej samej strukturze przestrzennej
ewolucyjnym : wspólna przeszłość/przodek
fragmentów (np. domen) lub całych sekwencji
manifestujaca
˛ si˛e zmiennościa˛ na danej pozycji
wynikajac
˛ a˛ z utrwalonych ewolucyjnie mutacji
punktowych oraz zjawisk insercji lub delecji
funkcyjnym : ta sama rola wynikajaca
˛ z zachowanych
określonych własności fizyko-chemicznych (centra
aktywne enzymów, miejsc wiazania
˛
ligandów
drobnoczasteczkowych,
˛
rozpoznawane motywy
strukturalne, etc.)
G ŁÓWNE OBSZARY ZASTOSOWA Ń
klasyfikacja białek : wiarygodny MSA jest silny dowodem przemawiajacym
˛
za przypisaniem
nieznanej sekwencji do znanej rodziny białek
molekularna analiza filogenetyczna : odpowiedni dobór uliniawianych sekwencji pozwala
odtworzyć przebieg historii ewolucyjnej na poziomie molekularnym
identyfikacja motywów : silnie konserwowane fragmenty MSA zwykle zwiazane
˛
sa˛ z
zachowaniem określonej funkcji
regulacja ekspresji genów : scharakteryzowanie profilu zmienności w obr˛ebie miejsca
wiazania
˛
znanego czynnika transkrypcyjnego umożliwia zastosowanie go do anlizy
nieznanych rejonów promotorowych innych genów
przewidywanie struktury przestrzennej : uzyskanie wiarygodnego MSA zawierajacego
˛
przynajmniej jedna˛ sekwencj˛e o znanej strukturze przestrzennej jest skuteczna˛ metoda˛
przewidywania struktury drugorz˛edowej białek i RNA; przy wi˛ekszej liczbie takich
sekwencji, możliwe jest stworzenie wiarygodnego modelu struktury przestrzennej
określonej domeny lub białka
A MOGŁO BY Ć TAK PI EKNIE
˛
...
przebieg ewolucji sekwencji na poziomie molekularnym jest nieznany
znajomość sekwencji nie pozwala na określenie odpowiadajacej
˛ jej struktury
przestrzennej
brak jednoznacznych kryteriów pozwalajacych
˛
uznać wybrane MSA za jednynie słuszne
(tj. całkowicie poprawne)
wykorzystanie metod programowania dynamicznego z powodzeniem stosowanych w
uliniowieniach par sekwencji, już w przypadku współbieżnego uliniwawiania kilku
średniej długości sekwencji jest niewykonalne obliczeniowo
istniejace
˛ heurystyczne rozwiazania
˛
problemu wyznaczania MSA, niedość, że w wielu
przypadkach sa˛ wymagajace
˛ obliczeniowo, to z definicji nie gwarantuja˛ osiagni˛
˛ ecia
optymalnego rozwiazania
˛
najcz˛eściej stosowane metody progresywnego uliniawiania (ang. progressive alignment)
w mniejszym lub wi˛ekszym stopniu zależa˛ od liczby, rodzaju i kolejności sekwencji w
uliniawianym zbiorze oraz parametrów uliniawiania (punktacja przerw, macierz
podstawień aminokwasowych lub model ewolucji sekwencji nukleotydowych, algorytm
tworzenia drzew filogenetycznych, współczyników różnicujacych
˛
wkłady
poszczególnych sekwencji (ang. sequence weight), etc.)
C ECHY SENSOWNEGO BIOLOGICZNIE MSA
zbiór uliniawianych sekwencji jest odpowiednio zróżnicowany
(obecność sekwencji o wysokim stopniu identyczności nie wnosi nowej
informacji do MSA a może pomniejszać wkład innych sekwencji w
procesie uliniawiania)
– zróżnicowanie mi˛edzy sekwencjami w uliniawianym zbiorze (szczególnie dotyczy
to najbliżej spokrewnionych sekwencji, od uliniowienia których rozpoczyna si˛e
proces tworzenia MSA) nie może być zbyt duże w progresywnych metodach
wyznaczania MSA, poniważ bł˛edy w uliniowieniu sekwencji o marginalnym
podobieństwie sa˛ wzmacniane przy dodawaniu do MSA kolejnych sekwencji
liczba przerw jest odpowiednia (ani za duża, ani za mała :)
przerwy w MSA wyst˛epuja˛ mi˛edzy dobrze wyróżnionymi blokami, w
obr˛ebie których stopień konserwowania reszt jest możliwie wysoki lub
obserwowana zmienność reszt nie dotyczy istotnych własności
własności fizyko-chemiczne (wielkość łańcucha bocznego, ładunek,
polarność)
uliniowione sekwencje nie zawieraja˛ domen lub powtarzalnych
motywów (np. WD40, LRR w białkach lub sekwencje rozproszone
(ALU, etc.) w sekwencjach nukleotydowych)
M AŁE JEST PI EKNE
˛
...
D O NOT USE TOO MANY SEQUENCES !
6
It is difficult to COMPUTE big alignments. Public servers do not have infinite resources.
Your jobs may take a very long time to run (if it runs). For your, this makes it diffucylt to
tune parameters and check alternatives. (These are also the reasons to use standalone
programs instead of www services)
6
It is difficult to BUILD big alignments. Multiple alignment programs are not very good at
handling very large sets of sequences (MUSCLE is an exception)
6
It is difficult to DISPLAY big alignments. You cannot print them and they clog your
computer when you want to visualize them. If columns are longer than one page
interpretation becomes impossible.
6
It is difficult to USE big alignments. Tree building and structure prediction programs
cannot handle them easiy.
6
It is difficult to make ACCURATE big alignments. Multiple sequence alignment
programs make mistakes. The curse is that these mistakes do not add up, they multiply!
This is why it si easy to ruin an entire alignment with a tiny number of bad sequences. Of
course the more sequences yoyu have the more likely this is to happen.
“O PTYMALNE ” ULINIOWIENIE
WIELOSEKWENCYJNE
oczywiste uogólnienie
metody programowania
dynamicznego na
przypadek -sekwencji prowadzi do wymiarowej macierzy wyników
czastkowych
˛
zakładajac,
˛ że długość każdej z -sekwencji wynosi , macierz b˛edzie zawierać komórek
procedura wypełniania macierzy b˛edzie wiazała
˛
si˛e z koniecznościa˛
rozważenia dla każdej z komórek jej komórek ( dla dwóch
sekwencji, dla trzech, dla czterech, etc.)
pozostaje
problem wyznaczenia oceny kolejnych pozycji uliniowienia w
-wymiarowym
przypadku... Powszechnie stosowana metoda sumy par
(suma ocen uliniowień par sekwencji) nie ma uzasadnienia
matematycznego,
ponieważ stosujac
˛ macierze BLOSUM lub PAM, np.
dla
:
!#"
*
$&%')(
%
*
'
*
(,+
-
.!/"0$&%'
*
%
*
'1+
!/"0$2'3(
*
'
*
(1+
!/"4$2%5(
*
%
*
(,+
M ETODA WIELOSEKWENCYJNEGO
PROGRAMOWANIA DYNAMICZNEGO
MSA : Implementacja oparta o metod˛e programowania dynamicznego,
w której zestaw heurystyk redukuje obliczenia wartości macierzy J
jedynie do niewielkiej przestrzeni wokół jej głównej przekatnej,
˛
tym
samym budujac
˛ rozwiazanie
˛
bliskie optymalnemu; wbrew
powszechnemu przekonaniu, nie musi to być rozwiazanie
˛
dokładne,
szczególnie w przypadkach kiedy zestaw uliniawianych sekwencji
zawiera odległe homologii.
Lipman DJ, Altschul SF and Kececioglu J (1989) “A Tool for Multiple Sequence Alignment”
Proc Nat Acad Sci USA 86:4412-4415
Gupta SK, Kececioglu J and Schäffer AA (1995) “Improving the Practical Space and Time
Efficiency of the Shortest-Paths Approach to Sum-of-Pairs Multiple Sequence
Alignment” J Computational Biology 2(3):459-472
A NALIZA EFEKTYWNO ŚCI MSA
7
Złożoność obliczeniowa :
7
Zaj˛etość pami˛eci :
7
koszt obliczeniowy uliniowienia kilku sekwencji I -laktamaz, o długości
ok. 260 reszt każda, algorytmem MSA
8H9;
8:9;=<?>!@A<B>DCFEG
< G
Liczba
Czas
Zaj˛etość
Uwagi
sekwencji uliniowienia [s] pami˛eci RAM [MB]
4
<1
1
BS
5
8
4
BS
6
30
6
BS
6+1
>4000
>270
6 BS + 1 NS
7
BS : blisko spokrewnione, NS : nie spokrewnione
Wniosek: algorytm MSA można stosować jedynie dla kilku, stosunkowo
krótkich i blisko spokrewnionych sekwencji

Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c I.

Transkrypt

Podobne dokumenty

Informacja o wyborze oferty - Rejonowy Zarząd Infrastruktury Szczecin

Legalizacja aparatów powietrznych teraz 40% taniej!

Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.

Redukcja redundancji wyników identyfikacji poprzez

128/2012 z dnia 20-08-2012r. w sprawie ustalenia wysokości

Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż