Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA

Transkrypt

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA
Bioinformatyka 2 (BT172)
Wykład 5
Progresywne metody wyznaczania MSA:
T-coffee
Krzysztof Murzyn
14.XI.2005
P LAN WYKŁADU
Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu
wyznaczania MSA w oparciu o programowanie dynamiczne, kryteria
oceny jakości MSA, sposoby obliczania oceny MSA, formaty
zapisywania MSA, BaliBase: referencyjna baza uliniowień
wielosekwencyjnych, edycja i wizualizacja MSA, zastosowania i
algorytm ClustalW
Dzisiaj :
omówienie algorytmu i zastosowań T-Coffee
T-C OFFEE
Tree based Consistency Objective Function For alignmEnt Evaluation
Ograniczenie wpływu bł˛ednego uliniowienia najbliżej spokrewnionych
sekwencji na jakość końcowego MSA. Na każdym etapie
progresywnego tworzenia MSA wykorzystana jest zarówno informacja
o podobieństwie mi˛edzy wszystkimi parami sekwencji jak i dodatkowa
informacja uzyskana z innych źródeł.
interfejs tekstowy i sieciowy
(http://igs-server.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)
– C. Notredame, D. Higgins, J. Heringa (2000) “T-Coffee: A novel
method for fast and accurate multiple sequence alignment” Journal
of Molecular Biology 302:205–217
– C. Notredame, L. Holme, D.G. Higgins (1998) “COFFEE: A New
Objective Function For Multiple Sequence Alignment”
Bioinformatics 14(5):407–422
A LGORYTM T-C OFFEE
1. utworzenie bibliotek pierwotnych (ang. primary libraries) zawierajacych
˛
uliniowienia lokalne i globalne par sekwencji
2. wyznaczenie i przypisanie wag uliniowieniom w bibliotekach
pierwotnych
3. kompilacja bibliotek pierwotnych oraz (opcjonalnie) bibliotek
wskazanych przez użytkownika zawierajacych
˛
dodatkowe informacje o
uliniawianych sekwencjach (np. rozmieszczenie konserwowanych
elementów struktury drugorz˛edowej, dopasowania strukturalne, r˛ecznie
skorygowane MSA, etc.)
4. rozbudowa biblioteki: ustalenie ostatecznego wpływu poszczególnych
uliniowień par sekwencji na ostateczne MSA
5. progresywne uliniowienie sekwencji z wykorzystaniem informacji
zgromadzonych w uprzednio rozbudowanej bibliotece (ang. extended
library)
A LGORYTM T- COFFEE : (1) T WORZENIE BIBLIOTEK PIERWOTNYCH
w bibliotekach pierwotnych programu T-coffee gromadzone sa˛
informacje o parach reszt wyst˛epujacych
˛
w uliniowieniach lokalnych i
globalnych wykonanych dla każdej z pośród analizowanych
sekwencji
uliniowień globalnych i nie wi˛ecej niż dziesi˛eć razy tyle
– łacznie
˛
suboptymalnych uliniowień lokalnych
globalne uliniowienie dla każdej pary sekwencji wyznaczane jest w
oparciu o algorytm ClustalW
lokalne uliniowienia (dziesi˛eć najwyżej ocenionych) dla każdej pary
sekwencji, wyznaczane jest w oparciu o algorytm Lalign (FASTA)
każde z wyznaczonych uliniowień jest reprezentowane w bibliotece jako
lista par reszt na odpowiadajacych
˛
sobie pozycjach w określonym
uliniowieniu
– każda z uliniowionych par reszt reprezentuje wi˛ezy, które b˛eda˛ narzucone w
procesie konstruowania MSA
– siła wi˛ezów zależy od jakości uliniowienia z którego pochodzi określona para reszt
A LGORYTM T- COFFEE : (2) WYZNACZANIE I PRZYPISANIE WAG
umownym wskaźnikiem
jakości każdego z
uliniowień pary sekwencji
jest odsetek identyczności
(odsetek identycznych
reszt znajdujacych
˛
si˛e na
odpowiadajacych
˛
sobie
pozycjach uliniowienia,
pozycje z przerwami w
uliniowieniu sa˛ pomijane)
A LGORYTM T- COFFEE : (3) KOMPILACJA BIBLIOTEK
biblioteki uliniowień globalnych i lokalnych zostaja˛ scalone
w obr˛ebie nakładajacych
˛
si˛e fragmentów uliniowień lokalnych i
globalnych, wagi kolejnych par reszt ulegaja˛ zwi˛ekszeniu (sumowanie
wkładów z dwóch uliniowień) po czym odpowiednie uliniowienie
lokalne jest usuwane z biblioteki (wzmocnienie sygnału w celu
oddzielenia go od szumu)
A LGORYTM T- COFFEE : (4) ROZBUDOWA BIBLIOTEKI WTÓRNEJ
celem realizowanym w tej cz˛eści algorytmu jest poszerzenie informacji
wyrażajacej
˛ si˛e w sile wi˛ezów zwiazanych
˛
z każda˛ para˛ reszt
reprezentowanych w bibliotece uliniowień o wkład innych sekwencji w
analizowanym zbiorze
problem jest numerycznie wysoce złożony i w algorytmie T-Coffee
rozwiazywany
˛
jest w oparciu o tzw. heurystyk˛e trójkowa˛ (ang. triplet
heuristics) nawiazuj
˛ ac
˛ a˛ do podobnej koncepcji zaimplementowanej w
metodzie Dialign2 (Morgenstern, 1999)
wagi dla wi˛ezów w każdym z uliniowień biblioteki wtórnej sa˛
przeliczane w zależności od cz˛estości z jaka˛ określone reszty sa˛
uliniawiane przy porównaniach obejmujacych
˛
kolejne pary sekwencji z
każda˛ spośród pozostałych sekwencji
T-C OFFEE : HEURYSTYKA TRÓJKOWA
T
T
stopień zgodności (ang.
consistency) uliniowienia
poszczególnych par reszt
wyznaczany jest w oparciu
o analiz˛e wszystkich
możliych trójek sekwencji
dla określonych par reszt,
tylko niektóre spośród
analizowanych trójek
sekwencji sa˛ informatywne
(tzn. sa˛ i takie, w których
uliniowienie par reszt nie
obejmuje wszystkich
trzech sekwencji), np.
– tryplet a:c:b nie jest
informatywny dla reszt
na odcinku LAST
sekwencji a
– tryplet a:d:b nie jest
informatywny dla reszt
na odcinkach
GARFIELD oraz LAST
T
jeśli uliniowienie określonej pary reszt znajduje potwierdzenie
w uliniowieniu z udziałem sekwencji pośredniej (np. przy
ulininiowieniu a i b poprzez c: a:c:b) waga tych par w
wyjściowym uliniowieniu (np. a:b) ulega zwi˛ekszeniu o
mniejsza˛ z wag uliniowień z sekwencja˛ pośrednia˛ (np. dla
a:c:b,
,
– stad
˛
; poczatkowa
˛
waga pary
{a(T),b(T)} (w THE) wynosi , wkład trypletu a:c:b wynosi
stad
˛ ostatecznie waga pary {a(T),b(T)} wyniesie
,
uwzgl˛edniajac
˛ wkład a:d:b, waga ta wzrośnie do
, itd.
UWVYX[Z]\A\ U_^ X Za`cbdb
U V ^ X fZ Se ig kh dj WU lV nX m =U ^ %X o ]Z d\ \
pdp
\A\
sAqdr
`nqdr
A LGORYTM T-C OFFEE : (5) KONSTRUKCJA ULINIOWIENIA
WIELOSEKWENCYJNEGO
we wtórnej bibliotece uliniowień, każdej parze reszt jest
przypisana waga b˛edaca
˛ suma˛ jej wag z bibliotek
pierwotnych oraz wag wyznaczonych na podstawie
informatywnych trójek sekwencji
stad,
˛ siła wi˛ezów zwiazanych
˛
z określona˛ para˛ reszt jest tym
wi˛eksza, im wi˛ecej jest sekwencji, których uliniowienie
obejmuje dana˛ par˛e
parom reszt nie wyst˛epujacym
˛
w bibliotece wtórnej zostaje
przypisana waga
progresywne uliniowienie sekwencji jest prowadzone w
oparciu o metod˛e programowania dynamicznego w którym
kara za utworzenie i wydłużenie przerwy wynosi a
konserwowanie reszt i ich podstawienia sa˛ oceniane na
podstawie odpowiednich wag z biblioteki wtórnej (podejście
równoważne wykorzystaniu pozycyjnie zróżnicowanego
profilu podstawień, ang. Position-Specific Substitution
Matrix, PSSM)
przy uliniawianiu bloków wst˛epnie uliniowionych
sekwencji, do oceny jakości dopasowania dwóch kolumn
wykorzystywana jest średnia wartość wag par tworzonych
przez reszty z obu kolumn
" !
# # % $ '# &
( ( )(+*
,- -, ,/.
01 024 3 065
7 8 9 : =; < 7?>A@CBED@F@
G 7 > @CBHI@F@
G 7 > @CBEJK@
L
G 7?ME@ON D @F@
G 7PM@ONEHI@F@
G 7PM @QN J @CLSR
T- COFFEE : PRZYKŁADOWE ULINIOWIENIE
t
T-C OFFEE – PODSUMOWANIE
t
t
metoda wykorzystywana do konstrukcji uliniawień niewielkiej liczby
sekwencji, ponieważ obecna implementacja algorytmu T-Coffee jest
stosunkowo wymagajaca
˛ obliczeniowo
chociaż autorzy twierdza,˛ że w porównaniu z ClustalW, T-coffee oferuje
znaczac
˛ a˛ popraw˛e jakości MSA, w praktyce – poprawa ta jest w wielu
przypadkach nieznaczna (por. BaliBase); w szczególności, nierzadkie sa˛
przypadki bł˛ednego uliniawiania sekwencji istotnie różniacych
˛
si˛e
długościa˛
niepodważalna˛ zaleta˛ T-Coffee jest możliwość wykorzystywania w
procesie uliniawiania dodatkowych źródeł informacji