Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem

Transkrypt

Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem
Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem algorytmów ewolucyjnych
Michał Bereta
www.michalbereta.pl
Cel:
Ocena użyteczności podejścia ewolucyjnego do problemu dopasowania wielu sekwencji.
Sposób weryfikacji otrzymanych wyników:


Użycie bazy dopasowao referencyjnych BAliBASE
BAliBASE: A benchmark alignments database for the evaluation of multiple sequence alignment
programs, http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE/
Zadanie



Pobierz bazę BALiBASE z ftp://ftp-igbmc.u-strasbg.fr/pub/BAliBASE
Zapoznaj się z celem powstania bazy i jej strukturą
Oryginalna publikacja opisująca testy wybranych programów:
http://nar.oxfordjournals.org/content/27/13/2682.long
Testowane programy:
Dopasowania referencyjne
Baza BALiBASE zawiera dokładnie dopasowane do siebie zestawy sekwencji. Dopasowania te
(referencyjne) powstały przez ręczne „dostrojenie” dopasowao sekwencji bazując na wiedzy biologicznej
(np. strukturze 3D molekuł i ich funkcji).
Testowanie algorytmów
Dopasowania otrzymane w wyniku działania każdego testowanego algorytmu są porównywane z
dopasowaniami referencyjnymi. Służy do tego dostarczony w postaci kodu źródłowego program
„bali_score”. Wylicza on dwie wartości służące ocenie jakości dopasowania dostarczonego przez dany
algorytm. Obie te oceny są w zakresie [0,1] (ocena 1 oznacza idealną zgodnośd znalezionego
dopasowania z dopasowaniem referencyjnym). Oceny te to:


Sum-of-pairs score
Column score
Sprawdź w oryginalnej publikacji jak one są liczone (str. 3).
Wyniki algorytmów


http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE/prog_scores.html
Przykład:
Struktura bazy

5 zestawów


Dopasowania referencyjne znajdują się plikach w odpowiednich podkatalogach
Przykład: 1aab_ref1.html
o Zwród uwagę, że dostępne są numery dostępu w bazie SWISSPROT użytych sekwencji
o Zaznaczone alpha helix oraz beta stand to elementy struktury drugorzędowej białka
o core blocks – to kluczowe fragmenty sekwencji, które powinny byd dopasowane;
informacja o nich może służyd do dalszej analizy wyników porównywanych algorytmów

Samo dopasowanie znaleźd można w plikach rsf lub msf (będziemy używad formatu msf)
o Dokładny opis formatu msf:
http://biobug.life.nthu.edu.tw/predictprotein/Dexa/optin_msfDes.html
Użycie programu bali_score
Przykładowo:
Zadania
1. Skompiluj program bali_score.c i sprawdź czy rzeczywiści porównując dopasowanie referencyjne
z nim samym dostajemy obie oceny maksymalne (tzn. 1)
2. Zaimplementuj import/eksport formatu msf.
3. Zamplementuj podstawowe funkcjonalności do operowania na sekwencjach
4. Zaimplementuj funkcję oceny dopasowania wielosekwencyjnego (szczegóły: wykład)
a. Macierze BLOSUM oraz PAM: ftp://ftp.ncbi.nih.gov/blast/matrices/
5. Zaimplementuj algorytm zachłanny optymalizacji dopasowania wielosekwencyjnego.
6. Zaimplementuj algorytm ewolucyjny optymalizacji dopasowania wielosekwencyjnego.
7. Oceo otrzymane dopasowania programem bali_score.
Uwagi:

Program UGENE jest w stanie importowad format msf
o Przykład dla 1aab.msf:

Wykorzystując numery dostępu, program UGENE może importowad rekordy bezpośrednio z
odpowiednich baz.
o Przykład, dla 1aab (numery dostępu z pliku 1aab_ref1.html):

W UGENE wybierz „File->Access remote database”

Zaimportowane rekordy:
Uwaga: Często nie całe sekwencje z rekordów zostały użyte w dopasowaniach referencyjnych
BALiBASE.

Podobne dokumenty