Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem
Transkrypt
Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem
Optymalizacja dopasowania wielosekwencyjnego z wykorzystaniem algorytmów ewolucyjnych Michał Bereta www.michalbereta.pl Cel: Ocena użyteczności podejścia ewolucyjnego do problemu dopasowania wielu sekwencji. Sposób weryfikacji otrzymanych wyników: Użycie bazy dopasowao referencyjnych BAliBASE BAliBASE: A benchmark alignments database for the evaluation of multiple sequence alignment programs, http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE/ Zadanie Pobierz bazę BALiBASE z ftp://ftp-igbmc.u-strasbg.fr/pub/BAliBASE Zapoznaj się z celem powstania bazy i jej strukturą Oryginalna publikacja opisująca testy wybranych programów: http://nar.oxfordjournals.org/content/27/13/2682.long Testowane programy: Dopasowania referencyjne Baza BALiBASE zawiera dokładnie dopasowane do siebie zestawy sekwencji. Dopasowania te (referencyjne) powstały przez ręczne „dostrojenie” dopasowao sekwencji bazując na wiedzy biologicznej (np. strukturze 3D molekuł i ich funkcji). Testowanie algorytmów Dopasowania otrzymane w wyniku działania każdego testowanego algorytmu są porównywane z dopasowaniami referencyjnymi. Służy do tego dostarczony w postaci kodu źródłowego program „bali_score”. Wylicza on dwie wartości służące ocenie jakości dopasowania dostarczonego przez dany algorytm. Obie te oceny są w zakresie [0,1] (ocena 1 oznacza idealną zgodnośd znalezionego dopasowania z dopasowaniem referencyjnym). Oceny te to: Sum-of-pairs score Column score Sprawdź w oryginalnej publikacji jak one są liczone (str. 3). Wyniki algorytmów http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE/prog_scores.html Przykład: Struktura bazy 5 zestawów Dopasowania referencyjne znajdują się plikach w odpowiednich podkatalogach Przykład: 1aab_ref1.html o Zwród uwagę, że dostępne są numery dostępu w bazie SWISSPROT użytych sekwencji o Zaznaczone alpha helix oraz beta stand to elementy struktury drugorzędowej białka o core blocks – to kluczowe fragmenty sekwencji, które powinny byd dopasowane; informacja o nich może służyd do dalszej analizy wyników porównywanych algorytmów Samo dopasowanie znaleźd można w plikach rsf lub msf (będziemy używad formatu msf) o Dokładny opis formatu msf: http://biobug.life.nthu.edu.tw/predictprotein/Dexa/optin_msfDes.html Użycie programu bali_score Przykładowo: Zadania 1. Skompiluj program bali_score.c i sprawdź czy rzeczywiści porównując dopasowanie referencyjne z nim samym dostajemy obie oceny maksymalne (tzn. 1) 2. Zaimplementuj import/eksport formatu msf. 3. Zamplementuj podstawowe funkcjonalności do operowania na sekwencjach 4. Zaimplementuj funkcję oceny dopasowania wielosekwencyjnego (szczegóły: wykład) a. Macierze BLOSUM oraz PAM: ftp://ftp.ncbi.nih.gov/blast/matrices/ 5. Zaimplementuj algorytm zachłanny optymalizacji dopasowania wielosekwencyjnego. 6. Zaimplementuj algorytm ewolucyjny optymalizacji dopasowania wielosekwencyjnego. 7. Oceo otrzymane dopasowania programem bali_score. Uwagi: Program UGENE jest w stanie importowad format msf o Przykład dla 1aab.msf: Wykorzystując numery dostępu, program UGENE może importowad rekordy bezpośrednio z odpowiednich baz. o Przykład, dla 1aab (numery dostępu z pliku 1aab_ref1.html): W UGENE wybierz „File->Access remote database” Zaimportowane rekordy: Uwaga: Często nie całe sekwencje z rekordów zostały użyte w dopasowaniach referencyjnych BALiBASE.