Bioinformatyka
Transkrypt
Bioinformatyka
Bioinformatyka Dopasowanie wielu sekwencji w programie UGENE www.michalbereta.pl 1. Porównanie algorytmów dopasowania wielu sekwencji a. ClustalW b. MAFFT c. T-Coffee d. Kalign Uwaga: W nowej wersji programu UGENE dostępny jest również algorytm MUSCLE. Wykonaj obliczenia również dla niego. Uwaga: W celu wygodniejszego nawigowania pomiędzy wieloma panelami, wybierz „Settings->Preferences” a następnie „Tabbed documents”: Wczytaj do programu UGENE dane z pliku CytBDNA.txt. 1 Kliknij prawym przyciskiem myszy (PPM) na „CytBDNA.txt” na panelu „Project” i wybierz „Export->Export sequences as alignment” UWAGA: podaj poprawną ścieżkę - plik zapisz w katalogu, w którym posiadasz uprawnienia. Nowy plik z dopasowaniem („przyklad1.aln”) zostanie dodany do projektu: 2 Przetestuj dostępne w UGENE algorytmy dopasowania wielu sekwencji: a. b. c. d. ClustalW MAFFT T-Coffee Kalign Który z nich jest najszybszy, a który najwolniejszy? Czy wszysktie algorytmy dają ten sam wynik? W zakładce “Tasks” można obserwowad postęp prac uruchomionego zadania: 3 Przykładowe wyniki: ClustalW: MAFFT: T-Coffee: 4 Kalign: 5 2. Zadanie: Powtórz obliczenia z punktu (1) dla danych z pliku „data\samples\CLUSTALW\ty3.aln.gz” z katalogu instalacyjnego UGENE. Jak widad (wskazanie kursora powyżej) mamy teraz 201 sekwencji. Uwaga: kolejne algorytmy można uruchamiad na wczytanych danych jak powyżej. Można również kliknąd PPM i wybrad „Edit->Remove all gaps” aby usunąd wcześniejsze dopasowanie: a) Z powyższego odczytaj, jaka jest długośd najkrótszej i najdłuższej sekwencji. Które to są sekwencje? b) Czy algorytmy dopasowania wielu sekwencji dają te same wyniki? c) Czy jest znaczna różnica w czasie wykonania przez nich obliczeo? 6 Więcej informacji o algorytmach: T-Coffee http://en.wikipedia.org/wiki/T-Coffee http://www.tcoffee.org/ MAFFT http://en.wikipedia.org/wiki/MAFFT http://mafft.cbrc.jp/alignment/software/ Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi http://www.ncbi.nlm.nih.gov/pubmed/16343337?dopt=AbstractPlus 7