Bioinformatyka

Transkrypt

Bioinformatyka

Bioinformatyka
Dopasowanie wielu sekwencji w programie UGENE
www.michalbereta.pl
1. Porównanie algorytmów dopasowania wielu sekwencji
a. ClustalW
b. MAFFT
c. T-Coffee
d. Kalign
Uwaga: W nowej wersji programu UGENE dostępny jest również algorytm MUSCLE. Wykonaj obliczenia
również dla niego.
Uwaga: W celu wygodniejszego nawigowania pomiędzy wieloma panelami, wybierz
„Settings->Preferences” a następnie „Tabbed documents”:
Wczytaj do programu UGENE dane z pliku CytBDNA.txt.
1
Kliknij prawym przyciskiem myszy (PPM) na „CytBDNA.txt” na panelu „Project” i wybierz „Export->Export
sequences as alignment”
UWAGA: podaj poprawną ścieżkę - plik zapisz w katalogu, w którym posiadasz uprawnienia.
Nowy plik z dopasowaniem („przyklad1.aln”) zostanie dodany do projektu:
2
Przetestuj dostępne w UGENE algorytmy dopasowania wielu sekwencji:
a.
b.
c.
d.
ClustalW
MAFFT
T-Coffee
Kalign
Który z nich jest najszybszy, a który najwolniejszy? Czy wszysktie algorytmy dają ten sam wynik?
W zakładce “Tasks” można obserwowad postęp prac uruchomionego zadania:
3
Przykładowe wyniki:
ClustalW:
MAFFT:
T-Coffee:
4
Kalign:
5
2. Zadanie:
Powtórz obliczenia z punktu (1) dla danych z pliku „data\samples\CLUSTALW\ty3.aln.gz” z katalogu
instalacyjnego UGENE.
Jak widad (wskazanie kursora powyżej) mamy teraz 201 sekwencji.
Uwaga: kolejne algorytmy można uruchamiad na wczytanych danych jak powyżej. Można również
kliknąd PPM i wybrad „Edit->Remove all gaps” aby usunąd wcześniejsze dopasowanie:
a) Z powyższego odczytaj, jaka jest długośd najkrótszej i najdłuższej sekwencji. Które to są
sekwencje?
b) Czy algorytmy dopasowania wielu sekwencji dają te same wyniki?
c) Czy jest znaczna różnica w czasie wykonania przez nich obliczeo?
6
Więcej informacji o algorytmach:
T-Coffee
http://en.wikipedia.org/wiki/T-Coffee
http://www.tcoffee.org/
MAFFT
http://en.wikipedia.org/wiki/MAFFT
http://mafft.cbrc.jp/alignment/software/
Kalign
http://msa.sbc.su.se/cgi-bin/msa.cgi
http://www.ncbi.nlm.nih.gov/pubmed/16343337?dopt=AbstractPlus
7

Bioinformatyka

Transkrypt

Podobne dokumenty

Protein alignment

dr Grzegorz Koczyk, Zespół Ewolucji Funkcji Systemów

Redukcja redundancji wyników identyfikacji poprzez

Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż

1. Identyfikator przedmiotu: BIOINFORMATYKA