MSA: Multiple Sequence Alignment. BioEdit.
Transkrypt
MSA: Multiple Sequence Alignment. BioEdit.
Bioinformatyka. MSA & BioEdit Łukasz Kościński MSA: Multiple Sequence Alignment. BioEdit. Wstęp: Mówimy o problemie alignmentu sekwencyjnego od chwili kiedy to w 1966r. zdefiniowano pojęcie edycji dystansu między łańcuchami znaków, przez którą rozumie się minimalną liczbę operacji (insercji, delecji lub substytucji) koniecznych do przetransformowania jednego z w/w łańcuchów znaków w drugi. Mimo dziesiątek lat badań jest to nadal aktualny problem, który nastręcza wielu kłopotów szerokiemu gronu badaczy. Są dwie główne przyczyny dla których problem ten pozostaje aktualny. Pierwszy i najważniejszy to fakt, że problem wykonywania alignmentu sekwencyjnego jest złożony z wielu podproblemów. Już samo pojęcie alignmentu jest definiowane dwojako. W pierwszym podejściu (szukającym pokrewieństwa między sekwencjami, a poprzez to rodowodu oraz powiązań wielu organizmów) porównywane są pojedyncze litery i próbuje się dojść, czy różne sekwencje mogły wywodzić się od tego samego przodka. Podejście to ma jednak wady, gdyż punktuje karnie istnienie punktowych mutacji. Drugie podejście ocenia alignment jako dobry, jeśli przekracza on pewien zadany próg przypadkowego podobieństwa. Kłopotem jest jednak wygenerowanie wstępnego zbioru losowych i nielosowych sekwencji, które dawałyby programowi podstawę do oceniania innych alignmentów. Drugi czynnik utrudniający pracę z alignmentami to wykładniczy wzrost liczby danych w bazach sekwencji. 1 Bioinformatyka. MSA & BioEdit Łukasz Kościński Rodzaje dopasowań: – optymalne dopasowanie – niezgodne elementy tak są rozmieszczone aby jak najwięcej podobnych było pod sobą. Jest to oczywiście cel wszystkich algorytmów tworzących dopasowania. – globalne dopasowanie – to takie dopasowanie całych sekwencji gdzie dopasowane są wszystkie elementy sekwencji aż do końca, powstanie sekwencji o podobnych długościach. Można zmusić do wygenerowania dopasowania globalnego wprowadzając zerowe kary za przerwy. – lokalne dopasowanie – to dopasowanie tych fragmentów porównywanych sekwencji, które wykazują największe nagromadzenie elementów zgodnych, w wyniku tego dopasowania uzyskujemy poddopasowania o różnych długościach można doprowadzić do wygenerowania dopasowania lokalnego wprowadzając duże kary za przerwy. Dopasowanie 'dot matrix' Metoda matrycy punktowej 'dot matrix' – jest to metoda dopasowania dwóch sekwencji, która umożliwia identyfikację dużych insercji i delecji, które są widoczne jako przesunięcie w poziomie lub w pionie przekątnej łączącej zgodne nukleotydy w porównywanych sekwencjach. Porównanie sekwencji samej do siebie umożliwia łatwą identyfikację powtórzeń w tej samej lub w odwrotnej orientacji. Porównanie z wynikami analiz sekwencji losowych pozwala na oszacowanie znaczenia uzyskanych porównań. Jest to prosta graficzna metoda, przedstawia w postaci tabeli lub matrycy (wiersze odpowiadają elementom jednej sekwencji, kolumny drugiej sekwencji). Wersja okienkowa 'dot-matrix' – oznaczenie zgodności lub niezgodności w obrębie okna o zadanej wielkości, – określenie wartości granicznej w celu wyznaczenia czy porównywane fragmenty są zgodne czy też nie – w czasie analizy okno jest przesuwane o określoną ilość elementów : krok np. wielkość okna 3, krok 1, wartość graniczna 2 2 Bioinformatyka. MSA & BioEdit Łukasz Kościński Przykłady dot plotów (na rysunku z lewej widać przyrównanie niepowtarzalnej sekwencji do niej samej, po prawej z kolei zaznaczony jest fragment wykresu, w którym widać, że w sekwencji A nastąpiła insercja, bądź też w sekwencji B – delecja): Matryce (macierze) punktowania Wpływ systemu punktowania ma wpływ na wynik dopasowania sekwencji nukleotydowych i białkowych. Dopasowanie DNA to prosty system – dodatnie wartości dla zgodnych nukleotydów i ujemne dla niezgodnych i za wprowadzanie przerw. Dopasowanie sekwencji aminokwasowych jest trudniejsze bo trzeba stwierdzić jak często dany aminokwas jest zamieniony na inny. Aminokwasowe matryce podstawień. – matryca podstawień to tabela która określa jak często dany aminokwas może być wymieniony na inny – z założenia prawdopodobieństwo zmiany aminokwasu A na B jest taki samo jak B na A; powinno ono zależeć od częstości występowania danych dwóch aminokwasów i podobieństwa budowy fizyko-chemicznej danych aminokwasów (częstość występowania aminokwasów w białkach jest niezmienna w ewolucji), kierunek mutacji nie jest znany. – Inne specyficzne matryce substytucji: – matryce oparte na zmianach w kodzie genetycznym – zmiany na poziomie DNA – matryce oparte na podobieństwie struktury chemicznej aminokwasów – matryce oparte na porównaniach dwupeptydów, wpływ sąsiednich aminokwasów na ewolucję określonego miejsca w białku. Matryce substytucji: podsumowanie – żadna z dostępnych obecnie matryce substytucji nie zawiera pełnej informacji umożliwiającej optymalne dopasowanie dowolnej sekwencji 3 Bioinformatyka. MSA & BioEdit Łukasz Kościński Ćwiczenia: 1. Używając metody „dot matrix” z przesuwnym oknem dokonaj analizy słowa „ABRACADABRACADABRA”. Matryce wykonaj w arkuszu kalkulacyjnym pakietu Open Office. Zastosuj następujące parametry: wielkość okna = 3; krok = 1; wartość graniczna = 2. Co można na tej podstawie powiedzieć o analizowanej sekwencji? 2. Na poniższym rysunku przedstawiony jest dot plot sekwencji z papai (poziomo) oraz z kiwi. Z dopasowania sekwencyjnego widać, że w dwóch miejscach w papai brakuje jednego lub więcej aminokwasów, natomiast w kiwi występuje jedno miejsce, w którym brakowało jednego aminokwasu. Wskaż te miejsca na wykresie. Po czym można to poznać? 4 Bioinformatyka. MSA & BioEdit Łukasz Kościński 3. Na podstawie matryc PAM250 oraz BLOSUM 62: oceń poniższy alignment: Sekwencja 1: ANDCIWYZARGHKANDESTA Sekwencja 2: ANWMKARZARGKKADAESTA 4. Jaka jest relacja podobieństwa pomiędzy sekwencjami, których dot plot przedstawia się następująco: 5 Bioinformatyka. MSA & BioEdit Łukasz Kościński 5. W bazie danych NCBI -> Protein znajdź sekwencje aminokwasowe białek drp-1. 6. Skopiuj wszystkie wyniki wyszukiwania w do pliku o nazwie „drp1.fasta” w formacie FASTA (powstanie plik z wieloma sekwencjami FASTA tzw. multifasta). 7. Włącz program ClustalX i otwórz w nim w/w plik multifasta. 8. Wykonaj alignment sekwencji. Jakie na jego podstawie można wysnuć wnioski? 9. Zapisz go w formacie fasta do pliku „drp1 align.fasta”. 10. Z adresu: http://www.staff.amu.edu.pl/~lucanus/BioEdit.zip ściągnij spakowany instalator programu BioEdit, a następnie rozpakuj go na pulpicie. 11. W uzyskanym z rozpakowania katalogu, przy pomocy polecenia „wine” (Windows Emulation) zainstaluj program BioEdit (wine nazwa_instalatora). Pod koniec instalacji wybierz uruchomienie programu. 12. Wypróbuj tryby oglądania sekwencji (do czego mogą się przydać?): a) „Back-colored view mode”; b) „Information-based column shading”; c) „Information-based background shading”; d) „View conservation by plotting identities to a standard as a dot”; 13. Włącz tryb oglądania sekwencji: „Shade identities and similarities in alignment window”. 14. Wypróbuj jakie będzie pokolorowanie aminokwasów przy wartościach „shade threshold” wynoszących odpowiednio: 20, 40 oraz 90 %. Jakie są obserwowalne różnice i co z tego wynika? 15. Za pomocą funkcji Sequence -> Protein -> Amino Acid Composition wykonaj wykresy częstości występowania aminokwasów w kilku białkach. Czy są one podobne? 16. Dla wybranej sekwencji wykonaj opcję Sequence -> Translate or Reverse Translate (permanent). Co uzyskujemy? 17. Dla tej sekwencji wykonaj: Sequence -> Nucleic Acid -> Restriction Map 18. Na stronie http://www.rcsb.org (strona ze strukturami biomolekuł) znajdź rekord dotyczący białka 1KCX. Następnie ściągnij jego strukturę (plik PDB) oraz sekwencję (plik FASTA). 19. W programie BioEdit otwórz w/w sekwencję a następnie wykoanj dla niej wykres hydrofobowości Sequence -> Protein -> Kyte & Dolittle Hydrophobicity Profile. Zwróć uwagę na rejon w okoliach aminokwasów nr 180 i 280. Co sugeruje wykres? 20. Otwórz plik PDB niniejszego białka programem PyMol (pymol „nazwa pliku”). 21. Wyświetl sekwencję dla otwartego białka Display -> Sequence, a następnie znajdź rejony ok 183aa oraz 283aa i zaznacz je (kliknij na aminokwasie(-ach) w sekwencji a potem literze S z boku obrazka przy stworzonym zaznaczeniu, wybierz Sticks. Zaobserwuj analogie między wykresem hydrofobowości a strukturą. 6