MSA: Multiple Sequence Alignment. BioEdit.

Transkrypt

Bioinformatyka. MSA & BioEdit
Łukasz Kościński
MSA: Multiple Sequence Alignment.
BioEdit.
Wstęp:
Mówimy o problemie alignmentu sekwencyjnego od chwili kiedy to w 1966r. zdefiniowano pojęcie
edycji dystansu między łańcuchami znaków, przez którą rozumie się minimalną liczbę operacji
(insercji, delecji lub substytucji) koniecznych do przetransformowania jednego z w/w łańcuchów
znaków w drugi. Mimo dziesiątek lat badań jest to nadal aktualny problem, który nastręcza wielu
kłopotów szerokiemu gronu badaczy.
Są dwie główne przyczyny dla których problem ten pozostaje aktualny. Pierwszy i
najważniejszy to fakt, że problem wykonywania alignmentu sekwencyjnego jest złożony z wielu
podproblemów. Już samo pojęcie alignmentu jest definiowane dwojako. W pierwszym podejściu
(szukającym pokrewieństwa między sekwencjami, a poprzez to rodowodu oraz powiązań wielu
organizmów) porównywane są pojedyncze litery i próbuje się dojść, czy różne sekwencje mogły
wywodzić się od tego samego przodka. Podejście to ma jednak wady, gdyż punktuje karnie
istnienie punktowych mutacji. Drugie podejście ocenia alignment jako dobry, jeśli przekracza on
pewien zadany próg przypadkowego podobieństwa. Kłopotem jest jednak wygenerowanie
wstępnego zbioru losowych i nielosowych sekwencji, które dawałyby programowi podstawę do
oceniania innych alignmentów. Drugi czynnik utrudniający pracę z alignmentami to wykładniczy
wzrost liczby danych w bazach sekwencji.
1
Łukasz Kościński
Rodzaje dopasowań:
–
optymalne dopasowanie – niezgodne elementy tak są rozmieszczone aby jak najwięcej
podobnych było pod sobą. Jest to oczywiście cel wszystkich algorytmów tworzących
dopasowania.
–
globalne dopasowanie – to takie dopasowanie całych sekwencji gdzie dopasowane są
wszystkie elementy sekwencji aż do końca, powstanie sekwencji o podobnych długościach.
Można zmusić do wygenerowania dopasowania globalnego wprowadzając zerowe kary za
przerwy.
–
lokalne dopasowanie – to dopasowanie tych fragmentów porównywanych sekwencji, które
wykazują największe nagromadzenie elementów zgodnych, w wyniku tego dopasowania
uzyskujemy poddopasowania o różnych długościach można doprowadzić do wygenerowania
dopasowania lokalnego wprowadzając duże kary za przerwy.
Dopasowanie 'dot matrix'
Metoda matrycy punktowej 'dot matrix' – jest to metoda dopasowania dwóch sekwencji, która
umożliwia identyfikację dużych insercji i delecji, które są widoczne jako przesunięcie w poziomie
lub w pionie przekątnej łączącej zgodne nukleotydy w porównywanych sekwencjach. Porównanie
sekwencji samej do siebie umożliwia łatwą identyfikację powtórzeń w tej samej lub w odwrotnej
orientacji. Porównanie z wynikami analiz sekwencji losowych pozwala na oszacowanie znaczenia
uzyskanych porównań. Jest to prosta graficzna metoda, przedstawia w postaci tabeli lub matrycy
(wiersze odpowiadają elementom jednej sekwencji, kolumny drugiej sekwencji).
Wersja okienkowa 'dot-matrix'
– oznaczenie zgodności lub niezgodności w obrębie okna o zadanej wielkości,
– określenie wartości granicznej w celu wyznaczenia czy porównywane fragmenty są zgodne czy
też nie
– w czasie analizy okno jest przesuwane o określoną ilość elementów : krok
np. wielkość okna 3, krok 1, wartość graniczna 2
2
Łukasz Kościński
Przykłady dot plotów (na rysunku z lewej widać przyrównanie niepowtarzalnej sekwencji do niej
samej, po prawej z kolei zaznaczony jest fragment wykresu, w którym widać, że w sekwencji A
nastąpiła insercja, bądź też w sekwencji B – delecja):
Matryce (macierze) punktowania
Wpływ systemu punktowania ma wpływ na wynik dopasowania sekwencji nukleotydowych i
białkowych.
Dopasowanie DNA to prosty system – dodatnie wartości dla zgodnych nukleotydów i ujemne dla
niezgodnych i za wprowadzanie przerw.
Dopasowanie sekwencji aminokwasowych jest trudniejsze bo trzeba stwierdzić jak często dany
aminokwas jest zamieniony na inny.
Aminokwasowe matryce podstawień.
– matryca podstawień to tabela która określa jak często dany aminokwas może być wymieniony
na inny
–
z założenia prawdopodobieństwo zmiany aminokwasu A na B jest taki samo jak B na A;
powinno ono zależeć od częstości występowania danych dwóch aminokwasów i podobieństwa
budowy fizyko-chemicznej danych aminokwasów (częstość występowania aminokwasów w
białkach jest niezmienna w ewolucji), kierunek mutacji nie jest znany.
–
Inne specyficzne matryce substytucji:
– matryce oparte na zmianach w kodzie genetycznym – zmiany na poziomie DNA
– matryce oparte na podobieństwie struktury chemicznej aminokwasów
– matryce oparte na porównaniach dwupeptydów, wpływ sąsiednich aminokwasów na ewolucję
określonego miejsca w białku.
Matryce substytucji: podsumowanie
– żadna z dostępnych obecnie matryce substytucji nie zawiera pełnej informacji umożliwiającej
optymalne dopasowanie dowolnej sekwencji
3
Łukasz Kościński
Ćwiczenia:
1. Używając metody „dot matrix” z przesuwnym oknem dokonaj analizy słowa
„ABRACADABRACADABRA”. Matryce wykonaj w arkuszu kalkulacyjnym pakietu Open
Office. Zastosuj następujące parametry:
wielkość okna = 3;
krok = 1;
wartość graniczna = 2.
Co można na tej podstawie powiedzieć o analizowanej sekwencji?
2. Na poniższym rysunku przedstawiony jest dot plot sekwencji z papai (poziomo) oraz z kiwi.
Z dopasowania sekwencyjnego widać, że w dwóch miejscach w papai brakuje jednego lub
więcej aminokwasów, natomiast w kiwi występuje jedno miejsce, w którym brakowało
jednego aminokwasu. Wskaż te miejsca na wykresie. Po czym można to poznać?
4
Łukasz Kościński
3. Na podstawie matryc PAM250 oraz BLOSUM 62:
oceń poniższy alignment:
Sekwencja 1: ANDCIWYZARGHKANDESTA
Sekwencja 2: ANWMKARZARGKKADAESTA
4. Jaka jest relacja podobieństwa pomiędzy sekwencjami, których dot plot przedstawia się
następująco:
5
Łukasz Kościński
5. W bazie danych NCBI -> Protein znajdź sekwencje aminokwasowe białek drp-1.
6. Skopiuj wszystkie wyniki wyszukiwania w do pliku o nazwie „drp1.fasta” w formacie FASTA
(powstanie plik z wieloma sekwencjami FASTA tzw. multifasta).
7. Włącz program ClustalX i otwórz w nim w/w plik multifasta.
8. Wykonaj alignment sekwencji. Jakie na jego podstawie można wysnuć wnioski?
9. Zapisz go w formacie fasta do pliku „drp1 align.fasta”.
10. Z adresu: http://www.staff.amu.edu.pl/~lucanus/BioEdit.zip ściągnij spakowany instalator
programu BioEdit, a następnie rozpakuj go na pulpicie.
11. W uzyskanym z rozpakowania katalogu, przy pomocy polecenia „wine” (Windows
Emulation) zainstaluj program BioEdit (wine nazwa_instalatora). Pod koniec instalacji
wybierz uruchomienie programu.
12. Wypróbuj tryby oglądania sekwencji (do czego mogą się przydać?):
a) „Back-colored view mode”;
b) „Information-based column shading”;
c) „Information-based background shading”;
d) „View conservation by plotting identities to a standard as a dot”;
13. Włącz tryb oglądania sekwencji: „Shade identities and similarities in alignment window”.
14. Wypróbuj jakie będzie pokolorowanie aminokwasów przy wartościach „shade threshold”
wynoszących odpowiednio: 20, 40 oraz 90 %. Jakie są obserwowalne różnice i co z tego
wynika?
15. Za pomocą funkcji Sequence -> Protein -> Amino Acid Composition wykonaj wykresy
częstości występowania aminokwasów w kilku białkach. Czy są one podobne?
16. Dla wybranej sekwencji wykonaj opcję Sequence -> Translate or Reverse Translate
(permanent). Co uzyskujemy?
17. Dla tej sekwencji wykonaj: Sequence -> Nucleic Acid -> Restriction Map
18. Na stronie http://www.rcsb.org (strona ze strukturami biomolekuł) znajdź rekord dotyczący
białka 1KCX. Następnie ściągnij jego strukturę (plik PDB) oraz sekwencję (plik FASTA).
19. W programie BioEdit otwórz w/w sekwencję a następnie wykoanj dla niej wykres
hydrofobowości Sequence -> Protein -> Kyte & Dolittle Hydrophobicity Profile. Zwróć
uwagę na rejon w okoliach aminokwasów nr 180 i 280. Co sugeruje wykres?
20. Otwórz plik PDB niniejszego białka programem PyMol (pymol „nazwa pliku”).
21. Wyświetl sekwencję dla otwartego białka Display -> Sequence, a następnie znajdź rejony
ok 183aa oraz 283aa i zaznacz je (kliknij na aminokwasie(-ach) w sekwencji a potem
literze S z boku obrazka przy stworzonym zaznaczeniu, wybierz Sticks. Zaobserwuj
analogie między wykresem hydrofobowości a strukturą.
6

MSA: Multiple Sequence Alignment. BioEdit.

Transkrypt

Podobne dokumenty

Dostrzeganie powtarzalności wydarzeń, pór roku, miesięcy

Zastosowanie metod opartych na teorii grafów do

1. Identyfikator przedmiotu: BIOINFORMATYKA

Znaczenie podobieństwa sekwencji

dr Grzegorz Koczyk, Zespół Ewolucji Funkcji Systemów

Redukcja redundancji wyników identyfikacji poprzez