wykład 6 - dopasowanie sekwencji
Transkrypt
wykład 6 - dopasowanie sekwencji
11/20/2016 Politechnika Wrocławska Politechnika Wrocławska Politechnika Wrocławska Różne kary za przerwy (gap penalty) Wykład 6 Schemat score = 0; If (gap = = true) score=score - 1; Else If (letter1 = = letter2) score=score + 1; Else score=score - 0.5; If (score<0) score=0; Cofnij ścieżką od największej wartości aż do zera Dopasowywanie lokalne Dopasowywanie wielu sekwencji Multiple Sequence Alignment (MSA) A) wysoka, Politechnika Wrocławska Global alignment: A T W A L K – O W A R D or C A T W A L K C O - W A R D Local alignment: CATWALK COWARD Kara za przerwy – schemat 2 - C A T W A L 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 0 0 O 0 0 .5 0 0 0 0 0 W 0 0 0 0 1 0 0 0 A 0 0 1 0 0 2 1 0 .5 - K R 0 0 0 .5 0 1 1.5 D 0 0 0 0 0 .5 1 0 - - C A T W A L K 0 0 0 0 0 0 0 0 C 0 O 0 W 0 A 0 R 0 D 0 B) niska Politechnika Wrocławska Smith & Waterman C C Dopasowanie lokalne sekwencji: Smith & Waterman Politechnika Wrocławska Globalne vs. lokalne score = 0; If (gap = = true) If exist score=score – big_penalty else (przedłużenie przerwy) score=score – small_penalty end Else If (letter1 = = letter2) score=score + 1; Else score=score - 0.5; If (score<0) score=0; 1 11/20/2016 Politechnika Wrocławska Politechnika Wrocławska Politechnika Wrocławska Niska złożoność sekwencji BLAST - Basic Local Alignment Search Tool Białka o niskiej złożoności sekwencji i niejednoznacznej strukturze Prion Altschul SF1, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10. NCBI – Resources / Homology /BLAST … http://blast.ncbi.nlm.nih.gov/Blast.cgi Takie białka komplikują wyznaczanie homologii Politechnika Wrocławska http://www.ebi.ac.uk/Tools/sss/ncbiblast/ Politechnika Wrocławska Politechnika Wrocławska E-wartość BLAST Problem: Jak duża jest szansa, że 2 sekwencje niehomologiczne zostaną przypadkowo wskazane jako dobrze dopasowane przez algorytm lokalnego dopasowania ? BLAST bazuje na znajdowaniu bardzo podobnych krótkich segmentów. Nie stosuje programowania dynamicznego. Zwycięstwo szybkości nad dokładnością, uproszczenie algorytmu Smitha & Watermana. • S&W zapewniał najlepsze rozwiązanie przy danym zużyciu czasu komputerowego – BLAST NIE. • Zysk: ok. 50 x Inaczej mówiąc: Jak wartościowa jest jakaś znaleziona sekwencja, wskazana w oparciu o algorytm dopasowania jako homologiczna do sekwencji zapytania (query seq.)? Np. Im dłuższa sekwencja zapytania tym łatwiej coś lokalnie trafić. E-wartość • Przyrównywana jest para sekwencji, o długościach odpowiednio m i n •Zakłada się, że przeprowadzone byłoby dopasowanie lokalne segmentów pomiędzy parą sekwencji, bez przerw (nie ma delecji lub insercji) •W granicy (dla dużych wartości m i n) oczekiwana liczba segmentów sekwencji E, które uzyskają wysoką punktację algorytmu dopasowania, równą co najmniej S, wynosi (wartość oczekiwana): E = K m n e -a S gdzie K i a są pewnymi parametrami, zależnymi od rozmiaru przeszukiwanej przestrzeni i algorytmu oceniania. • Liczbę E nazywamy E-wartością dla punktacji (score) S. 2 11/20/2016 Politechnika Wrocławska Politechnika Wrocławska Politechnika Wrocławska Jak to robi BLAST? • Wykonuje dopasowanie lokalne parami - pomiędzy sekwencją zapytania i poszczególnymi sekwencjami ze zbioru przeszukiwanego • Porządkuje malejąco sekwencje ze zbioru, wg. wartości dopasowania lokalnego S w stosunku do sekwencji zapytania • Dla każdego S, uwzględniając długości sekwencji zapytania i wyniku, wylicza E-wartość. Jest to oczekiwana liczba segmentów sekwencji, które uzyskają wynik dopasowania większy lub równy S. • Użytkownik bierze pod uwagę tylko takie sekwencje, dla których E<<1. Wtedy nie ma szansy, że jakikolwiek segment (choćby jeden) wcale nie jest homologiczny, a wyłącznie przypadkowo podobny. Politechnika Wrocławska BLAST – drzewo *Wówczas jest więcej niż jedno dopasowanie lokalne i TotalScore=MaxScore+Inny_Score+… Sytuacja * może oznaczac pseudo-gen. Politechnika Wrocławska Porównanie wielu różnych sekwencji Politechnika Wrocławska Porównanie wielu różnych sekwencji TO J E S TTAS E K W E N C JA TAMTAJ E S TTE Z S E KW E N C JA ITOTEZJESTSEKWENCJA TO J E S TTA S E K W E N C JA | | | | | | | | | | | | | | | TAMTAJ E S TTE Z S E KW E N C JA | | | | | | | | | | | | | | ITO JEST SEKWENCJA 18 3 11/20/2016 Politechnika Wrocławska Politechnika Wrocławska Test bardzo wielu sekwencji Politechnika Wrocławska Dopasowanie wielu sekwencji (Multiple Sequence Alignment) ● Bardziej wiarygodne ● rozstrzyga sytuacje niejednoznaczne dla dwóch sekwencji ● wskazuje regiony o dużym podobieństwie autor: Miguel Andrade, http://en.wikipedia.org/wiki/Multiple_sequence_alignment Politechnika Wrocławska ● Zastosowania ● poszukiwanie wzorców w danej rodzinie białek ● tworzenie drzew filogenetycznych ● wykrywanie homologii nowej sekwencji ● przewidywanie struktury przestrzennej nowej sekwencji Politechnika Wrocławska Metody • Programowanie dynamiczne • Dopasowanie hierarchiczne (klastrowanie) • Ukryte modele Markowa (Hidden Markov Models – HMM) • Metody uczenia maszynowego • Algorytmy genetyczne • Metody wykorzystujące wiedzę filogenetyczną Klastering czyli uczenie bez nadzoru Politechnika Wrocławska Z góry do dołu (klastering) Odległość pomiędzy elementami Pomiędzy elementami zbioru danych x (wektor p-cech) wyznaczane są wartości funkcji podobieństw lub niepodobieństwa d (dissimilarity; częściej) Najczęściej jest to kwadrat odległości: Jeżeli wpływ cech jest niezrównoważony to można zastosować sumę ważoną z cech (ale wj =1 nie oznacza jednakowego wpływu bo zależy od rozkładu pomiędzy cechami): 4 11/20/2016 Politechnika Wrocławska Politechnika Wrocławska Z dołu-do-góry („bottom-up”) Sposób wybierania reprezentacji podgrupy • Pojedynczego łączenia (single linkage) – maksimum podobieństwa Politechnika Wrocławska Metody scalania w dendrogramie Politechnika Wrocławska Metody scalania w dendrogramie Politechnika Wrocławska Metody scalania w dendrogramie • Pełnego łączenia (complete linkage) – minimum podobieństwa Politechnika Wrocławska Porównanie dendrogramów • Średniego podobieństwa w grupie (average linkage) 5