wykład 6 - dopasowanie sekwencji

Transkrypt

wykład 6 - dopasowanie sekwencji
11/20/2016
Politechnika Wrocławska
Politechnika Wrocławska
Politechnika Wrocławska
Różne kary za przerwy (gap penalty)
Wykład 6
Schemat
score = 0;
If (gap = = true)
score=score - 1;
Else
If (letter1 = = letter2)
score=score + 1;
Else
score=score - 0.5;
If (score<0)
score=0;
Cofnij ścieżką od największej
wartości aż do zera
Dopasowywanie lokalne
Dopasowywanie wielu sekwencji
Multiple Sequence Alignment (MSA)
A) wysoka,
Politechnika Wrocławska
Global alignment:
A T W A L K
– O W A R D
or
C A T W A L K
C O - W A R D
Local alignment:
CATWALK
COWARD
Kara za przerwy – schemat 2
-
C A T W A L
0
0
0
0
0
0
0
0
C 0
1
0
0
0
0
0
0
O 0
0
.5 0
0
0
0
0
W 0
0
0
0
1
0
0
0
A 0
0
1
0
0
2
1
0
.5
-
K
R 0
0
0
.5 0
1
1.5
D 0
0
0
0
0
.5 1
0
-
-
C A T W A L
K
0
0
0
0
0
0
0
0
C 0
O 0
W 0
A 0
R 0
D 0
B) niska
Politechnika Wrocławska
Smith & Waterman
C
C
Dopasowanie lokalne sekwencji:
Smith & Waterman
Politechnika Wrocławska
Globalne vs. lokalne
score = 0;
If (gap = = true)
If exist
score=score – big_penalty
else (przedłużenie przerwy)
score=score – small_penalty
end
Else
If (letter1 = = letter2)
score=score + 1;
Else
score=score - 0.5;
If (score<0)
score=0;
1
11/20/2016
Politechnika Wrocławska
Politechnika Wrocławska
Politechnika Wrocławska
Niska złożoność sekwencji
BLAST - Basic Local Alignment Search Tool
Białka o niskiej złożoności sekwencji i
niejednoznacznej strukturze
Prion
Altschul SF1, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool.
J Mol Biol. 1990 Oct 5;215(3):403-10.
NCBI – Resources / Homology /BLAST …
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Takie białka komplikują wyznaczanie homologii
Politechnika Wrocławska
http://www.ebi.ac.uk/Tools/sss/ncbiblast/
Politechnika Wrocławska
Politechnika Wrocławska
E-wartość
BLAST
Problem:
Jak duża jest szansa, że 2 sekwencje
niehomologiczne zostaną przypadkowo wskazane
jako dobrze dopasowane przez algorytm lokalnego
dopasowania ?
BLAST bazuje na znajdowaniu bardzo podobnych krótkich segmentów.
Nie stosuje programowania dynamicznego.
Zwycięstwo szybkości nad dokładnością, uproszczenie algorytmu Smitha &
Watermana.
• S&W zapewniał najlepsze rozwiązanie przy danym zużyciu czasu
komputerowego – BLAST NIE.
• Zysk: ok. 50 x
Inaczej mówiąc:
Jak wartościowa jest jakaś znaleziona sekwencja,
wskazana w oparciu o algorytm dopasowania jako
homologiczna do sekwencji zapytania (query seq.)?
Np. Im dłuższa sekwencja zapytania tym łatwiej coś
lokalnie trafić.
E-wartość
• Przyrównywana jest para sekwencji, o długościach
odpowiednio m i n
•Zakłada się, że przeprowadzone byłoby dopasowanie lokalne
segmentów pomiędzy parą sekwencji, bez przerw (nie ma
delecji lub insercji)
•W granicy (dla dużych wartości m i n) oczekiwana liczba
segmentów sekwencji E, które uzyskają wysoką punktację
algorytmu dopasowania, równą co najmniej S, wynosi
(wartość oczekiwana):
E = K m n e -a S
gdzie K i a są pewnymi parametrami, zależnymi od rozmiaru
przeszukiwanej przestrzeni i algorytmu oceniania.
• Liczbę E nazywamy E-wartością dla punktacji (score) S.
2
11/20/2016
Politechnika Wrocławska
Politechnika Wrocławska
Politechnika Wrocławska
Jak to robi BLAST?
• Wykonuje dopasowanie lokalne parami - pomiędzy
sekwencją zapytania i poszczególnymi sekwencjami ze
zbioru przeszukiwanego
• Porządkuje malejąco sekwencje ze zbioru, wg. wartości
dopasowania lokalnego S w stosunku do sekwencji
zapytania
• Dla każdego S, uwzględniając długości sekwencji zapytania i
wyniku, wylicza E-wartość. Jest to oczekiwana liczba
segmentów sekwencji, które uzyskają wynik dopasowania
większy lub równy S.
• Użytkownik bierze pod uwagę tylko takie sekwencje, dla
których E<<1. Wtedy nie ma szansy, że jakikolwiek segment
(choćby jeden) wcale nie jest homologiczny, a wyłącznie
przypadkowo podobny.
Politechnika Wrocławska
BLAST – drzewo
*Wówczas jest więcej niż jedno dopasowanie
lokalne i
TotalScore=MaxScore+Inny_Score+…
Sytuacja * może oznaczac pseudo-gen.
Politechnika Wrocławska
Porównanie wielu różnych sekwencji
Politechnika Wrocławska
Porównanie wielu różnych sekwencji
TO J E S TTAS E K W E N C JA
TAMTAJ E S TTE Z S E KW E N C JA
ITOTEZJESTSEKWENCJA
TO
J E S TTA S E K W E N C JA
|
| | | | |
| | | | | | | | |
TAMTAJ E S TTE Z S E KW E N C JA
|
| | | |
| | | | | | | | |
ITO
JEST
SEKWENCJA
18
3
11/20/2016
Politechnika Wrocławska
Politechnika Wrocławska
Test bardzo wielu sekwencji
Politechnika Wrocławska
Dopasowanie wielu sekwencji
(Multiple Sequence Alignment)
● Bardziej wiarygodne
● rozstrzyga sytuacje niejednoznaczne dla dwóch
sekwencji
● wskazuje regiony o dużym podobieństwie
autor: Miguel Andrade, http://en.wikipedia.org/wiki/Multiple_sequence_alignment
Politechnika Wrocławska
● Zastosowania
● poszukiwanie wzorców w danej rodzinie białek
● tworzenie drzew filogenetycznych
● wykrywanie homologii nowej sekwencji
● przewidywanie struktury przestrzennej nowej
sekwencji
Politechnika Wrocławska
Metody
• Programowanie dynamiczne
• Dopasowanie hierarchiczne (klastrowanie)
• Ukryte modele Markowa (Hidden Markov Models
– HMM)
• Metody uczenia maszynowego
• Algorytmy genetyczne
• Metody wykorzystujące wiedzę filogenetyczną
Klastering czyli uczenie bez nadzoru
Politechnika Wrocławska
Z góry do dołu (klastering)
Odległość pomiędzy elementami
Pomiędzy elementami zbioru danych x (wektor p-cech) wyznaczane są
wartości funkcji podobieństw lub niepodobieństwa d (dissimilarity; częściej)
Najczęściej jest to kwadrat odległości:
Jeżeli wpływ cech jest niezrównoważony to można zastosować sumę
ważoną z cech (ale wj =1 nie oznacza jednakowego wpływu bo zależy od
rozkładu pomiędzy cechami):
4
11/20/2016
Politechnika Wrocławska
Politechnika Wrocławska
Z dołu-do-góry („bottom-up”)
Sposób wybierania reprezentacji podgrupy
• Pojedynczego łączenia (single linkage) –
maksimum podobieństwa
Politechnika Wrocławska
Metody scalania w dendrogramie
Politechnika Wrocławska
Metody scalania w dendrogramie
Politechnika Wrocławska
Metody scalania w dendrogramie
• Pełnego łączenia (complete linkage) –
minimum podobieństwa
Politechnika Wrocławska
Porównanie dendrogramów
• Średniego podobieństwa w grupie (average
linkage)
5

Podobne dokumenty