Porównywanie sekwencji

Transkrypt

Porównywanie sekwencji białek i kwasów nukleinowych
Krzysztof Lewiński
1.
Podobieństwo i jego miara
Wprawdzie podobieństwo jest pojęciem często używanym w życiu codziennym ale nie
oznacza to, że możemy łatwo i precyzyjnie podać jego ogólną definicję. Dwa wyrazy, np.
„rozmnażać” i „rozmrażać” są do siebie podobne chociaż oznaczają zupełnie inne czynności,
z kolei znaczenie wyrazów „kapcie” i „pantofle” jest to samo chociaż same wyrazy nie są do
siebie podobne. W przypadku porównywania ze sobą sekwencji aminokwasów dwóch białek,
szukamy podobieństw „wyrazów” czyli ciągów liter symbolizujących sekwencję w nadziei,
że kryje się za nimi również podobieństwo budowy i funkcji obu cząsteczek czyli to samo
„znaczenie”. Kiedy mówimy o podobieństwie do siebie dwóch osób zazwyczaj nie możemy
w sposób ilościowy określić na czym to podobieństwo polega. Mówimy, że „wyglądają tak
samo” ale nie, że „długość nosa w stosunku do rozstawu oczu jest wyrażona tą samą liczbą”
szczególnie, że nie musi to być prawdą. A zatem, nasza opinia nie jest ani ilościowa ani nawet
nie jest obiektywna gdyż ktoś inny może być innego zdania i twierdzić, że te dwie osoby
wcale nie są do siebie podobne.
Chcąc porównywać sekwencje białek musimy zatem określić zasady przy pomocy
których podobieństwo sekwencji da się opisać w sposób obiektywny i ilościowy. W tym celu
należy wprowadzić pojęcie miary podobieństwa, parametru pozwalającego w sposób
ilościowy określić stopień podobieństwa. Miara podobieństwa jest funkcją, która przypisuje
wartość liczbową parze sekwencji w taki sposób, że większa wartość funkcji oznacza większe
podobieństwo. Im większe jest podobieństwo tym mniejsze są różnice i na odwrót, a zatem
jako kryterium oceny podobieństwa możemy także przyjąć większy lub mniejszy brak tegoż
podobieństwa. Ten parametr określa się jako miarę dystansu i jest on często używany do
porównań zamiennie z miarą podobieństwa.
Dla dwóch sekwencji s i t (w tym przypadku nukleotydów) o równych długościach
możemy wyznaczyć zarówno podobieństwo (liczbę identycznych par) jak i dystans (liczbę
par różnych)
1
sekwencja s
sekwencja t
dystans
podobieństwo
AAT
TAA
2
1
AGCAA
ACATA
3
2
AGCACACA
ACACACTA
6
2
Taka miara podobieństwa jest użyteczna ale dla wielu rzeczywistych przypadków
bywa zbyt ograniczona. Nie uwzględnia ona faktu, że porównywane sekwencje mogą mieć
różne długości oraz, że możemy je złożyć ze sobą na wiele sposobów. Przedstawiona powyżej
trzecia para zawiera sekwencje najwyraźniej mało podobne do siebie, z ośmiu par
nukleotydów aż 6 jest różnych. Ale zauważmy, że jeśli usuniemy G z sekwencji s i T z
sekwencji t to obie sekwencje staną się identyczne! A zatem możemy powiedzieć, że różnią
się one nie aż sześcioma ale tylko dwoma nukleotydami. W przyrodzie, w trakcie replikacji
DNA zachodzą dość często przypadki powstawania błędów polegających na braku jakiegoś
nukleotydu (delecja) lub wbudowaniu dodatkowego (insercja). Możemy zatem (a nawet
musimy) dodać znak ‘-‘ jako oznaczenie przerwy w sekwencji. Dzięki niemu nasze dwie
sekwencje mogą zostać zmodyfikowane i przyjmą postać:
s:
t:
AGCACAC-A
A-CACACTA
Zamiast usuwać z pierwszej sekwencji nukleotyd dla którego nie mamy pary,
wprowadzamy do drugiej sekwencji znak przerwy. Tak złożone sekwencje mają teraz taką
samą długość i aż siedem par identycznych a tylko dwie pary różne.
Przyjmijmy następujące oznaczenia dla operacji, które musimy wykonać aby otrzymać
identyczność par sekwencji s i t:
(a,a)
zgodność (brak zmian)
(a,-)
delecja symbolu ‘a’ w sekwencji s
(a,b)
zamiana symbolu ‘a’ w sekwencji s na symbol ‘b’ w sekwencji t
(-,b)
insercja symbolu ‘b’ w sekwencji s
Dla każdej operacji możemy określić arbitralnie „koszt” w (zwany też „wagą”) jej
wykonania i w ten sposób wyznaczyć wartość liczbową miary dystansu. Na przykład, dla
symboli ‘a’ i ‘b’ przyjmujemy że koszt poszczególnych operacji wynosi:
w(a,a) = 0
2
w(a,b) = 1 gdy a ≠ b
w(a,-) = w(-,b) = 1
Umożliwia nam to zdefiniowanie następujących pojęć:
•
Koszt zrównania dwóch sekwencji s i t jest sumą kosztów wszystkich operacji, które
trzeba wykonać aby z sekwencji s otrzymać sekwencję t.
•
Optymalne zrównanie sekwencji s i t jest to takie zrównanie, którego koszt jest najniższy
ze wszystkich możliwych kosztów zrównań.
•
Dystans sekwencji s i t jest to koszt optymalnego zrównania tych sekwencji przy użyciu
funkcji w. Oznaczamy go jako dw(s,t)
Korzystając z podanej powyżej funkcji kosztu możemy obliczyć, że koszt zrównania
sekwencji tak jak poniżej
s:
t:
AGCACAC-A
A-CACACTA
wynosi 2, natomiast koszt zrównania tych sekwencji w inny sposób, np.:
s:
t:
AG-CACACA
ACACACT-A
wynosi 4. Wykonując próby zrównania przedstawionych powyżej sekwencji na jeszcze inne
sposoby przekonamy się, że zrównanie pierwsze jest optymalne dla użytej funkcji kosztu.
3
2.
Porównywanie dwóch sekwencji
Przypuśćmy, że mamy dwie sekwencje (nukleotydów) o różnych długościach i
chcemy je optymalnie zrównać. Dla uproszczenia porównywania będziemy używać macierzy
jednostkowej i nie będą wprowadzane przerwy w sekwencji.
sekwencja 1: TGATGGTCAAGTAAACTATGAAGAGTTT
sekwencja 2: ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA
Sekwencja 2 jest przesuwana względem sekwencji pierwszej w zakresie od +4 do –5 pozycji i
dla każdego przesunięcia jest obliczany wynik zgodności. Pionowa kreska oznacza
identyczność symboli w parze odpowiadających sobie nukleotydów.
PRZESUNIĘCIE
WYNIK
TGATGGTCAAGTAAACTATGAAGAGTTT
| |
|
||
ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA
4
5
| ||
|| || |
|
3
9
||||| | | |
||
2
10
|
| | | |
|
1
6
|
|
0
2
||
|
||
|
-1
6
| |
| |
-2
4
4
| ||
||
-3
5
| ||||
| | |||
|| |||
-4
15
| ||| | | |
| ||
-5
10
Powyższy przykład pokazuje, że dwie sekwencje mogą zostać porównane bez
względu na to czy są do siebie podobne czy też nie. Dla każdego zrównania możemy
wyliczyć parametr umożliwiający ilościową ocenę jego jakości przy czym widać, że
możliwych jest wiele zrównań o podobnych wynikach. Najlepszy wynik równy 15
otrzymaliśmy dla przesunięcia o –4 natomiast dla przesunięć o 2, -5 i 3 otrzymaliśmy bardzo
zbliżone wyniki. Ocena jakości tych zrównań nie jest jednak prosta, szczególnie jeśli
sekwencje są długie. Pewnym ułatwieniem jest wykonanie wykresu punktowego (ang. „dot
plot”).
Na wykresie punktowym dwie sekwencje są drukowane tak aby tworzyły wiersz i
kolumnę macierzy, której pola zawierają znak kropki (w naszym przypadku jest to ‘x’) gdy
symbole w odpowiednim wierszu i kolumnie są identyczne (Rys. 1). Taki sposób
przedstawienia daje dla odpowiadających sobie fragmentów sekwencji znaki układające się
wzdłuż linii równoległych do przekątnej macierzy co ułatwia wyszukanie podobieństw. W
przypadku gdy obie sekwencje, tak jak w przedstawianym przykładzie, różnią się dość
znacznie od siebie, a równocześnie są kombinacją tylko czterech różnych symboli, otrzymany
obraz wcale nie jest prosty w interpretacji a wręcz przeciwnie, trudno się w nim doszukać
jakichś regularności. Oznacza to, że szukany sygnał jest zbyt słaby i ginie w szumie. Aby
zmniejszyć ten szum należy zastosować dodatkowe kryterium selekcji, które usunie z
wykresu przypadkowe pary symboli. Możemy na przykład uznać, że obserwujemy
odpowiedniość sekwencji wtedy gdy dwa kolejne symbole są identyczne w obu sekwencjach.
Miejsca te zaznaczone są na rysunku 2 znakiem „o”. Widać, że w kilku miejscach znaki te
układają się wzdłuż linii równoległych do przekątnej. Kropki na wykresie wskazują
odpowiedniość sekwencji zgodną z dwoma najlepszymi wyrównaniami z poprzedniego
przykładu.
5
t
t
__t
25g
a
g
a
__a
20g
t
a
t
__c
15a
a
a
t
__g
10a
a
c
t
__g
5 g
t
a
g
t
x
x
x
x
x
x
x
x
x
x x
x x
x x
x x
x x
x
x
x
x
x x
x
x
x
x
x
x x
x x
x x
x
x
x
x
x
x x
x x x
x x
x
x
x
x
x
x x x
x
x
x
x
x x x
x
x
x
x
x
x x
x
x x x
x x
x x x
x
x
x
x x
x
x
x
x
x x
x x
x
x x
x x
x
x
x
x
x x
x x
x
x
x
x
x x x
x x
x x
x x
x x x
x x
x x
x
x x
x
x
x
x x
x x
x
x
x x x
x x
x x
x x
x x
x
x x x
x
x
x
x x
x
x
x
x
x
x x
x x x
x
x x
x x
x x
x
x
x
x
x
x
x
x
x x
x x
x x
x
x
x
x
x
x
x
x
x x
x
x x
x x
x
x
x
x
x
x
x
x x
x
x x
x x
x x
x
x x x
x x x
x x x
x
x
x x
x x
x
x x
x x
x
x
x
x
x
x
x x
x x
x x x
x x x
x x x
x
x x
x
x
x
x
x
x
x x
x x x
x
x x x
x
a t g g t a a t g g c a c a a t t g a c t t t c c t g a a t t t c t g a
|5
|10
|15
|20
|25
|30
|35
Rys. 1. Wykres punktowy. Znak ‘x’ oznacza parę identycznych symboli
T
o
o o
o o
T
o
o o
o o
__T
o
25G
A
o
o
G
A
o
o
__A
o
o
o
20G
o
o
o
o
T o
o
o
A
o
o
o
o
T
.o
o
o
__C
o
.o
15A
o
.
o
.
o
A
o
.
o
.
o
A
.
.
T
o
.
.
__G
.
.
10A
o.
. o
o
A
.
o. o
C
.
.
o
o
T
.o
.
__G
.o
.o
5 G
.o
.o
o
o
T .o
.o
o
o
A
.
o
o
G
o
o
o
o
o
T
A T G G T A A T G G C A C A A T T G A C T T T C C T G A A T T T C T G A
|5
|10
|15
|20
|25
|30
|35
Rys. 2. Wykres punktowy dla identycznych par dinukleotydów
6
Pomimo to, ze względu na niskie podobieństwo sekwencji, wykres nie jest zbyt
czytelny i nie dostarcza jednoznacznej odpowiedzi, które zrównanie sekwencji jest najlepsze.
Aby uzyskać bardziej przejrzysty obraz należy udoskonalić technikę oddzielenia sygnału od
szumu poprzez znaczenie na wykresie tylko tych punktów gdzie podobieństwo jest większe
niż założony próg. Wykonuje się to w ten sposób, że porównuje się nie pojedyncze symbole
ale ciągi symboli tworzące okna o określonej szerokości. Uznajemy, że dwa okna są podobne
jeśli liczba identycznych par przekroczy wymagane minimum i rysujemy symbol zgodności
„O” dla pozycji środka okna. Na rysunku 3 zamieszczonym poniżej używane było okno o
długości 9 a minimalna liczba zgodnych par w oknie (ang. „stringency”) wynosiła 5.
T
T
__T
25G
A
G
A
__A
20G
T
A
T
__C
15A
A
A
T
__G
10A
A
C
T
__G
5 G
T
A
G
T
O
O
O
O
O
O
O
O
O
O
O
O O
O
O
O
O
O
O
O
O O
O
O
O
O
O
O
O
A T G G T A A T G G C A C A A T T G A C T T T C C T G A A T T T C T G A
|5
|10
|15
|20
|25
|30
|35
Rys. 3. Wykres punktowy dla co najmniej 5 zgodnych par w oknie o szerokości 9
Wprawdzie wykres ten znacznie wyraźniej niż poprzedni wskazuje na położenie
zrównania dającego najlepszy wynik gdyż zdecydowanie mniejszy jest udział przypadkowych
podobieństw, jednak z wykresu nie możemy dowiedzieć się gdzie jest położony początek i
koniec obu wyrównanych sekwencji, wiemy tylko że mieści się on gdzieś we wnętrzu okna.
Widać też, że fragment sekwencji pionowej w zakresie od 5 do 10 odpowiada dwóm różnym
fragmentom sekwencji poziomej. Jeżeli porównamy jeszcze raz ze sobą te sekwencje to
zobaczymy, że wcale nie są one aż tak bardzo podobne jak sugeruje to wykres punktowy.
7
||||| | | |
||
| ||||
| | |||
|| |||
Musimy użyć dodatkowych informacji aby zadecydować, które zrównanie sekwencji
kryje w sobie istotne znaczenie biologiczne, duże podobieństwo krótkiego fragmentu czy też
słabsze podobieństwo ale na większej długości. Tak więc, bez względu na liczbowe
parametry określające podobieństwo tych sekwencji do siebie w obu złożeniach, ostateczna
decyzja o tym, które zrównanie jest lepsze musi należeć do człowieka.
8
3.
Analityczne porównywanie dwóch sekwencji
Liczba możliwych sposobów zrównania ze sobą dwóch długich sekwencji mogących
dodatkowo zawierać przerwy jest gigantyczna i nawet przy użyciu szybkich komputerów
trwało by to niezwykle długo gdyby nie algorytm „Dynamic Programming”, pozwalający w
szybki i systematyczny sposób znaleźć optymalne rozwiązanie problemu.
Rozważmy dwa fragmenty sekwencji s i t o elementach w zakresie od 0 do i oraz od 0
do j i oznaczmy je jako 0:s:i oraz 0:t:j gdzie i,j ≥ 1. Przyjmijmy, że znamy optymalne
wyrównanie wszystkich krótszych fragmentów, w szczególności:
•
0:s:(i-1) oraz 0:t:(j-1)
•
0:s:(i-1) oraz 0:t:j
•
0:s:i oraz 0:t:(j-1)
Optymalne wyrównanie 0:s:i oraz 0:t:j musi być rozszerzeniem o kolejny symbol jednego z
wcześniejszych wyrównań poprzez::
•
zastąpienie lub zgodność (si,tj)
•
delecję (si,-) lub insercję (-,tj)
Jako kryterium wyboru operacji przyjmujemy minimum funkcji kosztu dw wynoszącej:
dw(0:s:i, 0:t:j) = min {
dw(0:s:(i-1), 0:t:(j-1)) + w(si, tj) ,
dw(0:s:(i-1), 0:t:j) + w(si, -) ,
dw(0:s:i, 0:t:(j-1)) + w(-, tj)
}
Jeśli jeden z indeksów i lub j jest równy zero wówczas
dw (0:s:0, 0:t:0) = 0
dw (0:s:i, 0:t:0) = dw(0:s:(i-1), 0:t:0) + w(si, -) dla i – 1, ... , m
dw (0:s:0, 0:t:j) = dw(0:s:0, 0:t:(j-1)) + w(-, tj) dla j – 1, ... , n
Tak więc wartość funkcji kosztu w punkcie (i, j) zależy od wartości tej funkcji w trzech
komórkach poprzedzających ją: (i-1, j-1), (i-1, j) oraz (i, j-1). Dla uproszczenia, zapis (i,j)
oznacza wartość funkcji kosztu dla dw(0:s:i, 0:t:j), możemy te wartości wpisać do macierzy o
odpowiednich elementach (i, j).
9
Dla naszych przykładowych sekwencji
s:
t:
AGCACACA
ACACACTA
obliczone wartości funkcji kosztu wynoszą:
(0, 0) = 0
(1, 0) = (0, 0) + (1, -) = 1
(0, 1) = (0, 0) + (-, 1) = 1
Dla kolejnych coraz dłuższych fragmentów przyjmują one zawsze najmniejszą z
trzech możliwych wartości:(zaznaczoną czcionką pogrubioną):
(1, 1) = [ (0, 0) + (1, 1) = 0 + 0 = 0 ] lub [ (0, 1) + (1, -) = 1 + 1 = 2 ] lub [ (1, 0) + (-, 1) = 1 + 1 = 2 ]
(1, 2) = [ (0, 1) + (1, 2) = 1 + 1 = 2 ] lub [ (0, 2) + (1, -) = 2 + 1 = 3 ] lub [ (1, 1) + (-, 2) = 0 + 1 = 1 ]
(2, 1) = [ (1, 0) + (2, 1) = 1 + 1 = 2 ] lub [ (1, 1) + (2, -) = 0 + 1 = 1 ] lub [ (2, 0) + (-, 1) = 2 + 1 = 3 ]
(2, 2) = [ (1, 1) + (2, 2) = 0 + 1 = 1 ] lub [ (1, 2) + (2, -) = 1 + 1 = 2 ] lub [ (2, 1) + (-, 2) = 1 + 1 = 2 ]
(3, 1) = [ (2, 0) + (3, 1) = 2 + 1 = 3 ] lub [ (2, 1) + (3, -) = 1 + 1 = 2 ] lub [ (3, 0) + (-, 1) = 3 + 1 =4 ]
(3, 2) = [ (2, 1) + (3, 2) = 1 + 0 = 1 ] lub [ ( 2, 2) + (3, -) = 1 + 1 = 2 ] lub [ (3, 1) + (-, 2) = 2 + 1 = 3 ]
(1, 3) = [ (0, 2) + (1, 3) = 2 + 0 = 2 ] lub [ ( 0, 3) + (1, -) = 3 + 1 = 4 ] lub [ (1, 2) + (-, 3) = 1 + 1 = 2 ]
(2, 3) = [ (1, 2) + (2, 3) = 1 + 1 = 2 ] lub [ ( 1, 3) + (2, -) = 2 + 1 = 3 ] lub [ (2, 2) + (-, 3) = 1 + 1 = 2 ]
(3, 3) = [ (2, 2) + (3, 3) = 1 + 1 = 2 ] lub [ (2, 3) + (3, -) = 2 + 1 = 3 ] lub [ (3, 2) + (-, 3) = 1 + 1 = 2 ]
Wyniki obliczeń dla wszystkich wartości i oraz j przedstawione są w poniższej tablicy.
10
A
C
A
C
A
C
T
A
0
1
2
3
4
5
6
7
8
A
1
0
1
2
3
4
5
6
7
G
2
1
1
2
3
4
5
6
7
C
3
2
1
2
2
3
4
5
6
A
4
3
2
1
2
2
3
4
5
C
5
4
3
2
1
2
2
3
4
A
6
5
4
3
2
1
2
3
3
C
7
6
5
4
3
2
1
2
3
A
8
7
6
5
4
3
2
2
2
Interpretację tych wyników zaczynamy od ostatniej komórki czyli w tym przypadku
(8, 8). Aby odtworzyć optymalne wyrównanie musimy wiedzieć która komórka została użyta
do wyznaczenia wartości w komórce bieżącej, w tym przypadku z trzech możliwych
komórek (8, 7), (7, 7) lub (7, 8) użyta była (7, 7). Oznacza to, że do wyrównanych sekwencji
(0:s:7) i (0:t:7) dodane zostały kolejne symbole (8:s:8) i (8:t:8) czyli A i A. Do obliczenia
optymalnej funkcji kosztu w komórce (7, 7) użyto komórki (7, 6) a zatem
dw(0:s:7, 0:t:7) = dw(0:s:7, 0:t:6) + w(-, t7)
co oznacza operację wstawienia przerwy do sekwencji s. Uzyskaliśmy w ten sposób dwa
ostatnie symbole w obu sekwencjach s:(-A) i t:(TA). Kontynuując analizę dla kolejnych
komórek otrzymamy na końcu optymalne wyrównanie obu sekwencji, które ma postać:
s:
t:
AGCACAC-A
A-CACACTA
Kolejne komórki użyte do tego wyrównania są zaznaczone w tabeli poprzez pogrubienie i
podkreślenie wartości funkcji kosztu.
11
4.
Macierze wag dla aminokwasów
Wszystkie algorytmy służące do porównywania sekwencji oparte są na jakimś
schemacie ważenia operacji (a,b) zdefiniowanym dla wszystkich możliwych par
aminokwasów lub kwasów nukleinowych. Przedstawia się je w postaci macierzy o
wymiarach n×n gdzie n jest liczbą użytych symboli bez znaku przerwy. Często macierze są
tak
zdefiniowane
żeby
zamiast
minimalizować
koszt
optymalnego
zrównania,
maksymalizować wynik (ang. „score”) otrzymany z sumowania wag dla otrzymanych par.
Najprostszą macierzą używaną do zrównywania sekwencji aminokwasów jest macierz
jednostkowa. Wynik dla par różnych aminokwasów wynosi 0 natomiast dla par
aminokwasów identycznych wynosi 1. Taka macierz jest mało efektywna w przypadku gdy
sekwencje nie są bardzo podobne do siebie. Liczba par zgodnych w stosunku do liczby
wszystkich par jest określana jako „procent identyczności”
i ten parametr jest często
używany przy dyskutowaniu podobieństw sekwencji aczkolwiek należy pamiętać, że dla
krótkich sekwencji wysoki procent identyczności może być przypadkowy.
Schemat ważenia dla macierzy genetycznych oparty jest na częstotliwości
obserwowanych podstawień aminokwasów w zrównanych sekwencjach podobnych do siebie
białek. Metoda ta jest ilustracją klasycznego problemu jajka i kury, gdyż aby można było
zrównać ze sobą sekwencje, trzeba było wcześniej ustalić kryteria ważenia. Początkowe wagi
wyznaczane były w oparciu o sekwencje tak podobne do siebie, że zrównanie można było
wykonać po prostu ręcznie. Obecnie najczęściej używa się macierzy wyznaczonych przez
Dayhoffa i współpracowników w oparciu o model ewolucyjny. Porównywali oni sekwencje o
wysokim stopniu podobieństwa tak aby można było założyć, że obserwowane mutacje np.
A→D są bezpośrednimi podstawieniami a nie wynikiem kolejnych mutacji A→B→C→D.
Liczba obserwowanych mutacji określonego rodzaju była normalizowana w stosunku do
częstości występowania danego aminokwasu w analizowanych sekwencjach a następnie
wyznaczane było prawdopodobieństwo mutacji dla założonego dystansu ewolucyjnego PAM
(Percentage of Acceptable point Mutations per 108 years). Najczęściej używana jest tzw.
macierz PAM250. Ten dystans ewolucyjny odpowiada w przybliżeniu sytuacji gdy 80%
aminokwasów pierwotnie obserwowanych zostało zamienionych w wyniku kolejnych mutacji
punktowych. Można spotkać się też z innymi typami macierzy opartych na obserwowanych
podstawieniach aminokwasów, tzw. macierzach BLOSUM. Zostały one wyznaczone dla
złożeń wielu wyrównanych krótszych fragmentów sekwencji nie zawierających przerw ale
bardziej oddalonych ewolucyjnie od siebie. Wyrównania były grupowane w oparciu o
12
C 12
S
0 2
T -2 1 3
P -3 1 0 6
A -2 1 1 1 2
G -3 1 0 -1 1 5
N -4 1 0 -1 0 0 2
D -5 0 0 -1 0 1 2 4
E -5 0 0 -1 0 0 1 3 4
Q -5 -1 -1 0 0 -1 1 2 2 4
H -3 -1 -1 0 -1 -2 2 1 1 3 6
R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6
K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5
M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6
I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5
L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6
V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4
F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9
Y
0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10
W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17
---------------------------------------------------------------C S T P A G N D E Q H R K M I L V F Y W
Rys. 4. Macierz PAM250
kryterium progu identyczności, przykładowo macierz BLOSUM80 była wyznaczona przy
użyciu progu 80%.
Porównania efektywności działania różnych macierzy nie dają jednoznacznej
odpowiedzi na pytania, która macierz jest najlepsza. Wydaje się, że dla zrównań nie
zawierających przerw, optymalna jest macierz PAM około 200. Jeśli natomiast porównujemy
sekwencje o których nie wiemy z góry czy są spokrewnione, lepiej jest użyć macierzy
PAM120. Generalnie, macierze PAM o niskich dystansach ewolucyjnych (np. PAM40) mają
tendencję do wyszukiwania krótkich fragmentów o dużym podobieństwie podczas gdy
macierze PAM o wysokich dystansach znajdują dłuższe ale słabiej podobne zrównania. Testy
wyszukiwania znanych sekwencji należących do określonych rodzin białek wykazały
przewagę macierzy BLOSUM62, jednak w innych przypadkach była ona mniej efektywna od
pozostałych macierzy.
Osobnym zagadnieniem jest kwestia ważenia wprowadzanych przerw w sekwencjach.
Stosowany jest system zmiennych wag w zależności od długości przerwy. Pierwsze
przerwanie ciągłości sekwencji ma stosunkowo wysoki koszt gi (ang. „gap insertion penalty”)
natomiast wydłużenie tej przerwy jest obarczone kosztem ge (ang. „gap elongation penalty”)
wyraźnie niższym niż wprowadzenie kolejnej przerwy w innym miejscu sekwencji. Możemy
to zapisać w postaci wzoru:
13
wg = gi + (n-1) × ge
gdzie n oznacza długość wprowadzonej przerwy. Jest to uzasadnione obserwacją, że często
spotyka się usunięte lub wstawione ciągłe odcinki sekwencji o długości co najmniej kilku
aminokwasów tworzące w strukturze białka fragmenty, których usunięcie lub dodanie nie
wpłynęło istotnie na strukturę i działanie białka a zatem wstawienie jednej długiej przerwy
jest bardziej usprawiedliwione niż wstawienie wielu pojedynczych przerw. Oczywiście, jak
zawsze ostateczna decyzja musi być podjęta przez człowieka w oparciu o inne informacje, na
przykład wiedzę o tym, które aminokwasy tworzą miejsce aktywne i są w związku z tym
zachowane we wszystkich sekwencjach danego białka.
W zależności od zastosowanego kosztu wstawienia i przedłużenia przerwy możemy
otrzymać bardzo różne wyniki. Rozpatrzmy parę sekwencji s:CAAAAGAT i t:CGAGGGGT
stosując jednostkowy koszt dla każdej różnicy oraz przerwy. Optymalne wyrównanie tych
sekwencji będzie miało postać:
CAAAAGAT
| | | |
CGAGGGGT
a koszt tego wyrównania wynosi 4. Jeżeli natomiast użyjemy dla przedłużenia przerwy kosztu
ge= 0.2 wówczas optymalne wyrównanie przybierze postać:
CAAAAGA----T
|
||
|
C----GAGGGGT
przy całkowitym koszcie wynoszącym 3.2.
14

Porównywanie sekwencji

Transkrypt

Podobne dokumenty

Redukcja redundancji wyników identyfikacji poprzez

1. Identyfikator przedmiotu: BIOINFORMATYKA

dr Grzegorz Koczyk, Zespół Ewolucji Funkcji Systemów

Lab04 - combio.pl

Przyrównywanie sekwencji

Stymulacja funkcji lewej półkuli mózgowej

Filogenetyka - Marcin Filipecki

Wykład 3 - Marcin Filipecki