Porównywanie sekwencji
Transkrypt
Porównywanie sekwencji
Porównywanie sekwencji białek i kwasów nukleinowych Krzysztof Lewiński 1. Podobieństwo i jego miara Wprawdzie podobieństwo jest pojęciem często używanym w życiu codziennym ale nie oznacza to, że możemy łatwo i precyzyjnie podać jego ogólną definicję. Dwa wyrazy, np. „rozmnażać” i „rozmrażać” są do siebie podobne chociaż oznaczają zupełnie inne czynności, z kolei znaczenie wyrazów „kapcie” i „pantofle” jest to samo chociaż same wyrazy nie są do siebie podobne. W przypadku porównywania ze sobą sekwencji aminokwasów dwóch białek, szukamy podobieństw „wyrazów” czyli ciągów liter symbolizujących sekwencję w nadziei, że kryje się za nimi również podobieństwo budowy i funkcji obu cząsteczek czyli to samo „znaczenie”. Kiedy mówimy o podobieństwie do siebie dwóch osób zazwyczaj nie możemy w sposób ilościowy określić na czym to podobieństwo polega. Mówimy, że „wyglądają tak samo” ale nie, że „długość nosa w stosunku do rozstawu oczu jest wyrażona tą samą liczbą” szczególnie, że nie musi to być prawdą. A zatem, nasza opinia nie jest ani ilościowa ani nawet nie jest obiektywna gdyż ktoś inny może być innego zdania i twierdzić, że te dwie osoby wcale nie są do siebie podobne. Chcąc porównywać sekwencje białek musimy zatem określić zasady przy pomocy których podobieństwo sekwencji da się opisać w sposób obiektywny i ilościowy. W tym celu należy wprowadzić pojęcie miary podobieństwa, parametru pozwalającego w sposób ilościowy określić stopień podobieństwa. Miara podobieństwa jest funkcją, która przypisuje wartość liczbową parze sekwencji w taki sposób, że większa wartość funkcji oznacza większe podobieństwo. Im większe jest podobieństwo tym mniejsze są różnice i na odwrót, a zatem jako kryterium oceny podobieństwa możemy także przyjąć większy lub mniejszy brak tegoż podobieństwa. Ten parametr określa się jako miarę dystansu i jest on często używany do porównań zamiennie z miarą podobieństwa. Dla dwóch sekwencji s i t (w tym przypadku nukleotydów) o równych długościach możemy wyznaczyć zarówno podobieństwo (liczbę identycznych par) jak i dystans (liczbę par różnych) 1 sekwencja s sekwencja t dystans podobieństwo AAT TAA 2 1 AGCAA ACATA 3 2 AGCACACA ACACACTA 6 2 Taka miara podobieństwa jest użyteczna ale dla wielu rzeczywistych przypadków bywa zbyt ograniczona. Nie uwzględnia ona faktu, że porównywane sekwencje mogą mieć różne długości oraz, że możemy je złożyć ze sobą na wiele sposobów. Przedstawiona powyżej trzecia para zawiera sekwencje najwyraźniej mało podobne do siebie, z ośmiu par nukleotydów aż 6 jest różnych. Ale zauważmy, że jeśli usuniemy G z sekwencji s i T z sekwencji t to obie sekwencje staną się identyczne! A zatem możemy powiedzieć, że różnią się one nie aż sześcioma ale tylko dwoma nukleotydami. W przyrodzie, w trakcie replikacji DNA zachodzą dość często przypadki powstawania błędów polegających na braku jakiegoś nukleotydu (delecja) lub wbudowaniu dodatkowego (insercja). Możemy zatem (a nawet musimy) dodać znak ‘-‘ jako oznaczenie przerwy w sekwencji. Dzięki niemu nasze dwie sekwencje mogą zostać zmodyfikowane i przyjmą postać: s: t: AGCACAC-A A-CACACTA Zamiast usuwać z pierwszej sekwencji nukleotyd dla którego nie mamy pary, wprowadzamy do drugiej sekwencji znak przerwy. Tak złożone sekwencje mają teraz taką samą długość i aż siedem par identycznych a tylko dwie pary różne. Przyjmijmy następujące oznaczenia dla operacji, które musimy wykonać aby otrzymać identyczność par sekwencji s i t: (a,a) zgodność (brak zmian) (a,-) delecja symbolu ‘a’ w sekwencji s (a,b) zamiana symbolu ‘a’ w sekwencji s na symbol ‘b’ w sekwencji t (-,b) insercja symbolu ‘b’ w sekwencji s Dla każdej operacji możemy określić arbitralnie „koszt” w (zwany też „wagą”) jej wykonania i w ten sposób wyznaczyć wartość liczbową miary dystansu. Na przykład, dla symboli ‘a’ i ‘b’ przyjmujemy że koszt poszczególnych operacji wynosi: w(a,a) = 0 2 w(a,b) = 1 gdy a ≠ b w(a,-) = w(-,b) = 1 Umożliwia nam to zdefiniowanie następujących pojęć: • Koszt zrównania dwóch sekwencji s i t jest sumą kosztów wszystkich operacji, które trzeba wykonać aby z sekwencji s otrzymać sekwencję t. • Optymalne zrównanie sekwencji s i t jest to takie zrównanie, którego koszt jest najniższy ze wszystkich możliwych kosztów zrównań. • Dystans sekwencji s i t jest to koszt optymalnego zrównania tych sekwencji przy użyciu funkcji w. Oznaczamy go jako dw(s,t) Korzystając z podanej powyżej funkcji kosztu możemy obliczyć, że koszt zrównania sekwencji tak jak poniżej s: t: AGCACAC-A A-CACACTA wynosi 2, natomiast koszt zrównania tych sekwencji w inny sposób, np.: s: t: AG-CACACA ACACACT-A wynosi 4. Wykonując próby zrównania przedstawionych powyżej sekwencji na jeszcze inne sposoby przekonamy się, że zrównanie pierwsze jest optymalne dla użytej funkcji kosztu. 3 2. Porównywanie dwóch sekwencji Przypuśćmy, że mamy dwie sekwencje (nukleotydów) o różnych długościach i chcemy je optymalnie zrównać. Dla uproszczenia porównywania będziemy używać macierzy jednostkowej i nie będą wprowadzane przerwy w sekwencji. sekwencja 1: TGATGGTCAAGTAAACTATGAAGAGTTT sekwencja 2: ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA Sekwencja 2 jest przesuwana względem sekwencji pierwszej w zakresie od +4 do –5 pozycji i dla każdego przesunięcia jest obliczany wynik zgodności. Pionowa kreska oznacza identyczność symboli w parze odpowiadających sobie nukleotydów. PRZESUNIĘCIE WYNIK TGATGGTCAAGTAAACTATGAAGAGTTT | | | || ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA 4 5 TGATGGTCAAGTAAACTATGAAGAGTTT | || || || | | ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA 3 9 TGATGGTCAAGTAAACTATGAAGAGTTT ||||| | | | || ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA 2 10 TGATGGTCAAGTAAACTATGAAGAGTTT | | | | | | ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA 1 6 TGATGGTCAAGTAAACTATGAAGAGTTT | | ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA 0 2 TGATGGTCAAGTAAACTATGAAGAGTTT || | || | ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA -1 6 TGATGGTCAAGTAAACTATGAAGAGTTT | | | | ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA -2 4 4 TGATGGTCAAGTAAACTATGAAGAGTTT | || || ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA -3 5 TGATGGTCAAGTAAACTATGAAGAGTTT | |||| | | ||| || ||| ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA -4 15 TGATGGTCAAGTAAACTATGAAGAGTTT | ||| | | | | || ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA -5 10 Powyższy przykład pokazuje, że dwie sekwencje mogą zostać porównane bez względu na to czy są do siebie podobne czy też nie. Dla każdego zrównania możemy wyliczyć parametr umożliwiający ilościową ocenę jego jakości przy czym widać, że możliwych jest wiele zrównań o podobnych wynikach. Najlepszy wynik równy 15 otrzymaliśmy dla przesunięcia o –4 natomiast dla przesunięć o 2, -5 i 3 otrzymaliśmy bardzo zbliżone wyniki. Ocena jakości tych zrównań nie jest jednak prosta, szczególnie jeśli sekwencje są długie. Pewnym ułatwieniem jest wykonanie wykresu punktowego (ang. „dot plot”). Na wykresie punktowym dwie sekwencje są drukowane tak aby tworzyły wiersz i kolumnę macierzy, której pola zawierają znak kropki (w naszym przypadku jest to ‘x’) gdy symbole w odpowiednim wierszu i kolumnie są identyczne (Rys. 1). Taki sposób przedstawienia daje dla odpowiadających sobie fragmentów sekwencji znaki układające się wzdłuż linii równoległych do przekątnej macierzy co ułatwia wyszukanie podobieństw. W przypadku gdy obie sekwencje, tak jak w przedstawianym przykładzie, różnią się dość znacznie od siebie, a równocześnie są kombinacją tylko czterech różnych symboli, otrzymany obraz wcale nie jest prosty w interpretacji a wręcz przeciwnie, trudno się w nim doszukać jakichś regularności. Oznacza to, że szukany sygnał jest zbyt słaby i ginie w szumie. Aby zmniejszyć ten szum należy zastosować dodatkowe kryterium selekcji, które usunie z wykresu przypadkowe pary symboli. Możemy na przykład uznać, że obserwujemy odpowiedniość sekwencji wtedy gdy dwa kolejne symbole są identyczne w obu sekwencjach. Miejsca te zaznaczone są na rysunku 2 znakiem „o”. Widać, że w kilku miejscach znaki te układają się wzdłuż linii równoległych do przekątnej. Kropki na wykresie wskazują odpowiedniość sekwencji zgodną z dwoma najlepszymi wyrównaniami z poprzedniego przykładu. 5 t t __t 25g a g a __a 20g t a t __c 15a a a t __g 10a a c t __g 5 g t a g t x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x a t g g t a a t g g c a c a a t t g a c t t t c c t g a a t t t c t g a |5 |10 |15 |20 |25 |30 |35 Rys. 1. Wykres punktowy. Znak ‘x’ oznacza parę identycznych symboli T o o o o o T o o o o o __T o 25G A o o G A o o __A o o o 20G o o o o T o o o A o o o o T .o o o __C o .o 15A o . o . o A o . o . o A . . T o . . __G . . 10A o. . o o A . o. o C . . o o T .o . __G .o .o 5 G .o .o o o T .o .o o o A . o o G o o o o o T A T G G T A A T G G C A C A A T T G A C T T T C C T G A A T T T C T G A |5 |10 |15 |20 |25 |30 |35 Rys. 2. Wykres punktowy dla identycznych par dinukleotydów 6 Pomimo to, ze względu na niskie podobieństwo sekwencji, wykres nie jest zbyt czytelny i nie dostarcza jednoznacznej odpowiedzi, które zrównanie sekwencji jest najlepsze. Aby uzyskać bardziej przejrzysty obraz należy udoskonalić technikę oddzielenia sygnału od szumu poprzez znaczenie na wykresie tylko tych punktów gdzie podobieństwo jest większe niż założony próg. Wykonuje się to w ten sposób, że porównuje się nie pojedyncze symbole ale ciągi symboli tworzące okna o określonej szerokości. Uznajemy, że dwa okna są podobne jeśli liczba identycznych par przekroczy wymagane minimum i rysujemy symbol zgodności „O” dla pozycji środka okna. Na rysunku 3 zamieszczonym poniżej używane było okno o długości 9 a minimalna liczba zgodnych par w oknie (ang. „stringency”) wynosiła 5. T T __T 25G A G A __A 20G T A T __C 15A A A T __G 10A A C T __G 5 G T A G T O O O O O O O O O O O O O O O O O O O O O O O O O O O O O A T G G T A A T G G C A C A A T T G A C T T T C C T G A A T T T C T G A |5 |10 |15 |20 |25 |30 |35 Rys. 3. Wykres punktowy dla co najmniej 5 zgodnych par w oknie o szerokości 9 Wprawdzie wykres ten znacznie wyraźniej niż poprzedni wskazuje na położenie zrównania dającego najlepszy wynik gdyż zdecydowanie mniejszy jest udział przypadkowych podobieństw, jednak z wykresu nie możemy dowiedzieć się gdzie jest położony początek i koniec obu wyrównanych sekwencji, wiemy tylko że mieści się on gdzieś we wnętrzu okna. Widać też, że fragment sekwencji pionowej w zakresie od 5 do 10 odpowiada dwóm różnym fragmentom sekwencji poziomej. Jeżeli porównamy jeszcze raz ze sobą te sekwencje to zobaczymy, że wcale nie są one aż tak bardzo podobne jak sugeruje to wykres punktowy. 7 TGATGGTCAAGTAAACTATGAAGAGTTT ||||| | | | || ATGGTAATGGCACAATTGACTTTCCTGAATTTCTGA | |||| | | ||| || ||| TGATGGTCAAGTAAACTATGAAGAGTTT Musimy użyć dodatkowych informacji aby zadecydować, które zrównanie sekwencji kryje w sobie istotne znaczenie biologiczne, duże podobieństwo krótkiego fragmentu czy też słabsze podobieństwo ale na większej długości. Tak więc, bez względu na liczbowe parametry określające podobieństwo tych sekwencji do siebie w obu złożeniach, ostateczna decyzja o tym, które zrównanie jest lepsze musi należeć do człowieka. 8 3. Analityczne porównywanie dwóch sekwencji Liczba możliwych sposobów zrównania ze sobą dwóch długich sekwencji mogących dodatkowo zawierać przerwy jest gigantyczna i nawet przy użyciu szybkich komputerów trwało by to niezwykle długo gdyby nie algorytm „Dynamic Programming”, pozwalający w szybki i systematyczny sposób znaleźć optymalne rozwiązanie problemu. Rozważmy dwa fragmenty sekwencji s i t o elementach w zakresie od 0 do i oraz od 0 do j i oznaczmy je jako 0:s:i oraz 0:t:j gdzie i,j ≥ 1. Przyjmijmy, że znamy optymalne wyrównanie wszystkich krótszych fragmentów, w szczególności: • 0:s:(i-1) oraz 0:t:(j-1) • 0:s:(i-1) oraz 0:t:j • 0:s:i oraz 0:t:(j-1) Optymalne wyrównanie 0:s:i oraz 0:t:j musi być rozszerzeniem o kolejny symbol jednego z wcześniejszych wyrównań poprzez:: • zastąpienie lub zgodność (si,tj) • delecję (si,-) lub insercję (-,tj) Jako kryterium wyboru operacji przyjmujemy minimum funkcji kosztu dw wynoszącej: dw(0:s:i, 0:t:j) = min { dw(0:s:(i-1), 0:t:(j-1)) + w(si, tj) , dw(0:s:(i-1), 0:t:j) + w(si, -) , dw(0:s:i, 0:t:(j-1)) + w(-, tj) } Jeśli jeden z indeksów i lub j jest równy zero wówczas dw (0:s:0, 0:t:0) = 0 dw (0:s:i, 0:t:0) = dw(0:s:(i-1), 0:t:0) + w(si, -) dla i – 1, ... , m dw (0:s:0, 0:t:j) = dw(0:s:0, 0:t:(j-1)) + w(-, tj) dla j – 1, ... , n Tak więc wartość funkcji kosztu w punkcie (i, j) zależy od wartości tej funkcji w trzech komórkach poprzedzających ją: (i-1, j-1), (i-1, j) oraz (i, j-1). Dla uproszczenia, zapis (i,j) oznacza wartość funkcji kosztu dla dw(0:s:i, 0:t:j), możemy te wartości wpisać do macierzy o odpowiednich elementach (i, j). 9 Dla naszych przykładowych sekwencji s: t: AGCACACA ACACACTA obliczone wartości funkcji kosztu wynoszą: (0, 0) = 0 (1, 0) = (0, 0) + (1, -) = 1 (0, 1) = (0, 0) + (-, 1) = 1 Dla kolejnych coraz dłuższych fragmentów przyjmują one zawsze najmniejszą z trzech możliwych wartości:(zaznaczoną czcionką pogrubioną): (1, 1) = [ (0, 0) + (1, 1) = 0 + 0 = 0 ] lub [ (0, 1) + (1, -) = 1 + 1 = 2 ] lub [ (1, 0) + (-, 1) = 1 + 1 = 2 ] (1, 2) = [ (0, 1) + (1, 2) = 1 + 1 = 2 ] lub [ (0, 2) + (1, -) = 2 + 1 = 3 ] lub [ (1, 1) + (-, 2) = 0 + 1 = 1 ] (2, 1) = [ (1, 0) + (2, 1) = 1 + 1 = 2 ] lub [ (1, 1) + (2, -) = 0 + 1 = 1 ] lub [ (2, 0) + (-, 1) = 2 + 1 = 3 ] (2, 2) = [ (1, 1) + (2, 2) = 0 + 1 = 1 ] lub [ (1, 2) + (2, -) = 1 + 1 = 2 ] lub [ (2, 1) + (-, 2) = 1 + 1 = 2 ] (3, 1) = [ (2, 0) + (3, 1) = 2 + 1 = 3 ] lub [ (2, 1) + (3, -) = 1 + 1 = 2 ] lub [ (3, 0) + (-, 1) = 3 + 1 =4 ] (3, 2) = [ (2, 1) + (3, 2) = 1 + 0 = 1 ] lub [ ( 2, 2) + (3, -) = 1 + 1 = 2 ] lub [ (3, 1) + (-, 2) = 2 + 1 = 3 ] (1, 3) = [ (0, 2) + (1, 3) = 2 + 0 = 2 ] lub [ ( 0, 3) + (1, -) = 3 + 1 = 4 ] lub [ (1, 2) + (-, 3) = 1 + 1 = 2 ] (2, 3) = [ (1, 2) + (2, 3) = 1 + 1 = 2 ] lub [ ( 1, 3) + (2, -) = 2 + 1 = 3 ] lub [ (2, 2) + (-, 3) = 1 + 1 = 2 ] (3, 3) = [ (2, 2) + (3, 3) = 1 + 1 = 2 ] lub [ (2, 3) + (3, -) = 2 + 1 = 3 ] lub [ (3, 2) + (-, 3) = 1 + 1 = 2 ] Wyniki obliczeń dla wszystkich wartości i oraz j przedstawione są w poniższej tablicy. 10 A C A C A C T A 0 1 2 3 4 5 6 7 8 A 1 0 1 2 3 4 5 6 7 G 2 1 1 2 3 4 5 6 7 C 3 2 1 2 2 3 4 5 6 A 4 3 2 1 2 2 3 4 5 C 5 4 3 2 1 2 2 3 4 A 6 5 4 3 2 1 2 3 3 C 7 6 5 4 3 2 1 2 3 A 8 7 6 5 4 3 2 2 2 Interpretację tych wyników zaczynamy od ostatniej komórki czyli w tym przypadku (8, 8). Aby odtworzyć optymalne wyrównanie musimy wiedzieć która komórka została użyta do wyznaczenia wartości w komórce bieżącej, w tym przypadku z trzech możliwych komórek (8, 7), (7, 7) lub (7, 8) użyta była (7, 7). Oznacza to, że do wyrównanych sekwencji (0:s:7) i (0:t:7) dodane zostały kolejne symbole (8:s:8) i (8:t:8) czyli A i A. Do obliczenia optymalnej funkcji kosztu w komórce (7, 7) użyto komórki (7, 6) a zatem dw(0:s:7, 0:t:7) = dw(0:s:7, 0:t:6) + w(-, t7) co oznacza operację wstawienia przerwy do sekwencji s. Uzyskaliśmy w ten sposób dwa ostatnie symbole w obu sekwencjach s:(-A) i t:(TA). Kontynuując analizę dla kolejnych komórek otrzymamy na końcu optymalne wyrównanie obu sekwencji, które ma postać: s: t: AGCACAC-A A-CACACTA Kolejne komórki użyte do tego wyrównania są zaznaczone w tabeli poprzez pogrubienie i podkreślenie wartości funkcji kosztu. 11 4. Macierze wag dla aminokwasów Wszystkie algorytmy służące do porównywania sekwencji oparte są na jakimś schemacie ważenia operacji (a,b) zdefiniowanym dla wszystkich możliwych par aminokwasów lub kwasów nukleinowych. Przedstawia się je w postaci macierzy o wymiarach n×n gdzie n jest liczbą użytych symboli bez znaku przerwy. Często macierze są tak zdefiniowane żeby zamiast minimalizować koszt optymalnego zrównania, maksymalizować wynik (ang. „score”) otrzymany z sumowania wag dla otrzymanych par. Najprostszą macierzą używaną do zrównywania sekwencji aminokwasów jest macierz jednostkowa. Wynik dla par różnych aminokwasów wynosi 0 natomiast dla par aminokwasów identycznych wynosi 1. Taka macierz jest mało efektywna w przypadku gdy sekwencje nie są bardzo podobne do siebie. Liczba par zgodnych w stosunku do liczby wszystkich par jest określana jako „procent identyczności” i ten parametr jest często używany przy dyskutowaniu podobieństw sekwencji aczkolwiek należy pamiętać, że dla krótkich sekwencji wysoki procent identyczności może być przypadkowy. Schemat ważenia dla macierzy genetycznych oparty jest na częstotliwości obserwowanych podstawień aminokwasów w zrównanych sekwencjach podobnych do siebie białek. Metoda ta jest ilustracją klasycznego problemu jajka i kury, gdyż aby można było zrównać ze sobą sekwencje, trzeba było wcześniej ustalić kryteria ważenia. Początkowe wagi wyznaczane były w oparciu o sekwencje tak podobne do siebie, że zrównanie można było wykonać po prostu ręcznie. Obecnie najczęściej używa się macierzy wyznaczonych przez Dayhoffa i współpracowników w oparciu o model ewolucyjny. Porównywali oni sekwencje o wysokim stopniu podobieństwa tak aby można było założyć, że obserwowane mutacje np. A→D są bezpośrednimi podstawieniami a nie wynikiem kolejnych mutacji A→B→C→D. Liczba obserwowanych mutacji określonego rodzaju była normalizowana w stosunku do częstości występowania danego aminokwasu w analizowanych sekwencjach a następnie wyznaczane było prawdopodobieństwo mutacji dla założonego dystansu ewolucyjnego PAM (Percentage of Acceptable point Mutations per 108 years). Najczęściej używana jest tzw. macierz PAM250. Ten dystans ewolucyjny odpowiada w przybliżeniu sytuacji gdy 80% aminokwasów pierwotnie obserwowanych zostało zamienionych w wyniku kolejnych mutacji punktowych. Można spotkać się też z innymi typami macierzy opartych na obserwowanych podstawieniach aminokwasów, tzw. macierzach BLOSUM. Zostały one wyznaczone dla złożeń wielu wyrównanych krótszych fragmentów sekwencji nie zawierających przerw ale bardziej oddalonych ewolucyjnie od siebie. Wyrównania były grupowane w oparciu o 12 C 12 S 0 2 T -2 1 3 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0 -1 1 5 N -4 1 0 -1 0 0 2 D -5 0 0 -1 0 1 2 4 E -5 0 0 -1 0 0 1 3 4 Q -5 -1 -1 0 0 -1 1 2 2 4 H -3 -1 -1 0 -1 -2 2 1 1 3 6 R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17 ---------------------------------------------------------------C S T P A G N D E Q H R K M I L V F Y W Rys. 4. Macierz PAM250 kryterium progu identyczności, przykładowo macierz BLOSUM80 była wyznaczona przy użyciu progu 80%. Porównania efektywności działania różnych macierzy nie dają jednoznacznej odpowiedzi na pytania, która macierz jest najlepsza. Wydaje się, że dla zrównań nie zawierających przerw, optymalna jest macierz PAM około 200. Jeśli natomiast porównujemy sekwencje o których nie wiemy z góry czy są spokrewnione, lepiej jest użyć macierzy PAM120. Generalnie, macierze PAM o niskich dystansach ewolucyjnych (np. PAM40) mają tendencję do wyszukiwania krótkich fragmentów o dużym podobieństwie podczas gdy macierze PAM o wysokich dystansach znajdują dłuższe ale słabiej podobne zrównania. Testy wyszukiwania znanych sekwencji należących do określonych rodzin białek wykazały przewagę macierzy BLOSUM62, jednak w innych przypadkach była ona mniej efektywna od pozostałych macierzy. Osobnym zagadnieniem jest kwestia ważenia wprowadzanych przerw w sekwencjach. Stosowany jest system zmiennych wag w zależności od długości przerwy. Pierwsze przerwanie ciągłości sekwencji ma stosunkowo wysoki koszt gi (ang. „gap insertion penalty”) natomiast wydłużenie tej przerwy jest obarczone kosztem ge (ang. „gap elongation penalty”) wyraźnie niższym niż wprowadzenie kolejnej przerwy w innym miejscu sekwencji. Możemy to zapisać w postaci wzoru: 13 wg = gi + (n-1) × ge gdzie n oznacza długość wprowadzonej przerwy. Jest to uzasadnione obserwacją, że często spotyka się usunięte lub wstawione ciągłe odcinki sekwencji o długości co najmniej kilku aminokwasów tworzące w strukturze białka fragmenty, których usunięcie lub dodanie nie wpłynęło istotnie na strukturę i działanie białka a zatem wstawienie jednej długiej przerwy jest bardziej usprawiedliwione niż wstawienie wielu pojedynczych przerw. Oczywiście, jak zawsze ostateczna decyzja musi być podjęta przez człowieka w oparciu o inne informacje, na przykład wiedzę o tym, które aminokwasy tworzą miejsce aktywne i są w związku z tym zachowane we wszystkich sekwencjach danego białka. W zależności od zastosowanego kosztu wstawienia i przedłużenia przerwy możemy otrzymać bardzo różne wyniki. Rozpatrzmy parę sekwencji s:CAAAAGAT i t:CGAGGGGT stosując jednostkowy koszt dla każdej różnicy oraz przerwy. Optymalne wyrównanie tych sekwencji będzie miało postać: CAAAAGAT | | | | CGAGGGGT a koszt tego wyrównania wynosi 4. Jeżeli natomiast użyjemy dla przedłużenia przerwy kosztu ge= 0.2 wówczas optymalne wyrównanie przybierze postać: CAAAAGA----T | || | C----GAGGGGT przy całkowitym koszcie wynoszącym 3.2. 14