Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n

Transkrypt

Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n
Bioinformatyka 2 (BT172)
Wykład 4
Metody wyznaczania uliniowień
wielosekwencyjnych
Krzysztof Murzyn
7.XI.2005
P LAN WYKŁADU
1. Ostatnio: definicje, zastosowania MSA, złożoność obliczeniowa
algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne,
kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty
zapisywania MSA, BaliBase: referencyjna baza uliniowień
wielosekwencyjnych, edycja MSA
2. Wizualizacja MSA
3. Przeglad
˛ metod wyznaczania MSA
4. Progresywne metody wyznaczania MSA (klasyka gatunku: ClustalW)
W IZUALIZACJA ULINIOWIE Ń
Popularne programy wykorzystywane do wizualizacji MSA:
Boxshade : ogólnie dost˛epny program działajacy
˛ w trybie tekstowym
umożliwiajacy
˛ interaktywne tworzenie graficznej reprezentacji
uliniowienia
ClustalX : program z graficznym interfejsem użytkownika, możliwość
przedefiniowywania sposobu kolorowania MSA oraz wyświetlania
informacji o lokalnej ocenie jakości uliniowienia
Jalview : program z graficznym interfejsem użytkownika, możliwość
anotacji uliniowienia (elementy struktury drugorz˛edowej, centra
aktywne, stopień konserwowania na kolejnych pozycjach uliniowienia,
profil jego jakości, etc.)
B OXSHADE
FE R_CAPAA /1 −9 7
FE R_CAPAN /1 −1 4 4
FE R1_LYCE S/ 1− 1 44
Q9 3XJ9_SO LT U/ 1 −1 44
FE R1_PEA/ 1− 14 9
Q7 XA98_TR IP R/ 1 −1 52
FE R1_MESC R/ 1− 1 48
FE R1_SPIO L/ 1− 1 47
FE R3_RAPS A/ 1− 9 6
FE R_ARATH /1 −1 4 8
FE R_BRANA /1 −9 6
FE R2_ARAT H/ 1− 1 48
Q9 3Z60_AR AT H/ 1 −1 18
FE R1_MAIZ E/ 1− 1 50
O8 0429_MA IZ E/ 1 −1 40
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A S
−− − −− −M A SV SA T MI S TS FM P RK PA V TS L KP IP − NV G− E AL FG L KS − −− AN G GK VT C MA S
−− − −− −M A SI SG T MI S TS FL P RK PA V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S
−− − −− −M A SI SG T MI S TS FL P RK PV V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S
−− − MA TT P AL YG T AV S TS FL R TQ PM P MS V TT TK A FS N− − GF LG L KT − SL KR G DL AV A MA S
−− − MA TT P AL YG T AV S TS FM R RQ PV P MS V AT TT T TK AF P SG FG L KS V ST KR G DL AV A MA T
−− M AA TT A AL SG A TM S TA FA P KT −− P PM T AA LP T NV G− R AL FG L KS − −S AS R GR VT A MA A
−− − −M AA T TT TM M GM A TT FV P KP QA P PM M AA LP S NT G− R SL FG L KT − −G SR G GR MT − MA A
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T
−− − −M AS T AL SS A IV G TS FI R RS PA P IS L RS LP S AN T− Q SL FG L KS − GT AR G GR VT A MA T
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T
−− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T
−− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T
MA T VL GS P RA PA F FF S SS SL R AA PA P TA V AL PA A KV G− − −I MG R SA − −− SS R RR LR A QA T
−− − −− −− − −M AA T AL S MS IL R AP P− P CF S SP LR L RV AV A KP LA A PM − −− −R R QL LR A QA T
1. . .. .. . .1 0. . .. . .. .2 0 .. .. . .. . 30 .. . .. .. . 40 .. . .. . .. 50 . .. .. . .. .
kolorowanie kolumn
zawierajacych
˛
identyczne
(domyślnie: czarne
tło), podobne (szare
tło) i różne (białe tło)
reszty,
FE R_CAPAA /1 −9 7
FE R_CAPAN /1 −1 4 4
FE R1_LYCE S/ 1− 1 44
Q9 3XJ9_SO LT U/ 1 −1 44
FE R1_PEA/ 1− 14 9
Q7 XA98_TR IP R/ 1 −1 52
FE R1_MESC R/ 1− 1 48
FE R1_SPIO L/ 1− 1 47
FE R3_RAPS A/ 1− 9 6
FE R_ARATH /1 −1 4 8
FE R_BRANA /1 −9 6
FE R2_ARAT H/ 1− 1 48
Q9 3Z60_AR AT H/ 1 −1 18
FE R1_MAIZ E/ 1− 1 50
O8 0429_MA IZ E/ 1 −1 40
FL D ED QE A AG FV L TC V AY PK G DV TI E TH K EE EL T A−
FL D DD QE A AG FV L TC V AY PK C DV TI E TH K EE EL T A−
FL D DE QI E AG FV L TC V AY PT S DV VI E TH K EE DL T A−
FL D DE QI E GG WV L TC V AF PT S DV TI E TH K EE EL T A−
FL D DD QI K EG WV L TC V AY PT G DV TI E TH K EE EL T A−
FL D DD QI D EG WV L TC A AY PV S DV TI E TH K EE EL T A−
FL D DD QI A EG FV L TC A AY PT S DV TI E TH R EE DM V −−
FL D DE QI G EG FV L TC A AY PT S DV TI E TH K EE DI V −−
FL D DD QI A EG FV L TC A AY PT S DV TI E TH K EE EL V −−
FL D DE QM S EG YV L TC V AY PT S DV VI E TH K EE AI M −−
FL D D− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −−
YL D DG QI A DG WV L TC H AY PT S DV VI E TH K EE EL T GA
FL N DN QV A DG WV L TC A AY PT S DV VI E TH K ED DL L −−
kolorowane sa˛
kolumny o odsetku
identyczności reszt
przekraczajacym
˛
ustalona˛ wartość
12 1 .. .. . .1 30 . .. . .. .1 4 0. .. . .. . 15 0. . ..
C LUSTAL X
FER_CAPAA/1−97
FER_CAPAN/1−144
FER1_LYCES/1−144
Q93XJ9_SOLTU/1−144
FER1_PEA/1−149
Q7XA98_TRIPR/1−152
FER1_MESCR/1−148
FER1_SPIOL/1−147
FER3_RAPSA/1−96
FER_ARATH/1−148
FER_BRANA/1−96
FER2_ARATH/1−148
Q93Z60_ARATH/1−118
FER1_MAIZE/1−150
O80429_MAIZE/1−140
ruler
*:*:*.::** * *.: .:*
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ASYKVKLITPDGPIEFDCPDDV
−−−−−−MASVSATMISTSFMPRKPAVTSLKPIP−NVG−EALFGLKS−−−ANGGKVTCMASYKVKLITPDGPIEFDCPDNV
−−−−−−MASISGTMISTSFLPRKPAVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPEGPIEFECPDDV
−−−−−−MASISGTMISTSFLPRKPVVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPDGPIEFECPDDV
−−−MATTPALYGTAVSTSFLRTQPMPMSVTTTKAFSN−−GFLGLKT−SLKRGDLAVAMASYKVKLVTPDGTQEFECPSDV
−−−MATTPALYGTAVSTSFMRRQPVPMSVATTTTTKAFPSGFGLKSVSTKRGDLAVAMATYKVKLITPEGPQEFDCPDDV
−−MAATTAALSGATMSTAFAPKT−−PPMTAALPTNVG−RALFGLKS−−SASRGRVTAMAAYKVTLVTPEGKQELECPDDV
−−−−MAATTTTMMGMATTFVPKPQAPPMMAALPSNTG−RSLFGLKT−−GSRGGRMT−MAAYKVTLVTPTGNVEFQCPDDV
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV
−−−−MASTALSSAIVGTSFIRRSPAPISLRSLPSANT−QSLFGLKS−GTARGGRVTAMATYKVKFITPEGELEVECDDDV
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV
−−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV
−−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV
MATVLGSPRAPAFFFSSSSLRAAPAPTAVALPAAKVG−−−IMGRSA−−−SSRRRLRAQATYNVKLITPEGEVELQVPDDV
−−−−−−−−−MAATALSMSILRAPP−PCFSSPLRLRVAVAKPLAAPM−−−−RRQLLRAQATYNVKLITPEGEVELQVPDDV
1.......10........20........30........40........50........60........70........80
FER_CAPAA/1−97
FER_CAPAN/1−144
FER1_LYCES/1−144
Q93XJ9_SOLTU/1−144
FER1_PEA/1−149
Q7XA98_TRIPR/1−152
FER1_MESCR/1−148
FER1_SPIOL/1−147
FER3_RAPSA/1−96
FER_ARATH/1−148
FER_BRANA/1−96
FER2_ARATH/1−148
Q93Z60_ARATH/1−118
FER1_MAIZE/1−150
O80429_MAIZE/1−140
ruler
*:** *** * :**:*************: * ::* * .:*::
YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG−
YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG−
YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGSVDQSDGNFLDEDQEAAGFVLTCVAYPKGDVTIETHKEEELTA−
YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGTVDQSDGKFLDDDQEAAGFVLTCVAYPKCDVTIETHKEEELTA−
YILDHAEEVGIDLPYSCRAGSCSSCAGKVVGGEVDQSDGSFLDDEQIEAGFVLTCVAYPTSDVVIETHKEEDLTA−
YILDHAEEVGIELPYSCRAGSCSSCAGKVVNGNVNQEDGSFLDDEQIEGGWVLTCVAFPTSDVTIETHKEEELTA−
YILDAAEEAGIDLPYSCRAGSCSSCAGKVTSGSVNQDDGSFLDDDQIKEGWVLTCVAYPTGDVTIETHKEEELTA−
YILDAAEEEGIDLPYSCRAGSCSSCAGKLKTGSLNQDDQSFLDDDQIDEGWVLTCAAYPVSDVTIETHKEEELTA−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDDQIAEGFVLTCAAYPTSDVTIETHREEDMV−−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDEQIGEGFVLTCAAYPTSDVTIETHKEEDIV−−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGFVDQSDESFLDDDQIAEGFVLTCAAYPTSDVTIETHKEEELV−−
YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDDEQMSEGYVLTCVAYPTSDVVIETHKEEAIM−−
YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDD−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
YILDQAEEDGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSYLDDGQIADGWVLTCHAYPTSDVVIETHKEEELTGA
YILDFAEEEGIDLPFSCRAGSCSSCAGKVVSGSVDQSDQSFLNDNQVADGWVLTCAAYPTSDVVIETHKEDDLL−−
........90.......100.......110.......120.......130.......140.......150......
22
69
69
69
74
77
73
72
22
74
22
74
74
74
66
kolorowanie reszt wybranego typu,
domyślnie:
orange : GPST
red : HKR
blue : FWY
green : ILMV
97
144
144
144
149
152
148
147
96
148
96
148
118
150
140
lub w zależności od konsensusu na
określonej pozycji uliniowienia, np.
# = 60% w:l:v:i
przypisuje danej kolumnie
konsensusowy znak # o ile kolumna w
conajmniej 60% składa si˛e z reszt WLVI
z kolei linia
w = BLUE if +:#
oznacza, że każda reszta tryptofanu w kolumnie o konsensusie oznaczanym przez + lub # b˛edzie w
kolorze niebieskim
JALVIEW
wysublimowane schematy
kolorowania MSA:
hydrofobowość
według preferowanego
wyst˛epowania w
określonych
elementach struktury
drugorz˛edowej (helisa,
arkusz, p˛etla) lub
wn˛etrzu białka (tzw.
buried index),
stopnia
konserwowania reszt
w kolumnie
uliniowienia, etc.
M ETODY WYZNACZANIA MSA
Powszechnie stosowanym sposobem zmniejszenia złożoności obliczeniowej
problemu uliniowień wielosekwencyjnych, tak by możliwe stało si˛e
uliniawianie dużej liczby długich sekwencji, jest zastosowanie algorytmów
heurystycznych (najcz˛eściej tzw. metod progresywnych)
Uliniawianie symultaniczne
S1
Uliniawianie progresywne
S2
S6
S1
S2
S4
S3
S6
S5
S4
S6
S5
S1
S4
S2
S3
S3
S5
MSA
Heurystyka drzewiasta Heurystyka gwiaździsta
ClustalW, T-Coffee
PSI-Blast (SAM)
M ETODY HEURYSTYCZNE
progresywne : tworzenie uliniowienia wielosekwencyjnego rozpoczynaja˛ od uliniowienia
pary najbliższych ewolucyjnie sekwencji a nast˛epnie uzupełnianie uliniowienia coraz
bardziej odległymi sekwencjami
ClustalW : http://www.ebi.ac.uk/clustalw/
T-Coffee : http://www.ch.embnet.org/software/TCoffee.html
Muscle : http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py
iteracyjne : wst˛epnie utworzony MSA jest iteracyjnie poprawiany w procesie optymalizacji
zadanej funkcji wartościujacej
˛
Dialign : http://bibiserv.techfak.uni-bielefeld.de/dialign/
Prrp/Prrn : http://www.cbrc.jp/ gotoh/softdata.html
SAGA : http://igs-server.cnrs-mrs.fr/ cnotred/Projects_home_page/saga_home_page.html
probabilistyczne : tworzenie MSA przebiega w oparciu o założony model statystyczny
HMMER http://hmmer.wustl.edu/
SAM http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html
MEME http://meme.sdsc.edu/meme/intro.html
S TRATEGIA PROGRESYWNEGO ULINIOWIENIA WIELOSEKWENCYJNEGO
1. wyznaczenie uliniowień dla każdej pary sekwencji
(programowanie dynamiczne lub algorytm heurystyczny
(np. FASTA))
2. oceny uliniowień par sekwencji sa˛ wykorzystywane do
oszacowania dystansów ewolucyjnych mi˛edzy wszystkim
sekwencjami w analizowanym zbiorze
3. wyznaczenie drzewa filogenetycznego reprezentujacego
˛
relacje ewolucyjne mi˛edzy sekwencjami
4
3A
3B
1B
1A
2A
2B
5
4. poczatkowy
˛
MSA zawiera uliniowienie pary najbliżej
spokrewnionych sekwencji, nast˛epnie jest on uzupełniany
o coraz bardziej odległe sekwencje
5. uzupełnienie MSA przebiega poprzez dodanie albo
pojedynczej sekwencji, lub
uliniowienia kilku sekwencji
zmiany w uzupełnianym MSA nie dopuszczaja˛
modyfikowania składowych uliniowień
O GRANICZENIA METOD PROGRESYWNYCH
lokalne minimum : wyznaczone MSA może nie być globalnie optymalne w
kategoriach funkcji wartościujacej
˛ jakość uliniowienia
macierz podstawień : wybór sposobu punktowania podstawień
aminokwasowych/nukleotydowych wpływa na jakość uliniowień par
sekwencji (por. PAM30 i PAM250)
przerwy : o ile dla blisko spokrewnionych par sekwencji, wyznaczenie ich
sensownego biologicznie uliniowienia w niewielkim stopniu zależy od
wyboru sposobu punktowania przerw, o tyle w przypadku bardziej
odległych ewolucyjnie sekwencji, punktowanie przerw może istotnie
wpływać na jakość wyznaczanego uliniowienia
S TOSOWANE ROZWI AZANIA
˛
wkład poszczególnych sekwencji do konstruowanego MSA jest
różnicowany: wagi przyznawane sekwencjom w zależności od stopnia
ich ewolucyjnego pokrewieństwa
przy wyznaczaniu uliniowień pary sekwencji, macierze podstawień sa˛
dobierane w zależności od szacunkowej oceny dystansu ewolucyjnego
mi˛edzy nimi
punktacja przerw jest dynamicznie modyfikowana i indywidualizowana
w zależności od lokalizacji (kontekstu) każdej z przerw w sekwencji
C LUSTALW: KLASYK METOD PROGRESYWNYCH
Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTALW: Improving the
sensitivity of progressive multiple sequence alignment through sequence
weighting, positions-specific gap penalties and weight matrix choice Nucleic
Acids Research 22:4673-4680
ClustalW jest przeznaczony do budowy globalnych uliniowień
progresywnych, konstrukcji drzew filogenetycznych oraz manipulacji
istniejacymi
˛
uliniowieniami (w tym do konwersji mi˛edzy różnymi
formatami zachowywania MSA)
program może być obsługiwany w trybie interaktywnym lub wsadowym
ClustalX stanowi rozszerzenie programu ClustalW oferujac
˛ m.in.
graficzny interfejs użytkownika
Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG (1997)
The ClustalX windows interface: flexible strategies for multiple sequence
alignment aided by quality analysis tools. Nucleic Acids Research,
24:4876-4882
E TAP 1: ULINIOWIENIA PAR SEKWENCJI
Dwie alternatywne metody:
********* PAIRWISE ALIGNMENT PARAMETERS *********
Slow/Accurate alignments:
programowanie dynamiczne
gwarantujace
˛ otrzymanie
optymalnego uliniowienia
globalnego
1.
2.
3.
4.
Gap Open Penalty
Gap Extension Penalty
Protein weight matrix
DNA weight matrix
:10.00
:0.10
:Gonnet series
:IUB
Fast/Approximate alignments:
uliniowienie sekwencji przebiega w
oparciu o zadana˛ macierz podstawień
(dla białek: BLOSUM30, PAM350,
GONNET250) oraz afiniczna˛ metod˛e
punktowania przerw (GOP,GEP)
5.
6.
7.
8.
Gap penalty
K-tuple (word) size
No. of top diagonals
Window size
:3
:1
:5
:5
9. Toggle Slow/Fast pairwise alignments = SLOW
H. HELP
heurystyczna (Wilbur & Lipman) pozwalajaca
˛ na bardzo szybkie wyznaczenie przybliżonego
uliniowienia globalnego
podobnie jak w algorytmie FASTA, sekwencje sa˛ kawałkowane na słowa o zadanej długości
dla białek oraz
dla DNA)
(ang. k-tuple size,
!
#"
w oparciu o zadana˛ liczb˛e najlepszych ciagów
˛
diagonalnych (ang. top diagonals) tworzone jest
uliniowienie b˛edace
˛ kompilacja˛ ciagów
˛
diagonalnych w ich najbliższym otoczeniu (ang. window
size, dopuszczalna różnica w indeksach ciagów
˛
diagonalnych)
na ocen˛e uliniowienia składa si˛e liczba słów (tj. k-tuples), które ono obejmuje oraz iloczyn
liczby przerw i określonej kary za przerw˛e
E TAP 2: MACIERZ DYSTANSÓW EWOLUCYJNYCH
niezależnie od metody wyznaczania
uliniowień par sekwencji,
przybliżona miara dystansu mi˛edzy
sekwencjami wyrażana jest jako
odsetek identycznych reszt na
odpowiadajacych
˛
sobie pozycjach
ciagłych
˛
fragmentów
uliniowienia
(
)
dystans ten jest nast˛epnie
przedstawiany jako średnia liczba
mutacji punktowych na pozycj˛e
uliniowienia:
zgodnie z domyślnymi
ustawieniami, w obliczeniach
pomijana jest możliwość
wielokrotnych podstawień; założenie
to jest cz˛esto naruszane w przypadku
odległych ewolucyjnie sekwencji
Przykładowa macierz szacunkowych dystansów
ewolucyjncych (1 4: łańcuchy i hemoglobiny
(odpowiednio: HBB_HUMAN, HBB_HORSE,
HBA_HUMAN, HBA_HORSE), 5: mioglobina
(MYG_PHYCA), 6: cyjanohemoglobina
(GLB5_PETMA), 7: leghemoglobina
(LGB2_LUPLU))
2
3
4
5
6
7
0.17
0.59
0.59
0.77
0.81
0.87
0.60
0.59
0.77
0.82
0.86
1
2
0.13
0.75 0.75
0.73 0.74 0.80
0.86 0.88 0.93 0.93
3
4
5
****** PHYLOGENETIC TREE MENU ******
1.
2.
3.
4.
5.
6.
Input an alignment
Exclude positions with gaps?
= OFF
Correct for multiple substitutions? = OFF
Draw tree now
Bootstrap tree
Output format options
6
%
E TAP 3: DRZEWO FILOGENETYCZNE
&
%
parametry drzewa: topologia (rozmieszczenie
w˛ezłów) oraz długości gał˛ezi wyznaczane sa˛ metoda˛
łaczenia
˛
sasiadów
˛
(ang. neighbour-joining method)
&
&
korzeń drzewa zlokalizowany jest w oparciu o metod˛e
środkowego punktu (ang. mid-point): punkt
odpowiadajacy
˛ połowie długości gał˛ezi łacz
˛ acej
˛
najbardziej odległe ewolucyjnie sekwencje
1
3
5
')(+* ,.-0/24 1 3 5
' (6* 798
')(+*;:<- /24 1 3 5
' (6* ,=8
')(+* 8
0.2
A
0.3
0.1
B
0.5
C
4
Topologia drzewa wyznaczonego dla
przykładowych sekwencji globin
(wagi sekwencji):
5
2
(A)
(B)
(C)
3
4
1
%
2
81
1/1000
wyznaczenie wag różnicujacych
˛
wkład
poszczególnych sekwencji do tworzonego MSA
nast˛epuje w oparciu o parametry wyznaczonego
drzewa filogenetycznego: waga sekwencji zależy od
długości gał˛ezi łacz
˛ acych
˛
sekwencj˛e z korzeniem,
przy czym długości gał˛ezie współdzielone z innymi
sekwencjami maja˛ wkład do ostatecznej wagi
określonej sekwencji proporcjonalnie niższy
0.221
1
226
84
62
55
0.225
0.194
2
3
219
15
65
62
389
442
np.
&
0.203
5 0.411
4
398
(5)
6
7
0.398
0.442
5
' +( * 97 => <? @- 6( * +( A: 98 !B C8 D- +( * 9( 9E 9, !B E 5
' +( * 6F =: :
E TAP 4: ULINIOWIENIE PROGRESYWNE
1. wykonanie uliniowienia pary najbliżej spokrewnionych sekwencji w oparciu o metod˛e
programowania dynamicznego
2. w przypadku uliniawiania sekwencji aminokwasowych:
$
$
wykorzystana jest macierz podstawień aminokwasowych dobrana z określonej serii
w zależności od uprzednio oszacowanego dystansu ewolucyjnego ({BLOSUM: 80,
62, 45, 30} lub {PAM: 20, 60, 120, 350} lub {GONNET: 80, 120, 160, 250, 350})
punktacja przerw jest prowadzona w oparciu o profil kar za otwarcie/wydłużenie
przerw wyznaczonych w funkcji kolejnych reszt aminokwasowych sekwencji
3. w przypadku uliniawiania sekwencji nukleotydowych wykorzystywana jest jedna
macierz podstawień
4. w kolejnych krokach, do tworzonego MSA dodawane sa˛ albo pojedyncze sekwencje albo
uliniowienia wielosekwencyjne w kolejności wyznaczanej topologi˛e odpowiedniego
drzewa filogenetycznego
˛ kolejności:
W analizowanym przykładzie, tworzenie MSA b˛edzie przebiegać w nast˛epujacej
1. (HBB_HUMAN, HBB_HORSE)
4. (3, MYG_PHYCA)
2. (HBA_HUMAN, HBA_HORSE)
5. (4, GLB5_PETMA)
3. (1,2)
6. (5, LGB2_LUPLU)
s
O CENA JAKO ŚCI DOPASOWANIA RESZT W KOLUMNIE MSA
s
do wyznaczania czastkowych
˛
ocen uliniowienia w procedurze programowania
dynamicznego wykorzystywana jest macierz podstawień przeskalowana w taki sposób,
że zawiera wyłacznie
˛
dodatnie wartości
s
ocena jakości dopasowania kolejnych pozycji w parze porównywanych uliniowień
˛ średnia˛ arytmetyczna˛ ocen porównań wszystkich
(sekwencji) – tCu – jest (ważona)
możliwych par reszt z obu uliniowień (sekwencji)
1
2
3
4
peeksavtal
geekaavlal
padktnvkaa
aadktnvkaa
5
6
7
egewqlvlhv
aaektkirsa
agedel-rwa
vXwyx
z
{}|d~€‚Aƒp„†…d‡ˆ|.‰Š‹|p‰jŒX ‚Aƒ.„€Ž#‡|.‰Š‹|.‰‘
 ‚=’+„“…”‡|.‰‘•ˆ|p‰ Œ  ‚=’„€Ž#‡|.‰‘•ˆ|.‰ 
 ‚9–m„†…d‡|.‰‘—ˆ|.‰‘Œ) ‚9–m„€Ž#‡|.‰‘—ˆ|.‰‘
 ‚9–m„†…d‡|.‰™˜š|.‰‘Œ) ‚9–m„€Ž#‡|.‰™˜š|.‰‘œ›
jeśli na porównywanych pozycjach znajduja˛ si˛e przerwy, to czastkowa
˛
ocena
porównywanej pary (reszta/przerwa, reszta/reszta) wynosi 0
– zauważmy, że przy dodatnich wartościach przeskalowanej macierzy podstawień, 0
jest najniższa˛ (najgorsza)
˛ możliwa˛ ocena˛ czastkow
˛
a˛
G
Z ASADY USTALANIA POCZ ATKOWEJ
˛
PUNKTACJI PRZERW
G
ustalone przez użytkownika wartości GOP i GEP (domyślnie 10.0 i 0.2) sa˛
modyfikowane przez program w celu ograniczenia wpływu parametrów uliniowienia i
własności uliniawianych sekwencji na jakość uliniowienia
w ogólnym przypadku, wpływ wielkości parametrów GOP i GEP na jakość uliniwienia
zależy od
– rodzaju użytej macierzy podstawień: w ClustalW, wyjściowa wielkość GOP jest
przemnażana przez średnia˛ ocen˛e porównania pary różnych reszt (pozadiagonalne
elementy macierzy podstawień)
– stopnia identyczności uliniawianych sekwencji: w ClustalW, wielkość GOP jest
mnożona przez odsetek identycznych reszt w uprzednio wyznaczonym uliniowieniu
– długości uliniawianych sekwencji: ocena zarówno poprawnych jak i bł˛ednych
uliniowień zwi˛eksza si˛e dla dłuższych sekwencji; w ClustalW, GOP jest zwi˛ekszana
o wartość proporcjonalna˛ do długości uliniawianych sekwencji
– różnicy w długości uliniawianych sekwencji: jeśli jedna z sekwencji jest znacznie
krótsza od drugiej, ClustalW zwi˛eksza wartość GEP aby ograniczyć liczb˛e długich
przerw wprowadzanych do krótkszej sekwencji
G
ostatecznie, zmiany poczatkowych
˛
wartości GOP i GEP wyrażaja˛ si˛e nast˛epujacymi
˛
wzorami:
GOP
H
I GOP JLK2MON@PRQTSVUXW+Y[Z]\ ^`_+acb ave_mismatch_score b percent_identity
GEP
H
GEP
bdPfegihjJ klK2MONmW+Yonp\ ^qkr_
Z ASADY RÓ ŻNICOWANIA PUNKTACJI PRZERW WZDŁU Ż SEKWENCJI
Przed przystapieniem
˛
do kompilacji wst˛epnych uliniowień (sekwencji), wyznaczany jest
zestaw parametrów GOP/GEP na każda˛ pozycj˛e wst˛epnych uliniowień (sekwencji).
Zmiany w wielkościach GOP/GEP dokonywane sa˛ w
podanej kolejności:
1. na pozycjach w obr˛ebie istniejacych
˛
przerw
wielkość parametrów GOP/GEP jest obniżana
faworyzujac
˛ rozbudow˛e przerw w tych miejscach:
no_gaps_seq_number
GOP  GOP ž Ÿ†¡;¢¤£
all_seq_number
GEP  ¥Ÿ §¡ d¦ £ GEP
4. w zależności od typu reszty,
kolejne reguły nie sa˛ stosowane
wielkość parametru GOP jest
mnożona przez czynnik
2. na pozycjach w pobliżu istniejacych
˛
przerw
skalujacy
˛ przyjmujacy
˛ wartości
wielkość parametru GOP jest zwi˛ekszana
od Ÿ¥¡®Ä¥Á do Ál¡§©ÃÅ (Pascarella &
utrudniajac
˛ tworzenie nowych przerw w tych
Argos): analiza danych
rejonach na rzecz poszerzania istniejacych
˛
przerw:
strukturalnych wskazuje, że
¸
¹
2
º
2
»
¼
!
½
¿
¾
6
À
_
_
wyst˛epowanie pewnych typów
GOP  GOP £“¨ª©ž«!¬®­R¯=°²±A³µ´·¶
¯
reszt w sekwencji faworyzuje
3. na odcinkach sekwencji, w których licznie
wyst˛epowanie przerw w
wyst˛epuja˛ hydrofilowe reszty (DEGKNQPRS)
uliniowieniach
wielkość parametru GOP jest obniżana o Á6Ââ
S YNDROM G ARFIELDA

Podobne dokumenty