Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n

Transkrypt

Bioinformatyka 2 (BT172)
Wykład 4
Metody wyznaczania uliniowień
wielosekwencyjnych
Krzysztof Murzyn
7.XI.2005
P LAN WYKŁADU
1. Ostatnio: definicje, zastosowania MSA, złożoność obliczeniowa
algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne,
kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty
zapisywania MSA, BaliBase: referencyjna baza uliniowień
wielosekwencyjnych, edycja MSA
2. Wizualizacja MSA
3. Przeglad
˛ metod wyznaczania MSA
4. Progresywne metody wyznaczania MSA (klasyka gatunku: ClustalW)
W IZUALIZACJA ULINIOWIE Ń
Popularne programy wykorzystywane do wizualizacji MSA:
Boxshade : ogólnie dost˛epny program działajacy
˛ w trybie tekstowym
umożliwiajacy
˛ interaktywne tworzenie graficznej reprezentacji
uliniowienia
ClustalX : program z graficznym interfejsem użytkownika, możliwość
przedefiniowywania sposobu kolorowania MSA oraz wyświetlania
informacji o lokalnej ocenie jakości uliniowienia
Jalview : program z graficznym interfejsem użytkownika, możliwość
anotacji uliniowienia (elementy struktury drugorz˛edowej, centra
aktywne, stopień konserwowania na kolejnych pozycjach uliniowienia,
profil jego jakości, etc.)
B OXSHADE
FE R_CAPAA /1 −9 7
FE R_CAPAN /1 −1 4 4
FE R1_LYCE S/ 1− 1 44
Q9 3XJ9_SO LT U/ 1 −1 44
FE R1_PEA/ 1− 14 9
Q7 XA98_TR IP R/ 1 −1 52
FE R1_MESC R/ 1− 1 48
FE R1_SPIO L/ 1− 1 47
FE R3_RAPS A/ 1− 9 6
FE R_ARATH /1 −1 4 8
FE R_BRANA /1 −9 6
FE R2_ARAT H/ 1− 1 48
Q9 3Z60_AR AT H/ 1 −1 18
FE R1_MAIZ E/ 1− 1 50
O8 0429_MA IZ E/ 1 −1 40
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A S
−− − −− −M A SV SA T MI S TS FM P RK PA V TS L KP IP − NV G− E AL FG L KS − −− AN G GK VT C MA S
−− − −− −M A SI SG T MI S TS FL P RK PA V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S
−− − −− −M A SI SG T MI S TS FL P RK PV V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S
−− − MA TT P AL YG T AV S TS FL R TQ PM P MS V TT TK A FS N− − GF LG L KT − SL KR G DL AV A MA S
−− − MA TT P AL YG T AV S TS FM R RQ PV P MS V AT TT T TK AF P SG FG L KS V ST KR G DL AV A MA T
−− M AA TT A AL SG A TM S TA FA P KT −− P PM T AA LP T NV G− R AL FG L KS − −S AS R GR VT A MA A
−− − −M AA T TT TM M GM A TT FV P KP QA P PM M AA LP S NT G− R SL FG L KT − −G SR G GR MT − MA A
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T
−− − −M AS T AL SS A IV G TS FI R RS PA P IS L RS LP S AN T− Q SL FG L KS − GT AR G GR VT A MA T
−− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T
−− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T
−− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T
MA T VL GS P RA PA F FF S SS SL R AA PA P TA V AL PA A KV G− − −I MG R SA − −− SS R RR LR A QA T
−− − −− −− − −M AA T AL S MS IL R AP P− P CF S SP LR L RV AV A KP LA A PM − −− −R R QL LR A QA T
1. . .. .. . .1 0. . .. . .. .2 0 .. .. . .. . 30 .. . .. .. . 40 .. . .. . .. 50 . .. .. . .. .
kolorowanie kolumn
zawierajacych
˛
identyczne
(domyślnie: czarne
tło), podobne (szare
tło) i różne (białe tło)
reszty,
FE R_CAPAA /1 −9 7
FE R_CAPAN /1 −1 4 4
FE R1_LYCE S/ 1− 1 44
Q9 3XJ9_SO LT U/ 1 −1 44
FE R1_PEA/ 1− 14 9
Q7 XA98_TR IP R/ 1 −1 52
FE R1_MESC R/ 1− 1 48
FE R1_SPIO L/ 1− 1 47
FE R3_RAPS A/ 1− 9 6
FE R_ARATH /1 −1 4 8
FE R_BRANA /1 −9 6
FE R2_ARAT H/ 1− 1 48
Q9 3Z60_AR AT H/ 1 −1 18
FE R1_MAIZ E/ 1− 1 50
O8 0429_MA IZ E/ 1 −1 40
FL D ED QE A AG FV L TC V AY PK G DV TI E TH K EE EL T A−
FL D DD QE A AG FV L TC V AY PK C DV TI E TH K EE EL T A−
FL D DE QI E AG FV L TC V AY PT S DV VI E TH K EE DL T A−
FL D DE QI E GG WV L TC V AF PT S DV TI E TH K EE EL T A−
FL D DD QI K EG WV L TC V AY PT G DV TI E TH K EE EL T A−
FL D DD QI D EG WV L TC A AY PV S DV TI E TH K EE EL T A−
FL D DD QI A EG FV L TC A AY PT S DV TI E TH R EE DM V −−
FL D DE QI G EG FV L TC A AY PT S DV TI E TH K EE DI V −−
FL D DD QI A EG FV L TC A AY PT S DV TI E TH K EE EL V −−
FL D DE QM S EG YV L TC V AY PT S DV VI E TH K EE AI M −−
FL D D− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −−
YL D DG QI A DG WV L TC H AY PT S DV VI E TH K EE EL T GA
FL N DN QV A DG WV L TC A AY PT S DV VI E TH K ED DL L −−
kolorowane sa˛
kolumny o odsetku
identyczności reszt
przekraczajacym
˛
ustalona˛ wartość
12 1 .. .. . .1 30 . .. . .. .1 4 0. .. . .. . 15 0. . ..
C LUSTAL X
FER_CAPAA/1−97
FER_CAPAN/1−144
FER1_LYCES/1−144
Q93XJ9_SOLTU/1−144
FER1_PEA/1−149
Q7XA98_TRIPR/1−152
FER1_MESCR/1−148
FER1_SPIOL/1−147
FER3_RAPSA/1−96
FER_ARATH/1−148
FER_BRANA/1−96
FER2_ARATH/1−148
Q93Z60_ARATH/1−118
FER1_MAIZE/1−150
O80429_MAIZE/1−140
ruler
*:*:*.::** * *.: .:*
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ASYKVKLITPDGPIEFDCPDDV
−−−−−−MASVSATMISTSFMPRKPAVTSLKPIP−NVG−EALFGLKS−−−ANGGKVTCMASYKVKLITPDGPIEFDCPDNV
−−−−−−MASISGTMISTSFLPRKPAVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPEGPIEFECPDDV
−−−−−−MASISGTMISTSFLPRKPVVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPDGPIEFECPDDV
−−−MATTPALYGTAVSTSFLRTQPMPMSVTTTKAFSN−−GFLGLKT−SLKRGDLAVAMASYKVKLVTPDGTQEFECPSDV
−−−MATTPALYGTAVSTSFMRRQPVPMSVATTTTTKAFPSGFGLKSVSTKRGDLAVAMATYKVKLITPEGPQEFDCPDDV
−−MAATTAALSGATMSTAFAPKT−−PPMTAALPTNVG−RALFGLKS−−SASRGRVTAMAAYKVTLVTPEGKQELECPDDV
−−−−MAATTTTMMGMATTFVPKPQAPPMMAALPSNTG−RSLFGLKT−−GSRGGRMT−MAAYKVTLVTPTGNVEFQCPDDV
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV
−−−−MASTALSSAIVGTSFIRRSPAPISLRSLPSANT−QSLFGLKS−GTARGGRVTAMATYKVKFITPEGELEVECDDDV
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV
−−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV
−−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV
MATVLGSPRAPAFFFSSSSLRAAPAPTAVALPAAKVG−−−IMGRSA−−−SSRRRLRAQATYNVKLITPEGEVELQVPDDV
−−−−−−−−−MAATALSMSILRAPP−PCFSSPLRLRVAVAKPLAAPM−−−−RRQLLRAQATYNVKLITPEGEVELQVPDDV
1.......10........20........30........40........50........60........70........80
FER_CAPAA/1−97
FER_CAPAN/1−144
FER1_LYCES/1−144
Q93XJ9_SOLTU/1−144
FER1_PEA/1−149
Q7XA98_TRIPR/1−152
FER1_MESCR/1−148
FER1_SPIOL/1−147
FER3_RAPSA/1−96
FER_ARATH/1−148
FER_BRANA/1−96
FER2_ARATH/1−148
Q93Z60_ARATH/1−118
FER1_MAIZE/1−150
O80429_MAIZE/1−140
ruler
*:** *** * :**:*************: * ::* * .:*::
YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG−
YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG−
YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGSVDQSDGNFLDEDQEAAGFVLTCVAYPKGDVTIETHKEEELTA−
YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGTVDQSDGKFLDDDQEAAGFVLTCVAYPKCDVTIETHKEEELTA−
YILDHAEEVGIDLPYSCRAGSCSSCAGKVVGGEVDQSDGSFLDDEQIEAGFVLTCVAYPTSDVVIETHKEEDLTA−
YILDHAEEVGIELPYSCRAGSCSSCAGKVVNGNVNQEDGSFLDDEQIEGGWVLTCVAFPTSDVTIETHKEEELTA−
YILDAAEEAGIDLPYSCRAGSCSSCAGKVTSGSVNQDDGSFLDDDQIKEGWVLTCVAYPTGDVTIETHKEEELTA−
YILDAAEEEGIDLPYSCRAGSCSSCAGKLKTGSLNQDDQSFLDDDQIDEGWVLTCAAYPVSDVTIETHKEEELTA−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDDQIAEGFVLTCAAYPTSDVTIETHREEDMV−−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDEQIGEGFVLTCAAYPTSDVTIETHKEEDIV−−
YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGFVDQSDESFLDDDQIAEGFVLTCAAYPTSDVTIETHKEEELV−−
YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDDEQMSEGYVLTCVAYPTSDVVIETHKEEAIM−−
YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDD−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
YILDQAEEDGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSYLDDGQIADGWVLTCHAYPTSDVVIETHKEEELTGA
YILDFAEEEGIDLPFSCRAGSCSSCAGKVVSGSVDQSDQSFLNDNQVADGWVLTCAAYPTSDVVIETHKEDDLL−−
........90.......100.......110.......120.......130.......140.......150......
22
69
69
69
74
77
73
72
22
74
22
74
74
74
66
kolorowanie reszt wybranego typu,
domyślnie:
orange : GPST
red : HKR
blue : FWY
green : ILMV
97
144
144
144
149
152
148
147
96
148
96
148
118
150
140
lub w zależności od konsensusu na
określonej pozycji uliniowienia, np.
# = 60% w:l:v:i
przypisuje danej kolumnie
konsensusowy znak # o ile kolumna w
conajmniej 60% składa si˛e z reszt WLVI
z kolei linia
w = BLUE if +:#
oznacza, że każda reszta tryptofanu w kolumnie o konsensusie oznaczanym przez + lub # b˛edzie w
kolorze niebieskim
JALVIEW
wysublimowane schematy
kolorowania MSA:
hydrofobowość
według preferowanego
wyst˛epowania w
określonych
elementach struktury
drugorz˛edowej (helisa,
arkusz, p˛etla) lub
wn˛etrzu białka (tzw.
buried index),
stopnia
konserwowania reszt
w kolumnie
uliniowienia, etc.
M ETODY WYZNACZANIA MSA
Powszechnie stosowanym sposobem zmniejszenia złożoności obliczeniowej
problemu uliniowień wielosekwencyjnych, tak by możliwe stało si˛e
uliniawianie dużej liczby długich sekwencji, jest zastosowanie algorytmów
heurystycznych (najcz˛eściej tzw. metod progresywnych)
Uliniawianie symultaniczne
S1
Uliniawianie progresywne
S2
S6
S1
S2
S4
S3
S6
S5
S4
S6
S5
S1
S4
S2
S3
S3
S5
MSA
Heurystyka drzewiasta Heurystyka gwiaździsta
ClustalW, T-Coffee
PSI-Blast (SAM)
M ETODY HEURYSTYCZNE
progresywne : tworzenie uliniowienia wielosekwencyjnego rozpoczynaja˛ od uliniowienia
pary najbliższych ewolucyjnie sekwencji a nast˛epnie uzupełnianie uliniowienia coraz
bardziej odległymi sekwencjami
ClustalW : http://www.ebi.ac.uk/clustalw/
T-Coffee : http://www.ch.embnet.org/software/TCoffee.html
Muscle : http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py
iteracyjne : wst˛epnie utworzony MSA jest iteracyjnie poprawiany w procesie optymalizacji
zadanej funkcji wartościujacej
˛
Dialign : http://bibiserv.techfak.uni-bielefeld.de/dialign/
Prrp/Prrn : http://www.cbrc.jp/ gotoh/softdata.html
SAGA : http://igs-server.cnrs-mrs.fr/ cnotred/Projects_home_page/saga_home_page.html
probabilistyczne : tworzenie MSA przebiega w oparciu o założony model statystyczny
HMMER http://hmmer.wustl.edu/
SAM http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html
MEME http://meme.sdsc.edu/meme/intro.html
S TRATEGIA PROGRESYWNEGO ULINIOWIENIA WIELOSEKWENCYJNEGO
1. wyznaczenie uliniowień dla każdej pary sekwencji
(programowanie dynamiczne lub algorytm heurystyczny
(np. FASTA))
2. oceny uliniowień par sekwencji sa˛ wykorzystywane do
oszacowania dystansów ewolucyjnych mi˛edzy wszystkim
sekwencjami w analizowanym zbiorze
3. wyznaczenie drzewa filogenetycznego reprezentujacego
˛
relacje ewolucyjne mi˛edzy sekwencjami
4
3A
3B
1B
1A
2A
2B
5
4. poczatkowy
˛
MSA zawiera uliniowienie pary najbliżej
spokrewnionych sekwencji, nast˛epnie jest on uzupełniany
o coraz bardziej odległe sekwencje
5. uzupełnienie MSA przebiega poprzez dodanie albo
pojedynczej sekwencji, lub
uliniowienia kilku sekwencji
zmiany w uzupełnianym MSA nie dopuszczaja˛
modyfikowania składowych uliniowień
O GRANICZENIA METOD PROGRESYWNYCH
lokalne minimum : wyznaczone MSA może nie być globalnie optymalne w
kategoriach funkcji wartościujacej
˛ jakość uliniowienia
macierz podstawień : wybór sposobu punktowania podstawień
aminokwasowych/nukleotydowych wpływa na jakość uliniowień par
sekwencji (por. PAM30 i PAM250)
przerwy : o ile dla blisko spokrewnionych par sekwencji, wyznaczenie ich
sensownego biologicznie uliniowienia w niewielkim stopniu zależy od
wyboru sposobu punktowania przerw, o tyle w przypadku bardziej
odległych ewolucyjnie sekwencji, punktowanie przerw może istotnie
wpływać na jakość wyznaczanego uliniowienia
S TOSOWANE ROZWI AZANIA
˛
wkład poszczególnych sekwencji do konstruowanego MSA jest
różnicowany: wagi przyznawane sekwencjom w zależności od stopnia
ich ewolucyjnego pokrewieństwa
przy wyznaczaniu uliniowień pary sekwencji, macierze podstawień sa˛
dobierane w zależności od szacunkowej oceny dystansu ewolucyjnego
mi˛edzy nimi
punktacja przerw jest dynamicznie modyfikowana i indywidualizowana
w zależności od lokalizacji (kontekstu) każdej z przerw w sekwencji
C LUSTALW: KLASYK METOD PROGRESYWNYCH
Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTALW: Improving the
sensitivity of progressive multiple sequence alignment through sequence
weighting, positions-specific gap penalties and weight matrix choice Nucleic
Acids Research 22:4673-4680
ClustalW jest przeznaczony do budowy globalnych uliniowień
progresywnych, konstrukcji drzew filogenetycznych oraz manipulacji
istniejacymi
˛
uliniowieniami (w tym do konwersji mi˛edzy różnymi
formatami zachowywania MSA)
program może być obsługiwany w trybie interaktywnym lub wsadowym
ClustalX stanowi rozszerzenie programu ClustalW oferujac
˛ m.in.
graficzny interfejs użytkownika
Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG (1997)
The ClustalX windows interface: flexible strategies for multiple sequence
alignment aided by quality analysis tools. Nucleic Acids Research,
24:4876-4882
E TAP 1: ULINIOWIENIA PAR SEKWENCJI
Dwie alternatywne metody:
********* PAIRWISE ALIGNMENT PARAMETERS *********
Slow/Accurate alignments:
programowanie dynamiczne
gwarantujace
˛ otrzymanie
optymalnego uliniowienia
globalnego
1.
2.
3.
4.
Gap Open Penalty
Gap Extension Penalty
Protein weight matrix
DNA weight matrix
:10.00
:0.10
:Gonnet series
:IUB
Fast/Approximate alignments:
uliniowienie sekwencji przebiega w
oparciu o zadana˛ macierz podstawień
(dla białek: BLOSUM30, PAM350,
GONNET250) oraz afiniczna˛ metod˛e
punktowania przerw (GOP,GEP)
5.
6.
7.
8.
Gap penalty
K-tuple (word) size
No. of top diagonals
Window size
:3
:1
:5
:5
9. Toggle Slow/Fast pairwise alignments = SLOW
H. HELP
heurystyczna (Wilbur & Lipman) pozwalajaca
˛ na bardzo szybkie wyznaczenie przybliżonego
uliniowienia globalnego
podobnie jak w algorytmie FASTA, sekwencje sa˛ kawałkowane na słowa o zadanej długości
dla białek oraz
dla DNA)
(ang. k-tuple size,
!
#"
w oparciu o zadana˛ liczb˛e najlepszych ciagów
˛
diagonalnych (ang. top diagonals) tworzone jest
uliniowienie b˛edace
˛ kompilacja˛ ciagów
˛
diagonalnych w ich najbliższym otoczeniu (ang. window
size, dopuszczalna różnica w indeksach ciagów
˛
diagonalnych)
na ocen˛e uliniowienia składa si˛e liczba słów (tj. k-tuples), które ono obejmuje oraz iloczyn
liczby przerw i określonej kary za przerw˛e
E TAP 2: MACIERZ DYSTANSÓW EWOLUCYJNYCH
niezależnie od metody wyznaczania
uliniowień par sekwencji,
przybliżona miara dystansu mi˛edzy
sekwencjami wyrażana jest jako
odsetek identycznych reszt na
odpowiadajacych
˛
sobie pozycjach
ciagłych
˛
fragmentów
uliniowienia
(
)
dystans ten jest nast˛epnie
przedstawiany jako średnia liczba
mutacji punktowych na pozycj˛e
uliniowienia:
zgodnie z domyślnymi
ustawieniami, w obliczeniach
pomijana jest możliwość
wielokrotnych podstawień; założenie
to jest cz˛esto naruszane w przypadku
odległych ewolucyjnie sekwencji
Przykładowa macierz szacunkowych dystansów
ewolucyjncych (1 4: łańcuchy i hemoglobiny
(odpowiednio: HBB_HUMAN, HBB_HORSE,
HBA_HUMAN, HBA_HORSE), 5: mioglobina
(MYG_PHYCA), 6: cyjanohemoglobina
(GLB5_PETMA), 7: leghemoglobina
(LGB2_LUPLU))
2
3
4
5
6
7
0.17
0.59
0.59
0.77
0.81
0.87
0.60
0.59
0.77
0.82
0.86
1
2
0.13
0.75 0.75
0.73 0.74 0.80
0.86 0.88 0.93 0.93
3
4
5
****** PHYLOGENETIC TREE MENU ******
1.
2.
3.
4.
5.
6.
Input an alignment
Exclude positions with gaps?
= OFF
Correct for multiple substitutions? = OFF
Draw tree now
Bootstrap tree
Output format options
6
%
E TAP 3: DRZEWO FILOGENETYCZNE
&
%
parametry drzewa: topologia (rozmieszczenie
w˛ezłów) oraz długości gał˛ezi wyznaczane sa˛ metoda˛
łaczenia
˛
sasiadów
˛
(ang. neighbour-joining method)
&
&
korzeń drzewa zlokalizowany jest w oparciu o metod˛e
środkowego punktu (ang. mid-point): punkt
odpowiadajacy
˛ połowie długości gał˛ezi łacz
˛ acej
˛
najbardziej odległe ewolucyjnie sekwencje
1
3
5
')(+* ,.-0/24 1 3 5
' (6* 798
')(+*;:<- /24 1 3 5
' (6* ,=8
')(+* 8
0.2
A
0.3
0.1
B
0.5
C
4
Topologia drzewa wyznaczonego dla
przykładowych sekwencji globin
(wagi sekwencji):
5
2
(A)
(B)
(C)
3
4
1
%
2
81
1/1000
wyznaczenie wag różnicujacych
˛
wkład
poszczególnych sekwencji do tworzonego MSA
nast˛epuje w oparciu o parametry wyznaczonego
drzewa filogenetycznego: waga sekwencji zależy od
długości gał˛ezi łacz
˛ acych
˛
sekwencj˛e z korzeniem,
przy czym długości gał˛ezie współdzielone z innymi
sekwencjami maja˛ wkład do ostatecznej wagi
określonej sekwencji proporcjonalnie niższy
0.221
1
226
84
62
55
0.225
0.194
2
3
219
15
65
62
389
442
np.
&
0.203
5 0.411
4
398
(5)
6
7
0.398
0.442
5
' +( * 97 => <? @- 6( * +( A: 98 !B C8 D- +( * 9( 9E 9, !B E 5
' +( * 6F =: :
E TAP 4: ULINIOWIENIE PROGRESYWNE
1. wykonanie uliniowienia pary najbliżej spokrewnionych sekwencji w oparciu o metod˛e
programowania dynamicznego
2. w przypadku uliniawiania sekwencji aminokwasowych:
$
$
wykorzystana jest macierz podstawień aminokwasowych dobrana z określonej serii
w zależności od uprzednio oszacowanego dystansu ewolucyjnego ({BLOSUM: 80,
62, 45, 30} lub {PAM: 20, 60, 120, 350} lub {GONNET: 80, 120, 160, 250, 350})
punktacja przerw jest prowadzona w oparciu o profil kar za otwarcie/wydłużenie
przerw wyznaczonych w funkcji kolejnych reszt aminokwasowych sekwencji
3. w przypadku uliniawiania sekwencji nukleotydowych wykorzystywana jest jedna
macierz podstawień
4. w kolejnych krokach, do tworzonego MSA dodawane sa˛ albo pojedyncze sekwencje albo
uliniowienia wielosekwencyjne w kolejności wyznaczanej topologi˛e odpowiedniego
drzewa filogenetycznego
˛ kolejności:
W analizowanym przykładzie, tworzenie MSA b˛edzie przebiegać w nast˛epujacej
1. (HBB_HUMAN, HBB_HORSE)
4. (3, MYG_PHYCA)
2. (HBA_HUMAN, HBA_HORSE)
5. (4, GLB5_PETMA)
3. (1,2)
6. (5, LGB2_LUPLU)
s
O CENA JAKO ŚCI DOPASOWANIA RESZT W KOLUMNIE MSA
s
do wyznaczania czastkowych
˛
ocen uliniowienia w procedurze programowania
dynamicznego wykorzystywana jest macierz podstawień przeskalowana w taki sposób,
że zawiera wyłacznie
˛
dodatnie wartości
s
ocena jakości dopasowania kolejnych pozycji w parze porównywanych uliniowień
˛ średnia˛ arytmetyczna˛ ocen porównań wszystkich
(sekwencji) – tCu – jest (ważona)
możliwych par reszt z obu uliniowień (sekwencji)
1
2
3
4
peeksavtal
geekaavlal
padktnvkaa
aadktnvkaa
5
6
7
egewqlvlhv
aaektkirsa
agedel-rwa
vXwyx
z
{}|d~Apd|.|pjX A.#|.|.
=+|.|p =#|.|.
9md|.|.) 9m#|.|.
9md|.|.) 9m#|.|.
jeśli na porównywanych pozycjach znajduja˛ si˛e przerwy, to czastkowa
˛
ocena
porównywanej pary (reszta/przerwa, reszta/reszta) wynosi 0
– zauważmy, że przy dodatnich wartościach przeskalowanej macierzy podstawień, 0
jest najniższa˛ (najgorsza)
˛ możliwa˛ ocena˛ czastkow
˛
a˛
G
Z ASADY USTALANIA POCZ ATKOWEJ
˛
PUNKTACJI PRZERW
G
ustalone przez użytkownika wartości GOP i GEP (domyślnie 10.0 i 0.2) sa˛
modyfikowane przez program w celu ograniczenia wpływu parametrów uliniowienia i
własności uliniawianych sekwencji na jakość uliniowienia
w ogólnym przypadku, wpływ wielkości parametrów GOP i GEP na jakość uliniwienia
zależy od
– rodzaju użytej macierzy podstawień: w ClustalW, wyjściowa wielkość GOP jest
przemnażana przez średnia˛ ocen˛e porównania pary różnych reszt (pozadiagonalne
elementy macierzy podstawień)
– stopnia identyczności uliniawianych sekwencji: w ClustalW, wielkość GOP jest
mnożona przez odsetek identycznych reszt w uprzednio wyznaczonym uliniowieniu
– długości uliniawianych sekwencji: ocena zarówno poprawnych jak i bł˛ednych
uliniowień zwi˛eksza si˛e dla dłuższych sekwencji; w ClustalW, GOP jest zwi˛ekszana
o wartość proporcjonalna˛ do długości uliniawianych sekwencji
– różnicy w długości uliniawianych sekwencji: jeśli jedna z sekwencji jest znacznie
krótsza od drugiej, ClustalW zwi˛eksza wartość GEP aby ograniczyć liczb˛e długich
przerw wprowadzanych do krótkszej sekwencji
G
ostatecznie, zmiany poczatkowych
˛
wartości GOP i GEP wyrażaja˛ si˛e nast˛epujacymi
˛
wzorami:
GOP
H
I GOP JLK2MON@PRQTSVUXW+Y[Z]\ ^`_+acb ave_mismatch_score b percent_identity
GEP
H
GEP
bdPfegihjJ klK2MONmW+Yonp\ ^qkr_
Z ASADY RÓ ŻNICOWANIA PUNKTACJI PRZERW WZDŁU Ż SEKWENCJI
Przed przystapieniem
˛
do kompilacji wst˛epnych uliniowień (sekwencji), wyznaczany jest
zestaw parametrów GOP/GEP na każda˛ pozycj˛e wst˛epnych uliniowień (sekwencji).
Zmiany w wielkościach GOP/GEP dokonywane sa˛ w
podanej kolejności:
1. na pozycjach w obr˛ebie istniejacych
˛
przerw
wielkość parametrów GOP/GEP jest obniżana
faworyzujac
˛ rozbudow˛e przerw w tych miejscach:
no_gaps_seq_number
GOP GOP ¡;¢¤£
all_seq_number
GEP ¥ §¡ d¦ £ GEP
4. w zależności od typu reszty,
kolejne reguły nie sa˛ stosowane
wielkość parametru GOP jest
mnożona przez czynnik
2. na pozycjach w pobliżu istniejacych
˛
przerw
skalujacy
˛ przyjmujacy
˛ wartości
wielkość parametru GOP jest zwi˛ekszana
od ¥¡®Ä¥Á do Ál¡§©ÃÅ (Pascarella &
utrudniajac
˛ tworzenie nowych przerw w tych
Argos): analiza danych
rejonach na rzecz poszerzania istniejacych
˛
przerw:
strukturalnych wskazuje, że
¸
¹
2
º
2
»
¼
!
½
¿
¾
6
À
_
_
wyst˛epowanie pewnych typów
GOP GOP £¨ª©«!¬®R¯=°²±A³µ´·¶
¯
reszt w sekwencji faworyzuje
3. na odcinkach sekwencji, w których licznie
wyst˛epowanie przerw w
wyst˛epuja˛ hydrofilowe reszty (DEGKNQPRS)
uliniowieniach
wielkość parametru GOP jest obniżana o Á6ÂÃ¢
S YNDROM G ARFIELDA

Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n

Transkrypt

Podobne dokumenty

Informacja o wyborze oferty - Rejonowy Zarząd Infrastruktury Szczecin

Redukcja redundancji wyników identyfikacji poprzez

1. Identyfikator przedmiotu: BIOINFORMATYKA

Legalizacja aparatów powietrznych teraz 40% taniej!

dr Grzegorz Koczyk, Zespół Ewolucji Funkcji Systemów

Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.