Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n
Transkrypt
Bioinformatyka 2 (BT172) Metody wyznaczania uliniowie ´n
Bioinformatyka 2 (BT172) Wykład 4 Metody wyznaczania uliniowień wielosekwencyjnych Krzysztof Murzyn 7.XI.2005 P LAN WYKŁADU 1. Ostatnio: definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne, kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty zapisywania MSA, BaliBase: referencyjna baza uliniowień wielosekwencyjnych, edycja MSA 2. Wizualizacja MSA 3. Przeglad ˛ metod wyznaczania MSA 4. Progresywne metody wyznaczania MSA (klasyka gatunku: ClustalW) W IZUALIZACJA ULINIOWIE Ń Popularne programy wykorzystywane do wizualizacji MSA: Boxshade : ogólnie dost˛epny program działajacy ˛ w trybie tekstowym umożliwiajacy ˛ interaktywne tworzenie graficznej reprezentacji uliniowienia ClustalX : program z graficznym interfejsem użytkownika, możliwość przedefiniowywania sposobu kolorowania MSA oraz wyświetlania informacji o lokalnej ocenie jakości uliniowienia Jalview : program z graficznym interfejsem użytkownika, możliwość anotacji uliniowienia (elementy struktury drugorz˛edowej, centra aktywne, stopień konserwowania na kolejnych pozycjach uliniowienia, profil jego jakości, etc.) B OXSHADE FE R_CAPAA /1 −9 7 FE R_CAPAN /1 −1 4 4 FE R1_LYCE S/ 1− 1 44 Q9 3XJ9_SO LT U/ 1 −1 44 FE R1_PEA/ 1− 14 9 Q7 XA98_TR IP R/ 1 −1 52 FE R1_MESC R/ 1− 1 48 FE R1_SPIO L/ 1− 1 47 FE R3_RAPS A/ 1− 9 6 FE R_ARATH /1 −1 4 8 FE R_BRANA /1 −9 6 FE R2_ARAT H/ 1− 1 48 Q9 3Z60_AR AT H/ 1 −1 18 FE R1_MAIZ E/ 1− 1 50 O8 0429_MA IZ E/ 1 −1 40 −− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A S −− − −− −M A SV SA T MI S TS FM P RK PA V TS L KP IP − NV G− E AL FG L KS − −− AN G GK VT C MA S −− − −− −M A SI SG T MI S TS FL P RK PA V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S −− − −− −M A SI SG T MI S TS FL P RK PV V TS L KA IS − NV G− E AL FG L KS − −− GR N GR IT C MA S −− − MA TT P AL YG T AV S TS FL R TQ PM P MS V TT TK A FS N− − GF LG L KT − SL KR G DL AV A MA S −− − MA TT P AL YG T AV S TS FM R RQ PV P MS V AT TT T TK AF P SG FG L KS V ST KR G DL AV A MA T −− M AA TT A AL SG A TM S TA FA P KT −− P PM T AA LP T NV G− R AL FG L KS − −S AS R GR VT A MA A −− − −M AA T TT TM M GM A TT FV P KP QA P PM M AA LP S NT G− R SL FG L KT − −G SR G GR MT − MA A −− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T −− − −M AS T AL SS A IV G TS FI R RS PA P IS L RS LP S AN T− Q SL FG L KS − GT AR G GR VT A MA T −− − −− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− −− − −− −− − −− − −− −− − −− −− − −A T −− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T −− − −M AS T AL SS A IV S TS FL R RQ QT P IS L RS LP F AN T− Q SL FG L KS − ST AR G GR VT A MA T MA T VL GS P RA PA F FF S SS SL R AA PA P TA V AL PA A KV G− − −I MG R SA − −− SS R RR LR A QA T −− − −− −− − −M AA T AL S MS IL R AP P− P CF S SP LR L RV AV A KP LA A PM − −− −R R QL LR A QA T 1. . .. .. . .1 0. . .. . .. .2 0 .. .. . .. . 30 .. . .. .. . 40 .. . .. . .. 50 . .. .. . .. . kolorowanie kolumn zawierajacych ˛ identyczne (domyślnie: czarne tło), podobne (szare tło) i różne (białe tło) reszty, FE R_CAPAA /1 −9 7 FE R_CAPAN /1 −1 4 4 FE R1_LYCE S/ 1− 1 44 Q9 3XJ9_SO LT U/ 1 −1 44 FE R1_PEA/ 1− 14 9 Q7 XA98_TR IP R/ 1 −1 52 FE R1_MESC R/ 1− 1 48 FE R1_SPIO L/ 1− 1 47 FE R3_RAPS A/ 1− 9 6 FE R_ARATH /1 −1 4 8 FE R_BRANA /1 −9 6 FE R2_ARAT H/ 1− 1 48 Q9 3Z60_AR AT H/ 1 −1 18 FE R1_MAIZ E/ 1− 1 50 O8 0429_MA IZ E/ 1 −1 40 FL D ED QE A AG FV L TC V AY PK G DV TI E TH K EE EL T A− FL D DD QE A AG FV L TC V AY PK C DV TI E TH K EE EL T A− FL D DE QI E AG FV L TC V AY PT S DV VI E TH K EE DL T A− FL D DE QI E GG WV L TC V AF PT S DV TI E TH K EE EL T A− FL D DD QI K EG WV L TC V AY PT G DV TI E TH K EE EL T A− FL D DD QI D EG WV L TC A AY PV S DV TI E TH K EE EL T A− FL D DD QI A EG FV L TC A AY PT S DV TI E TH R EE DM V −− FL D DE QI G EG FV L TC A AY PT S DV TI E TH K EE DI V −− FL D DD QI A EG FV L TC A AY PT S DV TI E TH K EE EL V −− FL D DE QM S EG YV L TC V AY PT S DV VI E TH K EE AI M −− FL D D− −− − −− −− − −− − −− −− − −− −− − −− − −− −− − −− YL D DG QI A DG WV L TC H AY PT S DV VI E TH K EE EL T GA FL N DN QV A DG WV L TC A AY PT S DV VI E TH K ED DL L −− kolorowane sa˛ kolumny o odsetku identyczności reszt przekraczajacym ˛ ustalona˛ wartość 12 1 .. .. . .1 30 . .. . .. .1 4 0. .. . .. . 15 0. . .. C LUSTAL X FER_CAPAA/1−97 FER_CAPAN/1−144 FER1_LYCES/1−144 Q93XJ9_SOLTU/1−144 FER1_PEA/1−149 Q7XA98_TRIPR/1−152 FER1_MESCR/1−148 FER1_SPIOL/1−147 FER3_RAPSA/1−96 FER_ARATH/1−148 FER_BRANA/1−96 FER2_ARATH/1−148 Q93Z60_ARATH/1−118 FER1_MAIZE/1−150 O80429_MAIZE/1−140 ruler *:*:*.::** * *.: .:* −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ASYKVKLITPDGPIEFDCPDDV −−−−−−MASVSATMISTSFMPRKPAVTSLKPIP−NVG−EALFGLKS−−−ANGGKVTCMASYKVKLITPDGPIEFDCPDNV −−−−−−MASISGTMISTSFLPRKPAVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPEGPIEFECPDDV −−−−−−MASISGTMISTSFLPRKPVVTSLKAIS−NVG−EALFGLKS−−−GRNGRITCMASYKVKLITPDGPIEFECPDDV −−−MATTPALYGTAVSTSFLRTQPMPMSVTTTKAFSN−−GFLGLKT−SLKRGDLAVAMASYKVKLVTPDGTQEFECPSDV −−−MATTPALYGTAVSTSFMRRQPVPMSVATTTTTKAFPSGFGLKSVSTKRGDLAVAMATYKVKLITPEGPQEFDCPDDV −−MAATTAALSGATMSTAFAPKT−−PPMTAALPTNVG−RALFGLKS−−SASRGRVTAMAAYKVTLVTPEGKQELECPDDV −−−−MAATTTTMMGMATTFVPKPQAPPMMAALPSNTG−RSLFGLKT−−GSRGGRMT−MAAYKVTLVTPTGNVEFQCPDDV −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV −−−−MASTALSSAIVGTSFIRRSPAPISLRSLPSANT−QSLFGLKS−GTARGGRVTAMATYKVKFITPEGELEVECDDDV −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ATYKVKFITPEGEQEVECDDDV −−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV −−−−MASTALSSAIVSTSFLRRQQTPISLRSLPFANT−QSLFGLKS−STARGGRVTAMATYKVKFITPEGEQEVECEEDV MATVLGSPRAPAFFFSSSSLRAAPAPTAVALPAAKVG−−−IMGRSA−−−SSRRRLRAQATYNVKLITPEGEVELQVPDDV −−−−−−−−−MAATALSMSILRAPP−PCFSSPLRLRVAVAKPLAAPM−−−−RRQLLRAQATYNVKLITPEGEVELQVPDDV 1.......10........20........30........40........50........60........70........80 FER_CAPAA/1−97 FER_CAPAN/1−144 FER1_LYCES/1−144 Q93XJ9_SOLTU/1−144 FER1_PEA/1−149 Q7XA98_TRIPR/1−152 FER1_MESCR/1−148 FER1_SPIOL/1−147 FER3_RAPSA/1−96 FER_ARATH/1−148 FER_BRANA/1−96 FER2_ARATH/1−148 Q93Z60_ARATH/1−118 FER1_MAIZE/1−150 O80429_MAIZE/1−140 ruler *:** *** * :**:*************: * ::* * .:*:: YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG− YILDQAEEAGHDLPYSCRAGSCSSCAGKIAGGAVDQTDGNFLDDDQLEEGWVLTCVAYPQSDVTIETHKEAELVG− YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGSVDQSDGNFLDEDQEAAGFVLTCVAYPKGDVTIETHKEEELTA− YILDQAEEEGHDLPYSCRAGSCSSCAGKVTAGTVDQSDGKFLDDDQEAAGFVLTCVAYPKCDVTIETHKEEELTA− YILDHAEEVGIDLPYSCRAGSCSSCAGKVVGGEVDQSDGSFLDDEQIEAGFVLTCVAYPTSDVVIETHKEEDLTA− YILDHAEEVGIELPYSCRAGSCSSCAGKVVNGNVNQEDGSFLDDEQIEGGWVLTCVAFPTSDVTIETHKEEELTA− YILDAAEEAGIDLPYSCRAGSCSSCAGKVTSGSVNQDDGSFLDDDQIKEGWVLTCVAYPTGDVTIETHKEEELTA− YILDAAEEEGIDLPYSCRAGSCSSCAGKLKTGSLNQDDQSFLDDDQIDEGWVLTCAAYPVSDVTIETHKEEELTA− YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDDQIAEGFVLTCAAYPTSDVTIETHREEDMV−− YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSFLDDEQIGEGFVLTCAAYPTSDVTIETHKEEDIV−− YVLDAAEEAGIDLPYSCRAGSCSSCAGKVVSGFVDQSDESFLDDDQIAEGFVLTCAAYPTSDVTIETHKEEELV−− YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDDEQMSEGYVLTCVAYPTSDVVIETHKEEAIM−− YVLDAAEEAGLDLPYSCRAGSCSSCAGKVVSGSIDQSDQSFLDD−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− YILDQAEEDGIDLPYSCRAGSCSSCAGKVVSGSVDQSDQSYLDDGQIADGWVLTCHAYPTSDVVIETHKEEELTGA YILDFAEEEGIDLPFSCRAGSCSSCAGKVVSGSVDQSDQSFLNDNQVADGWVLTCAAYPTSDVVIETHKEDDLL−− ........90.......100.......110.......120.......130.......140.......150...... 22 69 69 69 74 77 73 72 22 74 22 74 74 74 66 kolorowanie reszt wybranego typu, domyślnie: orange : GPST red : HKR blue : FWY green : ILMV 97 144 144 144 149 152 148 147 96 148 96 148 118 150 140 lub w zależności od konsensusu na określonej pozycji uliniowienia, np. # = 60% w:l:v:i przypisuje danej kolumnie konsensusowy znak # o ile kolumna w conajmniej 60% składa si˛e z reszt WLVI z kolei linia w = BLUE if +:# oznacza, że każda reszta tryptofanu w kolumnie o konsensusie oznaczanym przez + lub # b˛edzie w kolorze niebieskim JALVIEW wysublimowane schematy kolorowania MSA: hydrofobowość według preferowanego wyst˛epowania w określonych elementach struktury drugorz˛edowej (helisa, arkusz, p˛etla) lub wn˛etrzu białka (tzw. buried index), stopnia konserwowania reszt w kolumnie uliniowienia, etc. M ETODY WYZNACZANIA MSA Powszechnie stosowanym sposobem zmniejszenia złożoności obliczeniowej problemu uliniowień wielosekwencyjnych, tak by możliwe stało si˛e uliniawianie dużej liczby długich sekwencji, jest zastosowanie algorytmów heurystycznych (najcz˛eściej tzw. metod progresywnych) Uliniawianie symultaniczne S1 Uliniawianie progresywne S2 S6 S1 S2 S4 S3 S6 S5 S4 S6 S5 S1 S4 S2 S3 S3 S5 MSA Heurystyka drzewiasta Heurystyka gwiaździsta ClustalW, T-Coffee PSI-Blast (SAM) M ETODY HEURYSTYCZNE progresywne : tworzenie uliniowienia wielosekwencyjnego rozpoczynaja˛ od uliniowienia pary najbliższych ewolucyjnie sekwencji a nast˛epnie uzupełnianie uliniowienia coraz bardziej odległymi sekwencjami ClustalW : http://www.ebi.ac.uk/clustalw/ T-Coffee : http://www.ch.embnet.org/software/TCoffee.html Muscle : http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py iteracyjne : wst˛epnie utworzony MSA jest iteracyjnie poprawiany w procesie optymalizacji zadanej funkcji wartościujacej ˛ Dialign : http://bibiserv.techfak.uni-bielefeld.de/dialign/ Prrp/Prrn : http://www.cbrc.jp/ gotoh/softdata.html SAGA : http://igs-server.cnrs-mrs.fr/ cnotred/Projects_home_page/saga_home_page.html probabilistyczne : tworzenie MSA przebiega w oparciu o założony model statystyczny HMMER http://hmmer.wustl.edu/ SAM http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html MEME http://meme.sdsc.edu/meme/intro.html S TRATEGIA PROGRESYWNEGO ULINIOWIENIA WIELOSEKWENCYJNEGO 1. wyznaczenie uliniowień dla każdej pary sekwencji (programowanie dynamiczne lub algorytm heurystyczny (np. FASTA)) 2. oceny uliniowień par sekwencji sa˛ wykorzystywane do oszacowania dystansów ewolucyjnych mi˛edzy wszystkim sekwencjami w analizowanym zbiorze 3. wyznaczenie drzewa filogenetycznego reprezentujacego ˛ relacje ewolucyjne mi˛edzy sekwencjami 4 3A 3B 1B 1A 2A 2B 5 4. poczatkowy ˛ MSA zawiera uliniowienie pary najbliżej spokrewnionych sekwencji, nast˛epnie jest on uzupełniany o coraz bardziej odległe sekwencje 5. uzupełnienie MSA przebiega poprzez dodanie albo pojedynczej sekwencji, lub uliniowienia kilku sekwencji zmiany w uzupełnianym MSA nie dopuszczaja˛ modyfikowania składowych uliniowień O GRANICZENIA METOD PROGRESYWNYCH lokalne minimum : wyznaczone MSA może nie być globalnie optymalne w kategoriach funkcji wartościujacej ˛ jakość uliniowienia macierz podstawień : wybór sposobu punktowania podstawień aminokwasowych/nukleotydowych wpływa na jakość uliniowień par sekwencji (por. PAM30 i PAM250) przerwy : o ile dla blisko spokrewnionych par sekwencji, wyznaczenie ich sensownego biologicznie uliniowienia w niewielkim stopniu zależy od wyboru sposobu punktowania przerw, o tyle w przypadku bardziej odległych ewolucyjnie sekwencji, punktowanie przerw może istotnie wpływać na jakość wyznaczanego uliniowienia S TOSOWANE ROZWI AZANIA ˛ wkład poszczególnych sekwencji do konstruowanego MSA jest różnicowany: wagi przyznawane sekwencjom w zależności od stopnia ich ewolucyjnego pokrewieństwa przy wyznaczaniu uliniowień pary sekwencji, macierze podstawień sa˛ dobierane w zależności od szacunkowej oceny dystansu ewolucyjnego mi˛edzy nimi punktacja przerw jest dynamicznie modyfikowana i indywidualizowana w zależności od lokalizacji (kontekstu) każdej z przerw w sekwencji C LUSTALW: KLASYK METOD PROGRESYWNYCH Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTALW: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice Nucleic Acids Research 22:4673-4680 ClustalW jest przeznaczony do budowy globalnych uliniowień progresywnych, konstrukcji drzew filogenetycznych oraz manipulacji istniejacymi ˛ uliniowieniami (w tym do konwersji mi˛edzy różnymi formatami zachowywania MSA) program może być obsługiwany w trybie interaktywnym lub wsadowym ClustalX stanowi rozszerzenie programu ClustalW oferujac ˛ m.in. graficzny interfejs użytkownika Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG (1997) The ClustalX windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Research, 24:4876-4882 E TAP 1: ULINIOWIENIA PAR SEKWENCJI Dwie alternatywne metody: ********* PAIRWISE ALIGNMENT PARAMETERS ********* Slow/Accurate alignments: programowanie dynamiczne gwarantujace ˛ otrzymanie optymalnego uliniowienia globalnego 1. 2. 3. 4. Gap Open Penalty Gap Extension Penalty Protein weight matrix DNA weight matrix :10.00 :0.10 :Gonnet series :IUB Fast/Approximate alignments: uliniowienie sekwencji przebiega w oparciu o zadana˛ macierz podstawień (dla białek: BLOSUM30, PAM350, GONNET250) oraz afiniczna˛ metod˛e punktowania przerw (GOP,GEP) 5. 6. 7. 8. Gap penalty K-tuple (word) size No. of top diagonals Window size :3 :1 :5 :5 9. Toggle Slow/Fast pairwise alignments = SLOW H. HELP heurystyczna (Wilbur & Lipman) pozwalajaca ˛ na bardzo szybkie wyznaczenie przybliżonego uliniowienia globalnego podobnie jak w algorytmie FASTA, sekwencje sa˛ kawałkowane na słowa o zadanej długości dla białek oraz dla DNA) (ang. k-tuple size, ! #" w oparciu o zadana˛ liczb˛e najlepszych ciagów ˛ diagonalnych (ang. top diagonals) tworzone jest uliniowienie b˛edace ˛ kompilacja˛ ciagów ˛ diagonalnych w ich najbliższym otoczeniu (ang. window size, dopuszczalna różnica w indeksach ciagów ˛ diagonalnych) na ocen˛e uliniowienia składa si˛e liczba słów (tj. k-tuples), które ono obejmuje oraz iloczyn liczby przerw i określonej kary za przerw˛e E TAP 2: MACIERZ DYSTANSÓW EWOLUCYJNYCH niezależnie od metody wyznaczania uliniowień par sekwencji, przybliżona miara dystansu mi˛edzy sekwencjami wyrażana jest jako odsetek identycznych reszt na odpowiadajacych ˛ sobie pozycjach ciagłych ˛ fragmentów uliniowienia ( ) dystans ten jest nast˛epnie przedstawiany jako średnia liczba mutacji punktowych na pozycj˛e uliniowienia: zgodnie z domyślnymi ustawieniami, w obliczeniach pomijana jest możliwość wielokrotnych podstawień; założenie to jest cz˛esto naruszane w przypadku odległych ewolucyjnie sekwencji Przykładowa macierz szacunkowych dystansów ewolucyjncych (1 4: łańcuchy i hemoglobiny (odpowiednio: HBB_HUMAN, HBB_HORSE, HBA_HUMAN, HBA_HORSE), 5: mioglobina (MYG_PHYCA), 6: cyjanohemoglobina (GLB5_PETMA), 7: leghemoglobina (LGB2_LUPLU)) 2 3 4 5 6 7 0.17 0.59 0.59 0.77 0.81 0.87 0.60 0.59 0.77 0.82 0.86 1 2 0.13 0.75 0.75 0.73 0.74 0.80 0.86 0.88 0.93 0.93 3 4 5 ****** PHYLOGENETIC TREE MENU ****** 1. 2. 3. 4. 5. 6. Input an alignment Exclude positions with gaps? = OFF Correct for multiple substitutions? = OFF Draw tree now Bootstrap tree Output format options 6 % E TAP 3: DRZEWO FILOGENETYCZNE & % parametry drzewa: topologia (rozmieszczenie w˛ezłów) oraz długości gał˛ezi wyznaczane sa˛ metoda˛ łaczenia ˛ sasiadów ˛ (ang. neighbour-joining method) & & korzeń drzewa zlokalizowany jest w oparciu o metod˛e środkowego punktu (ang. mid-point): punkt odpowiadajacy ˛ połowie długości gał˛ezi łacz ˛ acej ˛ najbardziej odległe ewolucyjnie sekwencje 1 3 5 ')(+* ,.-0/24 1 3 5 ' (6* 798 ')(+*;:<- /24 1 3 5 ' (6* ,=8 ')(+* 8 0.2 A 0.3 0.1 B 0.5 C 4 Topologia drzewa wyznaczonego dla przykładowych sekwencji globin (wagi sekwencji): 5 2 (A) (B) (C) 3 4 1 % 2 81 1/1000 wyznaczenie wag różnicujacych ˛ wkład poszczególnych sekwencji do tworzonego MSA nast˛epuje w oparciu o parametry wyznaczonego drzewa filogenetycznego: waga sekwencji zależy od długości gał˛ezi łacz ˛ acych ˛ sekwencj˛e z korzeniem, przy czym długości gał˛ezie współdzielone z innymi sekwencjami maja˛ wkład do ostatecznej wagi określonej sekwencji proporcjonalnie niższy 0.221 1 226 84 62 55 0.225 0.194 2 3 219 15 65 62 389 442 np. & 0.203 5 0.411 4 398 (5) 6 7 0.398 0.442 5 ' +( * 97 => <? @- 6( * +( A: 98 !B C8 D- +( * 9( 9E 9, !B E 5 ' +( * 6F =: : E TAP 4: ULINIOWIENIE PROGRESYWNE 1. wykonanie uliniowienia pary najbliżej spokrewnionych sekwencji w oparciu o metod˛e programowania dynamicznego 2. w przypadku uliniawiania sekwencji aminokwasowych: $ $ wykorzystana jest macierz podstawień aminokwasowych dobrana z określonej serii w zależności od uprzednio oszacowanego dystansu ewolucyjnego ({BLOSUM: 80, 62, 45, 30} lub {PAM: 20, 60, 120, 350} lub {GONNET: 80, 120, 160, 250, 350}) punktacja przerw jest prowadzona w oparciu o profil kar za otwarcie/wydłużenie przerw wyznaczonych w funkcji kolejnych reszt aminokwasowych sekwencji 3. w przypadku uliniawiania sekwencji nukleotydowych wykorzystywana jest jedna macierz podstawień 4. w kolejnych krokach, do tworzonego MSA dodawane sa˛ albo pojedyncze sekwencje albo uliniowienia wielosekwencyjne w kolejności wyznaczanej topologi˛e odpowiedniego drzewa filogenetycznego ˛ kolejności: W analizowanym przykładzie, tworzenie MSA b˛edzie przebiegać w nast˛epujacej 1. (HBB_HUMAN, HBB_HORSE) 4. (3, MYG_PHYCA) 2. (HBA_HUMAN, HBA_HORSE) 5. (4, GLB5_PETMA) 3. (1,2) 6. (5, LGB2_LUPLU) s O CENA JAKO ŚCI DOPASOWANIA RESZT W KOLUMNIE MSA s do wyznaczania czastkowych ˛ ocen uliniowienia w procedurze programowania dynamicznego wykorzystywana jest macierz podstawień przeskalowana w taki sposób, że zawiera wyłacznie ˛ dodatnie wartości s ocena jakości dopasowania kolejnych pozycji w parze porównywanych uliniowień ˛ średnia˛ arytmetyczna˛ ocen porównań wszystkich (sekwencji) – tCu – jest (ważona) możliwych par reszt z obu uliniowień (sekwencji) 1 2 3 4 peeksavtal geekaavlal padktnvkaa aadktnvkaa 5 6 7 egewqlvlhv aaektkirsa agedel-rwa vXwyx z {}|d~Ap d|.|pjX A.#|.|. =+ |.|p =#|.|. 9m d|.|.) 9m#|.|. 9m d|.|.) 9m#|.|. jeśli na porównywanych pozycjach znajduja˛ si˛e przerwy, to czastkowa ˛ ocena porównywanej pary (reszta/przerwa, reszta/reszta) wynosi 0 – zauważmy, że przy dodatnich wartościach przeskalowanej macierzy podstawień, 0 jest najniższa˛ (najgorsza) ˛ możliwa˛ ocena˛ czastkow ˛ a˛ G Z ASADY USTALANIA POCZ ATKOWEJ ˛ PUNKTACJI PRZERW G ustalone przez użytkownika wartości GOP i GEP (domyślnie 10.0 i 0.2) sa˛ modyfikowane przez program w celu ograniczenia wpływu parametrów uliniowienia i własności uliniawianych sekwencji na jakość uliniowienia w ogólnym przypadku, wpływ wielkości parametrów GOP i GEP na jakość uliniwienia zależy od – rodzaju użytej macierzy podstawień: w ClustalW, wyjściowa wielkość GOP jest przemnażana przez średnia˛ ocen˛e porównania pary różnych reszt (pozadiagonalne elementy macierzy podstawień) – stopnia identyczności uliniawianych sekwencji: w ClustalW, wielkość GOP jest mnożona przez odsetek identycznych reszt w uprzednio wyznaczonym uliniowieniu – długości uliniawianych sekwencji: ocena zarówno poprawnych jak i bł˛ednych uliniowień zwi˛eksza si˛e dla dłuższych sekwencji; w ClustalW, GOP jest zwi˛ekszana o wartość proporcjonalna˛ do długości uliniawianych sekwencji – różnicy w długości uliniawianych sekwencji: jeśli jedna z sekwencji jest znacznie krótsza od drugiej, ClustalW zwi˛eksza wartość GEP aby ograniczyć liczb˛e długich przerw wprowadzanych do krótkszej sekwencji G ostatecznie, zmiany poczatkowych ˛ wartości GOP i GEP wyrażaja˛ si˛e nast˛epujacymi ˛ wzorami: GOP H I GOP JLK2MON@PRQTSVUXW+Y[Z]\ ^`_+acb ave_mismatch_score b percent_identity GEP H GEP bdPfegihjJ klK2MONmW+Yonp\ ^qkr_ Z ASADY RÓ ŻNICOWANIA PUNKTACJI PRZERW WZDŁU Ż SEKWENCJI Przed przystapieniem ˛ do kompilacji wst˛epnych uliniowień (sekwencji), wyznaczany jest zestaw parametrów GOP/GEP na każda˛ pozycj˛e wst˛epnych uliniowień (sekwencji). Zmiany w wielkościach GOP/GEP dokonywane sa˛ w podanej kolejności: 1. na pozycjach w obr˛ebie istniejacych ˛ przerw wielkość parametrów GOP/GEP jest obniżana faworyzujac ˛ rozbudow˛e przerw w tych miejscach: no_gaps_seq_number GOP GOP ¡;¢¤£ all_seq_number GEP ¥ §¡ d¦ £ GEP 4. w zależności od typu reszty, kolejne reguły nie sa˛ stosowane wielkość parametru GOP jest mnożona przez czynnik 2. na pozycjach w pobliżu istniejacych ˛ przerw skalujacy ˛ przyjmujacy ˛ wartości wielkość parametru GOP jest zwi˛ekszana od ¥¡®Ä¥Á do Ál¡§©ÃÅ (Pascarella & utrudniajac ˛ tworzenie nowych przerw w tych Argos): analiza danych rejonach na rzecz poszerzania istniejacych ˛ przerw: strukturalnych wskazuje, że ¸ ¹ 2 º 2 » ¼ ! ½ ¿ ¾ 6 À _ _ wyst˛epowanie pewnych typów GOP GOP £¨ª©«!¬®R¯=°²±A³µ´·¶ ¯ reszt w sekwencji faworyzuje 3. na odcinkach sekwencji, w których licznie wyst˛epowanie przerw w wyst˛epuja˛ hydrofilowe reszty (DEGKNQPRS) uliniowieniach wielkość parametru GOP jest obniżana o Á6Ââ S YNDROM G ARFIELDA