Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.
Transkrypt
Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.
Bioinformatyka 2 (BT172) Wykład 3 Uliniowienia wielosekwencyjne. Cze˛ ść II. dr Krzysztof Murzyn 24.X.2005 P LAN WYKŁADU 1. W poprzednim odcinku: definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne 2. Kryteria oceny jakości MSA, sposoby obliczania oceny MSA. 3. Formaty zapisywania MSA. 4. BaliBase – baza referencyjnych MSA. 5. Edycja MSA (clustalx, jalview). O CENA JAKO ŚCI ULINIOWIENIA WIELOSEKWENCYJNEGO ) ocena uliniowienia pary sekwencji oparta o macierz podstawień aminokwasowych lub nukleotydowych oraz punktowanie przerw ) istniejace ˛ metody oceniania MSA sa˛ niedoskonałe ) wi˛ekszość z nich sprowadza si˛e do oceny jakości uliniowienia w kolejnych kolumnach MSA i wyznczenia sumy tych ocen dla całego MSA (tj. po wszystkich kolumnach): – metoda oceny konsensusowej (CS, ang. consensus score) – metoda sumy par (ang. sum-of-pairs), również w wariancie ważonej sumy par O CENA KONSENSUSOWA dla MSA wyznaczana jest sekwencja konsensusowa (symbol reszty wybrany w taki sposób aby ocena danej pozycji uliniowienia była jak najmniejsza) ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie ocen porównań kolejnych sekwencji z sekwencja˛ konsensusowa˛ przykładowo, dla trzech sekwencji przyjmuj ac ˛ dla , ! konsensus ocena kolumny oraz dla – G A – G G G G C G C C T T G T G G G G A A A A T A T A A T – T A G – A C A C T A T A X C C C C T T T T " # " " # # $ # # $ " # % : , &'$!% X = {A, C, G} gdyby X = A, ocena kolumny wyniesie: ( , najniższy wynik prócz X w sekwencji konsensusowej daje – ale na tej pozycji w uliniowieniu nie ma przerw S UMA PAR M ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie ocen kombinatorycznie generowanych uliniowień par reszt poszczególnych sekwencji M przykładowo, dla trzech sekwencji przyjmujac ˛ N O P 1 Q R S T P WT R , N-OPQUST N7OUQ9PST UX dla P WT U , N-OPQ9PST N7OUQUST Z : [\ [] [!^ ocena kolumny Y dla oraz – G A G G G C G C T T G G A T A G A T – G A – A T T C A A A A G C C T C T C T _7` a _cb _db a _cb a _7e a a b b dla pierwszej kolumny N<i?T N-OUQkjlSEm N-OUQ9PSDm drugiej: NJioT N7OjnQkjlSDm N7OjnQkjlSDm N7OjnQkjlS , itd. p U V N7OjnQ9PS a fg`h , dla choć cz˛esto stosowany, schemat sumy-par jest bł˛edny z ewolucyjnego punktu widzenia (a w przypadku stosowania macierzy BLOSUM/PAM, również z matematycznego punktu widzenia), ponieważ zakłada iż każda sekwencja jest ewolucyjnym przodkiem wszystkich pozostałych sekwencji – w praktyce, metoda działa zaskakujaco ˛ dobrze (innymi słowy: nie wynaleziono lepszej metody...) P ROBLEMY Z “ SUM A˛ PAR ” * sumowanie ocen wszystkich par może prowadzić do nieoczekiwanych rezultatów, np. przewartościowania niezgodności (tj. zawyżania liczby mutacji punktowych) na pojedynczych pozycjach w dobrze uzgodnionych kolumnach * rozważmy przykład, w którym przyj˛eto +-,./10 23 +7,./423 +7,4/.23 48 dla . 63 4 , +7,./9.23 L L L I suma par : L L L L L L L L I dla . 63 0 , oraz +-,4/423 5 45 vs. I +<;=,>?/1>?/>?/@A23 +-,>?/1>B2DC +7,>?/>B2EC +-,>?/@72DC +7,>?/1>F2EC +-,>?/@72EC +-,>?/@723 GIH GH G G +7,!>?/1>B2DC +-,>?/@723 4 3 : H G ewolucja : +J;=,>?/>?/1>?/@723 K +-,>?/1>B2DC +-,>?/@A23 K4 5L3 : P ROBLEMY Z “ SUM A˛ PAR ” q uliniowienie wielosekwencyjne, optymalne pod katem ˛ sumy par, nie musi odpowiadać optymalnym uliniowieniom poszczególnych par; np. dla fragmentów sekwencji AT, A, T, AT, AT: A T A – A – T A T A T rs rs t rvu A T A – A – T – T T – ry rs rs A T A T t rvu s rIw t rx F ORMATY ZACHOWYWANIA MSA FASTA : najprostszy z możliwych, rozpoznawany przez wi˛ekszość (jeśli nie wszystkie) popularne programy do wyznaczania MSA ALN : format kultowego programu C LUSTALW, ograniczone możliwości anotacji uliniowienia (przedefiniowanie punktacji przerw w celu ich zróżnicowania wzdłuż sekwencji, oznaczenia wyst˛epowania elementów struktury drugorz˛edowej): !SS_HBA_HUMA !GM_HBA_HUMA HBA_HUMA ..aaaAAAAAAAAAAaaa.aaaAAAAAAAAAAaaaaaaAaaa.........aaaAAAAAA 112224444444444222122244444444442222224222111111111222444444 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK MSF : format komercyjnego pakietu GCG, bardzo cz˛esto stosowany i rozpoznawany przez wi˛ekszość specjalistycznych programów Stockholm : rzadko stosowany, używany głównie przez pakiet HMMER, w bazie PFAM oraz program wizualizacji MSA BELVU; bardzo rozbudowane możliwości anotacji sekwencji F ORMAT FASTA >Q9Z115_MESAU/58-291 KGY--TQQLAF-------K-QPSFAYAAFNNR---------PPSTWLTAYVVKVFSLAAN ---------------LI-AIDSQV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG FR-nAK------------EADVSLTAFVLIALQEAREICeGQ-----INSLPGSIN-KAG EYI-EASYLNLQ-R------pYTVA-------------IAAYALALMGKL--EEPY-------------------LSKFLKTATE---R--NR-WEE--------PGQK-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY GS-TQATFMVFQALAQYQT >CO3_MOUSE/1051-1284 KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN ---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY GS-TQATFMVFQALAQYQT >Q80XP1_MOUSE/1051-1284 KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN ---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY GS-TQATFMVFQALAQYQT { a sequence in FASTA format begins with a single-line description, followed by sequence data on the next line { the description line is distinguished from the sequence data by a greater-than (>) symbol in the first column { It is recommended that all lines of text be shorter than 80 characters in length { sequences are represented in the standard IUB/IUPAC amino acid and nucleic acid codes { gaps are represented by the ’–’ character F ORMAT ALN CLUSTAL W (1.83) multiple sequence alignment BOVINE TURKEY PORCINE MURINE RAT CANINE FELINE SARS AVIAN -------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL -------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL -------------MSSPTTPVPVISWTADEAIKFLKEWNFSL ------------MSSSTPAPQPIYQWTADEAVQFLKEWNFSL ------------------APQTVYQWTADVAVRFLKEWNFLL --RYCAMTESSTSCRNSTAGNCASCFETGDLIWHLANWNFSW QIRYCAMQETGLSCRNGTASDCESCFNGGDLIWHLANWNFSW -----------------MADN--GTITVEELKQLLEQWNLVI ----------------MNDTMNCTLNTQQQAAELFKEYNVFV : ::*. BOVINE TURKEY PORCINE MURINE RAT CANINE FELINE SARS AVIAN SMFVYVIKMIILWLMWPLTIILTIFN--CVYALNSMSVYVIKMIILWLMWPLTIILTIFN--CVYALNSMFVYVIKMVILWLMWPLTIILTIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSWFVCGIKMLIMWLLWPIVLALTIFNAYLEYRVSR SWFVYGIKMLIMWLLWPIVLALTIFNAYSEYEVSR NRFLYIIKLVFLWLLWPVTLACFVLA--AVYRINSRFIYILKMILLWCFWPLNIAVGVIS--CIFPPNT . : :*::::* :**: : :: : . z the word CLUSTAL should be on the first non-space line of the file z the alignment is displayed in blocks of a fixed length z each line in the block corresponds to one sequence z the line starts with the sequence name (of any length), followed by at least one space character z then the sequence is displayed: upper or lowercase, ’-’ denotes gaps, residue number is displayed optionally at the end z in between blocks a line shows conservation information (* : .) F ORMAT MSF } PileUp MSF: Name: Name: Name: Name: Name: 304 1sbp 1wod 1mrp 1pot 1atg Type: P oo oo oo oo oo Len: Len: Len: Len: Len: Check: 304 304 304 304 304 3682 Check: Check: Check: Check: Check: .. 3593 6474 48 3959 9608 Weight: Weight: Weight: Weight: Weight: 1.00 1.00 1.00 1.00 1.00 an optional file type identifier appears on the first line ’DNA_MULTIPLE_ALIGNMENT 1.0’ or ’Pileup’ } optional title/description appears on the second line } there is a dividing line with obligatory ’MSF: sequence length’, checksum value and two points ’..’ } name/weight section with checksum } ’//’ separates the alignment from the header information // 1sbp 1wod 1mrp 1pot 1atg kdiqLLNVSY ..gkITVFAA ...DITVYNG ..NTLYFYNW ...ELKVVTA DPTRELYEQY ....ASLTNA .....qHKEA ....TEYVPP ....TNFLGT NKAFSAHWKq MQDIATQFKK ATAVAKAFEQ G..LLEQFTK LEQLAGQFAK etgdnVVIDQ EKGVDVVSSF ETGIKVTLNS ETGIKVIYST QTGHAVVISS SHGgsgKQAT A..sssTLAR G..KSEQLAG Y.EsNETMYA G..SSGPVYA 1sbp 1wod 1mrp 1pot 1atg SVIN...giE QIEA...gaP QLKEEgdkTP KLKT.YKdgA QIVN...GAP ADTVTLAL.A ADLFISAD.Q ADVFYTEQTA YDLVVPS..T YNVFFSAD.E YdvNAIAerG KwmDYAVdkK TFADLS.EAG YYVDKMRKEG KSPEKLDNQG RIDknwikrl AID....... LLA.....pi MIQkidkskl FAL....... .. .. se tn .. F ORMAT S TOCKHOLM # STOCKHOLM 1.0 #=GF ID CBS #=GF AC PF00571 #=GF DE CBS domain #=GF AU Bateman A #=GF CC CBS domains are small intracellular modules mostly found #=GF CC in 2 or four copies within a protein. #=GF SQ 67 #=GS O31698/18-71 AC O31698 #=GS O83071/192-246 AC O83071 #=GS O83071/259-312 AC O83071 #=GS O31698/88-139 AC O31698 #=GS O31698/88-139 OS Bacillus subtilis O83071/192-246 MTCRAQLIAVPRASSLAE..AIACAQKM....RVSRVPVYERS #=GR O83071/192-246 SA 999887756453524252..55152525....36463774777 O83071/259-312 MQHVSAPVFVFECTRLAY..VQHKLRAH....SRAVAIVLDEY #=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEE O31698/18-71 MIEADKVAHVQVGNNLEH..ALLVLTKT....GYTAIPVLDPS #=GR O31698/18-71 SS CCCHHHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEHHH O31698/88-139 EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE #=GR O31698/88-139 SS CCCCCCCHHHHHHHHHHH..HEEEEEEE....EEEEEEEEEEH #=GC SS_cons CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEH O31699/88-139 EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE #=GR O31699/88-139 AS ________________*__________________________ #=GR_O31699/88-139_IN ____________1______________2__________0____ // | #=GR Feature ------SS SA TM PP LI AS IN Description Markup le ------------------Secondary Structure [HGIEBTSC Surface Accessibility [0-9X] (0=0%-10%; ...; 9=90%-100%) TransMembrane [Mio] Posterior Probability [0-9*] (0=0.00-0.05; 1=0.05-0.15; * LIgand binding [*] Active Site [*] INtron (in or after) [0-2] dokładny opis formatu dost˛epny na stronie: http://www.cgb.ki.se/cgb/groups/sonnhammer/Stockholm.html BAZY ULINIOWIE Ń WIELOSEKWENCYJNYCH problemy z ocena˛ jakości MSA sa˛ jedna˛ z przyczyn trudności zwiazanych ˛ z wyznaczaniem sensownych biologicznie MSA skoro wyznaczanie MSA jest zadaniem pracochłonnym i wymagajacym ˛ obliczeniowym to warto gromadzić sensowne biologiczne MSA w celu ich późniejszego wykorzystania popularne bazy uliniowień wielosekwencyjnych domen białkowych i motywów sekwencyjnych BaliBase dost˛epna pod adresem http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE2/, głowne zastosowania: zbiór uliniowień referencyjnych umożliwiajacy ˛ wszechstronne porównywanie efektywności różnych programów do wyznaczania MSA SMART dost˛epna pod adresem http://smart.embl-heidelberg.de/, główne zastosowania: analiza architektury domenowej białek Pfam dost˛epna pod adresem http://www.sanger.ac.uk/Software/Pfam/, główne zastosowania: analiza architektury domenowej białek BALI BASE – BAZA ULINIOWIE Ń REFERENCYJNYCH ~ osiem grup MSA wyznaczonych na podstawie białek (domen) o znanej strukturze przestrzennej lub drugorz˛edowej (BaliBase v1: 5 grup, 142 uliniowień, łacznie ˛ ponad 1000 sekwencji) ~ sekwencje odpowiednich rodzin białkowych były wst˛epnie uliniowione (ClustalW) a nast˛epnie r˛ecznie przeredagowane (przeedytowane) w taki sposób aby odpowiadajace ˛ sobie podstawowe elementy struktury drugorz˛edowej (tj. helisy lub arkusze , ale nie odcinki p˛etli) oraz funkcjonalnie specyficzne reszty aminokwasowe (np. centra aktywne) zajmowały te same miejsca w uliniowieniu ~ w każdym z uliniowień zidentyfikowano bloki odcinków sekwencji o stopniu konserwowania wystarczajacym ˛ do jednoznacznego ich lokalnego uliniowienia (CB, ang. core blocks) (w BaliBase v1, CB łacznie ˛ zawieraja˛ 58% wszystkich reszt) ~ do porównywania uliniowień wykorzystuje si˛e dwie miary (program bali_score): SP (ang. sum-of-pair score) oraz CP (ang. column score); dodatkowo porównania uliniowień można zaw˛ezić do wybranych obszarów (np. CB) SP : jaki odsetek reszt na odpowiadajacych ˛ sobie pozycjach (tj. tych samych kolumnach) w uliniowieniu referencyjnym jest poprawnie reprodukowany w uliniowieniu porównywanym: Dla ' reszt 7 w kolumnie -tej porównywanego uliniowienia, ocena każdej i z kombinatorycznie wygenerowanych par - i (' i ' dla F ) jest równa gdy - i sa˛ w tej samej kolumnie uliniowienia referencyjnego i w innym przypadku. CP : jaki odsetek kolumn uliniowienia referencyjnego jest poprawnie reprodukowana w uliniowieniu porównywanym. Z definicji SP CP. G RUPY ULINIOWIE Ń REFERENCYJNYCH BALI BASE V 2 1. ewolucyjnie równo odległe sekwencje o zróżnicowanym stopniu zakonserwowania 5. sekwencje, których biologicznie sensowne uliniowienie zawiera liczne wewn˛etrzne przerwy 2. rodzina białek z jedna˛ dodatkowa˛ sekwencja˛ ewolucyjnie odległego homologu (ang. orphan sequence) 6. sekwencje zawierajace ˛ powtarzalne motywy/domeny 3. podgrupy sekwencji wykazujace ˛ mi˛edzy soba˛ marginalne (tj. <25% identyczności) podobieństwo 4. sekwencje, których biologicznie sensowne uliniowienie zawiera przerwy przy N- i C- końcach 7. sekwencje z odcinkami transbłonowymi 8. sekwencje, w których domeny wyst˛epuja˛ w różnej kolejności (tzw. permutacje kołowe, ang. circular permutation) E DYCJA ULINIOWIE Ń WIELOSEKWENCYJNYCH skoro nie dysponujemy metodami wyznaczania sensownych biologicznie (tj. jedynie słusznych) uliniowień a pewne odcinki sekwencji odległych ewolucyjnie białek nie moga˛ być wiarygodnie uliniowione to konieczna jest możliwość wspomaganego komputerowo “poprawiania” sensu biologicznego uliniowień popularne programy wykorzystywane do wizualizacji i edycji MSA: ClustalX dost˛epny pod adrsem: http://bips.u-strasbg.fr/fr/DocumentationĆlustalX/; graficzna nakładka na ClustalW oferujace ˛ szereg dodatkowych funkcji wraz z ograniczonymi możliwościami edycji uliniowień JalView dost˛epny pod adresem: http://www.jalview.org/; bardzo rozbudowany i wygodny w obsłudze edytor MSA C LUSTAL X JALV IEW