Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.

Transkrypt

Bioinformatyka 2 (BT172)
Wykład 3
Uliniowienia wielosekwencyjne. Cze˛ ść II.
dr Krzysztof Murzyn
24.X.2005
P LAN WYKŁADU
1. W poprzednim odcinku: definicje, zastosowania MSA, złożoność
obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie
dynamiczne
2. Kryteria oceny jakości MSA, sposoby obliczania oceny MSA.
3. Formaty zapisywania MSA.
4. BaliBase – baza referencyjnych MSA.
5. Edycja MSA (clustalx, jalview).
O CENA JAKO ŚCI ULINIOWIENIA
WIELOSEKWENCYJNEGO
)
ocena uliniowienia pary sekwencji oparta o macierz podstawień
aminokwasowych lub nukleotydowych oraz punktowanie przerw
)
istniejace
˛ metody oceniania MSA sa˛ niedoskonałe
)
wi˛ekszość z nich sprowadza si˛e do oceny jakości uliniowienia w
kolejnych kolumnach MSA i wyznczenia sumy tych ocen dla całego
MSA (tj. po wszystkich kolumnach):
– metoda oceny konsensusowej (CS, ang. consensus score)
– metoda sumy par (ang. sum-of-pairs), również w wariancie ważonej
sumy par
O CENA KONSENSUSOWA
dla MSA wyznaczana jest sekwencja konsensusowa (symbol reszty
wybrany w taki sposób aby ocena danej pozycji uliniowienia była jak
najmniejsza)
ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie
ocen porównań kolejnych sekwencji z sekwencja˛ konsensusowa˛
przykładowo,
dla trzech sekwencji
przyjmuj
ac
˛ dla
,
!
konsensus
ocena kolumny
oraz dla
–
G
A
–
G
G
G
G
C
G
C
C
T
T
G
T
G
G
G
G
A
A
A
A
T A T A A
T – T A G
– A C A C
T A T A X
C
C
C
C
T
T
T
T
"
#
"
"
#
#
$
#
#
$
"
#
%
:
,
&'$!%
X = {A, C, G}
gdyby X = A, ocena kolumny wyniesie: ( , najniższy wynik prócz X w
sekwencji konsensusowej daje – ale na tej pozycji w uliniowieniu nie ma
przerw
S UMA PAR
M
ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie
ocen kombinatorycznie generowanych uliniowień par reszt
poszczególnych sekwencji
M
przykładowo, dla trzech sekwencji przyjmujac
˛ N O P 1
Q R S T
P
WT
R , N-OPQUST
N7OUQ9PST
UX dla P
WT
U , N-OPQ9PST
N7OUQUST
Z :
[\
[]
[!^
ocena kolumny
Y
dla
oraz
–
G
A
G
G
G
C
G
C
T
T
G
G A T A
G A T –
G A – A
T
T
C
A
A
A
A
G
C
C T
C T
C T
_7`
a
_cb
_db
a
_cb
a
_7e
a
a
b
b
dla pierwszej kolumny N<i?T N-OUQkjlSEm N-OUQ9PSDm
drugiej: NJioT N7OjnQkjlSDm N7OjnQkjlSDm N7OjnQkjlS , itd.
p
U V
N7OjnQ9PS
a
fg`h
, dla
choć cz˛esto stosowany, schemat sumy-par jest bł˛edny z ewolucyjnego punktu widzenia (a
w przypadku stosowania macierzy BLOSUM/PAM, również z matematycznego punktu
widzenia), ponieważ zakłada iż każda sekwencja jest ewolucyjnym przodkiem
wszystkich pozostałych sekwencji – w praktyce, metoda działa zaskakujaco
˛ dobrze
(innymi słowy: nie wynaleziono lepszej metody...)
P ROBLEMY Z “ SUM A˛ PAR ”
*
sumowanie ocen wszystkich par może prowadzić do nieoczekiwanych
rezultatów, np. przewartościowania niezgodności (tj. zawyżania liczby
mutacji punktowych) na pojedynczych pozycjach w dobrze
uzgodnionych kolumnach
*
rozważmy przykład, w którym przyj˛eto +-,./10
23
+7,./423
+7,4/.23
48 dla .
63
4 , +7,./9.23
L
L
L
I
suma par :
L
L
L
L
L
L
L
L
I
dla . 63 0 ,
oraz +-,4/423
5
45
vs.
I
+<;=,>?/1>?/>?/@A23
+-,>?/1>B2DC
+7,>?/>B2EC
+-,>?/@72DC
+7,>?/1>F2EC
+-,>?/@72EC
+-,>?/@723
GIH
GH
G
G
+7,!>?/1>B2DC
+-,>?/@723
4
3
:
H
G
ewolucja : +J;=,>?/>?/1>?/@723 K +-,>?/1>B2DC +-,>?/@A23 K4 5L3
:
P ROBLEMY Z “ SUM A˛ PAR ”
q
uliniowienie wielosekwencyjne, optymalne pod katem
˛
sumy par, nie
musi odpowiadać optymalnym uliniowieniom poszczególnych par; np.
dla fragmentów sekwencji AT, A, T, AT, AT:
A
T
A
–
A
–
T
A
T
A
T
rs
rs
t
rvu
A
T
A
–
A
–
T
–
T
T
–
ry
rs
rs
A
T
A
T
t
rvu
s
rIw
t
rx
F ORMATY ZACHOWYWANIA MSA
FASTA : najprostszy z możliwych, rozpoznawany przez wi˛ekszość (jeśli nie
wszystkie) popularne programy do wyznaczania MSA
ALN : format kultowego programu C LUSTALW, ograniczone możliwości
anotacji uliniowienia (przedefiniowanie punktacji przerw w celu ich
zróżnicowania wzdłuż sekwencji, oznaczenia wyst˛epowania elementów
struktury drugorz˛edowej):
!SS_HBA_HUMA
!GM_HBA_HUMA
HBA_HUMA
..aaaAAAAAAAAAAaaa.aaaAAAAAAAAAAaaaaaaAaaa.........aaaAAAAAA
112224444444444222122244444444442222224222111111111222444444
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK
MSF : format komercyjnego pakietu GCG, bardzo cz˛esto stosowany i
rozpoznawany przez wi˛ekszość specjalistycznych programów
Stockholm : rzadko stosowany, używany głównie przez pakiet HMMER, w
bazie PFAM oraz program wizualizacji MSA BELVU; bardzo
rozbudowane możliwości anotacji sekwencji
F ORMAT FASTA
>Q9Z115_MESAU/58-291
KGY--TQQLAF-------K-QPSFAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSQV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEAREICeGQ-----INSLPGSIN-KAG
EYI-EASYLNLQ-R------pYTVA-------------IAAYALALMGKL--EEPY-------------------LSKFLKTATE---R--NR-WEE--------PGQK-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
>CO3_MOUSE/1051-1284
KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG
EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
>Q80XP1_MOUSE/1051-1284
KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG
EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
{
a sequence in FASTA format
begins with a single-line
description, followed by
sequence data on the next line
{
the description line is
distinguished from the sequence
data by a greater-than (>)
symbol in the first column
{
It is recommended that all lines
of text be shorter than 80
characters in length
{
sequences are represented in the
standard IUB/IUPAC amino
acid and nucleic acid codes
{
gaps are represented by the ’–’
character
F ORMAT ALN
CLUSTAL W (1.83) multiple sequence alignment
BOVINE
TURKEY
PORCINE
MURINE
RAT
CANINE
FELINE
SARS
AVIAN
-------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL
-------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL
-------------MSSPTTPVPVISWTADEAIKFLKEWNFSL
------------MSSSTPAPQPIYQWTADEAVQFLKEWNFSL
------------------APQTVYQWTADVAVRFLKEWNFLL
--RYCAMTESSTSCRNSTAGNCASCFETGDLIWHLANWNFSW
QIRYCAMQETGLSCRNGTASDCESCFNGGDLIWHLANWNFSW
-----------------MADN--GTITVEELKQLLEQWNLVI
----------------MNDTMNCTLNTQQQAAELFKEYNVFV
: ::*.
BOVINE
TURKEY
PORCINE
MURINE
RAT
CANINE
FELINE
SARS
AVIAN
SMFVYVIKMIILWLMWPLTIILTIFN--CVYALNSMSVYVIKMIILWLMWPLTIILTIFN--CVYALNSMFVYVIKMVILWLMWPLTIILTIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSWFVCGIKMLIMWLLWPIVLALTIFNAYLEYRVSR
SWFVYGIKMLIMWLLWPIVLALTIFNAYSEYEVSR
NRFLYIIKLVFLWLLWPVTLACFVLA--AVYRINSRFIYILKMILLWCFWPLNIAVGVIS--CIFPPNT
. : :*::::* :**: :
::
: .
z
the word CLUSTAL should be
on the first non-space line of the
file
z
the alignment is displayed in
blocks of a fixed length
z
each line in the block
corresponds to one sequence
z
the line starts with the sequence
name (of any length), followed
by at least one space character
z
then the sequence is displayed:
upper or lowercase, ’-’ denotes
gaps, residue number is
displayed optionally at the end
z
in between blocks a line shows
conservation information
(* : .)
F ORMAT MSF
}
PileUp
MSF:
Name:
Name:
Name:
Name:
Name:
304
1sbp
1wod
1mrp
1pot
1atg
Type: P
oo
oo
oo
oo
oo
Len:
Len:
Len:
Len:
Len:
Check:
304
304
304
304
304
3682
Check:
Check:
Check:
Check:
Check:
..
3593
6474
48
3959
9608
Weight:
Weight:
Weight:
Weight:
Weight:
1.00
1.00
1.00
1.00
1.00
an optional file type
identifier
appears on the first line
’DNA_MULTIPLE_ALIGNMENT
1.0’ or ’Pileup’
}
optional
title/description
appears on the second
line
}
there is a dividing line
with obligatory ’MSF:
sequence length’,
checksum value and
two points ’..’
}
name/weight section
with checksum
}
’//’ separates the
alignment from the
header information
//
1sbp
1wod
1mrp
1pot
1atg
kdiqLLNVSY
..gkITVFAA
...DITVYNG
..NTLYFYNW
...ELKVVTA
DPTRELYEQY
....ASLTNA
.....qHKEA
....TEYVPP
....TNFLGT
NKAFSAHWKq
MQDIATQFKK
ATAVAKAFEQ
G..LLEQFTK
LEQLAGQFAK
etgdnVVIDQ
EKGVDVVSSF
ETGIKVTLNS
ETGIKVIYST
QTGHAVVISS
SHGgsgKQAT
A..sssTLAR
G..KSEQLAG
Y.EsNETMYA
G..SSGPVYA
1sbp
1wod
1mrp
1pot
1atg
SVIN...giE
QIEA...gaP
QLKEEgdkTP
KLKT.YKdgA
QIVN...GAP
ADTVTLAL.A
ADLFISAD.Q
ADVFYTEQTA
YDLVVPS..T
YNVFFSAD.E
YdvNAIAerG
KwmDYAVdkK
TFADLS.EAG
YYVDKMRKEG
KSPEKLDNQG
RIDknwikrl
AID.......
LLA.....pi
MIQkidkskl
FAL.......
..
..
se
tn
..
F ORMAT S TOCKHOLM
# STOCKHOLM 1.0
#=GF ID CBS
#=GF AC PF00571
#=GF DE CBS domain
#=GF AU Bateman A
#=GF CC CBS domains are small intracellular modules mostly found
#=GF CC in 2 or four copies within a protein.
#=GF SQ 67
#=GS O31698/18-71 AC O31698
#=GS O83071/192-246 AC O83071
#=GS O83071/259-312 AC O83071
#=GS O31698/88-139 AC O31698
#=GS O31698/88-139 OS Bacillus subtilis
O83071/192-246
MTCRAQLIAVPRASSLAE..AIACAQKM....RVSRVPVYERS
#=GR O83071/192-246 SA 999887756453524252..55152525....36463774777
O83071/259-312
MQHVSAPVFVFECTRLAY..VQHKLRAH....SRAVAIVLDEY
#=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEE
O31698/18-71
MIEADKVAHVQVGNNLEH..ALLVLTKT....GYTAIPVLDPS
#=GR O31698/18-71 SS
CCCHHHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEHHH
O31698/88-139
EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE
#=GR O31698/88-139 SS
CCCCCCCHHHHHHHHHHH..HEEEEEEE....EEEEEEEEEEH
#=GC SS_cons
CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEH
O31699/88-139
EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE
#=GR O31699/88-139 AS
________________*__________________________
#=GR_O31699/88-139_IN
____________1______________2__________0____
//
|
#=GR
Feature
------SS
SA
TM
PP
LI
AS
IN
Description
Markup le
------------------Secondary Structure
[HGIEBTSC
Surface Accessibility [0-9X]
(0=0%-10%; ...; 9=90%-100%)
TransMembrane
[Mio]
Posterior Probability [0-9*]
(0=0.00-0.05; 1=0.05-0.15; *
LIgand binding
[*]
Active Site
[*]
INtron (in or after)
[0-2]
dokładny opis formatu dost˛epny na stronie:
http://www.cgb.ki.se/cgb/groups/sonnhammer/Stockholm.html
BAZY ULINIOWIE Ń WIELOSEKWENCYJNYCH

problemy z ocena˛ jakości MSA sa˛ jedna˛ z przyczyn trudności
zwiazanych
˛
z wyznaczaniem sensownych biologicznie MSA

skoro wyznaczanie MSA jest zadaniem pracochłonnym i wymagajacym
˛
obliczeniowym to warto gromadzić sensowne biologiczne MSA w celu
ich późniejszego wykorzystania

popularne bazy uliniowień wielosekwencyjnych domen białkowych i
motywów sekwencyjnych
BaliBase dost˛epna pod adresem
http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE2/, głowne zastosowania:
zbiór uliniowień referencyjnych umożliwiajacy
˛ wszechstronne porównywanie
efektywności różnych programów do wyznaczania MSA
SMART dost˛epna pod adresem http://smart.embl-heidelberg.de/, główne zastosowania:
analiza architektury domenowej białek
Pfam dost˛epna pod adresem http://www.sanger.ac.uk/Software/Pfam/, główne
zastosowania: analiza architektury domenowej białek
BALI BASE – BAZA ULINIOWIE Ń REFERENCYJNYCH
~
osiem grup MSA wyznaczonych na podstawie białek (domen) o znanej strukturze
przestrzennej lub drugorz˛edowej (BaliBase v1: 5 grup, 142 uliniowień, łacznie
˛
ponad
1000 sekwencji)
~
sekwencje odpowiednich rodzin białkowych były wst˛epnie uliniowione (ClustalW) a
nast˛epnie r˛ecznie przeredagowane (przeedytowane) w taki sposób aby odpowiadajace
˛
sobie podstawowe elementy struktury drugorz˛edowej (tj. helisy lub arkusze , ale nie
odcinki p˛etli) oraz funkcjonalnie specyficzne reszty aminokwasowe (np. centra
aktywne) zajmowały te same miejsca w uliniowieniu
~
w każdym z uliniowień zidentyfikowano bloki odcinków sekwencji o stopniu
konserwowania wystarczajacym
˛
do jednoznacznego ich lokalnego uliniowienia (CB, ang.
core blocks) (w BaliBase v1, CB łacznie
˛
zawieraja˛ 58% wszystkich reszt)
~
do porównywania uliniowień wykorzystuje si˛e dwie miary (program bali_score): SP
(ang. sum-of-pair score) oraz CP (ang. column score); dodatkowo porównania uliniowień
można zaw˛ezić do wybranych obszarów (np. CB)
SP : jaki odsetek reszt na odpowiadajacych
˛
sobie pozycjach (tj. tych samych kolumnach)
w uliniowieniu referencyjnym jest poprawnie reprodukowany w uliniowieniu
porównywanym:
Dla ' reszt 7 w kolumnie -tej porównywanego uliniowienia, ocena każdej
i
z kombinatorycznie wygenerowanych par - i (' i ' dla
F ) jest równa gdy - i sa˛ w tej samej kolumnie uliniowienia
referencyjnego i w innym przypadku.
CP : jaki odsetek kolumn uliniowienia referencyjnego jest poprawnie reprodukowana w
uliniowieniu porównywanym. Z definicji SP CP.
G RUPY ULINIOWIE Ń REFERENCYJNYCH BALI BASE V 2
1. ewolucyjnie równo odległe
sekwencje o zróżnicowanym
stopniu zakonserwowania
5. sekwencje, których biologicznie
sensowne uliniowienie zawiera
liczne wewn˛etrzne przerwy
2. rodzina białek z jedna˛
dodatkowa˛ sekwencja˛
ewolucyjnie odległego homologu
(ang. orphan sequence)
6. sekwencje zawierajace
˛
powtarzalne motywy/domeny
3. podgrupy sekwencji wykazujace
˛
mi˛edzy soba˛ marginalne (tj.
<25% identyczności)
podobieństwo
4. sekwencje, których biologicznie
sensowne uliniowienie zawiera
przerwy przy N- i C- końcach
7. sekwencje z odcinkami
transbłonowymi
8. sekwencje, w których domeny
wyst˛epuja˛ w różnej kolejności
(tzw. permutacje kołowe, ang.
circular permutation)
E DYCJA ULINIOWIE Ń WIELOSEKWENCYJNYCH

skoro nie dysponujemy metodami wyznaczania sensownych
biologicznie (tj. jedynie słusznych) uliniowień a pewne odcinki
sekwencji odległych ewolucyjnie białek nie moga˛ być wiarygodnie
uliniowione to konieczna jest możliwość wspomaganego komputerowo
“poprawiania” sensu biologicznego uliniowień

popularne programy wykorzystywane do wizualizacji i edycji MSA:
ClustalX dost˛epny pod adrsem:
http://bips.u-strasbg.fr/fr/DocumentationĆlustalX/; graficzna
nakładka na ClustalW oferujace
˛ szereg dodatkowych funkcji wraz z
ograniczonymi możliwościami edycji uliniowień
JalView dost˛epny pod adresem: http://www.jalview.org/; bardzo
rozbudowany i wygodny w obsłudze edytor MSA
C LUSTAL X
JALV IEW