Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.

Transkrypt

Bioinformatyka 2 (BT172) Uliniowienia wielosekwencyjne. Cz˛e´s´c II.
Bioinformatyka 2 (BT172)
Wykład 3
Uliniowienia wielosekwencyjne. Cze˛ ść II.
dr Krzysztof Murzyn
24.X.2005
P LAN WYKŁADU
1. W poprzednim odcinku: definicje, zastosowania MSA, złożoność
obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie
dynamiczne
2. Kryteria oceny jakości MSA, sposoby obliczania oceny MSA.
3. Formaty zapisywania MSA.
4. BaliBase – baza referencyjnych MSA.
5. Edycja MSA (clustalx, jalview).
O CENA JAKO ŚCI ULINIOWIENIA
WIELOSEKWENCYJNEGO
)
ocena uliniowienia pary sekwencji oparta o macierz podstawień
aminokwasowych lub nukleotydowych oraz punktowanie przerw
)
istniejace
˛ metody oceniania MSA sa˛ niedoskonałe
)
wi˛ekszość z nich sprowadza si˛e do oceny jakości uliniowienia w
kolejnych kolumnach MSA i wyznczenia sumy tych ocen dla całego
MSA (tj. po wszystkich kolumnach):
– metoda oceny konsensusowej (CS, ang. consensus score)
– metoda sumy par (ang. sum-of-pairs), również w wariancie ważonej
sumy par
O CENA KONSENSUSOWA
dla MSA wyznaczana jest sekwencja konsensusowa (symbol reszty
wybrany w taki sposób aby ocena danej pozycji uliniowienia była jak
najmniejsza)
ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie
ocen porównań kolejnych sekwencji z sekwencja˛ konsensusowa˛
przykładowo,
dla trzech sekwencji
przyjmuj
ac
˛ dla
,
!
konsensus
ocena kolumny
oraz dla
–
G
A
–
G
G
G
G
C
G
C
C
T
T
G
T
G
G
G
G
A
A
A
A
T A T A A
T – T A G
– A C A C
T A T A X
C
C
C
C
T
T
T
T
"
#
"
"
#
#
$
#
#
$
"
#
%
:
,
&'$!%
X = {A, C, G}
gdyby X = A, ocena kolumny wyniesie: ( , najniższy wynik prócz X w
sekwencji konsensusowej daje – ale na tej pozycji w uliniowieniu nie ma
przerw
S UMA PAR
M
ocena uliniowienia wielosekwencyjnego w kolumnie jest równa sumie
ocen kombinatorycznie generowanych uliniowień par reszt
poszczególnych sekwencji
M
przykładowo, dla trzech sekwencji przyjmujac
˛ N O P 1
Q R S T
P
WT
R , N-OPQUST
N7OUQ9PST
UX dla P
WT
U , N-OPQ9PST
N7OUQUST
Z :
[\
[]
[!^
ocena kolumny
Y
dla
oraz
–
G
A
G
G
G
C
G
C
T
T
G
G A T A
G A T –
G A – A
T
T
C
A
A
A
A
G
C
C T
C T
C T
_7`
a
_cb
_db
a
_cb
a
_7e
a
a
b
b
dla pierwszej kolumny N<i?T N-OUQkjlSEm N-OUQ9PSDm
drugiej: NJioT N7OjnQkjlSDm N7OjnQkjlSDm N7OjnQkjlS , itd.
p
U V
N7OjnQ9PS
a
fg`h
, dla
choć cz˛esto stosowany, schemat sumy-par jest bł˛edny z ewolucyjnego punktu widzenia (a
w przypadku stosowania macierzy BLOSUM/PAM, również z matematycznego punktu
widzenia), ponieważ zakłada iż każda sekwencja jest ewolucyjnym przodkiem
wszystkich pozostałych sekwencji – w praktyce, metoda działa zaskakujaco
˛ dobrze
(innymi słowy: nie wynaleziono lepszej metody...)
P ROBLEMY Z “ SUM A˛ PAR ”
*
sumowanie ocen wszystkich par może prowadzić do nieoczekiwanych
rezultatów, np. przewartościowania niezgodności (tj. zawyżania liczby
mutacji punktowych) na pojedynczych pozycjach w dobrze
uzgodnionych kolumnach
*
rozważmy przykład, w którym przyj˛eto +-,./10
23
+7,./423
+7,4/.23
48 dla .
63
4 , +7,./9.23
L
L
L
I
suma par :
L
L
L
L
L
L
L
L
I
dla . 63 0 ,
oraz +-,4/423
5
45
vs.
I
+<;=,>?/1>?/>?/@A23
+-,>?/1>B2DC
+7,>?/>B2EC
+-,>?/@72DC
+7,>?/1>F2EC
+-,>?/@72EC
+-,>?/@723
GIH
GH
G
G
+7,!>?/1>B2DC
+-,>?/@723
4
3
:
H
G
ewolucja : +J;=,>?/>?/1>?/@723 K +-,>?/1>B2DC +-,>?/@A23 K4 5L3
:
P ROBLEMY Z “ SUM A˛ PAR ”
q
uliniowienie wielosekwencyjne, optymalne pod katem
˛
sumy par, nie
musi odpowiadać optymalnym uliniowieniom poszczególnych par; np.
dla fragmentów sekwencji AT, A, T, AT, AT:
A
T
A
–
A
–
T
A
T
A
T
rs
rs
t
rvu
A
T
A
–
A
–
T
–
T
T
–
ry
rs
rs
A
T
A
T
t
rvu
s
rIw
t
rx
F ORMATY ZACHOWYWANIA MSA
FASTA : najprostszy z możliwych, rozpoznawany przez wi˛ekszość (jeśli nie
wszystkie) popularne programy do wyznaczania MSA
ALN : format kultowego programu C LUSTALW, ograniczone możliwości
anotacji uliniowienia (przedefiniowanie punktacji przerw w celu ich
zróżnicowania wzdłuż sekwencji, oznaczenia wyst˛epowania elementów
struktury drugorz˛edowej):
!SS_HBA_HUMA
!GM_HBA_HUMA
HBA_HUMA
..aaaAAAAAAAAAAaaa.aaaAAAAAAAAAAaaaaaaAaaa.........aaaAAAAAA
112224444444444222122244444444442222224222111111111222444444
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK
MSF : format komercyjnego pakietu GCG, bardzo cz˛esto stosowany i
rozpoznawany przez wi˛ekszość specjalistycznych programów
Stockholm : rzadko stosowany, używany głównie przez pakiet HMMER, w
bazie PFAM oraz program wizualizacji MSA BELVU; bardzo
rozbudowane możliwości anotacji sekwencji
F ORMAT FASTA
>Q9Z115_MESAU/58-291
KGY--TQQLAF-------K-QPSFAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSQV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEAREICeGQ-----INSLPGSIN-KAG
EYI-EASYLNLQ-R------pYTVA-------------IAAYALALMGKL--EEPY-------------------LSKFLKTATE---R--NR-WEE--------PGQK-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
>CO3_MOUSE/1051-1284
KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG
EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
>Q80XP1_MOUSE/1051-1284
KGY--TQQLAF-------K-QPSSAYAAFNNR---------PPSTWLTAYVVKVFSLAAN
---------------LI-AIDSHV--LCGAVKWLILEKQKPDGVF-QEDGPVIHQEMIGG
FR-nAK------------EADVSLTAFVLIALQEARDICeGQ-----VNSLPGSIN-KAG
EYI-EASYMNLQ-R------pYTVA-------------IAGYALALMNKL--EEPY-------------------LGKFLNTAKD---R--NR-WEE--------PDQQ-LY-------------NVEATSYALLAL-----------LLLK--DF--DSVPPVVRWLNEQRYYGGGY
GS-TQATFMVFQALAQYQT
{
a sequence in FASTA format
begins with a single-line
description, followed by
sequence data on the next line
{
the description line is
distinguished from the sequence
data by a greater-than (>)
symbol in the first column
{
It is recommended that all lines
of text be shorter than 80
characters in length
{
sequences are represented in the
standard IUB/IUPAC amino
acid and nucleic acid codes
{
gaps are represented by the ’–’
character
F ORMAT ALN
CLUSTAL W (1.83) multiple sequence alignment
BOVINE
TURKEY
PORCINE
MURINE
RAT
CANINE
FELINE
SARS
AVIAN
-------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL
-------------MSSVTTPAPVYTWTADEAIKFLKEWNFSL
-------------MSSPTTPVPVISWTADEAIKFLKEWNFSL
------------MSSSTPAPQPIYQWTADEAVQFLKEWNFSL
------------------APQTVYQWTADVAVRFLKEWNFLL
--RYCAMTESSTSCRNSTAGNCASCFETGDLIWHLANWNFSW
QIRYCAMQETGLSCRNGTASDCESCFNGGDLIWHLANWNFSW
-----------------MADN--GTITVEELKQLLEQWNLVI
----------------MNDTMNCTLNTQQQAAELFKEYNVFV
: ::*.
BOVINE
TURKEY
PORCINE
MURINE
RAT
CANINE
FELINE
SARS
AVIAN
SMFVYVIKMIILWLMWPLTIILTIFN--CVYALNSMSVYVIKMIILWLMWPLTIILTIFN--CVYALNSMFVYVIKMVILWLMWPLTIILTIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSMFIYVVKMIILWLMWPLTIVLCIFN--CVYALNSWFVCGIKMLIMWLLWPIVLALTIFNAYLEYRVSR
SWFVYGIKMLIMWLLWPIVLALTIFNAYSEYEVSR
NRFLYIIKLVFLWLLWPVTLACFVLA--AVYRINSRFIYILKMILLWCFWPLNIAVGVIS--CIFPPNT
. : :*::::* :**: :
::
: .
z
the word CLUSTAL should be
on the first non-space line of the
file
z
the alignment is displayed in
blocks of a fixed length
z
each line in the block
corresponds to one sequence
z
the line starts with the sequence
name (of any length), followed
by at least one space character
z
then the sequence is displayed:
upper or lowercase, ’-’ denotes
gaps, residue number is
displayed optionally at the end
z
in between blocks a line shows
conservation information
(* : .)
F ORMAT MSF
}
PileUp
MSF:
Name:
Name:
Name:
Name:
Name:
304
1sbp
1wod
1mrp
1pot
1atg
Type: P
oo
oo
oo
oo
oo
Len:
Len:
Len:
Len:
Len:
Check:
304
304
304
304
304
3682
Check:
Check:
Check:
Check:
Check:
..
3593
6474
48
3959
9608
Weight:
Weight:
Weight:
Weight:
Weight:
1.00
1.00
1.00
1.00
1.00
an optional file type
identifier
appears on the first line
’DNA_MULTIPLE_ALIGNMENT
1.0’ or ’Pileup’
}
optional
title/description
appears on the second
line
}
there is a dividing line
with obligatory ’MSF:
sequence length’,
checksum value and
two points ’..’
}
name/weight section
with checksum
}
’//’ separates the
alignment from the
header information
//
1sbp
1wod
1mrp
1pot
1atg
kdiqLLNVSY
..gkITVFAA
...DITVYNG
..NTLYFYNW
...ELKVVTA
DPTRELYEQY
....ASLTNA
.....qHKEA
....TEYVPP
....TNFLGT
NKAFSAHWKq
MQDIATQFKK
ATAVAKAFEQ
G..LLEQFTK
LEQLAGQFAK
etgdnVVIDQ
EKGVDVVSSF
ETGIKVTLNS
ETGIKVIYST
QTGHAVVISS
SHGgsgKQAT
A..sssTLAR
G..KSEQLAG
Y.EsNETMYA
G..SSGPVYA
1sbp
1wod
1mrp
1pot
1atg
SVIN...giE
QIEA...gaP
QLKEEgdkTP
KLKT.YKdgA
QIVN...GAP
ADTVTLAL.A
ADLFISAD.Q
ADVFYTEQTA
YDLVVPS..T
YNVFFSAD.E
YdvNAIAerG
KwmDYAVdkK
TFADLS.EAG
YYVDKMRKEG
KSPEKLDNQG
RIDknwikrl
AID.......
LLA.....pi
MIQkidkskl
FAL.......
..
..
se
tn
..
F ORMAT S TOCKHOLM
# STOCKHOLM 1.0
#=GF ID CBS
#=GF AC PF00571
#=GF DE CBS domain
#=GF AU Bateman A
#=GF CC CBS domains are small intracellular modules mostly found
#=GF CC in 2 or four copies within a protein.
#=GF SQ 67
#=GS O31698/18-71 AC O31698
#=GS O83071/192-246 AC O83071
#=GS O83071/259-312 AC O83071
#=GS O31698/88-139 AC O31698
#=GS O31698/88-139 OS Bacillus subtilis
O83071/192-246
MTCRAQLIAVPRASSLAE..AIACAQKM....RVSRVPVYERS
#=GR O83071/192-246 SA 999887756453524252..55152525....36463774777
O83071/259-312
MQHVSAPVFVFECTRLAY..VQHKLRAH....SRAVAIVLDEY
#=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEE
O31698/18-71
MIEADKVAHVQVGNNLEH..ALLVLTKT....GYTAIPVLDPS
#=GR O31698/18-71 SS
CCCHHHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEHHH
O31698/88-139
EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE
#=GR O31698/88-139 SS
CCCCCCCHHHHHHHHHHH..HEEEEEEE....EEEEEEEEEEH
#=GC SS_cons
CCCCCHHHHHHHHHHHHH..EEEEEEEE....EEEEEEEEEEH
O31699/88-139
EVMLTDIPRLHINDPIMK..GFGMVINN......GFVCVENDE
#=GR O31699/88-139 AS
________________*__________________________
#=GR_O31699/88-139_IN
____________1______________2__________0____
//
|
#=GR
Feature
------SS
SA
TM
PP
LI
AS
IN
Description
Markup le
------------------Secondary Structure
[HGIEBTSC
Surface Accessibility [0-9X]
(0=0%-10%; ...; 9=90%-100%)
TransMembrane
[Mio]
Posterior Probability [0-9*]
(0=0.00-0.05; 1=0.05-0.15; *
LIgand binding
[*]
Active Site
[*]
INtron (in or after)
[0-2]
dokładny opis formatu dost˛epny na stronie:
http://www.cgb.ki.se/cgb/groups/sonnhammer/Stockholm.html
BAZY ULINIOWIE Ń WIELOSEKWENCYJNYCH
—
problemy z ocena˛ jakości MSA sa˛ jedna˛ z przyczyn trudności
zwiazanych
˛
z wyznaczaniem sensownych biologicznie MSA
—
skoro wyznaczanie MSA jest zadaniem pracochłonnym i wymagajacym
˛
obliczeniowym to warto gromadzić sensowne biologiczne MSA w celu
ich późniejszego wykorzystania
—
popularne bazy uliniowień wielosekwencyjnych domen białkowych i
motywów sekwencyjnych
BaliBase dost˛epna pod adresem
http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE2/, głowne zastosowania:
zbiór uliniowień referencyjnych umożliwiajacy
˛ wszechstronne porównywanie
efektywności różnych programów do wyznaczania MSA
SMART dost˛epna pod adresem http://smart.embl-heidelberg.de/, główne zastosowania:
analiza architektury domenowej białek
Pfam dost˛epna pod adresem http://www.sanger.ac.uk/Software/Pfam/, główne
zastosowania: analiza architektury domenowej białek
BALI BASE – BAZA ULINIOWIE Ń REFERENCYJNYCH
~
osiem grup MSA wyznaczonych na podstawie białek (domen) o znanej strukturze
przestrzennej lub drugorz˛edowej (BaliBase v1: 5 grup, 142 uliniowień, łacznie
˛
ponad
1000 sekwencji)
~
sekwencje odpowiednich rodzin białkowych były wst˛epnie uliniowione (ClustalW) a
nast˛epnie r˛ecznie przeredagowane (przeedytowane) w taki sposób aby odpowiadajace
˛
sobie podstawowe elementy struktury drugorz˛edowej (tj. helisy lub arkusze  , ale nie
odcinki  p˛etli) oraz funkcjonalnie specyficzne reszty aminokwasowe (np. centra
aktywne) zajmowały te same miejsca w uliniowieniu
~
w każdym z uliniowień zidentyfikowano bloki odcinków sekwencji o stopniu
konserwowania wystarczajacym
˛
do jednoznacznego ich lokalnego uliniowienia (CB, ang.
core blocks) (w BaliBase v1, CB łacznie
˛
zawieraja˛ 58% wszystkich reszt)
~
do porównywania uliniowień wykorzystuje si˛e dwie miary (program bali_score): SP
(ang. sum-of-pair score) oraz CP (ang. column score); dodatkowo porównania uliniowień
można zaw˛ezić do wybranych obszarów (np. CB)
SP : jaki odsetek reszt na odpowiadajacych
˛
sobie pozycjach (tj. tych samych kolumnach)
w uliniowieniu referencyjnym jest poprawnie reprodukowany w uliniowieniu
porównywanym:
Dla €‚'ƒ„…„‡† reszt ˆ7‰‡Š w kolumnie ‹ -tej porównywanego uliniowienia, ocena każdej
 Ž i
z kombinatorycznie wygenerowanych par ˆ-‰‡Š i ˆ ‰…Œ (€‚'ƒ„…„‡† i Ž'ƒ„…„‡† dla €‘’
Ž”“F€ ) jest równa ƒ gdy ˆ-‰‡Š i ˆ ‰…Œ sa˛ w tej samej kolumnie uliniowienia
referencyjnego i • w innym przypadku.
CP : jaki odsetek kolumn uliniowienia referencyjnego jest poprawnie reprodukowana w
uliniowieniu porównywanym. Z definicji SP – CP.
G RUPY ULINIOWIE Ń REFERENCYJNYCH BALI BASE V 2
1. ewolucyjnie równo odległe
sekwencje o zróżnicowanym
stopniu zakonserwowania
5. sekwencje, których biologicznie
sensowne uliniowienie zawiera
liczne wewn˛etrzne przerwy
2. rodzina białek z jedna˛
dodatkowa˛ sekwencja˛
ewolucyjnie odległego homologu
(ang. orphan sequence)
6. sekwencje zawierajace
˛
powtarzalne motywy/domeny
3. podgrupy sekwencji wykazujace
˛
mi˛edzy soba˛ marginalne (tj.
<25% identyczności)
podobieństwo
4. sekwencje, których biologicznie
sensowne uliniowienie zawiera
przerwy przy N- i C- końcach
7. sekwencje z odcinkami
transbłonowymi
8. sekwencje, w których domeny
wyst˛epuja˛ w różnej kolejności
(tzw. permutacje kołowe, ang.
circular permutation)
E DYCJA ULINIOWIE Ń WIELOSEKWENCYJNYCH
˜
skoro nie dysponujemy metodami wyznaczania sensownych
biologicznie (tj. jedynie słusznych) uliniowień a pewne odcinki
sekwencji odległych ewolucyjnie białek nie moga˛ być wiarygodnie
uliniowione to konieczna jest możliwość wspomaganego komputerowo
“poprawiania” sensu biologicznego uliniowień
˜
popularne programy wykorzystywane do wizualizacji i edycji MSA:
ClustalX dost˛epny pod adrsem:
http://bips.u-strasbg.fr/fr/DocumentationĆlustalX/; graficzna
nakładka na ClustalW oferujace
˛ szereg dodatkowych funkcji wraz z
ograniczonymi możliwościami edycji uliniowień
JalView dost˛epny pod adresem: http://www.jalview.org/; bardzo
rozbudowany i wygodny w obsłudze edytor MSA
C LUSTAL X
JALV IEW