Wykład 3 - Marcin Filipecki

Transkrypt

2016-01-14
Motywy i podobieństwo
Modularna budowa białek
Całość – funkcja
Elementy składowe czyli
miejsca wiązania, domeny
1
2016-01-14
Motywy
• Motyw jest opisem określonej części
trójwymiarowej struktury zawierającym
charakterystyczny wzór sekwencji.
• Motywy identyfikuje się poprzez:
– Porównanie trójwymiarowych struktur,
– Porównanie wielu sekwencji,
– Zastosowanie programu do wyszukiwania wzorów
sekwencyjnych.
Motywy
Motywy to rejony podobieństwa wyróżnione
w oparciu o porównanie wielu sekwencji.
Motyw
Insercje
2
2016-01-14
Konsensus
• Zapis sekwencji nukleotydów lub aminokwasów występujących w
danym miejscu z największym prawdopodobieństwem, w oparciu
o porównanie wielu sekwencji.
Y
Y
F
F
Y
y
D
D
E
D
E
d
G
G
G
G
G
G
G
G
G
G
G
A
I
I
A
ai
V
L
L
V
vl
V
V
V
V
E
E
E
Q
Q
e
A
A
A
A
A
A
L
L
L
V
L
L
Wady: bez alternatywnych pozycji, stała długość.
Reguła – wzór (Regular Expressions)
C-x(2,5)-C-x-[GP]-x-P-x(2,5)-C
Cysteina, następnie 2-5 dowolne aminokwasy, następnie cysteina,
następnie dowolny aa, następnie glicyna lub prolina, dowolny aa,
prolina, następnie 2-5 dowolne aminokwasy i cysteina).
Wzór może zawierać:
Wzór nie może zawierać:
•Rejony o zmiennej długości •Przerw
•Alternatywne AA/NTP
•Pomyłek
CXXXCXGXPXXXXXC
|
| | |
|
FGCAKLCAGFPLRRLPCFYG
CXXCXGXPXXXXX-C
| ?| | |
|
FGCA-CAGFPLRRLPKCFYG
3
2016-01-14
• Wzory opierają się zwykle na
aminokwasach, które bezwzględnie
występują na określonych pozycjach w
sekwencji (regular expressions).
• Można również budować wzory w oparciu o
aminokwasy o zbliżonych właściwościach
fizykochemicznych (fuzzy regular
expressions).
Profil: dokładniejszy konsensus
• Macierz profilu:
– Profil (częstość występowania) aminokwasu w
określonym miejscu sekwencji.
– Bardziej czuły przy mniej podobnych
sekwencjach.
– Trudniejszy dla komputera.
4
2016-01-14
Tworzenie macierzy profilu
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
7
3
0
0
0
0
0
0
3
0
2
0
0
0
0
0
0
0
4
0
0
I tak dalej ...
YVTVQHKKLRTPL
YVTVQHKKLRTPL
YVTVQHKKLRTPL
AATMKFKKLRHPL
AATMKFKKLRHPL
YIFATTKSLRTPA
VATLRYKKLRQPL
YIFGGTKSLRTPA
WVFSAAKSLRTPS
WIFSTSKSLQTPA
YLFSKTKSLQTPA
YLFSKTKSLQTPA
Tak więc do opisu fragmentu sekwencji
używamy określeń:
Motyw
Domena
Element
Box
Signal (sygnał)
Tag (etykieta)
Signature (podpis)
Pattern (wzór)
Konsensus
Regular expression (wzór)
Profil
Blok
5
2016-01-14
Co to jest
podobieństwo?
Podobieństwo
to coś co widzimy
Czy te sekwencje są podobne?
veracinnenkmeninclnnemeteneni
nareidsdrafmeterafstandichefs
laglinksvlgeniaafwendenidschi
nrechtsenlinksnaardemiddellin
eenhalthdenmetertssenrimtegre
talleendecmmandantveracinnenk
meninclnnemeteneninareidsdraf
meterafstandmarshefslaglinksv
lgenaafwendendschinrechtsenli
nksenpdeelinhalthdenmetertsse
nrimtevanafderechtervlegelmet
enenvrwaartsinareidsdrafricht
inggpnylengteafstandchefslagr
echtsvlgenkhgerkenlinmetenenv
rwaartsinareidsdrafpnylengtea
fstandrichtinggmarshefslagrec
htsvlgengerkenlinhfdderclnnei
dichefslaglinksvlgeniaafwende
nidschinrechtsenlinksnaardemi
ddellineenhalthdenmetertssenr
imtegretalleendecmmandantvera
cinnenkmeninclnnemeteneninare
idsdrafmeterafstandmarshefsla
glinksvlgenaafwendendschinrec
htsenlinksenpdeelinhalthdenme
tertssenrimtevanafderechtervl
egelmetenenvrwaartsinareidsdr
africhtinggpnylengteafstandch
efslagrechtsvlgenkhgerkenlinm
etenenvrwaartsinareidsdrafpny
lengteafstandrichtinggmarshef
slagrechtsvlgengerkenlinhfdde
rclnneicafwendenenplincameten
envlteshalveaanrechtsiahefsla
6
2016-01-14
Czy te struktury są podobne?
• Podobieństwo – to wielkość obserwowalna, którą
można określić np. jako % identycznych
aminokwasów.
• Homologia – określa wspólne pochodzenie
porównywanych genów (to może być wniosek
wyciągnięty z analizy podobieństwa)
• Tak więc nie ma stopni homologii – geny albo są
albo nie są homologiczne
7
2016-01-14
• Identyczny – gdy ta sama cecha występuje w
dwóch gatunkach lub populacjach
• Podobny - to stopień występowania identyczności
między dwoma gatunkami lub populacjami
• Homologiczny/homolog – gdy podobieństwo wynika
ze wspólnego pochodzenia
• Analogiczny/analog – gdy podobieństwo cech
wynika z ewolucji konwergentnej
• Ortologiczny/ortolog – gdy występuje homologia i
funkcja jest zakonserwowana
• Paralogiczny/paralog – gdy występuje homologia
ale funkcje są odmienne
podobieństwo
sekwencji ≠
podobieństwo
funkcji
podobieństwo funkcji ≠
podobieństwo sekwencji
8
2016-01-14
Porównywanie sekwencji:
1.
Sequence alignment = ułożenie sekwencji
lub uliniowienie sekwencji lub dopasowanie
sekwencji
2. Similarity scoring = Oszacowanie poziomu
podobieństwa dopasowanych sekwencji i
istotności tego parametru
Optymalne dopasowanie 2 sekwencji
9
2016-01-14
aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt
||| ||
| |||||
| |
|||
|||||||||||||||||||||||||||||||
||||
||||
|||
| |
||
||
||||
||||
||
|||||
| ||||
agagaacagaaaccaatgtgcagtcactgac
-agagaacagaaaccaatgtgcagtcactgac
--agagaacagaaaccaatgtgcagtcactgac
---agagaacagaaaccaatgtgcagtcactgac
----agagaacagaaaccaatgtgcagtcactgac
-----agagaacagaaaccaatgtgcagtcactgac
------agagaacagaaaccaatgtgcagtcactgac
-------agagaacagaaaccaatgtgcagtcactgac
--------agagaacagaaaccaatgtgcagtcactgac
---------agagaacagaaaccaatgtgcagtcactgac
10
2016-01-14
aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt
||| ||
| |||||
| ||||
|||
||||||||||||||||
| |||
||||
| |
||
|||
||
||||
||
|||||||||||||||||
||||
|||
|||
| ||||
|
||
agagaacagaaaccaaatgtgcagtcactgac
-agagaacagaaaccaaatgtgcagtcactgac
--agagaacagaaaccaaatgtgcagtcactgac
---agagaacagaaaccaaatgtgcagtcactgac
----agagaacagaaaccaaatgtgcagtcactgac
-----agagaacagaaaccaaatgtgcagtcactgac
------agagaacagaaaccaaatgtgcagtcactgac
-------agagaacagaaaccaaatgtgcagtcactgac
--------agagaacagaaaccaaatgtgcagtcactgac
---------agagaacagaaaccaaatgtgcagtcactgac
• Dopasowanie globalne – obejmuje całą
długość porównywanych sekwencji
• Dopasowanie lokalne
11
2016-01-14
Dot-plot
Narzędzie służące do
wizualizacji wyników porównań
– może uwidocznić wiele
rejonów podobieństwa
lokalnego
TASFEIDTQRIELSLWDTSG
T*
*
*
A *
C
L
* *
E
*
*
T*
*
*
E
*
*
E
*
*
Q
*
R
*
V
E
*
*
L
* *
S *
*
*
L
* *
W
*
D
*
*
T*
*
*
S *
*
*
G
*
ścieżka
Dot-plot (word = 2)
12
2016-01-14
Dot-plot (word = 4)
Dot-plot (word = 10)
13
2016-01-14
B
A
14
2016-01-14
Poszukiwanie najlepszego
dopasowania sekwencji
• Metodę programowania dynamicznego można uznać za pewne
zastosowanie metody “dziel i zwyciężaj”. Zasada “dziel i
zwyciężaj” polega na tym ,iż problem rozmiaru ‘n’ zostaje
podzielony na kilka podproblemów mniejszych rozmiarów w
taki sposób, że z ich rozwiązań wynika rozwiązanie
zasadniczego problemu.
• Programowanie dynamiczne polega więc na wykonaniu obliczeń
każdego podproblemu tylko raz i zapamiętaniu jego wyniku w
tabeli. W każdym kolejnym kroku można z tej tabeli
korzystać. Programowanie dynamiczne jest zazwyczaj
stosowane w rozwiązywaniu problemów optymalizacyjnych,
prowadzi to często do wyznaczenia kilku równoznacznych,
optymalnych rozwiązań.
Poszukiwanie najlepszego dopasowania sekwencji
– programowanie dynamiczne
Globalne:
Needleman S.B. and Wunsch C.D. 1970. J. Mol.
Biol. 48: 443-453
Lokalne:
Smith T.F. and Waterman M.S. 1981. J. Mol.
Biol. 147: 195-197
15
2016-01-14
Obliczanie podobieństwa
Obszar ułożenia
ATTGTCAAAGACTTGAGCTGATGCAT
|||| ||| ||||
GGCAGACATGA-CTGACAAGGGTATCG
Mismatch
brak podobieństwa
S=
S(podobieństw)
przerwa
-
S(kar za przerwy)
Podobne Nukleotydy / Aminokwasy
Model substytucji nukleotydów
A
G
C
T
Tranzycje
Transwersje
Często jednak Tr/Tv > 1
16
2016-01-14
Podobne Nukleotydy / Aminokwasy
Grupy aminokwasów
CSS
I
P
A
V
G
T CSH
L
S
N
M
K
Y
F
D
H
W
E
R
Q
Polarne
Aromatyczne
Alifatyczne
Hydrofobowe
Małe
Naładowane
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
12
0
-2
-3
-2
-3
-4
-5
-5
-5
-3
-4
-5
-5
-2
-6
-2
-4
0
-8
C
2
1
1
1
1
1
0
0
-1
-1
0
0
-2
-1
-3
-1
-3
-3
-2
S
3
0
1
0
0
0
0
-1
-1
-1
0
-1
0
-2
0
-3
-3
-5
T
6
1
-1
-1
-1
-1
0
0
0
-1
-2
-2
-3
-1
-5
-5
-6
P
PAM250
2
1
0
0
0
0
-1
-2
-1
-1
-1
-2
0
-4
-3
-6
A
5
0
1
0
-1
-2
-3
-2
-3
-3
-4
-1
-5
-5
-7
G
2
2
1
1
2
0
1
-2
-2
-3
-2
-4
-2
-4
N
4
3
2
1
-1
0
-3
-2
-4
-2
-6
-4
-7
D
4
2
1
-1
0
-2
-2
-3
-2
-5
-4
-7
E
4
3
1
1
-1
-2
-2
-2
-5
-4
-5
Q
6
2
0
-2
-2
-2
-2
-2
0
-3
H
6
3
0
-2
-3
-2
-4
-4
2
R
5
0 6
-2 2 5
-3 4 2 6
-2 2 4 2 4
-5 0 1 2 -1
-4 -2 -1 -1 -2
-3 -4 -5 -2 -6
K M I L V
9
7 10
0 0 17
F Y W
17
2016-01-14
A
B
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
X
Y
Z
4
-2
0
-2
-1
-2
0
-2
-1
-1
-1
-1
-2
-1
-1
-1
1
0
0
-3
-1
-2
-1
A
6
-3
6
2
-3
-1
-1
-3
-1
-4
-3
1
-1
0
-2
0
-1
-3
-4
-1
-3
2
B
9
-3
-4
-2
-3
-3
-1
-3
-1
-1
-3
-3
-3
-3
-1
-1
-1
-2
-1
-2
-4
C
6
2
-3
-1
-1
-3
-1
-4
-3
1
-1
0
-2
0
-1
-3
-4
-1
-3
2
D
BLOSUM62
5
-3
-2
0
-3
1
-3
-2
0
-1
2
0
0
-1
-2
-3
-1
-2
5
E
6
-3
-1
0
-3
0
0
-3
-4
-3
-3
-2
-2
-1
1
-1
3
-3
F
6
-2
-4
-2
-4
-3
0
-2
-2
-2
0
-2
-3
-2
-1
-3
-2
G
8
-3
-1
-3
-2
1
-2
0
0
-1
-2
-3
-2
-1
2
0
H
4
-3
2
1
-3
-3
-3
-3
-2
-1
3
-3
-1
-1
-3
I
5
-2
-1
0
-1
1
2
0
-1
-2
-3
-1
-2
1
K
4
2
-3
-3
-2
-2
-2
-1
1
-2
-1
-1
-3
L
5
-2
-2
0
-1
-1
-1
1
-1
-1
-1
-2
M
6
-2
0
0
1
0
-3
-4
-1
-2
0
N
7
-1
-2
-1
-1
-2
-4
-1
-3
-1
P
5
1
0
-1
-2
-2
-1
-1
2
Q
5
-1
-1
-3
-3
-1
-2
0
R
4
1
-2
-3
-1
-2
0
S
5
0
-2
-1
-2
-1
T
4
-3 11
-1 -1 -1
-1 2 -1 7
-2 -3 -1 -2
V W X Y
5
Z
Jakie są najistotniejsze parametry podczas
wyszukiwania i oceniania podobieństwa pomiędzy
daną sekwencją a sekwencjami w bazie danych?
• Tablica podobieństw
• Wielkość dopasowania
• Wielkość bazy danych
18
2016-01-14
PAM256 oznacza że 256 AA uległo
zmianie na odcinku 100 AA
•
•
•
•
1
1*
1*
1*
2
2*
2*
2*
3
3
3
3
4
4*
4*
4*
5
5
5
5*
6
6*
6*
6*
7
7*
7*
7*
8
8
8
8
9
9
9
9
10
10
10
10
Przodek
Ogniwo Pośrednie
Stan dzisiejszy
Stan dzisiejszy
Szlaki przemian mutacyjnych Arg  Lys dla arginin
odmiennego pochodzenia
Met
Arg
Lys
AUG
AGG
AAG
His
Asn
CAC
AAC
?
Arg
Lys
AGC
AGG
AAG
Arg
Gln
CGG
CAG
Pro
Arg
Ser
CCC
CGC
Jacek Leluk ICM Warszawa
19

Wykład 3 - Marcin Filipecki

Transkrypt

Podobne dokumenty

Redukcja redundancji wyników identyfikacji poprzez

Kraków, 20.04.2012 RECENZJA ROZPRAWY HABILITACYJNEJ I

Laboratorium 3 - Instytutu Informatyki UJ

Bartosz Rybicki 71358

Filogenetyka - Marcin Filipecki

Laboratorium 5 - Instytutu Informatyki UJ

Light Magic - Revolution-Tech

1 Co można odczytać z sekwencji nukleotydowej?

Informatyki Biomedycznej Metody dopasowywania sekwencji

Porównywanie sekwencji

Bioinformatyka (zdalne nauczanie)