n ln

Transkrypt

n ln
11/7/2012
Problem
częściowego
trawienia
Jeśli X to zbiór punktów na prostej to DX –MULTIZBIÓR na zbiorze X oznacza
zbiór wszystkich możliwych odległości pomiędzy dowolnymi punktami zbioru X,
czyli :
DX  {| xi  x j |:
2012-11-07
xi , x j  X }
Algorytmika dla bioinformatyki: cześć 6
1
Zadanie:
Rozwiązać problem częściowego trawienia dla poniższego zbioru
odległości
L={ 2,3,4,6,7,8,9,11,13,15}
Rozwiązanie:
root
L
R
R
L
st
op
L
R
L
R
st
op
L
0,2,8,11,15}
{0,4,7,13,15}
2012-11-07
R
st
op
st
op
opis
root
L
LL
LR
LRL
LRR
X
0, 15
0, 13 , 15
0, 11, 13, 15
0, 4, 13, 15
0, 4, 8, 13, 15
0, 4, 7, 13, 15
R
RL
RLL
0, 2, 15
0, 2,11,15
0, 2, 8, 11,15
RLR
RR
0, 2, 7, 11, 15
0, 2, 4, 15
Algorytmika dla bioinformatyki: cześć 6
L
2,3,4,6,7,8,9,11,13
3,4,6,7,8,9,11
konflikt bo 13-11 nie ma w L
3,6,7,8
konflikt bo 8-4 nie ma w L
OK .
-> X={0,4,7,13,15}
3,4,6,8,9,11
3,6,7,8
OK.
-> X={0,2,8,11,15}
konflikt bo 7-2 nie ma w L
konflikt bo 4-2 nie ma w L
2
1
11/7/2012
Powrót do
wcześniejszej
zawartości listy
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
3
Wydajność
algorytmu
Przypadek
:
Jedna z
dwóch
alternaty
w jest
prawdziwa
Przypadek najgorszy
OBIE alternatywy są zawsze prawdziwe
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
4
2
11/7/2012
Motywy regulacyjne w
sekwencjach DNA
krótkie sekwencje nukleotydów, ułożone zwykle przed
początkiem genu, które kontrolują włączanie genów.
Znany motyw regulacyjny muszki owocówki:
TCGGGGATTTCC
Sekwencja TCGGGGATTTCC to miejsce przywiązywania się
określonego białka (NF-kB czynnika transkrypcyjnego) , które
aktywuje lub zwalnia polimerazę RNA do transkrypcji genu, który za
motywem się rozpoczyna.
Szukanie motywu ( nieformalnie) to problem odnalezienia sekwencji
regulujących bez wiedzy wstępnej, jak sekwencja wygląda.
Ale przypuszczamy, że te sekwencje powinny występować stosunkowo
często.
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
5
Tajna instrukcja dotarcia do skarbu: „Złoty żuk” Edgara Poe
53++!305))6*;4826)4+.)4+);806*;48!8`60))85;]8*:+*8!83(88)5*!;
46(;88*96*?;8)*+(;485);5*!2:*+(;4956*2(5*-4)8`8*; 4069285);)6
!8)4++;1(+9;48081;8:8+1;48!85;4)485!528806*81(+9;48;(88;4(+?3
4;48)4+;161;:188;+?;
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
6
3
11/7/2012
Tajna instrukcja dotarcia do skarbu: „Złoty żuk” Edgara Poe
53++!305))6*;4826)4+.)4+);806*;48!8`60))85;]8*:+*8!83(88)5*!;
46(;88*96*?;8)*+(;485);5*!2:*+(;4956*2(5*-4)8`8*; 4069285);)6
!8)4++;1(+9;48081;8:8+1;48!85;4)485!528806*81(+9;48;(88;4(+?3
4;48)4+;161;:188;+?;
Symbol
8 ;
4 )
+ *
5 6 ( ! 1 0 2 9 3 : ? ` - ] .
Frequency
34
19
15
12
25
16
14
11
9
8
7
6
5
5
4
4
3
2
1
1
1
etaoinsrhldcumfpgwybvkxjqz
Najczęściej
najrzadziej
53++!305))6*THE26)H+.)H+)TE06*THE!E‘60))E5T]E*:+*E!E3(EE)5*!TH6(TEE*96*?T
E)*+(THE5)T5*!2:*+(TH956*2(5*)E‘E*TH0692E5)T)6!E)H++T1(+9THE0E1TE:E+1TH
E!E5TH)HE5!52EE06*E1(+9THET(EETH(+?3HTHE)H+T161T:1EET+?T
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
7
Postawienie problemu wyszukania motywu:
Siedem losowych
sekwencji DNA o
32 nukleotydach
Siedem sekwencji DNA
z losowo wstawionym
„sekretnym” wzorcem
ATGCAACT o rozmiarze
l=8
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
8
4
11/7/2012
Siedem sekwencji
DNA z ze
wstawionym
wzorcem.
Potrafisz wskazać ten
wzorzec?
Czy potrafisz odnaleźć
ten wzorzec jeśli we
wzorcu pojawiły się
mutacje?
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
Logo motywu
•
•
•
•
Motyw może mutować na mniej
znaczących pozycjach
Przedstawione tutaj 5 motywów ma
mutacje w pozycji 3 i 5
Taka reprezentacja to tzw logo motywu,
ilustruje część zachowaną i obszar
zmian motywu
Poniżej przykład logo innego motywu
(wysokości liter odpowiadają
częstościom mutacji)
2012-11-07
9
TGGGGGA
TGAGAGA
TGGGGGA
TGAGAGA
TGAGGGA
Algorytmika dla bioinformatyki: cześć 6
10
5
11/7/2012
Wektor pozycji startowych wstawek w lancuchach DNA :
s=(s1,s2,…,st) = (8,19,3,5,31,27,15)
Zmienność
macierzy
dopasowania
Macierz dopasowania dla: s=(8,19,3,5,31,27,15)
Zestaw
nukleotydów
najczęściej
występujących
Macierz profilu
Łańcuch uzgodniony
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
11
Jak ocenić jakość uzyskanego
łańcucha konsensusu?
Niech P(s) to
macierz profilu
dla pozycji
startowych s
Niech MP(s)(j) największa
wartość w j-tej kolumnie
P(s)
5
5
6
4
5
5
6
6
M P ( s ) (1),............, M P ( s ) (l )
Score( s, DNA)   M P ( s ) ( j )
Nasz
zestaw
DNA dla s
daje :
5+5+ 6
+ 4 +5 +
5+6+ 6
=42
j
Ocena
Score
2012-11-07
lt
lt
4
najlepsze dopasowanie
najgorsze dopasowanie
Algorytmika dla bioinformatyki: cześć 6
12
6
11/7/2012
Złożoność
obliczeniowa
2012-11-07
(n  l  1)t  (nt )
Algorytmika dla bioinformatyki: cześć 6
Problem INACZEJ
13
d H ( w, v)
odległość Hamminga pomiędzy l-merami w i v
d H ( w, s )   d H ( w, si )
odległość Hamminga pomiędzy l-merem w i
wszystkimi l-merami o pozycjach początkowych
s=(s1,s2,…st)
i
TotalDist (v, DNA)  min d H ( w, s )
s
2012-11-07
Algorytmika dla bioinformatyki: cześć 6
14
7

Podobne dokumenty