n ln
Transkrypt
n ln
11/7/2012 Problem częściowego trawienia Jeśli X to zbiór punktów na prostej to DX –MULTIZBIÓR na zbiorze X oznacza zbiór wszystkich możliwych odległości pomiędzy dowolnymi punktami zbioru X, czyli : DX {| xi x j |: 2012-11-07 xi , x j X } Algorytmika dla bioinformatyki: cześć 6 1 Zadanie: Rozwiązać problem częściowego trawienia dla poniższego zbioru odległości L={ 2,3,4,6,7,8,9,11,13,15} Rozwiązanie: root L R R L st op L R L R st op L 0,2,8,11,15} {0,4,7,13,15} 2012-11-07 R st op st op opis root L LL LR LRL LRR X 0, 15 0, 13 , 15 0, 11, 13, 15 0, 4, 13, 15 0, 4, 8, 13, 15 0, 4, 7, 13, 15 R RL RLL 0, 2, 15 0, 2,11,15 0, 2, 8, 11,15 RLR RR 0, 2, 7, 11, 15 0, 2, 4, 15 Algorytmika dla bioinformatyki: cześć 6 L 2,3,4,6,7,8,9,11,13 3,4,6,7,8,9,11 konflikt bo 13-11 nie ma w L 3,6,7,8 konflikt bo 8-4 nie ma w L OK . -> X={0,4,7,13,15} 3,4,6,8,9,11 3,6,7,8 OK. -> X={0,2,8,11,15} konflikt bo 7-2 nie ma w L konflikt bo 4-2 nie ma w L 2 1 11/7/2012 Powrót do wcześniejszej zawartości listy 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 3 Wydajność algorytmu Przypadek : Jedna z dwóch alternaty w jest prawdziwa Przypadek najgorszy OBIE alternatywy są zawsze prawdziwe 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 4 2 11/7/2012 Motywy regulacyjne w sekwencjach DNA krótkie sekwencje nukleotydów, ułożone zwykle przed początkiem genu, które kontrolują włączanie genów. Znany motyw regulacyjny muszki owocówki: TCGGGGATTTCC Sekwencja TCGGGGATTTCC to miejsce przywiązywania się określonego białka (NF-kB czynnika transkrypcyjnego) , które aktywuje lub zwalnia polimerazę RNA do transkrypcji genu, który za motywem się rozpoczyna. Szukanie motywu ( nieformalnie) to problem odnalezienia sekwencji regulujących bez wiedzy wstępnej, jak sekwencja wygląda. Ale przypuszczamy, że te sekwencje powinny występować stosunkowo często. 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 5 Tajna instrukcja dotarcia do skarbu: „Złoty żuk” Edgara Poe 53++!305))6*;4826)4+.)4+);806*;48!8`60))85;]8*:+*8!83(88)5*!; 46(;88*96*?;8)*+(;485);5*!2:*+(;4956*2(5*-4)8`8*; 4069285);)6 !8)4++;1(+9;48081;8:8+1;48!85;4)485!528806*81(+9;48;(88;4(+?3 4;48)4+;161;:188;+?; 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 6 3 11/7/2012 Tajna instrukcja dotarcia do skarbu: „Złoty żuk” Edgara Poe 53++!305))6*;4826)4+.)4+);806*;48!8`60))85;]8*:+*8!83(88)5*!; 46(;88*96*?;8)*+(;485);5*!2:*+(;4956*2(5*-4)8`8*; 4069285);)6 !8)4++;1(+9;48081;8:8+1;48!85;4)485!528806*81(+9;48;(88;4(+?3 4;48)4+;161;:188;+?; Symbol 8 ; 4 ) + * 5 6 ( ! 1 0 2 9 3 : ? ` - ] . Frequency 34 19 15 12 25 16 14 11 9 8 7 6 5 5 4 4 3 2 1 1 1 etaoinsrhldcumfpgwybvkxjqz Najczęściej najrzadziej 53++!305))6*THE26)H+.)H+)TE06*THE!E‘60))E5T]E*:+*E!E3(EE)5*!TH6(TEE*96*?T E)*+(THE5)T5*!2:*+(TH956*2(5*)E‘E*TH0692E5)T)6!E)H++T1(+9THE0E1TE:E+1TH E!E5TH)HE5!52EE06*E1(+9THET(EETH(+?3HTHE)H+T161T:1EET+?T 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 7 Postawienie problemu wyszukania motywu: Siedem losowych sekwencji DNA o 32 nukleotydach Siedem sekwencji DNA z losowo wstawionym „sekretnym” wzorcem ATGCAACT o rozmiarze l=8 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 8 4 11/7/2012 Siedem sekwencji DNA z ze wstawionym wzorcem. Potrafisz wskazać ten wzorzec? Czy potrafisz odnaleźć ten wzorzec jeśli we wzorcu pojawiły się mutacje? 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 Logo motywu • • • • Motyw może mutować na mniej znaczących pozycjach Przedstawione tutaj 5 motywów ma mutacje w pozycji 3 i 5 Taka reprezentacja to tzw logo motywu, ilustruje część zachowaną i obszar zmian motywu Poniżej przykład logo innego motywu (wysokości liter odpowiadają częstościom mutacji) 2012-11-07 9 TGGGGGA TGAGAGA TGGGGGA TGAGAGA TGAGGGA Algorytmika dla bioinformatyki: cześć 6 10 5 11/7/2012 Wektor pozycji startowych wstawek w lancuchach DNA : s=(s1,s2,…,st) = (8,19,3,5,31,27,15) Zmienność macierzy dopasowania Macierz dopasowania dla: s=(8,19,3,5,31,27,15) Zestaw nukleotydów najczęściej występujących Macierz profilu Łańcuch uzgodniony 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 11 Jak ocenić jakość uzyskanego łańcucha konsensusu? Niech P(s) to macierz profilu dla pozycji startowych s Niech MP(s)(j) największa wartość w j-tej kolumnie P(s) 5 5 6 4 5 5 6 6 M P ( s ) (1),............, M P ( s ) (l ) Score( s, DNA) M P ( s ) ( j ) Nasz zestaw DNA dla s daje : 5+5+ 6 + 4 +5 + 5+6+ 6 =42 j Ocena Score 2012-11-07 lt lt 4 najlepsze dopasowanie najgorsze dopasowanie Algorytmika dla bioinformatyki: cześć 6 12 6 11/7/2012 Złożoność obliczeniowa 2012-11-07 (n l 1)t (nt ) Algorytmika dla bioinformatyki: cześć 6 Problem INACZEJ 13 d H ( w, v) odległość Hamminga pomiędzy l-merami w i v d H ( w, s ) d H ( w, si ) odległość Hamminga pomiędzy l-merem w i wszystkimi l-merami o pozycjach początkowych s=(s1,s2,…st) i TotalDist (v, DNA) min d H ( w, s ) s 2012-11-07 Algorytmika dla bioinformatyki: cześć 6 14 7