Wykład 3 - Marcin Filipecki
Transkrypt
Wykład 3 - Marcin Filipecki
2016-01-14 Motywy i podobieństwo Modularna budowa białek Całość – funkcja Elementy składowe czyli miejsca wiązania, domeny 1 2016-01-14 Motywy • Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny wzór sekwencji. • Motywy identyfikuje się poprzez: – Porównanie trójwymiarowych struktur, – Porównanie wielu sekwencji, – Zastosowanie programu do wyszukiwania wzorów sekwencyjnych. Motywy Motywy to rejony podobieństwa wyróżnione w oparciu o porównanie wielu sekwencji. Motyw Insercje 2 2016-01-14 Konsensus • Zapis sekwencji nukleotydów lub aminokwasów występujących w danym miejscu z największym prawdopodobieństwem, w oparciu o porównanie wielu sekwencji. Y Y F F Y y D D E D E d G G G G G G G G G G G A I I A ai V L L V vl V V V V E E E Q Q e A A A A A A L L L V L L Wady: bez alternatywnych pozycji, stała długość. Reguła – wzór (Regular Expressions) C-x(2,5)-C-x-[GP]-x-P-x(2,5)-C Cysteina, następnie 2-5 dowolne aminokwasy, następnie cysteina, następnie dowolny aa, następnie glicyna lub prolina, dowolny aa, prolina, następnie 2-5 dowolne aminokwasy i cysteina). Wzór może zawierać: Wzór nie może zawierać: •Rejony o zmiennej długości •Przerw •Alternatywne AA/NTP •Pomyłek CXXXCXGXPXXXXXC | | | | | FGCAKLCAGFPLRRLPCFYG CXXCXGXPXXXXX-C | ?| | | | FGCA-CAGFPLRRLPKCFYG 3 2016-01-14 • Wzory opierają się zwykle na aminokwasach, które bezwzględnie występują na określonych pozycjach w sekwencji (regular expressions). • Można również budować wzory w oparciu o aminokwasy o zbliżonych właściwościach fizykochemicznych (fuzzy regular expressions). Profil: dokładniejszy konsensus • Macierz profilu: – Profil (częstość występowania) aminokwasu w określonym miejscu sekwencji. – Bardziej czuły przy mniej podobnych sekwencjach. – Trudniejszy dla komputera. 4 2016-01-14 Tworzenie macierzy profilu A C D E F G H I K L M N P Q R S T V W Y 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2 7 3 0 0 0 0 0 0 3 0 2 0 0 0 0 0 0 0 4 0 0 I tak dalej ... YVTVQHKKLRTPL YVTVQHKKLRTPL YVTVQHKKLRTPL AATMKFKKLRHPL AATMKFKKLRHPL YIFATTKSLRTPA VATLRYKKLRQPL YIFGGTKSLRTPA WVFSAAKSLRTPS WIFSTSKSLQTPA YLFSKTKSLQTPA YLFSKTKSLQTPA Tak więc do opisu fragmentu sekwencji używamy określeń: Motyw Domena Element Box Signal (sygnał) Tag (etykieta) Signature (podpis) Pattern (wzór) Konsensus Regular expression (wzór) Profil Blok 5 2016-01-14 Co to jest podobieństwo? Podobieństwo to coś co widzimy Czy te sekwencje są podobne? veracinnenkmeninclnnemeteneni nareidsdrafmeterafstandichefs laglinksvlgeniaafwendenidschi nrechtsenlinksnaardemiddellin eenhalthdenmetertssenrimtegre talleendecmmandantveracinnenk meninclnnemeteneninareidsdraf meterafstandmarshefslaglinksv lgenaafwendendschinrechtsenli nksenpdeelinhalthdenmetertsse nrimtevanafderechtervlegelmet enenvrwaartsinareidsdrafricht inggpnylengteafstandchefslagr echtsvlgenkhgerkenlinmetenenv rwaartsinareidsdrafpnylengtea fstandrichtinggmarshefslagrec htsvlgengerkenlinhfdderclnnei dichefslaglinksvlgeniaafwende nidschinrechtsenlinksnaardemi ddellineenhalthdenmetertssenr imtegretalleendecmmandantvera cinnenkmeninclnnemeteneninare idsdrafmeterafstandmarshefsla glinksvlgenaafwendendschinrec htsenlinksenpdeelinhalthdenme tertssenrimtevanafderechtervl egelmetenenvrwaartsinareidsdr africhtinggpnylengteafstandch efslagrechtsvlgenkhgerkenlinm etenenvrwaartsinareidsdrafpny lengteafstandrichtinggmarshef slagrechtsvlgengerkenlinhfdde rclnneicafwendenenplincameten envlteshalveaanrechtsiahefsla 6 2016-01-14 Czy te struktury są podobne? • Podobieństwo – to wielkość obserwowalna, którą można określić np. jako % identycznych aminokwasów. • Homologia – określa wspólne pochodzenie porównywanych genów (to może być wniosek wyciągnięty z analizy podobieństwa) • Tak więc nie ma stopni homologii – geny albo są albo nie są homologiczne 7 2016-01-14 • Identyczny – gdy ta sama cecha występuje w dwóch gatunkach lub populacjach • Podobny - to stopień występowania identyczności między dwoma gatunkami lub populacjami • Homologiczny/homolog – gdy podobieństwo wynika ze wspólnego pochodzenia • Analogiczny/analog – gdy podobieństwo cech wynika z ewolucji konwergentnej • Ortologiczny/ortolog – gdy występuje homologia i funkcja jest zakonserwowana • Paralogiczny/paralog – gdy występuje homologia ale funkcje są odmienne podobieństwo sekwencji ≠ podobieństwo funkcji podobieństwo funkcji ≠ podobieństwo sekwencji 8 2016-01-14 Porównywanie sekwencji: 1. Sequence alignment = ułożenie sekwencji lub uliniowienie sekwencji lub dopasowanie sekwencji 2. Similarity scoring = Oszacowanie poziomu podobieństwa dopasowanych sekwencji i istotności tego parametru Optymalne dopasowanie 2 sekwencji 9 2016-01-14 Optymalne dopasowanie 2 sekwencji Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt ||| || | ||||| | | ||| ||||||||||||||||||||||||||||||| |||| |||| ||| | | || || |||| |||| || ||||| | |||| agagaacagaaaccaatgtgcagtcactgac -agagaacagaaaccaatgtgcagtcactgac --agagaacagaaaccaatgtgcagtcactgac ---agagaacagaaaccaatgtgcagtcactgac ----agagaacagaaaccaatgtgcagtcactgac -----agagaacagaaaccaatgtgcagtcactgac ------agagaacagaaaccaatgtgcagtcactgac -------agagaacagaaaccaatgtgcagtcactgac --------agagaacagaaaccaatgtgcagtcactgac ---------agagaacagaaaccaatgtgcagtcactgac 10 2016-01-14 Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt ||| || | ||||| | |||| ||| |||||||||||||||| | ||| |||| | | || ||| || |||| || ||||||||||||||||| |||| ||| ||| | |||| | || agagaacagaaaccaaatgtgcagtcactgac -agagaacagaaaccaaatgtgcagtcactgac --agagaacagaaaccaaatgtgcagtcactgac ---agagaacagaaaccaaatgtgcagtcactgac ----agagaacagaaaccaaatgtgcagtcactgac -----agagaacagaaaccaaatgtgcagtcactgac ------agagaacagaaaccaaatgtgcagtcactgac -------agagaacagaaaccaaatgtgcagtcactgac --------agagaacagaaaccaaatgtgcagtcactgac ---------agagaacagaaaccaaatgtgcagtcactgac • Dopasowanie globalne – obejmuje całą długość porównywanych sekwencji • Dopasowanie lokalne 11 2016-01-14 Dot-plot Narzędzie służące do wizualizacji wyników porównań – może uwidocznić wiele rejonów podobieństwa lokalnego TASFEIDTQRIELSLWDTSG T* * * A * C L * * E * * T* * * E * * E * * Q * R * V E * * L * * S * * * L * * W * D * * T* * * S * * * G * ścieżka Dot-plot (word = 2) 12 2016-01-14 Dot-plot (word = 4) Dot-plot (word = 10) 13 2016-01-14 B A 14 2016-01-14 Poszukiwanie najlepszego dopasowania sekwencji • Metodę programowania dynamicznego można uznać za pewne zastosowanie metody “dziel i zwyciężaj”. Zasada “dziel i zwyciężaj” polega na tym ,iż problem rozmiaru ‘n’ zostaje podzielony na kilka podproblemów mniejszych rozmiarów w taki sposób, że z ich rozwiązań wynika rozwiązanie zasadniczego problemu. • Programowanie dynamiczne polega więc na wykonaniu obliczeń każdego podproblemu tylko raz i zapamiętaniu jego wyniku w tabeli. W każdym kolejnym kroku można z tej tabeli korzystać. Programowanie dynamiczne jest zazwyczaj stosowane w rozwiązywaniu problemów optymalizacyjnych, prowadzi to często do wyznaczenia kilku równoznacznych, optymalnych rozwiązań. Poszukiwanie najlepszego dopasowania sekwencji – programowanie dynamiczne Globalne: Needleman S.B. and Wunsch C.D. 1970. J. Mol. Biol. 48: 443-453 Lokalne: Smith T.F. and Waterman M.S. 1981. J. Mol. Biol. 147: 195-197 15 2016-01-14 Obliczanie podobieństwa Obszar ułożenia ATTGTCAAAGACTTGAGCTGATGCAT |||| ||| |||| GGCAGACATGA-CTGACAAGGGTATCG Mismatch brak podobieństwa S= S(podobieństw) przerwa - S(kar za przerwy) Podobne Nukleotydy / Aminokwasy Model substytucji nukleotydów A G C T Tranzycje Transwersje Często jednak Tr/Tv > 1 16 2016-01-14 Podobne Nukleotydy / Aminokwasy Grupy aminokwasów CSS I P A V G T CSH L S N M K Y F D H W E R Q Polarne Aromatyczne Alifatyczne Hydrofobowe Małe Naładowane C S T P A G N D E Q H R K M I L V F Y W 12 0 -2 -3 -2 -3 -4 -5 -5 -5 -3 -4 -5 -5 -2 -6 -2 -4 0 -8 C 2 1 1 1 1 1 0 0 -1 -1 0 0 -2 -1 -3 -1 -3 -3 -2 S 3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T 6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P PAM250 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -5 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -4 -2 -4 N 4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7 D 4 2 1 -1 0 -2 -2 -3 -2 -5 -4 -7 E 4 3 1 1 -1 -2 -2 -2 -5 -4 -5 Q 6 2 0 -2 -2 -2 -2 -2 0 -3 H 6 3 0 -2 -3 -2 -4 -4 2 R 5 0 6 -2 2 5 -3 4 2 6 -2 2 4 2 4 -5 0 1 2 -1 -4 -2 -1 -1 -2 -3 -4 -5 -2 -6 K M I L V 9 7 10 0 0 17 F Y W 17 2016-01-14 A B C D E F G H I K L M N P Q R S T V W X Y Z 4 -2 0 -2 -1 -2 0 -2 -1 -1 -1 -1 -2 -1 -1 -1 1 0 0 -3 -1 -2 -1 A 6 -3 6 2 -3 -1 -1 -3 -1 -4 -3 1 -1 0 -2 0 -1 -3 -4 -1 -3 2 B 9 -3 -4 -2 -3 -3 -1 -3 -1 -1 -3 -3 -3 -3 -1 -1 -1 -2 -1 -2 -4 C 6 2 -3 -1 -1 -3 -1 -4 -3 1 -1 0 -2 0 -1 -3 -4 -1 -3 2 D BLOSUM62 5 -3 -2 0 -3 1 -3 -2 0 -1 2 0 0 -1 -2 -3 -1 -2 5 E 6 -3 -1 0 -3 0 0 -3 -4 -3 -3 -2 -2 -1 1 -1 3 -3 F 6 -2 -4 -2 -4 -3 0 -2 -2 -2 0 -2 -3 -2 -1 -3 -2 G 8 -3 -1 -3 -2 1 -2 0 0 -1 -2 -3 -2 -1 2 0 H 4 -3 2 1 -3 -3 -3 -3 -2 -1 3 -3 -1 -1 -3 I 5 -2 -1 0 -1 1 2 0 -1 -2 -3 -1 -2 1 K 4 2 -3 -3 -2 -2 -2 -1 1 -2 -1 -1 -3 L 5 -2 -2 0 -1 -1 -1 1 -1 -1 -1 -2 M 6 -2 0 0 1 0 -3 -4 -1 -2 0 N 7 -1 -2 -1 -1 -2 -4 -1 -3 -1 P 5 1 0 -1 -2 -2 -1 -1 2 Q 5 -1 -1 -3 -3 -1 -2 0 R 4 1 -2 -3 -1 -2 0 S 5 0 -2 -1 -2 -1 T 4 -3 11 -1 -1 -1 -1 2 -1 7 -2 -3 -1 -2 V W X Y 5 Z Jakie są najistotniejsze parametry podczas wyszukiwania i oceniania podobieństwa pomiędzy daną sekwencją a sekwencjami w bazie danych? • Tablica podobieństw • Wielkość dopasowania • Wielkość bazy danych 18 2016-01-14 PAM256 oznacza że 256 AA uległo zmianie na odcinku 100 AA • • • • 1 1* 1* 1* 2 2* 2* 2* 3 3 3 3 4 4* 4* 4* 5 5 5 5* 6 6* 6* 6* 7 7* 7* 7* 8 8 8 8 9 9 9 9 10 10 10 10 Przodek Ogniwo Pośrednie Stan dzisiejszy Stan dzisiejszy Szlaki przemian mutacyjnych Arg Lys dla arginin odmiennego pochodzenia Met Arg Lys AUG AGG AAG His Asn CAC AAC ? Arg Lys AGC AGG AAG Arg Gln CGG CAG Pro Arg Ser CCC CGC Jacek Leluk ICM Warszawa 19