Bazy danych - Marcin Filipecki
Transkrypt
Bazy danych - Marcin Filipecki
2016-05-10 Wykorzystanie baz danych w biotechnologii Dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin DNA Każdy żywy organizm składa się z komórek, a każda komórka ma jądro. Wikipedia (http://upload.wikimedia.org/wikipedia/commons/thumb/0/00/ Plant_cell_structure_svg_pl.svg/450px-Plant_cell_structure_svg_pl.svg.png) W jądrze znajduje się DNA zwinięte w chromosomy (materiał genetyczny). DNA to bardzo długa cząsteczka chemiczna – łańcuch, składający się z nawet z setek milionów ogniw (czterech rodzajów nukleotydów – A, T, C i G) ułożonych w określonej kolejności. 1 2016-05-10 Gen to fragment łańcucha DNA (kilka tysięcy ogniw nukleotydów) zawierający informację o budowie białka (kilkaset aminokwasów). Geny Każda komórka człowieka, zwierzęcia czy rośliny zawiera kilkadziesiąt tysięcy genów. Każdego dnia, od początków ludzkości, człowiek zjada 0,2– 0,5 grama DNA czyli około kilkudziesięciu biliardów (1015) różnych genów – roślinnych, zwierzęcych, bakteryjnych czy wirusowych. 2 2016-05-10 Znaczenie organizmów modelowych • Życie jest dużo mniej zróżnicowane na poziomie molekularnym niż nam się wydaje. • Geny bakteryjne mogą być bardzo informatywne w biologii człowieka. • Organizmy modelowe – Drożdże, nicienie, muszka owocowa, – Ryż, rzodkiewnik, – Kurczak, mysz. Metody sekwencjonowania: Enzymatyczna terminacji łańcuchów DNA - 1975 (100 kpz / dzień / urządzenie) Enzymatyczna rejestrująca aktywność polimerazy Hybrydyzacyjna / h. z wykorzystaniem ligazy Bezpośredni odczyt sekwencji nukleotydów na unieruchomionej pojedynczej cząsteczce Miliardy pz na dzień / urządzenie 3 2016-05-10 BIOINFORMATYKA Gromadzenie informacji: Literatura naukowa, Sekwencje DNA, RNA, białek, charakterystyczne motywy, Inne cząsteczki biologiczne, Struktury, Interakcje białek, Profile ekspresji, Szlaki biochemiczne, Choroby, Mapy genetyczne OGÓLNODOSTĘPNE BAZY DANYCH SQ Sequence 1634 BP; ctatatagcg tcaatcagtt gcacgaaaaa ctcatggccg ccttggtttc tcctcgatcc tcgcaagccc ctgatgcacc cttgccgcac agccaattgc cacggcctac gcctaccagc gcaacagcag cagcagcaac cctggatctt tcccgtcgat tcaaacaagc tacagctacg gtatgccgcc caaatgcaac gcaacaatta gcctccctgt // 413 A; 537 ggattaaacc ggcagttctt gtaaactaac accaccagta cggttcaggg agcagttgct atcagcagct gtgacagcgt gcagtggttc agcagcaaca atcccgcttt C; 378 G; 306 T; 0 other; cagagaccat acaccgaaca ccatgctaat cgatctcaag actggtaagt tggccacgcc aaatcccctc tctctctcaa tctttgcaga ccagcaccac cagcagcaac cgctgcacca atccttgggc ctgcccaaaa tggatctgta gggagctgcc ctcagtcagc agcaacaaca gcagcagcag catacctcct ctgcagaggt agagacgccc aggaagactc cctcgccgta cccctcggct tcgcccacca gcaatcttct tcagcagcaa caacagcaac agcagcagca ttactacagc aacatcaagc aggagcaagc 60 120 180 240 300 360 420 480 540 600 660 Przetwarzanie informacji - wnioskowanie: Na potrzeby baz danych Na potrzeby projektów badawczych: • Edycja i opis podstawowych cech sekwencji • Wyszukiwanie charakterystycznych rejonów w sekwencjach • Projektowanie oligonukleotydów • Porównywanie, poszukiwanie polimorfizmu, filogenetyka • Przewidywanie struktury cząsteczek istniejących • Projektowanie nowych cząsteczek 4 2016-05-10 Rozwój bioinformatyki doprowadził do powstania biologii systemów BIOLOGIA SYSTEMÓW W biologii zrozumienie na poziomie systemu wymaga analizy struktury i dynamiki na poziomie komórki i organizmu, a nie oddzielnie części składowych. „Stara” nauka wyjaśnia obserwowane zjawiska poprzez zredukowanie ich do współuczestniczących składowych i obserwację każdej oddzielnie. „Współczesna” nauka dostrzega wagę całościowego spojrzenia spychając na dalszy plan podejście redukcjonistyczne. Uprawianie biologii systemów oznacza obecnie zastosowanie i integrację matematyki, inżynierii, fizyki i informatyki w celu zrozumienia złożonych biologicznych zależności. 5 2016-05-10 Bazy danych sieci zależności genów i ich produktów Signal Transduction Knowledge Environment http://stke.sciencemag.org Kyoto Encyclopedia of Genes and Genomes http://www.genome.ad.jp/kegg BioCyc - collection of Pathway/Genome Databases http://biocyc.org/ (A. thaliana – AraCyc http://www.arabidopsis.org/tools/aracyc) MapMan http://gabi.rzpd.de/projects/MapMan KaPPA-View (A Web-Based Analysis Tool for Integration of Transcript and Metabolite Data on Plant Metabolic Pathway Maps http://kpv.kazusa.or.jp/kappa-view 6 2016-05-10 J.Craig Venter - wizjoner nauki czy biotechnologiczny biznesman? • Genom ludzki • Metagenomika • Organizm syntetyczny Sekwencjonowanie hierarchiczne w HGP: najpierw zmapowanie wielkoinsertowych klonów, potem sekwencjonowanie losowe Zastosowane przez J.C. Venter’a sekwencjonowanie losowe całego genomu (whole genome shotgun sequencing) omija etap mapowania klonów Intl. Hum. Gen. Seq. Cons. (2001), Nature 409: 860-921. 7 2016-05-10 Human Genome Project & CELERA GENOMICS 26-06-2000 J. Craig Venter & Bill Clinton & Francis Collins Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921 Udział 20 ośrodków z 6 krajów Hierarchical shotgun sequencing DNA od wielu osób 15 miesięcy* Wybór kolekcji klonów o minimalnym zachodzeniu, pokrywających chromosomy Losowe sekwencjonowanie głównie klonów BAC i PAC (8 bibliotek) (wielkość fragmentów sekwencjonowanych itp. zależne od ośrodka) Pokrycie genomu 4,5 x (dla klonów) Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921. 8 2016-05-10 Venter JC i in. (2001) Science 291: 1304-51 CELERA GENOMICS Whole genome shotgun DNA od 5 osób 9 miesięcy Wykorzystanie 500-600 ntd sekwencji końców klonów o średniej długości wstawki 2, 10 i 50 kpz Włączenie sekwencji z publicznych baz danych po pofragmentowaniu na 500 – 600 ntd kawałki Pokrycie genomu 5,11 x Venter JC i in. (2001) Science 291: 1304-51 Sekwencje nukleotydowe i aminokwasowe • przekraczają objętością literaturę • Ok. 3000 genomów całkowicie zsekwencjonowanych i dostępnych, • Baza Danych Sekwencji Nukleotydowych EMBL zawiera 330mln sekwencji i 400mld nukleotydów (w tym EST, STS and GSS). • Szacuje się, że ok. jedna trzecia genów ludzkich daje więcej niż jeden produkt białkowy 9 2016-05-10 10 2016-05-10 Jak wygląda sekwencja w bazie danych? 11 2016-05-10 12 2016-05-10 Podstawowym narzędziem identyfikacji i opisu sekwencji, zarówno tych zamieszczonych już w bazach danych, jak i tych nowootrzymanych jest ich PORÓWNYWANIE. Gdzie: PODOBIEŃSTWO jest to wartość mierzalna wyrażana często w % HOMOLOGIA jest to hipoteza o wspólnym pochodzeniu (przodku) wyrażona np. w oparciu o analizę podobieństwa 13 2016-05-10 SCORES Init1: 218 Initn: 517 Opt: 665 z-score: 542.8 E(): 2.5e-23 >>SWISSPROT:GA1A_XENLA (359 aa) initn: 517 init1: 218 opt: 665 Z-score: 542.8 expect(): 2.5e-23 Smith-Waterman score: 697; 48.5% identity in 295 aa overlap (125-912:47-323) jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA 140 170 200 230 260 SSWRWGGRMRAPPLRS--LMKPEPSWGWGG---ARGR/EAGGLLASYPPSGRVSLVPWAD || || ::| ::: | || | | : | || :| | |: ||: :| | :: SSRAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGR-STGTL--SFYPSAASALGPITS 50 60 70 80 90 100 290 320 350 380 410 TGTLGTPQWV----PPATQMEPPHYLELLQPPRGSPPHPSSGPLLPLS-----------:: ::: ||| : |::|| |: |:|| : || | | PPLYSASSFLLGSAPPAEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGG 110 120 130 140 150 160 440 470 500 530 560 ----SGPPPCEARECVMARKNCGATATPLWRRDGTGHYLCNWASACGLYHRLNGQNRPLI | | |||| |||||:||||||| :|||||| ||||||::|||||||| GQEFSLFQSTEDRECV----NCGATVTPLWRRDMSGHYLCN---ACGLYHKMNGQNRPLI 170 180 190 200 210 590 620 650 680 710 740 RPKKRLLVSKRAGTVCSHERENCQTSTTTLWRRSPSGDPVCNNIHACGLYYKLHQVNRPL ||||||:||||||| || ||:|||||||||: ||||||| |||||||||:||||| RPKKRLIVSKRAGTQCS----NCHTSTTTLWRRNASGDPVCN---ACGLYYKLHNVNRPL 220 230 240 250 260 770 800 830 860 890 TMRKDGIQTRNRKVSSKGKKRR-------PPGGGNPSATAGGGAPMGGGGDPSMPP ||:|:|||||||||||::||:: || :| : :|: |: ||| GA1A_XENLA TMKKEGIQTRNRKVSSRSKKKKQLDNPFEPPKAGVEEPSPYPFGPLLFHGQ--MPP 270 280 290 300 310 320 jp-na.seq 14 2016-05-10 METAGENOMIKA Zastosowanie nowoczesnych technik genomowych do badania populacji mikroorganizmów, występujących w danym środowisku, z ominięciem izolacji i hodowli laboratoryjnej poszczególnych gatunków Jo Handelsman (2004) Microbiology and Molecular Biology Reviews 68: 669-685 Wyprawa H.M.S. Challenger (1872-1876) pod kierownictwem Prof. Wyville Thomson’a 68 000 MM 29 552 str. Sprawozdania Prawie 4000 nowych gatunków 15 2016-05-10 Global Ocean Sampling Expedition (GOS) Pobieranie próbek w trakcie ekspedycji GOS J.C. Venter Institute 16 2016-05-10 Ekspedycja „Global Ocean Sampling” Pierwsza faza 8000MM 41 miejsc pobierania 7,7 mln sekwencji 6,3 mld pz 6,1 mln nowych białek 1700 brak podobieństwa Seria 3 publikacji PLOS Biology Marzec 2007 Biologia syntetyczna 17 2016-05-10 W stronę syntetycznego życia Synteza bakteriofaga ΦX174 (5386 pz) – 2003 r. Transplantacja genomu M. capricolum do cytoplazmy M. mycoides LC (2007) Syteza genomu Mycoplasma genitalium 582 970 pz (2008) Oligonukleotydy > 5-7 > 24 > 72 (1/8) > 144 (1/4) > 582,97 kpz (1/1) Klonowanie genomu M. mycoides w drożdżach i transplantacja do cytoplazmy M. capricolum. Transplantacja syntetycznego genomu do cytoplazmy > powstanie Synthii (Mycoplasma laboratorium) – 2010? http://marcin_filipecki.users.sggw.pl/filipecki_links.htm 18 2016-05-10 19 2016-05-10 20 2016-05-10 21 2016-05-10 22 2016-05-10 23 2016-05-10 24 2016-05-10 25