Bioinformatyka
Transkrypt
Bioinformatyka
Bioinformatyka wykłady dla I r. studiów magisterskich, biologia (SGGW) 2007/2008 Krzysztof Pawłowski Wykład 4.X.2007 Co to jest bioinformatyka? Program wykładów Sekwencjonowanie DNA Sekwencjonowanie genomów „definicja” bioinformatyki / biologii obliczeniowej Rozwiązywanie problemów biologicznych metodami obliczeniowymi Solving biological problems by computational means Some synonyms: In silico biology Biocomputing Theoretical biology Substantial overlaps: Computational chemistry / cheminformatics Systems biology Structural biology Theoretical biophysics Zakres zainteresowań bioinformatyki • • Objects: small molecules, structural motifs and domains, proteins, transcripts, genes, organelles, cells, tissues, organs, organisms Objects’ attributes: sequences, 3-D structures, expression data, clinical data, publications,…. „oficjalne” definicje NIH Bioinformatics: approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data. Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. Bioinformatics (wikipedia) Bioinformatics and computational biology involve the use or development of techniques, including applied mathematics, informatics, statistics, computer science, artificial intelligence, chemistry, and biochemistry to solve biological problems, usually on the molecular level. Bioinformatics (wikipedia, contd.) The primary goal of bioinformatics is to increase our understanding of biological processes. What sets it apart from other approaches, however, is its focus on developing and applying computationally intensive techniques (e.g., data mining, and machine learning algorithms) to achieve this goal. Major research efforts in the field include sequence alignment, gene finding, genome assembly, protein structure alignment, protein structure prediction, prediction of gene expression and protein-protein interactions, and the modeling of evolution. Bioinformatyka (wikipedia) Bioinformatyka to dyscyplina zajmująca się stosowaniem narzędzi matematycznych i informatycznych do rozwiązywania problemów z nauk biologicznych. Z bioinformatyką powiązane są: genomika, proteomika, metabolomika i transkryptomika. „bioinformatyka” – nowa dyscyplina? Publikacje bioinformatyczne (PubMed) 10000 1000 100 10 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 1 bioinformatics[Text Word] bioinformatics[MeSH Heading] …ale pod innymi nazwami rozwijała się przynajmniej od lat 60. m at ic s bi oi nf or bi ol og ia y e 17 500 000 bi ol og m at iq u m at ic a 241 000 bi oi nf or m at ik 47 300 bi oi nf or m at ik a m at yk a bi oi nf or bi oi nf or bi oi nf or Bioinformatyka w Google 126 000 000 27 700 000 1 160 000 1 140 000 1 730 000 BIOINFORMATYKA - dziedzina interdyscyplinarna bioinformatyka biologia (molekularna) = + dane biologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek fiz a k y informatyka narzędzia,metody i obliczenia komputerowe nauki i techniki komputerowe, teoria informacji, matematyka stosowana, statystyka, teoria prawdopodobieństwa he c i a i m BIOINFORMATYKA - cele Organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie skomputeryzowanych (cyfrowych) zapisów - baz danych Analiza tych danych za pomocą metod obliczeniowych, rozwój metod i algorytmów BIOINFORMATYKA - poziomy analiz DNA mRNA białka interakcje i metabolizm BIOINFORMATYKA - poziomy analiz poziom badań genom przedmiot badań wszystkie sekwencje DNA zawarte w organizmie, geny, sekwencje regulatorowe transkryptom wszystkie sekwencje RNA zawarte w organizmie proteom wszystkie białka zawarte w organizmie metabolom wszystkie procesy metaboliczne zachodzące w organizmie, metabolity dziedzina badań genomika transkryptomika proteomika metabolomika tematy badań poszukiwanie sekwencji kodujących, rozpoznawanie eksonów i intronów, organizacja genomów, porównanie sekwencji analiza ekspresji genów porównanie sekwencji, identyfikacja zachowanych regionów, przewidywannie struktury, oddziaływania określanie sieci i szlaków metabolicznych, symulacje Program wykładów Genomy Sekwencje biologiczne Biologiczne bazy danych Struktury makrocząsteczek biologicznych Elementy biologii systemowej Elementy epigenetyki …dygresje w stronę biologii, fizyki, chemii zaliczenie Ćwiczenia: lista obecności & kolokwium (a) Wykład: kolokwium (b) Ocena: średnia z ocen z kolokwiów a i b, jeśli obie oceny > 2 Literatura Literatura http://www.ncbi.nlm.nih.gov/books Baxevanis, Ouelette 1977 Sekwencjonowanie DNA Sanger i współpr. – metoda terminacji łańcucha, dideoksy 1987 Prober i współpr. – znakowanie fluorescencyjne i zautomatyzowanie metody analizator DNA (sekwenser) ABI PRISM 3700 Oczyszczanie fragmentów DNA: wyciętych z klonów plazmidowych lub fagowych zamplifikowanych przez PCR Denaturacja (pojedyncze nici) Hybrydyzacja ze starterem oligonukleotydowym Synteza nowej nici DNA od końca startera za pomocą: polimerazy Taq puli trifosforanów deoksyrybonukleotydów (dATP, dTTP, dGTP, dCTP) puli trifosforanów dideoksynukleotydów (ddATP, ddTTP, ddGTP, ddCTP) znakowanych fluorescencyjnie i powodujących zakończenie syntezy nici T-C-A-G T-C-A-G-C-A-T-A -A-G-T-C-G-T-A-T -A-G-T-C-G-T-A-T T-C-A-G-C T-C-A-G-C-A-T -A-G-T-C-G-T-A-T T-C-A-G-C-A -A-G-T-C-G-T-A-T -A-G-T-C-G-T-A-T Elektroforeza kapilarna (sekwencje o długości do 1500 nukleotydów) T-C-A-G-C-A-T-A 0 10 15 20 25 T-C-A-G-C-A-T 5 ATTGCTCTAGCAC GCATATCGGCTA T-C-A-G-C-A T-C-A-G-C T-C-A-G Odczyt sekwencji 0 5 10 15 20 25 GCATATCGGCTAATTGCTCTAGCAC Etapy sekwencjonowania genomów Oczyszczanie chromosomów Pofragmentowanie metodą sonikacji na odcinki o długości 100 kpz (kbp) lub większe Klonowanie fragmentów w wektorach (YAC, BAC) Tworzenie mapy chromosomu Wybór zachodzących pojedynczych klonów do sekwencjonowania Subklonowanie w mniejszych Tworzenie mapy subklonów Human Genome Project metoda tradycyjna fragmentach Wybór i sekwencjonowanie zachodzących subklonów SEKWENCJONOWANIE ATGCTCG TCGATCTT TTGATAGA AGAGCTAC TACAACGG GGCTTGC GCGGTAGC AGCTTATA ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA Human Genome Project metoda tradycyjna Subklonowanie w mniejszych fragmentach Sekwencjonowanie wszystkich subklonów i tworzenie bazy komputerowej SEKWENCJONOWANIE Celera Genomics metoda ”shotgun” ATGCTCG TCGATCTT TTGATAGA AGAGCTAC TACAACGG GGCTTGC GCGGTAGC AGCTTATA ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA Komputerowy zapis sekwencji nukleotydowej C lub M A G G A lub S C C T C C A T A lub P G G T A T T T A C A G T CGTACGTMTASTATAGTACTPC Obróbka sekwencji HTGS Faza 0 Faza 1 Faza 2 Faza 3 contigs Sekwencjonowanie genomów 1977 Sanger i współpr. - fag ΦX 174 (5,4 tys. pz) 1981 Anderson i współpr. - mtDNA człowieka (17 tys. pz) 1995 Fleischmann i współpr. - Haemophilus influenzae (1.8 mln pz) Fraser i współpr. - Mycoplasma genitalium (0.6 mln pz) 1997 Blattner i współpr. – Escherichia coli (4.6 mln pz) Kunst i współpr. – Bacillus subtilis (4.2 mln pz) Sekwencjonowanie genomów 1996 1997 Goffeau i współpr. Saccharomyces cerevisiae (13 mln pz) 1998 The C. elegans Sequencing Consortium Caenorhabditis elegans (100 mln pz) Sekwencjonowanie genomu człowieka Celera Genomics od 1998 Human Genome Project od 1990 VI 2000 OIgłoszenie zakończenie prac nad wstępną wersją genomu ludzkiego; zsekwencjonowano: 99 % 85 % Konferencja prasowa w Białym Domu w towarzystwie premiera Wielkiej Brytanii i prezydenta USA. Zespoły HPG oraz Celery postanowiły ze sobą współpracować w końcowej fazie badań po okresie zażartej konkurencji. Craig Venter Francis Collins Celera Genomics Human Genome Project II 2001 niezależna publikacja wyników w: Venter i współpracownicy THE GENOME INTERNATIONAL SEQUENCING CONSORTIUM GenBank – statystyka Grupa liczba genomów zsekwencjonowanych (6.10.2008) Archaea 52 Bacteria 706 Eucaryota 22 Kompletnie zsekwencjonowane genomy Eucaryota: Drosophila melanogaster Saccharomyces cerevisiae Schizosaccharomyces pombe Candida glabratha Encephalitozoon cuniculi GB-M1…. Caenorhabditis elegans OWADY (1) Entamoeba histolytica Plasmodium falciparum Trypanosoma cruzi…. NICIENIE (1) Homo sapiens Mus musculus PIERWOTNIAKI (6) GRZYBY (10) Arabidopsis thaliana Oryza sativa KRĘGOWCE (2) ROŚLINY (2) „Prywatne” genomy James Watson (2008) Craig Venter (2007) 12 genomów z rodzaju Drosophila 2007 Pyrosequencing Pyrosequencing. The strand synthesis reaction is carried out in the absence of dideoxynucleotides. Each dNTP is added individually, along with a nucleotidase enzyme that degrades the dNTP if it is not incorporated into the strand being synthesized. Incorporation of a nucleotide is detected by a flash of chemiluminescence induced by the pyrophosphate released from the dNTP. The order in which nucleotides are added to the growing strand can therefore be followed 454 Sekwencjonowanie na mikromacierzach A possible way of using chip technology in DNA sequencing. The chip carries an array of every possible 8-mer oligonucleotide. The DNA to be sequenced is labeled with a fluorescent marker and applied to the chip, and the positions of hybridizing oligonucleotides determined by confocal microscopy. Each hybridizing oligonucleotide represents an 8-nucleotide sequence motif that is present in the probe DNA. The sequence of the probe DNA can therefore be deduced from the overlaps between the sequences of these hybridizing oligonucleotides.