Bioinformatyka

Transkrypt

Bioinformatyka
Bioinformatyka
wykłady dla I r. studiów magisterskich,
biologia (SGGW)
2007/2008
Krzysztof Pawłowski
Wykład 4.X.2007
Co to jest bioinformatyka?
„ Program wykładów
„ Sekwencjonowanie DNA
„ Sekwencjonowanie genomów
„
„definicja”
bioinformatyki / biologii obliczeniowej
Rozwiązywanie problemów biologicznych metodami
obliczeniowymi
Solving biological problems by computational means
Some synonyms:
„ In silico biology
„ Biocomputing
„ Theoretical biology
Substantial overlaps:
„ Computational chemistry / cheminformatics
„ Systems biology
„ Structural biology
„ Theoretical biophysics
Zakres zainteresowań
bioinformatyki
•
•
Objects: small molecules, structural motifs and domains, proteins,
transcripts, genes, organelles, cells, tissues, organs, organisms
Objects’ attributes: sequences, 3-D structures, expression data, clinical
data, publications,….
„oficjalne” definicje NIH
„
„
Bioinformatics: approaches for expanding the
use of biological, medical, behavioral or health
data, including those to acquire, store, organize,
archive, analyze, or visualize such data.
Computational Biology: The development and
application of data-analytical and theoretical
methods, mathematical modeling and
computational simulation techniques to the study
of biological, behavioral, and social systems.
Bioinformatics (wikipedia)
„
Bioinformatics and computational biology
involve the use or development of
techniques, including applied
mathematics, informatics, statistics,
computer science, artificial intelligence,
chemistry, and biochemistry to solve
biological problems, usually on the
molecular level.
Bioinformatics (wikipedia, contd.)
„
The primary goal of bioinformatics is to increase our
understanding of biological processes. What sets it apart
from other approaches, however, is its focus on
developing and applying computationally intensive
techniques (e.g., data mining, and machine learning
algorithms) to achieve this goal. Major research efforts in
the field include sequence alignment, gene finding,
genome assembly, protein structure alignment, protein
structure prediction, prediction of gene expression and
protein-protein interactions, and the modeling of
evolution.
Bioinformatyka (wikipedia)
„
Bioinformatyka to dyscyplina zajmująca
się stosowaniem narzędzi
matematycznych i informatycznych do
rozwiązywania problemów z nauk
biologicznych. Z bioinformatyką
powiązane są: genomika, proteomika,
metabolomika i transkryptomika.
„bioinformatyka” – nowa dyscyplina?
Publikacje bioinformatyczne (PubMed)
10000
1000
100
10
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
1
bioinformatics[Text Word]
bioinformatics[MeSH Heading]
…ale pod innymi nazwami rozwijała się
przynajmniej od lat 60.
m
at
ic
s
bi
oi
nf
or
bi
ol
og
ia
y
e
17 500 000
bi
ol
og
m
at
iq
u
m
at
ic
a
241 000
bi
oi
nf
or
m
at
ik
47 300
bi
oi
nf
or
m
at
ik
a
m
at
yk
a
bi
oi
nf
or
bi
oi
nf
or
bi
oi
nf
or
Bioinformatyka w Google
126 000 000
27 700 000
1 160 000 1 140 000 1 730 000
BIOINFORMATYKA - dziedzina interdyscyplinarna
bioinformatyka
biologia (molekularna)
=
+
dane biologiczne
dane dotyczące kwasów
nukleinowych, białek,
lipidów, węglowodanów i
innych makrocząsteczek
fiz
a
k
y
informatyka
narzędzia,metody
i obliczenia komputerowe
nauki i techniki komputerowe,
teoria informacji, matematyka
stosowana, statystyka, teoria
prawdopodobieństwa
he
c
i
a
i
m
BIOINFORMATYKA - cele
Organizowanie
i
zarządzanie
informacjami
o
makrocząsteczkach i innych danych biologicznych w formie
skomputeryzowanych (cyfrowych) zapisów - baz danych
Analiza tych danych za pomocą metod obliczeniowych,
rozwój metod i algorytmów
BIOINFORMATYKA - poziomy analiz
DNA
mRNA
białka
interakcje i metabolizm
BIOINFORMATYKA - poziomy analiz
poziom badań
genom
przedmiot badań
wszystkie sekwencje DNA
zawarte w organizmie, geny,
sekwencje regulatorowe
transkryptom
wszystkie sekwencje RNA
zawarte w organizmie
proteom
wszystkie białka zawarte w
organizmie
metabolom
wszystkie procesy metaboliczne
zachodzące w organizmie,
metabolity
dziedzina badań
genomika
transkryptomika
proteomika
metabolomika
tematy badań
poszukiwanie sekwencji
kodujących, rozpoznawanie
eksonów i intronów,
organizacja genomów,
porównanie sekwencji
analiza ekspresji genów
porównanie sekwencji,
identyfikacja zachowanych
regionów, przewidywannie
struktury, oddziaływania
określanie sieci i szlaków
metabolicznych, symulacje
Program wykładów
„
Genomy
Sekwencje biologiczne
Biologiczne bazy danych
Struktury makrocząsteczek biologicznych
Elementy biologii systemowej
Elementy epigenetyki
„
…dygresje w stronę biologii, fizyki, chemii
„
„
„
„
„
zaliczenie
Ćwiczenia:
lista obecności & kolokwium (a)
„ Wykład:
kolokwium (b)
„ Ocena: średnia z ocen z kolokwiów a i b,
jeśli obie oceny > 2
„
Literatura
Literatura
http://www.ncbi.nlm.nih.gov/books
Baxevanis, Ouelette
1977
Sekwencjonowanie DNA
Sanger i współpr. – metoda terminacji łańcucha, dideoksy
1987
Prober i współpr. – znakowanie fluorescencyjne i zautomatyzowanie metody
analizator DNA (sekwenser)
ABI PRISM 3700
Oczyszczanie fragmentów DNA:
wyciętych z klonów plazmidowych lub fagowych
zamplifikowanych przez PCR
Denaturacja (pojedyncze nici)
Hybrydyzacja ze starterem oligonukleotydowym
Synteza nowej nici DNA od końca startera za pomocą:
polimerazy Taq
puli trifosforanów deoksyrybonukleotydów (dATP, dTTP, dGTP, dCTP)
puli trifosforanów dideoksynukleotydów (ddATP, ddTTP, ddGTP, ddCTP)
znakowanych fluorescencyjnie i powodujących zakończenie syntezy nici
T-C-A-G
T-C-A-G-C-A-T-A
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
T-C-A-G-C
T-C-A-G-C-A-T
-A-G-T-C-G-T-A-T
T-C-A-G-C-A
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
Elektroforeza kapilarna (sekwencje o długości do 1500 nukleotydów)
T-C-A-G-C-A-T-A
0
10
15
20
25
T-C-A-G-C-A-T
5
ATTGCTCTAGCAC
GCATATCGGCTA
T-C-A-G-C-A
T-C-A-G-C
T-C-A-G
Odczyt sekwencji
0
5
10
15
20
25
GCATATCGGCTAATTGCTCTAGCAC
Etapy sekwencjonowania genomów
Oczyszczanie chromosomów
Pofragmentowanie metodą sonikacji na odcinki
o długości 100 kpz (kbp) lub większe
Klonowanie fragmentów w wektorach (YAC, BAC)
Tworzenie mapy chromosomu
Wybór zachodzących pojedynczych klonów do sekwencjonowania
Subklonowanie w mniejszych
Tworzenie mapy subklonów
Human Genome Project
metoda tradycyjna
fragmentach
Wybór i sekwencjonowanie
zachodzących subklonów
SEKWENCJONOWANIE
ATGCTCG
TCGATCTT
TTGATAGA
AGAGCTAC
TACAACGG
GGCTTGC
GCGGTAGC
AGCTTATA
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
Human Genome Project
metoda tradycyjna
Subklonowanie w mniejszych
fragmentach
Sekwencjonowanie wszystkich
subklonów i tworzenie bazy
komputerowej
SEKWENCJONOWANIE
Celera Genomics
metoda ”shotgun”
ATGCTCG
TCGATCTT
TTGATAGA
AGAGCTAC
TACAACGG
GGCTTGC
GCGGTAGC
AGCTTATA
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
Komputerowy zapis sekwencji nukleotydowej
C
lub
M
A
G
G
A lub
S
C
C
T
C
C
A
T
A
lub
P
G
G
T
A
T
T
T
A
C
A
G
T
CGTACGTMTASTATAGTACTPC
Obróbka sekwencji HTGS
Faza 0
Faza 1
Faza 2
Faza 3
contigs
Sekwencjonowanie genomów
1977
Sanger i współpr. - fag ΦX 174 (5,4 tys. pz)
1981
Anderson i współpr. - mtDNA człowieka (17 tys. pz)
1995
Fleischmann i współpr. - Haemophilus influenzae (1.8 mln pz)
Fraser i współpr. - Mycoplasma genitalium (0.6 mln pz)
1997
Blattner i współpr. – Escherichia coli (4.6 mln pz)
Kunst i współpr. – Bacillus subtilis (4.2 mln pz)
Sekwencjonowanie genomów
1996
1997
Goffeau i współpr.
Saccharomyces cerevisiae (13 mln pz)
1998
The C. elegans Sequencing Consortium
Caenorhabditis elegans (100 mln pz)
Sekwencjonowanie genomu człowieka
Celera Genomics
od 1998
Human Genome Project
od 1990
VI 2000
OIgłoszenie zakończenie prac nad wstępną wersją genomu ludzkiego; zsekwencjonowano:
99 %
85 %
Konferencja prasowa w Białym Domu w towarzystwie premiera Wielkiej Brytanii i
prezydenta USA. Zespoły HPG oraz Celery postanowiły ze sobą współpracować
w końcowej fazie badań po okresie zażartej konkurencji.
Craig Venter
Francis Collins
Celera Genomics
Human Genome Project
II 2001
niezależna publikacja wyników w:
Venter i współpracownicy
THE GENOME INTERNATIONAL
SEQUENCING CONSORTIUM
GenBank – statystyka
Grupa
liczba genomów
zsekwencjonowanych
(6.10.2008)
Archaea
52
Bacteria
706
Eucaryota
22
Kompletnie zsekwencjonowane genomy
„
Eucaryota:
„
Drosophila melanogaster
„
ƒ Saccharomyces cerevisiae
ƒ Schizosaccharomyces pombe
ƒ Candida glabratha
ƒ Encephalitozoon cuniculi GB-M1….
Caenorhabditis elegans
„
„
„
OWADY (1)
Entamoeba histolytica
Plasmodium falciparum
Trypanosoma cruzi….
NICIENIE (1)
ƒ Homo sapiens
ƒ Mus musculus
PIERWOTNIAKI
(6)
GRZYBY (10)
ƒ Arabidopsis thaliana
ƒ Oryza sativa
KRĘGOWCE (2)
ROŚLINY (2)
„Prywatne” genomy
James Watson (2008)
Craig Venter (2007)
12 genomów z rodzaju Drosophila
2007
Pyrosequencing
Pyrosequencing. The strand
synthesis reaction is carried out in
the absence of
dideoxynucleotides. Each dNTP is
added individually, along with a
nucleotidase enzyme that
degrades the dNTP if it is not
incorporated into the strand being
synthesized. Incorporation of a
nucleotide is detected by a flash of
chemiluminescence induced by the
pyrophosphate released from the
dNTP. The order in which
nucleotides are added to the
growing strand can therefore be
followed
454
Sekwencjonowanie na
mikromacierzach
A possible way of using chip technology in DNA sequencing. The chip carries an array of every possible 8-mer oligonucleotide. The DNA to be
sequenced is labeled with a fluorescent marker and applied to the chip, and the positions of hybridizing oligonucleotides determined by confocal
microscopy. Each hybridizing oligonucleotide represents an 8-nucleotide sequence motif that is present in the probe DNA. The sequence of the
probe DNA can therefore be deduced from the overlaps between the sequences of these hybridizing oligonucleotides.

Podobne dokumenty