Bazy danych - Marcin Filipecki

Transkrypt

Bazy danych - Marcin Filipecki
2016-05-10
Wykorzystanie baz danych
w biotechnologii
Dr hab. Marcin Filipecki
Katedra Genetyki, Hodowli i
Biotechnologii Roślin
DNA

Każdy żywy organizm
składa się z komórek, a
każda komórka ma jądro.
Wikipedia (http://upload.wikimedia.org/wikipedia/commons/thumb/0/00/
Plant_cell_structure_svg_pl.svg/450px-Plant_cell_structure_svg_pl.svg.png)
W jądrze znajduje się DNA zwinięte w
chromosomy (materiał genetyczny).
 DNA to bardzo długa cząsteczka
chemiczna – łańcuch, składający się z
nawet z setek milionów ogniw (czterech
rodzajów nukleotydów – A, T, C i G)
ułożonych w określonej kolejności.

1
2016-05-10



Gen to fragment łańcucha
DNA (kilka tysięcy ogniw nukleotydów) zawierający
informację o budowie białka
(kilkaset aminokwasów).
Geny
Każda komórka człowieka,
zwierzęcia czy rośliny zawiera
kilkadziesiąt tysięcy genów.
Każdego dnia, od początków
ludzkości, człowiek zjada 0,2–
0,5 grama DNA czyli około
kilkudziesięciu biliardów (1015)
różnych genów – roślinnych,
zwierzęcych, bakteryjnych czy
wirusowych.
2
2016-05-10
Znaczenie organizmów
modelowych
• Życie jest dużo mniej zróżnicowane na poziomie
molekularnym niż nam się wydaje.
• Geny bakteryjne mogą być bardzo informatywne
w biologii człowieka.
• Organizmy modelowe
– Drożdże, nicienie, muszka owocowa,
– Ryż, rzodkiewnik,
– Kurczak, mysz.


Metody sekwencjonowania:
 Enzymatyczna terminacji łańcuchów DNA -
1975 (100 kpz / dzień / urządzenie)
 Enzymatyczna rejestrująca aktywność
polimerazy
 Hybrydyzacyjna / h. z wykorzystaniem ligazy
 Bezpośredni odczyt sekwencji nukleotydów
na unieruchomionej pojedynczej cząsteczce
Miliardy pz na dzień / urządzenie
3
2016-05-10
BIOINFORMATYKA
Gromadzenie informacji:
Literatura naukowa, Sekwencje DNA, RNA, białek,
charakterystyczne motywy, Inne cząsteczki biologiczne,
Struktury, Interakcje białek, Profile ekspresji, Szlaki
biochemiczne, Choroby, Mapy genetyczne
 OGÓLNODOSTĘPNE BAZY DANYCH

SQ Sequence 1634 BP;
ctatatagcg tcaatcagtt
gcacgaaaaa ctcatggccg
ccttggtttc tcctcgatcc
tcgcaagccc ctgatgcacc
cttgccgcac agccaattgc
cacggcctac gcctaccagc
gcaacagcag cagcagcaac
cctggatctt tcccgtcgat
tcaaacaagc tacagctacg
gtatgccgcc caaatgcaac
gcaacaatta gcctccctgt
//
413 A; 537
ggattaaacc
ggcagttctt
gtaaactaac
accaccagta
cggttcaggg
agcagttgct
atcagcagct
gtgacagcgt
gcagtggttc
agcagcaaca
atcccgcttt
C; 378 G; 306 T; 0 other;
cagagaccat acaccgaaca ccatgctaat
cgatctcaag actggtaagt tggccacgcc
aaatcccctc tctctctcaa tctttgcaga
ccagcaccac cagcagcaac cgctgcacca
atccttgggc ctgcccaaaa tggatctgta
gggagctgcc ctcagtcagc agcaacaaca
gcagcagcag catacctcct ctgcagaggt
agagacgccc aggaagactc cctcgccgta
cccctcggct tcgcccacca gcaatcttct
tcagcagcaa caacagcaac agcagcagca
ttactacagc aacatcaagc aggagcaagc
60
120
180
240
300
360
420
480
540
600
660
Przetwarzanie informacji - wnioskowanie:
 Na potrzeby baz danych
 Na potrzeby projektów badawczych:
• Edycja i opis podstawowych cech sekwencji
• Wyszukiwanie charakterystycznych rejonów
w sekwencjach
• Projektowanie oligonukleotydów
• Porównywanie, poszukiwanie polimorfizmu,
filogenetyka
• Przewidywanie struktury cząsteczek
istniejących
• Projektowanie nowych cząsteczek
4
2016-05-10
Rozwój bioinformatyki doprowadził
do powstania biologii systemów
BIOLOGIA SYSTEMÓW
W biologii zrozumienie na poziomie systemu wymaga analizy
struktury i dynamiki na poziomie komórki i organizmu, a nie
oddzielnie części składowych.



„Stara” nauka wyjaśnia obserwowane zjawiska poprzez
zredukowanie ich do współuczestniczących składowych i
obserwację każdej oddzielnie.
„Współczesna” nauka dostrzega wagę całościowego spojrzenia
spychając na dalszy plan podejście redukcjonistyczne.
Uprawianie biologii systemów oznacza obecnie zastosowanie i
integrację matematyki, inżynierii, fizyki i informatyki w celu
zrozumienia złożonych biologicznych zależności.
5
2016-05-10
Bazy danych sieci zależności genów i ich
produktów





Signal Transduction Knowledge Environment
http://stke.sciencemag.org
Kyoto Encyclopedia of Genes and Genomes
http://www.genome.ad.jp/kegg
BioCyc - collection of Pathway/Genome Databases
http://biocyc.org/ (A. thaliana – AraCyc
http://www.arabidopsis.org/tools/aracyc)
MapMan http://gabi.rzpd.de/projects/MapMan
KaPPA-View (A Web-Based Analysis Tool for Integration of
Transcript and Metabolite Data on Plant Metabolic Pathway
Maps http://kpv.kazusa.or.jp/kappa-view
6
2016-05-10
J.Craig Venter - wizjoner nauki
czy biotechnologiczny biznesman?
• Genom ludzki
• Metagenomika
• Organizm syntetyczny
Sekwencjonowanie hierarchiczne w HGP:
najpierw zmapowanie wielkoinsertowych
klonów, potem sekwencjonowanie losowe
Zastosowane
przez J.C. Venter’a
sekwencjonowanie
losowe całego
genomu (whole
genome shotgun
sequencing) omija
etap mapowania
klonów
Intl. Hum. Gen. Seq. Cons. (2001),
Nature 409: 860-921.
7
2016-05-10
Human Genome Project & CELERA GENOMICS
26-06-2000
J. Craig Venter & Bill Clinton & Francis Collins








Intl. Hum. Gen. Seq. Cons.
(2001) Nature 409: 860-921
Udział 20 ośrodków z 6 krajów
Hierarchical shotgun sequencing
DNA od wielu osób
15 miesięcy*
Wybór kolekcji klonów o
minimalnym zachodzeniu,
pokrywających chromosomy
Losowe sekwencjonowanie
głównie klonów BAC i PAC (8
bibliotek) (wielkość fragmentów
sekwencjonowanych itp. zależne
od ośrodka)
Pokrycie genomu 4,5 x (dla
klonów)
Intl. Hum. Gen. Seq. Cons. (2001)
Nature 409: 860-921.
8
2016-05-10








Venter JC i in. (2001)
Science 291: 1304-51
CELERA GENOMICS
Whole genome shotgun
DNA od 5 osób
9 miesięcy
Wykorzystanie 500-600 ntd
sekwencji końców klonów o
średniej długości wstawki 2,
10 i 50 kpz
Włączenie sekwencji z
publicznych baz danych po
pofragmentowaniu na 500
– 600 ntd kawałki
Pokrycie genomu 5,11 x
Venter JC i in. (2001)
Science 291: 1304-51
Sekwencje nukleotydowe i
aminokwasowe
• przekraczają objętością literaturę
• Ok. 3000 genomów całkowicie
zsekwencjonowanych i dostępnych,
• Baza Danych Sekwencji Nukleotydowych EMBL
zawiera 330mln sekwencji i 400mld nukleotydów
(w tym EST, STS and GSS).
• Szacuje się, że ok. jedna trzecia genów ludzkich
daje więcej niż jeden produkt białkowy
9
2016-05-10
10
2016-05-10
Jak wygląda sekwencja w bazie
danych?
11
2016-05-10
12
2016-05-10
Podstawowym narzędziem identyfikacji i opisu
sekwencji, zarówno tych zamieszczonych już w bazach
danych, jak i tych nowootrzymanych jest ich
PORÓWNYWANIE.
Gdzie:
PODOBIEŃSTWO jest to wartość mierzalna wyrażana
często w %
HOMOLOGIA jest to hipoteza o wspólnym pochodzeniu
(przodku) wyrażona np. w oparciu o analizę
podobieństwa
13
2016-05-10
SCORES
Init1: 218
Initn: 517
Opt: 665
z-score: 542.8 E(): 2.5e-23
>>SWISSPROT:GA1A_XENLA
(359 aa)
initn: 517 init1: 218 opt: 665 Z-score: 542.8 expect(): 2.5e-23
Smith-Waterman score: 697;
48.5% identity in 295 aa overlap
(125-912:47-323)
jp-na.seq
GA1A_XENLA
jp-na.seq
GA1A_XENLA
jp-na.seq
GA1A_XENLA
jp-na.seq
GA1A_XENLA
140
170
200
230
260
SSWRWGGRMRAPPLRS--LMKPEPSWGWGG---ARGR/EAGGLLASYPPSGRVSLVPWAD
||
|| ::| ::: | || | | :
| || :| | |: ||: :| | ::
SSRAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGR-STGTL--SFYPSAASALGPITS
50
60
70
80
90
100
290
320
350
380
410
TGTLGTPQWV----PPATQMEPPHYLELLQPPRGSPPHPSSGPLLPLS-----------:: :::
||| :
|::|| |: |:||
: || | |
PPLYSASSFLLGSAPPAEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGG
110
120
130
140
150
160
440
470
500
530
560
----SGPPPCEARECVMARKNCGATATPLWRRDGTGHYLCNWASACGLYHRLNGQNRPLI
|
| ||||
|||||:||||||| :||||||
||||||::||||||||
GQEFSLFQSTEDRECV----NCGATVTPLWRRDMSGHYLCN---ACGLYHKMNGQNRPLI
170
180
190
200
210
590
620
650
680
710
740
RPKKRLLVSKRAGTVCSHERENCQTSTTTLWRRSPSGDPVCNNIHACGLYYKLHQVNRPL
||||||:||||||| ||
||:|||||||||: |||||||
|||||||||:|||||
RPKKRLIVSKRAGTQCS----NCHTSTTTLWRRNASGDPVCN---ACGLYYKLHNVNRPL
220
230
240
250
260
770
800
830
860
890
TMRKDGIQTRNRKVSSKGKKRR-------PPGGGNPSATAGGGAPMGGGGDPSMPP
||:|:|||||||||||::||::
|| :|
:
:|:
|: |||
GA1A_XENLA
TMKKEGIQTRNRKVSSRSKKKKQLDNPFEPPKAGVEEPSPYPFGPLLFHGQ--MPP
270
280
290
300
310
320
jp-na.seq
14
2016-05-10
METAGENOMIKA
Zastosowanie nowoczesnych technik
genomowych do badania populacji
mikroorganizmów, występujących w
danym środowisku, z ominięciem
izolacji i hodowli laboratoryjnej
poszczególnych gatunków
Jo Handelsman (2004) Microbiology and Molecular Biology Reviews 68: 669-685
Wyprawa H.M.S. Challenger (1872-1876)
pod kierownictwem Prof. Wyville Thomson’a
68 000 MM
 29 552 str.
Sprawozdania
 Prawie 4000
nowych
gatunków

15
2016-05-10
Global
Ocean
Sampling
Expedition
(GOS)
Pobieranie próbek w trakcie ekspedycji GOS
J.C. Venter Institute
16
2016-05-10
Ekspedycja „Global Ocean Sampling”







Pierwsza faza 8000MM
41 miejsc pobierania
7,7 mln sekwencji
6,3 mld pz
6,1 mln nowych białek
1700 brak podobieństwa
Seria 3 publikacji PLOS
Biology Marzec 2007
Biologia syntetyczna
17
2016-05-10
W stronę
syntetycznego życia





Synteza bakteriofaga ΦX174
(5386 pz) – 2003 r.
Transplantacja genomu M. capricolum
do cytoplazmy M. mycoides LC (2007)
Syteza genomu Mycoplasma
genitalium 582 970 pz (2008)
 Oligonukleotydy > 5-7 > 24 > 72
(1/8) > 144 (1/4) > 582,97 kpz (1/1)
Klonowanie genomu M. mycoides w
drożdżach i transplantacja do
cytoplazmy M. capricolum.
Transplantacja syntetycznego genomu
do cytoplazmy > powstanie Synthii
(Mycoplasma laboratorium) – 2010?
http://marcin_filipecki.users.sggw.pl/filipecki_links.htm
18
2016-05-10
19
2016-05-10
20
2016-05-10
21
2016-05-10
22
2016-05-10
23
2016-05-10
24
2016-05-10
25

Podobne dokumenty