Rozdział monografii: `Bazy Danych: Struktury, Algorytmy, Metody

Transkrypt

Rozdział monografii: `Bazy Danych: Struktury, Algorytmy, Metody
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Rozdział 11
w
Bioinformatyczne bazy danych – rola, miejsce
i klasyfikacja
w
1 Wstęp
da
.b
w
Streszczenie. Bioinformatyka jest dziedziną nauki, która w ostatnim okresie
bardzo intensywnie się rozwija. Ekspansja badań w dziedzinie biologii i biochemii molekularnej generuje bardzo wiele informacji, którą należy przechowywać w specjalnie do tego przeznaczonych bazach danych, w celu ich
dalszej analizy. W dziedzinie baz danych bioinformatycznych autorzy podejmują próbę uszeregowania wiedzy związanej z gromadzeniem i przetwarzaniem danych o charakterze biologicznym. W rozdziale przedstawiono podstawowe informacje dotyczące bioinformatyki. Główną uwagę poświęcono bioinformatycznym bazom danych – ich klasyfikacji, przeznaczeniu i sposobom
dostępu.
pl
s.
Komórka organizmu jest podstawowym elementem w każdym żywym organizmie.
Wszystkie instrukcje potrzebne do kierowania aktywnością komórki są zapisane w łańcuchu DNA. Rozpoczęcie w 1990 roku przez U.S. Department of Energy and the National
Institutes of Health w USA prac pod nazwą Human Genome Project (HGP) [1] nad
poznaniem kompletnego zbioru ludzkiego DNA (genomu) wprowadziło nową erę
w dziedzinie nauk biologicznych – erę genomu [1]. Doprowadziła ona w krótkim czasie do
eksplozji informacji biologicznej na skutek zastosowania zaawansowanych metod badań
nad biologią molekularną i genomiką. Z jednej strony, tradycyjne badania, prowadzone
dotąd w laboratoriach eksperymentalnych, zyskały wsparcie ze strony potężnych maszyn
liczących, co zwiększyło możliwości poznawcze. Z drugiej strony, powstała duża liczba
organizacji państwowych, instytutów uniwersyteckich oraz laboratoriów badawczych
zajmujących się poznaniem tajemniczych słów zapisanych przy pomocy alfabetu złożonego
z czterech nukleotydów – molekuł adeniny (A), tyminy (T), guaniny (G), cytozyny (C).
W efekcie zaangażowania komputerów do analizy badań laboratoryjnych i powszechnego,
w skali światowej, zainteresowania tematem, nastąpił gwałtowny wzrost liczby posiadanych danych, które należało zinterpretować. Ogromnym wyzwaniem dla ludzi zajmujących się biologią molekularną stało się zatem znalezienie sensu w bogactwie danych będących efektem projektów sekwencjonowania genomów. Wszelkie starania w tej dziedzinie
zapoczątkowały istnienie nowego pola prowadzonych badań – bioinformatyki.
Dariusz Mrozek, Bożena Małysiak: Politechnika Śląska, Instytut Informatyki,
ul. Akademicka 16, 44-100 Gliwice, Polska
email:{Dariusz.Mrozek, Bozena.Malysiak}@polsl.pl
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek, B. Małysiak
w
Bioinformatyka jest multidyscyplinarną dziedziną nauki, którego zasadniczym celem
jest odkrycie bogactwa biologicznej informacji ukrytej w masie danych i otrzymania
jaśniejszego wglądu w fundamenty biologiczne organizmu [2], [3], [4], [5], [6]. Bioinformatyka polega zatem na zastosowaniu technik informatycznych w interpretacji rezultatów
badań biologicznych i biochemicznych. Istnieją trzy centralne procesy biologiczne, wokół
których bioinformatyka się rozwija [7] (rys. 1):
− Sekwencja nukleotydów w DNA determinuje sekwencję aminokwasów w białku.
Każde białko ma jedyną w swoim rodzaju, właściwą sobie sekwencję aminokwasów,
która jest zdeterminowana genetycznie. Sekwencja nukleotydów w DNA, cząsteczce
dziedziczności, określa komplementarną sekwencję nukleotydów w RNA (w procesie transkrypcji), która z kolei determinuje sekwencję aminokwasów w białku
(w procesie translacji) [8], [9].
− Sekwencja aminokwasów wpływa na strukturę białka. Analiza zależności między
sekwencją aminokwasów a strukturą przestrzenną białka pozwoliła naukowcom ustalić pewne reguły rządzące fałdowaniem się łańcuchów białkowych, a więc przyjmowania ustalonych kształtów tzw. struktury drugorzędowej np. helisy α lub harmonijki
β [10].
− Struktura białka jest związana z pełnioną przez nie funkcją w organizmie. Analiza
struktury przestrzennej białek pozwala m.in. klasyfikować białka w grupy funkcjonalne i rodziny oraz przewidywać na tej podstawie potencjalne funkcje nowo odkrytych molekuł białkowych. Odkształcenia strukturalne białka na skutek pewnych
czynników zewnętrznych, takich jak np. temperatura otoczenia lub jego kwasowość,
mogą również wpływać na aktywność białka w komórce oraz zdolność do pełnienia
swojej funkcji biologicznej.
da
.b
w
w
Sekwencja
DNA
Sekwencja
aminokwasów
białka
Struktura
przestrzenna
białka
Funkcja
i aktywność
białka
Rys. 1. Determinacja informacji biologicznej na kolejnych poziomach, poczynając od cząsteczki dziedziczności – DNA, kończąc na funkcji i aktywności białka w komórce organizmu
pl
s.
Jednym z wyzwań, jakiemu musi sprostać bioinformatyka, jest właściwy sposób przechowywania danych umożliwiając ich wydajne przetwarzanie i analizę. Z tego powodu, powstały ogromne repozytoria, których celem stało się gromadzenie danych pochodzących bezpośrednio z badań biochemików lub biologów molekularnych oraz danych będących rezultatem prowadzonych analiz.
Bioinformatyczne (biologiczne) bazy danych to zbiory danych przechowujące w jednolity i wydajny sposób dane z szerokiego spektrum obszarów biologii i biochemii. Ich
niezwykle ważną cechą jest fakt, iż zawarte w nich informacje są szeroko dostępne dla
społeczności naukowej [6], w większości przypadków za darmo. Z punktu widzenia medycznego przeszukiwanie i interpretacja danych pochodzących z badań biologów i biochemików otwiera ogromne wrota wiedzy, która może zostać wykorzystana przede wszystkim
w leczeniu chorób, z jakimi do tej pory współczesny człowiek nie jest w stanie sobie poradzić. Biologiczne bazy danych stanowią doskonałe źródło informacji dla społeczności
naukowej, w tym: lekarzy, biologów, biochemików, farmaceutów, weterynarzy, inżynierów
żywności, energetyki i ochrony środowiska. Kolekcjonowanie danych o charakterze
biologicznym rozpoczęło nowy rozdział w dziedzinie baz danych, które dotąd wykorzystywane były głównie jako systemy wspomagające pracę przedsiębiorstw produkcyjnych,
handlowych i usługowych. Charakter tych danych wymaga zastosowania specjalistycznych
108
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja
w
metod przetwarzania i analizy, które powinny spełniać podstawowe kryteria wydajności.
Należy mieć świadomość, że dane o charakterze biologicznym były kolekcjonowane już
znacznie wcześniej niż rozpoczęto projekt HGP. Przykładem mogą być dane o strukturach
białek pochodzące z badań krystalografii rentgenowskiej przechowywane w bazie Protein
Data Bank (PDB) [11] już w latach siedemdziesiątych. Jednakże to sekwencjonowanie genomów w projekcie HGP pociągnęło za sobą sprzężony rozwój istniejących gałęzi nauk
biologicznych - wyraźny postęp zanotowały takie gałęzie jak: proteomika, transkryptomika,
metabolomika czy biotechnologia. Przetwarzanie danych z baz biologicznych stanowi także
podstawę rozwoju nowych gałęzi naukowych, które pojawiły się w efekcie projektu HGP
np. genomiki, inżynierii genetycznej, czy wybranych gałęzi nanotechnologii.
w
2 Podział bioinformatycznych baz danych
da
.b
w
Informacje składowane w bioinformatycznych bazach danych mogą na różnym poziomie
opisu charakteryzować te wybrane organizmy, które z wielorakich względów znalazły się
w kręgu zainteresowań naukowców. Klasyfikację bioinformatycznych baz danych można
zatem przeprowadzić na różnych płaszczyznach:
− ze względu na źródło pochodzenia danych,
− ze względu na organizm, dla którego tworzy się kolekcję danych,
− ze względu na rodzaj przechowywanej informacji lub inaczej, poziom opisu molekularnego.
Dwie pierwsze kategorie, wraz z odpowiednimi przykładami baz, będą tematem tego
rozdziału. Trzeci sposób klasyfikacji baz ze względu na jego dużą rozpiętość został opisany
szerzej w rozdziale „Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organiżmów” tego wydania.
2.1 Klasyfikacja baz ze względu na źródło pochodzenia danych
pl
s.
Biorąc pod uwagę prowadzone badania eksperymentalne i symulacyjne oraz następujące po
nich interpretacje otrzymanych wyników można klasyfikować bazy ze względu na źródło
pochodzenia danych. Zgodnie z tym kryterium bioinformatyczne bazy danych można
podzielić na:
1) pierwotne (ang. primary) – przechowują dane będące bezpośrednio wynikiem prowadzonych badań bądź eksperymentów przez specjalistów z danej dziedziny; są to zazwyczaj dane o: sekwencjach DNA i RNA, sekwencjach aminokwasów białek i enzymów, strukturach przestrzennych białek, enzymów, kompleksów molekularnych i innych cząstek biologicznych biorących udział w reakcjach wewnątrzkomórkowych;
2) wtórne (ang. secondary) lub wyprowadzone (ang. derived) – przechowują rezultaty
analiz podstawowych złóż danych; mogą to być np. bazy sekwencji aminokwasów
jako efektu translacji sekwencji DNA z baz sekwencji nukleotydowych, bazy domen
funkcjonalnych, wzorców sekwencji lub motywów (charakterystycznych fragmentów) , relacji ewolucyjnych i wiele innych.
Dodatkowo, wraz z informacją właściwą, przechowywana jest duża ilość informacji opisowej pozwalająca zorientować się użytkownikom z jakim rodzajem informacji mają do czynienia; są m.in. to wszelkiego rodzaju komentarze, noty, adnotacje, klasyfikacje funkcji
białka, przynależność organizmu do rodziny i gatunku (źródło białka), wyodrębnione cechy
dodatkowe, fragmenty o określonym znaczeniu biologicznym.
109
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek, B. Małysiak
w
Należy zauważyć, że interpretacja informacji z pierwotnych lub wtórnych złóż danych
może przyczynić się do odkrycia ciekawych własności lub aspektów, które do tej pory były
traktowane tylko marginalnie. To z kolei może pociągnąć rozwój badań nad nową własnością i generację nowej informacji. Powoduje to powielenie poziomów wtórności i zamyka
pewien cykl: problem – badania – dane – rozwiązania – problem (rys. 2). Cykl ten zresztą
jest zgodny z prawidłami nauki, które mówią, iż odpowiedź na jedno pytanie generuje
lawinę kolejnych pytań. Problemy naukowe prowadzą do budowy nowych modeli, metod
formalnych opisu, algorytmów i narzędzi, dzięki którym prowadzone są badania. Badania
z wykorzystaniem bioinformatyki generują rezultaty, które odpowiednio skomentowane
i opisane (w biologii zawsze istotne jest w jakich warunkach przeprowadzono badania)
zostają zdeponowane w bazach danych. Jeśli prowadzono badania laboratoryjne, to dane te
najczęściej mają charakter pierwotny. W pierwszej fazie, dane mogą być przechowywane
na lokalnych serwerach laboratorium, a następnie mogą być zdeponowane (w całości lub
tylko ich część) w publicznych centrach danych. Analiza danych może prowadzić do uzyskania ciekawych odpowiedzi i rozwiązań postawionych problemów, na bazie których naukowa ciekawość sformułuje nowe tezy i problemy badawcze, doprowadzi do budowy nowych narzędzi i gromadzenia nowych informacji. Analiza danych może też przyczynić się
do aktualizacji danych już istniejących – stąd, m.in. biorą się różne wersje wpisów w centralnych, publicznych, bioinformatycznych bazach danych.
da
.b
w
w
Rys. 2. Cykl prowadzenia badań i powielania informacji w bioinformatycznych bazach
danych
pl
s.
Trzeba mieć również świadomość, że małe błędy na najniższym poziomie mogą stać się
przyczyną dużych nieporozumień naukowych przy przenoszeniu pomyłek na kolejne
poziomy. Z tej właśnie przyczyny deponowane w publicznych, bioinformatycznych bazach
danych informacje, np. sekwencje aminokwasów białkowych czy struktury białek, podlegają dodatkowym procesom rewizji przez specjalistów z danej dziedziny. Procesy te nie są
jednak w stanie wykryć wszystkich nieprawidłowości, dlatego za zdeponowaną w bazie
jednostkę odpowiedzialny jest przede wszystkim jej autor.
2.2 Klasyfikacja baz ze względu na gatunek organizm
Badania naukowców koncentrują się zwykle na pewnym wybranym organizmie lub grupie
organizmów danego gatunku, rodziny lub klasy powodując generację co raz to nowszych
danych opisujących organizm lub grupę. Powstały zatem bazy dedykowane dla danego
organizmu lub grupy. Bazy danych tego typu przechowują najczęściej kompletne zestawy
cech lub zestawy wybranych cech opisujących określony organizm lub gatunek. Zestaw
110
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja
w
przechowywanych cech, a co za tym idzie – poziom opisu, może być bardzo różny, na
przykład może to być kompletny genom organizmu, wyodrębnione geny, odkryte lub
przewidziane sekwencje białkowe, zbadane szlaki metaboliczne i in. Istnieje zatem wiele
baz opisujących wybrane cechy takich gatunków jak (podział nie odzwierciedla klasyfikacji
biologicznej organizmów):
− człowiek (ang. human, łac. homo sapiens), np.: atlas genów człowieka GENATLAS
[12] paryskiego Universite Rene Descartes zawierający informacje o ludzkim genotypie i fenotypie; baza HUNT for Human Novel Transcripts [13] przechowująca
kompletne sekwencje cDNA oraz adnotacje opisowe pochodzące z analizy tych sekwencji, a także dane o przewidywanych strukturach białek; baza Human Protein
Atlas [14] przechowująca informacje o ekspresji i lokalizacji białek w różnych tkankach organizmu człowieka a także w komórkach rakowych;
− kręgowce (ang. vertebrates), np.: zintegrowany system baz Mouse Genome Informatics (MGI) [15] przechowujący informacje biologiczne dotyczące myszy m.in. sekwencje DNA i RNA w Mouse Genome Sequence (MGS), charakterystykę genów
w Mouse Genome Database (MGD), charakterystyki rozwoju różnego typu nowotworów u myszy laboratoryjnych w Mouse Tumor Biology (MTB) Database; bazy
Rat Genome Database (RGD) [16] służące jako repozytorium danych genetycznych
(ang. genetic) i genomowych (ang. genome) dla szczurów; bazy danych genetycznych ArkDB [17] zawierące dane molekularne dotyczące m.in. świń, kotów, koni,
krów, drobiu, ryb i in.;
− insekty (ang. insects), np. baza FlyBase [19] zawierająca dane molekularne i genetyczne dotyczące muszki owocowej (łac. drosophila); fragment systemu baz Ensembl –
Mosquito Ensembl [20] dotyczący danych genetycznych moskitów Anopheles gambiae;
− bezkręgowce (ang. invertebrates), np.: baza dictyBase [21] będąca scentralizowanym
źródłem informacji genetycznej, molekularnej i literaturowej o pierwotniakach Dictyostelium; baza WormBase [22] zawierająca dane o sekwencjach DNA i sekwencjach
białkowych organizmu wielokomórkowego Caenorhabditis elegans1 - dane o sekwencjach DNA pochodzą m.in. z banku genów GenBank [23]; baza ToxoDB [24]
z danymi genetycznymi dotyczącymi pasożytów Toxoplasma gondii; i in.
− rośliny (ang. plants), np.: bazy danych genomów i map genetycznych Plant Genome
Databases of the National Agricultural Library – Agricultural Genome Information
System (NAL-AGIS) [25] dla różnych organizmów roślinnych, takich jak: ryż, róża,
fasola, bawełna, soja, zboża i in.; niektóre sekcje baz danych TIGR [26] (m.in. Arabidopsis thaliana2 Genome Database) dotyczące roślin, zawierające dane o chromosomach, sekwencjach DNA i otrzymanych w wyniku predykcji sekwencjach białkowych; baza danych sekwencji DNA dla roślin kawy CoffeeDNA [27];
− grzyby (ang. fungi), przy czym najwięcej źródeł danych powstało dla drożdży (łac.
Saccharomyces) na skutek szeroko zakrojonych badań nad tym organizmem np.: Fungal Genome Databases [28] w MIPS (Munich Information Center for Protein Sequences) przechowująca genomy grzybów, sekwencje białkowe i dodatkowe adnotacje; baza białek transmembranowych (przenikających błonę komórkową) drożdży
Yeast Transport Protein Database (YTPdb) [29]; i in., ale również dla innych grzybów, np. baza informacji genetycznej i białkowej dla kropidlaka Aspergillus fumiga-
da
.b
w
w
pl
s.
1
Caenorhabditis elegans wolnożyjący nicień, o długości ok. 1 mm występujący w glebach klimatu
umiarkowanego, używany jako modelowy organizm we współczesnej genetyce i biologii [18].
2
Rzodkiewnik pospolity (Arabidopsis thaliana) - chwast
111
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek, B. Małysiak
w
tus TIGR Database [30] czy pleśniawki (łac. Candida albicans) Candida Genome
Database [31];
− bakterie (ang. bacteria), np.: baza danych ECDC [32] będąca kolekcją danych
biologicznych na temat bakterii E.coli3; właściwe sekcje bazy danych SwissProt [33]
przechowujące informacje o sekwencjach białkowych bakterii; sieć baz danych udostępniona przez japoński portal WFCC-MIRCEN World Data Centre for Microorganisms (WDCM) [34] dający pełny przegląd informacji o charakterze molekularnym
i genetycznym na temat bakterii i innych mikroorganizmów; oraz wiele innych repozytoriów danych dedykowanych dla różnych rodzajów bakterii;
− mikroorganizmy typu archaea4, np.: baza danych genomów DOGAN [35] japońskiego National Institute of Technology and Evaluation dla organizmu Aeropyrum pernix
oraz innych organizmów tej grupy; podsekcja francuskiej bazy danych sekwencji
DNA i białkowych Pyrococcus abyssi genome database (Genoscope) [36] dotycząca
organizmów Pyrococcus abyssi; japońska baza genów i sekwencji białkowych
ARCHAIC (ARCHAebacterial Information Collection) [37]; i in.;
− wirusy i bakteriofagi (ang. viruses and phages), np. europejska baza European Hepatitis C Virus database (euHCVdb) [38] zorientowana na opis sekwencji DNA i białkowych, struktury i funkcji biologicznych wirusa HCV (który powoduje wirusowe
zapalenie wątroby typu C); dane o sekwencjach DNA wirusa są ekstrahowane do
euHCVdb z banku genów EMBL5 Nucleotide [39] (faktycznie, są to te same dane co
w GenBank [23]); zbiór baz danych HIV Databases [40] w Los Alamos National
Laboratory zawierający komplet danych biologicznych dotyczących wirusa HIV;
baza danych sekwencji nukleotydowych i struktur pikornawirusów6 [41] i in.;
da
.b
w
w
a)
b)
3
pl
s.
Rys. 3. Wybrane organizmy w powiększeniu: a) pałeczka okrężnicy E.coli, b) wirus HCV
(źródło obrazów: [7])
Pałeczka okrężnicy (Escherichia coli), bakteria wchodząca w skład fizjologicznej flory bakteryjnej
jelita grubego człowieka oraz zwierząt stałocieplnych, spełnia pożyteczną rolę, uczestnicząc w rozkładzie pokarmu, a także przyczyniając się do produkcji witamin z grupy B, C oraz K. Może mieć
jednak szkodliwe działanie kiedy przedostaje się z jelita do innych narządów lub kiedy organizm zaraża się jednym ze szkodliwych szczepów bakterii – szczególnie niebezpieczny jest szczep oznaczony
jako E.coli O157:H7.
4
Archea to mikroorganizmy (nie bakterie), które żyją w skrajnie niekorzystnych warunkach.
5
European Molecular Biology Laboratory (http://www.embl.org/) – Europejskie Laboratorium Biologii Molekularnej z siedzibą w Heidelberg, Niemcy; jego częścią jest European Bioinformatics Institute, Cambridge, UK
6
Pikornawirusy, wirusy z rodziny Picornaviridae, małe wirusy zawierające RNA jako materiał genet.;
patogenne dla ssaków (niektóre także dla człowieka), namnażają się gł. w przewodzie pokarmowym
i w układzie oddechowym; należą do nich rodzaje: Poliovirus, Coxsackievirus, Echovirus, Picornavirus, Enterovirus i in. (źródło: Encyklopedia PWN)
112
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja
Można także wyróżnić bazy danych ukierunkowane na określone podjednostki komórkowe
różnych organizmów, np. takie podjednostki jak: mitochondria7 i chloroplasty8 (ang. mitochondrion and chloroplast), np. kanadyjska baza GOBASE – The Organelle Genome Database [42], w której składowane są sekwencje nukleotydów, sekwencje białkowe, dopasowania wielu sekwencji, struktury drugorzędowe białek i RNA, mapy genomowe oraz różnego
rodzaju obrazy; część informacji w bazie GOBASE jest ekstrahowana z bazy sekwencji
DNA i RNA – GenBank [23]; baza sekwencji DNA mitochondrialnego mitBASE [43].
w
3 Systemy zintegrowanego dostępu do bioinformatycznych baz danych
da
.b
w
w
Duża liczba źródeł danych o charakterze biologicznym sprawia, że ich przeszukiwanie
może być bardzo trudnym zadaniem, zwłaszcza dla początkujących ‘poszukiwaczy’ informacji biochemicznej. Sprawę dodatkowo komplikuje fakt, że istnieje wiele baz specjalizujących się tylko w wybranym opisie pewnych zjawisk na poziomie molekularnym, np. niezależne bazy zbierające informacje o sekwencjach aminokwasów, strukturach białek i innych właściwościach biomolekuł. Wszystko to powoduje, że z łatwością można się zgubić
w świecie bioinformatycznych baz danych. Problem ten w dużej mierze minimalizują sieciowe (internetowe) systemy scentralizowanego dostępu do bioinformatycznych baz danych, które koncentrują dane: opisujące różne organizmy, dotyczące różnych poziomów
opisu białek i innych cząstek, pochodzące bezpośrednio z badań laboratoryjnych lub wyprowadzone na podstawie istniejących już danych. Systemy tego typu udostępniają ogromne zbiory danych, najczęściej nieodpłatnie, a także zestaw narzędzi umożliwiających wyszukiwanie interesującej informacji. Udostępnione narzędzia implementują najnowsze metody w zakresie przetwarzania danych biologicznych. Na pewnym etapie, przetwarzanie danych z wykorzystaniem przeglądarek internetowych może okazać się dużym ograniczeniem, jednakże jest to bardzo dobre miejsce, aby rozpocząć swoją przygodę z bioinformatyką i ogromem informacji jej dotyczących. Przykładem systemu scentralizowanego dostępu
do bioinformatycznych baz danych może być serwis European Bioinformatics Institute EBI
(rys. 4), który grupuje dane z ponad 150 rozproszonych baz danych [7]. Udostępnia on
ponadto odpowiednie narzędzia wyszukiwania informacji w różnych bazach danych, m.in.
narzędzia SRS (Sequence Retrieval System) dla danych sekwencyjnych i SRS3D [44] dla
danych strukturalnych. Użytkownik może wybrać, z którą bazą danych chce współpracować – bazy pogrupowane są zgodnie z klasyfikacją ze względu na poziom opisu molekularnego, np. bazy sekwencji nukleotydowych, bazy sekwencji aminokwasów, natomiast
podsekcje każdej z baz przydzielone są dla różnych organizmów/gatunków zgodnie z podziałem organizmów podobnym do przedstawionego w podrozdziale 2.2. Podobne
przeznaczenie ma system Entrez [45] amerykańskiej organizacji NCBI. Entrez jest opartym
na wyszukiwaniu tekstowym systemem dostępu do informacji biologicznej. Podział baz
danych jest podobny jak w przypadku systemu EBI. Oba systemy udostępniają własne bazy
danych biologicznych, jak również bazy stowarzyszone, pierwotnie rozwijane przez inne
organizacje. Każdy z systemów udostępnia także narzędzia umożliwiające deponowanie
danych pochodzących z przeprowadzonych badań oraz narzędzia aproksymacyjnego wyszukiwania informacji, takie jak np. BLAST [46].
pl
s.
7
Mitochondrium to organella (jednostka) komórki eukariotycznej, w której zachodzą procesy będące
głównym źródłem energii (ATP) dla komórki, w szczególności proces fosforylacji oksydacyjnej [18].
8
Chloroplast to otoczona podwójną błoną białkowo-lipidową organella komórkowa roślin i eukariotycznych glonów, w której zachodzi proces fotosyntezy [18].
113
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek, B. Małysiak
w
da
.b
w
w
Rys. 4. System zintegrowanego dostępu do bioinformatycznych baz danych European Bioinformatics Institute (EBI, http://www.ebi.ac.uk/services/)
4 Podsumowanie
pl
s.
Bioinformatyka jest dziedziną nauki, która wspomaga naukowców w przetwarzaniu
ogromnej ilości danych pochodzących z eksperymentów i badań biologicznych. Dane
o charakterze biologicznym są przechowywane w specjalnie do tego celu stworzonych
bioinformatycznych bazach danych. W rozdziale przedstawiono dwa sposoby klasyfikacji
bioinformatycznych baz danych: ze względu na źródło pochodzenia danych oraz ze
względu na gatunek/organizm, którego dane są gromadzone. W prezentowanych
zestawieniach podano kilka wybranych baz danych dla odpowiedniego gatunku/organizmu.
Należy jednak pamiętać, że takich baz jest bardzo wiele. Nie sposób wymienić wszystkich,
a i potencjalna lista takich baz szybko zdezaktualizowałaby się, bowiem codziennie
przybywa nowych obszarów badań i grup badawczych zajmujących się wybraną dziedziną
lub gatunkiem. Bardzo wiele z baz danych zorientowanych na określony gatunek wymienia
swoje dane z centralnymi repozytoriami, takimi jak: bank genów GenBank, czy bank
sekwencji białkowych EMBL Uniprot/SwissProt [47]. Dane te są następnie poddawane
analizie prowadzonej przez grupy fachowców specjalizujących się w określonym gatunku.
Otrzymane na podstawie analiz dane są składowane w lokalnych bazach danego zespołu
badawczego i mogą być udostępniane publicznie poprzez portale internetowe prowadzone
przez te zespoły. Otrzymane dane mogą być również deponowane w centralnych repozytoriach (o ile wcześniej przejdą odpowiedni proces walidacji i rewizji) i udostępnione za
pośrednictwem systemów scentralizowanego dostępu, takich jak: EBI SRS czy NCBI
Entrez.
114
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja
Literatura
1.
w
U.S. Department of Health and Human Services, U.S. Department of Energy, Understanding our
genetic inheritance − the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No.
90-1590.
2. Higgins D. (ed.), Taylor W. (ed.), Bioinformatics: Sequence, Structure and Databanks – A Practical Approach, Oxford University Press, 2000.
3. Lesk A.M., Introduction to Bioinformatics, Oxford University Press, 2002.
4. Mount D.W., Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory
Press, 2001.
5. Attwood T.K., Parry- Smith D.J., Introduction to Bioinformatics, Prentice Hall, 1999.
6. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes
and Proteins. John Wiley & Sons, Inc. 2001.
7. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the
European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/
8. Dickerson R.E., Geis I.: The structure and action of proteins. 2nd ed. Benjamin/Cummings,
Redwood City, Calif.Concise, 1981.
9. Murray R.K., Daryl K.G., Mayes P.A., Rodwell V.W.: Biochemia Harpera. Wydawnictwo
Lekarskie PZWL, Warszawa 1995.
10. Richardson J.S., Richardson D.C., Tweedy N.B., Gernert K.M., Quinn T.P. et al.: Looking at
proteins: representations, folding, packing and design. Biophys.J., 63:1186−1220, 1992.
11. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and
Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235–242, 2000.
12. Frezal J.: Genatlas database, genes and development defects. C. R. Acad. Sci. III, 321, 805–
da
.b
w
w
817, 1998.
pl
s.
13. Salamov A.A., Nishikawa T. and Swindells M. B.: Assessing protein coding region integrity in
cDNA sequencing projects. Bioinformatics 14(5):384−90, 1998.
14. Agaton C., Uhlen M., Hober S.: Genome-based proteomics. Electrophoresis 25(9):1280−8, 2004.
15. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T. and the Mouse Genome Informatics
Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic,
phenotypic and genomic data. Nucleic Acids Res., 25: 85−91, 1997.
16. Twigger S., Lu J., Shimoyama M., Chen D., et al.: Rat Genome Database (RGD): mapping
disease onto the genome. Nucleic Acids Res. 30(1):125−8, 2002.
17. Hu J., Mungall C., Law A., Papworth R., et al.: The ARKdb: genome databases for farmed and
other animals. Nucleic Acids Res., 29(1):106−10, 2001.
18. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/
19. Ashburner M., Drysdale R.: FlyBase – the Drosophila genetic database. Development.
120(7):2077−9, 1994.
20. Curwen V., Eyras E., Andrews T.D., Clarke L., Mongin E., Searle S.M., Clamp M..: The
Ensembl automatic gene annotation system. Genome Res.14(5):942−50, 2004.
21. Kreppel L., Fey P., Gaudet P., Just E., Kibbe W.A., Chisholm R.L., Kimmel A.R.: dictyBase:
a new Dictyostelium discoideum genome database.” Nucleic Acids Res., 32 (Database issue):
D332−3, 2004.
22. Stein L., Sternberg P., Durbin R., Thierry-Mieg J., Spieth J.: WormBase: network access to the
genome and biology of Caenorhabditis elegans. Nucleic Acids Res., 29(1):82−6, 2001.
23. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nucleic Acids Res., 32 (Database issue):D23−6, 2004.
24. Kissinger J.C., Gajria B., Li L., Paulsen I.T., Roos D.S.: ToxoDB: accessing the Toxoplasma
gondii genome. Nucleic Acids Res., 31(1):234−6, 2003.
25. McCarthy S.: USDA's Plant Genome Research Program. Bull Med Libr Assoc. 81(3):278−81,
1993.
26. Ouyang S., Buell C.R..: The TIGR Plant Repeat Databases: a collective resource for the
identification of repetitive sequences in plants. Nucleic Acids Res., 32(Database issue): D360−3,
2004.
115
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek, B. Małysiak
w
27. Rathinavelu R.: Insights on CoffeeDNA: a Database of Coffee Genomics, publikacja
internetowa International Centre for Science and High Technology i United Nations Industrial
Development Organization. http://www.ics.trieste.it/
28. Mewes H.W., Albermann K., Heumann K., Liebl S., Pfeiffer F.: MIPS: a database for protein sequences, homology data and yeast genome information. Nucleic Acids Res., 25(1):28−30, 1997.
29. André B.: An overview of membrane transport proteins in Saccharomyces cerevisiae. Yeast 11,
1575−1611, 1995.
30. Nierman W.C., May G., Kim H.S., Anderson M.J., Chen D., Denning D.W.: What the Aspergillus genomes have told us. Med Mycol., 43 Suppl 1:S3-5, 2005.
31. Arnaud M.B., Costanzo M.C., Skrzypek M.S., Binkley G., Lane C., Miyasato S.R., Sherlock G.:
The Candida Genome Database (CGD), a community resource for Candida albicans gene and
protein information. Nucleic Acids Res., 33(Database issue):D358−63, 2005.
32. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description
of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res., 25: 39−42, 1997.
33. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement
TREMBL. Nucleic Acids Res., 24(1):21−5, 1996.
34. Komagata K.: Microbial resource centers in Japan and Asia. In S. Sugawara, and S. Miyazaki
(ed.), Microbial resource centers in the 21st century: new paradigms. WFCC-MIRCEN World
Data Centre for Microorganisms, Shizuoka, Japan, 1999.
35. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete
genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA
Res., 6(2):83-101, 145−52, 1999.
36. Cohen G., Barbe V., Flament D., Galperin M., et al.: An integrated analysis of the genome of the
hyperthermophilic archaeon Pyrococcus abyssi. Mol Microbiol., 47:1495−512, 2003.
37. Higuchi S., Kawashima T., Suzuki M.: Comparison of pathways for amino acid biosynthesis in
archaebacteria using their genomic DNA sequences. Proc. Japan Acad., 75B, 241−245, 1999.
38. Combet C., Penin F., Geourjon C., Deleage G.: HCVDB: hepatitis C virus sequences database.
Appl Bioinformatics, 3(4):237−40, 2004.
39. Stoesser G., Sterk P., Tuli M.A., Stoehr P.J., Cameron G.N..: The EMBL Nucleotide Sequence
Database. Nucleic Acids Res. 25(1):7−14, 1997.
40. Myers G., Josephs S.F., Rabson A.B., Smith T.F.: Human Retroviruses and AIDS 1987: A
Compilation and Analysis of Nucleic Acid and Amino Acid Sequences. Eds. Theoretical
Biology and Biophysics Group, Los Alamos National Laboratory, Los Alamos, NM, 1987.
41. King A.M.Q., Brown F., Christian P., et al.: Picornaviridae. In "Virus Taxonomy: The
Classification and Nomenclature of Viruses. The Seventh Report of the International Committee
on Taxonomy of Viruses". Eds. Van Regenmortel, M.H.V., et al., Academic Press, San Diego,
pp. 657−673.
42. Korab-Laskowska M., Rioux P., Brossard N., Littlejohn T.G., Gray M.W., Lang B.F., Burger G.:
The Organelle Genome Database Project (GOBASE). Nucleic Acids Res., 26(1):138−44, 1998.
43. Attimonelli M., Altamura N., Benne R., Boyen C., et al. : MitBASE: a comprehensive and
integrated mitochondrial DNA database. Nucleic Acids Res., 27(1):128−33, 1999.
44. O'Donoghue S.I., Meyer J.E., Schafferhans A., Fries K.: The SRS 3D module: integrating
structures, sequences and features. Bioinformatics, 20(15):2476−8, 2004.
45. Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A.: Entrez: molecular biology database and
retrieval system. Methods Enzymol., 266:141−62, 1996.
46. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J.: Basic local alignment search tool.
J Mol Biol, 215:403−10, 1990.
47. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein
knowledgebase. Nucleic Acids Res. 32(Database issue):D115−9, 2004.
da
.b
w
w
pl
s.
116
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006

Podobne dokumenty