pobierz plik referatu

Transkrypt

pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Rozdział 12
w
Bioinformatyczne bazy danych – poziomy opisu
funkcjonowania organizmów
w
1 Wstęp
da
.b
w
Streszczenie. Bioinformatyczne bazy danych to zbiory, w których zawarte są
dane o charakterze biologicznym dotyczące różnych organizmów. Funkcjonowanie badanego organizmu może być analizowane na różnych poziomach
molekularnego opisu – może to być np. poziom genetyczny, związany z sekwencją DNA/RNA, poziom proteomiczny, związany z sekwencją białka lub
jego strukturą, i in. W rozdziale przedstawiono podział bioinformatycznych
baz danych ze względu na poziom opisu lub, bardziej konkretnie, ze względu
na rodzaj informacji składowanej w bazie. Liczne przykłady baz danych
utwierdzą czytelnika w skali prowadzonych badań i różnorodności przechowywanych informacji.
pl
s.
Kiedy w 1971 roku w Brookhaven National Laboratory zbudowano bazę danych Protein
Data Bank (PDB) [1] do przechowywania danych z badań krystalograficznych nad strukturą białek, nikt nie ośmielał się przypuszczać, jakie rozmiary i ile informacji będzie ona zawierać w przyszłości. Wówczas złożono w niej zaledwie 7 struktur przestrzennych molekuł. Z czasem jednak liczba deponowanych w każdym roku w bazie PDB struktur białkowych zaczęła rosnąć – od kilku na rok w latach siedemdziesiątych do tysięcy na rok w ostatnich latach [2]. Tak ogromny przyrost danych makromolekularnych był efektem stosowania coraz bardziej zaawansowanych technologii komputerowych wspomagających procesy badawcze. Wzrost ilości danych o charakterze biologicznym przyspieszyło również
przyznanie funduszy na badania nad sekwencjami DNA w projekcie Human Genome Project (HGP) [3] rozpoczętym w 1990 roku oraz sprzężony rozwój takich gałęzi nauki jak genomika, proteomika i transkryptomika. Badania nad sekwencjami DNA i sekwencjami aminokwasów białek zaczęły obejmować coraz więcej organizmów. Dodatkowo, oprócz danych pochodzących z badań laboratoryjnych, zaczęto gromadzić masy danych wtórnych,
pochodzących z analizy laboratoryjnych danych pierwotnych. Równolegle, zaawansowanej
analizie tekstowej text mining zostały poddane wydane dotychczas publikacje naukowe,
które zawierały sporą ilość informacji o charakterze biologicznym. Wydobyta w ten sposób
informacja została poddana ustrukturalizowaniu i stanowiła niejako trzecie źródło danych
o istocie istnienia i funkcjonowania organizmów. Bez wątpienia, wszystkie zebrane informacje należało gromadzić w specjalnie zaprojektowanych bazach danych.
Dariusz Mrozek: Politechnika Śląska, Instytut Informatyki,
ul. Akademicka 16, 44-100 Gliwice, Polska
email: [email protected]
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
w
Bioinformatyczne bazy danych to zbiory, w których gromadzone są dane o charakterze
biologicznym. Najczęściej są to dane pochodzące z badań biochemików i biologów molekularnych, ale również, informacje wyprowadzone w określony sposób z danych pierwotnych. Dane wyprowadzone mogą w dalszej fazie również podlegać analizie, dając odpowiedzi na zasadnicze pytania o biologiczną wartość badanego zagadnienia. Informacje
przechowywane w biologicznych bazach danych dotyczą najczęściej: sekwencji DNA, znalezionych genów, ich umiejscowienia w sekwencji, roli w organizmie, produktów ekspresji
w postaci białek, sekwencji, struktury i funkcji powstałych białek. Bioinformatyczne bazy
danych stały się nieodłącznym elementem każdego instytutu i laboratorium prowadzącego
badania nad biologiczną rolą białek – podstawowych molekuł funkcjonalnych w każdej żywej komórce organizmu – oraz leżącym u ich podstaw uwarunkowaniom genetycznym. Powstały również centralne repozytoria danych zarządzane przez międzynarodowe agencje
zajmujące się kolekcjonowaniem danych i ujednoliceniem sposobu ich przechowywania,
np. bazy danych utrzymywane przez European Molecular Biology Laboratory (EMBL)
i European Bioinformatics Institute (EBI) oraz National Center for Biotechnology Information (NCBI)1. Dane tych organizacji są dostępne publicznie i nieodpłatnie, a osoby zainteresowane mogą korzystać z szerokiej gamy najnowszych rozwiązań oraz narzędzi dostępu
i przetwarzania tych danych.
w
w
da
.b
2 Podział bioinformatycznych baz danych
pl
s.
Informacje gromadzone w bioinformatycznych bazach danych mogą na różnym poziomie
opisu charakteryzować te wybrane organizmy, które z wielu względów znalazły się
w kręgu zainteresowań naukowców. Różnorodność i format przechowywanych opisów
spowodował, iż nieodzownym i naturalnym stało się wyodrębnienie określonych grup
danych, uwzględniając pewne przechowywane cechy. A zatem podział bioinformatycznych
baz danych można wyobrazić sobie następująco:
− ze względu na źródło pochodzenia danych,
− ze względu na organizm, dla którego tworzy się kolekcję danych,
− ze względu na rodzaj przechowywanej informacji lub inaczej, poziom opisu molekularnego.
Dwie pierwsze kategorie, wraz z odpowiednimi przykładami baz, zostały omówione w poprzednim rozdziale. Przykłady baz, podane podczas klasyfikacji ze względu na organizm/gatunek, pokazują, że bazy te przechowują dane o różnym charakterze. Organizm, dla którego
dane są gromadzone może być opisany na różnym poziomie – może to być np. poziom sekwencji nukleotydów DNA, poziom sekwencji aminokwasów lub struktur białek tego organizmu. Pojawia się zatem trzeci sposób klasyfikacji baz danych bioinformatycznych – klasyfikacja ze względu na poziom opisu lub, bardziej konkretnie, ze względu na rodzaj informacji gromadzonej w bazie. Zgodnie z tym sposobem wśród biologicznych baz danych można wyróżnić [4]:
− bazy danych nukleotydów,
− bazy danych genomów,
− bazy danych mikromacierzowych,
− białkowe (proteinowe) bazy danych,
− literaturowe (bibliograficzne) bazy danych,
− taksonomiczne bazy danych.
1
EMBL (http://www.embl.org), EBI (http://www.ebi.ac.uk), NCBI (http://www.ncbi.nlm.nih.gov).
118
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów
w
Bazy danych nukleotydów (ang. nucleotide databases) są zbiorami danych o sekwencjach
nukleotydów kwasów DNA i różnego typu kwasów RNA dla znanych i zsekwencjonowanych organizmów. Informacje składowane w bazach danych nukleotydów są bezpośrednim
efektem światowych projektów sekwencjonowania genomów. Pojedyncza sekwencja będąca ciągiem liter A, T, G, C (dla DNA) lub A, U, G, C (dla RNA) jest zapisywana wraz z dodatkową adnotacją informacyjną o: organizmie pochodzenia, pełnionej w nim funkcji, produktach translacji, wyodrębnionych w sekwencji genach i in.
Najbardziej znaną bazą danych nukleotydów jest GenBank [5], będący rezultatem międzynarodowej współpracy o nazwie International Nucleotide Sequence Database Collaboration (INSDC). W skład kooperacji INSDC wchodzą japońska baza DNA Data Bank of
Japan (DDBJ) [6] utrzymywana przez Center for Information Biology (CIB)2, europejska
baza EMBL Nucleotide Sequence Database [7] zarządzana przez European Bioinformatics
Institute (EBI) z siedzibą w Cambridge w Wielkiej Brytanii oraz amerykański bank informacji genetycznej GenBank kontrolowany przez National Center for Biotechnology Information (NCBI). Wszystkie trzy zrzeszone w INSDC organizacje synchronizują codziennie
swoje bazy, dzięki czemu przechowują one niemal te same dane (z dokładnością do jednego dnia). GenBank i stowarzyszone bazy są podzielone dodatkowo na podsekcje ze względu na rodzaje/gatunek organizmów, dla których przechowywane są sekwencje nukleotydów. Podział ten jest podobny do przedstawionego w poprzednim rozdziale. Więcej na temat formy danych oraz przykłady przeszukiwania bazy danych GenBank zostały opisane
w rozdziale „Sekwencje nukleotydów bazy GenBank w diagnozowaniu schorzeń cukrzycy”
[8].
Istnieje również pewna grupa baz danych związanych z sekwencjami nukleotydów, mająca jednak specjalne przeznaczenie. Do tego typu baz należą np. bazy genomów (genomowe, ang. genomic databases), które przechowują dane o kompletnych genomach3 wybranego organizmu lub grupy organizmów. Struktura takich baz i sposób przechowywania informacji mogą być podobne lub znacznie różnić się od sposobu przechowywania sekwencji
w banku genów GenBank. Najczęściej zależy to od samych twórców bazy danych. Rys. 1
przedstawia fragment kompletnego genomu bakterii E.coli w formacie Pearsona (FASTA)
[9] pochodzący z bazy genomów EMBL Whole Genomes Shotgun [10].
da
.b
w
w
pl
s.
Rys. 1. Fragment kompletnego genomu pałeczki Escherichia coli szczep B7A (nie zamieszczono pełnego ze względu na jego długość – 284 206 par bazowych4). Sposób prezentacji (z wykorzystaniem formatu FASTA) podobny jak w bazie nukleotydów GenBank
2
http://www.cib.nig.ac.jp
Genom to całość kwasu nukleinowego zawierająca informacje genetyczną organizmu.
4
Ang. base pairs – liczba liter sekwencji DNA często podawana jest w tzw. parach bazowych (bp).
3
119
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
w
Inne bazy genomów to m.in.: Karyn's Genomes [11] (zawiera ogólne informacje o organizmach, których genomy zostały zsekwencjonowane, odnośniki literaturowe i odnośniki do
sekwencji nukleotydów w innych bazach), baza genomu myszy Mouse Genome Database
(MGD) [12], szczura Rat Genome Database (RGD) [13], muszki owocowej FlyDB [14],
bakterii e.coli E.Coli Database Collection (ECDC) [15], mikroorganizmów archaea
DOGAN [16] oraz wiele innych.
Innym przykładem baz danych związanych z sekwencjami nukleotydów są bazy danych
mikromacierzowych (ang. microarray databases) Są to typowe bazy wtórne (wyprowadzone) – zgromadzone w nich dane pochodzą z eksperymentów mikromacierzowych bazujących na sekwencjach nukleotydów (rys. 2). Technologia mikromacierzowa pozwala odpowiedzieć na pytanie – jakie geny ulegają ekspresji w określonych komórkach organizmu,
w określonym czasie i warunkach [4]. Dzięki technologii mikromacierzowej możliwe jest
na przykład porównanie ekspresji genów z DNA komórki zdrowej i nowotworowej. Bazy
danych mikromacierzowych przechowują najczęściej dane dotyczące macierzy ekspresji
genów będącej wynikiem eksperymentu, a także adnotacje dotyczące znalezionych genów,
adnotacje dotyczące wprowadzonych do badania próbek Tylko w ten sposób, składując
w bazie danych informację o warunkach doświadczenia i dokładny opis badanej komórki,
będzie można porównywać ze sobą wyniki uzyskane z różnych eksperymentów mikromacierzowych. Przykładem bazy mikromacierzowej może być europejska ArrayExpress [17]
utrzymywana przez EBI oraz GEO (Gene Expression Omnibus) [18] prowadzona przez
NCBI.
da
.b
w
w
Komórka w
stanie 1
mRNA
cDNA
hybrydyzacja do
mikromacierzy
pl
s.
Komórka w
stanie 2
skanowanie laserem
Rys. 2. Mikromacierz DNA (zwana czasem chipem DNA, macierzą DNA [4]) jest szklaną
lub plastikową płytką podzieloną na mikroskopijnej wielkości pola (ang. spots) z różnymi
sekwencjami DNA. Próbka lub próbki DNA/RNA oznaczone znacznikiem fluorescencyjnym łączą się z sekwencjami mikromacierzy na zasadzie komplementarności zasad. Pola
zawierające próbki z sekwencjami o dużej ekspresji świecą intensywniej w świetle lasera.
W ten sposób można badać ekspresję tysięcy genów jednocześnie [19] (źródło obrazu [20])
Białkowe bazy danych (proteinowe bazy danych, ang. protein databases) stanowią doskonałe źródło informacji o budowie białek i pełnionej przez nie funkcji. Ponieważ budowę
białka można opisać na różnym poziomie (np. na poziomie sekwencji aminokwasów lub na
poziomie struktury przestrzennej), wobec tego powstało wiele specjalizowanych baz skoncentrowanych na określonym opisie. Z jednej strony, istnieją bazy uniwersalne przechowujące dane dotyczące wszystkich gatunków organizmów, tak, jak baza GenBank dla sekwencji nukleotydów. Z drugiej strony, istnieje szereg specjalizowanych baz proteinowych skoncentrowanych na wybranych grupach białek lub wybranym organizmie [4]. Do najbardziej
120
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów
w
znanych uniwersalnych baz sekwencji proteinowych należą UniProt [21] zarządzana
przez EBI oraz NCBI Proteins [22] (koncentruje dane z różnych baz stowarzyszonych).
UniProt (Universal Protein Resource) jest centralnym repozytorium danych o sekwencjach
białek, ich funkcji i klasyfikacji, które łączy informację z trzech baz: (1) UniProt/SwissProt
[23] – bazy opisanych sekwencji białkowych (ang. annotated sequences), (2) UniProt/
TrEMBL (Translation of EMBL nucleotide sequence database) [24] – bazy sekwencji białkowych pochodzących z translacji regionów kodujących (CDS) sekwencji nukleotydów bazy EMBL Nucleotide oraz (3) PIR (Protein Information Resource) [25] – najstarszej bazy
opisanych sekwencji białkowych. Przykład sekwencji aminokwasów enzymu Homoserine
kinase z bazy danych UniProt przedstawiono na rys. 3. Więcej na temat formy danych
i sposobów przeszukiwania bazy danych UniProt zostało opisane w rozdziale [26]. Zbiory
danych sekwencji aminokwasów bazy NCBI Proteins pochodzą z bazy UniProt/SwissProt,
baz: PIR, PRF (Protein Research Foundation) [27], PDB (Protein Data Bank) [1] i z translacji regionów kodujących DNA bazy GenBank.
w
w
da
.b
Rys. 3. Sekwencja aminokwasów enzymu 2.7.1.39 Homoserine kinase bakterii Escherichia coli biorącego udział w rozpadzie ATP do ADP i wolnego fosforanu
pl
s.
Oprócz uniwersalnych baz danych sekwencji białkowych, istnieje również szereg specjalizowanych baz związanych z sekwencjami. Baza ENZYME [28] zawiera dodatkowe dane
potrzebne do opisu enzymów zgodnie z rekomendacją Nomenclature Committee of the International Union of Biochemistry and Molecular Biology (IUBMB). Znajdują się w niej
informacje o aktywności katalitycznej enzymu, kofaktorach, używanych nazwach enzymu
i synonimach, identyfikator EC (Enzyme Commission), wskaźniki do opisu chorób związanych z nieprawidłowym działaniem lub brakiem enzymu oraz wskaźniki do właściwej sekwencji w bazie danych Swiss/Prot. Baza InterPro [29] grupuje ogromne liczby białek w rodziny (ang. families) bazując na podobieństwie sekwencji aminokwasów. Białka z tej samej
rodziny posiadają najczęściej wspólne motywy5 (ang. motifs) lub dzielą pewne atrybuty
funkcjonalne6. Dane w bazie InterPro pochodzą z innych niezależnych baz związanych
z grupowaniem białek w rodziny, takich jak: PROSITE [30], PRINTS [31], Pfam [32],
ProDom [33], SMART [34], iProClass [35] i TIGRFAMs [36]. Odrębną inicjatywę w tej
dziedzinie stanowi baza SBASE [37]. Dane o klasyfikacji białek składowane są również
w takich bazach jak MEROPS [38] czy CluSTr [39].
Z punktu widzenia analizy funkcji białek ogromne znaczenie mają bazy danych struktur białkowych. Główną informację, którą przechowują bazy struktur stanowią współrzędne atomów cząsteczki białka – są to tzw. dane makromolekularne. Współrzędne mogą mieć
rozmaitą postać – najczęściej jednak są to współrzędne kartezjańskie x, y, z, rzadziej tzw.
współrzędne wewnętrzne (ang. internal coordinates) np. odległości dwóch wybranych atomów, kąty miedzy wiązaniami kowalencyjnymi lub kąty skręcenia (torsyjne). Na podstawie
danych zgromadzonych w bazach danych struktur białkowych możliwa jest trójwymiarowa
wizualizacja kształtu białka (rys. 4). Analiza struktur doprowadziła również do wprowadze5
Charakterystyczne fragmenty sekwencji aminokwasów. Inne używane nazwy to: sygnatury (ang.
signatures), wzorce (ang. patterns) lub odciski palców (ang. fingerprints).
6
Posiadają pewne domeny funkcyjne czyli regiony sekwencji pełniące określoną funkcję, np. decydujące o aktywności katalitycznej enzymu lub łączące się z lekiem.
121
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
w
nia klasyfikacji białek i pozwala przewidywać funkcję nowo odkrytego białka poprzez porównanie jego struktury przestrzennej ze strukturami białek przechowywanych w bazie
i znalezienie podobieństw strukturalnych. Najbardziej znaną bazą danych strukturalnych
jest Protein Data Bank (PDB) [1] prowadzona obecnie przez Research Collaboratory for
Structural Bioinformatics (RCSB) w Stanach Zjednoczonych. Struktury zdeponowane
w bazie PDB pochodzą najczęściej z badań krystalografii rentgenowskiej (rentgenografii
strukturalnej) i obserwacji z wykorzystaniem nuklearnego rezonansu magnetycznego (spektroskopii NMR). Oprócz danych o współrzędnych atomów, w bazie PDB przechowywane
są również dodatkowe adnotacje opisowe oraz łącza do innych serwisów informacyjnych
np. serwisów NCBI. Baza PDB jest źródłem danych strukturalnych dla europejskiej bazy
EBI Macromolecular Structure Database (MSD) [41] oraz amerykańskiej NCBI Molecular
Modeling DataBase (MMDB) [42]. Obie bazy przechowują dane w różnych formatach
i starają się wyeliminować niedoskonałości i ograniczenia przechowywania informacji
w postaci plików tekstowych, jak to ma miejsce w przypadku bazy PDB. Spośród mniej
znanych baz strukturalnych wspomnieć należy o bazie Nucleic Acid Database (NDB) [43]
utrzymywanej przez Rutgers, The State University of New Jersey (pierwotnego kustosza
bazy PDB) oraz bazie struktur dla małych molekuł Cambridge Structural Database (CSD)
[44] brytyjskiego Cambridge Crystallographic Data Centre (CCDC) (używanej najczęściej
do obserwacji interakcji typu białko-ligand).
da
.b
w
w
pl
s.
Rys. 4. Różne reprezantacje struktury enzymu human topoisomerase (1A36 w bazie PDB)
oplatającego helisę DNA i odpowiedzialnego za jej rozplatanie w jądrze komórkowym. Wizualizacja przy pomocy programu RasMol [40] – w kolejności od lewej reprezentacje:
atomowa, wstęgowa, atomowa z wypełnionymi przestrzeniami między atomami
Rozwijają się również bazy, których celem jest kolekcjonowanie informacji dotyczących
biologicznej aktywności białek, szlaków sygnałowych i reakcjach wewnątrzkomórkowych,
w których białka te biorą udział. Do tego typu baz należą: kanadyjska baza interakcji międzyproteinowych BIND (Biomolecular Interaction Network Database) [45], amerykańska
baza sieci reakcji wewnątrzkomórkowych i szlaków metabolicznych BioCarta [46], japońska baza sieci reakcji biochemicznych (rys. 5), interakcji proteinowych i związanych z tym
genów KEGG (Kyoto Encyclopedia of Genes and Genomes) [47] oraz belgijska inicjatywa
aMAZE [48].
122
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów
w
da
.b
w
w
Rys. 5. Sieć reakcji komórkowych w procesie metabolizmu aminokwasu cysteiny wizualizowana na podstawie danych zgromadzonych w japońskiej bazie danych KEGG. Prostokąty z numerami EC oznaczają enzymy biorące udział w reakcjach, kółka oznaczają produkty
pośrednie szlaku, zaokrąglone prostokąty są miejscami przejścia do innego szlaku
pl
s.
Bazy danych literaturowe (lub bibliograficzne, ang. bibliographic databases) – przechowują informacje o odwołaniach literaturowych (ang. bibliographic citations) i streszczeniach (ang. abstracts) publikacji naukowych z różnych czasopism. W obszarze zainteresowań znajdują się publikacje z takich dziedzin jak: biologia, biochemia, biofizyka, chemia,
medycyna, położnictwo, stomatologia, weterynaria, zoologia, opieka zdrowotna, ochrona
środowiska i in. Do najbardziej znanych baz należą: baza MEDLINE [49] prowadzona
przez U.S. National Library of Medicine's® (NLM) oraz PubMed [50] dostępna na stronach National Center for Biotechnology Information (NCBI). Obie bazy udostępniają abstrakty publikacji naukowych oraz łącza do pełnych tekstów tych publikacji. Pełne teksty
mogą być składowane w bazach konkretnego czasopisma i dostępne z wykorzystaniem jego
serwisu internetowego, a sam dostęp do nich może być autoryzowany i wymagać płatnego
członkostwa lub uiszczenia jednorazowej opłaty (tzn. można kupić tekst artykułu). Obecnie
baza MEDLINE jest podstawową częścią bazy PubMed. PubMed (rys. 6) przechowuje ponad 15 milionów odwołań literaturowych do blisko 5 tys. czasopism naukowych z USA
i 70 innych krajów, gromadzonych od połowy lat 60. XX wieku7.
7
źródło: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed
123
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
w
da
.b
w
w
Rys. 6. Okno przeszukiwania bazy literaturowej PubMed na stronach serwisu NCBI Entrez
pl
s.
Wśród mniejszych baz wspomnieć należy jeszcze o brytyjskiej bazie bibliograficznej Bath
Information and Data Services (BIDS) [51] oraz bazie BIOSIS [52] - zarządzanej przez
Thomson Scintific. Obie zawierają dane literaturowe z szerokiego spektrum nauk biologicznych. Z kolei, takie bazy jak: CAB International [53] czy AGRICOLA (AGRICultural
OnLine Access) [54] udostępniają dane literaturowe w obszarze agronomii, leśnictwa i ochrony środowiska. Znajdują się w nich odwołania literaturowe, streszczenia publikacji, raporty, rozdziały książek, publikacje seryjne, a nawet materiały audiowizualne.
Bazy danych taksonomii (ang. taxonomic databases) – prowadząc ewidencję różnych
cech wielu organizmów konieczne staje się zaprowadzenie odpowiedniego porządku
w sposobie nazewnictwa tych organizmów lub wykorzystanie już istniejącej klasyfikacji
rodzajów i gatunków. Dzięki temu zapewnia się, iż podczas przeszukiwania danych nie
wystąpi problem synonimiki i łatwo będzie można znaleźć konkretny organizm i wszystkie
wpisy, które go dotyczą. W tym właśnie celu powstały bazy danych taksonomii, których
zadaniem jest przechowywanie informacji o klasyfikacji organizmów biologicznych do odpowiednich jednostek klasyfikacji (tzw. taksonów) oraz spójnej informacji o ich nazwach
naukowych. Do najczęściej wykorzystywanych baz tego typu należy Taxonomy Database
[55] organizacji NCBI. Baza ta klasyfikuje wszystkie organizmy, dla których istnieje chociaż jedna sekwencja w bazie sekwencji nukleotydów GenBank lub bazie danych sekwencji
aminokwasów NCBI. Równie powszechną bazą taksonomii jest NEWT [56] European Bioinformatics Institute (EBI). Baza NEWT jest utrzymywana przez grupę związaną z bazą danych sekwencji białkowych UniProt organizacji EBI, a znajdujące się w niej dane pochodzą
z bazy taksonomii NCBI Taxonomy Database oraz z bazy wiedzy UniProt Knowledgebase
[21]. W każdym z przypadków budowane jest hierarchiczne drzewo klasyfikacji organizmów (rys. 7), którego poszczególne poziomy określają przynależność organizmu do odpo124
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów
wiedniego królestwa, typu, gromady lub klasy, rzędu, rodziny, rodzaju i gatunku. W wielu
przypadkach można spotkać się jednak z hierarchią uproszczoną lub hierarchią przyjętą
przez twórców bazy danych, która nie musi być w pełni zgodna z naturalna klasyfikacją
biologiczną.
w
da
.b
w
w
Rys. 7. Pochodzenie organizmu Toxoplasma gonidii. Dostęp do bazy NEWT z wykorzystaniem serwisu internetowego EBI
pl
s.
Istnieje również kilka niezależnych inicjatyw w zakresie klasyfikacji organizmów, do
których należy zaliczyć:
− projekt Tree of Life [57] będący wspólnym wysiłkiem biologów z całego świata nad
stworzeniem jednolitej klasyfikacji naturalnej organizmów8;
− federację organizacji zajmujących się kolekcjonowaniem danych taksonomicznych
Species 2000 [58], której celem jest wymiana danych taksonomicznych z wielu światowych baz danych i stworzenie globalnego systemu klasyfikacji wszystkich znanych
organizmów; Species 2000 to inicjatywa brytyjska wspierana z funduszy europejskich;
− organizację Integrated Taxonomic Information System (ITIS) [59], której celem jest
budowa bazy danych zawierającej jednolite nazwy organizmów i ich hierarchiczną
klasyfikację; ITIS jest inicjatywą północno amerykańską i współpracuje z europejskim projektem Species 2000;
− australijską International Organization for Plant Information (IOPI) [60], która zajmuje się klasyfikacją informacji taksonomicznej w odniesieniu do organizmów roślinnych; IOPI jest również członkiem Species 2000.
8
Tzn. takiej klasyfikacji, która odzwierciedla ich pokrewieństwo na drodze ewolucji (filogenezę).
125
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
3 Podsumowanie
w
Bioinformatyczne bazy danych przechowują obecnie znaczne ilości danych pochodzących
z badań biologów molekularnych i biochemików, danych wyprowadzonych w procesach
analitycznych i obliczeniowych z istniejących już danych w bazach danych oraz danych
uzyskanych z publikacji naukowych przy pomocy zaawansowanych technik wyszukiwania
(text minning). Dane te stanowią doskonałe źródło informacji dla szerokiej międzynarodowej społeczności naukowej − na co dzień korzystają z nich przedstawiciele takich dziedzin
jak: medycyna, biologia, biochemia, fizyka i in. Określone grupy badawcze zajmują się
obserwacją różnych zjawisk zachodzących na poziomie molekularnym generując coraz to
nowsze informacje. Ze względu na swój charakter, informacje te tworzą różne konteksty,
względem których można analizować funkcjonowanie organizmów. Wykształcił się zatem
odpowiedni podział bioinformatycznych baz danych uwzględniający rodzaj informacji
składowanej w bazie. Podstawowe grupy tworzą bazy danych informacji genetycznej i różnorodnej informacji o białkach. Nie należy jednak zapominać o bazach literaturowych,
dzięki którym możliwe jest zgłębianie wiedzy z zakresu badanego genu, białka, czy organizmu oraz o bazach taksonomicznych wprowadzających ustalony porządek w nazewnictwie organizmów. Wiele z tych baz danych jest prowadzona przez rządowe agencje i udostępniona publicznie za pośrednictwem odpowiednich serwisów internetowych (takich jak
EBI czy NCBI), dzięki czemu użytkownicy mają dostęp do różnorodnej informacji w jednym miejscu.
1.
da
.b
w
w
Literatura
pl
s.
Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and
Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235–242, 2000.
2. Berman H.M., Bourne P.E., Westbrook J.: The Protein Data Bank: A Case Study in Management
of Community Data. Current Proteomics, 1, 49−57, 2004.
3. U.S. Department of Health and Human Services, U.S. Department of Energy: Understanding our
genetic inheritance − the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No.
90−1590.
4. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the
European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/
5. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nucleic Acids Res., 32 (Database issue):D23−6, 2004.
6. Tateno Y., Imanishi T., Miyazaki S., Fukami-Kobayashi K., et al.: DNA Data Bank of Japan
(DDBJ) for genome scale research in life science. Nucleic Acids Res., 30(1):27−30, 2002.
7. Kanz C., Aldebert P., Althorpe N., Baker W., et al., The EMBL Nucleotide Sequence Database.
Nucleic Acids Res., 33(Database issue):D29−33, 2005.
8. Mrozek D., Małysiak B., et al., Sekwencje nukleotydów bazy GenBank w diagnozowaniu
schorzeń cukrzycy. rozdział monografii „Bazy Danych – Struktury, Algorytmy, Metody”, red.
zb. S. Kozielski, et al., w publikacji.
9. Pearson W.R. and Lipman D.J.: Improved Tools for Biological Sequence Analysis, PNAS
85:2444−2448, 1988.
10. Whole Genome Shotgun Sequences, http://www.ebi.ac.uk/genomes/index.html
11. Karyn's Genomes, http://www.ebi.ac.uk/2can/genomes/genomes.html
12. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T., and the Mouse Genome Informatics
Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic,
phenotypic and genomic data. Nucleic Acids Res 25: 85−91, 1997.
126
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów
w
13. Twigger S., Lu J., Shimoyama M., Chen D., et al. : Rat Genome Database (RGD): mapping
disease onto the genome. Nucleic Acids Res. 30(1):125−8, 2002.
14. Ashburner M., Drysdale R.: FlyBase – the Drosophila genetic database. Development.
120(7):2077−9, 1994.
15. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description
of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res. 25: 39−42, 1997.
16. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete
genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA
Res. 6(2):83-101, 145−52, 1999.
17. Parkinson H., Sarkans U., Shojatalab M., Abeygunawardena N., et al.: ArrayExpress − a public
repository for microarray gene expression data at the EBI. Nucl. Acids Res., 33:D553−D555,
2005.
18. Barrett T., Suzek T.O., Troup D.B., Wilhite S.E., et al. : NCBI GEO: mining millions of expression profiles − database and tools. Nucleic Acids Res. 33(Database issue):D562−6, 2005.
19. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/
20. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes
and Proteins. John Wiley & Sons, Inc. 2001.
21. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein
knowledgebase. Nucleic Acids Res. 32(Database issue):D115−9, 2004.
22. Wheeler D.L., Chappey C., Lash A.E., Leipe D.D., et al.: Database resources of the National
Center for Biotechnology Information. Nucleic Acids Res., 28(1):10−4, 2000.
23. Bairoch A., Boeckmann B.: The SWISS-PROT protein sequence data bank. Nucleic Acids Res.,
19 Suppl:2247−9, 1991.
24. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement
TREMBL. Nucleic Acids Res., 24(1):21−5, 1996.
25. Wu C.H., Yeh L.S.L., Huang H., Arminski L., et al.: The Protein Information Resource. Nucleic
Acids Research, 31: 345-347, 2003.
26. Małysiak B., Mrozek D., et al., Bioinformatyczne bazy danych: sekwencje aminokwasów bazy
UniProt, materiały konferencyjne KK Sieci Komputerowe 2006, w recenzji.
27. Peptide/Protein Sequence Database (PRF/SEQDB), The Protein Research Foundation.
http://www4.prf.or.jp/en/pn.html.
28. Bairoch A.: The ENZYME database in 2000. Nucleic Acids Res 28:304−305, 2000.
29. Apweiler R., Attwood T.K., Bairoch A., Bateman A., et al.: The InterPro database, an integrated
documentation resource for protein families, domains and functional sites. Nucleic Acids Res.,
29(1):37−40, 2001.
30. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., et al.: PROSITE: a documented database using
patterns and profiles as motif descriptors. Brief Bioinform. 3:265−274, 2002.
31. Attwood T.K., Beck M.E., Bleasby A.J., Parry-Smith D.J.: PRINTS - A database of protein
motif fingerprints. Nucleic Acids Research, 22(17), 3590−3596, 1994.
32. Bateman A., Coin L., Durbin R., Finn R.D., et al.: The Pfam Protein Families Database. Nucleic
Acids Research, Database Issue 32:D138−D141, 2004.
33. Bru C., Courcelle E., Carrère S., Beausse Y., Dalmar S., Kahn D.: The ProDom database of
protein domain families: more emphasis on 3D. Nucleic Acids Res. 33: D212−D215, 2005.
34. Letunic I., Copley R.R., Schmidt S., Ciccarelli F.D., et al.: SMART 4.0: towards genomic data
integration. Nucleic Acids Research, Vol. 32, Database issue D142−D144, 2004.
35. Huang H., Barker W.C., Chen Y., Wu C.: iProclass: an integrated database of protein family
classification, function and structure information. Nucleic Acids Res., 31: 390−392, 2003.
36. Haft D.H., Loftus B.J., Richardson D.L., Yang F., Eisen J.A., Paulsen I.T., White O.:
TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic
Acids Res. 29(1):41−3, 2001.
37. Pongor S., Skerl V., Cserzo M., Hatsagi Z., Simon G., Bevilacqua V.: The SBASE domain
library: a collection of annotated protein segments. Protein Eng. 6(4):391−5, 1993.
38. Rawlings N.D., Barrett A.J.: MEROPS: the peptidase database. Nucleic Acids Res., 27 (1):
325−31, 1999.
da
.b
w
w
pl
s.
127
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
D. Mrozek
w
39. Kriventseva E.V., Fleischmann W., Zdobnov E.M., Apweiler R..: CluSTr: a database of clusters
of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res., 29(1):33−6, 2001.
40. Sayle R.: RasMol, Molecular Graphics Visualization Tool. Biomolecular Structures Group,
Glaxo Welcome Research & Development, Stevenage, Hartfordshire, 1998.
41. Boutselakis H., Copeland J., Dimitropoulos D., Fillon J., et al.: E-MSD: the European Bioinformatics Institute Macromolecular Structure Database. Nucleic Acids Res., 31, 458−462, 2003.
42. Marchler-Bauer A., Addess K.J., Chappey C., Geer L., Madej T., Matsuo Y., Wang Y., Bryant
S.H.: MMDB: Entrez's 3D structure database. Nucleic Acids Res., 27(1):240−3, 1999.
43. Berman H.M., Olson W.K., Beveridge D.L., Westbrook J., et al.: The Nucleic Acid Database:
A Comprehensive Relational Database of Three-Dimensional Structures of Nucleic Acids.
Biophys. J., 63, 751−759, 1992.
44. Allen F.H., Taylor R.: Research applications of the Cambridge Structural Database (CSD).
Chem Soc Rev. 33(8):463−75, 2004.
45. Bader G.D., Betel D., Hogue C.W.V.: BIND: the Biomolecular Interaction Network Database.
Nucleic Acids Research, Vol. 31, No. 1 p. 248−250, 2003.
46. BioCarta: Charting Pathways of Life. http://www.biocarta.com/genes/
47. Ogata H., Goto S., Fujibuchi W., Kanehisa M.: Computation with the KEGG pathway database.
Biosystems, 47(1-2):119−28, 1998.
48. Lemer C., Antezana E., Couche F., Fays F., et al.: The aMAZE LightBench: a web interface to
a relational database of cellular processes. Nucleic Acids Res. 32(Database issue):D443−8, 2004.
49. Wallingford K.T., Humphreys B.L., Selinger N.E., Siegel E.R.: Bibliographic retrieval: a survey
of individual users of MEDLINE. MD Comput. 7(3):166−71, 1990.
50. McEntyre J., Lipman D.: PubMed: bridging the information gap. CMAJ. 164(9):1317-9, 2001.
51. BIDS Annual Report, Academic Year 1999 – 2000, http://www.bids.ac.uk/
52. BIOSIS Previews on the Web (OVID) − Quick Reference Guide, UCSD Biomedical Library,
2003.
53. CAB International, CABI: In review 1999-2004, Review Conference 2004. http://www.cabi.org/
54. AGRICOLA, National Agricultural Library (NAL) of the U.S. Department of Agriculture
(USDA), http://agricola.nal.usda.gov/help/aboutagricola.html
55. The NCBI Taxonomy Database. http://www.ncbi.nlm.nih.gov/Taxonomy/
56. Phan I.Q., Pilbout S.F., Fleischmann W., Bairoch A.: NEWT: a new taxonomy portal. Nucleic
Acids Res., 31(13):3822−3, 2003.
57. Maddison D.R. and Schulz K.S. (ed.): The Tree of Life Web Project. 2004. Internet address:
http://tolweb.org
58. Bisby F.A., Ruggiero M.A., Wilson K.L., Cachuela-Palacio M., Kimani S.W., Roskov Y.R.,
Soulier-Perkins A. and van Hertum J., (eds.): Species 2000 & ITIS Catalogue of Life: 2005
Annual Checklist. Species 2000: Reading, U.K. http://www.sp2000.org/
59. Integrated Taxonomic Information System (ITIS). Internet address: http://www.itis.usda.gov
60. International Organization for Plant Information (IOPI). Internet address:
http://plantnet.rbgsyd.gov.au/iopi/iopihome.htm
da
.b
w
w
pl
s.
128
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006

Podobne dokumenty