Rozdział monografii: `Bazy Danych: Struktury, Algorytmy, Metody
Transkrypt
Rozdział monografii: `Bazy Danych: Struktury, Algorytmy, Metody
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Rozdział 11 w Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja w 1 Wstęp da .b w Streszczenie. Bioinformatyka jest dziedziną nauki, która w ostatnim okresie bardzo intensywnie się rozwija. Ekspansja badań w dziedzinie biologii i biochemii molekularnej generuje bardzo wiele informacji, którą należy przechowywać w specjalnie do tego przeznaczonych bazach danych, w celu ich dalszej analizy. W dziedzinie baz danych bioinformatycznych autorzy podejmują próbę uszeregowania wiedzy związanej z gromadzeniem i przetwarzaniem danych o charakterze biologicznym. W rozdziale przedstawiono podstawowe informacje dotyczące bioinformatyki. Główną uwagę poświęcono bioinformatycznym bazom danych – ich klasyfikacji, przeznaczeniu i sposobom dostępu. pl s. Komórka organizmu jest podstawowym elementem w każdym żywym organizmie. Wszystkie instrukcje potrzebne do kierowania aktywnością komórki są zapisane w łańcuchu DNA. Rozpoczęcie w 1990 roku przez U.S. Department of Energy and the National Institutes of Health w USA prac pod nazwą Human Genome Project (HGP) [1] nad poznaniem kompletnego zbioru ludzkiego DNA (genomu) wprowadziło nową erę w dziedzinie nauk biologicznych – erę genomu [1]. Doprowadziła ona w krótkim czasie do eksplozji informacji biologicznej na skutek zastosowania zaawansowanych metod badań nad biologią molekularną i genomiką. Z jednej strony, tradycyjne badania, prowadzone dotąd w laboratoriach eksperymentalnych, zyskały wsparcie ze strony potężnych maszyn liczących, co zwiększyło możliwości poznawcze. Z drugiej strony, powstała duża liczba organizacji państwowych, instytutów uniwersyteckich oraz laboratoriów badawczych zajmujących się poznaniem tajemniczych słów zapisanych przy pomocy alfabetu złożonego z czterech nukleotydów – molekuł adeniny (A), tyminy (T), guaniny (G), cytozyny (C). W efekcie zaangażowania komputerów do analizy badań laboratoryjnych i powszechnego, w skali światowej, zainteresowania tematem, nastąpił gwałtowny wzrost liczby posiadanych danych, które należało zinterpretować. Ogromnym wyzwaniem dla ludzi zajmujących się biologią molekularną stało się zatem znalezienie sensu w bogactwie danych będących efektem projektów sekwencjonowania genomów. Wszelkie starania w tej dziedzinie zapoczątkowały istnienie nowego pola prowadzonych badań – bioinformatyki. Dariusz Mrozek, Bożena Małysiak: Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska email:{Dariusz.Mrozek, Bozena.Malysiak}@polsl.pl (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek, B. Małysiak w Bioinformatyka jest multidyscyplinarną dziedziną nauki, którego zasadniczym celem jest odkrycie bogactwa biologicznej informacji ukrytej w masie danych i otrzymania jaśniejszego wglądu w fundamenty biologiczne organizmu [2], [3], [4], [5], [6]. Bioinformatyka polega zatem na zastosowaniu technik informatycznych w interpretacji rezultatów badań biologicznych i biochemicznych. Istnieją trzy centralne procesy biologiczne, wokół których bioinformatyka się rozwija [7] (rys. 1): − Sekwencja nukleotydów w DNA determinuje sekwencję aminokwasów w białku. Każde białko ma jedyną w swoim rodzaju, właściwą sobie sekwencję aminokwasów, która jest zdeterminowana genetycznie. Sekwencja nukleotydów w DNA, cząsteczce dziedziczności, określa komplementarną sekwencję nukleotydów w RNA (w procesie transkrypcji), która z kolei determinuje sekwencję aminokwasów w białku (w procesie translacji) [8], [9]. − Sekwencja aminokwasów wpływa na strukturę białka. Analiza zależności między sekwencją aminokwasów a strukturą przestrzenną białka pozwoliła naukowcom ustalić pewne reguły rządzące fałdowaniem się łańcuchów białkowych, a więc przyjmowania ustalonych kształtów tzw. struktury drugorzędowej np. helisy α lub harmonijki β [10]. − Struktura białka jest związana z pełnioną przez nie funkcją w organizmie. Analiza struktury przestrzennej białek pozwala m.in. klasyfikować białka w grupy funkcjonalne i rodziny oraz przewidywać na tej podstawie potencjalne funkcje nowo odkrytych molekuł białkowych. Odkształcenia strukturalne białka na skutek pewnych czynników zewnętrznych, takich jak np. temperatura otoczenia lub jego kwasowość, mogą również wpływać na aktywność białka w komórce oraz zdolność do pełnienia swojej funkcji biologicznej. da .b w w Sekwencja DNA Sekwencja aminokwasów białka Struktura przestrzenna białka Funkcja i aktywność białka Rys. 1. Determinacja informacji biologicznej na kolejnych poziomach, poczynając od cząsteczki dziedziczności – DNA, kończąc na funkcji i aktywności białka w komórce organizmu pl s. Jednym z wyzwań, jakiemu musi sprostać bioinformatyka, jest właściwy sposób przechowywania danych umożliwiając ich wydajne przetwarzanie i analizę. Z tego powodu, powstały ogromne repozytoria, których celem stało się gromadzenie danych pochodzących bezpośrednio z badań biochemików lub biologów molekularnych oraz danych będących rezultatem prowadzonych analiz. Bioinformatyczne (biologiczne) bazy danych to zbiory danych przechowujące w jednolity i wydajny sposób dane z szerokiego spektrum obszarów biologii i biochemii. Ich niezwykle ważną cechą jest fakt, iż zawarte w nich informacje są szeroko dostępne dla społeczności naukowej [6], w większości przypadków za darmo. Z punktu widzenia medycznego przeszukiwanie i interpretacja danych pochodzących z badań biologów i biochemików otwiera ogromne wrota wiedzy, która może zostać wykorzystana przede wszystkim w leczeniu chorób, z jakimi do tej pory współczesny człowiek nie jest w stanie sobie poradzić. Biologiczne bazy danych stanowią doskonałe źródło informacji dla społeczności naukowej, w tym: lekarzy, biologów, biochemików, farmaceutów, weterynarzy, inżynierów żywności, energetyki i ochrony środowiska. Kolekcjonowanie danych o charakterze biologicznym rozpoczęło nowy rozdział w dziedzinie baz danych, które dotąd wykorzystywane były głównie jako systemy wspomagające pracę przedsiębiorstw produkcyjnych, handlowych i usługowych. Charakter tych danych wymaga zastosowania specjalistycznych 108 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja w metod przetwarzania i analizy, które powinny spełniać podstawowe kryteria wydajności. Należy mieć świadomość, że dane o charakterze biologicznym były kolekcjonowane już znacznie wcześniej niż rozpoczęto projekt HGP. Przykładem mogą być dane o strukturach białek pochodzące z badań krystalografii rentgenowskiej przechowywane w bazie Protein Data Bank (PDB) [11] już w latach siedemdziesiątych. Jednakże to sekwencjonowanie genomów w projekcie HGP pociągnęło za sobą sprzężony rozwój istniejących gałęzi nauk biologicznych - wyraźny postęp zanotowały takie gałęzie jak: proteomika, transkryptomika, metabolomika czy biotechnologia. Przetwarzanie danych z baz biologicznych stanowi także podstawę rozwoju nowych gałęzi naukowych, które pojawiły się w efekcie projektu HGP np. genomiki, inżynierii genetycznej, czy wybranych gałęzi nanotechnologii. w 2 Podział bioinformatycznych baz danych da .b w Informacje składowane w bioinformatycznych bazach danych mogą na różnym poziomie opisu charakteryzować te wybrane organizmy, które z wielorakich względów znalazły się w kręgu zainteresowań naukowców. Klasyfikację bioinformatycznych baz danych można zatem przeprowadzić na różnych płaszczyznach: − ze względu na źródło pochodzenia danych, − ze względu na organizm, dla którego tworzy się kolekcję danych, − ze względu na rodzaj przechowywanej informacji lub inaczej, poziom opisu molekularnego. Dwie pierwsze kategorie, wraz z odpowiednimi przykładami baz, będą tematem tego rozdziału. Trzeci sposób klasyfikacji baz ze względu na jego dużą rozpiętość został opisany szerzej w rozdziale „Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organiżmów” tego wydania. 2.1 Klasyfikacja baz ze względu na źródło pochodzenia danych pl s. Biorąc pod uwagę prowadzone badania eksperymentalne i symulacyjne oraz następujące po nich interpretacje otrzymanych wyników można klasyfikować bazy ze względu na źródło pochodzenia danych. Zgodnie z tym kryterium bioinformatyczne bazy danych można podzielić na: 1) pierwotne (ang. primary) – przechowują dane będące bezpośrednio wynikiem prowadzonych badań bądź eksperymentów przez specjalistów z danej dziedziny; są to zazwyczaj dane o: sekwencjach DNA i RNA, sekwencjach aminokwasów białek i enzymów, strukturach przestrzennych białek, enzymów, kompleksów molekularnych i innych cząstek biologicznych biorących udział w reakcjach wewnątrzkomórkowych; 2) wtórne (ang. secondary) lub wyprowadzone (ang. derived) – przechowują rezultaty analiz podstawowych złóż danych; mogą to być np. bazy sekwencji aminokwasów jako efektu translacji sekwencji DNA z baz sekwencji nukleotydowych, bazy domen funkcjonalnych, wzorców sekwencji lub motywów (charakterystycznych fragmentów) , relacji ewolucyjnych i wiele innych. Dodatkowo, wraz z informacją właściwą, przechowywana jest duża ilość informacji opisowej pozwalająca zorientować się użytkownikom z jakim rodzajem informacji mają do czynienia; są m.in. to wszelkiego rodzaju komentarze, noty, adnotacje, klasyfikacje funkcji białka, przynależność organizmu do rodziny i gatunku (źródło białka), wyodrębnione cechy dodatkowe, fragmenty o określonym znaczeniu biologicznym. 109 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek, B. Małysiak w Należy zauważyć, że interpretacja informacji z pierwotnych lub wtórnych złóż danych może przyczynić się do odkrycia ciekawych własności lub aspektów, które do tej pory były traktowane tylko marginalnie. To z kolei może pociągnąć rozwój badań nad nową własnością i generację nowej informacji. Powoduje to powielenie poziomów wtórności i zamyka pewien cykl: problem – badania – dane – rozwiązania – problem (rys. 2). Cykl ten zresztą jest zgodny z prawidłami nauki, które mówią, iż odpowiedź na jedno pytanie generuje lawinę kolejnych pytań. Problemy naukowe prowadzą do budowy nowych modeli, metod formalnych opisu, algorytmów i narzędzi, dzięki którym prowadzone są badania. Badania z wykorzystaniem bioinformatyki generują rezultaty, które odpowiednio skomentowane i opisane (w biologii zawsze istotne jest w jakich warunkach przeprowadzono badania) zostają zdeponowane w bazach danych. Jeśli prowadzono badania laboratoryjne, to dane te najczęściej mają charakter pierwotny. W pierwszej fazie, dane mogą być przechowywane na lokalnych serwerach laboratorium, a następnie mogą być zdeponowane (w całości lub tylko ich część) w publicznych centrach danych. Analiza danych może prowadzić do uzyskania ciekawych odpowiedzi i rozwiązań postawionych problemów, na bazie których naukowa ciekawość sformułuje nowe tezy i problemy badawcze, doprowadzi do budowy nowych narzędzi i gromadzenia nowych informacji. Analiza danych może też przyczynić się do aktualizacji danych już istniejących – stąd, m.in. biorą się różne wersje wpisów w centralnych, publicznych, bioinformatycznych bazach danych. da .b w w Rys. 2. Cykl prowadzenia badań i powielania informacji w bioinformatycznych bazach danych pl s. Trzeba mieć również świadomość, że małe błędy na najniższym poziomie mogą stać się przyczyną dużych nieporozumień naukowych przy przenoszeniu pomyłek na kolejne poziomy. Z tej właśnie przyczyny deponowane w publicznych, bioinformatycznych bazach danych informacje, np. sekwencje aminokwasów białkowych czy struktury białek, podlegają dodatkowym procesom rewizji przez specjalistów z danej dziedziny. Procesy te nie są jednak w stanie wykryć wszystkich nieprawidłowości, dlatego za zdeponowaną w bazie jednostkę odpowiedzialny jest przede wszystkim jej autor. 2.2 Klasyfikacja baz ze względu na gatunek organizm Badania naukowców koncentrują się zwykle na pewnym wybranym organizmie lub grupie organizmów danego gatunku, rodziny lub klasy powodując generację co raz to nowszych danych opisujących organizm lub grupę. Powstały zatem bazy dedykowane dla danego organizmu lub grupy. Bazy danych tego typu przechowują najczęściej kompletne zestawy cech lub zestawy wybranych cech opisujących określony organizm lub gatunek. Zestaw 110 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja w przechowywanych cech, a co za tym idzie – poziom opisu, może być bardzo różny, na przykład może to być kompletny genom organizmu, wyodrębnione geny, odkryte lub przewidziane sekwencje białkowe, zbadane szlaki metaboliczne i in. Istnieje zatem wiele baz opisujących wybrane cechy takich gatunków jak (podział nie odzwierciedla klasyfikacji biologicznej organizmów): − człowiek (ang. human, łac. homo sapiens), np.: atlas genów człowieka GENATLAS [12] paryskiego Universite Rene Descartes zawierający informacje o ludzkim genotypie i fenotypie; baza HUNT for Human Novel Transcripts [13] przechowująca kompletne sekwencje cDNA oraz adnotacje opisowe pochodzące z analizy tych sekwencji, a także dane o przewidywanych strukturach białek; baza Human Protein Atlas [14] przechowująca informacje o ekspresji i lokalizacji białek w różnych tkankach organizmu człowieka a także w komórkach rakowych; − kręgowce (ang. vertebrates), np.: zintegrowany system baz Mouse Genome Informatics (MGI) [15] przechowujący informacje biologiczne dotyczące myszy m.in. sekwencje DNA i RNA w Mouse Genome Sequence (MGS), charakterystykę genów w Mouse Genome Database (MGD), charakterystyki rozwoju różnego typu nowotworów u myszy laboratoryjnych w Mouse Tumor Biology (MTB) Database; bazy Rat Genome Database (RGD) [16] służące jako repozytorium danych genetycznych (ang. genetic) i genomowych (ang. genome) dla szczurów; bazy danych genetycznych ArkDB [17] zawierące dane molekularne dotyczące m.in. świń, kotów, koni, krów, drobiu, ryb i in.; − insekty (ang. insects), np. baza FlyBase [19] zawierająca dane molekularne i genetyczne dotyczące muszki owocowej (łac. drosophila); fragment systemu baz Ensembl – Mosquito Ensembl [20] dotyczący danych genetycznych moskitów Anopheles gambiae; − bezkręgowce (ang. invertebrates), np.: baza dictyBase [21] będąca scentralizowanym źródłem informacji genetycznej, molekularnej i literaturowej o pierwotniakach Dictyostelium; baza WormBase [22] zawierająca dane o sekwencjach DNA i sekwencjach białkowych organizmu wielokomórkowego Caenorhabditis elegans1 - dane o sekwencjach DNA pochodzą m.in. z banku genów GenBank [23]; baza ToxoDB [24] z danymi genetycznymi dotyczącymi pasożytów Toxoplasma gondii; i in. − rośliny (ang. plants), np.: bazy danych genomów i map genetycznych Plant Genome Databases of the National Agricultural Library – Agricultural Genome Information System (NAL-AGIS) [25] dla różnych organizmów roślinnych, takich jak: ryż, róża, fasola, bawełna, soja, zboża i in.; niektóre sekcje baz danych TIGR [26] (m.in. Arabidopsis thaliana2 Genome Database) dotyczące roślin, zawierające dane o chromosomach, sekwencjach DNA i otrzymanych w wyniku predykcji sekwencjach białkowych; baza danych sekwencji DNA dla roślin kawy CoffeeDNA [27]; − grzyby (ang. fungi), przy czym najwięcej źródeł danych powstało dla drożdży (łac. Saccharomyces) na skutek szeroko zakrojonych badań nad tym organizmem np.: Fungal Genome Databases [28] w MIPS (Munich Information Center for Protein Sequences) przechowująca genomy grzybów, sekwencje białkowe i dodatkowe adnotacje; baza białek transmembranowych (przenikających błonę komórkową) drożdży Yeast Transport Protein Database (YTPdb) [29]; i in., ale również dla innych grzybów, np. baza informacji genetycznej i białkowej dla kropidlaka Aspergillus fumiga- da .b w w pl s. 1 Caenorhabditis elegans wolnożyjący nicień, o długości ok. 1 mm występujący w glebach klimatu umiarkowanego, używany jako modelowy organizm we współczesnej genetyce i biologii [18]. 2 Rzodkiewnik pospolity (Arabidopsis thaliana) - chwast 111 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek, B. Małysiak w tus TIGR Database [30] czy pleśniawki (łac. Candida albicans) Candida Genome Database [31]; − bakterie (ang. bacteria), np.: baza danych ECDC [32] będąca kolekcją danych biologicznych na temat bakterii E.coli3; właściwe sekcje bazy danych SwissProt [33] przechowujące informacje o sekwencjach białkowych bakterii; sieć baz danych udostępniona przez japoński portal WFCC-MIRCEN World Data Centre for Microorganisms (WDCM) [34] dający pełny przegląd informacji o charakterze molekularnym i genetycznym na temat bakterii i innych mikroorganizmów; oraz wiele innych repozytoriów danych dedykowanych dla różnych rodzajów bakterii; − mikroorganizmy typu archaea4, np.: baza danych genomów DOGAN [35] japońskiego National Institute of Technology and Evaluation dla organizmu Aeropyrum pernix oraz innych organizmów tej grupy; podsekcja francuskiej bazy danych sekwencji DNA i białkowych Pyrococcus abyssi genome database (Genoscope) [36] dotycząca organizmów Pyrococcus abyssi; japońska baza genów i sekwencji białkowych ARCHAIC (ARCHAebacterial Information Collection) [37]; i in.; − wirusy i bakteriofagi (ang. viruses and phages), np. europejska baza European Hepatitis C Virus database (euHCVdb) [38] zorientowana na opis sekwencji DNA i białkowych, struktury i funkcji biologicznych wirusa HCV (który powoduje wirusowe zapalenie wątroby typu C); dane o sekwencjach DNA wirusa są ekstrahowane do euHCVdb z banku genów EMBL5 Nucleotide [39] (faktycznie, są to te same dane co w GenBank [23]); zbiór baz danych HIV Databases [40] w Los Alamos National Laboratory zawierający komplet danych biologicznych dotyczących wirusa HIV; baza danych sekwencji nukleotydowych i struktur pikornawirusów6 [41] i in.; da .b w w a) b) 3 pl s. Rys. 3. Wybrane organizmy w powiększeniu: a) pałeczka okrężnicy E.coli, b) wirus HCV (źródło obrazów: [7]) Pałeczka okrężnicy (Escherichia coli), bakteria wchodząca w skład fizjologicznej flory bakteryjnej jelita grubego człowieka oraz zwierząt stałocieplnych, spełnia pożyteczną rolę, uczestnicząc w rozkładzie pokarmu, a także przyczyniając się do produkcji witamin z grupy B, C oraz K. Może mieć jednak szkodliwe działanie kiedy przedostaje się z jelita do innych narządów lub kiedy organizm zaraża się jednym ze szkodliwych szczepów bakterii – szczególnie niebezpieczny jest szczep oznaczony jako E.coli O157:H7. 4 Archea to mikroorganizmy (nie bakterie), które żyją w skrajnie niekorzystnych warunkach. 5 European Molecular Biology Laboratory (http://www.embl.org/) – Europejskie Laboratorium Biologii Molekularnej z siedzibą w Heidelberg, Niemcy; jego częścią jest European Bioinformatics Institute, Cambridge, UK 6 Pikornawirusy, wirusy z rodziny Picornaviridae, małe wirusy zawierające RNA jako materiał genet.; patogenne dla ssaków (niektóre także dla człowieka), namnażają się gł. w przewodzie pokarmowym i w układzie oddechowym; należą do nich rodzaje: Poliovirus, Coxsackievirus, Echovirus, Picornavirus, Enterovirus i in. (źródło: Encyklopedia PWN) 112 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja Można także wyróżnić bazy danych ukierunkowane na określone podjednostki komórkowe różnych organizmów, np. takie podjednostki jak: mitochondria7 i chloroplasty8 (ang. mitochondrion and chloroplast), np. kanadyjska baza GOBASE – The Organelle Genome Database [42], w której składowane są sekwencje nukleotydów, sekwencje białkowe, dopasowania wielu sekwencji, struktury drugorzędowe białek i RNA, mapy genomowe oraz różnego rodzaju obrazy; część informacji w bazie GOBASE jest ekstrahowana z bazy sekwencji DNA i RNA – GenBank [23]; baza sekwencji DNA mitochondrialnego mitBASE [43]. w 3 Systemy zintegrowanego dostępu do bioinformatycznych baz danych da .b w w Duża liczba źródeł danych o charakterze biologicznym sprawia, że ich przeszukiwanie może być bardzo trudnym zadaniem, zwłaszcza dla początkujących ‘poszukiwaczy’ informacji biochemicznej. Sprawę dodatkowo komplikuje fakt, że istnieje wiele baz specjalizujących się tylko w wybranym opisie pewnych zjawisk na poziomie molekularnym, np. niezależne bazy zbierające informacje o sekwencjach aminokwasów, strukturach białek i innych właściwościach biomolekuł. Wszystko to powoduje, że z łatwością można się zgubić w świecie bioinformatycznych baz danych. Problem ten w dużej mierze minimalizują sieciowe (internetowe) systemy scentralizowanego dostępu do bioinformatycznych baz danych, które koncentrują dane: opisujące różne organizmy, dotyczące różnych poziomów opisu białek i innych cząstek, pochodzące bezpośrednio z badań laboratoryjnych lub wyprowadzone na podstawie istniejących już danych. Systemy tego typu udostępniają ogromne zbiory danych, najczęściej nieodpłatnie, a także zestaw narzędzi umożliwiających wyszukiwanie interesującej informacji. Udostępnione narzędzia implementują najnowsze metody w zakresie przetwarzania danych biologicznych. Na pewnym etapie, przetwarzanie danych z wykorzystaniem przeglądarek internetowych może okazać się dużym ograniczeniem, jednakże jest to bardzo dobre miejsce, aby rozpocząć swoją przygodę z bioinformatyką i ogromem informacji jej dotyczących. Przykładem systemu scentralizowanego dostępu do bioinformatycznych baz danych może być serwis European Bioinformatics Institute EBI (rys. 4), który grupuje dane z ponad 150 rozproszonych baz danych [7]. Udostępnia on ponadto odpowiednie narzędzia wyszukiwania informacji w różnych bazach danych, m.in. narzędzia SRS (Sequence Retrieval System) dla danych sekwencyjnych i SRS3D [44] dla danych strukturalnych. Użytkownik może wybrać, z którą bazą danych chce współpracować – bazy pogrupowane są zgodnie z klasyfikacją ze względu na poziom opisu molekularnego, np. bazy sekwencji nukleotydowych, bazy sekwencji aminokwasów, natomiast podsekcje każdej z baz przydzielone są dla różnych organizmów/gatunków zgodnie z podziałem organizmów podobnym do przedstawionego w podrozdziale 2.2. Podobne przeznaczenie ma system Entrez [45] amerykańskiej organizacji NCBI. Entrez jest opartym na wyszukiwaniu tekstowym systemem dostępu do informacji biologicznej. Podział baz danych jest podobny jak w przypadku systemu EBI. Oba systemy udostępniają własne bazy danych biologicznych, jak również bazy stowarzyszone, pierwotnie rozwijane przez inne organizacje. Każdy z systemów udostępnia także narzędzia umożliwiające deponowanie danych pochodzących z przeprowadzonych badań oraz narzędzia aproksymacyjnego wyszukiwania informacji, takie jak np. BLAST [46]. pl s. 7 Mitochondrium to organella (jednostka) komórki eukariotycznej, w której zachodzą procesy będące głównym źródłem energii (ATP) dla komórki, w szczególności proces fosforylacji oksydacyjnej [18]. 8 Chloroplast to otoczona podwójną błoną białkowo-lipidową organella komórkowa roślin i eukariotycznych glonów, w której zachodzi proces fotosyntezy [18]. 113 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek, B. Małysiak w da .b w w Rys. 4. System zintegrowanego dostępu do bioinformatycznych baz danych European Bioinformatics Institute (EBI, http://www.ebi.ac.uk/services/) 4 Podsumowanie pl s. Bioinformatyka jest dziedziną nauki, która wspomaga naukowców w przetwarzaniu ogromnej ilości danych pochodzących z eksperymentów i badań biologicznych. Dane o charakterze biologicznym są przechowywane w specjalnie do tego celu stworzonych bioinformatycznych bazach danych. W rozdziale przedstawiono dwa sposoby klasyfikacji bioinformatycznych baz danych: ze względu na źródło pochodzenia danych oraz ze względu na gatunek/organizm, którego dane są gromadzone. W prezentowanych zestawieniach podano kilka wybranych baz danych dla odpowiedniego gatunku/organizmu. Należy jednak pamiętać, że takich baz jest bardzo wiele. Nie sposób wymienić wszystkich, a i potencjalna lista takich baz szybko zdezaktualizowałaby się, bowiem codziennie przybywa nowych obszarów badań i grup badawczych zajmujących się wybraną dziedziną lub gatunkiem. Bardzo wiele z baz danych zorientowanych na określony gatunek wymienia swoje dane z centralnymi repozytoriami, takimi jak: bank genów GenBank, czy bank sekwencji białkowych EMBL Uniprot/SwissProt [47]. Dane te są następnie poddawane analizie prowadzonej przez grupy fachowców specjalizujących się w określonym gatunku. Otrzymane na podstawie analiz dane są składowane w lokalnych bazach danego zespołu badawczego i mogą być udostępniane publicznie poprzez portale internetowe prowadzone przez te zespoły. Otrzymane dane mogą być również deponowane w centralnych repozytoriach (o ile wcześniej przejdą odpowiedni proces walidacji i rewizji) i udostępnione za pośrednictwem systemów scentralizowanego dostępu, takich jak: EBI SRS czy NCBI Entrez. 114 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – rola, miejsce i klasyfikacja Literatura 1. w U.S. Department of Health and Human Services, U.S. Department of Energy, Understanding our genetic inheritance − the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No. 90-1590. 2. Higgins D. (ed.), Taylor W. (ed.), Bioinformatics: Sequence, Structure and Databanks – A Practical Approach, Oxford University Press, 2000. 3. Lesk A.M., Introduction to Bioinformatics, Oxford University Press, 2002. 4. Mount D.W., Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001. 5. Attwood T.K., Parry- Smith D.J., Introduction to Bioinformatics, Prentice Hall, 1999. 6. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, Inc. 2001. 7. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/ 8. Dickerson R.E., Geis I.: The structure and action of proteins. 2nd ed. Benjamin/Cummings, Redwood City, Calif.Concise, 1981. 9. Murray R.K., Daryl K.G., Mayes P.A., Rodwell V.W.: Biochemia Harpera. Wydawnictwo Lekarskie PZWL, Warszawa 1995. 10. Richardson J.S., Richardson D.C., Tweedy N.B., Gernert K.M., Quinn T.P. et al.: Looking at proteins: representations, folding, packing and design. Biophys.J., 63:1186−1220, 1992. 11. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235–242, 2000. 12. Frezal J.: Genatlas database, genes and development defects. C. R. Acad. Sci. III, 321, 805– da .b w w 817, 1998. pl s. 13. Salamov A.A., Nishikawa T. and Swindells M. B.: Assessing protein coding region integrity in cDNA sequencing projects. Bioinformatics 14(5):384−90, 1998. 14. Agaton C., Uhlen M., Hober S.: Genome-based proteomics. Electrophoresis 25(9):1280−8, 2004. 15. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T. and the Mouse Genome Informatics Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic, phenotypic and genomic data. Nucleic Acids Res., 25: 85−91, 1997. 16. Twigger S., Lu J., Shimoyama M., Chen D., et al.: Rat Genome Database (RGD): mapping disease onto the genome. Nucleic Acids Res. 30(1):125−8, 2002. 17. Hu J., Mungall C., Law A., Papworth R., et al.: The ARKdb: genome databases for farmed and other animals. Nucleic Acids Res., 29(1):106−10, 2001. 18. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/ 19. Ashburner M., Drysdale R.: FlyBase – the Drosophila genetic database. Development. 120(7):2077−9, 1994. 20. Curwen V., Eyras E., Andrews T.D., Clarke L., Mongin E., Searle S.M., Clamp M..: The Ensembl automatic gene annotation system. Genome Res.14(5):942−50, 2004. 21. Kreppel L., Fey P., Gaudet P., Just E., Kibbe W.A., Chisholm R.L., Kimmel A.R.: dictyBase: a new Dictyostelium discoideum genome database.” Nucleic Acids Res., 32 (Database issue): D332−3, 2004. 22. Stein L., Sternberg P., Durbin R., Thierry-Mieg J., Spieth J.: WormBase: network access to the genome and biology of Caenorhabditis elegans. Nucleic Acids Res., 29(1):82−6, 2001. 23. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nucleic Acids Res., 32 (Database issue):D23−6, 2004. 24. Kissinger J.C., Gajria B., Li L., Paulsen I.T., Roos D.S.: ToxoDB: accessing the Toxoplasma gondii genome. Nucleic Acids Res., 31(1):234−6, 2003. 25. McCarthy S.: USDA's Plant Genome Research Program. Bull Med Libr Assoc. 81(3):278−81, 1993. 26. Ouyang S., Buell C.R..: The TIGR Plant Repeat Databases: a collective resource for the identification of repetitive sequences in plants. Nucleic Acids Res., 32(Database issue): D360−3, 2004. 115 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek, B. Małysiak w 27. Rathinavelu R.: Insights on CoffeeDNA: a Database of Coffee Genomics, publikacja internetowa International Centre for Science and High Technology i United Nations Industrial Development Organization. http://www.ics.trieste.it/ 28. Mewes H.W., Albermann K., Heumann K., Liebl S., Pfeiffer F.: MIPS: a database for protein sequences, homology data and yeast genome information. Nucleic Acids Res., 25(1):28−30, 1997. 29. André B.: An overview of membrane transport proteins in Saccharomyces cerevisiae. Yeast 11, 1575−1611, 1995. 30. Nierman W.C., May G., Kim H.S., Anderson M.J., Chen D., Denning D.W.: What the Aspergillus genomes have told us. Med Mycol., 43 Suppl 1:S3-5, 2005. 31. Arnaud M.B., Costanzo M.C., Skrzypek M.S., Binkley G., Lane C., Miyasato S.R., Sherlock G.: The Candida Genome Database (CGD), a community resource for Candida albicans gene and protein information. Nucleic Acids Res., 33(Database issue):D358−63, 2005. 32. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res., 25: 39−42, 1997. 33. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement TREMBL. Nucleic Acids Res., 24(1):21−5, 1996. 34. Komagata K.: Microbial resource centers in Japan and Asia. In S. Sugawara, and S. Miyazaki (ed.), Microbial resource centers in the 21st century: new paradigms. WFCC-MIRCEN World Data Centre for Microorganisms, Shizuoka, Japan, 1999. 35. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA Res., 6(2):83-101, 145−52, 1999. 36. Cohen G., Barbe V., Flament D., Galperin M., et al.: An integrated analysis of the genome of the hyperthermophilic archaeon Pyrococcus abyssi. Mol Microbiol., 47:1495−512, 2003. 37. Higuchi S., Kawashima T., Suzuki M.: Comparison of pathways for amino acid biosynthesis in archaebacteria using their genomic DNA sequences. Proc. Japan Acad., 75B, 241−245, 1999. 38. Combet C., Penin F., Geourjon C., Deleage G.: HCVDB: hepatitis C virus sequences database. Appl Bioinformatics, 3(4):237−40, 2004. 39. Stoesser G., Sterk P., Tuli M.A., Stoehr P.J., Cameron G.N..: The EMBL Nucleotide Sequence Database. Nucleic Acids Res. 25(1):7−14, 1997. 40. Myers G., Josephs S.F., Rabson A.B., Smith T.F.: Human Retroviruses and AIDS 1987: A Compilation and Analysis of Nucleic Acid and Amino Acid Sequences. Eds. Theoretical Biology and Biophysics Group, Los Alamos National Laboratory, Los Alamos, NM, 1987. 41. King A.M.Q., Brown F., Christian P., et al.: Picornaviridae. In "Virus Taxonomy: The Classification and Nomenclature of Viruses. The Seventh Report of the International Committee on Taxonomy of Viruses". Eds. Van Regenmortel, M.H.V., et al., Academic Press, San Diego, pp. 657−673. 42. Korab-Laskowska M., Rioux P., Brossard N., Littlejohn T.G., Gray M.W., Lang B.F., Burger G.: The Organelle Genome Database Project (GOBASE). Nucleic Acids Res., 26(1):138−44, 1998. 43. Attimonelli M., Altamura N., Benne R., Boyen C., et al. : MitBASE: a comprehensive and integrated mitochondrial DNA database. Nucleic Acids Res., 27(1):128−33, 1999. 44. O'Donoghue S.I., Meyer J.E., Schafferhans A., Fries K.: The SRS 3D module: integrating structures, sequences and features. Bioinformatics, 20(15):2476−8, 2004. 45. Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A.: Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141−62, 1996. 46. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J.: Basic local alignment search tool. J Mol Biol, 215:403−10, 1990. 47. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein knowledgebase. Nucleic Acids Res. 32(Database issue):D115−9, 2004. da .b w w pl s. 116 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006