pobierz plik referatu
Transkrypt
pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Rozdział 12 w Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów w 1 Wstęp da .b w Streszczenie. Bioinformatyczne bazy danych to zbiory, w których zawarte są dane o charakterze biologicznym dotyczące różnych organizmów. Funkcjonowanie badanego organizmu może być analizowane na różnych poziomach molekularnego opisu – może to być np. poziom genetyczny, związany z sekwencją DNA/RNA, poziom proteomiczny, związany z sekwencją białka lub jego strukturą, i in. W rozdziale przedstawiono podział bioinformatycznych baz danych ze względu na poziom opisu lub, bardziej konkretnie, ze względu na rodzaj informacji składowanej w bazie. Liczne przykłady baz danych utwierdzą czytelnika w skali prowadzonych badań i różnorodności przechowywanych informacji. pl s. Kiedy w 1971 roku w Brookhaven National Laboratory zbudowano bazę danych Protein Data Bank (PDB) [1] do przechowywania danych z badań krystalograficznych nad strukturą białek, nikt nie ośmielał się przypuszczać, jakie rozmiary i ile informacji będzie ona zawierać w przyszłości. Wówczas złożono w niej zaledwie 7 struktur przestrzennych molekuł. Z czasem jednak liczba deponowanych w każdym roku w bazie PDB struktur białkowych zaczęła rosnąć – od kilku na rok w latach siedemdziesiątych do tysięcy na rok w ostatnich latach [2]. Tak ogromny przyrost danych makromolekularnych był efektem stosowania coraz bardziej zaawansowanych technologii komputerowych wspomagających procesy badawcze. Wzrost ilości danych o charakterze biologicznym przyspieszyło również przyznanie funduszy na badania nad sekwencjami DNA w projekcie Human Genome Project (HGP) [3] rozpoczętym w 1990 roku oraz sprzężony rozwój takich gałęzi nauki jak genomika, proteomika i transkryptomika. Badania nad sekwencjami DNA i sekwencjami aminokwasów białek zaczęły obejmować coraz więcej organizmów. Dodatkowo, oprócz danych pochodzących z badań laboratoryjnych, zaczęto gromadzić masy danych wtórnych, pochodzących z analizy laboratoryjnych danych pierwotnych. Równolegle, zaawansowanej analizie tekstowej text mining zostały poddane wydane dotychczas publikacje naukowe, które zawierały sporą ilość informacji o charakterze biologicznym. Wydobyta w ten sposób informacja została poddana ustrukturalizowaniu i stanowiła niejako trzecie źródło danych o istocie istnienia i funkcjonowania organizmów. Bez wątpienia, wszystkie zebrane informacje należało gromadzić w specjalnie zaprojektowanych bazach danych. Dariusz Mrozek: Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska email: [email protected] (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek w Bioinformatyczne bazy danych to zbiory, w których gromadzone są dane o charakterze biologicznym. Najczęściej są to dane pochodzące z badań biochemików i biologów molekularnych, ale również, informacje wyprowadzone w określony sposób z danych pierwotnych. Dane wyprowadzone mogą w dalszej fazie również podlegać analizie, dając odpowiedzi na zasadnicze pytania o biologiczną wartość badanego zagadnienia. Informacje przechowywane w biologicznych bazach danych dotyczą najczęściej: sekwencji DNA, znalezionych genów, ich umiejscowienia w sekwencji, roli w organizmie, produktów ekspresji w postaci białek, sekwencji, struktury i funkcji powstałych białek. Bioinformatyczne bazy danych stały się nieodłącznym elementem każdego instytutu i laboratorium prowadzącego badania nad biologiczną rolą białek – podstawowych molekuł funkcjonalnych w każdej żywej komórce organizmu – oraz leżącym u ich podstaw uwarunkowaniom genetycznym. Powstały również centralne repozytoria danych zarządzane przez międzynarodowe agencje zajmujące się kolekcjonowaniem danych i ujednoliceniem sposobu ich przechowywania, np. bazy danych utrzymywane przez European Molecular Biology Laboratory (EMBL) i European Bioinformatics Institute (EBI) oraz National Center for Biotechnology Information (NCBI)1. Dane tych organizacji są dostępne publicznie i nieodpłatnie, a osoby zainteresowane mogą korzystać z szerokiej gamy najnowszych rozwiązań oraz narzędzi dostępu i przetwarzania tych danych. w w da .b 2 Podział bioinformatycznych baz danych pl s. Informacje gromadzone w bioinformatycznych bazach danych mogą na różnym poziomie opisu charakteryzować te wybrane organizmy, które z wielu względów znalazły się w kręgu zainteresowań naukowców. Różnorodność i format przechowywanych opisów spowodował, iż nieodzownym i naturalnym stało się wyodrębnienie określonych grup danych, uwzględniając pewne przechowywane cechy. A zatem podział bioinformatycznych baz danych można wyobrazić sobie następująco: − ze względu na źródło pochodzenia danych, − ze względu na organizm, dla którego tworzy się kolekcję danych, − ze względu na rodzaj przechowywanej informacji lub inaczej, poziom opisu molekularnego. Dwie pierwsze kategorie, wraz z odpowiednimi przykładami baz, zostały omówione w poprzednim rozdziale. Przykłady baz, podane podczas klasyfikacji ze względu na organizm/gatunek, pokazują, że bazy te przechowują dane o różnym charakterze. Organizm, dla którego dane są gromadzone może być opisany na różnym poziomie – może to być np. poziom sekwencji nukleotydów DNA, poziom sekwencji aminokwasów lub struktur białek tego organizmu. Pojawia się zatem trzeci sposób klasyfikacji baz danych bioinformatycznych – klasyfikacja ze względu na poziom opisu lub, bardziej konkretnie, ze względu na rodzaj informacji gromadzonej w bazie. Zgodnie z tym sposobem wśród biologicznych baz danych można wyróżnić [4]: − bazy danych nukleotydów, − bazy danych genomów, − bazy danych mikromacierzowych, − białkowe (proteinowe) bazy danych, − literaturowe (bibliograficzne) bazy danych, − taksonomiczne bazy danych. 1 EMBL (http://www.embl.org), EBI (http://www.ebi.ac.uk), NCBI (http://www.ncbi.nlm.nih.gov). 118 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów w Bazy danych nukleotydów (ang. nucleotide databases) są zbiorami danych o sekwencjach nukleotydów kwasów DNA i różnego typu kwasów RNA dla znanych i zsekwencjonowanych organizmów. Informacje składowane w bazach danych nukleotydów są bezpośrednim efektem światowych projektów sekwencjonowania genomów. Pojedyncza sekwencja będąca ciągiem liter A, T, G, C (dla DNA) lub A, U, G, C (dla RNA) jest zapisywana wraz z dodatkową adnotacją informacyjną o: organizmie pochodzenia, pełnionej w nim funkcji, produktach translacji, wyodrębnionych w sekwencji genach i in. Najbardziej znaną bazą danych nukleotydów jest GenBank [5], będący rezultatem międzynarodowej współpracy o nazwie International Nucleotide Sequence Database Collaboration (INSDC). W skład kooperacji INSDC wchodzą japońska baza DNA Data Bank of Japan (DDBJ) [6] utrzymywana przez Center for Information Biology (CIB)2, europejska baza EMBL Nucleotide Sequence Database [7] zarządzana przez European Bioinformatics Institute (EBI) z siedzibą w Cambridge w Wielkiej Brytanii oraz amerykański bank informacji genetycznej GenBank kontrolowany przez National Center for Biotechnology Information (NCBI). Wszystkie trzy zrzeszone w INSDC organizacje synchronizują codziennie swoje bazy, dzięki czemu przechowują one niemal te same dane (z dokładnością do jednego dnia). GenBank i stowarzyszone bazy są podzielone dodatkowo na podsekcje ze względu na rodzaje/gatunek organizmów, dla których przechowywane są sekwencje nukleotydów. Podział ten jest podobny do przedstawionego w poprzednim rozdziale. Więcej na temat formy danych oraz przykłady przeszukiwania bazy danych GenBank zostały opisane w rozdziale „Sekwencje nukleotydów bazy GenBank w diagnozowaniu schorzeń cukrzycy” [8]. Istnieje również pewna grupa baz danych związanych z sekwencjami nukleotydów, mająca jednak specjalne przeznaczenie. Do tego typu baz należą np. bazy genomów (genomowe, ang. genomic databases), które przechowują dane o kompletnych genomach3 wybranego organizmu lub grupy organizmów. Struktura takich baz i sposób przechowywania informacji mogą być podobne lub znacznie różnić się od sposobu przechowywania sekwencji w banku genów GenBank. Najczęściej zależy to od samych twórców bazy danych. Rys. 1 przedstawia fragment kompletnego genomu bakterii E.coli w formacie Pearsona (FASTA) [9] pochodzący z bazy genomów EMBL Whole Genomes Shotgun [10]. da .b w w pl s. Rys. 1. Fragment kompletnego genomu pałeczki Escherichia coli szczep B7A (nie zamieszczono pełnego ze względu na jego długość – 284 206 par bazowych4). Sposób prezentacji (z wykorzystaniem formatu FASTA) podobny jak w bazie nukleotydów GenBank 2 http://www.cib.nig.ac.jp Genom to całość kwasu nukleinowego zawierająca informacje genetyczną organizmu. 4 Ang. base pairs – liczba liter sekwencji DNA często podawana jest w tzw. parach bazowych (bp). 3 119 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek w Inne bazy genomów to m.in.: Karyn's Genomes [11] (zawiera ogólne informacje o organizmach, których genomy zostały zsekwencjonowane, odnośniki literaturowe i odnośniki do sekwencji nukleotydów w innych bazach), baza genomu myszy Mouse Genome Database (MGD) [12], szczura Rat Genome Database (RGD) [13], muszki owocowej FlyDB [14], bakterii e.coli E.Coli Database Collection (ECDC) [15], mikroorganizmów archaea DOGAN [16] oraz wiele innych. Innym przykładem baz danych związanych z sekwencjami nukleotydów są bazy danych mikromacierzowych (ang. microarray databases) Są to typowe bazy wtórne (wyprowadzone) – zgromadzone w nich dane pochodzą z eksperymentów mikromacierzowych bazujących na sekwencjach nukleotydów (rys. 2). Technologia mikromacierzowa pozwala odpowiedzieć na pytanie – jakie geny ulegają ekspresji w określonych komórkach organizmu, w określonym czasie i warunkach [4]. Dzięki technologii mikromacierzowej możliwe jest na przykład porównanie ekspresji genów z DNA komórki zdrowej i nowotworowej. Bazy danych mikromacierzowych przechowują najczęściej dane dotyczące macierzy ekspresji genów będącej wynikiem eksperymentu, a także adnotacje dotyczące znalezionych genów, adnotacje dotyczące wprowadzonych do badania próbek Tylko w ten sposób, składując w bazie danych informację o warunkach doświadczenia i dokładny opis badanej komórki, będzie można porównywać ze sobą wyniki uzyskane z różnych eksperymentów mikromacierzowych. Przykładem bazy mikromacierzowej może być europejska ArrayExpress [17] utrzymywana przez EBI oraz GEO (Gene Expression Omnibus) [18] prowadzona przez NCBI. da .b w w Komórka w stanie 1 mRNA cDNA hybrydyzacja do mikromacierzy pl s. Komórka w stanie 2 skanowanie laserem Rys. 2. Mikromacierz DNA (zwana czasem chipem DNA, macierzą DNA [4]) jest szklaną lub plastikową płytką podzieloną na mikroskopijnej wielkości pola (ang. spots) z różnymi sekwencjami DNA. Próbka lub próbki DNA/RNA oznaczone znacznikiem fluorescencyjnym łączą się z sekwencjami mikromacierzy na zasadzie komplementarności zasad. Pola zawierające próbki z sekwencjami o dużej ekspresji świecą intensywniej w świetle lasera. W ten sposób można badać ekspresję tysięcy genów jednocześnie [19] (źródło obrazu [20]) Białkowe bazy danych (proteinowe bazy danych, ang. protein databases) stanowią doskonałe źródło informacji o budowie białek i pełnionej przez nie funkcji. Ponieważ budowę białka można opisać na różnym poziomie (np. na poziomie sekwencji aminokwasów lub na poziomie struktury przestrzennej), wobec tego powstało wiele specjalizowanych baz skoncentrowanych na określonym opisie. Z jednej strony, istnieją bazy uniwersalne przechowujące dane dotyczące wszystkich gatunków organizmów, tak, jak baza GenBank dla sekwencji nukleotydów. Z drugiej strony, istnieje szereg specjalizowanych baz proteinowych skoncentrowanych na wybranych grupach białek lub wybranym organizmie [4]. Do najbardziej 120 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów w znanych uniwersalnych baz sekwencji proteinowych należą UniProt [21] zarządzana przez EBI oraz NCBI Proteins [22] (koncentruje dane z różnych baz stowarzyszonych). UniProt (Universal Protein Resource) jest centralnym repozytorium danych o sekwencjach białek, ich funkcji i klasyfikacji, które łączy informację z trzech baz: (1) UniProt/SwissProt [23] – bazy opisanych sekwencji białkowych (ang. annotated sequences), (2) UniProt/ TrEMBL (Translation of EMBL nucleotide sequence database) [24] – bazy sekwencji białkowych pochodzących z translacji regionów kodujących (CDS) sekwencji nukleotydów bazy EMBL Nucleotide oraz (3) PIR (Protein Information Resource) [25] – najstarszej bazy opisanych sekwencji białkowych. Przykład sekwencji aminokwasów enzymu Homoserine kinase z bazy danych UniProt przedstawiono na rys. 3. Więcej na temat formy danych i sposobów przeszukiwania bazy danych UniProt zostało opisane w rozdziale [26]. Zbiory danych sekwencji aminokwasów bazy NCBI Proteins pochodzą z bazy UniProt/SwissProt, baz: PIR, PRF (Protein Research Foundation) [27], PDB (Protein Data Bank) [1] i z translacji regionów kodujących DNA bazy GenBank. w w da .b Rys. 3. Sekwencja aminokwasów enzymu 2.7.1.39 Homoserine kinase bakterii Escherichia coli biorącego udział w rozpadzie ATP do ADP i wolnego fosforanu pl s. Oprócz uniwersalnych baz danych sekwencji białkowych, istnieje również szereg specjalizowanych baz związanych z sekwencjami. Baza ENZYME [28] zawiera dodatkowe dane potrzebne do opisu enzymów zgodnie z rekomendacją Nomenclature Committee of the International Union of Biochemistry and Molecular Biology (IUBMB). Znajdują się w niej informacje o aktywności katalitycznej enzymu, kofaktorach, używanych nazwach enzymu i synonimach, identyfikator EC (Enzyme Commission), wskaźniki do opisu chorób związanych z nieprawidłowym działaniem lub brakiem enzymu oraz wskaźniki do właściwej sekwencji w bazie danych Swiss/Prot. Baza InterPro [29] grupuje ogromne liczby białek w rodziny (ang. families) bazując na podobieństwie sekwencji aminokwasów. Białka z tej samej rodziny posiadają najczęściej wspólne motywy5 (ang. motifs) lub dzielą pewne atrybuty funkcjonalne6. Dane w bazie InterPro pochodzą z innych niezależnych baz związanych z grupowaniem białek w rodziny, takich jak: PROSITE [30], PRINTS [31], Pfam [32], ProDom [33], SMART [34], iProClass [35] i TIGRFAMs [36]. Odrębną inicjatywę w tej dziedzinie stanowi baza SBASE [37]. Dane o klasyfikacji białek składowane są również w takich bazach jak MEROPS [38] czy CluSTr [39]. Z punktu widzenia analizy funkcji białek ogromne znaczenie mają bazy danych struktur białkowych. Główną informację, którą przechowują bazy struktur stanowią współrzędne atomów cząsteczki białka – są to tzw. dane makromolekularne. Współrzędne mogą mieć rozmaitą postać – najczęściej jednak są to współrzędne kartezjańskie x, y, z, rzadziej tzw. współrzędne wewnętrzne (ang. internal coordinates) np. odległości dwóch wybranych atomów, kąty miedzy wiązaniami kowalencyjnymi lub kąty skręcenia (torsyjne). Na podstawie danych zgromadzonych w bazach danych struktur białkowych możliwa jest trójwymiarowa wizualizacja kształtu białka (rys. 4). Analiza struktur doprowadziła również do wprowadze5 Charakterystyczne fragmenty sekwencji aminokwasów. Inne używane nazwy to: sygnatury (ang. signatures), wzorce (ang. patterns) lub odciski palców (ang. fingerprints). 6 Posiadają pewne domeny funkcyjne czyli regiony sekwencji pełniące określoną funkcję, np. decydujące o aktywności katalitycznej enzymu lub łączące się z lekiem. 121 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek w nia klasyfikacji białek i pozwala przewidywać funkcję nowo odkrytego białka poprzez porównanie jego struktury przestrzennej ze strukturami białek przechowywanych w bazie i znalezienie podobieństw strukturalnych. Najbardziej znaną bazą danych strukturalnych jest Protein Data Bank (PDB) [1] prowadzona obecnie przez Research Collaboratory for Structural Bioinformatics (RCSB) w Stanach Zjednoczonych. Struktury zdeponowane w bazie PDB pochodzą najczęściej z badań krystalografii rentgenowskiej (rentgenografii strukturalnej) i obserwacji z wykorzystaniem nuklearnego rezonansu magnetycznego (spektroskopii NMR). Oprócz danych o współrzędnych atomów, w bazie PDB przechowywane są również dodatkowe adnotacje opisowe oraz łącza do innych serwisów informacyjnych np. serwisów NCBI. Baza PDB jest źródłem danych strukturalnych dla europejskiej bazy EBI Macromolecular Structure Database (MSD) [41] oraz amerykańskiej NCBI Molecular Modeling DataBase (MMDB) [42]. Obie bazy przechowują dane w różnych formatach i starają się wyeliminować niedoskonałości i ograniczenia przechowywania informacji w postaci plików tekstowych, jak to ma miejsce w przypadku bazy PDB. Spośród mniej znanych baz strukturalnych wspomnieć należy o bazie Nucleic Acid Database (NDB) [43] utrzymywanej przez Rutgers, The State University of New Jersey (pierwotnego kustosza bazy PDB) oraz bazie struktur dla małych molekuł Cambridge Structural Database (CSD) [44] brytyjskiego Cambridge Crystallographic Data Centre (CCDC) (używanej najczęściej do obserwacji interakcji typu białko-ligand). da .b w w pl s. Rys. 4. Różne reprezantacje struktury enzymu human topoisomerase (1A36 w bazie PDB) oplatającego helisę DNA i odpowiedzialnego za jej rozplatanie w jądrze komórkowym. Wizualizacja przy pomocy programu RasMol [40] – w kolejności od lewej reprezentacje: atomowa, wstęgowa, atomowa z wypełnionymi przestrzeniami między atomami Rozwijają się również bazy, których celem jest kolekcjonowanie informacji dotyczących biologicznej aktywności białek, szlaków sygnałowych i reakcjach wewnątrzkomórkowych, w których białka te biorą udział. Do tego typu baz należą: kanadyjska baza interakcji międzyproteinowych BIND (Biomolecular Interaction Network Database) [45], amerykańska baza sieci reakcji wewnątrzkomórkowych i szlaków metabolicznych BioCarta [46], japońska baza sieci reakcji biochemicznych (rys. 5), interakcji proteinowych i związanych z tym genów KEGG (Kyoto Encyclopedia of Genes and Genomes) [47] oraz belgijska inicjatywa aMAZE [48]. 122 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów w da .b w w Rys. 5. Sieć reakcji komórkowych w procesie metabolizmu aminokwasu cysteiny wizualizowana na podstawie danych zgromadzonych w japońskiej bazie danych KEGG. Prostokąty z numerami EC oznaczają enzymy biorące udział w reakcjach, kółka oznaczają produkty pośrednie szlaku, zaokrąglone prostokąty są miejscami przejścia do innego szlaku pl s. Bazy danych literaturowe (lub bibliograficzne, ang. bibliographic databases) – przechowują informacje o odwołaniach literaturowych (ang. bibliographic citations) i streszczeniach (ang. abstracts) publikacji naukowych z różnych czasopism. W obszarze zainteresowań znajdują się publikacje z takich dziedzin jak: biologia, biochemia, biofizyka, chemia, medycyna, położnictwo, stomatologia, weterynaria, zoologia, opieka zdrowotna, ochrona środowiska i in. Do najbardziej znanych baz należą: baza MEDLINE [49] prowadzona przez U.S. National Library of Medicine's® (NLM) oraz PubMed [50] dostępna na stronach National Center for Biotechnology Information (NCBI). Obie bazy udostępniają abstrakty publikacji naukowych oraz łącza do pełnych tekstów tych publikacji. Pełne teksty mogą być składowane w bazach konkretnego czasopisma i dostępne z wykorzystaniem jego serwisu internetowego, a sam dostęp do nich może być autoryzowany i wymagać płatnego członkostwa lub uiszczenia jednorazowej opłaty (tzn. można kupić tekst artykułu). Obecnie baza MEDLINE jest podstawową częścią bazy PubMed. PubMed (rys. 6) przechowuje ponad 15 milionów odwołań literaturowych do blisko 5 tys. czasopism naukowych z USA i 70 innych krajów, gromadzonych od połowy lat 60. XX wieku7. 7 źródło: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed 123 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek w da .b w w Rys. 6. Okno przeszukiwania bazy literaturowej PubMed na stronach serwisu NCBI Entrez pl s. Wśród mniejszych baz wspomnieć należy jeszcze o brytyjskiej bazie bibliograficznej Bath Information and Data Services (BIDS) [51] oraz bazie BIOSIS [52] - zarządzanej przez Thomson Scintific. Obie zawierają dane literaturowe z szerokiego spektrum nauk biologicznych. Z kolei, takie bazy jak: CAB International [53] czy AGRICOLA (AGRICultural OnLine Access) [54] udostępniają dane literaturowe w obszarze agronomii, leśnictwa i ochrony środowiska. Znajdują się w nich odwołania literaturowe, streszczenia publikacji, raporty, rozdziały książek, publikacje seryjne, a nawet materiały audiowizualne. Bazy danych taksonomii (ang. taxonomic databases) – prowadząc ewidencję różnych cech wielu organizmów konieczne staje się zaprowadzenie odpowiedniego porządku w sposobie nazewnictwa tych organizmów lub wykorzystanie już istniejącej klasyfikacji rodzajów i gatunków. Dzięki temu zapewnia się, iż podczas przeszukiwania danych nie wystąpi problem synonimiki i łatwo będzie można znaleźć konkretny organizm i wszystkie wpisy, które go dotyczą. W tym właśnie celu powstały bazy danych taksonomii, których zadaniem jest przechowywanie informacji o klasyfikacji organizmów biologicznych do odpowiednich jednostek klasyfikacji (tzw. taksonów) oraz spójnej informacji o ich nazwach naukowych. Do najczęściej wykorzystywanych baz tego typu należy Taxonomy Database [55] organizacji NCBI. Baza ta klasyfikuje wszystkie organizmy, dla których istnieje chociaż jedna sekwencja w bazie sekwencji nukleotydów GenBank lub bazie danych sekwencji aminokwasów NCBI. Równie powszechną bazą taksonomii jest NEWT [56] European Bioinformatics Institute (EBI). Baza NEWT jest utrzymywana przez grupę związaną z bazą danych sekwencji białkowych UniProt organizacji EBI, a znajdujące się w niej dane pochodzą z bazy taksonomii NCBI Taxonomy Database oraz z bazy wiedzy UniProt Knowledgebase [21]. W każdym z przypadków budowane jest hierarchiczne drzewo klasyfikacji organizmów (rys. 7), którego poszczególne poziomy określają przynależność organizmu do odpo124 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów wiedniego królestwa, typu, gromady lub klasy, rzędu, rodziny, rodzaju i gatunku. W wielu przypadkach można spotkać się jednak z hierarchią uproszczoną lub hierarchią przyjętą przez twórców bazy danych, która nie musi być w pełni zgodna z naturalna klasyfikacją biologiczną. w da .b w w Rys. 7. Pochodzenie organizmu Toxoplasma gonidii. Dostęp do bazy NEWT z wykorzystaniem serwisu internetowego EBI pl s. Istnieje również kilka niezależnych inicjatyw w zakresie klasyfikacji organizmów, do których należy zaliczyć: − projekt Tree of Life [57] będący wspólnym wysiłkiem biologów z całego świata nad stworzeniem jednolitej klasyfikacji naturalnej organizmów8; − federację organizacji zajmujących się kolekcjonowaniem danych taksonomicznych Species 2000 [58], której celem jest wymiana danych taksonomicznych z wielu światowych baz danych i stworzenie globalnego systemu klasyfikacji wszystkich znanych organizmów; Species 2000 to inicjatywa brytyjska wspierana z funduszy europejskich; − organizację Integrated Taxonomic Information System (ITIS) [59], której celem jest budowa bazy danych zawierającej jednolite nazwy organizmów i ich hierarchiczną klasyfikację; ITIS jest inicjatywą północno amerykańską i współpracuje z europejskim projektem Species 2000; − australijską International Organization for Plant Information (IOPI) [60], która zajmuje się klasyfikacją informacji taksonomicznej w odniesieniu do organizmów roślinnych; IOPI jest również członkiem Species 2000. 8 Tzn. takiej klasyfikacji, która odzwierciedla ich pokrewieństwo na drodze ewolucji (filogenezę). 125 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek 3 Podsumowanie w Bioinformatyczne bazy danych przechowują obecnie znaczne ilości danych pochodzących z badań biologów molekularnych i biochemików, danych wyprowadzonych w procesach analitycznych i obliczeniowych z istniejących już danych w bazach danych oraz danych uzyskanych z publikacji naukowych przy pomocy zaawansowanych technik wyszukiwania (text minning). Dane te stanowią doskonałe źródło informacji dla szerokiej międzynarodowej społeczności naukowej − na co dzień korzystają z nich przedstawiciele takich dziedzin jak: medycyna, biologia, biochemia, fizyka i in. Określone grupy badawcze zajmują się obserwacją różnych zjawisk zachodzących na poziomie molekularnym generując coraz to nowsze informacje. Ze względu na swój charakter, informacje te tworzą różne konteksty, względem których można analizować funkcjonowanie organizmów. Wykształcił się zatem odpowiedni podział bioinformatycznych baz danych uwzględniający rodzaj informacji składowanej w bazie. Podstawowe grupy tworzą bazy danych informacji genetycznej i różnorodnej informacji o białkach. Nie należy jednak zapominać o bazach literaturowych, dzięki którym możliwe jest zgłębianie wiedzy z zakresu badanego genu, białka, czy organizmu oraz o bazach taksonomicznych wprowadzających ustalony porządek w nazewnictwie organizmów. Wiele z tych baz danych jest prowadzona przez rządowe agencje i udostępniona publicznie za pośrednictwem odpowiednich serwisów internetowych (takich jak EBI czy NCBI), dzięki czemu użytkownicy mają dostęp do różnorodnej informacji w jednym miejscu. 1. da .b w w Literatura pl s. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235–242, 2000. 2. Berman H.M., Bourne P.E., Westbrook J.: The Protein Data Bank: A Case Study in Management of Community Data. Current Proteomics, 1, 49−57, 2004. 3. U.S. Department of Health and Human Services, U.S. Department of Energy: Understanding our genetic inheritance − the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No. 90−1590. 4. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/ 5. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nucleic Acids Res., 32 (Database issue):D23−6, 2004. 6. Tateno Y., Imanishi T., Miyazaki S., Fukami-Kobayashi K., et al.: DNA Data Bank of Japan (DDBJ) for genome scale research in life science. Nucleic Acids Res., 30(1):27−30, 2002. 7. Kanz C., Aldebert P., Althorpe N., Baker W., et al., The EMBL Nucleotide Sequence Database. Nucleic Acids Res., 33(Database issue):D29−33, 2005. 8. Mrozek D., Małysiak B., et al., Sekwencje nukleotydów bazy GenBank w diagnozowaniu schorzeń cukrzycy. rozdział monografii „Bazy Danych – Struktury, Algorytmy, Metody”, red. zb. S. Kozielski, et al., w publikacji. 9. Pearson W.R. and Lipman D.J.: Improved Tools for Biological Sequence Analysis, PNAS 85:2444−2448, 1988. 10. Whole Genome Shotgun Sequences, http://www.ebi.ac.uk/genomes/index.html 11. Karyn's Genomes, http://www.ebi.ac.uk/2can/genomes/genomes.html 12. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T., and the Mouse Genome Informatics Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic, phenotypic and genomic data. Nucleic Acids Res 25: 85−91, 1997. 126 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Bioinformatyczne bazy danych – poziomy opisu funkcjonowania organizmów w 13. Twigger S., Lu J., Shimoyama M., Chen D., et al. : Rat Genome Database (RGD): mapping disease onto the genome. Nucleic Acids Res. 30(1):125−8, 2002. 14. Ashburner M., Drysdale R.: FlyBase – the Drosophila genetic database. Development. 120(7):2077−9, 1994. 15. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res. 25: 39−42, 1997. 16. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA Res. 6(2):83-101, 145−52, 1999. 17. Parkinson H., Sarkans U., Shojatalab M., Abeygunawardena N., et al.: ArrayExpress − a public repository for microarray gene expression data at the EBI. Nucl. Acids Res., 33:D553−D555, 2005. 18. Barrett T., Suzek T.O., Troup D.B., Wilhite S.E., et al. : NCBI GEO: mining millions of expression profiles − database and tools. Nucleic Acids Res. 33(Database issue):D562−6, 2005. 19. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/ 20. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, Inc. 2001. 21. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein knowledgebase. Nucleic Acids Res. 32(Database issue):D115−9, 2004. 22. Wheeler D.L., Chappey C., Lash A.E., Leipe D.D., et al.: Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 28(1):10−4, 2000. 23. Bairoch A., Boeckmann B.: The SWISS-PROT protein sequence data bank. Nucleic Acids Res., 19 Suppl:2247−9, 1991. 24. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement TREMBL. Nucleic Acids Res., 24(1):21−5, 1996. 25. Wu C.H., Yeh L.S.L., Huang H., Arminski L., et al.: The Protein Information Resource. Nucleic Acids Research, 31: 345-347, 2003. 26. Małysiak B., Mrozek D., et al., Bioinformatyczne bazy danych: sekwencje aminokwasów bazy UniProt, materiały konferencyjne KK Sieci Komputerowe 2006, w recenzji. 27. Peptide/Protein Sequence Database (PRF/SEQDB), The Protein Research Foundation. http://www4.prf.or.jp/en/pn.html. 28. Bairoch A.: The ENZYME database in 2000. Nucleic Acids Res 28:304−305, 2000. 29. Apweiler R., Attwood T.K., Bairoch A., Bateman A., et al.: The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 29(1):37−40, 2001. 30. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., et al.: PROSITE: a documented database using patterns and profiles as motif descriptors. Brief Bioinform. 3:265−274, 2002. 31. Attwood T.K., Beck M.E., Bleasby A.J., Parry-Smith D.J.: PRINTS - A database of protein motif fingerprints. Nucleic Acids Research, 22(17), 3590−3596, 1994. 32. Bateman A., Coin L., Durbin R., Finn R.D., et al.: The Pfam Protein Families Database. Nucleic Acids Research, Database Issue 32:D138−D141, 2004. 33. Bru C., Courcelle E., Carrère S., Beausse Y., Dalmar S., Kahn D.: The ProDom database of protein domain families: more emphasis on 3D. Nucleic Acids Res. 33: D212−D215, 2005. 34. Letunic I., Copley R.R., Schmidt S., Ciccarelli F.D., et al.: SMART 4.0: towards genomic data integration. Nucleic Acids Research, Vol. 32, Database issue D142−D144, 2004. 35. Huang H., Barker W.C., Chen Y., Wu C.: iProclass: an integrated database of protein family classification, function and structure information. Nucleic Acids Res., 31: 390−392, 2003. 36. Haft D.H., Loftus B.J., Richardson D.L., Yang F., Eisen J.A., Paulsen I.T., White O.: TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic Acids Res. 29(1):41−3, 2001. 37. Pongor S., Skerl V., Cserzo M., Hatsagi Z., Simon G., Bevilacqua V.: The SBASE domain library: a collection of annotated protein segments. Protein Eng. 6(4):391−5, 1993. 38. Rawlings N.D., Barrett A.J.: MEROPS: the peptidase database. Nucleic Acids Res., 27 (1): 325−31, 1999. da .b w w pl s. 127 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 D. Mrozek w 39. Kriventseva E.V., Fleischmann W., Zdobnov E.M., Apweiler R..: CluSTr: a database of clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res., 29(1):33−6, 2001. 40. Sayle R.: RasMol, Molecular Graphics Visualization Tool. Biomolecular Structures Group, Glaxo Welcome Research & Development, Stevenage, Hartfordshire, 1998. 41. Boutselakis H., Copeland J., Dimitropoulos D., Fillon J., et al.: E-MSD: the European Bioinformatics Institute Macromolecular Structure Database. Nucleic Acids Res., 31, 458−462, 2003. 42. Marchler-Bauer A., Addess K.J., Chappey C., Geer L., Madej T., Matsuo Y., Wang Y., Bryant S.H.: MMDB: Entrez's 3D structure database. Nucleic Acids Res., 27(1):240−3, 1999. 43. Berman H.M., Olson W.K., Beveridge D.L., Westbrook J., et al.: The Nucleic Acid Database: A Comprehensive Relational Database of Three-Dimensional Structures of Nucleic Acids. Biophys. J., 63, 751−759, 1992. 44. Allen F.H., Taylor R.: Research applications of the Cambridge Structural Database (CSD). Chem Soc Rev. 33(8):463−75, 2004. 45. Bader G.D., Betel D., Hogue C.W.V.: BIND: the Biomolecular Interaction Network Database. Nucleic Acids Research, Vol. 31, No. 1 p. 248−250, 2003. 46. BioCarta: Charting Pathways of Life. http://www.biocarta.com/genes/ 47. Ogata H., Goto S., Fujibuchi W., Kanehisa M.: Computation with the KEGG pathway database. Biosystems, 47(1-2):119−28, 1998. 48. Lemer C., Antezana E., Couche F., Fays F., et al.: The aMAZE LightBench: a web interface to a relational database of cellular processes. Nucleic Acids Res. 32(Database issue):D443−8, 2004. 49. Wallingford K.T., Humphreys B.L., Selinger N.E., Siegel E.R.: Bibliographic retrieval: a survey of individual users of MEDLINE. MD Comput. 7(3):166−71, 1990. 50. McEntyre J., Lipman D.: PubMed: bridging the information gap. CMAJ. 164(9):1317-9, 2001. 51. BIDS Annual Report, Academic Year 1999 – 2000, http://www.bids.ac.uk/ 52. BIOSIS Previews on the Web (OVID) − Quick Reference Guide, UCSD Biomedical Library, 2003. 53. CAB International, CABI: In review 1999-2004, Review Conference 2004. http://www.cabi.org/ 54. AGRICOLA, National Agricultural Library (NAL) of the U.S. Department of Agriculture (USDA), http://agricola.nal.usda.gov/help/aboutagricola.html 55. The NCBI Taxonomy Database. http://www.ncbi.nlm.nih.gov/Taxonomy/ 56. Phan I.Q., Pilbout S.F., Fleischmann W., Bairoch A.: NEWT: a new taxonomy portal. Nucleic Acids Res., 31(13):3822−3, 2003. 57. Maddison D.R. and Schulz K.S. (ed.): The Tree of Life Web Project. 2004. Internet address: http://tolweb.org 58. Bisby F.A., Ruggiero M.A., Wilson K.L., Cachuela-Palacio M., Kimani S.W., Roskov Y.R., Soulier-Perkins A. and van Hertum J., (eds.): Species 2000 & ITIS Catalogue of Life: 2005 Annual Checklist. Species 2000: Reading, U.K. http://www.sp2000.org/ 59. Integrated Taxonomic Information System (ITIS). Internet address: http://www.itis.usda.gov 60. International Organization for Plant Information (IOPI). Internet address: http://plantnet.rbgsyd.gov.au/iopi/iopihome.htm da .b w w pl s. 128 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006