Bazy danych sekwencji kwas6w nukleinowych i perspektywy rozwoiu
Transkrypt
Bazy danych sekwencji kwas6w nukleinowych i perspektywy rozwoiu
MieczyslawPi4tyszek WojciechMakalowski Bazydanych sekwencji kwas6wnukleinowych ZakladBiochemiiBioPolimeröw im. AdamaMickiewicza Uniwersytet Poznah i bialek: stan obecny i perspektywyrozwoiu 1. Wprowadzenie W ostatnichkilku latachnastqpilgwaltownywzrost efektywnoscibadari naukowychz zakreSytuacjata iest rezultatemnie tyle wzrostu wspÖ!su biologii molekularneji biotechnologii. zawodnictwaczy poiawieniasiq nowych narzqdzibadawczych,ale uzyskaniapzezle dyscyplito za ich osiqgniqö.PociQgnQlo praktycznezastosowania ny poziomurozwojuumo2liwiajqcego z przemyslu,rolnictwai medycyny,ktÖrez jednejstronywymuszalq söbq konkretnezamöwienia jez rezultatÖw, badari,a z drugiej,poprzeznie spotykanejak dotQdrozliczanie ukierunkowanie efektywnoSö. ich szczebardziejzwigkszajq Zlawiskut-emutowaizyszydokonulqcasiq na naszychoczach rewoluciaw przeplywieinformacji naukowej i formach wspÖlpracy.Manifestaciqdokonujqcych sig zmian sq powstale ogromne bazy danych sekwenc.iikwasöw nukleinowychi bialek, bazy danych obe,lmujqce materialugenewektoryslu2qcedo.klonowania enzymyrestrykcyjne, sic."py mit<robiologiczne, tak2e miqdzygenomÖw. Powstaly mapy biologicznych, tycznäjo, strukturymakroczqsteizek naroOowebiuletynyinformacyjnei krajowesieci danych, ktörych powiqzanieumo2liwiauzyskiwanie czasopismnaukowychmetodqon-line (np Biochemist$. baz danYch 2. Rozwöigenetycznych na przykladziebazYGenBank Niemiec, RepubliceFederalnel w StanachZ.jednoczonych, Na poczqtkulat osiemdziesiqtych nukwasÖw sekwencji danych baz tworzenie rozpoczQto Radzieckim i Francji,Japonii Zwiqzku dynamikq kleinowychi bialek (tzw, genetycznychbaz danych).Ze wzglqduna zrÖZnicowanq rozwoii poszczegölnychbaz dänych oraz trudnosciw dostqpiedo niektörychz nich obecnie - zob.tab. 1 (1-4). uzyskalyjedynieczterynaiwigksze miqdzynarodowe znaczeniie jest GenBank, baza sekwencii nukleotydowych Najczqsciejwykorzystywanqbazq danych GenBankjest powstala w 1980r. PopularnoSö (NlH) Bazata USA. Xraiowlgö tnsiytuiuZdiowia *yÄlXieri wietXbScibazy danych* oraz wszechstronnychmoZliwoScikomunikacjiz bazq' Rozlat sekwencjiw ciqgu ostatnichdziewiQciu *Oi O*y GenBankmieizonyliczbqzgromadzonych przedstawia rys. 1. fazierozwoju.PrzypuGenBankobecnie- jak widaöna rys. 1 - znajdulesiq w wykladniczej szczasiq, Ze w 1995r. bazata bedziezawieralaok. 30 razy wigceisekwencjinukleotydowych razy ani2eliw 1990 r., a liczba nowo wprowadzanychdanych roczniewzroSniekilkadziesiqt AktualnieGenBankzawierakompletnesekwencje150 genomöw wirusowych,rnitochondrialW GenBankzdeponowanotakzesekwencjerÖ2nychregionÖww genych i chloroplastowych. iuL28% calegogenomutej nbmieEscherichiacoti,ktörepod wzglqdemdlugosciodpowiadaiq w GenBankstanowiEnazdeponowane bakterii.NukleotydowesekwencjeDNA Homo sapiens siQ, 2e w latach spodziewaö (5) Nale2y genomu ludzkiego wielkoSci tomiast 0,2% w zwiqzkuz realizaciqprogramuHuman Genom Project,liczbawprowadziewigödziesiqtych, dzanychsekwencjiz genomuludzkiegobqdziegwaltowniewzrastac' * W marcu 1991r. obeimowala55,2mln par zasad. '91 3-4(13-14) BrorEcHNoLoGlA 37 BAZY DANYCH SEI(WENCJINUKLEINOVf/CH I BIALEK Tabelal Migdzynarodow€ genelyczne bary danych Nazwa bazy danych Kraj Adres przesylaniadanych do bazy GenBank USA GenBankSubmissions Mail Stop K710 Los Alamos National Laboratory Los Alamos,NM 87545USA E-mail: gb--sub%[email protected] Tel: (505) 65-2177 Proteinldentifcation Resourceamino acid data bank (PlR) USA PIRDataSubmission NationalBiomedicalResearch Foundation,GeorgetownUniv. Medical Center,3900ReservoirRoad N.W., Washington, D.C.20007,USA .bitnet E-mail: pirsub@gunbrf EMBL Data Library RFN EMBLDataLibrarySubmissions Postfach 10.2209 H9OO Heidelbergtel. (6221)387258 E-mail: [email protected] DNA Data Bank of Japan (DDBJ) Japonia DNA Data Bank of Japan Laboratory of GeneticInformationAnalysisCcnterfor GeneticInlormationResearchNatl. Inst. GenticsMishima,Shizuoka411 Japan bj.nig.ac.jp E-mail:ddbjsub@dd L i c z b a s e k w e n c i i( w t y s . ) | 982 19 8 6 r 990 Data edycji Rys. 1. Wzrost liczby sekwencjiw kolejnychedycjachgenetycznejbazy danych GenBank.Przyrostliczby nukleotydöww bazie danych jest jeszczewigkszyani2eli przyrostliczby sekwencji,poniewai przecigtna dtugoSöwprowadzanychsekwencjisystematyczniero6nie(5). '91 BToTECHNOLOGIA 3-4 (13-14) 38 M. PnrYszEK,W. MAKAr_OWSKI sig z bazarni 3. Komunikowanie Dane z GenBankmo2nauzyskadpopzez zakup kolejnychedycji banku na taSrnach,dyskietkachlub plytachkompaktowych(CD).lstniejetez mo2liwosödostgpudo GenBankza pojestjako GenokreSlana mocq eleklronicznych sieciTeleneti BIONET.Ta opcja komunikowania Eank on-line Service(GOS).Po dokonaniukwartalniewnoszonejoplaty,wynoszqcej500 USD, baz GenBank, u2ytkownikuzyskuje1 Mb pamiqciw bazie,dostepdo codziennieuakrualnianych GenPept i EMBL oraz podstawowego oprogramovvaniaumo2liwiajqcegoporuszanie siq w obrqbiebaz i analizqdanych.Oplatata umo2liwiarealizacjgpolqczei z Gen8ank przez 15 godz i 20 min. Oplata za kazda dodatkow4 godzinq polEcze1wynosi 15 USD. Ten sposöb W listopadzie1989r, zanotowaKomunikowania siq z bazqgwaltowniezyskujena popula:'no5ci. no 1200sesjipolqczeniowych z GenBank,a w marcu1990r. bylo ich ju2 6150 (6). U2ytkownicy wykorzystujqte polqczeniado pobieraniadanych. Niestety,bezpoSrednidostQpoo ciqgle uaktualnianej bazy GenBanknie jest mo2liwyCia osöb pracujqcychw polskichpracowniach. Aby skontaktowadsig z GenBank,osoby spoza USA muszq najpierw polqczyösiq z krajow4 sieciqkomputerowq,a nastepniepoprzezniq znale2ösig w amerykarlskiej sieci danych ,,Telenet".Zagraniczniu2ytkownicy muszqdodalkowoplaciöza uZytkowanie siecilokalnej.W Polsce brakujekrajowejsieci komputerowej,a tak2ebiorEcpod uwaggwysokieoplat'/telekomunikacy.jne, nawetistnieniesiecilokalnejnie pozwalalobyna korzystanie z uslugiGOS. GenBank,w poröwnaniuz pozostalyrni bazamidanych,od grudnia1989r. oferujeszczegölnie dogodny i efektywny sposöb przesylaniadanych do bazy. Nalezy w tym miejscu przyprac zawiera.jqcych pomnieö,2e czasopismanaukowewarunkujqpublikowanie sekwencjebiazdeponowaniatych sekwencjiw jednej lek lub kwasöw nukleinowychod wczeSniejszego z wymienionychw tab. 1 baz danychi podaniatzw. accessionnumber. Dotychczas,sekwencjom przesylanymdo baz danych na dyskietkachtowarzyszyömusialkilkustronicowyopis obejmujqcy wszystkiedane dotyczqcewysylanejsekwencji.Obecnie ka2dy zainteresowanymo2e uzyskaöz GenBankbez jakiejkolwiek oplatyprogramAUTHORIN',ktöry pozwala- przesylanq sekwencjqoraz wszelkiedodatkoweinformacje- zamie6ciöwe wla6ciwymformaciena dyskietdo jakiejkolwiek ce lub przeslaöpocztqelektronicznq z wymienionych w tab. 1 baz danych.NaleZy podkreSliö,Ze jest to program typu user friendly, podpowiadajqcyu2ylkownikowikolejne kroki kompletnegoopisu sekwencji.Gwarantujeto bowiem,2e wysylanedane sekwencyjne bgdq natychmiastzasymilowanepzez bank i po 24 godz stanq siQdostQpnedla u2ytkowniköw GOS. Dia poröwnaniadane nadsylanew sposöb tradycyjnypojawiajqsig jako dostqpnew bazach danych najwczeSniejpo 30 dniach. Autorzy opracowaniazachgcajqosoby przesylajqce sekwencjedo baz danychdo korzystania z programuAUTHORIN. 4. Analizadanychzawartychw bazachgenetycznych Röwnoleglez pojawieniemsiQ genetycznychbaz danych powstawaözaczglo oprogramowanie do analizysekwencjinukleotydowychi bialek.Byly to przewazniedo6ö powolne programy umoZliwiajqcejedynie czqSciowqanalizgdanych sekwencyjnychwymienianenieodplatnie pomigdzy pracowniami(7,8). Szybko zostaly one jednak wyparte przez zestawy programöw opracowywanych w zespolach specjalistöw i sprzedawane przez wyspecjalizowanefirmy. Szczegölowywykaz tego typu oprogramowaniadostqpnegow roku 1988zamieszczonyzostal (9). w jednymz poprzednichnumeröw,,Biotechnologii-P.1." W ostatnich latach zaznaczylasiq tendenc,ado tworzeniazwartych systemöw pozwalajqcych na wyczerpujqcqanalizgsekwencjii slrukturykwasöw nukleinowychi bialek. Cechq t P'"Sr". AUTHORIN rozpowszechnia bezplatnie: c/o Intellicenetics, Inc,,7OOEastEl CaGenBank, minoReal,Mountain View,CA94040, USA. '91 B|OTECHNOLOGTA 3-4 (13-14) 39 NUKLEINOWYCH I BIALEK BAZ/ DANYCHSEKWENICJI charakterystycznAjest bardzo rozbudowana prezentacjagraficzna wyniköw oraz obecnoSö systemukomunikacjiprogramuz ugkownikiem (np. wprowadzaniedanych kilkukanalowego za pomocq glosu, wybieranieopcji za pomocEtzw. myszy). Dodatkowqzaletqtych systemöw iest to, 2e zawierajqröwnoczeSniebazy danych, tak przetworzone,i2 mogq byö one bezpoSredniowykorzystaneprzez oferowaneoprogramowanie.W tab, 2 pzedstawiono najpowszechniejstosowanezestawyoprogramowaniawrazz orientacyjnymicenami (z sierpnia1990r.). Tabela2 Zestawy oprogramowanlado analiry genetycznych baz darrych Nazwazestawu Dystrybutor lBl PustellSequence Analysis Sottware + Gel ReaderSystem' International Biotechnologies Inc. 6000 StadenPlusrM Amershram 5800 DNASTARSoftware' DNASTAR, Inc. 8s00 DNASIS+ PROSIS' Stratagene, Gmbh 6000 Orientacyjnacena w USD Zestawzawieragenetycznetrazydanych. 5. Uwagikoricowe Rozw6j technik sekwencjonowaniamaterialugenetycznego,a ostatnio ich automatyzacja (10) przyczyniajqsig do lawinowegowzrosludanychsekwencyjnych.Zjawiskutemu towarzyszy wyktadniczyrozwöjgenetycznychbaz danych (zob. rys. 1). Udzialw tych bazachsekwencjipoznanychw polskichpracowniachjest znikomy.Przewidujesiq, 2e w ciqgu najbli2szychpiqciu lat Slosowane obecnie dyski kompaktowe rozmiary baz danych wzrosnq kilkudziesiqciokrotnie. przestanabyö adekwatnymnoSnikieminformacji.Oczekiwadzalem nalezy nowych rozwiqzaf opierajqcychsie tak2e na optycznymodczyciedanych. KoniecznosödostQpudo najnowszych danych, czego nie gwarantujqmechaniczneno5nikiinformacji,powoduje,ze ro5niezainteresowanie korzystaniemz danych deponowanychw bankach na zasadzieon-line. Pobieranewöwczas sq tylko wybranebloki danych,a ich analizaprzebiegaw pracowni.Kraje,w ktÖrychnie ma genetycznychbaz danych organizujqkrajowecentrawchodzEcew sklad europejskiejsieci danych biologii molekularnej(EMBnet).W centrach krajowychdane sE uaktualnianecodziennie. Taka strukturadostepu do danych 2r6dlowychusprawniakomunikacjglokalnychu{flkowniköw oraz znacznie obni2a koszty dostqpu do danych. W ten sposöb rozwiqzany zostal problem dostqpu do baz danych miedzy innymi w Grecji,Danii,Hiszpaniii Nonregii. Takie rozwiqTanie w Polsce jest jednak w najbli2szymczasie nierealne,migdzy innymi ze wzglqdu na fatalnystan W tej sytuacjiduze znaczeniedla polskiego Srodoogdlnodostqpnejsieci telekomunikacyjnej. wiska naukowego bqdq mialy lokalne oSrodki informacji naukowej dysponujqce zestawami oprogramowaniawraz z genetycznymibazami danych w systemie CD ROM. Jeden z takich o5rodköwjest zlokalizowanyw Poznaniu2. 2 Osrodek InformacjiNaukowejPAN, Oddziatw Poznaniu,Stary Rynek77,61-722 Poznari,tel. 525954, telex 413618 oin pl. Bgdqcy w dyspozycji OIN PAN system byl opisany w ,,Biotechnologii-P.1." (1991),2. (1988),1; por. röwniei ,,Biotechnologia-P.1." ',g1 BrorEcHNoLoGrA 3-4(13-14) 40 M. PTATYSZEK, W. MAKALOWSKI Literatura 1. BurksC., et al., (1985),Comput.Appl. Biosci.,1,22-27. 2. CameronG., (1988),NucleicAcidsRes,,16, 1865-1868. 3. SidmanK. E.,et al., (1988),NucleicAcidsRes.,16,186+1873. 4. MiyazawaS., (1989),in: Computersand DNA (G. l. Bell and T. lr4arr,eds.) 47-51, Addison-Wesley, New York. 5. BurksC., et al., (1990),in: MolecularEvolution:ComputerAnalysisof Proteinand NucleicAcids Sequences(R. F. Doolittle,ed.) 3-22, AcademicPress,Inc.,San Diego. 6. YoudinK., (1990),NewsFromGenBank,3,1. 7. (1982),NucleicAcidsRes.,10, 1-456. 8. (1984),NucleicAcidsRes.,12, 1428. 1, 19-23. 9. PopendaM.,et al., (1988),,,Biotechnologia-P.1." 10.CathartR., (1990),Nature,347,310. Databases of NucleicAcidsand ProteinsSequences: CurrentStatusand Perspectives Summary In this reviewwe havedescribedthe geneticdatabaseswith emphasison GenBankdatabase,Ways of communication with databases are described in details. Review contains information about the most popularsoitwarepackagescommercrally available. Ad res d Ia korespo nde ncji : Wojciech Makatowski, Zaklad Biochemii Biopolimeröw, Uniwersytet im. Adama Mickiew i c z a , u l . F r e d r y 1 0 , 6 1 - 7 0 1 P o z n a n ,E - m a i l : W M 2 B B @ P L PU A M I l B | T N E T . Notadodanaw czasiekorekty Rozwöjbazy GenBankspowodowalpodjgciedecyzjio zaprzestaniurozprowadzaniaBanku Genöw na dyskach elastycznych.Ostatnia,,dyskietkowa"edycja GenBankzostanieudostepnionaw kwietniu 1992r. Poczqwszyod jesieni przyszlegoroku GenBankbgdzie rozprowadzanywylqczniena pbdach kompaktovr/ych. W ostatnim czasie naukowcy polscy uzyskaliod dawna oczekiwanydostep do SwiatowejlqcznoSci komputerowej.Polskazostalabowiem wlqczonado sieci EARN(EuropeanAcademicand ResearchNet), ktörajest integralnqczgSciqamerykaöskiej sieciBITNET.Umo2liwiato, poprzeztzw. pocztgelektronicznq, komunikowaniesig praktyczniez calym Swiatem,gdy! sieö BITNETpopeez system tzw. bramek ma polqczenieroniei z innymi sieciami komputerowymi.W Polsceglöwny wgzel sieci EARNznajduje sig na im. AdamaMickiewicza w Poznaniu.SieöEARNumoiliwiabezpo6redni Uniwersytecie dostepdo komputera EMBL (EuropeanMolecularBiologyLaboratory) w Heidelbergu. Autorzyopracowaniaz powodzeniem wykorzystywalijui ten bardzowygodny sposöb dostgpudo danych.Z bazq EMBL moina sig kontaktowac popnez adres NETSERV@EMBL. Wigcejinformacjina temat sieciEARNw Polscemoina usyskaöw CentrumInformatykiUW (mgr ini, A. Smreczyiski,E-mail:OEKOS@PLEARN), a tak2e w oSrodkachlokalnych(w Poznaniu,np. mgr ini. A. Stolarski, OSrodekInformatykiUAM). '91 BIoTECHNOLOGTA 3-4(13-14)