Bazy danych sekwencji kwas6w nukleinowych i perspektywy rozwoiu

Transkrypt

Bazy danych sekwencji kwas6w nukleinowych i perspektywy rozwoiu
MieczyslawPi4tyszek
WojciechMakalowski
Bazydanych sekwencji
kwas6wnukleinowych
ZakladBiochemiiBioPolimeröw
im. AdamaMickiewicza
Uniwersytet
Poznah
i bialek: stan obecny
i perspektywyrozwoiu
1. Wprowadzenie
W ostatnichkilku latachnastqpilgwaltownywzrost efektywnoscibadari naukowychz zakreSytuacjata iest rezultatemnie tyle wzrostu wspÖ!su biologii molekularneji biotechnologii.
zawodnictwaczy poiawieniasiq nowych narzqdzibadawczych,ale uzyskaniapzezle dyscyplito za
ich osiqgniqö.PociQgnQlo
praktycznezastosowania
ny poziomurozwojuumo2liwiajqcego
z przemyslu,rolnictwai medycyny,ktÖrez jednejstronywymuszalq
söbq konkretnezamöwienia
jez rezultatÖw,
badari,a z drugiej,poprzeznie spotykanejak dotQdrozliczanie
ukierunkowanie
efektywnoSö.
ich
szczebardziejzwigkszajq
Zlawiskut-emutowaizyszydokonulqcasiq na naszychoczach rewoluciaw przeplywieinformacji naukowej i formach wspÖlpracy.Manifestaciqdokonujqcych sig zmian sq powstale
ogromne bazy danych sekwenc.iikwasöw nukleinowychi bialek, bazy danych obe,lmujqce
materialugenewektoryslu2qcedo.klonowania
enzymyrestrykcyjne,
sic."py mit<robiologiczne,
tak2e miqdzygenomÖw.
Powstaly
mapy
biologicznych,
tycznäjo, strukturymakroczqsteizek
naroOowebiuletynyinformacyjnei krajowesieci danych, ktörych powiqzanieumo2liwiauzyskiwanie czasopismnaukowychmetodqon-line (np Biochemist$.
baz danYch
2. Rozwöigenetycznych
na przykladziebazYGenBank
Niemiec,
RepubliceFederalnel
w StanachZ.jednoczonych,
Na poczqtkulat osiemdziesiqtych
nukwasÖw
sekwencji
danych
baz
tworzenie
rozpoczQto
Radzieckim
i
Francji,Japonii Zwiqzku
dynamikq
kleinowychi bialek (tzw, genetycznychbaz danych).Ze wzglqduna zrÖZnicowanq
rozwoii poszczegölnychbaz dänych oraz trudnosciw dostqpiedo niektörychz nich obecnie
- zob.tab. 1 (1-4).
uzyskalyjedynieczterynaiwigksze
miqdzynarodowe
znaczeniie
jest
GenBank, baza sekwencii nukleotydowych
Najczqsciejwykorzystywanqbazq danych
GenBankjest
powstala
w 1980r. PopularnoSö
(NlH)
Bazata
USA.
Xraiowlgö tnsiytuiuZdiowia
*yÄlXieri wietXbScibazy danych* oraz wszechstronnychmoZliwoScikomunikacjiz bazq' Rozlat
sekwencjiw ciqgu ostatnichdziewiQciu
*Oi O*y GenBankmieizonyliczbqzgromadzonych
przedstawia
rys. 1.
fazierozwoju.PrzypuGenBankobecnie- jak widaöna rys. 1 - znajdulesiq w wykladniczej
szczasiq, Ze w 1995r. bazata bedziezawieralaok. 30 razy wigceisekwencjinukleotydowych
razy
ani2eliw 1990 r., a liczba nowo wprowadzanychdanych roczniewzroSniekilkadziesiqt
AktualnieGenBankzawierakompletnesekwencje150 genomöw wirusowych,rnitochondrialW GenBankzdeponowanotakzesekwencjerÖ2nychregionÖww genych i chloroplastowych.
iuL28% calegogenomutej
nbmieEscherichiacoti,ktörepod wzglqdemdlugosciodpowiadaiq
w GenBankstanowiEnazdeponowane
bakterii.NukleotydowesekwencjeDNA Homo sapiens
siQ, 2e w latach
spodziewaö
(5)
Nale2y
genomu
ludzkiego
wielkoSci
tomiast 0,2%
w zwiqzkuz realizaciqprogramuHuman Genom Project,liczbawprowadziewigödziesiqtych,
dzanychsekwencjiz genomuludzkiegobqdziegwaltowniewzrastac'
* W marcu 1991r. obeimowala55,2mln par zasad.
'91
3-4(13-14)
BrorEcHNoLoGlA
37
BAZY DANYCH SEI(WENCJINUKLEINOVf/CH I BIALEK
Tabelal
Migdzynarodow€ genelyczne bary danych
Nazwa bazy danych
Kraj
Adres przesylaniadanych do bazy
GenBank
USA
GenBankSubmissions
Mail Stop K710
Los Alamos National Laboratory
Los Alamos,NM 87545USA
E-mail: gb--sub%[email protected]
Tel: (505) 65-2177
Proteinldentifcation
Resourceamino acid data bank (PlR)
USA
PIRDataSubmission
NationalBiomedicalResearch
Foundation,GeorgetownUniv. Medical
Center,3900ReservoirRoad N.W.,
Washington, D.C.20007,USA
.bitnet
E-mail: pirsub@gunbrf
EMBL Data Library
RFN
EMBLDataLibrarySubmissions
Postfach 10.2209
H9OO Heidelbergtel. (6221)387258
E-mail: [email protected]
DNA Data Bank of Japan (DDBJ)
Japonia
DNA Data Bank of Japan Laboratory
of GeneticInformationAnalysisCcnterfor
GeneticInlormationResearchNatl. Inst.
GenticsMishima,Shizuoka411 Japan
bj.nig.ac.jp
E-mail:ddbjsub@dd
L i c z b a s e k w e n c i i( w t y s . )
| 982
19 8 6
r 990
Data edycji
Rys. 1. Wzrost liczby sekwencjiw kolejnychedycjachgenetycznejbazy danych GenBank.Przyrostliczby
nukleotydöww bazie danych jest jeszczewigkszyani2eli przyrostliczby sekwencji,poniewai przecigtna
dtugoSöwprowadzanychsekwencjisystematyczniero6nie(5).
'91
BToTECHNOLOGIA
3-4 (13-14)
38
M. PnrYszEK,W. MAKAr_OWSKI
sig z bazarni
3. Komunikowanie
Dane z GenBankmo2nauzyskadpopzez zakup kolejnychedycji banku na taSrnach,dyskietkachlub plytachkompaktowych(CD).lstniejetez mo2liwosödostgpudo GenBankza pojestjako GenokreSlana
mocq eleklronicznych
sieciTeleneti BIONET.Ta opcja komunikowania
Eank on-line Service(GOS).Po dokonaniukwartalniewnoszonejoplaty,wynoszqcej500 USD,
baz GenBank,
u2ytkownikuzyskuje1 Mb pamiqciw bazie,dostepdo codziennieuakrualnianych
GenPept i EMBL oraz podstawowego oprogramovvaniaumo2liwiajqcegoporuszanie siq
w obrqbiebaz i analizqdanych.Oplatata umo2liwiarealizacjgpolqczei z Gen8ank przez 15
godz i 20 min. Oplata za kazda dodatkow4 godzinq polEcze1wynosi 15 USD. Ten sposöb
W listopadzie1989r, zanotowaKomunikowania
siq z bazqgwaltowniezyskujena popula:'no5ci.
no 1200sesjipolqczeniowych
z GenBank,a w marcu1990r. bylo ich ju2 6150 (6). U2ytkownicy
wykorzystujqte polqczeniado pobieraniadanych. Niestety,bezpoSrednidostQpoo ciqgle
uaktualnianej
bazy GenBanknie jest mo2liwyCia osöb pracujqcychw polskichpracowniach.
Aby skontaktowadsig z GenBank,osoby spoza USA muszq najpierw polqczyösiq z krajow4
sieciqkomputerowq,a nastepniepoprzezniq znale2ösig w amerykarlskiej
sieci danych ,,Telenet".Zagraniczniu2ytkownicy
muszqdodalkowoplaciöza uZytkowanie
siecilokalnej.W Polsce
brakujekrajowejsieci komputerowej,a tak2ebiorEcpod uwaggwysokieoplat'/telekomunikacy.jne, nawetistnieniesiecilokalnejnie pozwalalobyna korzystanie
z uslugiGOS.
GenBank,w poröwnaniuz pozostalyrni
bazamidanych,od grudnia1989r. oferujeszczegölnie dogodny i efektywny sposöb przesylaniadanych do bazy. Nalezy w tym miejscu przyprac zawiera.jqcych
pomnieö,2e czasopismanaukowewarunkujqpublikowanie
sekwencjebiazdeponowaniatych sekwencjiw jednej
lek lub kwasöw nukleinowychod wczeSniejszego
z wymienionychw tab. 1 baz danychi podaniatzw. accessionnumber. Dotychczas,sekwencjom przesylanymdo baz danych na dyskietkachtowarzyszyömusialkilkustronicowyopis obejmujqcy wszystkiedane dotyczqcewysylanejsekwencji.Obecnie ka2dy zainteresowanymo2e
uzyskaöz GenBankbez jakiejkolwiek
oplatyprogramAUTHORIN',ktöry pozwala- przesylanq
sekwencjqoraz wszelkiedodatkoweinformacje- zamie6ciöwe wla6ciwymformaciena dyskietdo jakiejkolwiek
ce lub przeslaöpocztqelektronicznq
z wymienionych
w tab. 1 baz danych.NaleZy podkreSliö,Ze jest to program typu user friendly, podpowiadajqcyu2ylkownikowikolejne
kroki kompletnegoopisu sekwencji.Gwarantujeto bowiem,2e wysylanedane sekwencyjne
bgdq natychmiastzasymilowanepzez bank i po 24 godz stanq siQdostQpnedla u2ytkowniköw
GOS. Dia poröwnaniadane nadsylanew sposöb tradycyjnypojawiajqsig jako dostqpnew bazach danych najwczeSniejpo 30 dniach. Autorzy opracowaniazachgcajqosoby przesylajqce
sekwencjedo baz danychdo korzystania
z programuAUTHORIN.
4. Analizadanychzawartychw bazachgenetycznych
Röwnoleglez pojawieniemsiQ genetycznychbaz danych powstawaözaczglo oprogramowanie do analizysekwencjinukleotydowychi bialek.Byly to przewazniedo6ö powolne programy umoZliwiajqcejedynie czqSciowqanalizgdanych sekwencyjnychwymienianenieodplatnie
pomigdzy pracowniami(7,8). Szybko zostaly one jednak wyparte przez zestawy programöw
opracowywanych w zespolach specjalistöw i sprzedawane przez wyspecjalizowanefirmy.
Szczegölowywykaz tego typu oprogramowaniadostqpnegow roku 1988zamieszczonyzostal
(9).
w jednymz poprzednichnumeröw,,Biotechnologii-P.1."
W ostatnich latach zaznaczylasiq tendenc,ado tworzeniazwartych systemöw pozwalajqcych na wyczerpujqcqanalizgsekwencjii slrukturykwasöw nukleinowychi bialek. Cechq
t P'"Sr". AUTHORIN
rozpowszechnia
bezplatnie:
c/o Intellicenetics,
Inc,,7OOEastEl CaGenBank,
minoReal,Mountain
View,CA94040,
USA.
'91
B|OTECHNOLOGTA
3-4 (13-14)
39
NUKLEINOWYCH
I BIALEK
BAZ/ DANYCHSEKWENICJI
charakterystycznAjest bardzo rozbudowana prezentacjagraficzna wyniköw oraz obecnoSö
systemukomunikacjiprogramuz ugkownikiem (np. wprowadzaniedanych
kilkukanalowego
za pomocq glosu, wybieranieopcji za pomocEtzw. myszy). Dodatkowqzaletqtych systemöw
iest to, 2e zawierajqröwnoczeSniebazy danych, tak przetworzone,i2 mogq byö one bezpoSredniowykorzystaneprzez oferowaneoprogramowanie.W tab, 2 pzedstawiono najpowszechniejstosowanezestawyoprogramowaniawrazz orientacyjnymicenami (z sierpnia1990r.).
Tabela2
Zestawy oprogramowanlado analiry genetycznych baz darrych
Nazwazestawu
Dystrybutor
lBl PustellSequence
Analysis Sottware +
Gel ReaderSystem'
International
Biotechnologies
Inc.
6000
StadenPlusrM
Amershram
5800
DNASTARSoftware'
DNASTAR,
Inc.
8s00
DNASIS+ PROSIS'
Stratagene,
Gmbh
6000
Orientacyjnacena w USD
Zestawzawieragenetycznetrazydanych.
5. Uwagikoricowe
Rozw6j technik sekwencjonowaniamaterialugenetycznego,a ostatnio ich automatyzacja
(10) przyczyniajqsig do lawinowegowzrosludanychsekwencyjnych.Zjawiskutemu towarzyszy
wyktadniczyrozwöjgenetycznychbaz danych (zob. rys. 1). Udzialw tych bazachsekwencjipoznanychw polskichpracowniachjest znikomy.Przewidujesiq, 2e w ciqgu najbli2szychpiqciu lat
Slosowane obecnie dyski kompaktowe
rozmiary baz danych wzrosnq kilkudziesiqciokrotnie.
przestanabyö adekwatnymnoSnikieminformacji.Oczekiwadzalem nalezy nowych rozwiqzaf
opierajqcychsie tak2e na optycznymodczyciedanych. KoniecznosödostQpudo najnowszych
danych, czego nie gwarantujqmechaniczneno5nikiinformacji,powoduje,ze ro5niezainteresowanie korzystaniemz danych deponowanychw bankach na zasadzieon-line. Pobieranewöwczas sq tylko wybranebloki danych,a ich analizaprzebiegaw pracowni.Kraje,w ktÖrychnie ma
genetycznychbaz danych organizujqkrajowecentrawchodzEcew sklad europejskiejsieci danych biologii molekularnej(EMBnet).W centrach krajowychdane sE uaktualnianecodziennie.
Taka strukturadostepu do danych 2r6dlowychusprawniakomunikacjglokalnychu{flkowniköw
oraz znacznie obni2a koszty dostqpu do danych. W ten sposöb rozwiqzany zostal problem
dostqpu do baz danych miedzy innymi w Grecji,Danii,Hiszpaniii Nonregii. Takie rozwiqTanie
w Polsce jest jednak w najbli2szymczasie nierealne,migdzy innymi ze wzglqdu na fatalnystan
W tej sytuacjiduze znaczeniedla polskiego Srodoogdlnodostqpnejsieci telekomunikacyjnej.
wiska naukowego bqdq mialy lokalne oSrodki informacji naukowej dysponujqce zestawami
oprogramowaniawraz z genetycznymibazami danych w systemie CD ROM. Jeden z takich
o5rodköwjest zlokalizowanyw Poznaniu2.
2 Osrodek InformacjiNaukowejPAN, Oddziatw Poznaniu,Stary Rynek77,61-722 Poznari,tel. 525954, telex 413618 oin pl. Bgdqcy w dyspozycji OIN PAN system byl opisany w ,,Biotechnologii-P.1."
(1991),2.
(1988),1; por. röwniei ,,Biotechnologia-P.1."
',g1
BrorEcHNoLoGrA
3-4(13-14)
40
M. PTATYSZEK,
W. MAKALOWSKI
Literatura
1. BurksC., et al., (1985),Comput.Appl. Biosci.,1,22-27.
2. CameronG., (1988),NucleicAcidsRes,,16, 1865-1868.
3. SidmanK. E.,et al., (1988),NucleicAcidsRes.,16,186+1873.
4. MiyazawaS., (1989),in: Computersand DNA (G. l. Bell and T. lr4arr,eds.) 47-51, Addison-Wesley,
New York.
5. BurksC., et al., (1990),in: MolecularEvolution:ComputerAnalysisof Proteinand NucleicAcids
Sequences(R. F. Doolittle,ed.) 3-22, AcademicPress,Inc.,San Diego.
6. YoudinK., (1990),NewsFromGenBank,3,1.
7. (1982),NucleicAcidsRes.,10, 1-456.
8. (1984),NucleicAcidsRes.,12, 1428.
1, 19-23.
9. PopendaM.,et al., (1988),,,Biotechnologia-P.1."
10.CathartR., (1990),Nature,347,310.
Databases
of NucleicAcidsand ProteinsSequences:
CurrentStatusand Perspectives
Summary
In this reviewwe havedescribedthe geneticdatabaseswith emphasison GenBankdatabase,Ways of
communication with databases are described in details. Review contains information about the most
popularsoitwarepackagescommercrally
available.
Ad res d Ia korespo nde ncji :
Wojciech Makatowski, Zaklad Biochemii Biopolimeröw, Uniwersytet im. Adama Mickiew i c z a , u l . F r e d r y 1 0 , 6 1 - 7 0 1 P o z n a n ,E - m a i l : W M 2 B B @ P L PU A M I l B | T N E T .
Notadodanaw czasiekorekty
Rozwöjbazy GenBankspowodowalpodjgciedecyzjio zaprzestaniurozprowadzaniaBanku Genöw na
dyskach elastycznych.Ostatnia,,dyskietkowa"edycja GenBankzostanieudostepnionaw kwietniu 1992r.
Poczqwszyod jesieni przyszlegoroku GenBankbgdzie rozprowadzanywylqczniena pbdach kompaktovr/ych.
W ostatnim czasie naukowcy polscy uzyskaliod dawna oczekiwanydostep do SwiatowejlqcznoSci
komputerowej.Polskazostalabowiem wlqczonado sieci EARN(EuropeanAcademicand ResearchNet),
ktörajest integralnqczgSciqamerykaöskiej
sieciBITNET.Umo2liwiato, poprzeztzw. pocztgelektronicznq,
komunikowaniesig praktyczniez calym Swiatem,gdy! sieö BITNETpopeez system tzw. bramek ma
polqczenieroniei z innymi sieciami komputerowymi.W Polsceglöwny wgzel sieci EARNznajduje sig na
im. AdamaMickiewicza
w Poznaniu.SieöEARNumoiliwiabezpo6redni
Uniwersytecie
dostepdo komputera EMBL (EuropeanMolecularBiologyLaboratory)
w Heidelbergu.
Autorzyopracowaniaz powodzeniem
wykorzystywalijui ten bardzowygodny sposöb dostgpudo danych.Z bazq EMBL moina sig kontaktowac
popnez adres NETSERV@EMBL.
Wigcejinformacjina temat sieciEARNw Polscemoina usyskaöw CentrumInformatykiUW (mgr ini,
A. Smreczyiski,E-mail:OEKOS@PLEARN),
a tak2e w oSrodkachlokalnych(w Poznaniu,np. mgr ini.
A. Stolarski,
OSrodekInformatykiUAM).
'91
BIoTECHNOLOGTA
3-4(13-14)