NCBI MapViewer / Entrez Gene

Transkrypt

NCBI MapViewer / Entrez Gene
Bioinformatyczne bazy danych - część 2
-przeszukiwanie baz danych
-pobieranie danych
Numery dostępowe baz danych (accession number) to ciąg liter i cyfr służących
jako etykieta identyfikująca sekwencję czy inny typ danych w bazie.
Przykłady (wszystkie dotyczą białka wiążącego retinol RBP4 - retinol-binding
protein):
X02775
NG_009104
GenBank – sekwencja genomowego DNA
RefSeq
N91759.1
NM_006744
X00129.1
EST
RefSeq sekwencja DNA (z transkryptu)
mRNA
RNA
AAC02945
Q28369
1KT7
GenBank
UniProtKB/SwissProt
Protein Data Bank
Białko
PMID: 2998779
PubMed
Literatura
DNA
Sprawdź sekwencje o poniższych numerach dostępowych w
sekwencyjnych bazach danych EMBL (ENA) i DDBJ:
AF165912
L00727
NM_001017963
NC_012532.1
Zapoznaj się z opcją wyświetlania rekordu w formie graficznej
EMBL / NCBI.
Entrez Gene
Znajdź geny przez:
Wolny tekst np. human muscular dystrophy
Niekompletną (częściową) nazwę i podanie więcej niż jednego gatunku np.
transporter[title] AND ("Homo sapiens"[orgn] OR "Mus musculus"[orgn])
Numer chromosomu i symbol np. (II[chr] OR 2[chr]) AND adh*[sym]
Accession number np. M11313[accn]
Nazwę genu (symbol) np. PRNP[sym]
Publikację (PubMed ID) np. 11331580[PMID]
Ontologie Genów (GO) np. „retinol transporter activity"[GO]
Chromosom i gatunek np. X[CHR] AND human[ORGN]
Numery Enzyme Commission (EC) np. 5.1.1.1[EC]
Porady dotyczące korzystania z wyszukiwarki Entrez
• Operatory logiczne AND, OR i NOT powinny być zapisywane wielkimi literami.
Domyślnie operator AND łączy dwa wprowadzone terminy.
• Operatory logiczne działają od lewej do prawej. Jeśli dodasz nawiasy,
wprowadzony do nich termin będzie potraktowany jako jedna jednostka.
Porównaj wynik wyszukiwania Entrez Gene poniższymi frazami:
globin AND promoter OR enhancer
globin AND (promoter OR enhancer)
Zadania:
1. Gen dla ludzkiego białka lysine demethylase zlokalizowany jest na chromosomie Y.
Utwórz zapytanie do bazy NCBI Gene, które da jeden wynik dla właściwego genu.
2. W bazie NCBI Taxonomy znajdź identyfikator dla E. coli K12. Wykorzystując
identyfikator i kwalifikator [taxid] znajdź w bazie NCBI Gene rekord dla genu repB,
kodującego białko replikacyjne.
Entrez Gene zadanie
-Wyszukaj w bazie NCBI Gene ludzki gen BRCA1.
-Podaj jego lokalizację chromosomową oraz liczbę eksonów.
-Podaj długość genu, mRNA i kodowanego białka wykorzystując dane z
odpowiednich rekordów bazy RefSeq.
-Sprawdź informacje dotyczące genu BRCA1 w bazie SNP (single nucleotide
polymorphism).
-Korzystając z odpowiednich filtrów wyszukiwania sprawdź ile SNPów ma
charakter mutacji ’frame shift’ a ile powoduje pojawienie się kodonu STOP.
OMIM / Entrez Gene
Jaki gen związany jest ze śmiertelną bezsennością rodzinną (fatal familial
insomnia FFI)? Podaj symbol tego genu, jego lokalizację chromosomową i
liczbę eksonów.
Jaki jest sposób dziedziczenia FFI?
Z jakimi innymi chorobami związany jest ten gen?
Sprawdź zmienność genu w bazie danych projektu 1000 genomów. Jakiego
rodzaju zmiany w sekwencji genu są najmniej licznie reprezentowane?
Kwalifikatory wyszukiwania
w Entrez Nucleotide
(część bazy GenBank)
Działa tylko w bazie ”Protein”
Zadania:
1. Wyszukaj w bazie ’Nucleotide’ sekwencje o długości 1000 nt. Zawęź wyniki
wyszukiwania do szympansa (użyj ’chimpanzee’ lub ’Pan troglodytes’)
2. Wyszukaj sekwencje nukleotydowe szczura w zakresie od 1500 do 2000
nukleotydów.
3. Znajdź sekwencje aminokwasowe białek krowy o ciężarze molekularnym od
5000 do 10000 Da.
4. Znajdź sekwencje aminokwasowe świni o długości 300 aminokwasów.
Narzędzie do zmiany formatu sekwencji
Emboss Seqret
http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
1. Wyszukaj w bazie GenBank sekwencję AF165912. Korzystając z opcji
„Send” zapisz na komputerze plik z sekwencją w formacie GenBank (plik z
rozszerzeniem .gb). Korzystając z narzędzia ’emboss seqret’ przekształć
zapisaną sekwencję do formatu EMBL.
2. Wykorzystaj powyższe narzędzie do utworzenia pliku z sekwencją w
formacie EMBL i GenBank z pliku w formacie .ab1
(ćwiczenie 2 – sekwencja.ab1).
Pobieranie wielu sekwencji na podstawie ich numerów dostępowych
Batchentrez
https://www.ncbi.nlm.nih.gov/sites/batchentrez
Znajdź w bazie Pubmed artykuł opisujący ewolucję molekularną białka
OmpC bakterii z rodzaju Yersinia.
Otwórz pełną wersję artykułu. Poszukaj sekcji ’Supplementary
material’ i otwórz znajdujący się tam plik. Skopiuj wszystkie numery
dostępowe sekwencji rozpoczynające się od ’KR’ dla gatunku Yersinia
intermedia. Utwórz plik tekstowy z pobranymi numerami. Wykorzystaj
utworzony plik do pobrania z bazy GenBank sekwencji w formacie
FASTA.
Inny sposób to wykorzystanie kwalifikatora [accn].
Przeglądarki Genomów
NCBI MapViewer
https://www.ncbi.nlm.nih.gov/mapview/
Najnowsza łatka (patch)
https://www.ncbi.nlm.nih.gov/grc/human/data
ENSEMBL
http://www.ensembl.org
USCS
https://genome.ucsc.edu/
Porównaj statystyki dla najnowszych genomów referencyjnych człowieka między
ENSEMBL a NCBI MapViewer.
NCBI MapViewer /OMIM / dbSNP / KEGG
Przejdź na stronę MapViewer. Wybierz najnowszą wersję genomu
referencyjnego dla człowieka.
Otwórz mapę chromosomu nr 7. Jaka jest wielkość tego chromosomu?
Ile genów zostało zidentyfikowanych na tym chromosomie?
Znajdź region chromosomu 7 związany z mukowiscydozą (cystic fibrosis).
Użyj filtru ’Gene’. Z poziomu mapy chromosomu przejdź do bazy OMIM.
Otwórz rekord dotyczący genu a następnie przeanalizuj trzy warianty
alleliczne .0002, .0003, .0004 pod kątem rodzaju mutacji i wpływu na
kodowane białko. Sprawdź rekordy bazy dbSNP odpowiadające
poszczególnym wariantom.
Z poziomu Entrez Gene przejdź do bazy KEGG i sprawdź rolę kodowanego
białka w prawidłowym funkcjonowaniu trzustki.
NCBI MapViewer / Entrez Gene
1. Podaj symbole wszystkich genów zlokalizowanych z regionie 11p11.2 genomu
człowieka. (skorzystaj z okna wyszukiwania: ’Region shown’)
2. Pobierz sekwencję genu ARSB kodującego sulfatazę arylową B wraz z regionem
500pz powyżej końca 5’.
3. Korzystając z MapViewer znajdź gen kodujący huntingtinę. Mutacja w tym genie
powoduje chorobę Huntingtona. Korzystając z ’Maps & Options’ wybierz do
porównania mapy genowe człowieka, myszy i szczura. Podaj numery chromosomów
myszy i szczura, na których zlokalizowane są homologi ludzkiego genu dla
huntingtiny.