NCBI MapViewer / Entrez Gene
Transkrypt
NCBI MapViewer / Entrez Gene
Bioinformatyczne bazy danych - część 2 -przeszukiwanie baz danych -pobieranie danych Numery dostępowe baz danych (accession number) to ciąg liter i cyfr służących jako etykieta identyfikująca sekwencję czy inny typ danych w bazie. Przykłady (wszystkie dotyczą białka wiążącego retinol RBP4 - retinol-binding protein): X02775 NG_009104 GenBank – sekwencja genomowego DNA RefSeq N91759.1 NM_006744 X00129.1 EST RefSeq sekwencja DNA (z transkryptu) mRNA RNA AAC02945 Q28369 1KT7 GenBank UniProtKB/SwissProt Protein Data Bank Białko PMID: 2998779 PubMed Literatura DNA Sprawdź sekwencje o poniższych numerach dostępowych w sekwencyjnych bazach danych EMBL (ENA) i DDBJ: AF165912 L00727 NM_001017963 NC_012532.1 Zapoznaj się z opcją wyświetlania rekordu w formie graficznej EMBL / NCBI. Entrez Gene Znajdź geny przez: Wolny tekst np. human muscular dystrophy Niekompletną (częściową) nazwę i podanie więcej niż jednego gatunku np. transporter[title] AND ("Homo sapiens"[orgn] OR "Mus musculus"[orgn]) Numer chromosomu i symbol np. (II[chr] OR 2[chr]) AND adh*[sym] Accession number np. M11313[accn] Nazwę genu (symbol) np. PRNP[sym] Publikację (PubMed ID) np. 11331580[PMID] Ontologie Genów (GO) np. „retinol transporter activity"[GO] Chromosom i gatunek np. X[CHR] AND human[ORGN] Numery Enzyme Commission (EC) np. 5.1.1.1[EC] Porady dotyczące korzystania z wyszukiwarki Entrez • Operatory logiczne AND, OR i NOT powinny być zapisywane wielkimi literami. Domyślnie operator AND łączy dwa wprowadzone terminy. • Operatory logiczne działają od lewej do prawej. Jeśli dodasz nawiasy, wprowadzony do nich termin będzie potraktowany jako jedna jednostka. Porównaj wynik wyszukiwania Entrez Gene poniższymi frazami: globin AND promoter OR enhancer globin AND (promoter OR enhancer) Zadania: 1. Gen dla ludzkiego białka lysine demethylase zlokalizowany jest na chromosomie Y. Utwórz zapytanie do bazy NCBI Gene, które da jeden wynik dla właściwego genu. 2. W bazie NCBI Taxonomy znajdź identyfikator dla E. coli K12. Wykorzystując identyfikator i kwalifikator [taxid] znajdź w bazie NCBI Gene rekord dla genu repB, kodującego białko replikacyjne. Entrez Gene zadanie -Wyszukaj w bazie NCBI Gene ludzki gen BRCA1. -Podaj jego lokalizację chromosomową oraz liczbę eksonów. -Podaj długość genu, mRNA i kodowanego białka wykorzystując dane z odpowiednich rekordów bazy RefSeq. -Sprawdź informacje dotyczące genu BRCA1 w bazie SNP (single nucleotide polymorphism). -Korzystając z odpowiednich filtrów wyszukiwania sprawdź ile SNPów ma charakter mutacji ’frame shift’ a ile powoduje pojawienie się kodonu STOP. OMIM / Entrez Gene Jaki gen związany jest ze śmiertelną bezsennością rodzinną (fatal familial insomnia FFI)? Podaj symbol tego genu, jego lokalizację chromosomową i liczbę eksonów. Jaki jest sposób dziedziczenia FFI? Z jakimi innymi chorobami związany jest ten gen? Sprawdź zmienność genu w bazie danych projektu 1000 genomów. Jakiego rodzaju zmiany w sekwencji genu są najmniej licznie reprezentowane? Kwalifikatory wyszukiwania w Entrez Nucleotide (część bazy GenBank) Działa tylko w bazie ”Protein” Zadania: 1. Wyszukaj w bazie ’Nucleotide’ sekwencje o długości 1000 nt. Zawęź wyniki wyszukiwania do szympansa (użyj ’chimpanzee’ lub ’Pan troglodytes’) 2. Wyszukaj sekwencje nukleotydowe szczura w zakresie od 1500 do 2000 nukleotydów. 3. Znajdź sekwencje aminokwasowe białek krowy o ciężarze molekularnym od 5000 do 10000 Da. 4. Znajdź sekwencje aminokwasowe świni o długości 300 aminokwasów. Narzędzie do zmiany formatu sekwencji Emboss Seqret http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/ 1. Wyszukaj w bazie GenBank sekwencję AF165912. Korzystając z opcji „Send” zapisz na komputerze plik z sekwencją w formacie GenBank (plik z rozszerzeniem .gb). Korzystając z narzędzia ’emboss seqret’ przekształć zapisaną sekwencję do formatu EMBL. 2. Wykorzystaj powyższe narzędzie do utworzenia pliku z sekwencją w formacie EMBL i GenBank z pliku w formacie .ab1 (ćwiczenie 2 – sekwencja.ab1). Pobieranie wielu sekwencji na podstawie ich numerów dostępowych Batchentrez https://www.ncbi.nlm.nih.gov/sites/batchentrez Znajdź w bazie Pubmed artykuł opisujący ewolucję molekularną białka OmpC bakterii z rodzaju Yersinia. Otwórz pełną wersję artykułu. Poszukaj sekcji ’Supplementary material’ i otwórz znajdujący się tam plik. Skopiuj wszystkie numery dostępowe sekwencji rozpoczynające się od ’KR’ dla gatunku Yersinia intermedia. Utwórz plik tekstowy z pobranymi numerami. Wykorzystaj utworzony plik do pobrania z bazy GenBank sekwencji w formacie FASTA. Inny sposób to wykorzystanie kwalifikatora [accn]. Przeglądarki Genomów NCBI MapViewer https://www.ncbi.nlm.nih.gov/mapview/ Najnowsza łatka (patch) https://www.ncbi.nlm.nih.gov/grc/human/data ENSEMBL http://www.ensembl.org USCS https://genome.ucsc.edu/ Porównaj statystyki dla najnowszych genomów referencyjnych człowieka między ENSEMBL a NCBI MapViewer. NCBI MapViewer /OMIM / dbSNP / KEGG Przejdź na stronę MapViewer. Wybierz najnowszą wersję genomu referencyjnego dla człowieka. Otwórz mapę chromosomu nr 7. Jaka jest wielkość tego chromosomu? Ile genów zostało zidentyfikowanych na tym chromosomie? Znajdź region chromosomu 7 związany z mukowiscydozą (cystic fibrosis). Użyj filtru ’Gene’. Z poziomu mapy chromosomu przejdź do bazy OMIM. Otwórz rekord dotyczący genu a następnie przeanalizuj trzy warianty alleliczne .0002, .0003, .0004 pod kątem rodzaju mutacji i wpływu na kodowane białko. Sprawdź rekordy bazy dbSNP odpowiadające poszczególnym wariantom. Z poziomu Entrez Gene przejdź do bazy KEGG i sprawdź rolę kodowanego białka w prawidłowym funkcjonowaniu trzustki. NCBI MapViewer / Entrez Gene 1. Podaj symbole wszystkich genów zlokalizowanych z regionie 11p11.2 genomu człowieka. (skorzystaj z okna wyszukiwania: ’Region shown’) 2. Pobierz sekwencję genu ARSB kodującego sulfatazę arylową B wraz z regionem 500pz powyżej końca 5’. 3. Korzystając z MapViewer znajdź gen kodujący huntingtinę. Mutacja w tym genie powoduje chorobę Huntingtona. Korzystając z ’Maps & Options’ wybierz do porównania mapy genowe człowieka, myszy i szczura. Podaj numery chromosomów myszy i szczura, na których zlokalizowane są homologi ludzkiego genu dla huntingtiny.