NCBI cz.1

Transkrypt

NCBI cz.1
Bioinformatyka
Autor: Łukasz Kościński
NCBI cz.1
Odpowiedzi na poszczególne pytania proszę zapisać w pliku tekstowym w programie Open
Office z nazwą imie_nazwisko.odt i wyslac pod koniec zajęć na adres e-mail prowadzącego.
W przypadku zapytań do baz danych proszę o wpisanie dla każdego podpunktu zapytania,
które dało taki efekt oraz liczby wyszukanych rekordów.
1. Wprowadzenie:
NCBI to najbardziej znana baza danych biologicznych. Jest ona prowadzona przez amerykańską
Narodową Bibliotekę Medycyny (National Library of Health – NLM).Adres internetowy bazy to:
http://www.ncbi.nih.gov/ .
Pubmed jest darmową bibliograficzną bazą, w której znajdujemy literaturę dotyczącą nauk
biologicznych. Zazwyczaj mamy dostęp do abstraktów, jednak często również darmowy jest dostęp
do pełnych treści artykułów.
Każdy rekord (czyli inaczej “wpis” lub “krotka”) w bazie danych charaktetyzuje się swoim
unikalnym numerem identyfikacyjnym.
Logika Boole'a. Operatory Boole'owskie, to tzw. funkcje algebry logicznej działające na
zbiorach, a konkretniej:
•
AND – jest to koniunkcja logiczna, czyli część wspólna (iloczyn) dwóch zbiorów – przy
wyszukiwaniu ułatwia zawężanie wyników do bardziej konkretnych;
•
OR – alternatywa logiczna będąca sumą dwóch zbiorów. Należy z rozwagą używać tej pcji,
jako, że powoduje ona zwiększenie liczby wyświetlanych rezultatów;
•
NOT – operator negacji logicznej
Zakładki:
1. Limits – zakładka zawężająca poszukiwania do określonego pola, typu publikacji, okresu
publikacji, lokalizacji genu itp.
2. Preview/Index – Umożliwia szukanie pewnej frazy w danym polu.
3. History – historia wykonywanych wcześniej zapytań. Poprzednie zapytania można
wywoływać przez wpisanie w oknie wyszukiwania znaku hash (#) oraz numer zapytania
4. Clipboard – podręczny schowek bazy danych, do którego tymczasowo można wprowadzać
np wyniki zapytań itp. UWAGA – należy jednak pamiętać, że taki schowek nie jest trwały i
Zajęcia 1: Wprowadzenie do systemu Linux
Bioinformatyka
Autor: Łukasz Kościński
na naszym komputerze, a zapisane tam dane znikają po upływie bezczynnej godziny.
5. Details - “informatyczne” szczegóły zapytania. Bardzo przydatne by sprawdzić, czy NCBI
rzeczywiście szukał tego, co chcieliśmy znaleźć i dobre do zrozumienia mechanizmu
szukania.
2. Ćwiczenia:
1) Znajdź w bazie Nucleotide znajdź sformułowanie chromosome sequence , odnotuj liczbę
wyników, a następnie wpisz to samo hasło ujęte w cudzysłowy. Czy istnieje różnica w
licznie wyników? Jeśli tak to dlaczego?
2) Wyszukaj to samo sformułowanie ujęte w cudzysłowy w bazie Protein – ile jest wyników, a
następnie
zawęź
poszukiwanie
tylko
do
organizmu
człowieka
dzięki
zakładce
Preview/Index.
3) Z zakładki History wywołaj jeszcze raz przeszukiwanie nie ograniczone do człowieka, ale
tym razem, dzięki zakładce limits ogranicz przeszukiwanie tylko to bazy RefSeq
4) W bazie Protein wyszukaj:
a) krotki ze słowem wild
b) rekordy ze słowami wild oraz rice
c) rekordy ze słowami wild lub rice
d) rekordy ze słowami wild nie zawierające słowa rice
e) na podstawie powyższych wyników nie używając NCBI odpowiedz na pytanie ile jest
krotek zawierających sam wyraz kluczowy rice
f) krotki zawierające słowa wild oraz rice w tytule
g) rekordy zawierające słowa wild oraz rice , które dotyczą mitochondriów
h) rekordy ze słowami wild oraz rice opublikowane w roku 2001
5) Wyszukaj w bazie UniGene:
a) sekwencje z pierwszego chromosomu ryżu
b) sekwencje ryżu mające minimum 4 odpowiadające sekwencje Est
c) sekwencje z pierwszych dwóch chromosomów ryżu. Jak ten wynik ma się do
uzyskanego w punkcie a)?
d) sekwencje z pierwszych dwóch chromosomów ryżu nie będące równocześnie na jego
chromosomie nr 5. Jeżeli istnieje różnica między wynikami z punktów c) oraz d)
postaraj się ją zinterpretować oraz znajdź te rekordy, które zostały pominięte w
zapytaniu. Zwróć uwagę na zakładkę DETAILS.
Zajęcia 1: Wprowadzenie do systemu Linux

Podobne dokumenty