Zaawansowane zastosowanie konsoli systemu Linux. Biologiczne

Transkrypt

Zaawansowane zastosowanie konsoli systemu Linux. Biologiczne
Bioinformatyka
Autor: Łukasz Kościński
Zaawansowane zastosowanie konsoli
systemu Linux.
Biologiczne formaty danych.
GREP / SSH / MUSCLE
1.Wprowadzenie:
W biologicznych bazach danych mamy do czynienia z różnymi formatami
zapisu danych. W zależności od potrzeb można mieć dostęp do bardziej
szczegółowych informacji (np. GenBank), jak również do samej sekwencji
(FASTA) w przypadku potrzeby korzystania z narzędzia BLAST.
W
wielu
przypadkach
istnieje
potrzeba
znalezienia
dość
skomplikowanych danych w strukturach interesujących nas plików. W tym celu
możliwości zwykłych edytorów tekstowych mogą się okazać niewystarczające,
przez co konieczne staje się użycie zaawansowanych poleceń konsoli systemu
linux takich jak GREP. Poniższe ćwiczenia mają na celu zapoznanie Państwa z
obsługą niniejszych poleceń.
UWAGA: WSZELKIE INFORMACJE O FORMATACH DANYCH POMOCNE
DO WYKONANIA ĆWICZEŃ ZNAJDUJĄ SIĘ NA KOŃCU MATERIAŁÓW.
2.Ćwiczenia:
1) Przy pomocy protokołu „ssh” zaloguj sie do komputera zdalnego.
Login: „przyklad”, hasło: „przykład”. Adres IP zdalnego komputera to
„150.254.121.235”. (jak to zrobić można znaleźć na początku manuala
dotyczącego tego polecenia). I sprawdź jak się nazywa obecny tam
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.
Bioinformatyka
Autor: Łukasz Kościński
katalog z plikami do ćwiczeń oraz jakie jest jego położenie w drzewie
katalogowym.
2) Wyloguj się ze zdalnego komputera.
3) Za pomocą komendy „scp” skopiuj w/w katalog do Twojego katalogu
domowego. (składnia polecenia to: 1) scp 2) plik/katalog w danej
lokalizacji źródłowej 3) katalog docelowy ).
4) Korzystając z polecenia „cat” wyświetl zawartość pliku „tlrb.fas” .
5) Przy pomocy połączenia poleceń cat oraz grep wyświetl tylko nagłówki
sekwencji FASTA z punktu 3).
6) Policz ile sekwencji znajduje sie w zapisanym pliku multifasta z pkt. 3).
7) Skopiuj do pliku E_Coli.fasta nagłówki sekwencji FASTA dotyczących
tego organizmu.
8) Używając polecenia „wc” policz liczbę zapisanych w punkcie 6)
nagłówków.
9) Przy pomocy programu „muscle” wykonaj uliniowienie (alignment)
sekwencji białkowych z punktu 4) i obejrzyj wynik edytorem „pico”.
10)Wykonaj czynności analogiczne do punktu 9), ale tym razem zapisz
wynik do pliku HTML.
11)Przy pomocy przeglądarki internetowej obejrzyj wyniki uzyskane w
punkcie 10).
12)W pliku sach.gb znajdź ile odnośników literaturowych odwołuje się do
tej sekwencji (wskazane byłoby użycie polecenia grep ;) ).
13)Odpowiedz na pytanie – jaki rodzaj cząsteczki jest opisywany w w/w
pliku.
14)Jaka jest dlugosc cząsteczki z punktu 12) ?
15)Jaki jest numer dostępu do tej cząsteczki.
16)Szukając po symbolu uzyskanym w punkcie 15) znajdź w/w krotke w
bazie danych NCBI.
17)Porównaj czym się różnią rekordy zapisane w plikach seq1 – seq4.
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.
Bioinformatyka
Autor: Łukasz Kościński
Formaty rekordów:
–
GenBank (http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html)
LOCUS [nr rekordu, długość czasteczki, topologia, kod dzialu i data],
DEFINITION [zawartość biologiczna rekordu],
ACCESSION [numer dostępu, odnośnik który powinien być cytowany],
VERSON [nr wersji, nr GI – geneinfo id],
DBSOURCE [źródłowa baza danych],
KEYWORDS, SOURCE [z jakiego organizmu pochodzi sekwencja],
ORGANISM [nazwa naukowa organizmu, nazwa angielska i krótka taksonomia],
REFERENCE,
COMMENT [rzadko, odnośnik do poprzedniej wersji lub nowego rekordu],
FEATURES [charakterystyka sekwencji, opis regionów, właściwości odnośnik do
CDS (sekwencji
kodującej), funkcja biologiczna sekwencji],
ORIGIN [sekwencja], rekord kończy się znakiem “//”
LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995
DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
rRNA and 5.8S rRNA genes, partial sequence.
ACCESSION U03518
BASE COUNT 41 a 77 c 67 g 52 t
ORIGIN
1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc
61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg
121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc
181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
//
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.
Bioinformatyka
–
Autor: Łukasz Kościński
EMBL (http://www.psc.edu/general/software/packages/seq-intro/emblfile.html)
ID [numer i typ danych w rekordzie],
AC [nr dostępu, odnośnik który powinien być cytowany],
SV [wersja],
DT [data stworzenia i data ostatniej aktualizajci oraz numer wersji],
DE [zawartość biologiczna rekordu],
KW [słowa kluczowe],
OS [nazwa naukowa organizmu, nazwa angielska],
OC [taksonomia],
RN [numer],
RX[odnośnik do bazy danych],
RA [autorzy] ,
RT [tytuł],
RL[gdzie opublikowano] [referencje],
DR [referencje do innych baz danych],
CC [komentarze, uwagi],
FH FT
[charakterystyka sekwencji, opis regionów, właściwości, odnośnik do
CDS (sekwencji
kodującej), funkcja biologiczna sekwencji],
SQ [sekwencja],
rekord kończy się znakiem “//”.
ID AA03518 standard; DNA; FUN; 237 BP.
XX
AC U03518;
XX
DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
DE rRNA and 5.8S rRNA genes, partial sequence.
XX
SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;
aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60
tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120
ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180
tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.
Bioinformatyka
–
Autor: Łukasz Kościński
FASTA (http://en.wikipedia.org/wiki/Fasta_format) – znak '>' oznacza początek
nowego rekordu, po tym jest linia identyfikacji [nr dostępu wersji, nazwa rekordu,
info o długości sekwencji, typ cząsteczki (DNA/RNA, aa), kod działu bazy danych
(BCT-bakterie),topologia cząsteczki (liniowa, kolista), data], następna linia to
sekwencja (po 60 znaków w linii), rekord kończy się znakiem “//”. W przypadku,
gdy w pliku zamieszczonych jest wiele sekwencji mówimy o tzw. formacie
MULTIFASTA.
>U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1)
AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC
TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC
CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT
TTCAACAATGGATCTCTTGGTTCCGGC
Abstract Syntax Notation
(http://www.ncbi.nlm.nih.gov/Sitemap/Summary/asn1.html)
jezyk
opisu
danych,
został
rozwinięty
przez
(ASN.1)
przemysł
formalny
komputerowy
i
telekomunikacyjny, jest to standard ISO zaadoptowany przez NCBI – do
kodowania
sekwencji,
map,
struktur molekularnych
itp.,
jest to
format
strukturalny (elementy są zagnieżdżone w innych elementach, określone przez
znaczniki i pozycję w strukturze). Jego celem jest przenośność pomiędzy różnymi
architekturami komputerów oraz systemami operacyjnymi.
–
Extensible Markup Language (XML) (http://www.w3.org/XML/) standardowy
format danych, składa się ze znaczników, które określają strukturę dokumentu,
pierwsza linia to linia definicji, elementy zagnieżdżone. Jest to jeden z najbardziej
współcześnie upowszechnianych formatów danych. Wizualnie jest on zbliżony do
HTML, na którym bazują strony WWW. Również na formacie XML opiera się
dzisiejszy wzór przenośnego między programami pliku tekstowego Open
Document (.odt).
<?xml version="1.0"?>
<sparql xmlns="http://www.w3.org/2005/sparql-results#">
...
</sparql>
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.
Bioinformatyka
–
GCG
–
Autor: Łukasz Kościński
format
używany
przez
programy
z
pakietu
GCG
(http://www.hku.hk/bruhk/gcg.html), zawiera sumę kontrolną w nagłówku
charakterystyczną dla danej sekwencji. Początek sekwencji jest oznaczony
dwiema kropkami.
ID AA03518 standard; DNA; FUN; 237 BP.
XX
AC U03518;
XX
DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
DE rRNA and 5.8S rRNA genes, partial sequence.
XX
SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;
AA03518 Length: 237 Check: 4514 ..
1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc
61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg
121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc
181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.