Zaawansowane zastosowanie konsoli systemu Linux. Biologiczne
Transkrypt
Zaawansowane zastosowanie konsoli systemu Linux. Biologiczne
Bioinformatyka Autor: Łukasz Kościński Zaawansowane zastosowanie konsoli systemu Linux. Biologiczne formaty danych. GREP / SSH / MUSCLE 1.Wprowadzenie: W biologicznych bazach danych mamy do czynienia z różnymi formatami zapisu danych. W zależności od potrzeb można mieć dostęp do bardziej szczegółowych informacji (np. GenBank), jak również do samej sekwencji (FASTA) w przypadku potrzeby korzystania z narzędzia BLAST. W wielu przypadkach istnieje potrzeba znalezienia dość skomplikowanych danych w strukturach interesujących nas plików. W tym celu możliwości zwykłych edytorów tekstowych mogą się okazać niewystarczające, przez co konieczne staje się użycie zaawansowanych poleceń konsoli systemu linux takich jak GREP. Poniższe ćwiczenia mają na celu zapoznanie Państwa z obsługą niniejszych poleceń. UWAGA: WSZELKIE INFORMACJE O FORMATACH DANYCH POMOCNE DO WYKONANIA ĆWICZEŃ ZNAJDUJĄ SIĘ NA KOŃCU MATERIAŁÓW. 2.Ćwiczenia: 1) Przy pomocy protokołu „ssh” zaloguj sie do komputera zdalnego. Login: „przyklad”, hasło: „przykład”. Adres IP zdalnego komputera to „150.254.121.235”. (jak to zrobić można znaleźć na początku manuala dotyczącego tego polecenia). I sprawdź jak się nazywa obecny tam Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux. Bioinformatyka Autor: Łukasz Kościński katalog z plikami do ćwiczeń oraz jakie jest jego położenie w drzewie katalogowym. 2) Wyloguj się ze zdalnego komputera. 3) Za pomocą komendy „scp” skopiuj w/w katalog do Twojego katalogu domowego. (składnia polecenia to: 1) scp 2) plik/katalog w danej lokalizacji źródłowej 3) katalog docelowy ). 4) Korzystając z polecenia „cat” wyświetl zawartość pliku „tlrb.fas” . 5) Przy pomocy połączenia poleceń cat oraz grep wyświetl tylko nagłówki sekwencji FASTA z punktu 3). 6) Policz ile sekwencji znajduje sie w zapisanym pliku multifasta z pkt. 3). 7) Skopiuj do pliku E_Coli.fasta nagłówki sekwencji FASTA dotyczących tego organizmu. 8) Używając polecenia „wc” policz liczbę zapisanych w punkcie 6) nagłówków. 9) Przy pomocy programu „muscle” wykonaj uliniowienie (alignment) sekwencji białkowych z punktu 4) i obejrzyj wynik edytorem „pico”. 10)Wykonaj czynności analogiczne do punktu 9), ale tym razem zapisz wynik do pliku HTML. 11)Przy pomocy przeglądarki internetowej obejrzyj wyniki uzyskane w punkcie 10). 12)W pliku sach.gb znajdź ile odnośników literaturowych odwołuje się do tej sekwencji (wskazane byłoby użycie polecenia grep ;) ). 13)Odpowiedz na pytanie – jaki rodzaj cząsteczki jest opisywany w w/w pliku. 14)Jaka jest dlugosc cząsteczki z punktu 12) ? 15)Jaki jest numer dostępu do tej cząsteczki. 16)Szukając po symbolu uzyskanym w punkcie 15) znajdź w/w krotke w bazie danych NCBI. 17)Porównaj czym się różnią rekordy zapisane w plikach seq1 – seq4. Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux. Bioinformatyka Autor: Łukasz Kościński Formaty rekordów: – GenBank (http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html) LOCUS [nr rekordu, długość czasteczki, topologia, kod dzialu i data], DEFINITION [zawartość biologiczna rekordu], ACCESSION [numer dostępu, odnośnik który powinien być cytowany], VERSON [nr wersji, nr GI – geneinfo id], DBSOURCE [źródłowa baza danych], KEYWORDS, SOURCE [z jakiego organizmu pochodzi sekwencja], ORGANISM [nazwa naukowa organizmu, nazwa angielska i krótka taksonomia], REFERENCE, COMMENT [rzadko, odnośnik do poprzedniej wersji lub nowego rekordu], FEATURES [charakterystyka sekwencji, opis regionów, właściwości odnośnik do CDS (sekwencji kodującej), funkcja biologiczna sekwencji], ORIGIN [sekwencja], rekord kończy się znakiem “//” LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995 DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. ACCESSION U03518 BASE COUNT 41 a 77 c 67 g 52 t ORIGIN 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc // Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux. Bioinformatyka – Autor: Łukasz Kościński EMBL (http://www.psc.edu/general/software/packages/seq-intro/emblfile.html) ID [numer i typ danych w rekordzie], AC [nr dostępu, odnośnik który powinien być cytowany], SV [wersja], DT [data stworzenia i data ostatniej aktualizajci oraz numer wersji], DE [zawartość biologiczna rekordu], KW [słowa kluczowe], OS [nazwa naukowa organizmu, nazwa angielska], OC [taksonomia], RN [numer], RX[odnośnik do bazy danych], RA [autorzy] , RT [tytuł], RL[gdzie opublikowano] [referencje], DR [referencje do innych baz danych], CC [komentarze, uwagi], FH FT [charakterystyka sekwencji, opis regionów, właściwości, odnośnik do CDS (sekwencji kodującej), funkcja biologiczna sekwencji], SQ [sekwencja], rekord kończy się znakiem “//”. ID AA03518 standard; DNA; FUN; 237 BP. XX AC U03518; XX DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S DE rRNA and 5.8S rRNA genes, partial sequence. XX SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237 Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux. Bioinformatyka – Autor: Łukasz Kościński FASTA (http://en.wikipedia.org/wiki/Fasta_format) – znak '>' oznacza początek nowego rekordu, po tym jest linia identyfikacji [nr dostępu wersji, nazwa rekordu, info o długości sekwencji, typ cząsteczki (DNA/RNA, aa), kod działu bazy danych (BCT-bakterie),topologia cząsteczki (liniowa, kolista), data], następna linia to sekwencja (po 60 znaków w linii), rekord kończy się znakiem “//”. W przypadku, gdy w pliku zamieszczonych jest wiele sekwencji mówimy o tzw. formacie MULTIFASTA. >U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1) AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT TTCAACAATGGATCTCTTGGTTCCGGC Abstract Syntax Notation (http://www.ncbi.nlm.nih.gov/Sitemap/Summary/asn1.html) jezyk opisu danych, został rozwinięty przez (ASN.1) przemysł formalny komputerowy i telekomunikacyjny, jest to standard ISO zaadoptowany przez NCBI – do kodowania sekwencji, map, struktur molekularnych itp., jest to format strukturalny (elementy są zagnieżdżone w innych elementach, określone przez znaczniki i pozycję w strukturze). Jego celem jest przenośność pomiędzy różnymi architekturami komputerów oraz systemami operacyjnymi. – Extensible Markup Language (XML) (http://www.w3.org/XML/) standardowy format danych, składa się ze znaczników, które określają strukturę dokumentu, pierwsza linia to linia definicji, elementy zagnieżdżone. Jest to jeden z najbardziej współcześnie upowszechnianych formatów danych. Wizualnie jest on zbliżony do HTML, na którym bazują strony WWW. Również na formacie XML opiera się dzisiejszy wzór przenośnego między programami pliku tekstowego Open Document (.odt). <?xml version="1.0"?> <sparql xmlns="http://www.w3.org/2005/sparql-results#"> ... </sparql> Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux. Bioinformatyka – GCG – Autor: Łukasz Kościński format używany przez programy z pakietu GCG (http://www.hku.hk/bruhk/gcg.html), zawiera sumę kontrolną w nagłówku charakterystyczną dla danej sekwencji. Początek sekwencji jest oznaczony dwiema kropkami. ID AA03518 standard; DNA; FUN; 237 BP. XX AC U03518; XX DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S DE rRNA and 5.8S rRNA genes, partial sequence. XX SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; AA03518 Length: 237 Check: 4514 .. 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc Zajęcia 4: Zaawansowane zastosowanie konsoli systemu Linux.