NGS lista 5 1. Używając linii komend, pozyskaj i
Transkrypt
NGS lista 5 1. Używając linii komend, pozyskaj i
NGS lista 5 1. Używając linii komend, pozyskaj i odpowiednio przygotuj genom referencyjny, którego użyjesz w procesie przyrównania. Z biotechnologicznej bazy danych (np. NCBI) ściągnij genom jądrowy Drosophila melanogaster. Połącz pliki zawierające sekwencje chromosomów w cały genom, pamiętając aby zachować ich odpowiednią kolejność. Zadbaj także o to aby plik nie zawierał pustych linii. Linie tekstu zawierające opis sekwencji zamień na krótszy, bardziej czytelny opis. Na przykład >gi|669632457|ref|NC_004353.4| Drosophila melanogaster chromosome 4 zamień na >chr4 2. Przyrównanie do genomu referencyjnego i manipulacja plikiem wynikowym. Surowe dane D.melanogaster_1.fastq oraz D.melanogaster_2.fastq przyrównaj do utworzonego wcześniej genomu referencyjnego. W tym celu użyj programu BWA. Wzór składni wymaganej przez program znajduje się poniżej. a. Indeksowanie genomu referencyjnego bwa index ścieżka/genome_ref.fasta b. Przyrównanie bwa mem ścieżka/genome_ref.fasta ścieżka/read1.fastq ścieżka/read2.fastq > ścieżka/out.sam Manipulację plikami w formacie SAM zapewnia program SAMtools. Wykonaj poniższe kroki wzorując się na przykładach. c. Konwertowanie pliku SAM do pliku BAM oraz sortowanie samtools view -bS ścieżka/out.sam > ścieżka/out.bam samtools sort ścieżka/out.sam ścieżka/out.srt d. Format BAM jest binarnym odpowiednikiem formatu SAM. Aby odczytać plik BAM użyj poleceń samtools view -H ścieżka/out.srt.bam | less # nagłówek samtools view ścieżka/out.srt.bam| less # treść właściwa e. Podsumowanie procesu przyrównania samtools flagstat ścieżka/out.srt.bam Ile procent odczytów zostało przyrównanych do genomu referencyjnego? Plik SAM oraz nieposortowany BAM nie są już dłużej potrzebne. Możesz je usunąć za pomocą komendy rm. Posortowany plik BAM zachowaj do dalszej analizy. 26/11/2015 theta.edu.pl Magda Mielczarek