NGS lista 5 1. Używając linii komend, pozyskaj i

Transkrypt

NGS lista 5 1. Używając linii komend, pozyskaj i
NGS
lista 5
1. Używając linii komend, pozyskaj i odpowiednio przygotuj genom referencyjny, którego
użyjesz w procesie przyrównania. Z biotechnologicznej bazy danych (np. NCBI) ściągnij
genom jądrowy Drosophila melanogaster. Połącz pliki zawierające sekwencje
chromosomów w cały genom, pamiętając aby zachować ich odpowiednią kolejność.
Zadbaj także o to aby plik nie zawierał pustych linii. Linie tekstu zawierające opis sekwencji
zamień na krótszy, bardziej czytelny opis. Na przykład >gi|669632457|ref|NC_004353.4|
Drosophila melanogaster chromosome 4 zamień na >chr4
2. Przyrównanie do genomu referencyjnego i manipulacja plikiem wynikowym.
Surowe dane D.melanogaster_1.fastq oraz D.melanogaster_2.fastq przyrównaj do
utworzonego wcześniej genomu referencyjnego. W tym celu użyj programu BWA. Wzór
składni wymaganej przez program znajduje się poniżej.
a. Indeksowanie genomu referencyjnego
bwa index ścieżka/genome_ref.fasta
b. Przyrównanie
bwa mem ścieżka/genome_ref.fasta ścieżka/read1.fastq ścieżka/read2.fastq >
ścieżka/out.sam
Manipulację plikami w formacie SAM zapewnia program SAMtools. Wykonaj poniższe
kroki wzorując się na przykładach.
c. Konwertowanie pliku SAM do pliku BAM oraz sortowanie
samtools view -bS ścieżka/out.sam > ścieżka/out.bam
samtools sort ścieżka/out.sam ścieżka/out.srt
d. Format BAM jest binarnym odpowiednikiem formatu SAM. Aby odczytać plik BAM
użyj poleceń
samtools view -H ścieżka/out.srt.bam | less
# nagłówek
samtools view ścieżka/out.srt.bam| less
# treść właściwa
e. Podsumowanie procesu przyrównania
samtools flagstat ścieżka/out.srt.bam
Ile procent odczytów zostało przyrównanych do genomu referencyjnego?
Plik SAM oraz nieposortowany BAM nie są już dłużej potrzebne. Możesz je usunąć za
pomocą komendy rm. Posortowany plik BAM zachowaj do dalszej analizy.
26/11/2015
theta.edu.pl
Magda Mielczarek

Podobne dokumenty