Analiza danych
Transkrypt
Analiza danych
Analiza danych pochodzących z sekwencjonowania nowej generacji przyrównanie do genomu referencyjnego - część II - Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Plan wykładów -------------------------------------------------------- część I --------------------Wstęp: - Sekwencjonowanie nowej generacji (NGS) - Przyrównanie do genomu referencyjnego - Formaty sekwencji (input) Wybór odpowiedniego środowiska i praca w nim Wizualizacja/ analiza sekwencji -------------------------------------------------------- część II -------------------Wybór programów do: - przyrównywania sekwencji - do wizualizacji przyrównania Formaty sekwencji (output) 2 Magda Mielczarek Analiza danych Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGAAAAA GGGAAAAATTTC GGGAACCTTTC CCTTTCTTTGGA ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT reference *Reads – „podsekwencje” genomu referencyjnego 3 Magda Mielczarek Analiza danych Przyrównanie do sekwencji referencyjnej Single –end 1 plik z read’ami read 1 read 1 Paired – end (mate –pair) 2 pliki read 2 2 końce tej samej cząsteczki DNA informacja o fizycznym dystansie pomiędzy dwoma read’ami w genomie 4 Magda Mielczarek Analiza danych Pokrycie genomu read 1 b read 2 read 1 a read 2 read 1 sekwencja referencyjna 5 Magda Mielczarek Analiza danych read 2 Przyrównanie do sekwencji referencyjnej – programy BWA SOAPaligner Bowtie / Bowtie 2 BFAST CASHX SRmapper 6 Magda Mielczarek Analiza danych SOAPaligner 1. Budowanie indeksów 2bwt- builder – buduje indeksy 38.fasta – sekwencja referencyjna 8 Magda Mielczarek Analiza danych 9 Magda Mielczarek Analiza danych 2. Przyrównanie (single-end reads) -a -D -o 10 query file, for SE reads alignment or one end of PE reads prefix name for reference index [*.index]. output file for alignment results Magda Mielczarek Analiza danych 11 Magda Mielczarek Analiza danych 12 Magda Mielczarek Analiza danych Output SOAPaligner 13 Magda Mielczarek Analiza danych Bowtie 2 1. Budowanie indeksów 1 2 15 Magda Mielczarek Analiza danych 2. Przyrównanie, statystyki 1 2 16 Magda Mielczarek Analiza danych Output – format SAM SAM format - Sequence Alignment/Map Format nagłówek przyrównania 17 Magda Mielczarek Analiza danych Output – format BAM SAM w postaci binarnej Zajmuje mniej miejsca Oszczędza czas (szybsza praca z danymi) samtools picard (pakiet uzupełniający) 18 Magda Mielczarek Analiza danych IGV – Integrative Genomics Viewer http://www.broadinstitute.org/igv/ wizualizacja przyrównania 19 Magda Mielczarek Analiza danych IGV wysokowydajne narzędzie do wizualizacji obsługuje różnorodne typy danych umożliwia dokumentację opracowany w Broad Institute MIT i Harvard 20 Magda Mielczarek Analiza danych IGV 23 Magda Mielczarek Analiza danych 24 Magda Mielczarek Analiza danych Co student powinien wiedzieć? Co to jest przyrównanie do genomu referencyjnego Potrafić wymienić i krótko scharakteryzować wymienione na wykładach formaty sekwencji Potrafić wymienić programy do analizy jakości sekwencji, przyrównania do sekwencji referencyjnej, do wizualizacji przyrównania. 25 Magda Mielczarek Analiza danych Źródła: Elaine R. M. 2008. Next-Generation DNA Sequencing Methods. Annual Review of Genomics and Human Genetics Vol. 9: 387402 Jay S., Hanlee J. 2008. Next-generation DNA sequencing. Nature Biotechnology 26, 1135 - 1145 http://www.ilumina.com/ http://soap.genomics.org.cn/soapaligner.html http://bowtiebio.sourceforge.net/bowtie2/index.shtml http://www.broadinstitute.org/igv/home http://samtools.sourceforge.net/ - Koniec części II - 27 Magda Mielczarek Analiza danych