Analiza danych

Transkrypt

Analiza danych
Analiza danych pochodzących z
sekwencjonowania nowej generacji przyrównanie do genomu referencyjnego
- część II -
Magda Mielczarek
Katedra Genetyki
Uniwersytet Przyrodniczy we Wrocławiu
Plan wykładów
-------------------------------------------------------- część I --------------------Wstęp:
- Sekwencjonowanie nowej generacji (NGS)
- Przyrównanie do genomu referencyjnego
- Formaty sekwencji (input)
Wybór odpowiedniego środowiska i praca w nim
Wizualizacja/ analiza sekwencji
-------------------------------------------------------- część II -------------------Wybór programów do:
- przyrównywania sekwencji
- do wizualizacji przyrównania
Formaty sekwencji (output)
2
Magda Mielczarek
Analiza danych
Przyrównanie do sekwencji referencyjnej
 złożenie krótkich fragmentów
read
ACTGGGGGGGAAAAA
GGGAAAAATTTC
GGGAACCTTTC
CCTTTCTTTGGA
ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT
reference
*Reads – „podsekwencje” genomu referencyjnego
3
Magda Mielczarek
Analiza danych
Przyrównanie do sekwencji referencyjnej
Single –end
 1 plik z read’ami
read 1
read 1
Paired – end (mate –pair)
 2 pliki
read 2
 2 końce tej samej cząsteczki DNA
 informacja o fizycznym dystansie pomiędzy dwoma
read’ami w genomie
4
Magda Mielczarek
Analiza danych
Pokrycie genomu
read 1
b
read 2
read 1
a
read 2
read 1
sekwencja referencyjna
5
Magda Mielczarek
Analiza danych
read 2
Przyrównanie do sekwencji referencyjnej
– programy
 BWA
 SOAPaligner
 Bowtie / Bowtie 2
 BFAST
 CASHX
 SRmapper
6
Magda Mielczarek
Analiza danych
SOAPaligner
1. Budowanie indeksów
 2bwt-
builder –
buduje
indeksy
 38.fasta –
sekwencja
referencyjna
8
Magda Mielczarek
Analiza danych
9
Magda Mielczarek
Analiza danych
2. Przyrównanie (single-end reads)
-a
-D
-o
10
query file, for SE reads alignment or one end of PE reads
prefix name for reference index [*.index].
output file for alignment results
Magda Mielczarek
Analiza danych
11
Magda Mielczarek
Analiza danych
12
Magda Mielczarek
Analiza danych
Output SOAPaligner
13
Magda Mielczarek
Analiza danych
Bowtie 2
1. Budowanie indeksów
1
2
15
Magda Mielczarek
Analiza danych
2. Przyrównanie, statystyki
1
2
16
Magda Mielczarek
Analiza danych
Output – format SAM
SAM format - Sequence Alignment/Map Format
nagłówek
przyrównania
17
Magda Mielczarek
Analiza danych
Output – format BAM
 SAM w postaci binarnej
 Zajmuje mniej miejsca
 Oszczędza czas (szybsza praca z danymi)
 samtools
 picard (pakiet uzupełniający)
18
Magda Mielczarek
Analiza danych
IGV – Integrative Genomics Viewer
 http://www.broadinstitute.org/igv/
 wizualizacja przyrównania
19
Magda Mielczarek
Analiza danych
IGV
 wysokowydajne narzędzie do
wizualizacji
 obsługuje różnorodne typy
danych
 umożliwia dokumentację
 opracowany w Broad Institute
MIT i Harvard
20
Magda Mielczarek
Analiza danych
IGV
23
Magda Mielczarek
Analiza danych
24
Magda Mielczarek
Analiza danych
Co student powinien wiedzieć?
 Co to jest przyrównanie do genomu referencyjnego
 Potrafić wymienić i krótko scharakteryzować
wymienione na wykładach formaty sekwencji
 Potrafić wymienić programy do analizy jakości
sekwencji, przyrównania do sekwencji referencyjnej,
do wizualizacji przyrównania.
25
Magda Mielczarek
Analiza danych
Źródła:
 Elaine R. M. 2008. Next-Generation DNA Sequencing Methods.
Annual Review of Genomics and Human Genetics Vol. 9: 387402
 Jay S., Hanlee J. 2008. Next-generation DNA sequencing. Nature
Biotechnology 26, 1135 - 1145
 http://www.ilumina.com/
 http://soap.genomics.org.cn/soapaligner.html
 http://bowtiebio.sourceforge.net/bowtie2/index.shtml
 http://www.broadinstitute.org/igv/home
 http://samtools.sourceforge.net/
- Koniec części II -
27
Magda Mielczarek
Analiza danych

Podobne dokumenty