projekt ngs 2.

Transkrypt

projekt ngs 2.
ANALIZA DANYCH POCHODZĄCYCH Z
SEKWENCJONOWANIA NASTĘPNEJ GENERACJI
JOANNA SZYDA
MAGDALENA FRĄSZCZAK
MAGDA MIELCZAREK
WSTĘP
1. Katedra Genetyki
2. Pracownia biostatystyki
3. Projekty NGS
4. Charakterystyka przedmiotu
5. Kontakt
Copyright ©2015, Joanna Szyda
KATEDRA GENETYKI
Katedra Genetyki:
http://gen.edu.pl
Copyright ©2015, Joanna Szyda
PRACOWNIA BIOSTATYSTYKI
Pracownia biostatystyki:
http://theta.edu.pl
Copyright ©2015 Joanna Szyda
PRACOWNIA BIOSTATYSTYKI
SKN:
Neo Christopher Chung  [email protected]
Copyright ©2015, Joanna Szyda
PROJEKTY NGS
1. Optimizing NGS data analysis pipelines – a
comparison of alignment and SNP calling tools
•
Magda Mielczarek
THETA
•
Joanna Szyda
 THETA
•
Bernt Guldbrandtsen  University of Aarchus
Copyright ©2015, Joanna Szyda
PROJEKT NGS 1.
Materiał
•
Whole Genome Sequence
•
4 buhaje rasy duńskiej czerwonej
•
249 -290 mln odczytów
•
Średnie pokrycie genomu ~ 10 X
•
Single Nucleotide Polymorphisms
•
Illumina BovineHD BeadArray (777,000 SNP)
Copyright ©2015, Joanna Szyda
PROJEKT NGS 1.
Metody
•
Porównanie całych bioinformatycznych ciągów
analitycznych (ang. bioinformatic pipeline)
•
Liczba poprawnych genotypów NGS
•
Czas obliczeń
•
Pipelines
•
4 programy do przyrównania do genomu referencyjnego
•
2 programy do detekcji SNP
Copyright ©2015, Joanna Szyda
PROJEKT NGS 1.
Pipelines
Copyright ©2015, Joanna Szyda
PROJEKTY NGS
2. The assessment of inter-individual variation of
whole genome DNA sequence in 32 cows
•
THETA  Joanna Szyda, Magdalena Frąszczak,
Magda Mielczarek
•
PTP
 Riccardo Giannico, Giulietta Minozzi,
Ezequiel L. Nicolazzi
•
ZUT
 Katarzyna Wojdak-Maksymiec
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Materiał
•
Whole Genome Sequence
•
32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej
•
16 grup półsióstr
•
Chore  częste występowanie mastitis
•
Zdrowe  brak zachorowań
•
164,984,147 - 472,265,620 odczytów na osobnika
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Średnie pokrycie genomu przez odczyty
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Pokrycie genomu przez odczyty dla wybranej
krowy na 3 chromosomach
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Średnie pokrycie genomu odczytami, a liczba
zidentyfikowanych SNP
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Całkowita liczba SNP zidentyfikowanych u krów
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
Liczba SNP z 1 i 3 allelami
Copyright ©2015, Joanna Szyda
PROJEKT NGS 2.
SNP wykryte tylko przez jeden program
Copyright ©2015, Joanna Szyda
PROJEKTY NGS
3. The analysis of Copy Number Variations in 32
Polish Holstein-Friesian cow genomes based on
whole genome sequence data
•
THETA  Joanna Szyda, Magdalena Frąszczak,
Magda Mielczarek
•
PTP
 Riccardo Giannico, Giulietta Minozzi,
Ezequiel L. Nicolazzi
•
ZUT
 Katarzyna Wojdak-Maksymiec
Copyright ©2015, Joanna Szyda
PROJEKT NGS 3.
Materiał
•
Whole Genome Sequence
•
32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej
•
16 grup półsióstr
•
Chore  częste występowanie mastitis
•
Zdrowe  brak zachorowań
•
Długość CNV (delecje)  1,700 bp - 7,154 bp
•
Długość CNV (duplikacje)  5,900 bp - 8,843 bp
Copyright ©2015, Joanna Szyda
PROJEKT NGS 3.
Tematy badawcze
•
Rozkład CNV w genomie
•
Zmienność CNV pomiędzy osobnikami
•
Walidacja poprawności CNV
•
Adnotacja genomowa CNV
Copyright ©2015, Joanna Szyda
CHARAKTERYSTYKA WYKŁADÓW
1. Intro
•
Linux
•
Techniki sekwencjonowania
2. Standardowe etapy analizy danych NGS
•
Struktura plików
•
Stosowane oprogramowanie
3. Przykłady analiz niestandardowych
Copyright ©2015, Joanna Szyda
TEMATYKA WYKŁADÓW
1. Wykład wstępny
2. Wprowadzenie do systemu operacyjnego Linux
3. Techniki sekwencjonowanie nowej generacji
4. Omówienie standardowych kroków w analizie danych
NGS oraz struktury plików danych
5. Edycja danych: sprawdzanie jakości danych, edycja
danych, przykładowe oprogramowanie
6. Analiza danych: składanie sekwencji de novo,
przyrównanie do genomu referencyjnego, omówienie
algorytmów stosowanych w oprogramowaniu,
szczegółowe omówienie oprogramowania bazującego na
zastosowaniu transformaty Burrowsa-Wheelera (np.
BWA, Bowtie2, Soap2)
Copyright ©2015, Joanna Szyda
TEMATYKA WYKŁADÓW
7. Analiza danych: przyrównanie sekwencji do genomu
referencyjnego, omówienie oprogramowania bazującego
na zastosowaniu algorytmu tablicy mieszającej (np.
SMALT, MOSIAK, BFAST, SHRiMP, MAQ)
8. Polimorfizmy genetyczne: omówienie polimorfizmów
genetycznych, oprogramowanie poszukujące
polimorfizmów typu SNP (mutacje pojedynczego
nukleotydu), INDEL (insercje i delecje) oraz CNV
(warianty liczby kopii), przykłady programów
poszukujących polimorfizmów (GATK, SAMtools,
CVNnator, itp.)
9. Adnotacje wariantów genetycznych: przeszukiwanie baz
biologicznych, oprogramowania variant effect predictor
Copyright ©2015, Joanna Szyda
TEMATYKA WYKŁADÓW
10. Wykorzystanie informacji o polimorfizmie: konstrukcja
haplotypów, przykłady oprogramowania służącego do
konstrukcji haplotypów (GATK, Beagle), zagadnienia
imputacji brakujących genotypów.
11. Wykorzystanie informacji o polimorfizmie: genomewide
association studies, testowanie różnic w częstości alleli
pomiędzy populacjami, pojęcie rzadkich wariantów
genetycznych.
12. Najnowsze opracowania z literatury dotyczące analizy: JS
13. Najnowsze opracowania z literatury dotyczące analizy: JS
14. Najnowsze opracowania z literatury dotyczące analizy: s
15. Najnowsze opracowania z literatury dotyczące analizy: s
Copyright ©2015, Joanna Szyda
CHARAKTERYSTYKA ĆWICZEŃ
1. Obecność
2. Oceny:
•
2 kolokwia z wykorzystaniem komputera
− ocena bez poprawek
− tematyka wykłady + ćwiczenia
3. Prezentacje artykułów naukowych
Copyright ©2015, Joanna Szyda
TEMATYKA ĆWICZEŃ
1. Ćwiczenia wstępne
2. Wprowadzenie do systemu operacyjnego Linux
3. Pozyskanie danych potrzebnych do analizy (krótkie
odczyty pochodzące z sekwencjonowania nowej
generacji, genom referencyjny): omówienie i użycie
oprogramowania (SRA-toolkit) przekształcającego dane z
bazy na format fastq, przekształcenie sekwencji
referencyjnej.
4. Kolokwium nr I.
5. Edycja danych: zastosowanie programu FastQC do
kontroli jakości odczytów oraz oprogramowanie służące
do ich edycji (PRINSEQ, Trimmomatic)
6. Edycja danych: ciąg dalszy.
Copyright ©2015, Joanna Szyda
TEMATYKA ĆWICZEŃ
7. Przyrównanie do genomu referencyjnego: zastosowanie
programów BWA i SMALT.
8. Wyszukiwanie wariantów genetycznych typu SNP i
INDEL. Użycie programu SAMtools.
9. Analiza plików typu vcf.
10. Estymacja haplotypów.
11. Imputacja brakujących genotypów.
12. Wyszukiwanie wariantów genetycznych typu CNV.
Wykorzystanie programu CNVnator.
13. Kolokwium nr II.
14. Prezentacje artykułów naukowych. Dyskusja.
15. Prezentacje artykułów naukowych. Dyskusja.
Copyright ©2015, Joanna Szyda
KONTAKT
adres:
Katedra Genetyki
Kożuchowska 7
konsultacje: indywidualnie
termin ustalony indywidualnie z prowadzącym
Copyright ©2015, Joanna Szyda
KONTAKT
informacje: http://theta.edu.pl/teaching/
 Analiza danych …
Copyright ©2015, Joanna Szyda
KONTAKT
informacje: http://theta.edu.pl/teaching/
 Analiza danych
Copyright ©2015, Joanna Szyda
PAKIETY
STATYSTYCZNE
charakterystyka
przedmiotu

Podobne dokumenty