projekt ngs 2.
Transkrypt
projekt ngs 2.
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI JOANNA SZYDA MAGDALENA FRĄSZCZAK MAGDA MIELCZAREK WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka przedmiotu 5. Kontakt Copyright ©2015, Joanna Szyda KATEDRA GENETYKI Katedra Genetyki: http://gen.edu.pl Copyright ©2015, Joanna Szyda PRACOWNIA BIOSTATYSTYKI Pracownia biostatystyki: http://theta.edu.pl Copyright ©2015 Joanna Szyda PRACOWNIA BIOSTATYSTYKI SKN: Neo Christopher Chung [email protected] Copyright ©2015, Joanna Szyda PROJEKTY NGS 1. Optimizing NGS data analysis pipelines – a comparison of alignment and SNP calling tools • Magda Mielczarek THETA • Joanna Szyda THETA • Bernt Guldbrandtsen University of Aarchus Copyright ©2015, Joanna Szyda PROJEKT NGS 1. Materiał • Whole Genome Sequence • 4 buhaje rasy duńskiej czerwonej • 249 -290 mln odczytów • Średnie pokrycie genomu ~ 10 X • Single Nucleotide Polymorphisms • Illumina BovineHD BeadArray (777,000 SNP) Copyright ©2015, Joanna Szyda PROJEKT NGS 1. Metody • Porównanie całych bioinformatycznych ciągów analitycznych (ang. bioinformatic pipeline) • Liczba poprawnych genotypów NGS • Czas obliczeń • Pipelines • 4 programy do przyrównania do genomu referencyjnego • 2 programy do detekcji SNP Copyright ©2015, Joanna Szyda PROJEKT NGS 1. Pipelines Copyright ©2015, Joanna Szyda PROJEKTY NGS 2. The assessment of inter-individual variation of whole genome DNA sequence in 32 cows • THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek • PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi • ZUT Katarzyna Wojdak-Maksymiec Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Materiał • Whole Genome Sequence • 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej • 16 grup półsióstr • Chore częste występowanie mastitis • Zdrowe brak zachorowań • 164,984,147 - 472,265,620 odczytów na osobnika Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Średnie pokrycie genomu przez odczyty Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Pokrycie genomu przez odczyty dla wybranej krowy na 3 chromosomach Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Średnie pokrycie genomu odczytami, a liczba zidentyfikowanych SNP Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Całkowita liczba SNP zidentyfikowanych u krów Copyright ©2015, Joanna Szyda PROJEKT NGS 2. Liczba SNP z 1 i 3 allelami Copyright ©2015, Joanna Szyda PROJEKT NGS 2. SNP wykryte tylko przez jeden program Copyright ©2015, Joanna Szyda PROJEKTY NGS 3. The analysis of Copy Number Variations in 32 Polish Holstein-Friesian cow genomes based on whole genome sequence data • THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek • PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi • ZUT Katarzyna Wojdak-Maksymiec Copyright ©2015, Joanna Szyda PROJEKT NGS 3. Materiał • Whole Genome Sequence • 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej • 16 grup półsióstr • Chore częste występowanie mastitis • Zdrowe brak zachorowań • Długość CNV (delecje) 1,700 bp - 7,154 bp • Długość CNV (duplikacje) 5,900 bp - 8,843 bp Copyright ©2015, Joanna Szyda PROJEKT NGS 3. Tematy badawcze • Rozkład CNV w genomie • Zmienność CNV pomiędzy osobnikami • Walidacja poprawności CNV • Adnotacja genomowa CNV Copyright ©2015, Joanna Szyda CHARAKTERYSTYKA WYKŁADÓW 1. Intro • Linux • Techniki sekwencjonowania 2. Standardowe etapy analizy danych NGS • Struktura plików • Stosowane oprogramowanie 3. Przykłady analiz niestandardowych Copyright ©2015, Joanna Szyda TEMATYKA WYKŁADÓW 1. Wykład wstępny 2. Wprowadzenie do systemu operacyjnego Linux 3. Techniki sekwencjonowanie nowej generacji 4. Omówienie standardowych kroków w analizie danych NGS oraz struktury plików danych 5. Edycja danych: sprawdzanie jakości danych, edycja danych, przykładowe oprogramowanie 6. Analiza danych: składanie sekwencji de novo, przyrównanie do genomu referencyjnego, omówienie algorytmów stosowanych w oprogramowaniu, szczegółowe omówienie oprogramowania bazującego na zastosowaniu transformaty Burrowsa-Wheelera (np. BWA, Bowtie2, Soap2) Copyright ©2015, Joanna Szyda TEMATYKA WYKŁADÓW 7. Analiza danych: przyrównanie sekwencji do genomu referencyjnego, omówienie oprogramowania bazującego na zastosowaniu algorytmu tablicy mieszającej (np. SMALT, MOSIAK, BFAST, SHRiMP, MAQ) 8. Polimorfizmy genetyczne: omówienie polimorfizmów genetycznych, oprogramowanie poszukujące polimorfizmów typu SNP (mutacje pojedynczego nukleotydu), INDEL (insercje i delecje) oraz CNV (warianty liczby kopii), przykłady programów poszukujących polimorfizmów (GATK, SAMtools, CVNnator, itp.) 9. Adnotacje wariantów genetycznych: przeszukiwanie baz biologicznych, oprogramowania variant effect predictor Copyright ©2015, Joanna Szyda TEMATYKA WYKŁADÓW 10. Wykorzystanie informacji o polimorfizmie: konstrukcja haplotypów, przykłady oprogramowania służącego do konstrukcji haplotypów (GATK, Beagle), zagadnienia imputacji brakujących genotypów. 11. Wykorzystanie informacji o polimorfizmie: genomewide association studies, testowanie różnic w częstości alleli pomiędzy populacjami, pojęcie rzadkich wariantów genetycznych. 12. Najnowsze opracowania z literatury dotyczące analizy: JS 13. Najnowsze opracowania z literatury dotyczące analizy: JS 14. Najnowsze opracowania z literatury dotyczące analizy: s 15. Najnowsze opracowania z literatury dotyczące analizy: s Copyright ©2015, Joanna Szyda CHARAKTERYSTYKA ĆWICZEŃ 1. Obecność 2. Oceny: • 2 kolokwia z wykorzystaniem komputera − ocena bez poprawek − tematyka wykłady + ćwiczenia 3. Prezentacje artykułów naukowych Copyright ©2015, Joanna Szyda TEMATYKA ĆWICZEŃ 1. Ćwiczenia wstępne 2. Wprowadzenie do systemu operacyjnego Linux 3. Pozyskanie danych potrzebnych do analizy (krótkie odczyty pochodzące z sekwencjonowania nowej generacji, genom referencyjny): omówienie i użycie oprogramowania (SRA-toolkit) przekształcającego dane z bazy na format fastq, przekształcenie sekwencji referencyjnej. 4. Kolokwium nr I. 5. Edycja danych: zastosowanie programu FastQC do kontroli jakości odczytów oraz oprogramowanie służące do ich edycji (PRINSEQ, Trimmomatic) 6. Edycja danych: ciąg dalszy. Copyright ©2015, Joanna Szyda TEMATYKA ĆWICZEŃ 7. Przyrównanie do genomu referencyjnego: zastosowanie programów BWA i SMALT. 8. Wyszukiwanie wariantów genetycznych typu SNP i INDEL. Użycie programu SAMtools. 9. Analiza plików typu vcf. 10. Estymacja haplotypów. 11. Imputacja brakujących genotypów. 12. Wyszukiwanie wariantów genetycznych typu CNV. Wykorzystanie programu CNVnator. 13. Kolokwium nr II. 14. Prezentacje artykułów naukowych. Dyskusja. 15. Prezentacje artykułów naukowych. Dyskusja. Copyright ©2015, Joanna Szyda KONTAKT adres: Katedra Genetyki Kożuchowska 7 konsultacje: indywidualnie termin ustalony indywidualnie z prowadzącym Copyright ©2015, Joanna Szyda KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych … Copyright ©2015, Joanna Szyda KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych Copyright ©2015, Joanna Szyda PAKIETY STATYSTYCZNE charakterystyka przedmiotu