Analiza Danych Wysokoprzepustowych – laboratorium 7 Analiza
Transkrypt
Analiza Danych Wysokoprzepustowych – laboratorium 7 Analiza
Analiza Danych Wysokoprzepustowych – laboratorium 7 Analiza danych RNA-seq – mapowanie i różnicowa ekspresja 1. Dane pochodzą z sekwencjonowania sekwencji RNA człowieka. Aby skrócić czas obliczeń wybrany został jedynie chromosom nr. 16, oraz wszystkie sekwencje, które mapują się do tego chromosomu. W katalogu /home/lab7/fastq_files są dwa pliki typu fastq, jeden pochodzi z sekwencjonowania organizmu zdrowego (w nazwie ctrl), a drugi z organizmu chorego (białaczka). 2. Sekwencje należy zmapować do genomu (tylko do chromosomu 16) programem tophat (w katalogu /home/tools/). Index tego chromosomu został już utworzony i znajduje się w tym samym katalogu co dane z sekwencjonowania. Do mapowania niezbędny jest też plik ze znanymi koordynatami genów – genes.gtf. Proszę o podanie instrukcji linuxowych niezbędnych do wykonania z poziomu katalogu domowego poniższych zadań. Pliki wyjściowe programów mają się znaleźć w katalogu domowym. a. utworzenia indexu typu bowtie2 chromosomu 16 (plik /home/lab7/fastq_files/ chr16.fa) b. zmapowania plików fastq chorego i zdrowego pacjenta programem tophat Z uwagi na prawdopodobnie długi czas oczekiwania na zakończenie tych obliczeń, wyniki mapowania umieściłam w katalogu /home/lab7/tophat_out 3. Następnie należy wyznaczyć różnicową ekspresję genów i sprawdzić alternatywny splicing. Służy do tego narzędzie cuffdiff dostępne w tools’ach. Proszę o podanie instrukcji linuxowych niezbędnych do wykonania z poziomu katalogu domowego poniższego zadania. Pliki wyjściowe mają się znaleźć w katalogu domowym. a. Wyznaczenie różnicy w ekspresji genów pomiędzy chorym i zdrowym pacjentem Gdyby obliczenia zbyt długo trwały to proszę wykorzystać wyniki z katalogu lab7/cuffdiff 4. Dla plików wynikowych z cuffdiffa należy wyciągnąć informację o tym które geny, transkrypty, izoformy są znacząco statystycznie różne dla obu próbek. Co prawda wykonanie testów statystycznych dla dwóch próbek nie jest wystarczająco dobrym wynikiem, ale z uwagi na ograniczony czas zajęć oraz pojemność dysku musimy na tym poprzestać. 5. Przedstaw krótką charakterystykę plików wyjściowych cuffdiffa, na podstawie których możemy wyciągną tę informację z punktu nr 4. Wykorzystaj w tym celu manuala na stronie projektu cufflinks