Analiza Danych Wysokoprzepustowych – laboratorium 7 Analiza

Transkrypt

Analiza Danych Wysokoprzepustowych – laboratorium 7 Analiza
Analiza Danych Wysokoprzepustowych – laboratorium 7
Analiza danych RNA-seq – mapowanie i różnicowa ekspresja
1. Dane pochodzą z sekwencjonowania sekwencji RNA człowieka. Aby skrócić czas obliczeń
wybrany został jedynie chromosom nr. 16, oraz wszystkie sekwencje, które mapują się do
tego chromosomu. W katalogu /home/lab7/fastq_files są dwa pliki typu fastq, jeden
pochodzi z sekwencjonowania organizmu zdrowego (w nazwie ctrl), a drugi z organizmu
chorego (białaczka).
2. Sekwencje należy zmapować do genomu (tylko do chromosomu 16) programem tophat (w
katalogu /home/tools/). Index tego chromosomu został już utworzony i znajduje się w tym
samym katalogu co dane z sekwencjonowania. Do mapowania niezbędny jest też plik ze
znanymi koordynatami genów – genes.gtf. Proszę o podanie instrukcji linuxowych
niezbędnych do wykonania z poziomu katalogu domowego poniższych zadań. Pliki
wyjściowe programów mają się znaleźć w katalogu domowym.
a. utworzenia indexu typu bowtie2 chromosomu 16 (plik /home/lab7/fastq_files/
chr16.fa)
b. zmapowania plików fastq chorego i zdrowego pacjenta programem tophat
Z uwagi na prawdopodobnie długi czas oczekiwania na zakończenie tych obliczeń, wyniki
mapowania umieściłam w katalogu /home/lab7/tophat_out
3. Następnie należy wyznaczyć różnicową ekspresję genów i sprawdzić alternatywny splicing.
Służy do tego narzędzie cuffdiff dostępne w tools’ach. Proszę o podanie instrukcji linuxowych
niezbędnych do wykonania z poziomu katalogu domowego poniższego zadania. Pliki
wyjściowe mają się znaleźć w katalogu domowym.
a. Wyznaczenie różnicy w ekspresji genów pomiędzy chorym i zdrowym pacjentem
Gdyby obliczenia zbyt długo trwały to proszę wykorzystać wyniki z katalogu lab7/cuffdiff
4. Dla plików wynikowych z cuffdiffa należy wyciągnąć informację o tym które geny,
transkrypty, izoformy są znacząco statystycznie różne dla obu próbek. Co prawda wykonanie
testów statystycznych dla dwóch próbek nie jest wystarczająco dobrym wynikiem, ale z
uwagi na ograniczony czas zajęć oraz pojemność dysku musimy na tym poprzestać.
5. Przedstaw krótką charakterystykę plików wyjściowych cuffdiffa, na podstawie których
możemy wyciągną tę informację z punktu nr 4. Wykorzystaj w tym celu manuala na stronie
projektu cufflinks