Lista 9 (Analiza danych NGS) Zbiór danych: Uruchomienie Beagle-a:
Transkrypt
Lista 9 (Analiza danych NGS) Zbiór danych: Uruchomienie Beagle-a:
Lista 9 (Analiza danych NGS) Beagle 3.3.2 Zbiór danych: Plik data_ref.txt zawiera genotypy dla 43 buhajów i 2000 markerów. Pierwsza kolumna opisuje typ danych w ka»dym z wierszy, przy czym M oznacza marker. Druga kolumna zawiera unikalne nazwy zmiennych (dla ka»dego wiersza). Nast¦pnie ka»de dwie kolumny reprezentuj¡ jednego osobnika (jedna kolumna na jeden allel). Wpliku tym allele s¡ kodowane 0,1 natomiast brakuj¡ce dane s¡ oznaczane poprzez ?. Plik data_test.txt zawiera genotypy dla 5 zwierz¡t i 250 SNPów. Wymienione 250 markerów jest podzbiorem tych 2000 z poprzedniego pliku. Plik data_true.txt zawiera prawdziwe genotypy dla 2000 SNPów i 5 zwierz¡t, tych samych co w pliku data_test.txt. Plik z markerami map.txt, niezb¦dny do odtworzenia kolejno±ci SNPów, w pierwszej kolumnie ma nazwy SNPów, w drugiej kolumnie poªo»enie markerów. Pozostaªe kolumny s¡ wypeªnione przez mo»liwe allele. Uruchomienie Beagle-a: 1. wszystkie pliki ze zbioru danych oraz plik beagle.jar zapisa¢ w jednym katalogu 2. otworzy¢ okno polece« 3. wej±¢ do katalogu, w którym znajduje si¦ pliki z danymi 4. wpisa¢ w oknie polece« java -Xmx1000m -jar beagle.jar unphased=data_ref.txt unphased=data_test.txt markers=map.txt missing=? out=OUT 5. rozpakowa¢ otrzymane pliki Zadania do wykonania 1. O czym mówi¡ poszczególne skªadowe polecenia uruchamiaj¡cego Beaglea? 2. Jakie pliki wynikowe otrzymujemy? Jakie informacje s¡ w nich zawarte? 3. Jaka jest dokªadno±¢ (accuracy) uzupeªnienia (uzupeªnienia ) danych? 1 4. Wyznaczy¢ haplotypy wyª¡cznie dla danych z pliku data_ref.txt. Nast¦pnie korzystaj¡c ze sfazowanego pliku data_ref.txt uzupeªni¢ brakuj¡ce genotypy w pliku data_test.txt. Czy ma to wpªyw na dokªadno±¢ uzupeªniania danych? 5. Z pliku data_ref.txt usu« sztucznie 30 genotypów, a nast¦pnie dla tak zmodykowanych danych przeprowad¹ estymacj¦ haplotypów. (a) Czy dane zostaªy uzupeªnione zgodnie z oryginalnymi? W ilu procentach? (b) Czy ma znaczenie, które dane zostaªy usuni¦te? Beagle 4.0 Zbiory danych: Plik 3_bull.vcf jest plikiem typu VCF dla 3 osobników i 225079 SNPów wykrytyc na BTA19. Plik 3_bull.vcf.phased jest cz¦±ci¡ zfazowanego pliku 3_bull.vcf. Uruchomienie Beagle: 1. otworzy¢ okno polece« 2. uruchomi¢ Beage-a komend¡ java -Xmx3000m -Xmx1000m -jar beagle.r1398.jar gt=3_bull.vcf out=OUT_3.bulls 3. rozpakowa¢ otrzymane pliki Zadania do wykonania 1. Jakich innych argumentów mo»na u»y¢ przy uruchamianiu Beagle-a? Wypróbowac wybrane z nich. 2. Gdzie w pliku wyj±ciowym jest ukryta informacja o ilo±ci allelu B Beagle manuals: 1. https://faculty.washington.edu/browning/beagle/beagle_3.3.2_31Oct11.pdf 2. https://faculty.washington.edu/browning/beagle/beagle.29Sep14.pdf 2