Lista 9 (Analiza danych NGS) Zbiór danych: Uruchomienie Beagle-a:

Transkrypt

Lista 9 (Analiza danych NGS) Zbiór danych: Uruchomienie Beagle-a:
Lista 9
(Analiza
danych NGS)
Beagle 3.3.2
Zbiór danych:
Plik data_ref.txt zawiera genotypy dla 43 buhajów i 2000 markerów. Pierwsza kolumna opisuje typ danych w ka»dym z wierszy, przy czym M oznacza marker. Druga kolumna zawiera unikalne nazwy zmiennych (dla ka»dego wiersza). Nast¦pnie ka»de dwie kolumny reprezentuj¡ jednego osobnika
(jedna kolumna na jeden allel). Wpliku tym allele s¡ kodowane 0,1 natomiast
brakuj¡ce dane s¡ oznaczane poprzez ?.
Plik data_test.txt zawiera genotypy dla 5 zwierz¡t i 250 SNPów. Wymienione 250 markerów jest podzbiorem tych 2000 z poprzedniego pliku.
Plik data_true.txt zawiera prawdziwe genotypy dla 2000 SNPów i 5 zwierz¡t, tych samych co w pliku data_test.txt.
Plik z markerami map.txt, niezb¦dny do odtworzenia kolejno±ci SNPów, w
pierwszej kolumnie ma nazwy SNPów, w drugiej kolumnie poªo»enie markerów. Pozostaªe kolumny s¡ wypeªnione przez mo»liwe allele.
Uruchomienie Beagle-a:
1. wszystkie pliki ze zbioru danych oraz plik beagle.jar zapisa¢ w jednym
katalogu
2. otworzy¢ okno polece«
3. wej±¢ do katalogu, w którym znajduje si¦ pliki z danymi
4. wpisa¢ w oknie polece«
java -Xmx1000m -jar beagle.jar unphased=data_ref.txt unphased=data_test.txt
markers=map.txt missing=? out=OUT
5. rozpakowa¢ otrzymane pliki
Zadania do wykonania
1. O czym mówi¡ poszczególne skªadowe polecenia uruchamiaj¡cego Beaglea?
2. Jakie pliki wynikowe otrzymujemy? Jakie informacje s¡ w nich zawarte?
3. Jaka jest dokªadno±¢ (accuracy) uzupeªnienia (uzupeªnienia ) danych?
1
4. Wyznaczy¢ haplotypy wyª¡cznie dla danych z pliku data_ref.txt. Nast¦pnie korzystaj¡c ze sfazowanego pliku data_ref.txt uzupeªni¢ brakuj¡ce genotypy w pliku data_test.txt. Czy ma to wpªyw na dokªadno±¢
uzupeªniania danych?
5. Z pliku data_ref.txt usu« sztucznie 30 genotypów, a nast¦pnie dla tak
zmodykowanych danych przeprowad¹ estymacj¦ haplotypów.
(a) Czy dane zostaªy uzupeªnione zgodnie z oryginalnymi? W ilu procentach?
(b) Czy ma znaczenie, które dane zostaªy usuni¦te?
Beagle 4.0
Zbiory danych:
Plik 3_bull.vcf jest plikiem typu VCF dla 3 osobników i 225079 SNPów wykrytyc na BTA19.
Plik 3_bull.vcf.phased jest cz¦±ci¡ zfazowanego pliku 3_bull.vcf.
Uruchomienie Beagle:
1. otworzy¢ okno polece«
2. uruchomi¢ Beage-a komend¡
java -Xmx3000m -Xmx1000m -jar beagle.r1398.jar gt=3_bull.vcf out=OUT_3.bulls
3. rozpakowa¢ otrzymane pliki
Zadania do wykonania
1. Jakich innych argumentów mo»na u»y¢ przy uruchamianiu Beagle-a?
Wypróbowac wybrane z nich.
2. Gdzie w pliku wyj±ciowym jest ukryta informacja o ilo±ci allelu B
Beagle manuals:
1. https://faculty.washington.edu/browning/beagle/beagle_3.3.2_31Oct11.pdf
2. https://faculty.washington.edu/browning/beagle/beagle.29Sep14.pdf
2

Podobne dokumenty