informatyka w selekcji - trend genetyczny

Transkrypt

informatyka w selekcji - trend genetyczny
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI - zagadnienia
1. Dane w pracy hodowlanej – praca z dużym zbiorem danych
(Excel)
2. Podstawy pracy z relacyjną bazą danych w programie MS Access
3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego
pakietu R
Z pomocą narzędzi programów Excel, SAS, R:
4. Wykorzystanie zależności zmiennych w selekcji – regresja
5. Analiza wariancji z modelem stałym i losowym (ocena h2 )
6. Ocena wartości hodowlanej z modelem mieszanym
7. Ocena efektów selekcji (m.in. trendu genetycznego)
INFORMATYKA W SELEKCJI
METODY HODOWLANE
I. SZACOWANIE PARAMETRÓW GENETYCZNYCH
II. OCENA WARTOŚCI HODOWLANEJ
III. SELEKCJA
• Miarą skuteczności selekcji jest POSTĘP HODOWLANY
• Oczekiwany postęp hodowlany wynika ze wzoru:
G  R  s   G
SELEKCJA I POSTĘP HODOWLANY
Pokolenie
wyjściowe
P0
BUHAJE
KROWY
Wybrani
rodzice
Ojcowie
buhajów
Ojcowie
krów
Matki
buhajów
Matki
krów
Genetyczna
Średni wiek w
wyższość
chwili
wybranych
urodzenia
rodziców nad P0
potomka*
IBB
Pokolenie
następne
P1
TBB
Buhaje
IBK
TBK
IKB
TKB
Krowy
IKK
TKK
Postęp hodowlany może być przekazywany wieloma ścieżkami selekcyjnymi:
I BB  I BK  I KB  I KK
G ' 
TBB  TBK  TKB  TKK
* T to tzw. odstęp pokoleń
SELEKCJA I POSTĘP HODOWLANY
Oczekiwany postęp hodowlany na każdej ścieżce obliczamy wg wzoru:
Gr  R  s   G
I KK  RKK  s KK   G
I BK  RBK  s BK   G
I KB  RKB  s KB   G
I BB  RBB  sBB   G
Obliczenia oparte są na założeniach programu hodowlanego, wymagają
znajomości wartości parametrów genetycznych i organizacyjnych populacji
Oczekiwany postęp hodowlany w populacji wynosi:
I BB  I BK  I KB  I KK
G ' 
TBB  TBK  TKB  TKK
SELEKCJA I POSTĘP HODOWLANY
Podsumowanie:
 Selekcja to wybór zwierząt na rodziców następnych pokoleń
hodowlanych
 Selekcja będzie skuteczna jeśli spowoduje postęp hodowlany
 Wielkość postępu hodowlanego zależy od dokładności oceny
wartości hodowlanej, intensywności selekcji i zmienności
genetycznej cechy
 Znając te wielkości można oszacować oczekiwany postęp
hodowlany
Zrealizowany postęp hodowlany można ocenić po
pewnym okresie prowadzenia programu hodowlanego
Oblicza się go jako współczynnik regresji wartości
hodowlanej kolejnych roczników populacji względem
czasu
Zrealizowany postęp hodowlany to inaczej trend genetyczny
Skutek efektywnej selekcji – TREND GENETYCZNY
Trafny
wybór na
ojców
Dokładna
ocena
buhajów
Potomstwo
lepsze
genetycznie
yijk    hi  s j  eijk
Z roku na rok rośnie
średnia wartość
hodowlana populacji
– pojawia się trend
genetyczny
Trzeba dopasować
model
yijkl    hi  a j  s jk  eijkl
aj – efekt roku urodzenia buhaja (de facto: średnia wartość hodowlana
buhajów urodzonych w roku j)
Oceny dodatkowych efektów genetycznych umożliwia metoda BLUP
INFORMATYKA W SELEKCJI - TREND GENETYCZNY
Wyniki oceny metodą BLUP z
modelem, uwzględniającym
grupy genetyczne, utworzone
ze względu na rok urodzenia
ocenianych zwierząt
Aby ocenić trend genetyczny
oblicza się współczynnik
regresji ocen efektów grup
genetycznych na czas
INFORMATYKA W SELEKCJI - TREND GENETYCZNY
4000
3900
3800
3700
3600
y = 4,4026x + 3715,8
3500
Rocznik (grupa genetyczna)
W podobny sposób ocenia się trendy
środowiskowe dla konkretnych efektów,
np. stada-roku, ujętych w modelu (oblicza
się współczynniki regresji ocen tych
efektów względem czasu)
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
1983
1982
1981
3400
1980
Mleko - wartość hodowlana
Mleko - trend genetyczny
INFORMATYKA W SELEKCJI
Dodatek specjalny - WIZUALIZACJA
Wykresy
 Graficzne przedstawienie danych i wyników
 Identyfikacja błędów (dane odstające)
 Określenie rozkładu empirycznego (histogram, box-plot)
 Wizualna ocena dopasowania linii regresji
 Prezentacja wyników analizy wariancji (box-plot)
 itp.
INFORMATYKA W SELEKCJI
HISTOGRAM - ilustruje rozkład empiryczny
PRÓBA:
0,25
 konstruuje się szereg
rozdzielczy (klasy
wartości)
0,2
0,15
EXCEL?
0,1
 rozkład przedstawia
częstości wartości w
klasach
0,05
0
1
2
3
4
5
6
7
8
9
10
 może być skośny
 mogą być braki
wartości
INFORMATYKA W SELEKCJI
BOX-PLOT - na jednym rysunku informacje dotyczące położenia,
rozproszenia i kształtu rozkładu empirycznego cechy
INFORMATYKA W SELEKCJI
Współczynniki korelacji Pearsona i Spearmana przy zależności liniowej, nieliniowej
i danych odstających (kwartet Anscombe’a)
rxy = 0,816
rxy = 0,816
xy= 0,818
xy= 0,691
rxy = 0,816
rxy = 0,816
xy= 0,991
xy= 0,500
INFORMATYKA W SELEKCJI
Wizualna ocena dopasowania regresji
y  3  0,5 x
Niedopasowanie widać „gołym okiem”
INFORMATYKA W SELEKCJI
Wizualizacja danych w pakiecie SAS
SAS
PROCEDURY UMOŻLIWIAJĄCE WIZUALIZACJĘ
DANYCH
• univariate
• chart
• plot
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE
/* wczytywanie danych */
data jagnieta ;
infile ‘I:/informatyka/dane.txt’ ;
input nr masac wiek ;
run ;
/* wizualizacja 1 */
proc univariate data=jagnieta ;
var masac wiek ;
histogram ;
run ;
→ WYKRES
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE
/* wizualizacja 2 */
proc univariate data=jagnieta ;
var masac wiek ;
histogram masac / midpoints=10 to 50 by 4 ;
histogram wiek / midpoints=20 to 50 by 2 ;
run ;
→ WYKRES O ZDEFINIOWANEJ SZEROKOŚCI KOLUMN
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE
/* wizualizacja 3 */
proc univariate data=jagnieta ;
var masac wiek ;
histogram masac /
normal
(color=red mu=30 sigma=5 fill)
midpoints=10 to 50 by 4 ;
histogram wiek /
normal
(color=red mu=35 sigma=5 fill)
midpoints=20 to 50 by 2 ;
run ;
→
ZDEFINIOWANA SZEROKOŚĆ KOLUMN
→
ROZKŁAD NORMALNY O DANYM KOLORZE LINII,
ŚREDNIEJ I ODCHYLENIU STANDARDOWYM
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA CHART
/* wizualizacja 4 */
proc chart data=jagnieta ;
vbar wiek ;
title 'wiek jagniat' ;
run ;
→
WYKRES KOLUMNOWY DLA WIEKU
/* wizualizacja 5 */
proc chart data=jagnieta ;
block masac ;
title 'masa ciala jagniat' ;
run ;
→
WYKRES 3-WYMIAROWY DLA MASY CIALA
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA CHART
/* wizualizacja 6 */
proc chart data=jagnieta ;
vbar wiek / type=percent ;
title 'wiek jagniat w %' ;
run ;
→
WYKRES KOLUMNOWY DLA WIEKU
PRZEDSTAWIONEGO W %
/* wizualizacja 7 */
proc chart data=jagnieta ;
block masac / type=cfreq ;
title 'ciala jagniat kumulowana frekwencja' ;
run ;
→
WYKRES 3-WYMIAROWY DLA KUMULOWANEJ
FREKWENCJI MASY CIALA
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT
/* wizualizacja 10 */
proc plot data=jagnieta ;
plot masac*wiek='*' ;
title 'masa ciala i wiek jagniat' ;
run ;
→
WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT
/* wizualizacja 11 */
proc plot data=jagnieta ;
plot masac*wiek='*' $ nr ;
title 'masa ciala i wiek jagniat' ;
run ;
→
WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Z
NUMERAMI OBSERWACJI
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT
/* wizualizacja 12 */
proc plot data=jagnieta ;
plot wiek*nr='*' ;
plot masac*nr='o' ;
plot wiek*nr='*' masac*nr='o' / overlay ;
title 'wykres dla zbioru danych jagniat' ;
title2 'masa ciala i wiek' ;
run ;
→
ROZŁĄCZNE I WSPÓLNE WYKRESY DLA WIEKU I
MASY CIAŁA
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT
/* wizualizacja 12 */
options nodate pageno=1 linesize=100
pagesize=50;
proc plot data=jagnieta ;
plot wiek*nr='*' ;
plot masac*nr='o' ;
plot wiek*nr='*' masac*nr='o' / overlay ;
title 'wykres dla zbioru danych jagniat' ;
title2 'masa ciala i wiek' ;
run ;
→
DEFINIOWANIE WIELKOŚCI WYKRESU
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA REG – PROGRAM UZUPEŁNIENIA
/* dopasowanie prostej regresji */
proc reg data=tluszcz ;
model ztl=masac ;
plot ztl*masac ;
run ;
Oprac. na podst. wykładu dra T. Suchockiego 2012
INFORMATYKA W SELEKCJI
Wizualizacja danych w pakiecie R
R - TWORZENIE WYKRESÓW
zastosowanie pętli
#wykres zaleznosci wzrostu od masy
plot(animals$wzrost,animals$masa,xlab="wzrost",ylab=
"masa",main="wykres rozrzutu")
#histogram masy i wzrostu
hist(animals$wzrost,prob=T,nclass=7,ylim=c(0,0.1),
xlab="masa",ylab=„czestotliwosc",main="histogram")
lines(density(animals$wzrost,kernel=c("gaussian")), col="red")
hist(animals$masa,prob=T,nclass=7,ylim=c(0,0.05),
xlab="masa",ylab="czestotliwosc",main="histogram")
lines(density(animals$masa),col="red")
Oprac. na podst. wykładu dra T. Suchockiego 2012
ANALIZA DANYCH
# jednoczynnikowa analiza wariancji
a <- (aov(zbial~dod))
jednoczynnikowa analiza wariancji
summary(a)
print(model.tables(a,"means"),digits=3)
boxplot(zbial~dod)
wyniki w formie liczbowej
wykres
Oprac. na podst. wykładu dra T. Suchockiego 2012
WYNIKI
Tables of means
Grand mean
3.029444
dod
1
2
3
2.60 3.50 2.99
średnia ogólna
średnie zawartości białka w
grupach żywieniowych
Oprac. na podst. wykładu dra T. Suchockiego 2012
WYKRES - 5 number data summary
boxplot
maksimum
3 kwartyl:
75% danych
mediana:
50% danych
1 kwartyl:
25% danych
minimum
obserwacja odstająca
Oprac. na podst. wykładu dra T. Suchockiego 2012
INFORMATYKA W SELEKCJI
EXCEL?
 szeroki wybór wbudowanej grafiki z
możliwością modyfikacji
Na przykład wykresu box-plot nie ma w ofercie
Excela… Ale łatwo można go stworzyć…
Na ćwiczeniach zajmiemy się oceną
trendów genetycznych.
Wyniki przedstawimy na wykresach.
ZAPRASZAM!

Podobne dokumenty