informatyka w selekcji - trend genetyczny
Transkrypt
informatyka w selekcji - trend genetyczny
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej – praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z pomocą narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności zmiennych w selekcji – regresja 5. Analiza wariancji z modelem stałym i losowym (ocena h2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego) INFORMATYKA W SELEKCJI METODY HODOWLANE I. SZACOWANIE PARAMETRÓW GENETYCZNYCH II. OCENA WARTOŚCI HODOWLANEJ III. SELEKCJA • Miarą skuteczności selekcji jest POSTĘP HODOWLANY • Oczekiwany postęp hodowlany wynika ze wzoru: G R s G SELEKCJA I POSTĘP HODOWLANY Pokolenie wyjściowe P0 BUHAJE KROWY Wybrani rodzice Ojcowie buhajów Ojcowie krów Matki buhajów Matki krów Genetyczna Średni wiek w wyższość chwili wybranych urodzenia rodziców nad P0 potomka* IBB Pokolenie następne P1 TBB Buhaje IBK TBK IKB TKB Krowy IKK TKK Postęp hodowlany może być przekazywany wieloma ścieżkami selekcyjnymi: I BB I BK I KB I KK G ' TBB TBK TKB TKK * T to tzw. odstęp pokoleń SELEKCJA I POSTĘP HODOWLANY Oczekiwany postęp hodowlany na każdej ścieżce obliczamy wg wzoru: Gr R s G I KK RKK s KK G I BK RBK s BK G I KB RKB s KB G I BB RBB sBB G Obliczenia oparte są na założeniach programu hodowlanego, wymagają znajomości wartości parametrów genetycznych i organizacyjnych populacji Oczekiwany postęp hodowlany w populacji wynosi: I BB I BK I KB I KK G ' TBB TBK TKB TKK SELEKCJA I POSTĘP HODOWLANY Podsumowanie: Selekcja to wybór zwierząt na rodziców następnych pokoleń hodowlanych Selekcja będzie skuteczna jeśli spowoduje postęp hodowlany Wielkość postępu hodowlanego zależy od dokładności oceny wartości hodowlanej, intensywności selekcji i zmienności genetycznej cechy Znając te wielkości można oszacować oczekiwany postęp hodowlany Zrealizowany postęp hodowlany można ocenić po pewnym okresie prowadzenia programu hodowlanego Oblicza się go jako współczynnik regresji wartości hodowlanej kolejnych roczników populacji względem czasu Zrealizowany postęp hodowlany to inaczej trend genetyczny Skutek efektywnej selekcji – TREND GENETYCZNY Trafny wybór na ojców Dokładna ocena buhajów Potomstwo lepsze genetycznie yijk hi s j eijk Z roku na rok rośnie średnia wartość hodowlana populacji – pojawia się trend genetyczny Trzeba dopasować model yijkl hi a j s jk eijkl aj – efekt roku urodzenia buhaja (de facto: średnia wartość hodowlana buhajów urodzonych w roku j) Oceny dodatkowych efektów genetycznych umożliwia metoda BLUP INFORMATYKA W SELEKCJI - TREND GENETYCZNY Wyniki oceny metodą BLUP z modelem, uwzględniającym grupy genetyczne, utworzone ze względu na rok urodzenia ocenianych zwierząt Aby ocenić trend genetyczny oblicza się współczynnik regresji ocen efektów grup genetycznych na czas INFORMATYKA W SELEKCJI - TREND GENETYCZNY 4000 3900 3800 3700 3600 y = 4,4026x + 3715,8 3500 Rocznik (grupa genetyczna) W podobny sposób ocenia się trendy środowiskowe dla konkretnych efektów, np. stada-roku, ujętych w modelu (oblicza się współczynniki regresji ocen tych efektów względem czasu) 1995 1994 1993 1992 1991 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 3400 1980 Mleko - wartość hodowlana Mleko - trend genetyczny INFORMATYKA W SELEKCJI Dodatek specjalny - WIZUALIZACJA Wykresy Graficzne przedstawienie danych i wyników Identyfikacja błędów (dane odstające) Określenie rozkładu empirycznego (histogram, box-plot) Wizualna ocena dopasowania linii regresji Prezentacja wyników analizy wariancji (box-plot) itp. INFORMATYKA W SELEKCJI HISTOGRAM - ilustruje rozkład empiryczny PRÓBA: 0,25 konstruuje się szereg rozdzielczy (klasy wartości) 0,2 0,15 EXCEL? 0,1 rozkład przedstawia częstości wartości w klasach 0,05 0 1 2 3 4 5 6 7 8 9 10 może być skośny mogą być braki wartości INFORMATYKA W SELEKCJI BOX-PLOT - na jednym rysunku informacje dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego cechy INFORMATYKA W SELEKCJI Współczynniki korelacji Pearsona i Spearmana przy zależności liniowej, nieliniowej i danych odstających (kwartet Anscombe’a) rxy = 0,816 rxy = 0,816 xy= 0,818 xy= 0,691 rxy = 0,816 rxy = 0,816 xy= 0,991 xy= 0,500 INFORMATYKA W SELEKCJI Wizualna ocena dopasowania regresji y 3 0,5 x Niedopasowanie widać „gołym okiem” INFORMATYKA W SELEKCJI Wizualizacja danych w pakiecie SAS SAS PROCEDURY UMOŻLIWIAJĄCE WIZUALIZACJĘ DANYCH • univariate • chart • plot Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA UNIVARIATE /* wczytywanie danych */ data jagnieta ; infile ‘I:/informatyka/dane.txt’ ; input nr masac wiek ; run ; /* wizualizacja 1 */ proc univariate data=jagnieta ; var masac wiek ; histogram ; run ; → WYKRES Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA UNIVARIATE /* wizualizacja 2 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / midpoints=10 to 50 by 4 ; histogram wiek / midpoints=20 to 50 by 2 ; run ; → WYKRES O ZDEFINIOWANEJ SZEROKOŚCI KOLUMN Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA UNIVARIATE /* wizualizacja 3 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / normal (color=red mu=30 sigma=5 fill) midpoints=10 to 50 by 4 ; histogram wiek / normal (color=red mu=35 sigma=5 fill) midpoints=20 to 50 by 2 ; run ; → ZDEFINIOWANA SZEROKOŚĆ KOLUMN → ROZKŁAD NORMALNY O DANYM KOLORZE LINII, ŚREDNIEJ I ODCHYLENIU STANDARDOWYM Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA CHART /* wizualizacja 4 */ proc chart data=jagnieta ; vbar wiek ; title 'wiek jagniat' ; run ; → WYKRES KOLUMNOWY DLA WIEKU /* wizualizacja 5 */ proc chart data=jagnieta ; block masac ; title 'masa ciala jagniat' ; run ; → WYKRES 3-WYMIAROWY DLA MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA CHART /* wizualizacja 6 */ proc chart data=jagnieta ; vbar wiek / type=percent ; title 'wiek jagniat w %' ; run ; → WYKRES KOLUMNOWY DLA WIEKU PRZEDSTAWIONEGO W % /* wizualizacja 7 */ proc chart data=jagnieta ; block masac / type=cfreq ; title 'ciala jagniat kumulowana frekwencja' ; run ; → WYKRES 3-WYMIAROWY DLA KUMULOWANEJ FREKWENCJI MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA PLOT /* wizualizacja 10 */ proc plot data=jagnieta ; plot masac*wiek='*' ; title 'masa ciala i wiek jagniat' ; run ; → WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA PLOT /* wizualizacja 11 */ proc plot data=jagnieta ; plot masac*wiek='*' $ nr ; title 'masa ciala i wiek jagniat' ; run ; → WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Z NUMERAMI OBSERWACJI Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA PLOT /* wizualizacja 12 */ proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; → ROZŁĄCZNE I WSPÓLNE WYKRESY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA PLOT /* wizualizacja 12 */ options nodate pageno=1 linesize=100 pagesize=50; proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; → DEFINIOWANIE WIELKOŚCI WYKRESU Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA REG – PROGRAM UZUPEŁNIENIA /* dopasowanie prostej regresji */ proc reg data=tluszcz ; model ztl=masac ; plot ztl*masac ; run ; Oprac. na podst. wykładu dra T. Suchockiego 2012 INFORMATYKA W SELEKCJI Wizualizacja danych w pakiecie R R - TWORZENIE WYKRESÓW zastosowanie pętli #wykres zaleznosci wzrostu od masy plot(animals$wzrost,animals$masa,xlab="wzrost",ylab= "masa",main="wykres rozrzutu") #histogram masy i wzrostu hist(animals$wzrost,prob=T,nclass=7,ylim=c(0,0.1), xlab="masa",ylab=„czestotliwosc",main="histogram") lines(density(animals$wzrost,kernel=c("gaussian")), col="red") hist(animals$masa,prob=T,nclass=7,ylim=c(0,0.05), xlab="masa",ylab="czestotliwosc",main="histogram") lines(density(animals$masa),col="red") Oprac. na podst. wykładu dra T. Suchockiego 2012 ANALIZA DANYCH # jednoczynnikowa analiza wariancji a <- (aov(zbial~dod)) jednoczynnikowa analiza wariancji summary(a) print(model.tables(a,"means"),digits=3) boxplot(zbial~dod) wyniki w formie liczbowej wykres Oprac. na podst. wykładu dra T. Suchockiego 2012 WYNIKI Tables of means Grand mean 3.029444 dod 1 2 3 2.60 3.50 2.99 średnia ogólna średnie zawartości białka w grupach żywieniowych Oprac. na podst. wykładu dra T. Suchockiego 2012 WYKRES - 5 number data summary boxplot maksimum 3 kwartyl: 75% danych mediana: 50% danych 1 kwartyl: 25% danych minimum obserwacja odstająca Oprac. na podst. wykładu dra T. Suchockiego 2012 INFORMATYKA W SELEKCJI EXCEL? szeroki wybór wbudowanej grafiki z możliwością modyfikacji Na przykład wykresu box-plot nie ma w ofercie Excela… Ale łatwo można go stworzyć… Na ćwiczeniach zajmiemy się oceną trendów genetycznych. Wyniki przedstawimy na wykresach. ZAPRASZAM!