g - theta.edu.pl
Transkrypt
g - theta.edu.pl
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej – praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z pomocą narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności zmiennych w selekcji – regresja 5. Analiza wariancji z modelem stałym i losowym (ocena h2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego) INFORMATYKA W SELEKCJI Model klasyfikacji pojedynczej yij ai eij Taki model to ogólny zapis układu wielu równań. Np. dla pięciu obserwacji z dwóch grup, ten układ wygląda tak: y11 a1 e11 y12 a1 e12 y13 a1 e13 y21 a2 e21 y22 a2 e22 y11 1 1a1 e11 y12 1 1a1 e12 = y13 1 1a1 e13 = y21 1 1a2 e21 y22 1 1a2 e22 y11 1 1a1 0 a2 e11 y12 1 1a1 0 a2 e12 y13 1 1a1 0 a2 e13 y21 1 0 a1 1a2 e21 y22 1 0 a2 1a2 e22 INFORMATYKA W SELEKCJI Zapis klasyczny układu równań y11 1 1a1 0a2 e11 y12 1 1a1 0a2 e12 y13 1 1a1 0a2 e13 y 21 1 0 a1 1a2 e21 y22 1 0a2 1a2 e22 Zapis macierzowy układu równań y1 1 y 1 2 y3 1 y4 1 y5 1 y wektor obserwacji 1 0 e1 1 0 e2 1 0 a1 e3 0 1 a2 e4 e5 0 1 X macierz wystąpień a wektor efektów y = Xa + e e wektor czynników specyficznych INFORMATYKA W SELEKCJI ANOVA jednoczynnikowa y ij a i e ij Analiza wariancji zależy od typu modelu: efekt a może być stały (stada, pasze) lub losowy (grupy ojcowskie) Struktura populacji w hodowli jest najczęściej bardziej złożona Klasyfikacja krzyżowa dwukierunkowa yijk hi s j eijk Dwuczynnikową analizę wariancji można stosować jeśli oba oceniane efekty są stałe lub losowe! yijk hi s j eijk efekt stały efekt losowy model MIESZANY INFORMATYKA W SELEKCJI – model mieszany Zapis macierzowy równań modelu mieszanego y1 1 y 1 2 y3 1 y 1 4 y5 1 y wektor obserwacji 1 0 1 1 0 0 1 0 h1 0 0 1 h2 1 0 0 1 X macierz wystąpień efektów stałych a wektor efektów stałych yijk hi s j eijk 0 0 e1 1 0 s1 e2 0 1 s2 e3 0 0 s3 e4 e5 0 1 Z macierz wystąpień efektów losowych g wektor efektów losowych e wektor efektów specyficznych INFORMATYKA W SELEKCJI – model mieszany Zapis macierzowy równań modelu mieszanego y1 1 y 1 2 y3 1 y 1 4 y5 1 y = 1 0 1 1 0 0 1 0 h1 0 0 1 h2 1 0 0 1 X a + yijk hi s j eijk 0 0 e1 1 0 s1 e2 0 1 s2 e3 0 0 s3 e4 e5 0 1 Z g + e y = Xa + Zg + e Nasze pięć krów w dwóch stadach to córki trzech ojców A jak ocenić efekty modelu mieszanego? INFORMATYKA W SELEKCJI – model mieszany y = Xa + Zg + e Ocena efektów modelu mieszanego może być oparta na metodzie najmniejszych kwadratów. Uzyskujemy wtedy estymatory efektów stałych (BLUE) predyktory efektów losowych (BLUP) są one poprawione na siebie nawzajem możliwe jest wykorzystanie zależności wewnątrz efektów (włączenie do obliczeń macierzy kowariancji) Dodatkowo, metoda REML umożliwia uzyskanie niebciążonych estymatorów wariancji/kowariancji i użycie ich do ocen BLUE i BLUP Zbiór metod stosowanych w nowoczesnej ocenie wartości hodowlanej nosi nazwę metody BLUP INFORMATYKA W SELEKCJI – metoda BLUP y = Xa + Zg + e Najogólniejszy zapis modelu mieszanego a – stałe efekty (stada, grupy żywieniowej, roku urodzenia itp.) g – losowe efekty (genetyczne, np. ojcowskie, osobnicze) Sire model yijk hi s j eijk Animal model yij hi g j eij Metoda BLUP umożliwia: estymację efektów stałych (BLUE) poprawionych na siebie predykcję efektów losowych (BLUP) wykorzystanie zależności wewnątrz efektów (np. przez włączenie do obliczeń macierzy spokrewnień) MACIERZ SPOKREWNIEŃ Macierz spokrewnień A: macierz symetryczna jej elementy aij to współczynniki pokrewieństwa jej elementy diagonalne ajj są równe 1 + wsp. inbredu jeśli rodzice osobnika j nie są spokrewnieni to ajj = 1 Przykłady prostych macierzy spokrewnień dla trzech osobników: 1 0,5 0,5 A1 0,5 1 0,5 0,5 0,5 1 0,25 0,25 1 A 2 0,25 1 0,25 0,25 0,25 1 A1 – pełne rodzeństwo A2 – półrodzeństwo 1 0 0 A 3 0 1 0 I 0 0 1 Te macierze tak wyglądają jeśli rodzice nie uczestniczą w ocenie! A3 – zwierzęta niespokrewnione (macierz identyczności) MACIERZ SPOKREWNIEŃ Elementy macierzy spokrewnień to współczynniki pokrewieństwa aij Współczynnik pokrewieństwa z definicji: a przy założeniu g2 g2 g2 i j aij cov( g i g j ) gi g j cov( g i g j ) g2 Zatem: elementy macierzy spokrewnień to ilorazy kowariancji i wariancji genetycznych, np. 1 cov g12 A 2 g cov g13 2 g cov g 21 g2 1 cov g 23 g2 cov g 31 g2 cov g 32 g2 1 MACIERZ KOWARIANCJI Jeśli pomnożymy macierz spokrewnień przez wariancję genetyczną otrzymamy macierz kowariancji ocenianych wartości hodowlanych G 1 cov g12 2 A g 2 g cov g13 2 g cov g 21 g2 1 cov g 23 g2 cov g 31 g2 g2 cov g 32 2 g cov g12 g2 cov g13 1 G A g2 Przy braku spokrewnień G I g2 cov g 21 g2 cov g 23 cov g 31 cov g 32 G g2 METODA BLUP Ogólna postać modelu mieszanego zapis klasyczny zapis macierzowy yijk ai g j eijk y = Xa + Zg + e gdzie a – efekty stałe (stada, grupy, roku itp.), g – efekty losowe (genetyczne; oceniane wartości hodowlane), X, Z – macierze wystąpień. Co z wektorem e? Zakłada się, że efekty e mają rozkład normalny o tej samej wariancji i są parami nieskorelowane. Do obliczeń bierze się tylko 2 e METODA BLUP Model: y = Xa + Zg + e Założenie: efekty e mają rozkład normalny o wariancji e2 i są parami nieskorelowane. Rozwiązanie: estymatory efektów a oraz predyktory wartości hodowlanych g uzyskuje się w wyniku rozwiązania następującego układu równań modelu mieszanego, Mixed Model Eguations, MME): X' Z X' X aˆ X' y Z' X Z' Z σ 2G 1 gˆ Z' y e gdzie macierz G to macierz kowariancji dla elementów wektora g. METODA BLUP Układ równań ogólnie X' Z X' X aˆ X' y Z' X Z' Z σ 2G 1 gˆ Z' y e Jeśli oceniane zwierzęta są niespokrewnione: G I g2 , wtedy G 1 I 1 σ g2 X'Z ˆ X'X σe2 a X'y Z' X Z' Z I σ 2 gˆ Z' y g Jeśli oceniane zwierzęta są spokrewnione: 2 g G A , wtedy G 1 1 A σ g2 1 X'Z X' X ˆ 2 a X'y σ _1 e Z' X Z' Z A ˆ 2 g Z' y σg METODA BLUP Zwierzęta są spokrewnione: Zwierzęta nie są spokrewnione: X' Z X' X ˆ 2 a X' y 1 σ e Z' X Z' Z A ˆ 2 g Z' y σg Wyrażenie e2 g2 X' Z ˆ X' X σ e2 a X' y Z' X Z' Z I σ 2 gˆ Z' y g oznaczamy jako k. Oceny BLUP oparte na modelu osobniczym: Oceny BLUP oparte na modelu ojcowskim: k k 1 h2 h2 4 h2 h2 Skąd my to znamy? METODA BLUP Układ równań MME ogólnie X' Z X' X aˆ X' y Z' X Z' Z σ 2G 1 gˆ Z' y e L b L•b=r r A jak rozwiązać taki układ równań??? No, jeśli L • b = r to b = L-1 • r 1 X' Z X' X X' y aˆ Z' X Z' Z σ 2G 1 Z' y gˆ e b = L-1 • r METODA BLUP Układ równań Rozwiązanie X' Z X' X aˆ X' y Z' X Z' Z σ 2G 1 gˆ Z' y e 1 X' Z X' X X' y aˆ Z' X Z' Z σ 2G 1 Z' y gˆ e b = L-1 • r L•b=r Tak po prostu?! Niestety, uzyskanie odwrotności macierzy L to sporo pracy; nie dość, że bywa wielka, to jest w dodatku osobliwa… Spadaj! Sam jesteś osobliwy!!! W praktyce rozwiązania uzyskuje się nakładając na układ równań pewne warunki ograniczające, np. łącząc efekty stałe lub przyjmując zerową wartość jednego z nich INFORMATYKA W SELEKCJI – model mieszany Ocena efektów modelu mieszanego możliwa jest w specjalistycznych pakietach statystycznych MODEL STAŁY, A MODEL MIESZANY PRÓBA DANYCH 1. Bonitacja młodych koni rasy śląskiej kwalifikowanych do hodowli 2. Punkty przyznawane w różnych kategoriach Nazwa Nr Nr ojca Nr ojca_o Nr matki-o Suma punktów Próba Rok ur Miesiąc ur NIWA 1 1 19 336 90.25 2007 2001 4 BERNIKLA 2 73 19 508 89.54 2007 2002 4 DELTA 3 55 256 441 88.59 2007 2000 3 ABISYNIA 4 55 256 441 88.25 2007 2003 4 IWA 5 30 283 387 87.50 2007 2004 3 ELEGIA 6 59 93 485 86.69 2007 2002 4 BELA 7 58 242 473 86.25 2007 2002 5 Oprac. na podst. wykładu dra T. Suchockiego 2012 MODEL STAŁY, A MODEL MIESZANY Nazwa Nr Nr ojca Nr ojca_o Nr matki-o Suma punktów Próba Rok ur Miesiąc ur NIWA 1 1 19 336 90.25 2007 2001 4 BERNIKLA 2 73 19 508 89.54 2007 2002 4 DELTA 3 55 256 441 88.59 2007 2000 3 ABISYNIA 4 55 256 441 88.25 2007 2003 4 suma _ punktów ojciec miesiąi _ urodzenia e y Zo X 1m X 2 e 90.25 1 1 89.54 1 0 88.59 1 0 88.25 1 0 0 0 0 1 1 1 1 0 0 1 3 0 73 1 0 4 0 0 1 55 0 1 0 1 0 0 0 0 e1 1 0 0 e2 0 1 0 e3 0 0 1 e4 90.25 1 1*1 0 * 73 0 * 55 0 * 3 1* 4 e1 ojciec miesiąc Oprac. na podst. wykładu dra T. Suchockiego 2012 MODEL STAŁY, A MODEL MIESZANY • model stały → zakłada brak powiązań między efektami (ojcami) → stały efekt ojca y Zo X 1m X 2e 1 0 vare R 0 0 0 0 0 e2 0 0 0 1 0 0 2 0 e2 0 0 e 0 0 1 0 0 e2 0 2 0 0 1 0 0 e 0 var y vare R Oprac. na podst. wykładu dra T. Suchockiego 2012 MODEL STAŁY, A MODEL MIESZANY • model mieszany → wykorzystanie informacji o podobieństwie między efektami → uwzględnienie spokrewnienia między ojcami → losowy efekt ojca y Zo X 1m X 2 e 1 0 vare R 0 0 var y varo vare ZGZ ' R 1 varo G 1 4 0 1 0 4 1 0 o2 0 1 0 0 0 1 0 0 2 e 0 1 0 0 0 1 Oprac. na podst. wykładu dra T. Suchockiego 2012 MODEL STAŁY, A MODEL MIESZANY • macierz wariancji addytywnie genetycznej ojców → współczynniki macierzy obliczone na podstawie spokrewnień → część identycznych przez pochodzenie genów u danej pary ojców → prawdopodobieństwo, że dany allel jest identyczny przez pochodzenie u danej pary ojców → 2o = wariancja addytywnie genetyczna efektu ojca → obliczone wartości efektu ojca = wartości hodowlane 1 G 1 04 1 0 4 2 1 0 o 0 1 Oprac. na podst. wykładu dra T. Suchockiego 2012 PRZYGOTOWANIE DANYCH /* wczytywanie danych o bonitacji koni */ data KONIE; infile 'd:/karolina/klacze.prn' firstobs=2 ; input IMIE $ 1-10 NROGIERA NROJCA NROJCA_OJCA NRMATKI_OJCA SUMAPKT ROKPR ROKUR MIEUR; run ; Nazwa Nr Nr ojca Nr ojca_o Nr matki-o Suma punktów NIWA 1 1 19 336 90.25 2007 2001 4 BERNIKLA 2 73 19 508 89.54 2007 2002 4 /* wczytywanie macierzy spokrewnien */ data POKREWIENSTWO ; infile 'd:karolina/G.txt' ; input ROW COLUMN VALUE ; 1 PARM=1 ; output ; 1 run ; 4 0 1 Próba 0 4 1 0 0 1 Rok ur Miesiąc ur 1 1 1 1 2 0.25 1 3 0 … Oprac. na podst. wykładu dra T. Suchockiego 2012 ZASTOSOWANIE PROCEDURY MIXED /* model mieszany */ proc mixed data=KONIE order=data ; class NROJCA MIEUR ; model SUMAPKT= MIEUR / solution ; random NROJCA / type=lin(1) ldata=POKREWIENSTWO solution ; parms (0.3) (0.7) / noiter ratios ; run ; y Zo X 1m X 2 e o2 0.3 e2 0.7 Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA MIXED - WYNIKI Model Information Data Set Dependent Variable Covariance Structures Estimation Method Residual Variance Method Fixed Effects SE Method Degrees of Freedom Method Liczba wsp. wariancji: 2e i 2o Dimensions Covariance Parameters Columns in X Columns in Z Subjects Max Obs Per Subject WORK.OGIERY1 SUMAPKT Linear, Variance Components REML Parameter Model-Based Containment 2 11 31 1 66 Liczba kolumn macierzy X1 = liczba miesięcy + Liczba kolumn macierzy Z = liczba ojców Całkowita liczba obserwacji Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA MIXED - WYNIKI Number of Observations Number of Observations Read Number of Observations Used Number of Observations Not Used 66 66 0 Liczba obserwacji Parameter Search CovP1 CovP2 0.3000 0.7000 Res Log Like -1623.5395 -2 Res Log Like 3247.0789 Założone wartości wsp. wariancji Covariance Parameter Estimates Cov Parm LIN(1) Residual Estimate 0.2100 0.7000 Obliczone wartości wsp. wariancji Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA MIXED - WYNIKI Solution for Fixed Effects Effect MIEUR Intercept 66.6733 MIEUR 3 MIEUR 12 MIEUR 5 MIEUR 4 MIEUR 2 MIEUR 1 MIEUR 11 MIEUR 8 nr miesiąca Estimate 0.9305 6.7660 10.2336 8.8001 10.4539 13.9611 9.8608 9.8423 0 Ocena efektu miesiąca wyniki dla efektów stałych Standard Error 0.9750 1.0040 0.9708 0.9703 0.9540 1.0493 1.3277 . DF 30 27 27 27 27 27 27 27 . błąd standardowy t Value 71.65 6.94 10.19 9.06 10.77 14.63 9.40 7.41 . Pr > |t| <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 . prawdopodobieństwo błędu przy odrzuceniu H0 Oprac. na podst. wykładu dra T. Suchockiego 2012 PROCEDURA MIXED - WYNIKI Solution for Random Effects Effect NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA NROJCA 50 55 58 63 66 67 68 73 74 78 nr ojca Estimate 0.2413 -3.2842 0.5694 0.2259 0.2558 -3.2213 1.7725 -1.0896 2.1792 -1.4443 wartość hodowlana wyniki dla efektów losowych Std Err Pred 0.3178 0.3223 0.3236 0.3485 0.3650 0.3946 0.3616 0.3285 0.3236 0.2945 błąd standardowy DF t Value Pr > |t| 27 27 27 27 27 27 27 27 27 27 0.76 -10.19 1.76 0.65 0.70 -8.16 4.90 -3.32 6.73 -4.90 0.4543 <.0001 0.0898 0.5224 0.4894 <.0001 <.0001 0.0026 <.0001 <.0001 prawdopodobieństwo błędu przy odrzuceniu H0 Oprac. na podst. wykładu dra T. Suchockiego 2012 PODSUMOWANIE Metoda BLUP (przykład zastosowania szacowania efektów modelu mieszanego w pracy hodowlanej) oparta jest na rachunku macierzowym wymaga dużej mocy obliczeniowej (ocena wielu zwierzat naraz, odwracanie dużych macierzy) pozwala na dobre dopasowanie modelu: można uwzględnić wiele efektów, w tym dodatkowe efekty genetyczne umożliwia jednoczesną ocenę efektów stałych i losowych, przez co są one na siebie nawzajem „poprawione” dopuszcza i wykorzystuje zależności efektów; poprzez włączenie do obliczeń macierzy kowariancji genetycznych wykorzystuje dodatkowe źródła informacji daje oceny o wysokiej dokładności INFORMATYKA W SELEKCJI – model mieszany Ocena efektów modelu mieszanego możliwa jest w pakietach statystycznych Do ocen wartości hodowlanej metoda BLUP stworzono wiele specjalistycznych programów EXCEL? Czy można ocenić wartość hodowlaną w oparciu o model mieszany przy pomocy Excela? Na pewno można spróbować – ZAPRASZAM na ćwiczenia!