g - theta.edu.pl

Transkrypt

g - theta.edu.pl
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI - zagadnienia
1. Dane w pracy hodowlanej – praca z dużym zbiorem danych
(Excel)
2. Podstawy pracy z relacyjną bazą danych w programie MS Access
3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego
pakietu R
Z pomocą narzędzi programów Excel, SAS, R:
4. Wykorzystanie zależności zmiennych w selekcji – regresja
5. Analiza wariancji z modelem stałym i losowym (ocena h2 )
6. Ocena wartości hodowlanej z modelem mieszanym
7. Ocena efektów selekcji (m.in. trendu genetycznego)
INFORMATYKA W SELEKCJI
Model klasyfikacji pojedynczej
yij    ai  eij
Taki model to ogólny zapis układu wielu równań. Np. dla pięciu obserwacji z
dwóch grup, ten układ wygląda tak:
y11    a1  e11
y12    a1  e12
y13    a1  e13
y21    a2  e21
y22    a2  e22
y11  1  1a1  e11
y12  1  1a1  e12
= y13  1  1a1  e13 =
y21  1  1a2  e21
y22  1  1a2  e22
y11  1  1a1  0 a2  e11
y12  1  1a1  0 a2  e12
y13  1  1a1  0 a2  e13
y21  1  0 a1  1a2  e21
y22  1  0 a2  1a2  e22
INFORMATYKA W SELEKCJI
Zapis klasyczny układu równań
y11  1  1a1  0a2  e11
y12  1  1a1  0a2  e12
y13  1  1a1  0a2  e13
y 21  1  0 a1  1a2  e21
y22  1  0a2  1a2  e22
Zapis macierzowy układu równań
 y1  1
 y  1
 2 
 y3   1
 y4  1
  
 y5  1
y
wektor
obserwacji
1 0
 e1 
1 0    e2 
 

1 0  a1   e3 
   
0 1 a2  e4 
e5 
0 1
X
macierz
wystąpień
a
wektor
efektów
y = Xa + e
e
wektor
czynników
specyficznych
INFORMATYKA W SELEKCJI
ANOVA jednoczynnikowa
y ij    a i  e ij
Analiza wariancji zależy od typu modelu:
efekt a może być stały (stada, pasze) lub
losowy (grupy ojcowskie)
Struktura populacji w hodowli jest najczęściej bardziej złożona
Klasyfikacja krzyżowa dwukierunkowa
yijk    hi  s j  eijk
Dwuczynnikową analizę wariancji można stosować jeśli oba oceniane efekty
są stałe lub losowe!
yijk    hi  s j  eijk
efekt
stały
efekt
losowy
model MIESZANY
INFORMATYKA W SELEKCJI – model mieszany
Zapis macierzowy równań modelu mieszanego
 y1  1
 y  1
 2 
 y3   1
 y  1
 4 
 y5  1
y
wektor
obserwacji
1 0
1
1 0    0
1 0  h1   0


0 1 h2  1
0
0 1
X
macierz
wystąpień
efektów
stałych
a
wektor
efektów
stałych
yijk    hi  s j  eijk
0 0
 e1 
1 0  s1  e2 
0 1  s2   e3 
 

0 0  s3  e4 
e5 
0 1
Z
macierz
wystąpień
efektów
losowych
g
wektor
efektów
losowych
e
wektor
efektów
specyficznych
INFORMATYKA W SELEKCJI – model mieszany
Zapis macierzowy równań modelu mieszanego
 y1  1
 y  1
 2 
 y3   1
 y  1
 4 
 y5  1
y
=
1 0
1
1 0    0
1 0  h1   0


0 1 h2  1
0
0 1
X
a
+
yijk    hi  s j  eijk
0 0
 e1 
1 0  s1  e2 
0 1  s2   e3 
 

0 0  s3  e4 
e5 
0 1
Z
g
+
e
y = Xa + Zg + e
Nasze pięć krów w dwóch stadach to córki
trzech ojców
A jak ocenić efekty modelu mieszanego?
INFORMATYKA W SELEKCJI – model mieszany
y = Xa + Zg + e
Ocena efektów modelu mieszanego może być oparta na metodzie
najmniejszych kwadratów. Uzyskujemy wtedy
 estymatory efektów stałych (BLUE)
 predyktory efektów losowych (BLUP)
są one poprawione
na siebie nawzajem
 możliwe jest wykorzystanie zależności wewnątrz efektów
(włączenie do obliczeń macierzy kowariancji)
Dodatkowo, metoda REML umożliwia uzyskanie niebciążonych
estymatorów wariancji/kowariancji i użycie ich do ocen BLUE i
BLUP
Zbiór metod stosowanych w nowoczesnej ocenie wartości
hodowlanej nosi nazwę metody BLUP
INFORMATYKA W SELEKCJI – metoda BLUP
y = Xa + Zg + e
Najogólniejszy zapis modelu mieszanego
a – stałe efekty (stada, grupy żywieniowej, roku urodzenia itp.)
g – losowe efekty (genetyczne, np. ojcowskie, osobnicze)
Sire model
yijk    hi  s j  eijk
Animal model
yij    hi  g j  eij
Metoda BLUP umożliwia:
 estymację efektów stałych (BLUE)
poprawionych na siebie
 predykcję efektów losowych (BLUP)
 wykorzystanie zależności wewnątrz efektów (np. przez włączenie
do obliczeń macierzy spokrewnień)
MACIERZ SPOKREWNIEŃ
Macierz spokrewnień A:
 macierz symetryczna
 jej elementy aij to współczynniki pokrewieństwa
 jej elementy diagonalne ajj są równe 1 + wsp. inbredu
 jeśli rodzice osobnika j nie są spokrewnieni to ajj = 1
Przykłady prostych macierzy spokrewnień dla trzech osobników:
 1 0,5 0,5
A1  0,5 1 0,5
0,5 0,5 1 
0,25 0,25
 1
A 2  0,25
1
0,25
0,25 0,25
1 
A1 – pełne rodzeństwo
A2 – półrodzeństwo
1 0 0
A 3  0 1 0  I
0 0 1
Te macierze tak wyglądają
jeśli rodzice nie uczestniczą
w ocenie!
A3 – zwierzęta niespokrewnione (macierz identyczności)
MACIERZ SPOKREWNIEŃ
Elementy macierzy spokrewnień to współczynniki pokrewieństwa
aij 
Współczynnik pokrewieństwa z definicji:
a przy założeniu
 g2   g2   g2
i
j
aij 
cov( g i g j )
 gi  g j
cov( g i g j )
 g2
Zatem: elementy macierzy spokrewnień to ilorazy kowariancji i
wariancji genetycznych, np.

 1

 cov g12
A
2
 g
 cov g13

2

g

cov g 21
 g2
1
cov g 23
 g2
cov g 31 

 g2 
cov g 32 

 g2 

1 

MACIERZ KOWARIANCJI
Jeśli pomnożymy macierz spokrewnień przez wariancję genetyczną
otrzymamy macierz kowariancji ocenianych wartości hodowlanych G

 1

 cov g12
2
A  g  
2

 g
 cov g13

2

g

cov g 21
 g2
1
cov g 23
 g2
cov g 31 

 g2 
  g2
cov g 32  2 
   g  cov g12
 g2 
cov g13


1 

G  A   g2
Przy braku spokrewnień
G  I   g2
cov g 21
 g2
cov g 23
cov g 31 

cov g 32   G
 g2 
METODA BLUP
Ogólna postać modelu mieszanego
zapis klasyczny
zapis macierzowy
yijk    ai  g j  eijk
y = Xa + Zg + e
gdzie a – efekty stałe (stada, grupy, roku itp.), g – efekty losowe (genetyczne;
oceniane wartości hodowlane), X, Z – macierze wystąpień.
Co z wektorem e?
Zakłada się, że efekty e mają rozkład
normalny o tej samej wariancji i są
parami nieskorelowane. Do obliczeń
bierze się tylko  2
e
METODA BLUP
Model:
y = Xa + Zg + e
Założenie: efekty e mają rozkład normalny o wariancji
 e2
i są parami nieskorelowane.
Rozwiązanie: estymatory efektów a oraz predyktory wartości
hodowlanych g uzyskuje się w wyniku rozwiązania
następującego układu równań modelu mieszanego, Mixed
Model Eguations, MME):
X' Z
 X' X
 aˆ   X' y 
 Z' X Z' Z  σ 2G 1  gˆ   Z' y 
e


  
gdzie macierz G to macierz kowariancji dla elementów wektora g.
METODA BLUP
Układ równań ogólnie
X' Z
 X' X
 aˆ   X' y 
 Z' X Z' Z  σ 2G 1  gˆ   Z' y 
e


  
Jeśli oceniane zwierzęta są
niespokrewnione:
G  I   g2 , wtedy G 1  I
1
σ g2
X'Z  ˆ
X'X

σe2  a  X'y
Z' X Z' Z  I σ 2  gˆ  Z' y 
g

Jeśli oceniane zwierzęta są
spokrewnione:
2
g
G  A   , wtedy G
1
1
A
σ g2
1
X'Z
X' X
 ˆ
2 a
 X'y


σ
_1 e




Z'
X
Z'
Z

A

ˆ
2  g
Z'
y

σg   

METODA BLUP
Zwierzęta są spokrewnione:
Zwierzęta nie są spokrewnione:
X' Z
 X' X
 ˆ
2 a
  X' y 

1 σ e 




Z'
X
Z'
Z

A

ˆ
2  g
Z'
y

σg   

Wyrażenie
 e2
 g2
X' Z  ˆ
 X' X

σ e2  a    X' y 
 Z' X Z' Z  I σ 2  gˆ  Z' y 
g 

oznaczamy jako k.
Oceny BLUP oparte na modelu osobniczym:
Oceny BLUP oparte na modelu ojcowskim:
k 
k
1 h2
h2
4  h2
h2
Skąd my to znamy?
METODA BLUP
Układ równań MME ogólnie
X' Z
 X' X
 aˆ   X' y 
 Z' X Z' Z  σ 2G 1  gˆ   Z' y 
e


  
L
b
L•b=r
r
A jak rozwiązać taki układ
równań???
No, jeśli L • b = r to b = L-1 • r
1
X' Z
 X' X
  X' y  aˆ 
 Z' X Z' Z  σ 2G 1  Z' y   gˆ 
e
  

 
b = L-1 • r
METODA BLUP
Układ równań
Rozwiązanie
X' Z
 X' X
 aˆ   X' y 
 Z' X Z' Z  σ 2G 1  gˆ   Z' y 
e


  
1
X' Z
 X' X
  X' y  aˆ 
 Z' X Z' Z  σ 2G 1  Z' y   gˆ 
e
  

 
b = L-1 • r
L•b=r
Tak po prostu?!
Niestety, uzyskanie odwrotności macierzy
L to sporo pracy; nie dość, że bywa wielka,
to jest w dodatku osobliwa…
Spadaj! Sam jesteś osobliwy!!!
W praktyce rozwiązania uzyskuje się nakładając na układ równań pewne
warunki ograniczające, np. łącząc efekty stałe lub przyjmując zerową
wartość jednego z nich
INFORMATYKA W SELEKCJI – model mieszany
Ocena efektów modelu mieszanego
możliwa jest w specjalistycznych pakietach statystycznych
MODEL STAŁY, A MODEL MIESZANY
PRÓBA DANYCH
1.
Bonitacja młodych koni rasy śląskiej
kwalifikowanych do hodowli
2.
Punkty przyznawane w różnych
kategoriach
Nazwa
Nr
Nr ojca
Nr ojca_o Nr matki-o Suma punktów
Próba
Rok ur Miesiąc ur
NIWA
1
1
19
336
90.25
2007
2001
4
BERNIKLA
2
73
19
508
89.54
2007
2002
4
DELTA
3
55
256
441
88.59
2007
2000
3
ABISYNIA
4
55
256
441
88.25
2007
2003
4
IWA
5
30
283
387
87.50
2007
2004
3
ELEGIA
6
59
93
485
86.69
2007
2002
4
BELA
7
58
242
473
86.25
2007
2002
5
Oprac. na podst. wykładu dra T. Suchockiego 2012
MODEL STAŁY, A MODEL MIESZANY
Nazwa
Nr
Nr ojca
Nr ojca_o Nr matki-o Suma punktów
Próba
Rok ur Miesiąc ur
NIWA
1
1
19
336
90.25
2007
2001
4
BERNIKLA
2
73
19
508
89.54
2007
2002
4
DELTA
3
55
256
441
88.59
2007
2000
3
ABISYNIA
4
55
256
441
88.25
2007
2003
4
suma _ punktów    ojciec  miesiąi _ urodzenia  e
y    Zo  X 1m  X 2 e
90.25 1 1
89.54 1 0

   
88.59 1 0

  
88.25 1 0
0 0
0 1 
1
1 

1 0   0 1 3 0
73 




1 0 4 0
0 1
 55 


0 1
0 1 
0
0 0 0  e1 
1 0 0 e2 
0 1 0  e3 
 
0 0 1 e4 
90.25  1  1*1  0 * 73  0 * 55  0 * 3  1* 4  e1
ojciec
miesiąc
Oprac. na podst. wykładu dra T. Suchockiego 2012
MODEL STAŁY, A MODEL MIESZANY
• model stały
→ zakłada brak powiązań między efektami (ojcami)
→ stały efekt ojca
y    Zo  X 1m  X 2e
1
0
vare   R  
0

0
0 0 0
 e2 0
0
0


1 0 0 2  0  e2 0
0
e 
0
0 1 0
0  e2 0 


2
0 0 1
0
0  e 
 0
var y   vare   R
Oprac. na podst. wykładu dra T. Suchockiego 2012
MODEL STAŁY, A MODEL MIESZANY
• model mieszany
→
wykorzystanie informacji o podobieństwie między efektami
→
uwzględnienie spokrewnienia między ojcami
→
losowy efekt ojca
y    Zo  X 1m  X 2 e
1
0
vare   R  
0

0
var y   varo   vare   ZGZ ' R
1

varo   G   1
4
0

1
0
4 
1 0 o2
0 1

0 0 0
1 0 0 2
e
0 1 0

0 0 1
Oprac. na podst. wykładu dra T. Suchockiego 2012
MODEL STAŁY, A MODEL MIESZANY
• macierz wariancji addytywnie genetycznej ojców
→
współczynniki macierzy obliczone na podstawie spokrewnień
→
część identycznych przez pochodzenie genów u danej
pary ojców
→
prawdopodobieństwo, że dany allel jest identyczny przez
pochodzenie u danej pary ojców
→
2o = wariancja addytywnie genetyczna efektu ojca
→
obliczone wartości efektu ojca = wartości hodowlane
1

G  1
 04

1
0
4 
2
1 0 o

0 1

Oprac. na podst. wykładu dra T. Suchockiego 2012
PRZYGOTOWANIE DANYCH
/* wczytywanie danych o bonitacji koni */
data KONIE;
infile 'd:/karolina/klacze.prn' firstobs=2 ;
input IMIE $ 1-10 NROGIERA NROJCA NROJCA_OJCA
NRMATKI_OJCA SUMAPKT ROKPR ROKUR MIEUR;
run ;
Nazwa
Nr
Nr ojca
Nr ojca_o Nr matki-o Suma punktów
NIWA
1
1
19
336
90.25
2007
2001
4
BERNIKLA
2
73
19
508
89.54
2007
2002
4
/* wczytywanie macierzy spokrewnien */
data POKREWIENSTWO ;
infile 'd:karolina/G.txt' ;
input ROW COLUMN VALUE ;
1
PARM=1 ;

output ;
1

run ;
4
0

1
Próba
0
4 
1 0 

0 1

Rok ur Miesiąc ur
1
1
1
1
2
0.25
1
3
0
…
Oprac. na podst. wykładu dra T. Suchockiego 2012
ZASTOSOWANIE PROCEDURY MIXED
/* model mieszany */
proc mixed data=KONIE order=data ;
class NROJCA MIEUR ;
model SUMAPKT= MIEUR / solution ;
random NROJCA / type=lin(1)
ldata=POKREWIENSTWO solution ;
parms (0.3) (0.7) / noiter ratios ;
run ;
y    Zo  X 1m  X 2 e
 o2  0.3
 e2  0.7
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA MIXED - WYNIKI
Model Information
Data Set
Dependent Variable
Covariance Structures
Estimation Method
Residual Variance Method
Fixed Effects SE Method
Degrees of Freedom Method
Liczba wsp. wariancji: 2e i 2o
Dimensions
Covariance Parameters
Columns in X
Columns in Z
Subjects
Max Obs Per Subject
WORK.OGIERY1
SUMAPKT
Linear, Variance Components
REML
Parameter
Model-Based
Containment
2
11
31
1
66
Liczba kolumn macierzy X1 = liczba
miesięcy + 
Liczba kolumn macierzy Z = liczba
ojców
Całkowita liczba obserwacji
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA MIXED - WYNIKI
Number of Observations
Number of Observations Read
Number of Observations Used
Number of Observations Not Used
66
66
0
Liczba obserwacji
Parameter Search
CovP1
CovP2
0.3000
0.7000
Res Log Like
-1623.5395
-2 Res Log Like
3247.0789
Założone wartości wsp. wariancji
Covariance Parameter Estimates
Cov Parm
LIN(1)
Residual
Estimate
0.2100
0.7000
Obliczone wartości wsp. wariancji
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA MIXED - WYNIKI
Solution for Fixed Effects
Effect
MIEUR
Intercept 66.6733
MIEUR
3
MIEUR
12
MIEUR
5
MIEUR
4
MIEUR
2
MIEUR
1
MIEUR
11
MIEUR
8
nr miesiąca
Estimate
0.9305
6.7660
10.2336
8.8001
10.4539
13.9611
9.8608
9.8423
0
Ocena efektu
miesiąca
wyniki dla efektów stałych
Standard
Error
0.9750
1.0040
0.9708
0.9703
0.9540
1.0493
1.3277
.
DF
30
27
27
27
27
27
27
27
.
błąd
standardowy
t Value
71.65
6.94
10.19
9.06
10.77
14.63
9.40
7.41
.
Pr > |t|
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
prawdopodobieństwo błędu
przy odrzuceniu H0
Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA MIXED - WYNIKI
Solution for Random Effects
Effect
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
NROJCA
50
55
58
63
66
67
68
73
74
78
nr ojca
Estimate
0.2413
-3.2842
0.5694
0.2259
0.2558
-3.2213
1.7725
-1.0896
2.1792
-1.4443
wartość
hodowlana
wyniki dla efektów losowych
Std Err
Pred
0.3178
0.3223
0.3236
0.3485
0.3650
0.3946
0.3616
0.3285
0.3236
0.2945
błąd
standardowy
DF
t Value
Pr > |t|
27
27
27
27
27
27
27
27
27
27
0.76
-10.19
1.76
0.65
0.70
-8.16
4.90
-3.32
6.73
-4.90
0.4543
<.0001
0.0898
0.5224
0.4894
<.0001
<.0001
0.0026
<.0001
<.0001
prawdopodobieństwo błędu
przy odrzuceniu H0
Oprac. na podst. wykładu dra T. Suchockiego 2012
PODSUMOWANIE
Metoda BLUP (przykład zastosowania szacowania efektów
modelu mieszanego w pracy hodowlanej)
 oparta jest na rachunku macierzowym
 wymaga dużej mocy obliczeniowej (ocena wielu zwierzat
naraz, odwracanie dużych macierzy)
 pozwala na dobre dopasowanie modelu: można
uwzględnić wiele efektów, w tym dodatkowe efekty
genetyczne
 umożliwia jednoczesną ocenę efektów stałych i losowych,
przez co są one na siebie nawzajem „poprawione”
 dopuszcza i wykorzystuje zależności efektów; poprzez
włączenie do obliczeń macierzy kowariancji genetycznych
wykorzystuje dodatkowe źródła informacji
 daje oceny o wysokiej dokładności
INFORMATYKA W SELEKCJI – model mieszany
Ocena efektów modelu mieszanego
możliwa jest w pakietach
statystycznych
Do ocen wartości hodowlanej
metoda BLUP stworzono wiele
specjalistycznych programów
EXCEL?
Czy można ocenić wartość hodowlaną w
oparciu o model mieszany przy pomocy Excela?
Na pewno można spróbować – ZAPRASZAM na
ćwiczenia!