x - THETA

Transkrypt

x - THETA
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI - zagadnienia
1. Dane w pracy hodowlanej – praca z dużym zbiorem danych
(Excel)
2. Podstawy pracy z relacyjną bazą danych w programie MS Access
3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego
pakietu R
Z pomocą narzędzi programów Excel, SAS, R:
4. Wykorzystanie zależności zmiennych w selekcji – regresja
5. Analiza wariancji z modelem stałym i losowym (np. ocena h2 )
6. Ocena wartości hodowlanej z modelem mieszanym
7. Ocena efektów selekcji (m.in. trendu genetycznego)
INFORMATYKA W SELEKCJI
Cecha
Osobnik
Populacja
wyd. mleka
zaw. tłuszczu
Cecha X
Cecha Y
długość laktacji
tempo wzrostu
przyrost dzienny
wydajność rzeźna
wysokość w kłębie
skuteczność inseminacji
Poszczególne cechy mogą być współzależne
Zależność cech można określić matematycznie
INFORMATYKA W SELEKCJI -– współczynnik korelacji
 Zależność statystyczna zmiennych nosi nazwę KORELACJI
 Wielkość (siłę) zależności mierzy WSPÓŁCZYNNIK KORELACJI
 Dla cech ilościowych jest to najczęściej WSPÓŁCZYNNIK
KORELACJI LINIOWEJ PEARSONA
rxy 
cov( x, y )
 x2 y2
cov( x, y )

 x y

Mierzy siłę zależności dwóch zmiennych losowych X i Y

Pod warunkiem, że:
• zmienne są ciągłe
• mają rozkład normalny
• zależność jest liniowa

rxy przyjmuje wartości z przedziału [ -1, 1 ]
Zależność cech – współczynnik korelacji liniowej
OBLICZANIE współczynnika korelacji liniowej
Przykład: Badamy zależność wzrostu i rozmiaru obuwia
(1) Widać LINIOWY charakter zależności
WZROST
(cm)
DŁ. STOPY
(cm)
31
30
185
28
29
28
179
27
27
26
158
24
25
24
160
23
23
22
190
29
173
25
180
29
175
25
188
30
165
23
158
160
165
173
175
179
180
185
188
190
(2) Obliczenie współczynnika korelacji
10
rxy 
cov( x, y )
2
x
 
2
y
 x  x  y
i

i
 y
i 1
10
10
i 1
i 1
2
2




x

x
y

y
 i
 i
 0,92
INFORMATYKA W SELEKCJI - zależność zmiennych
 KORELACJA → określanie siły zależności
(podobieństwa) zmiennych
 Jeśli zmienne są zależne → można próbować
przewidzieć wartości jednej zmiennej na podstawie
wartości przyjmowanych przez drugą
 REGRESJA → (a) określanie modelu zależności
zmiennych i (b) wykorzystanie tego modelu do
przewidywania wartości nieznanych na podstawie
wartości obserwowanych (zmierzonych)
 Taki matematyczny model zależności nosi nazwę
równania regresji
Wykorzystanie zależności cech - regresja
WZROST
X
STOPA
Y
185
28
179
27
158
24
160
23
190
29
173
25
180
29
175
25
188
30
165
23
Długość stopy zależy od wzrostu człowieka
Chcielibyśmy przewidzieć długość stopy znając wzrost
31
30
29
28
27
26
25
24
23
22
158
160
165
173
175
179
180
185
188
190
Żeby przewidywać wartości Y na podstawie X trzeba znaleźć
linię prostą jak najlepiej dopasowaną do zbioru punktów
Wzór określający tę prostą w układzie współrzędnych to
RÓWNANIE REGRESJI – matematyczny model zależności
cechy Y od cechy X
INFORMATYKA W SELEKCJI - regresja prosta
Równanie regresji
y  y  b( x  x )
lub
y  a  bx
a  y  bx
„wyraz wolny”, punkt
przecięcia z osią y
b?
współczynnik
regresji
Współczynnik regresji musi być taki, żeby dopasowanie
modelu (linii) było jak nalepsze!
INFORMATYKA W SELEKCJI - regresja prosta
31
30
29
28
27
26
25
24
23
22
158
160
165
173
175
179
180
185
188
190
A jak wybrać linię najlepiej dopasowaną do zbioru punktów?
METODĄ NAJMNIEJSZYCH
KWADRATÓW
INFORMATYKA W SELEKCJI - regresja prosta
31
30
wartość
rzeczywista y
29
28
27
wartość
teoretyczna ŷ
26
25
24
23
22
158
160
165
173
175
179
180
185
188
190
Metoda najmniejszych kwadratów – taki sposób obliczeń, żeby suma
kwadratów odchyleń wartości rzeczywistych od teoretycznych była
minimalna (oparty na rachunku różniczkowym)
INFORMATYKA W SELEKCJI – regresja prosta
y  a  bx
Prosta regresji będzie dopasowana metodą najmniejszych
kwadratów, jeśli współczynnik regresji obliczymy według wzoru:
cov( x, y )
b
2
x
Jest to definicja współczynnika regresji liniowej
Matematycznie: b to tangens kąta nachylenia prostej do osi X, zaś
a to punkt przecięcia z osią Y
INFORMATYKA W SELEKCJI - regresja prosta
Związek współczynników regresji i korelacji liniowej
y
cov( x , y )
b
r
2
x
x
bo
cov( x , y )
r
 x y
Współczynnik regresji informuje, o ile zmieni się wartość
zmiennej y, jeśli wartość zmiennej x zmieni się o 1
y – zmienna objaśniana, zmienna zależna
x – zmienna objaśniająca, zmienna niezależna
INFORMATYKA W SELEKCJI - regresja prosta
WZROST
X
STOPA
Y
185
28
179
27
158
24
160
23
190
29
173
25
180
29
175
25
188
30
165
23
Skonstruujemy równanie regresji dla naszego
przykładu
31
30
29
28
27
26
25
24
23
22
158
160
165
173
175
179
180
185
188
190
INFORMATYKA W SELEKCJI - regresja prosta
WZROST
X
STOPA
Y
185
28
179
27
158
24
160
23
190
29
173
25
180
29
175
25
188
30
165
23
1. Obliczamy współczynnik regresji b:
N
cov( x, y )
b

2
x
 x
i
 x  yi  y 
i 1
 0,21
N
 x
2
i
 x
i 1
2. Obliczamy wyraz wolny:
a  y  b x   11,15
3. Uzyskujemy równanie regresji:
x  175,3
y  26,3
y  11,15  0,21x
INFORMATYKA W SELEKCJI - regresja prosta
31
30
29
28
27
y  0,21x  11,15
26
NACHYLENIE
25
24
23
22
158
160
165
173
175
179
180
185
188
190
Wstawiając w równaniu różne wartości wzrostu (x) otrzymujemy
odpowiadające im teoretycznie długości stopy (y)
INFORMATYKA W SELEKCJI - regresja prosta
Ocena DOPASOWANIA regresji
n
n
2
ˆ
  yi  y
y
zmienność wartości
teoretycznych
zmienność wartości
rzeczywistych
i 1
informuje, jaka część
rzeczywistej zmienności
została wyjaśniona przez
równanie regresji
DETERMINACJI
n
2
R 
i
 y
2
i
 y
2
i 1
n
y
i 1
 y
i 1
WSPÓŁCZYNNIK
  yˆ
i
2
przyjmuje wartości od 0 do 1;
im bliższy 1 tym lepsze
dopasowanie modelu regresji
INFORMATYKA W SELEKCJI - regresja prosta
Ocena dopasowania regresji
31
WZROST
X
STOPA
Y
185
28
179
27
30
29
28
yˆ  0,21x  11,15
27
26
25
158
24
160
23
24
23
22
190
29
173
25
180
29
175
25
188
165
30
23
158
160
165
173
175
179
2
ˆ


y

y
 i
i 1
n
 y
i 1
 0,85
2
i
 y
185
188
Suuuper
dopasowanie
n
R2 
180
190
INFORMATYKA W SELEKCJI - regresja
Wielomian 1. stopnia
Regresja nie musi być zawsze
prostoliniowa – to najprostszy
przypadek ogólnej regresji
wielomianowej
y  a  bx
2. stopnia
y  a  b1 x  b2 x 2
3. stopnia
y  a  b1 x  b2 x 2  b3 x 3
Populacja wielocechowa
Cecha
Osobnik
Populacja
wyd. mleka
zaw. tłuszczu
długość laktacji
tempo wzrostu
przyrost dzienny
wydajność rzeźna
wysokość w kłębie
skuteczność inseminacji
Wykorzystanie zależności wielu zmiennych –
regresja wielokrotna
INFORMATYKA W SELEKCJI – regresja wielokrotna
Regresja wielokrotna pozwala przewidywać y na podstawie kilku
powiązanych zmiennych x1, x2 … xn
y  b0  b1 x1  b2 x2
Waga
X2
Wzrost
X1
Stopa
Y
66
158
24
59
160
23
67
165
23
73
173
25
77
175
25
88
179
27
82
180
29
89
185
28
100
188
30
Zapis macierzowy – przejrzystość
93
190
29
Rachunek macierzowy – obliczenie
wielu niewiadomych jednocześnie
 y1   1 x11
 y   1 x12
 2 
 ...   ... ...
 y9   1 x
19
  
 y10   1 x110
x21 
x22  b0 
...   b1  albo Y  X

x29  b2 
x210 
INFORMATYKA W SELEKCJI – regresja wielokrotna
Zapis macierzowy równań modelu mieszanego
 y1  1
 y  1
 2 
 y3   1
 y  1
 4 
 y5  1
y
wektor
obserwacji
1 0
1
1 0    0
1 0  h1   0


0 1 h2  1
0
0 1
X
macierz
wystąpień
efektów
stałych
a
wektor
efektów
stałych
yijk    hi  s j  eijk
0 0
 e1 
1 0  s1  e2 
0 1  s2   e3 
 

0 0  s3  e4 
e5 
0 1
Z
macierz
wystąpień
efektów
losowych
g
wektor
efektów
losowych
e
wektor
efektów
specyficznych
INFORMATYKA W SELEKCJI – regresja wielokrotna
Zapis macierzowy równań modelu mieszanego
 y1  1
 y  1
 2 
 y3   1
 y  1
 4 
 y5  1
y
=
1 0
1
1 0    0
1 0  h1   0


0 1 h2  1
0
0 1
X
a
+
yijk    hi  s j  eijk
0 0
 e1 
1 0  s1  e2 
0 1  s2   e3 
 

0 0  s3  e4 
e5 
0 1
Z
y = Xa + Zg + e
g
+
e
INFORMATYKA W SELEKCJI
Próba
Wartości obliczone z próby to ESTYMATORY,
np. średnia
n
x 
1
n

x i  4500
i 1
Uzyskane wartości estymatorów są
podstawą hipotez, np.
H0: µ = 5000
HA: µ ≠ 5000
Hipotezy weryfikujemy za pomocą testów statystycznych, zakładając
prawdziwość hipotezy zerowej, np. testem t
x
t
n
s
Jeśli uzyskamy wartość bardzo mało prawdopodobną (np. p value <
0,05) odrzucamy hipotezę zerową.
Oszacowane współczynniki korelacji i regresji to również
ESTYMATORY!
Zależność cech – istotność korelacji liniowej
TESTOWANIE współczynnika korelacji liniowej (estymator r = 0,92)
t
r N 2
1 r
2
~ t N 2
W przykładzie:
t = 6,64, p-value = 0,00016,
Wynik testu:
odrzucamy H0 (występuje wysoka dodatnia korelacja między
wzrostem a długością stopy)
Istotność regresji
Badanie ISTOTNOŚCI regresji
N
 yˆ
i
y

2
i 1
Nb 1
F 
N

( yˆ i  y i ) 2
i 1
Ta statystyka
ma rozkład F
o v1 = Nb - 1 i
v1 = N - Nb
stopniach
swobody
N  Nb
średnia zmienność wartości y
wyjaśniona przez równanie
regresji
średnia zmienność wartości y nie
wyjaśniona przez równanie regresji
(średni błąd)
N – liczba par obserwacji, Nb – liczba współczynników równania regresji
(np. dla równania regresji prostej y = a + bx Nb = 2)
Istotność regresji
Równanie regresji do przewidywania długości stopy na podstawie wzrostu
yˆ  0,21x  11,15
R 2  0,85
N
 yˆ
i
y
Dopasowanie
OK, ale czy
współczynnik
regresji jest
statystycznie
istotny?

2
54,865
Nb 1
F N
 2  1  32,3
13,603
2
( yˆ i  yi )

10  2
i 1
N  Nb
i 1
p-value = 0,000465
Wynik testu?
INFORMATYKA W SELEKCJI
Wykorzystanie zależności zmiennych w hodowli i selekcji
(I) Podstawa metod hodowlanych: zależność (podobieństwo) wartości
hodowlanej i wartości fenotypowej cechy
P=G+E
Współczynnik korelacji tych wartości można wyznaczyć np. metodą
WSPÓŁCZYNNIKA ŚCIEŻKI,
G
h
P
podobnie jak pokrewieństwo (wsp. korelacji wartości hodowlanych
osobników spokrewnionych).
Wielkości te wykorzystuje się w ocenie wartości hodowlanej
(II) Podobieństwo wydajności krewnych wyrażone współczynnikiem
korelacji wewnątrzklasowej jest podstawą szacowania parametrów
genetycznych
INFORMATYKA W SELEKCJI
Wykorzystanie zależności zmiennych w hodowli i selekcji cd.
(III) Ocena wartości hodowlanej może być oparta jest na równaniu
regresji prostej:
Gˆ  b( P  P )  P
źródło
informacji
Miarą dokładności oceny jest R – współczynnik korelacji ocenianej
wartości hodowlanej i źródła informacji
(IV) Indeks selekcyjny, łączący różne źródła informacji, oparty jest
na równaniu regresji wielokrotnej
I = b1X1 + b2X2 + ... + bn Xn
Do obliczenia współczynników regresji cząstkowej
potrzebne są korelacje między źródłami informacji oraz
między nimi i ocenianą wartością hodowlaną.
INFORMATYKA W SELEKCJI
Wykorzystanie zależności zmiennych w hodowli i selekcji cd.
(V) W ocenach opartych na modelach mieszanych
uwzględniających strukturę populacji oraz zależność efektów
genetycznych (np. BLUP) stosuje się regresję wielokrotną i włącza
do obliczeń np. macierz spokrewnień
X' Z  aˆ  X' y 
 X' X
 Z' X Z' Z  A 1 k  gˆ   Z' y 

  

(VI) Selekcja – oczekiwany postęp hodowlany
zależy od dokładności oceny R
G  R  s   G
W selekcji pośredniej wykorzystuje się reakcję
skorelowaną, wynikającą z korelacji genetycznej cech
Ocena zrealizowanego postępu hodowlanego oparta
jest na regresji ocen kolejnych roczników względem
czasu (trend genetyczny)
INFORMATYKA W SELEKCJI
Narzędzia informatyczne do oceny korelacji i regresji
SAS PROCEDURA REG - PROGRAM
MASA
CIAŁA
(kg)
ZAW
TŁUSZCZU
(mm)
89
28
88
27
66
24
59
23
93
29
73
25
82
29
77
25
100
30
67
23
data tluszcz;
infile
‘I:/informatyka/dane.txt’ ;
input masac ztl;
run ;
proc reg data=tluszcz ;
model ztl=masac ;
run ;
y  a  bx
Oprac. na podst. wykładu dra T. Suchockiego 2012
SAS PROCEDURA REG - WYNIKI
The REG Procedure
Model: MODEL1
Dependent Variable: ztl
Observations Read
Observations Used
Informacje o modelu, specyfikacja
zmiennej zależnej
10
10
Liczba obserwacji
Podział zmienności w równaniu
regresji → test F
Analysis of Variance
Source
DF
Sum of
Squares
Model
Error
Cor.
Total
1
8
9
54.31566
7.78434
62.10000
Root MSE
Dependent Mean
Coeff Var
Mean
Square
54.31566
0.97304
0.98643
26.30000
3.75068
F Value
R-Square
Adj R-Sq
Pr > F
55.82
<.0001
0.8746
0.8590
Oprac. na podst. wykładu dra T. Suchockiego 2012
SAS PROCEDURA REG - WYNIKI
The REG Procedure
Model: MODEL1
Dependent Variable: ztl
Observations Read
Observations Used
N
2


y

y
 ˆi
i 1
N 1
F
10
10
2


y

y
 ˆi i
i 1
Analysis of Variance
Source
DF
Sum of
Squares
Model
Error
Cor.
Total
1
8
9
54.31566
7.78434
62.10000
Root MSE
Dependent Mean
Coeff Var
N
N  N
Mean
Square
54.31566
0.97304
F Value
Pr > F
55.82
<.0001
p-value
0.98643
26.30000
3.75068
R-Square
Adj R-Sq
0.8746
0.8590
Oprac. na podst. wykładu dra T. Suchockiego 2012
SAS PROCEDURA REG - WYNIKI
Parameter Estimates
Variable
Intercept
masac
estymatory
parametrów
Parameter
Standard
DF
Estimate
Error
1
1
11.57096
0.18550
1.99594
0.02483
odchylenie
standardowe
estymatora
t
zaw tluszczu  11.57  0.19masa_ciała
ˆ
 2ˆ
t Value
Pr>|t|
5.80
7.47
0.0004
<.0001
p-value,
prawdopodobień
stwo odrzucenia
prawdziwej H0
y  11,57  0,19 x
Oprac. na podst. wykładu dra T. Suchockiego 2012
INFORMATYKA W SELEKCJI
Narzędzia informatyczne do oceny korelacji i regresji
R funkcja lm – regresja liniowa
otwarcie pliku
# czytanie danych
dane<read.table("g:/informatykawselekcji/lectures/tluszcz.
txt",dec=".",col.names=c('masa','ztl'))
dane
wypisanie zawartości pliku na ekran
# funkcja regresji liniowej
r <- lm(ztl~masa, data=dane)
summary(r)
regresja liniowa
wyniki
# wykres równania regresji
plot(dane)
abline(r)
wykres danych i prostej regresji
Oprac. na podst. wykładu dra T. Suchockiego 2012
R funkcja lm - WYNIKI
Coefficients:
Estimate
(Intercept) 11.57096
masa
0.18550
estymatory
parametrów
Std.Error t value Pr(>|t|)
1.99594
5.797 0.000406 ***
0.02483
7.471 7.12e-05 ***
odchylenie
standardowe
t
tluszcz  11.57  0.19masa_ciała
ˆ
 2ˆ
y  11,57  0,19 x
Oprac. na podst. wykładu dra T. Suchockiego 2012
R funkcja lm - WYNIKI
N
2
ˆ

y

y

 i i
Multiple R-squared: 0.8746
i 1
N
2


 yi  y
i 1
F-statistic: 55.82 on 1 and 8 DF,
N
 yˆ
i
 y
p-value: 7.119e-05

2
i 1
F 
wartość
testu F
N 1
N
  yˆ i 
2
yi 
i 1
N  N
Oprac. na podst. wykładu dra T. Suchockiego 2012
INFORMATYKA W SELEKCJI
Narzędzia informatyczne do oceny korelacji i regresji
EXCEL
 Korelacja liniowa – funkcje PEARSON, WSP. KORELACJI
 Regresja prosta – funkcje REGLINP, NACHYLENIE
 Obliczenia oraz analiza statystyczna korelacji i regresji
dostępne są w dodatku: ANALIZA DANYCH
PREZENTACJA obliczeń w Excelu oraz zadania do
samodzielnego wykonania za chwilę na
ćwiczeniach – ZAPRASZAM!