x - THETA
Transkrypt
x - THETA
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej – praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z pomocą narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności zmiennych w selekcji – regresja 5. Analiza wariancji z modelem stałym i losowym (np. ocena h2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego) INFORMATYKA W SELEKCJI Cecha Osobnik Populacja wyd. mleka zaw. tłuszczu Cecha X Cecha Y długość laktacji tempo wzrostu przyrost dzienny wydajność rzeźna wysokość w kłębie skuteczność inseminacji Poszczególne cechy mogą być współzależne Zależność cech można określić matematycznie INFORMATYKA W SELEKCJI -– współczynnik korelacji Zależność statystyczna zmiennych nosi nazwę KORELACJI Wielkość (siłę) zależności mierzy WSPÓŁCZYNNIK KORELACJI Dla cech ilościowych jest to najczęściej WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA rxy cov( x, y ) x2 y2 cov( x, y ) x y Mierzy siłę zależności dwóch zmiennych losowych X i Y Pod warunkiem, że: • zmienne są ciągłe • mają rozkład normalny • zależność jest liniowa rxy przyjmuje wartości z przedziału [ -1, 1 ] Zależność cech – współczynnik korelacji liniowej OBLICZANIE współczynnika korelacji liniowej Przykład: Badamy zależność wzrostu i rozmiaru obuwia (1) Widać LINIOWY charakter zależności WZROST (cm) DŁ. STOPY (cm) 31 30 185 28 29 28 179 27 27 26 158 24 25 24 160 23 23 22 190 29 173 25 180 29 175 25 188 30 165 23 158 160 165 173 175 179 180 185 188 190 (2) Obliczenie współczynnika korelacji 10 rxy cov( x, y ) 2 x 2 y x x y i i y i 1 10 10 i 1 i 1 2 2 x x y y i i 0,92 INFORMATYKA W SELEKCJI - zależność zmiennych KORELACJA → określanie siły zależności (podobieństwa) zmiennych Jeśli zmienne są zależne → można próbować przewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą REGRESJA → (a) określanie modelu zależności zmiennych i (b) wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych) Taki matematyczny model zależności nosi nazwę równania regresji Wykorzystanie zależności cech - regresja WZROST X STOPA Y 185 28 179 27 158 24 160 23 190 29 173 25 180 29 175 25 188 30 165 23 Długość stopy zależy od wzrostu człowieka Chcielibyśmy przewidzieć długość stopy znając wzrost 31 30 29 28 27 26 25 24 23 22 158 160 165 173 175 179 180 185 188 190 Żeby przewidywać wartości Y na podstawie X trzeba znaleźć linię prostą jak najlepiej dopasowaną do zbioru punktów Wzór określający tę prostą w układzie współrzędnych to RÓWNANIE REGRESJI – matematyczny model zależności cechy Y od cechy X INFORMATYKA W SELEKCJI - regresja prosta Równanie regresji y y b( x x ) lub y a bx a y bx „wyraz wolny”, punkt przecięcia z osią y b? współczynnik regresji Współczynnik regresji musi być taki, żeby dopasowanie modelu (linii) było jak nalepsze! INFORMATYKA W SELEKCJI - regresja prosta 31 30 29 28 27 26 25 24 23 22 158 160 165 173 175 179 180 185 188 190 A jak wybrać linię najlepiej dopasowaną do zbioru punktów? METODĄ NAJMNIEJSZYCH KWADRATÓW INFORMATYKA W SELEKCJI - regresja prosta 31 30 wartość rzeczywista y 29 28 27 wartość teoretyczna ŷ 26 25 24 23 22 158 160 165 173 175 179 180 185 188 190 Metoda najmniejszych kwadratów – taki sposób obliczeń, żeby suma kwadratów odchyleń wartości rzeczywistych od teoretycznych była minimalna (oparty na rachunku różniczkowym) INFORMATYKA W SELEKCJI – regresja prosta y a bx Prosta regresji będzie dopasowana metodą najmniejszych kwadratów, jeśli współczynnik regresji obliczymy według wzoru: cov( x, y ) b 2 x Jest to definicja współczynnika regresji liniowej Matematycznie: b to tangens kąta nachylenia prostej do osi X, zaś a to punkt przecięcia z osią Y INFORMATYKA W SELEKCJI - regresja prosta Związek współczynników regresji i korelacji liniowej y cov( x , y ) b r 2 x x bo cov( x , y ) r x y Współczynnik regresji informuje, o ile zmieni się wartość zmiennej y, jeśli wartość zmiennej x zmieni się o 1 y – zmienna objaśniana, zmienna zależna x – zmienna objaśniająca, zmienna niezależna INFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 185 28 179 27 158 24 160 23 190 29 173 25 180 29 175 25 188 30 165 23 Skonstruujemy równanie regresji dla naszego przykładu 31 30 29 28 27 26 25 24 23 22 158 160 165 173 175 179 180 185 188 190 INFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 185 28 179 27 158 24 160 23 190 29 173 25 180 29 175 25 188 30 165 23 1. Obliczamy współczynnik regresji b: N cov( x, y ) b 2 x x i x yi y i 1 0,21 N x 2 i x i 1 2. Obliczamy wyraz wolny: a y b x 11,15 3. Uzyskujemy równanie regresji: x 175,3 y 26,3 y 11,15 0,21x INFORMATYKA W SELEKCJI - regresja prosta 31 30 29 28 27 y 0,21x 11,15 26 NACHYLENIE 25 24 23 22 158 160 165 173 175 179 180 185 188 190 Wstawiając w równaniu różne wartości wzrostu (x) otrzymujemy odpowiadające im teoretycznie długości stopy (y) INFORMATYKA W SELEKCJI - regresja prosta Ocena DOPASOWANIA regresji n n 2 ˆ yi y y zmienność wartości teoretycznych zmienność wartości rzeczywistych i 1 informuje, jaka część rzeczywistej zmienności została wyjaśniona przez równanie regresji DETERMINACJI n 2 R i y 2 i y 2 i 1 n y i 1 y i 1 WSPÓŁCZYNNIK yˆ i 2 przyjmuje wartości od 0 do 1; im bliższy 1 tym lepsze dopasowanie modelu regresji INFORMATYKA W SELEKCJI - regresja prosta Ocena dopasowania regresji 31 WZROST X STOPA Y 185 28 179 27 30 29 28 yˆ 0,21x 11,15 27 26 25 158 24 160 23 24 23 22 190 29 173 25 180 29 175 25 188 165 30 23 158 160 165 173 175 179 2 ˆ y y i i 1 n y i 1 0,85 2 i y 185 188 Suuuper dopasowanie n R2 180 190 INFORMATYKA W SELEKCJI - regresja Wielomian 1. stopnia Regresja nie musi być zawsze prostoliniowa – to najprostszy przypadek ogólnej regresji wielomianowej y a bx 2. stopnia y a b1 x b2 x 2 3. stopnia y a b1 x b2 x 2 b3 x 3 Populacja wielocechowa Cecha Osobnik Populacja wyd. mleka zaw. tłuszczu długość laktacji tempo wzrostu przyrost dzienny wydajność rzeźna wysokość w kłębie skuteczność inseminacji Wykorzystanie zależności wielu zmiennych – regresja wielokrotna INFORMATYKA W SELEKCJI – regresja wielokrotna Regresja wielokrotna pozwala przewidywać y na podstawie kilku powiązanych zmiennych x1, x2 … xn y b0 b1 x1 b2 x2 Waga X2 Wzrost X1 Stopa Y 66 158 24 59 160 23 67 165 23 73 173 25 77 175 25 88 179 27 82 180 29 89 185 28 100 188 30 Zapis macierzowy – przejrzystość 93 190 29 Rachunek macierzowy – obliczenie wielu niewiadomych jednocześnie y1 1 x11 y 1 x12 2 ... ... ... y9 1 x 19 y10 1 x110 x21 x22 b0 ... b1 albo Y X x29 b2 x210 INFORMATYKA W SELEKCJI – regresja wielokrotna Zapis macierzowy równań modelu mieszanego y1 1 y 1 2 y3 1 y 1 4 y5 1 y wektor obserwacji 1 0 1 1 0 0 1 0 h1 0 0 1 h2 1 0 0 1 X macierz wystąpień efektów stałych a wektor efektów stałych yijk hi s j eijk 0 0 e1 1 0 s1 e2 0 1 s2 e3 0 0 s3 e4 e5 0 1 Z macierz wystąpień efektów losowych g wektor efektów losowych e wektor efektów specyficznych INFORMATYKA W SELEKCJI – regresja wielokrotna Zapis macierzowy równań modelu mieszanego y1 1 y 1 2 y3 1 y 1 4 y5 1 y = 1 0 1 1 0 0 1 0 h1 0 0 1 h2 1 0 0 1 X a + yijk hi s j eijk 0 0 e1 1 0 s1 e2 0 1 s2 e3 0 0 s3 e4 e5 0 1 Z y = Xa + Zg + e g + e INFORMATYKA W SELEKCJI Próba Wartości obliczone z próby to ESTYMATORY, np. średnia n x 1 n x i 4500 i 1 Uzyskane wartości estymatorów są podstawą hipotez, np. H0: µ = 5000 HA: µ ≠ 5000 Hipotezy weryfikujemy za pomocą testów statystycznych, zakładając prawdziwość hipotezy zerowej, np. testem t x t n s Jeśli uzyskamy wartość bardzo mało prawdopodobną (np. p value < 0,05) odrzucamy hipotezę zerową. Oszacowane współczynniki korelacji i regresji to również ESTYMATORY! Zależność cech – istotność korelacji liniowej TESTOWANIE współczynnika korelacji liniowej (estymator r = 0,92) t r N 2 1 r 2 ~ t N 2 W przykładzie: t = 6,64, p-value = 0,00016, Wynik testu: odrzucamy H0 (występuje wysoka dodatnia korelacja między wzrostem a długością stopy) Istotność regresji Badanie ISTOTNOŚCI regresji N yˆ i y 2 i 1 Nb 1 F N ( yˆ i y i ) 2 i 1 Ta statystyka ma rozkład F o v1 = Nb - 1 i v1 = N - Nb stopniach swobody N Nb średnia zmienność wartości y wyjaśniona przez równanie regresji średnia zmienność wartości y nie wyjaśniona przez równanie regresji (średni błąd) N – liczba par obserwacji, Nb – liczba współczynników równania regresji (np. dla równania regresji prostej y = a + bx Nb = 2) Istotność regresji Równanie regresji do przewidywania długości stopy na podstawie wzrostu yˆ 0,21x 11,15 R 2 0,85 N yˆ i y Dopasowanie OK, ale czy współczynnik regresji jest statystycznie istotny? 2 54,865 Nb 1 F N 2 1 32,3 13,603 2 ( yˆ i yi ) 10 2 i 1 N Nb i 1 p-value = 0,000465 Wynik testu? INFORMATYKA W SELEKCJI Wykorzystanie zależności zmiennych w hodowli i selekcji (I) Podstawa metod hodowlanych: zależność (podobieństwo) wartości hodowlanej i wartości fenotypowej cechy P=G+E Współczynnik korelacji tych wartości można wyznaczyć np. metodą WSPÓŁCZYNNIKA ŚCIEŻKI, G h P podobnie jak pokrewieństwo (wsp. korelacji wartości hodowlanych osobników spokrewnionych). Wielkości te wykorzystuje się w ocenie wartości hodowlanej (II) Podobieństwo wydajności krewnych wyrażone współczynnikiem korelacji wewnątrzklasowej jest podstawą szacowania parametrów genetycznych INFORMATYKA W SELEKCJI Wykorzystanie zależności zmiennych w hodowli i selekcji cd. (III) Ocena wartości hodowlanej może być oparta jest na równaniu regresji prostej: Gˆ b( P P ) P źródło informacji Miarą dokładności oceny jest R – współczynnik korelacji ocenianej wartości hodowlanej i źródła informacji (IV) Indeks selekcyjny, łączący różne źródła informacji, oparty jest na równaniu regresji wielokrotnej I = b1X1 + b2X2 + ... + bn Xn Do obliczenia współczynników regresji cząstkowej potrzebne są korelacje między źródłami informacji oraz między nimi i ocenianą wartością hodowlaną. INFORMATYKA W SELEKCJI Wykorzystanie zależności zmiennych w hodowli i selekcji cd. (V) W ocenach opartych na modelach mieszanych uwzględniających strukturę populacji oraz zależność efektów genetycznych (np. BLUP) stosuje się regresję wielokrotną i włącza do obliczeń np. macierz spokrewnień X' Z aˆ X' y X' X Z' X Z' Z A 1 k gˆ Z' y (VI) Selekcja – oczekiwany postęp hodowlany zależy od dokładności oceny R G R s G W selekcji pośredniej wykorzystuje się reakcję skorelowaną, wynikającą z korelacji genetycznej cech Ocena zrealizowanego postępu hodowlanego oparta jest na regresji ocen kolejnych roczników względem czasu (trend genetyczny) INFORMATYKA W SELEKCJI Narzędzia informatyczne do oceny korelacji i regresji SAS PROCEDURA REG - PROGRAM MASA CIAŁA (kg) ZAW TŁUSZCZU (mm) 89 28 88 27 66 24 59 23 93 29 73 25 82 29 77 25 100 30 67 23 data tluszcz; infile ‘I:/informatyka/dane.txt’ ; input masac ztl; run ; proc reg data=tluszcz ; model ztl=masac ; run ; y a bx Oprac. na podst. wykładu dra T. Suchockiego 2012 SAS PROCEDURA REG - WYNIKI The REG Procedure Model: MODEL1 Dependent Variable: ztl Observations Read Observations Used Informacje o modelu, specyfikacja zmiennej zależnej 10 10 Liczba obserwacji Podział zmienności w równaniu regresji → test F Analysis of Variance Source DF Sum of Squares Model Error Cor. Total 1 8 9 54.31566 7.78434 62.10000 Root MSE Dependent Mean Coeff Var Mean Square 54.31566 0.97304 0.98643 26.30000 3.75068 F Value R-Square Adj R-Sq Pr > F 55.82 <.0001 0.8746 0.8590 Oprac. na podst. wykładu dra T. Suchockiego 2012 SAS PROCEDURA REG - WYNIKI The REG Procedure Model: MODEL1 Dependent Variable: ztl Observations Read Observations Used N 2 y y ˆi i 1 N 1 F 10 10 2 y y ˆi i i 1 Analysis of Variance Source DF Sum of Squares Model Error Cor. Total 1 8 9 54.31566 7.78434 62.10000 Root MSE Dependent Mean Coeff Var N N N Mean Square 54.31566 0.97304 F Value Pr > F 55.82 <.0001 p-value 0.98643 26.30000 3.75068 R-Square Adj R-Sq 0.8746 0.8590 Oprac. na podst. wykładu dra T. Suchockiego 2012 SAS PROCEDURA REG - WYNIKI Parameter Estimates Variable Intercept masac estymatory parametrów Parameter Standard DF Estimate Error 1 1 11.57096 0.18550 1.99594 0.02483 odchylenie standardowe estymatora t zaw tluszczu 11.57 0.19masa_ciała ˆ 2ˆ t Value Pr>|t| 5.80 7.47 0.0004 <.0001 p-value, prawdopodobień stwo odrzucenia prawdziwej H0 y 11,57 0,19 x Oprac. na podst. wykładu dra T. Suchockiego 2012 INFORMATYKA W SELEKCJI Narzędzia informatyczne do oceny korelacji i regresji R funkcja lm – regresja liniowa otwarcie pliku # czytanie danych dane<read.table("g:/informatykawselekcji/lectures/tluszcz. txt",dec=".",col.names=c('masa','ztl')) dane wypisanie zawartości pliku na ekran # funkcja regresji liniowej r <- lm(ztl~masa, data=dane) summary(r) regresja liniowa wyniki # wykres równania regresji plot(dane) abline(r) wykres danych i prostej regresji Oprac. na podst. wykładu dra T. Suchockiego 2012 R funkcja lm - WYNIKI Coefficients: Estimate (Intercept) 11.57096 masa 0.18550 estymatory parametrów Std.Error t value Pr(>|t|) 1.99594 5.797 0.000406 *** 0.02483 7.471 7.12e-05 *** odchylenie standardowe t tluszcz 11.57 0.19masa_ciała ˆ 2ˆ y 11,57 0,19 x Oprac. na podst. wykładu dra T. Suchockiego 2012 R funkcja lm - WYNIKI N 2 ˆ y y i i Multiple R-squared: 0.8746 i 1 N 2 yi y i 1 F-statistic: 55.82 on 1 and 8 DF, N yˆ i y p-value: 7.119e-05 2 i 1 F wartość testu F N 1 N yˆ i 2 yi i 1 N N Oprac. na podst. wykładu dra T. Suchockiego 2012 INFORMATYKA W SELEKCJI Narzędzia informatyczne do oceny korelacji i regresji EXCEL Korelacja liniowa – funkcje PEARSON, WSP. KORELACJI Regresja prosta – funkcje REGLINP, NACHYLENIE Obliczenia oraz analiza statystyczna korelacji i regresji dostępne są w dodatku: ANALIZA DANYCH PREZENTACJA obliczeń w Excelu oraz zadania do samodzielnego wykonania za chwilę na ćwiczeniach – ZAPRASZAM!