suma
Transkrypt
suma
GENETYKA POPULACJI Ćwiczenia 6 Biologia, I MGR Powrót do przeszłości - statystyka Badanie związków między cechami Analiza dwuwymiarowa: 1 cecha: staż pracy 2 cecha: wysokość wynagrodzenia Wynik analizy: pracownicy z dłuższym stażem pracy zarabiają więcej Analiza wielowymiarowa 1 cecha: staż pracy 2 cecha: płeć 3 cecha: wykształcenie 4 cecha: wysokość wynagrodzenia Wynik analizy: wysokość wynagrodzenia ma również związek z płcią i wykształceniem Badanie współzależności między cechami: analiza korelacji MA SENS JEŚLI MIĘDZY CECHAMI ISTNIEJE WIĘŹ PRZYCZYNOWO – SKUTKOWA DAJĄCA SIĘ LOGICZNIE WYTŁUMACZYĆ Badanie współzależności między cechami – analiza korelacji Czy między badanymi cechami istnieje współzależność (tak, nie) Jaki jest kształt zależności (liniowa, nieliniowa) (czy związek między cechami jest liniowy, tzn. czy płaca zmienia się proporcjonalnie do stażu pracy czy nieproporcjonalnie) Jaka jest siła zależności (czy związek między stażem pracy a wynagrodzeniem jest wyraźny) Jaki jest kierunek zależności (czy osoby z dłuższym stażem pracy zarabiają więcej, czy mniej) Czy istnieje współzależność między cechami i jaka jest jej siła oraz kierunek o ANALIZA KORELACJI Dokładne opisanie zależności między cechami za pomocą konkretnej funkcji matematycznej (znalezienie modelu matematycznego) o ANALIZA REGRESJI Szereg korelacyjny Na dane w szeregu patrzymy jak na pary liczb (x,y). Czy istnieje zależność pomiędzy wiekiem mężczyzn a wiekiem kobiet? TAK / NIE WIEK ŻONY wartość cechy x (niezależnej) WIEK MĘŻA wartość cechy y (zależnej) 19 19 20 24 21 22 23 23 24 26 27 26 28 30 30 34 33 32 35 37 Szereg korelacyjny Jeśli wiek żony jest wyższy to (na ogół) wiek męża też jest wyższy. Podejrzenie, że między cechami jest współzależność (korelacja). WIEK ŻONY wartość cechy x (niezależnej) WIEK MĘŻA wartość cechy y (zależnej) 19 19 20 24 21 22 23 23 24 26 27 26 28 30 30 34 33 32 35 37 Diagram korelacyjny – kształt zależności Wiek kobiet i mężczyzn (w latach) w 10 parach zawierających związek małżeński 40 wiek 35 mężczyzn 30 Korelacja liniowa 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 Korelacja krzywoliniowa wiek kobiet Źródło: ‘Statistics for the Life Sciences ‘4th edition, Samules i wsp., 2012 Diagram korelacyjny – siła zależności zależność silna Wiek kobiet i mężczyzn (w latach) w 10 parach zawierających związek małżeński 40 wiek 35 mężczyzn 30 zależność umiarkowana 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 zależność słaba wiek kobiet Źródło: ‘Statistics for the Life Sciences ‘4th edition, Samules i wsp., 2012 brak zależności Diagram korelacyjny – kierunek zależności Wiek kobiet i mężczyzn (w latach) w 10 parach zawierających związek małżeński 40 wiek 35 mężczyzn 30 korelacja dodatnia 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 korelacja ujemna wiek kobiet Źródło: ‘Statistics for the Life Sciences ‘4th edition, Samules i wsp., 2012 Współczynnik korelacji liniowej r Pearsona służy do pomiaru zależności cech ilościowych w przypadku gdy związek między dwiema cechami ma charakter liniowy 14 12 10 8 y 6 4 2 0 0 2 4 6 8 10 12 14 Współczynnik korelacji liniowej r Pearsona miara symetryczna (nie ma znaczenia, czy badamy zależność x od y, czy y od x – wynik jest taki sam) wynik jest liczbą z przedziału [-1;1] r=0 (brak związku liniowego) r=0 (istnieje związek liniowy) znak współczynnika korelacji wskazuje jej kierunek r>0 (korelacja dodatnia) r<0 (korelacja ujemna) Siła Kierunek Jeśli r… to związek zależność silna r=1 – zależność korelacyjna przechodzi w zależność funkcyjną 0,8-1,0 – bardzo silny korelacja dodatnia zależność umiarkowana 0,6-0,8 – silny 0,4-0,6 – umiarkowany korelacja ujemna zależność słaba 0,2-0,4 – słaby 0,0-0,2 – bardzo słaby r>0 (korelacja dodatnia) r<0 (korelacja ujemna) brak zależności Zadanie Oblicz współczynnik korelacji wielkości miotu między pierwszym i drugim miotem, opierając się na następujących danych dotyczących 10 samic myszy. Cov( x, y ) rˆ Var ( x) *Var ( y ) x 8 9 9 10 10 10 11 11 13 13 y 6 8 12 10 12 12 9 10 12 12 x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x miot 1 8 9 9 10 10 10 11 11 13 13 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) odchylenia kwadrat odchylenia kwadrat x odchyleń y odchyleń miot 2 od średniej x od średniej y 6 8 12 10 12 12 9 10 12 12 średnia: średnia: 10,4 10,3 iloczyn odchyleń (x,y) -2,4 -1,4 -1,4 -0,4 -0,4 -0,4 0,6 0,6 2,6 2,6 5,76 1,96 1,96 0,16 0,16 0,16 0,36 0,36 6,76 6,76 -4,3 -2,3 1,7 -0,3 1,7 1,7 -1,3 -0,3 1,7 1,7 18,49 5,29 2,89 0,09 2,89 2,89 1,69 0,09 2,89 2,89 10,32 3,22 -2,38 0,12 -0,68 -0,68 -0,78 -0,18 4,42 4,42 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 iloczyn _ odchyleń( x, y ) Cov( x, y ) suma _ obserw. rˆ rˆ Var ( x) *Var ( y ) odchylenie _ st.x * odchylenie _ st. y x y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) miot 1 miot 2 odchylenia x od średniej kwadrat odchyleń x odchylenia y od średniej kwadrat odchyleń y iloczyn odchyleń (x,y) 8 (…) 13 6 (…) 12 -2,4 5,76 -4,3 18,49 10,32 (…) (…) (…) (…) (…) 2,6 6,76 1,7 2,89 4,42 średnia: 10,4 średnia: 10,3 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 Cov( x, y ) rˆ Var ( x) *Var ( y ) iloczyn _ odchyleń( x, y ) suma _ obserw. rˆ odchylenie _ st.x * odchylenie _ st. y =1,78 x y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) miot 1 miot 2 odchylenia x od średniej kwadrat odchyleń x odchylenia y od średniej kwadrat odchyleń y iloczyn odchyleń (x,y) 8 (…) 13 6 (…) 12 -2,4 5,76 -4,3 18,49 10,32 (…) (…) (…) (…) (…) 2,6 6,76 1,7 2,89 4,42 średnia: 10,4 średnia: 10,3 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 Obl. odchylenia standardowe x i y: sx 2 ( x x ) śr n sx 2,44 1,56 sy 2 ( y y ) śr n s y 4,01 2,00 y x-xśr. (x-xśr.)^2 y-yśr. (y-yśr.)^2 (x-xśr.)(y-yśr.) miot 1 miot 2 odchylenia x od średniej kwadrat odchyleń x odchylenia y od średniej kwadrat odchyleń y iloczyn odchyleń (x,y) 8 (…) 13 6 (…) 12 -2,4 5,76 -4,3 18,49 10,32 (…) (…) (…) (…) (…) 2,6 6,76 1,7 2,89 4,42 średnia: 10,4 średnia: 10,3 suma: suma: suma: suma: suma: ok. 0 24,4 ok.. 0 40,1 17,8 Cov( x, y ) rˆ Var ( x) *Var ( y ) 1,78 rˆ 0,57 1,56 * 2,00 14 12 wielkość drugiego miotu x 10 8 6 4 2 0 0 2 4 6 8 wielkość pierwszego miotu 10 12 14 Zadanie W parach liczb (x,y) pokazanych niżej, x to wzrost ojca w wieku dorosłym, y to wzrost jego syna w wieku dorosłym. Na podstawie danych oblicz wsp. regresji wzrostu syna względem wzrostu ojca, a także odziedziczalność w wąskim sensie dla cechy wzrostu w tej populacji. WZROST OJCA (cm) wartość cechy x (niezależnej) WZROST SYNA (cm) wartość cechy y (zależnej) 172 178 178 180 177 187 194 190 185 153 174 183 171 176 181 186 186 181 178 172 179 178 173 174 Diagram korelacyjny Wykres rozrzutu wzrostu syna względem wzrostu ojca 200 180 160 140 120 100 80 60 40 20 0 165 170 175 180 185 190 195 200 WZROST OJCA (cm) wartość cechy x (niezależnej) WZROST SYNA (cm) wartość cechy y (zależnej) 172 178 178 180 177 187 194 190 185 153 174 183 171 176 181 186 186 181 178 172 179 178 173 174 Równanie liniowej funkcji regresji y a bx y – teoretyczne wartości cechy y dla danego x x - zaobserwowane (rzeczywiste) wartości cechy x a – wyraz wolny w równaniu regresji b – współczynnik regresji liniowej cechy y względem cechy x Współczynnik regresji liniowej cov( x, y ) b 2 sx b – współczynnik regresji liniowej cov(x,y) – kowariancja cech x i y będąca miarą łącznego zróżnicowania obu cech sx2 – wariancja cechy x =0,14 Odziedziczalność Odziedziczalność w wąskim sensie h2 jest stosunkiem addytywnej wariancji genetycznej do całkowitej wariancji fenotypowej, natomiast odziedziczalność w szerokim sensie H2 jest stosunkiem wariancji genotypowej do całkowitej wariancji fenotypowej. P G GE E A D I GE E p Et A E A,D,I – addytywna, dominacyjna, interakcyjna (epistatyczna) część wartości genotypowej E – efekt środowiska (GE) – interakcja genotyp środowisko Cecha ilościowa Wartość fenotypowa P P G GE E A D I GE E p Et A E A,D,I – addytywna, dominacyjna, interakcyjna (epistatyczna) część wartości genotypowej E – efekt środowiska (GE) – interakcja genotyp środowisko Odziedziczalność w wąskim sensie potomstwa (syna) względem jednego z rodziców (ojca) 1 2 b h 2 h 2b 2 Wykres rozrzutu wzrostu syna względem wzrostu ojca 200 180 160 140 120 100 80 60 40 20 0 165 170 175 180 185 190 195 200 Na podstawie: Hartl D.L., A.G. Clark: Podstawy genetyki populacyjnej. Wyd. UW, 2009 Wasilewska E.: Statystyka opisowa od podstaw. Podręcznik z zadaniami, Wyd. SGGW, Wyd. II, rozszerzone, 2011