suma

Transkrypt

suma
GENETYKA POPULACJI
Ćwiczenia 6
Biologia,
I MGR
Powrót do przeszłości - statystyka
Badanie związków między cechami
 Analiza dwuwymiarowa:
1 cecha: staż pracy
2 cecha: wysokość wynagrodzenia
 Wynik analizy: pracownicy z dłuższym stażem pracy zarabiają
więcej
 Analiza wielowymiarowa
1 cecha: staż pracy
2 cecha: płeć
3 cecha: wykształcenie
4 cecha: wysokość wynagrodzenia
 Wynik analizy: wysokość wynagrodzenia ma również związek
z płcią i wykształceniem
Badanie współzależności między cechami:
analiza korelacji
MA SENS JEŚLI MIĘDZY CECHAMI ISTNIEJE
WIĘŹ PRZYCZYNOWO – SKUTKOWA
DAJĄCA SIĘ LOGICZNIE WYTŁUMACZYĆ
Badanie współzależności między
cechami – analiza korelacji
 Czy między badanymi cechami istnieje współzależność
(tak, nie)
 Jaki jest kształt zależności (liniowa, nieliniowa)
(czy związek między cechami jest liniowy, tzn. czy płaca
zmienia się proporcjonalnie do stażu pracy czy
nieproporcjonalnie)
 Jaka jest siła zależności
(czy związek między stażem pracy a wynagrodzeniem jest
wyraźny)
 Jaki jest kierunek zależności
(czy osoby z dłuższym stażem pracy zarabiają więcej, czy
mniej)
 Czy istnieje współzależność między cechami
i jaka jest jej siła oraz kierunek
o ANALIZA KORELACJI
 Dokładne opisanie zależności między cechami
za pomocą konkretnej funkcji matematycznej
(znalezienie modelu matematycznego)
o ANALIZA REGRESJI
Szereg
korelacyjny
Na dane w szeregu
patrzymy jak na pary liczb
(x,y).
Czy istnieje zależność
pomiędzy wiekiem
mężczyzn
a wiekiem kobiet?
TAK / NIE
WIEK ŻONY
wartość cechy x
(niezależnej)
WIEK MĘŻA
wartość cechy y
(zależnej)
19
19
20
24
21
22
23
23
24
26
27
26
28
30
30
34
33
32
35
37
Szereg
korelacyjny
Jeśli wiek żony jest
wyższy to (na ogół)
wiek męża też jest
wyższy.
Podejrzenie, że między
cechami jest
współzależność
(korelacja).
WIEK ŻONY
wartość cechy x
(niezależnej)
WIEK MĘŻA
wartość cechy y
(zależnej)
19
19
20
24
21
22
23
23
24
26
27
26
28
30
30
34
33
32
35
37
Diagram korelacyjny
– kształt zależności
Wiek kobiet i mężczyzn (w latach)
w 10 parach zawierających związek małżeński
40
wiek 35
mężczyzn
30
Korelacja liniowa
25
20
15
10
5
0
0
5
10
15
20
25
30
35
40
Korelacja krzywoliniowa
wiek kobiet
Źródło: ‘Statistics for the Life Sciences
‘4th edition, Samules i wsp., 2012
Diagram korelacyjny
– siła zależności
zależność silna
Wiek kobiet i mężczyzn (w latach)
w 10 parach zawierających związek małżeński
40
wiek 35
mężczyzn
30
zależność umiarkowana
25
20
15
10
5
0
0
5
10
15
20
25
30
35
40
zależność słaba
wiek kobiet
Źródło: ‘Statistics for the Life Sciences
‘4th edition, Samules i wsp., 2012
brak zależności
Diagram korelacyjny
– kierunek zależności
Wiek kobiet i mężczyzn (w latach)
w 10 parach zawierających związek małżeński
40
wiek 35
mężczyzn
30
korelacja dodatnia
25
20
15
10
5
0
0
5
10
15
20
25
30
35
40
korelacja ujemna
wiek kobiet
Źródło: ‘Statistics for the Life Sciences
‘4th edition, Samules i wsp., 2012
Współczynnik korelacji liniowej
r Pearsona
 służy do pomiaru zależności cech ilościowych
w przypadku gdy związek między dwiema cechami ma
charakter liniowy
14
12
10
8
y
6
4
2
0
0
2
4
6
8
10
12
14
Współczynnik korelacji liniowej
r Pearsona
 miara symetryczna (nie ma znaczenia, czy badamy
zależność x od y, czy y od x – wynik jest taki sam)
 wynik jest liczbą z przedziału [-1;1]
 r=0 (brak związku liniowego)
 r=0 (istnieje związek liniowy)
 znak współczynnika korelacji wskazuje jej kierunek
 r>0 (korelacja dodatnia)
 r<0 (korelacja ujemna)
Siła
Kierunek
Jeśli r… to związek
zależność silna
r=1 – zależność
korelacyjna przechodzi
w zależność funkcyjną
0,8-1,0 – bardzo silny
korelacja dodatnia
zależność umiarkowana
0,6-0,8 – silny
0,4-0,6 – umiarkowany
korelacja ujemna
zależność słaba
0,2-0,4 – słaby
0,0-0,2 – bardzo słaby
r>0 (korelacja dodatnia)
r<0 (korelacja ujemna)
brak zależności
Zadanie
 Oblicz współczynnik korelacji
wielkości miotu między pierwszym
i drugim miotem, opierając się na
następujących danych dotyczących 10
samic myszy.
Cov( x, y )
rˆ 
Var ( x) *Var ( y )
x
8
9
9
10
10
10
11
11
13
13
y
6
8
12
10
12
12
9
10
12
12
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
miot 1
8
9
9
10
10
10
11
11
13
13
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2 (x-xśr.)(y-yśr.)
odchylenia kwadrat odchylenia kwadrat
x
odchyleń
y
odchyleń
miot 2
od średniej
x
od średniej
y
6
8
12
10
12
12
9
10
12
12
średnia: średnia:
10,4
10,3
iloczyn
odchyleń
(x,y)
-2,4
-1,4
-1,4
-0,4
-0,4
-0,4
0,6
0,6
2,6
2,6
5,76
1,96
1,96
0,16
0,16
0,16
0,36
0,36
6,76
6,76
-4,3
-2,3
1,7
-0,3
1,7
1,7
-1,3
-0,3
1,7
1,7
18,49
5,29
2,89
0,09
2,89
2,89
1,69
0,09
2,89
2,89
10,32
3,22
-2,38
0,12
-0,68
-0,68
-0,78
-0,18
4,42
4,42
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
iloczyn _ odchyleń( x, y )
Cov( x, y )
suma _ obserw.
rˆ 
rˆ 
Var ( x) *Var ( y )
odchylenie _ st.x * odchylenie _ st. y
x
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2
(x-xśr.)(y-yśr.)
miot 1
miot 2
odchylenia
x
od średniej
kwadrat
odchyleń
x
odchylenia
y
od średniej
kwadrat
odchyleń
y
iloczyn odchyleń
(x,y)
8
(…)
13
6
(…)
12
-2,4
5,76
-4,3
18,49
10,32
(…)
(…)
(…)
(…)
(…)
2,6
6,76
1,7
2,89
4,42
średnia:
10,4
średnia:
10,3
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
Cov( x, y )
rˆ 
Var ( x) *Var ( y )
iloczyn _ odchyleń( x, y )
suma _ obserw.
rˆ 
odchylenie _ st.x * odchylenie _ st. y
=1,78
x
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2
(x-xśr.)(y-yśr.)
miot 1
miot 2
odchylenia
x
od średniej
kwadrat
odchyleń
x
odchylenia
y
od średniej
kwadrat
odchyleń
y
iloczyn odchyleń
(x,y)
8
(…)
13
6
(…)
12
-2,4
5,76
-4,3
18,49
10,32
(…)
(…)
(…)
(…)
(…)
2,6
6,76
1,7
2,89
4,42
średnia:
10,4
średnia:
10,3
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
 Obl. odchylenia standardowe x i y:
sx 
2
(
x

x
)

śr
n
sx  2,44  1,56
sy 
2
(
y

y
)

śr
n
s y  4,01  2,00
y
x-xśr.
(x-xśr.)^2
y-yśr.
(y-yśr.)^2
(x-xśr.)(y-yśr.)
miot 1
miot 2
odchylenia
x
od średniej
kwadrat
odchyleń
x
odchylenia
y
od średniej
kwadrat
odchyleń
y
iloczyn odchyleń
(x,y)
8
(…)
13
6
(…)
12
-2,4
5,76
-4,3
18,49
10,32
(…)
(…)
(…)
(…)
(…)
2,6
6,76
1,7
2,89
4,42
średnia:
10,4
średnia:
10,3
suma:
suma:
suma:
suma:
suma:
ok. 0
24,4
ok.. 0
40,1
17,8
Cov( x, y )
rˆ 
Var ( x) *Var ( y )
1,78
rˆ 
 0,57
1,56 * 2,00
14
12
wielkość drugiego miotu
x
10
8
6
4
2
0
0
2
4
6
8
wielkość pierwszego miotu
10
12
14
Zadanie
W parach liczb (x,y)
pokazanych niżej,
x to wzrost ojca
w wieku dorosłym,
y to wzrost jego syna
w wieku dorosłym.
Na podstawie danych
oblicz wsp. regresji
wzrostu syna względem
wzrostu ojca, a także
odziedziczalność
w wąskim sensie dla
cechy wzrostu w tej
populacji.
WZROST OJCA (cm)
wartość cechy x
(niezależnej)
WZROST SYNA (cm)
wartość cechy y
(zależnej)
172
178
178
180
177
187
194
190
185
153
174
183
171
176
181
186
186
181
178
172
179
178
173
174
Diagram
korelacyjny
Wykres rozrzutu wzrostu syna
względem wzrostu ojca
200
180
160
140
120
100
80
60
40
20
0
165
170
175
180
185
190
195
200
WZROST OJCA
(cm)
wartość cechy x
(niezależnej)
WZROST SYNA
(cm)
wartość cechy y
(zależnej)
172
178
178
180
177
187
194
190
185
153
174
183
171
176
181
186
186
181
178
172
179
178
173
174
Równanie liniowej funkcji regresji
y  a  bx
y – teoretyczne wartości cechy y dla danego x
x - zaobserwowane (rzeczywiste) wartości cechy x
a – wyraz wolny w równaniu regresji
b – współczynnik regresji liniowej cechy y względem cechy x
Współczynnik regresji liniowej
cov( x, y )
b
2
sx
b – współczynnik regresji liniowej
cov(x,y) – kowariancja cech x i y będąca miarą łącznego
zróżnicowania obu cech
sx2 – wariancja cechy x
=0,14
Odziedziczalność
 Odziedziczalność w wąskim sensie h2 jest stosunkiem
addytywnej wariancji genetycznej do całkowitej
wariancji fenotypowej, natomiast odziedziczalność
w szerokim sensie H2 jest stosunkiem wariancji
genotypowej do całkowitej wariancji fenotypowej.
P  G  GE  E 
 A  D  I  GE  E p  Et 
 A  E
A,D,I – addytywna, dominacyjna, interakcyjna (epistatyczna) część wartości genotypowej
E – efekt środowiska
(GE) – interakcja genotyp środowisko
Cecha ilościowa
Wartość fenotypowa P
P  G  GE  E 
 A  D  I  GE  E p  Et 
 A  E
A,D,I – addytywna, dominacyjna, interakcyjna
(epistatyczna) część wartości genotypowej
E – efekt środowiska
(GE) – interakcja genotyp środowisko
Odziedziczalność w wąskim sensie
potomstwa (syna) względem jednego
z rodziców (ojca)
1 2
b h
2
h  2b
2
Wykres rozrzutu wzrostu syna
względem wzrostu ojca
200
180
160
140
120
100
80
60
40
20
0
165
170
175
180
185
190
195
200
Na podstawie:
 Hartl D.L., A.G. Clark: Podstawy genetyki populacyjnej. Wyd. UW, 2009
 Wasilewska E.: Statystyka opisowa od podstaw. Podręcznik z zadaniami,
Wyd. SGGW, Wyd. II, rozszerzone, 2011

Podobne dokumenty