1. Badanie współzaleŜności dwóch cech ilościowych X i Y – analiza

Transkrypt

1. Badanie współzaleŜności dwóch cech ilościowych X i Y – analiza
Temat
1. Badanie współzaleŜności dwóch
cech ilościowych X i Y – analiza
korelacji prostej
2. Badanie zaleŜności cech
ilościowych – cechy Y od cechy X –
analiza regresji prostej liniowej
Anna Rajfura
1
Idea opisu współzaleŜności cech
Przykład. Z dziesięciu poletek doświadczalnych zebrano
plony bulw ziemniaczanych (cecha X) i oznaczono w nich
procentową zawartość skrobi (cecha Y). Wyniki zestawiono
w tabeli:
plon xi (kg)
20
21
22
23
22
25
30
27
24
26
zawartość skrobi yi (%) 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
wyniki
z pierwszego
poletka
wyniki
z drugiego
poletka
Czy te wyniki wskazują na występowanie
współzaleŜności między cechami X, Y?
Tworzenie wykresu.
Anna Rajfura
2
Diagram korelacyjny
zawartość skrobi
wyniki z pierwszego
poletka
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
Interpretacja bieŜącego diagramu korelacyjnego.
Anna Rajfura
3
Korelacja cech ilościowych
X, Y – cechy ilościowe obserwowane w doświadczeniu,
n – liczba jednostek doświadczalnych,
Wyniki doświadczenia:
wartości cechy X: x 1
x2
x3
...
xn
wartości cechy Y: y 1
y2
y3
...
yn
wyniki dla pierwszej
jednostki doświadczalnej
Anna Rajfura
wyniki dla n-tej jednostki
doświadczalnej
4
Kierunek korelacji
Diagram korelacyjny 1
wartości
cechy Y
y1
x1
wartości cechy X
Cechy X, Y są ujemnie skorelowane
Anna Rajfura
5
Kierunek korelacji cd.
Diagram korelacyjny 2
wartości
cechy Y
wartości cechy X
Cechy X, Y są dodatnio skorelowane
Anna Rajfura
6
Siła korelacji
Diagram korelacyjny 3
Y
Diagram korelacyjny 4
Y
X
X
Cechy X, Y są silnie
skorelowane
Cechy X, Y są słabo
skorelowane
Wyjaśnienie na tablicy.
Anna Rajfura
7
Brak korelacji
Diagram korelacyjny 5
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
Anna Rajfura
8
Prezentacja braku korelacji cd.
Diagram korelacyjny 6
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
Anna Rajfura
9
Problem
Jak wykryć (opisać) współzaleŜność pomiędzy
cechami za pomocą parametru liczbowego?
Anna Rajfura
10
Przykłady teoretyczne
Doświadczenie losowe D - dwukrotny rzut monetą.
Czy zmienne losowe w poszczególnych przykładach są
niezaleŜne czy zaleŜne?
Opis na tablicy.
Przykład 1. zmienna
zmienna
Przykład 2. zmienna
zmienna
Przykład 3. zmienna
zmienna
Przykład 4. zmienna
X 1:
X2:
X 3:
X4:
X 1:
X5:
liczba orłów w obu rzutach
(liczba orłów w obu rzutach )·2
losowa X 1 :
zmienna losowa X 6 :
liczba orłów w obu rzutach
(liczba orłów w obu rzutach) 2
losowa
losowa
losowa
losowa
losowa
losowa
liczba orłów w pierwszym rzucie
liczba orłów w drugim rzucie
liczba orłów w obu rzutach
(liczba orłów w obu rzutach )·(-1)
Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi
losowymi, kiedy znane są tylko ich rozkłady?
Anna Rajfura
11
Kowariancja
WspółzaleŜność między zmiennymi losowymi X
i Y opisuje parametr kowariancja
ozn.:
COV ( X, Y )
Definicja
COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] =
= E ( X·Y) – ( EX ) · ( EY )
Obliczanie kowariancji w przykładach 1 – 4.
Anna Rajfura
12
Kowariancja - przykłady
Doświadczenie losowe D -dwukrotny rzut monetą.
Czy zmienne losowe w poszczególnych przykładach są
niezaleŜne czy zaleŜne - odp. na podstawie wartości
kowariancji:
Odp.
intuicyjna
P 1. zm.
zm.
P 2. zm.
zm.
P 3. zm.
zm.
P 4. zm.
zm.
Anna Rajfura
los.
los.
los.
los.
los.
los.
los.
los.
X1:
X2:
X3:
X4:
X1:
X5:
X 1:
X6:
Kowariancja
l. orłów
zaleŜne
COV(X1, X2)=1
(l. orłów)·2
l. orłów w pierwszym rzucie
niezaleŜne COV(X3, X4)=0
l. orłów w drugim rzucie
l. orłów
zaleŜne
COV(X1, X5)=-0,5
(l. orłów)·(-1)
l. orłów
zaleŜne
COV(X1, X6)=1
(l. orłów) 2
13
Współczynnik korelacji
Kowariancja jest wielkością mianowaną,
dlatego jako miarę współzaleŜności liniowej
dwóch zmiennych losowych X i Y przyjmuje
się bezwymiarowy wskaźnik nazywany
współczynnikiem korelacji liniowej Pearsona
i oznaczany grecką literą ρ (czyt.: rho):
COV ( X , Y )
ρ=
DX ⋅ DY
Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi:
ρ ∈ − 1, 1
Anna Rajfura
14
Współczynnik korelacji – przykłady
Obliczanie współczynnika korelacji w przykładach 1 – 4.
Doświadczenie losowe D - dwukrotny rzut monetą
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne
czy zaleŜne – odp. na podstawie współczynnika korelacji:
P 1. X 1 : l. orłów
X 2 : (l. orłów)·2
P 2. X 3 : l. orłów w pierwszym rz.
X 4 : l. orłów w drugim rz.
P 3. X 1 : l. orłów
X 5 : (l. orłów)·(-1)
P 4. X 1 : l. orłów
X 6 : (l. orłów)
Anna Rajfura
2
Odp.
intuicyjna
Kowariancja
Współcz.
korelacji ρ
zaleŜne
COV(X1, X2)=1
ρ1 = 1
niezaleŜne
COV(X3, X4)=0
ρ2 = 0
zaleŜne
COV(X1, X5)=-0,5
ρ3 = -1
zaleŜne
COV(X1, X6)=1
ρ4 ≈ 0,94
15
Uwagi i terminologia
1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je
skorelowanymi.
2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy
współczynnik korelacji ρ:
• jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być zaleŜne
nieliniowo!),
• jeśli | ρ | = 1, to zmienne losowe są całkowicie skorelowane
(zaleŜne liniowo),
o jeśli ρ = 1, to są skorelowane dodatnio,
o jeśli ρ = - 1, to są skorelowane ujemnie.
3. Współczynnik korelacji ρ słuŜy do opisywania siły korelacji:
• jeśli ρ ≈ 0, to zmienne są słabo skorelowane,
• jeśli | ρ | ≈ 1, to zmienne są silnie skorelowane.
Diagram na tablicy.
Anna Rajfura
16
Idea
Jak wykryć (opisać) współzaleŜność pomiędzy
cechami?
Anna Rajfura
17
Opis współzaleŜności
• Rozpatrujemy cechy X oraz Y; przyjmujemy, Ŝe dla
zmiennych losowych X, Y zachodzi ρ =
COV ( X , Y )
, wartość
DX ⋅ DY
parametru ρ jest nieznana;
• Losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... , ( xn, yn);
• Oceniamy nieznany współczynnik korelacji ρ na podstawie
próby:
ρ̂ = r
(współczynnik r jest oceną parametru teoretycznego ρ)
Anna Rajfura
18
Opis współzaleŜności cd.
Obliczamy współczynnik korelacji r dla próby według wzoru:
n
n
r=
∑ (x − x ) ⋅ ( y − y )
i
i =1
n
i
∑ (x − x )
i =1
2
i
⋅
n
∑ (y − y)
=
2
i
i =1
∑x ⋅y
i =1
n
i
∑ (x − x )
i =1
2
i
i
− n⋅ x ⋅ y
⋅
n
∑ (y − y)
i =1
2
i
RównowaŜny zapis licznika:
n
∑ (x − x ) ⋅ ( y
i =1
Anna Rajfura
i
i
n
− y ) = ∑ xi ⋅ yi − n ⋅ x ⋅ y
i =1
19
Opis współzaleŜności cd.
Oznaczenia upraszczające zapis wzoru:
n
SS x = ∑ (xi − x )
n
2
i =1
,
SS y = ∑ ( yi − y )
i =1
2
,
n
S xy = ∑ (xi − x ) ⋅ ( yi − y )
i =1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X,
SSy – suma kwadratów odchyleń dla cechy Y,
Sxy – suma iloczynów odchyleń dla cech X, Y.
Anna Rajfura
20
Opis współzaleŜności cd.
Uproszczony zapis wzoru na współczynnik korelacji liniowej
Pearsona dla próby:
n
r=
∑x ⋅ y
i =1
n
∑ (x
i =1
Anna Rajfura
i
i
i
−n⋅x ⋅ y
− x) ⋅
2
n
∑(y
i =1
− y)
2
i
=
S xy
SS x ⋅ SS y
21
Testowanie współzaleŜności
Czy korelacja między cechami X, Y jest
znacząca (istotna)?
Jeśli cechy X oraz Y mają rozkład normalny, moŜna weryfikować
hipotezę dotyczącą korelacji:
Hipoteza o braku
korelacji
H0 : ρ = 0
Anna Rajfura
Hipoteza
alternatywna:
H1 : ρ ≠ 0
22
Testowanie współzaleŜności cd.
• wybieramy poziom istotności α,
• losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ..., ( xn, yn),
• obliczamy współczynnik korelacji r dla próby według wzoru:
r=
Anna Rajfura
S xy
SS x ⋅ SS y
23
Test r
• stosujemy test r:
wartość empiryczna funkcji testowej
remp = r,
• odczytujemy wartość krytyczną r α , v = n -2 ,
• jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym
przypadku H0 nie moŜna odrzucić.
Anna Rajfura
24
Test t
MoŜna zastosować teŜ test t-Studenta:
• wartość empiryczna funkcji testowej wyraŜona jest wzorem
temp =
r
1− r2
⋅ n−2
,
• odczytujemy wartość krytyczną t α , v = n -2 ,
• jeŜeli | temp | > t α , v = n – 2, to H0 odrzucamy, w przeciwnym
przypadku H0 nie moŜna odrzucić.
Anna Rajfura
25
Przykład
Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X)
i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono
w tabeli:
plon xi
20
21
22
23
22
25
30
27
24
26
zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny
zawartość skrobi (%)
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
Anna Rajfura
26
Przykład cd.
Przyjmujemy, Ŝe:
1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne,
oraz
2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość
jest nieznana.
• Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze
wzoru:
r=
Anna Rajfura
S xy
SS x ⋅ SS y
,
27
Przykład cd.
x = 24 kg , y = 16,7% , SS x = 84 , SS y = 0,68 , S xy = −6,8
r = - 0,90,
Czy korelacja między cechami X, Y jest
znacząca (istotna)?
Anna Rajfura
28
Przykład cd.
• stawiamy hipotezę o braku korelacji:
H0 : ρ = 0 ,
H1 : ρ ≠ 0 ,
• wybieramy poziom istotności α = 0,05,
• stosujemy test r; wzór funkcji testowej:
remp = r
gdzie:
r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby;
w przykładzie r = - 0,9, zatem remp = - 0,9,
• odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632,
• poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy.
Stwierdzamy statystycznie istotną korelację między plonem bulw
ziemniaczanych a zawartością skrobi.
Anna Rajfura
29
Przykład cd.
Zastosowanie testu t-Studenta:
•
temp =
r
1− r
2
⋅ n−2 =
− 0,9
1 − (− 0,9)
2
⋅ 10 − 2 = −5,84
,
• odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31,
• poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy.
Anna Rajfura
30
Badanie zaleŜności cechy Y od X
Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X)
i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli:
plon xi
20 21 22 23 22 25 30 27 24 26
zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny
Analiza korelacji przeprowadzona
przy poziomie istotności 0,05
wykazała istotną korelację między
plonem bulw a zawartością skrobi.
Wyznaczono współczynnik
korelacji Pearsona r = -0,90.
Plon bulw i zawartość skrobi są
ujemnie skorelowane.
zawartość skrobi (%)
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)...
Anna Rajfura
31
Oznaczenia i terminologia
Opis zaleŜności cechy Y od cechy X
(regresji cechy Y względem cechy X)
cecha X : objaśniająca, opisująca, niezaleŜna
cecha Y : objaśniana, opisywana, zaleŜna
Postać funkcji regresji II rodzaju: g (x) = β1 · x + β0
lub
g (x) = β · x + α
β1 – współczynnik regresji,
β0 – stała regresji
Statgraphics: Linear model: Y = a + b · X
b – współczynnik regresji (ang. slope),
a – stała regresji (ang. intercept)
Anna Rajfura
32
Opis zaleŜności cechy Y od X
X, Y – cechy obserwowane w doświadczeniu, Y~N
n – liczba jednostek doświadczalnych,
Próba:
wartości cechy X:
wartości cechy Y:
x1
y1
x2
y2
x3
y3
...
...
xn
yn
Diagram korelacyjny:
cecha Y
βˆ1 = b1 , βˆ 0 = b0
prosta regresji
równanie prostej regresji:
y = b1x + b 0,
b1 - współczynnik regresji,
cecha X
Anna Rajfura
b0 - stała regresji.
33
Prosta regresji
Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów (MNK):
Komentarz...
równanie prostej regresji:
cecha Y
y = b1x + b 0,
b1 =?
y(xi)
y( xi ) = b1xi + b0,
ei
yi
ei = y( xi ) – yi
n
xi
Anna Rajfura
b 0 =?
cecha X
∑ e i → min
2
i =1
34
Prosta regresji cd.
Estymatory uzyskane metodą najmniejszych kwadratów:
n
b1 =
∑ (x
i =1
i
n
− x ) ⋅ ( yi − y )
2
(
)
x
−
x
∑ i
b0 = y − b1 ⋅ x
i =1
Anna Rajfura
35
Prosta regresji cd.
Oznaczenia upraszczające zapis wzoru:
n
n
2
(
)
SS x = ∑ xi − x
i =1
,
SS y = ∑ ( yi − y )
i =1
2
,
n
S xy = ∑ (xi − x ) ⋅ ( yi − y )
i =1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X,
SSy – suma kwadratów odchyleń dla cechy Y,
Sxy – suma iloczynów odchyleń dla cech X, Y.
Estymatory uzyskane metodą najmniejszych kwadratów:
b1 =
S xy
SS x
,
b0 = y − b1 ⋅ x
Interpretacja współczynnika regresji b1...
Anna Rajfura
36
Test t
Czy badana zaleŜność jest znacząca (istotna)?
• Stawiamy hipotezę:
H0: β = 0 ,
(hipoteza o braku regresji)
• poziom istotności α,
• test t Studenta:
t emp
b1
=
sb
,
gdzie
sb =
H1: β
≠ 0
SS y − b1 ⋅ S xy
(n − 2) ⋅ SS x
t kryt = t α , v=n −2
WNIOSKOWANIE
Jeśli | temp | > t
odrzucić.
Anna Rajfura
kryt
to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna
37
Test F
test F:
Femp =
b1 ⋅ S xy ⋅ (n − 2)
SS y − b1S xy
Fkryt = Fα , v1 =1,v 2 =n −2
WNIOSKOWANIE
Jeśli Femp > F kryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura
38
Przykład
W przykładzie: n=10, x = 24 kg , y = 16,7% , SSx = 84, SSy = 0,68, Sxy = -6,8.
Wyznaczamy równanie prostej regresji:
− 6 ,8
b1 =
=
= −0 ,081
,
SS x
84
S xy
b0 = y − b1 ⋅ x = 16 ,7 − ( −0 ,081) ⋅ 24 = 18,64
prosta regresji: y = 18,64 – 0,081x
Anna Rajfura
39
Przykład cd.
Badamy istotność regresji (zaleŜności)
H0: β = 0 (hipoteza o braku regresji),
H1: β
≠ 0,
poziom istotności α = 0,05
test t:
sb =
t emp =
SS y − b1 ⋅ S xy
0,68 − (−0,081) ⋅ (−6,8)
0,1292
=
=
= 0,014
,
(n − 2) ⋅ SS x
(10 − 2) ⋅ 84
672
b1 − 0 ,081
=
= −5,79
,
sb
0 ,014
t kryt = t 0, 05, 8 = 2,31
WNIOSKOWANIE
|temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy.
Stwierdzamy statystycznie istotną zaleŜność zawartości skrobi od plonu bulw
ziemniaka.
Anna Rajfura
40
Przykład cd.
test F:
Femp =
b1 ⋅ S xy ⋅ (n − 2)
SS y − b1S xy
(−0,081) ⋅ (−6,8) ⋅ (10 - 2) 4,4064
=
=
= 34,11
0,68 − (−0,081) ⋅ (−6,8)
0 ,1292
Femp = 34,11
Fkryt = F0, 05, 1, 8 = 5,32
WNIOSKOWANIE
Jeśli Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy.
Anna Rajfura
41
Analiza zaleŜności cechy Y od X cd.
Independent variable: plon
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
18,6429
0,335618
55,5478
0,0000
Slope
-0,0809524
0,0138832
-5,83095
0,0004
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
0,550476
1
0,550476
34,00
0,0004
Residual
0,129524
8
0,0161905
----------------------------------------------------------------------------Total (Corr.)
0,68
9
Correlation Coefficient = -0,899735
R-squared = 80,9524 percent
Standard Error of Est. = 0,127242
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between skrobia and plon. The equation of the fitted
model is
skrobia = 18,6429 - 0,0809524*plon
Anna Rajfura
42
Analiza zaleŜności cechy Y od X cd.
Plot of Fitted Model
17,1
skrobia
16,9
16,7
16,5
16,3
20
22
24
26
28
30
plon
Anna Rajfura
43
Interpretacja
Interpretacja współczynnika regresji b1
prosta regresji
y = b 0 + b1x
Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach cechy X), to wartość
cechy Y zmieni się o | b1 | jednostek (w jednostkach cechy Y), a dokładniej.:
• wzrośnie, gdy b1 > 0;
• zmaleje, gdy b1 < 0.
Interpretacja współczynnika regresji b1 w przykładzie:
prosta regresji y = 18,64 – 0,081x, b1 = -0, 08.
Jeśli plon z bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się
o 0,08%.
Anna Rajfura
44
Interpretacja cd.
Współczynnik determinacji d
2
d = r · 100%,
r – współczynnik korelacji
Interpretacja współczynnika determinacji
współczynnik d przedstawia część zmienności
cechy Y objaśnionej (wytłumaczonej)
zmiennością cechy X.
Obliczanie i interpretacja współczynnika determinacji d w przykładzie:
r = - 0,9, to d = 0,81· 100% = 81%
W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu,
natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością
plonu.
Anna Rajfura
45
Analiza zaleŜności cechy Y od X cd.
Współczynnik determinacji d:
Independent variable: plon
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
18,6429
0,335618
55,5478
0,0000
Slope
-0,0809524
0,0138832
-5,83095
0,0004
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
0,550476
1
0,550476
34,00
0,0004
Residual
0,129524
8
0,0161905
----------------------------------------------------------------------------Total (Corr.)
0,68
9
Correlation Coefficient = -0,899735
R-squared = 80,9524 percent
Standard Error of Est. = 0,127242
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between skrobia and plon. The equation of the fitted
model is
skrobia = 18,6429 - 0,0809524*plon
Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej. Wykorzystanie prostej regresji.
Anna Rajfura
46

Podobne dokumenty