wykład 12 korelacje

Transkrypt

wykład 12 korelacje
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
WYKŁAD 12
BADANIE WSPÓŁZALEśNOŚCI
DWÓCH CECH - ANALIZA KORELACJI PROSTEJ
Matematyka i statystyka matematyczna dla rolników w SGGW
Przykład.
Z
dziesięciu
Anna Rajfura, KDiB
poletek
doświadczalnych
zebrano
plony
bulw
ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi
(cecha Y). Wyniki zestawiono w tabeli:
plon xi (kg)
20
21
22
23
22
25
30
27
24
26
zawartość skrobi yi (%) 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
wyniki
z pierwszego
poletka
wyniki
z drugiego
poletka
Czy te wyniki wskazują na występowanie zaleŜności między cechami X, Y?
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Diagram korelacyjny
zawartość skrobi
wyniki z pierwszego
poletka
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
Interpretacja diagramu korelacyjnego...
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Idea opisu współzaleŜności (korelacji) cech
X, Y – cechy obserwowane w doświadczeniu,
n – liczba jednostek doświadczalnych,
Wyniki doświadczenia:
wartości cechy X:
x1
x2
x3
...
xn
wartości cechy Y:
y1
y2
y3
...
yn
wyniki dla pierwszej
jednostki doświadczalnej
wyniki dla drugiej
jednostki doświadczalnej
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Rozpoznawanie kierunku korelacji
Diagram korelacyjny 1
wartości
cechy Y
y1
x1
wartości cechy X
Cechy X, Y są ujemnie skorelowane
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Rozpoznawanie kierunku korelacji
Diagram korelacyjny 2
wartości
cechy Y
wartości cechy X
Cechy X, Y są dodatnio skorelowane
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Rozpoznawanie siły korelacji
Diagram korelacyjny 3
Diagram korelacyjny 4
Y
Y
X
Cechy X, Y są silnie skorelowane
Wyjaśnienie na tablicy...
X
Cechy X, Y są słabo skorelowane
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Rozpoznawanie braku korelacji
Diagram korelacyjny 5
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Rozpoznawanie braku korelacji
Diagram korelacyjny 6
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
Jak wykryć (opisać) współzaleŜność pomiędzy cechami za pomocą parametru liczbowego?
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Przykłady teoretyczne
D - doświadczenie losowe: dwukrotny rzut monetą
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne?
Przykład 1. zmienna losowa X 1 : liczba orłów
zmienna losowa X 2 : (liczba orłów)·2
Przykład 2. zmienna losowa X 3 : liczba orłów w pierwszym rzucie
zmienna losowa X 4 : liczba orłów w drugim rzucie
Przykład 3. zmienna losowa X 1 : liczba orłów
zmienna losowa X 5 : (liczba orłów)·(-1)
Przykład 4. zmienna losowa X 1 : liczba orłów
zmienna losowa X 6 : (liczba orłów) 2
Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi losowymi?
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
WspółzaleŜność między zmiennymi losowymi X i Y opisuje parametr
kowariancja, ozn.: COV ( X, Y ).
Definicja. COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] = E ( X·Y) – ( EX ) · ( EY )
Obliczanie kowariancji w przykładach 1 – 4 ...
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Przykłady teoretyczne cd.
D - doświadczenie losowe: dwukrotny rzut monetą
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne?
Odp.
intuicyjna
P 1. zm.
zm.
P 2. zm.
zm.
P 3. zm.
zm.
P 4. zm.
zm.
los.
los.
los.
los.
los.
los.
los.
los.
X1:
X2:
X3:
X4:
X1:
X5:
X 1:
X6:
Kowariancja
l. orłów
zaleŜne
COV(X1, X2)=1
(l. orłów)·2
l. orłów w pierwszym rzucie
niezaleŜne COV(X3, X4)=0
l. orłów w drugim rzucie
l. orłów
zaleŜne
COV(X1, X5)=-0,5
(l. orłów)·(-1)
l. orłów
zaleŜne
COV(X1, X6)=1
(l. orłów) 2
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Kowariancja jest wielkością mianowaną, dlatego jako miarę współzaleŜności
liniowej dwóch zmiennych losowych X i Y przyjmuje się bezwymiarowy wskaźnik
nazywany współczynnikiem korelacji liniowej Pearsona i oznaczany grecką literą
ρ (czyt.: rho):
ρ=
COV ( X , Y )
DX ⋅ DY
Twierdzenie. Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi:
ρ ∈ − 1, 1
Obliczanie współczynnika korelacji w przykładach 1 – 4 ...
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Przykłady teoretyczne cd.
D - doświadczenie losowe: dwukrotny rzut monetą
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne?
Odp.
Współcz.
Kowariancja
intuicyjna
korelacji ρ
P 1. X 1 : l. orłów
zaleŜne
COV(X1, X2)=1
ρ1 = 1
X 2 : (l. orłów)·2
P 2. X 3 : l. orłów w pierwszym rz.
X 4 : l. orłów w drugim rz.
P 3. X 1 : l. orłów
X 5 : (l. orłów)·(-1)
P 4. X 1 : l. orłów
X 6 : (l. orłów)
2
niezaleŜne
COV(X3, X4)=0
ρ2 = 0
zaleŜne
COV(X1, X5)=-0,5
ρ3 = -1
zaleŜne
COV(X1, X6)=1
ρ4 ≈ 0,94
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Uwagi i terminologia:
1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi.
2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy współczynnik korelacji ρ:
• jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być zaleŜne nieliniowo!),
• jeśli | ρ | = 1, to zmienne losowe są całkowicie skorelowane (zaleŜne liniowo),
o jeśli ρ = 1, to są skorelowane dodatnio,
o jeśli ρ = - 1, to są skorelowane ujemnie.
3. Współczynnik korelacji ρ słuŜy do opisywania siły korelacji:
≈ 0, to zmienne są słabo skorelowane,
• jeśli | ρ | ≈ 1, to zmienne są silnie skorelowane.
• jeśli ρ
Tu diagram...
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Jak wykryć (opisać) współzaleŜność pomiędzy cechami?
• Rozpatrujemy cechy X oraz Y; przyjmujemy, Ŝe dla zmiennych losowych X, Y
COV ( X , Y )
zachodzi ρ = DX ⋅ DY , wartość parametru ρ jest nieznana.
• Losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... , ( xn, yn),
• Oceniamy nieznany współczynnik korelacji ρ na podstawie próby:
ρ̂ = r
(współczynnik r jest oceną parametru teoretycznego ρ)
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
• Obliczamy współczynnik korelacji r dla próby według wzoru:
n
r=
n
∑ (x − x ) ⋅ ( y − y )
i =1
i
i
n
∑ (x − x )
i =1
2
i
n
=
∑ (y − y)
⋅
2
i
i =1
∑x ⋅y
i =1
n
∑ (x − x )
i =1
2
i
RównowaŜny zapis licznika:
n
∑ (x − x ) ⋅ ( y
i =1
i
n
i
− y ) = ∑ xi ⋅ yi − n ⋅ x ⋅ y
i =1
i
i
− n⋅ x ⋅ y
⋅
n
∑ (y − y)
i =1
2
i
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Oznaczenia upraszczające zapis wzoru:
n
SS x = ∑ (xi − x )
n
2
i =1
,
SS y = ∑ ( yi − y )
i =1
2
,
n
S xy = ∑ (xi − x ) ⋅ ( yi − y )
i =1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X,
SSy – suma kwadratów odchyleń dla cechy Y,
Sxy – suma iloczynów odchyleń dla cech X, Y.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby:
n
r=
∑x ⋅ y
i =1
n
∑ (x
i =1
i
i
i
−n⋅x ⋅ y
− x) ⋅
2
n
∑(y
i =1
− y)
2
i
=
S xy
SS x ⋅ SS y
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Czy korelacja między cechami X, Y jest znacząca (istotna)?
Jeśli ponadto cechy X oraz Y mają rozkład normalny, moŜna weryfikować
hipotezę dotyczącą korelacji:
Hipoteza o braku korelacji
Hipoteza alternatywna:
H0 : ρ = 0
H1 : ρ ≠ 0
• wybieramy poziom istotności α,
• losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ..., ( xn, yn),
• obliczamy współczynnik korelacji r dla próby według wzoru:
r=
S xy
SS x ⋅ SS y
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
• stosujemy test r: wartość empiryczna funkcji testowej remp = r,
• odczytujemy wartość krytyczną r α , v = n -2 ,
• jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie
moŜna odrzucić.
MoŜna zastosować teŜ test t-Studenta:
• wartość empiryczna funkcji testowej wyraŜona jest wzorem
temp =
r
1− r2
⋅ n−2
,
• odczytujemy wartość krytyczną t α , v = n -2 ,
• jeŜeli | temp | > t α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie
moŜna odrzucić.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw
ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi
(cecha Y). Wyniki zestawiono w tabeli:
plon xi
20
21
22
23
22
25
30
27
24
26
zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny
zawartość skrobi (%)
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Przyjmujemy, Ŝe:
1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady
normalne, oraz
2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego
wartość jest nieznana.
• Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby
ze wzoru:
r=
S xy
SS x ⋅ SS y
,
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
x = 24 kg , y = 16,7% , SS x = 84 , SS y = 0,68 , S xy = −6,8
r = - 0,90,
Czy korelacja między cechami X, Y jest znacząca (istotna)?
• stawiamy hipotezę o braku korelacji:
H0 : ρ = 0 ,
H1 : ρ ≠ 0 ,
• wybieramy poziom istotności α = 0,05,
• stosujemy test r; wzór funkcji testowej:
remp = r
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
gdzie:
r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby;
w przykładzie r = - 0,9, zatem remp = - 0,9,
• odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632,
• poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy.
Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych
a zawartością skrobi.
Zastosowanie testu t-Studenta:
•
temp =
r
1− r
2
⋅ n−2 =
− 0,9
1 − (− 0,9)
2
⋅ 10 − 2 = −5,84
,
Matematyka i statystyka matematyczna dla rolników w SGGW
• odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31,
• poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy.
Anna Rajfura, KDiB