( X, Y ).

Transkrypt

( X, Y ).
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH.
ANALIZA KORELACJI PROSTEJ.
1
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
IDEA OPISU WSPÓŁZALEśNOŚCI CECH
X, Y – cechy obserwowane w doświadczeniu,
n – liczba jednostek doświadczalnych,
Wyniki doświadczenia:
wartości cechy X:
x1
x2
x3
...
wartości cechy Y:
y1
y2
y3
...
obserwacje dla pierwszej
jednostki doświadczalnej
obserwacje dla drugiej
jednostki doświadczalnej
Diagram korelacyjny
wartości
cechy Y
y1
x1
wartości cechy X
Kierunek korelacji: cechy X, Y są ujemnie
skorelowane
2
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
wartości
cechy Y
wartości cechy X
Kierunek korelacji: cechy X, Y są dodatnio
skorelowane
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
3
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
wartości
cechy Y
wartości cechy X
Cechy X, Y są nieskorelowane
Y
Y
X
X
Siła korelacji:
X, Y - silnie skorelowane
X, Y - słabo skorelowane
4
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
PRZYKŁADY TEORETYCZNE
D - doświadczenie losowe: dwukrotny rzut monetą,
Zmienne losowe w poszczególnych przykładach są
niezaleŜne czy zaleŜne?
Przykład 1.
X 1 – zmienna losowa: liczba otrzymanych orłów,
X 2 – zmienna losowa: (liczba otrzymanych orłów)·2.
Przykład 2.
X 3 – zmienna losowa: liczba orłów w pierwszym
rzucie,
X 4 – zmienna losowa: liczba orłów w drugim rzucie.
Przykład 3.
X 5 – zmienna losowa: liczba otrzymanych orłów,
X 6 – zmienna losowa: (liczba otrzymanych orłów) 2 .
Jak wykrywać współzaleŜność pomiędzy zmiennymi?
5
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
WspółzaleŜność między zmiennymi losowymi X i Y opisuje
kowariancja, ozn.: COV ( X, Y ).
Definicja: COV ( X, Y ) = E ( X·Y) – ( EX ) · ( EY )
Obliczanie kowariancji w przykładach 1-3.
Kowariancja jest wielkością mianowaną, dlatego jako miary
współzaleŜności liniowej dwóch zmiennych losowych X i Y
uŜywa
się
bezwymiarowego
wskaźnika
nazywanego
współczynnikiem korelacji liniowej Pearsona i oznaczonego
grecką literą ρ (czyt.: rho):
ρ=
COV ( X , Y )
(DX ) ⋅ (DY )
Twierdzenie
Dla dowolnych dwóch zmiennych losowych X oraz Y
zachodzi:
ρ ∈ − 1, 1
6
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
Uwaga terminologiczna
Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je
skorelowanymi.
Współczynnik korelacji ρ słuŜy do wykrywania korelacji,
czyli zaleŜności liniowej:
•
jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być
zaleŜne nieliniowo!),
•
jeśli | ρ | = 1, to zmienne losowe są całkowicie
skorelowane (zaleŜne liniowo),
o jeśli ρ = 1, to są skorelowane dodatnio,
o jeśli ρ = - 1, to są skorelowane ujemnie.
UŜywamy określeń:
≈ 0,
• zmienne są silnie skorelowane - gdy | ρ | ≈ 1.
• zmienne są słabo skorelowane – gdy ρ
7
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
Anna Rajfura KDiB
Czy korelacja jest znacząca (istotna)?
Jeśli cechy X oraz Y mają rozkład normalny, to moŜna
weryfikować hipotezę dotyczącą korelacji:
Hipoteza o braku korelacji
Hipoteza alternatywna:
H1 : ρ ≠ 0
H0 : ρ = 0
• wybieramy poziom istotności α,
• losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... ( xn, yn),
• obliczamy współczynnik korelacji r dla próby według
wzoru:
n
r=
∑ (x
i =1
n
i
− x ) ⋅ ( yi − y )
∑ ( xi − x )
2
⋅
i =1
n
2
(
)
y
−
y
∑ i
i =1
Współczynnik r jest oceną parametru teoretycznego ρ:
ρ̂ = r
• odczytujemy wartość krytyczną r α , v = n-2
8
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
• jeŜeli |
Anna Rajfura KDiB
r | > r α , v = n-2, to H0 odrzucamy, w przeciwnym
przypadku H0 nie moŜna odrzucić.
Przykład
Z dziesięciu poletek doświadczalnych zebrano plony bulw
ziemniaczanych (cecha X) i oznaczono w nich procentową
zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli:
plon xi
zawartość
skrobi yi
20
21
22
23
22
25
30
27
24
26
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny
zawartość skrobi (% )
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
9
Statystyka matematyczna dla kierunku Rolnictwo w SGGW
H0 : ρ = 0 ,
Anna Rajfura KDiB
H1 : ρ ≠ 0
α = 0,05
x = 24 kg ,
y = 16,7% ,
r = - 0,90,
wartość krytyczna r 0,05 , 8 = 0,632,
PoniewaŜ | r | = | - 0,90 | > r 0,05 , 8 = 0,632, więc hipotezę H0
odrzucamy. Stwierdzamy statystycznie istotną korelację
między plonem bulw ziemniaczanych a zawartością skrobi.
10