Wykład 7 - Netstrefa.pl

Transkrypt

Wykład 7 - Netstrefa.pl
STATYSTYKA I DOŚWIADCZALNICTWO
Wykład 7
Analiza korelacji - współczynnik korelacji Pearsona
Cel: ocena współzależności między dwiema zmiennymi ilościowymi
Ocenia jedynie zależność liniową.
cov( X ,Y )
r=
sx ⋅ s y
gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg
następującego wzoru:
1
cov( X ,Y ) =
n−1
n
∑( X
i =1
i
− X )( Yi − Y )
natomiast sx i sy są odchyleniami standardowymi dla zmiennych: X i Y
Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1].
Im większa wartość bezwzględna współczynnika, tym silniejsza jest
zależność liniowa między zmiennymi.
rxy = 0 oznacza brak korelacji,
rxy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to
również rośnie druga zmienna (Y),
rxy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na
odwrót).
14
12
r =0,007
10
8
6
4
2
0
0
1
2
3
4
5
6
Zależność nieliniowa
7
8
9
Testowanie istotności korelacji
Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają
rozkład normalny lub zbliżony do normalnego
Hipoteza zerowa: H0:ρ=0
ρ- wartość współczynnika korelacji dla całej populacji
Jeżeli |remp|>rα,2,n-2 to H0 odrzucamy.
rα,2,n-2 – jest wartością krytyczną współczynnika korelacji prostej Pearsona
Podobnie jak w przypadku innych hipotez w programach statystycznych
(wnioskowanie o istotności współzależności dwóch zmiennych odbywa się na
podstawie wartości p (p<α oznacza istotna współzależność)
Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze
opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest
nieliniowa (np. punkty są położone na paraboli) wartość współczynnika korelacji
może być bliska 0.
Wartości krytyczne współczynnika
korelacji prostej dla poziomu α
równego 0,1; 0,05; 0,02 i 0,01
df – liczba stopni swobody (df=n-2)
Współczynnik korelacji rang Spearmana (rs) służy do oceny
współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika
korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana
oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana
normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego
współczynnika korelacji wtedy gdy nie możemy stosować współczynnika
korelacji Persona.
Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich
interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona,
czyli czym wartość rs jest bliższa 1 tym zależność jest silniejsza, dodatnia,
czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość rs jest
bliska 0 to oznacza brak zależności lub bardzo słabą zależność.
r=0,64 rs=1,00
3000
2500
2000
1500
1000
500
0
0
2
4
6
8
10
12
Regresja prosta liniowa
Regresja prosta jest metodą statystyczną, w której określamy zależność
jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest między tylko
dwiema zmiennymi.
Regresja prosta liniowa
Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej
(Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana
zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną
niezależną.
Model regresji prostej liniowej
Y=a+bX+ei
gdzie:
b – współczynnik regresji
a – stała regresji
ei – błędy losowe o rozkładzie N(0;σe2)‫‏‬
Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w
przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza
średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę.
Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a
dodatnia wartość wskazuje na dodatnią zależność
Estymację (szacowanie wartości) współczynników równania regresji
prowadzi się zwykle metodą najmniejszych kwadratów, która polega na
minimalizacji następującej sumy kwadratów:
n
∑
i =1
( y i − a − bx i )2
Estymatory wartości współczynników a i b oblicza się ze wzorów:
b=
sxy
sx2
a = y − bx
R2 – współczynnik determinacji
Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności
całkowitej. W przypadku regresji prostej liniowej R2=rxy2
Czym wartość R2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i
na odwrót gdy wartość R2 jest bliższa 0 % (czyli 0) to zależność Y od X jest
słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji
prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona (r)‫‏‬
Testowanie hipotezy H0: β=0 (współczynnik regresji dla całej populacji jest równy 0)
pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę
odrzucimy to uznajemy, że Y istotnie zależy od X.
(powyższą hipotezę odrzucamy jeśli p<α)‫‏‬
8
y = 0,0439x + 0,7413
7
2
R = 0,8299 (82,99%)
Y -plon (t/ha)
6
5
4
3
2
1
0
0
20
40
60
80
X -nawożenie N (kg/ha)
100
120
140
Regresja prosta nieliniowa
Nie wszystkie zależności między dwiema zmiennymi są liniowe, dlatego też
czasami uzasadnione jest stosowanie innego niż liniowy modelu regresji.
Stosowane są w tym celu różne inne modele regresji np. zamiast funkcji
liniowej można użyć:
-funkcji kwadratowej
- pierwiastkowej
-logarytmicznej lub innych.
Dobór modelu regresji dokonuje się najczęściej na podstawie wartości
współczynnika determinacji (R2), większa wartość R2 oznacza lepiej
dopasowany model regresji, a tym samym lepiej opisujący zmiany Y w
zależności od X.
Szczególnym przykładem regresji prostej jest regresja prosta
wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna
niezależna (X) występuje w kolejnych potęgach. Najprostszym modelem
regresji wielomianowej jest funkcja kwadratowa (X występuje w pierwszej i
drugiej potędze)
9
8
7
Y -plon (t/ha)
6
y = -0,0001x 2 + 0,0587x + 0,4438
R2 = 0,8995
5
4
3
2
1
0
0
50
100
150
X -nawożenie N (kg/ha)
200
250
300