Statystyczna analiza danych w programie STATISTICA

Transkrypt

Statystyczna analiza danych w programie STATISTICA
Statystyczna analiza danych w programie STATISTICA
(wykłład 4)‫‏‬
‫‏‬
Dariusz Gozdowski
Katedra Doś
świadczalnictwa i Bioinformatyki
Wydziałł Rolnictwa i Biologii SGGW
Regresja prosta liniowa
Regresja prosta jest metodą statystyczną, w której określamy zależność
jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest mię
ędzy tylko
dwiema zmiennymi.
Regresja prosta liniowa
Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej
(Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana
zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną
niezależną.
Model regresji prostej liniowej
Y=a+bX+ei
gdzie:
b – współczynnik regresji
a – stała regresji
ei – błędy losowe o rozkładzie N(0;σe2)‫‏‬
Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w
przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza
średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę.
Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a
dodatnia wartość wskazuje na dodatnią zależność
Estymację (szacowanie wartości) współczynników równania regresji
prowadzi się zwykle metodą najmniejszych kwadratów, która polega na
minimalizacji następującej sumy kwadratów:
n
∑
( y i − a − bx i ) 2
i =1
Estymatory wartości współczynników a i b oblicza się ze wzorów:
b=
sxy
sx2
a = y − bx
R2 – współczynnik determinacji
Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności
całkowitej. W przypadku regresji prostej liniowej R2=rxy2
Czym wartość R2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i
na odwrót gdy wartość R2 jest bliższa 0 % (czyli 0) to zależność Y od X jest
słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji
prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona (r)‫‏‬
Testowanie hipotezy H0: β=0 (współczynnik regresji dla całej populacji jest równy 0)
pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę
odrzucimy to uznajemy, że Y istotnie zależy od X.
(powyższą hipotezę odrzucamy jeśli p<α)‫‏‬
Y -plon ziarna pszenicy (t/ha)
8
y = 0,0439x + 0,7413
7
2
R = 0,8299 (82,99%)
6
5
4
3
2
1
0
0
20
40
60
80
X -nawożenie N (kg/ha)
100
120
140
Regresja prosta nieliniowa
Nie wszystkie zależ
żnoś
ści mię
ędzy dwiema zmiennymi są
ą liniowe, dlatego też
ż
czasami uzasadnione jest stosowanie innego niż
ż liniowy modelu regresji.
Stosowane są
ą w tym celu róż
żne inne modele regresji np. zamiast funkcji
liniowej moż
żna uż
żyć
ć:
-funkcji kwadratowej
- pierwiastkowej
-logarytmicznej lub innych.
Dobór modelu regresji dokonuje się
ę najczęś
ęściej
na podstawie wartoś
ści
ęś
współłczynnika determinacji (R2), wię
ększa wartość
ść R2 oznacza lepiej
dopasowany model regresji, a tym samym lepiej opisują
ący zmiany Y w
zależ
żnoś
ści od X.
Szczególnym przykłładem regresji prostej jest regresja prosta
wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna
niezależ
żna (X) wystę
ępuje w kolejnych potę
ęgach. Najprostszym modelem
regresji wielomianowej jest funkcja kwadratowa (X wystę
ępuje w pierwszej i
drugiej potę
ędze)
9
Y -plon ziarna pszenicy(t/ha)
8
7
6
y = -0,0001x 2 + 0,0587x + 0,4438
R2 = 0,8995
5
4
3
2
1
0
0
50
100
150
X -nawożenie N (kg/ha)
200
250
300
Regresja wielokrotna
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ
wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej
stosowanym w praktyce jest regresja wielokrotna liniowa.
Regresja wielokrotna liniowa
Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jedną
zmienną niezależną (Xi) to estymowany model regresji możemy zapisać
równaniem:
Y = a + b1∙X1 + b2∙X2 + ... + bk∙Xk
Gdzie
a- stała regresji,
b1, b2,... – cząstkowe współczynniki regresji
Interpretacja wartości stałej regresji i cząstkowych współczynników regresji
jest podobna jak w przypadku regresji prostej. Stała regresji jest to
szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (Xi) są
równe 0. Wartość każdego cząstkowego współczynnika regresji oznacza
szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej
niezależnej (Xi) zwiększy się o jedną jednostkę.
W przypadku regresji wielokrotnej zastosowanie metody najmniejszych
kwadratów to minimalizowanie sumy:
n
∑
i =1
( y i − a − b1 xi 1 − b2 xi 2 − ... − bk xik )2
Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X1, X2)‫‏‬
Dobór modelu regresji
Nie wszystkie zmienne niezależne (Xi) które bierzemy do analizy regresji
wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest
usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych,
które mają istotny wpływ.
W tym celu stosuje się różne metody pozwalające na usunięcie z modelu
regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko
tych, których wpływ udowodnimy. Jedną z metod, które są dość często
stosowane jest regresja krokowa, która pozwala na dobór modelu z
pominięciem zmiennych słabo lub nie wpływających na zmienną zależną.

Podobne dokumenty