Statystyczna analiza danych w programie STATISTICA
Transkrypt
Statystyczna analiza danych w programie STATISTICA
Statystyczna analiza danych w programie STATISTICA (wykłład 4) Dariusz Gozdowski Katedra Doś świadczalnictwa i Bioinformatyki Wydziałł Rolnictwa i Biologii SGGW Regresja prosta liniowa Regresja prosta jest metodą statystyczną, w której określamy zależność jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest mię ędzy tylko dwiema zmiennymi. Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej (Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną niezależną. Model regresji prostej liniowej Y=a+bX+ei gdzie: b – współczynnik regresji a – stała regresji ei – błędy losowe o rozkładzie N(0;σe2) Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę. Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a dodatnia wartość wskazuje na dodatnią zależność Estymację (szacowanie wartości) współczynników równania regresji prowadzi się zwykle metodą najmniejszych kwadratów, która polega na minimalizacji następującej sumy kwadratów: n ∑ ( y i − a − bx i ) 2 i =1 Estymatory wartości współczynników a i b oblicza się ze wzorów: b= sxy sx2 a = y − bx R2 – współczynnik determinacji Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności całkowitej. W przypadku regresji prostej liniowej R2=rxy2 Czym wartość R2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i na odwrót gdy wartość R2 jest bliższa 0 % (czyli 0) to zależność Y od X jest słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona (r) Testowanie hipotezy H0: β=0 (współczynnik regresji dla całej populacji jest równy 0) pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę odrzucimy to uznajemy, że Y istotnie zależy od X. (powyższą hipotezę odrzucamy jeśli p<α) Y -plon ziarna pszenicy (t/ha) 8 y = 0,0439x + 0,7413 7 2 R = 0,8299 (82,99%) 6 5 4 3 2 1 0 0 20 40 60 80 X -nawożenie N (kg/ha) 100 120 140 Regresja prosta nieliniowa Nie wszystkie zależ żnoś ści mię ędzy dwiema zmiennymi są ą liniowe, dlatego też ż czasami uzasadnione jest stosowanie innego niż ż liniowy modelu regresji. Stosowane są ą w tym celu róż żne inne modele regresji np. zamiast funkcji liniowej moż żna uż żyć ć: -funkcji kwadratowej - pierwiastkowej -logarytmicznej lub innych. Dobór modelu regresji dokonuje się ę najczęś ęściej na podstawie wartoś ści ęś współłczynnika determinacji (R2), wię ększa wartość ść R2 oznacza lepiej dopasowany model regresji, a tym samym lepiej opisują ący zmiany Y w zależ żnoś ści od X. Szczególnym przykłładem regresji prostej jest regresja prosta wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna niezależ żna (X) wystę ępuje w kolejnych potę ęgach. Najprostszym modelem regresji wielomianowej jest funkcja kwadratowa (X wystę ępuje w pierwszej i drugiej potę ędze) 9 Y -plon ziarna pszenicy(t/ha) 8 7 6 y = -0,0001x 2 + 0,0587x + 0,4438 R2 = 0,8995 5 4 3 2 1 0 0 50 100 150 X -nawożenie N (kg/ha) 200 250 300 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej stosowanym w praktyce jest regresja wielokrotna liniowa. Regresja wielokrotna liniowa Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jedną zmienną niezależną (Xi) to estymowany model regresji możemy zapisać równaniem: Y = a + b1∙X1 + b2∙X2 + ... + bk∙Xk Gdzie a- stała regresji, b1, b2,... – cząstkowe współczynniki regresji Interpretacja wartości stałej regresji i cząstkowych współczynników regresji jest podobna jak w przypadku regresji prostej. Stała regresji jest to szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (Xi) są równe 0. Wartość każdego cząstkowego współczynnika regresji oznacza szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej niezależnej (Xi) zwiększy się o jedną jednostkę. W przypadku regresji wielokrotnej zastosowanie metody najmniejszych kwadratów to minimalizowanie sumy: n ∑ i =1 ( y i − a − b1 xi 1 − b2 xi 2 − ... − bk xik )2 Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X1, X2) Dobór modelu regresji Nie wszystkie zmienne niezależne (Xi) które bierzemy do analizy regresji wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych, które mają istotny wpływ. W tym celu stosuje się różne metody pozwalające na usunięcie z modelu regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko tych, których wpływ udowodnimy. Jedną z metod, które są dość często stosowane jest regresja krokowa, która pozwala na dobór modelu z pominięciem zmiennych słabo lub nie wpływających na zmienną zależną.