Wykład 8 - Netstrefa.pl

Transkrypt

Wykład 8 - Netstrefa.pl
STATYSTYKA I DOŚWIADCZALNICTWO
Wykład 8
Regresja wielokrotna
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ
wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej
stosowanym w praktyce jest regresja wielokrotna liniowa.
Regresja wielokrotna liniowa
Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jedną
zmienną niezależną (Xi) to estymowany model regresji możemy zapisać
równaniem:
Y = a + b1∙X1 + b2∙X2 + ... + bk∙Xk+ ei
Gdzie
a- stała regresji,
b1, b2,... – cząstkowe współczynniki regresji
ei – błąd losowy
Interpretacja wartości stałej regresji i cząstkowych współczynników regresji
jest podobna jak w przypadku regresji prostej. Stała regresji jest to
szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (Xi) są
równe 0. Wartość każdego cząstkowego współczynnika regresji oznacza
szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej
niezależnej (Xi) zwiększy się o jedną jednostkę.
W przypadku regresji wielokrotnej zastosowanie metody najmniejszych
kwadratów to minimalizowanie sumy:
n
∑( y
i =1
i
− a − b1 xi 1 − b2 xi 2 − ... − bk xik )2
Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X1, X2)‫‏‬
Hipotezy statystyczne w regresji wielokrotnej
Hipoteza zerowa globalna:
H 0 : β1 = β 2 = ⋅ ⋅ ⋅ = βk = 0
(żadna z zmiennych niezależnych nie wpływa na zmienną zależną)
Weryfikację tej hipotezy wykonujemy na podstawie testu F w analizie wariancji
Jeśli odrzucimy hipotezę H0 to stwierdzamy, że
co najmniej jeden współczynnik regresji jest różny od zera, czyli istnieje związek liniowy między co
najmniej jedną zmienną niezależną a zmienną zależną.
Jeśli odrzucimy globalną H0, to następnie powinniśmy przeprowadzić weryfikację k hipotez
szczegółowych, które pozwolą odpowiedzieć na pytanie, które zmienne niezależne (czy wszystkie,
czy też tylko wybrane) wpływają na zmienną zależną, a więc które zmienne niezależne powinny
pozostać w modelu regresji.
Hipotezy statystyczne w regresji wielokrotnej (c.d.)
Hipotezy szczegółowe:
H 0 : βi = 0
Weryfikację hipotez szczegółowych wykonujemy na podstawie testu t
Jeśli odrzucimy i-tą hipotezę zerową, to stwierdzamy, że dana zmienna
niezależna (przyczynowa) ma istotny statystycznie wpływ na zmienną zależną
Zmienne niezależne, które nie wpływają istotnie na zmienną zależną powinny
być usunięte z modelu regresji. Przy usuwaniu zmiennych z modelu należy
uwzględniać ewentualne wzajemne współzależności między poszczególnymi
zmiennymi niezależnymi.
Dobór modelu regresji
Nie wszystkie zmienne niezależne (Xi) które bierzemy do analizy regresji
wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest
usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych,
które mają istotny wpływ.
W tym celu stosuje się różne metody pozwalające na usunięcie z modelu
regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko
tych, których wpływ udowodnimy. Jedną z metod, które są dość często
stosowane jest regresja krokowa, która pozwala na dobór modelu z
pominięciem zmiennych słabo lub nie wpływających na zmienną zależną.
Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego
współczynnika determinacji
Regresja wielokrotna krzywoliniowa
Przykład modelu nieliniowego z dwiema zmiennymi niezależnymi:
y = b0 + b1 x1 + b x + b3 x2 + b x + b5 x1 x2
2
2 1
2
4 2
Możliwe zalety modeli nieliniowych regresji:
- uwzględnienie zależności nieliniowych
- uwzględnienie współdziałań zmiennych niezależnych
Trudności w doborze najlepszego modelu regresji wielokrotnej
- Dla różnych modeli regresji wielokrotnej można uzyskać podobne
parametry dopasowania (np. bardzo zbliżone wartości współczynnika
determinacji)
-Wskazanie, jaka funkcja nieliniowa dla danej zmiennej jest optymalna nie
jest łatwe ze względu na występowanie współdziałań i współzalezności
między cechami
- Ograniczone możliwości graficznego przedstawienia funkcji, a tym
samym ocena tych funkcji odbywa się zazwyczaj na podstawie
estymowanych parametrów.
- Dysponowanie ograniczonym zbiorem zmiennych niezależnych, który
może nie zawierać zmiennych mających silny związek z zmienną zależną
Test niezależności chi-kwadrat (χ2)
Cel: ocena występowania zależności między dwiema cechami
jakościowymi/skategoryzowanymi
X- pierwsza cecha; Y – druga cecha
Przykłady cech jakościowych/skategoryzowanych:
- kolor (czerwony, różowy, biały)
- grupa krwi (A, B, AB, 0)
- cechy ilościowe wyrażone w postaci klas np. zawartość białka: niska, średnia, wysoka
itp…
Rozważając liczbę obserwacji sklasyfikowanych wg dwóch kryteriów, np. ludzi
wg koloru oczu i koloru włosów (kolory oczu: brązowy, niebieski; kolory
włosów: blondyni, szatyni, bruneci) lub np. rośliny pewnego gatunku wg
odmiany i stopnia porażenia chorobą (odmiany: A, B, C itd..; stopień porażenia:
brak, słaby, średni, duży, bardzo duży) w każdej z klas liczymy liczbę
osobników i liczebności te możemy przedstawić w postaci tablicy dwudzielnej
zwanej tablicą kontyngencji
m – liczba klas cechy X;
k – liczba klas cechy Y
nij- obserwowana liczebność w danej podklasie cechy X i Y
N- całkowita liczebność obserwacji
Całkowita liczebność powinna być duża (N>30), natomiast liczebności w
podklasach (nij) nie powinny być zerowe (wskazane by nij>5)
H0: Cechy X i Y są niezależne
Statystyka testowa:
ntij - liczebność teoretyczna (oczekiwana, w przypadku gdy cechy X i Y są niezależne)
ni• ; n•j – sumy liczebności dla poszczególnych klas cechy X i dla klas cechy Y
Jeżeli χ2emp > χ2kryt to H0 odrzucamy, a więc stwierdzamy, że cechy X i Y nie są
niezależne, a więc występuje miedzy nimi związek
Χ2kryt= Χ2α;(m-1)(k-1)
W programach statystycznych otrzymujemy w wyniku wartość p, powyższą hipotezę odrzucamy jeśli p<α