Wykład 8 - Netstrefa.pl
Transkrypt
Wykład 8 - Netstrefa.pl
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej stosowanym w praktyce jest regresja wielokrotna liniowa. Regresja wielokrotna liniowa Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jedną zmienną niezależną (Xi) to estymowany model regresji możemy zapisać równaniem: Y = a + b1∙X1 + b2∙X2 + ... + bk∙Xk+ ei Gdzie a- stała regresji, b1, b2,... – cząstkowe współczynniki regresji ei – błąd losowy Interpretacja wartości stałej regresji i cząstkowych współczynników regresji jest podobna jak w przypadku regresji prostej. Stała regresji jest to szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (Xi) są równe 0. Wartość każdego cząstkowego współczynnika regresji oznacza szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej niezależnej (Xi) zwiększy się o jedną jednostkę. W przypadku regresji wielokrotnej zastosowanie metody najmniejszych kwadratów to minimalizowanie sumy: n ∑( y i =1 i − a − b1 xi 1 − b2 xi 2 − ... − bk xik )2 Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X1, X2) Hipotezy statystyczne w regresji wielokrotnej Hipoteza zerowa globalna: H 0 : β1 = β 2 = ⋅ ⋅ ⋅ = βk = 0 (żadna z zmiennych niezależnych nie wpływa na zmienną zależną) Weryfikację tej hipotezy wykonujemy na podstawie testu F w analizie wariancji Jeśli odrzucimy hipotezę H0 to stwierdzamy, że co najmniej jeden współczynnik regresji jest różny od zera, czyli istnieje związek liniowy między co najmniej jedną zmienną niezależną a zmienną zależną. Jeśli odrzucimy globalną H0, to następnie powinniśmy przeprowadzić weryfikację k hipotez szczegółowych, które pozwolą odpowiedzieć na pytanie, które zmienne niezależne (czy wszystkie, czy też tylko wybrane) wpływają na zmienną zależną, a więc które zmienne niezależne powinny pozostać w modelu regresji. Hipotezy statystyczne w regresji wielokrotnej (c.d.) Hipotezy szczegółowe: H 0 : βi = 0 Weryfikację hipotez szczegółowych wykonujemy na podstawie testu t Jeśli odrzucimy i-tą hipotezę zerową, to stwierdzamy, że dana zmienna niezależna (przyczynowa) ma istotny statystycznie wpływ na zmienną zależną Zmienne niezależne, które nie wpływają istotnie na zmienną zależną powinny być usunięte z modelu regresji. Przy usuwaniu zmiennych z modelu należy uwzględniać ewentualne wzajemne współzależności między poszczególnymi zmiennymi niezależnymi. Dobór modelu regresji Nie wszystkie zmienne niezależne (Xi) które bierzemy do analizy regresji wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych, które mają istotny wpływ. W tym celu stosuje się różne metody pozwalające na usunięcie z modelu regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko tych, których wpływ udowodnimy. Jedną z metod, które są dość często stosowane jest regresja krokowa, która pozwala na dobór modelu z pominięciem zmiennych słabo lub nie wpływających na zmienną zależną. Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji Regresja wielokrotna krzywoliniowa Przykład modelu nieliniowego z dwiema zmiennymi niezależnymi: y = b0 + b1 x1 + b x + b3 x2 + b x + b5 x1 x2 2 2 1 2 4 2 Możliwe zalety modeli nieliniowych regresji: - uwzględnienie zależności nieliniowych - uwzględnienie współdziałań zmiennych niezależnych Trudności w doborze najlepszego modelu regresji wielokrotnej - Dla różnych modeli regresji wielokrotnej można uzyskać podobne parametry dopasowania (np. bardzo zbliżone wartości współczynnika determinacji) -Wskazanie, jaka funkcja nieliniowa dla danej zmiennej jest optymalna nie jest łatwe ze względu na występowanie współdziałań i współzalezności między cechami - Ograniczone możliwości graficznego przedstawienia funkcji, a tym samym ocena tych funkcji odbywa się zazwyczaj na podstawie estymowanych parametrów. - Dysponowanie ograniczonym zbiorem zmiennych niezależnych, który może nie zawierać zmiennych mających silny związek z zmienną zależną Test niezależności chi-kwadrat (χ2) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y – druga cecha Przykłady cech jakościowych/skategoryzowanych: - kolor (czerwony, różowy, biały) - grupa krwi (A, B, AB, 0) - cechy ilościowe wyrażone w postaci klas np. zawartość białka: niska, średnia, wysoka itp… Rozważając liczbę obserwacji sklasyfikowanych wg dwóch kryteriów, np. ludzi wg koloru oczu i koloru włosów (kolory oczu: brązowy, niebieski; kolory włosów: blondyni, szatyni, bruneci) lub np. rośliny pewnego gatunku wg odmiany i stopnia porażenia chorobą (odmiany: A, B, C itd..; stopień porażenia: brak, słaby, średni, duży, bardzo duży) w każdej z klas liczymy liczbę osobników i liczebności te możemy przedstawić w postaci tablicy dwudzielnej zwanej tablicą kontyngencji m – liczba klas cechy X; k – liczba klas cechy Y nij- obserwowana liczebność w danej podklasie cechy X i Y N- całkowita liczebność obserwacji Całkowita liczebność powinna być duża (N>30), natomiast liczebności w podklasach (nij) nie powinny być zerowe (wskazane by nij>5) H0: Cechy X i Y są niezależne Statystyka testowa: ntij - liczebność teoretyczna (oczekiwana, w przypadku gdy cechy X i Y są niezależne) ni• ; n•j – sumy liczebności dla poszczególnych klas cechy X i dla klas cechy Y Jeżeli χ2emp > χ2kryt to H0 odrzucamy, a więc stwierdzamy, że cechy X i Y nie są niezależne, a więc występuje miedzy nimi związek Χ2kryt= Χ2α;(m-1)(k-1) W programach statystycznych otrzymujemy w wyniku wartość p, powyższą hipotezę odrzucamy jeśli p<α