P O B I E R Z
Transkrypt
P O B I E R Z
Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady. Przykład: Test Walda a test Studenta w badaniu istotności zmiennych objaśniających. Model zużycia energii przez mieszkańców w mieszkaniach na pewnym osiedlu: ZE - zużycia energii ( w kWh / m-c), Pow -powierzchnia mieszkania, LL - liczba lokatorów, Etap I: propozycja postaci modelu ZE = β1+ β2Pow+ β3LL + Z 1 Dane: Etap II: Estymacja parametrów modelu Dane: X= ... ... ... Estymator MNK b = (XTX)-1XTY Y= ... 2 b = (XTX)-1XTCM = Oszacowany model: ZE = 515.3 + 2.15 Pow +27.17 LL Etap III A Wskaźniki jakości modelu: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z ZE = β1+ β2Pow+ β3LL + Z Hipoteza zerowa: β2= β3=0 (obie zmienne - Pow i LL - są nieistotne) Hipoteza alternatywna: β2 ≠ 0 lub β3 ≠ 0 (przynajmniej jedna zmienna z nich jest istotna) Dla przeprowadzenia testu Walda przyjmujemy założenie dodatkowe: zmienna losowa Z ma rozkład normalny 3 Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z ZE = β1+ β2Pow+ β3LL + Z Statystyka testowa: Zbiór krytyczny: Wniosek: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla poszczególnych zmiennych objaśniających - zakładamy normalny rozkład zmiennej losowej Z Obliczenia wstępne A = (XTX)-1 = 4 Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej Pow - zakładamy normalny rozkład zmiennej losowej Z ZE = β1+ β2Pow+ β3LL + Z Hipoteza zerowa: β2=0 Hipoteza alternatywna: β2≠ 0 ( zmienna Pow jest „nieistotna”) ( zmienna Pow jest „istotna”) Statystyka testowa: Zbiór krytyczny: Wniosek: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej LL - zakładamy normalny rozkład zmiennej losowej Z ZE = β1+ β2Pow+ β3LL + Z Hipoteza zerowa: β2=0 Hipoteza alternatywna: β2≠ 0 ( zmienna LL jest „nieistotna”) ( zmienna LL jest „istotna”) Statystyka testowa: Zbiór krytyczny: Wniosek: 5 Etap I: propozycja nowej postaci modelu ZE = β1+ β2Pow+ Z Etap II: Estymacja parametrów modelu b = (XTX)-1XTY = Oszacowany model: ZE = 485.2 + 3.99 Pow Etap III A Wskaźniki jakości modelu: 6 Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej Pow - zakładamy normalność rozkładu zmiennej losowej Z ZE = β1+ β2Pow+ Z Hipoteza zerowa: β2=0 Hipoteza alternatywna: β2≠ 0 ( zmienna Pow jest „nieistotna”) ( zmienna Pow jest „istotna”) Statystyka testowa: Zbiór krytyczny: Dość częstą przyczyną zjawiska obserwowanego w naszym przykładzie („każda zmienna nieistotna”) jest współliniowość („korelacja (?!)”) między pewnymi zmiennymi U nas: rPow,LL = 0.91 UWAGA 1. Często, nieprawidłowo (!) w takim przypadku mówi się, że należy jedną (przynajmniej) z takich zmiennych usunąć z modelu. Argumentuje się, że w takim przepadku obie „niosą tę samą informację” oraz że może to być przyczyną poważnych błędów w obliczeniach – tak być może, ale wcale tak być nie musi. W wielu typowych sytuacjach tak nie jest! Pokażemy to w kolejnych przykładach. UWAGA 2. Często, nieprawidłowo (!) zaleca się „oglądanie” diagramów korelacyjnych bo (jak się twierdzi) „wysoka korelacja” między zmiennymi objaśniającymi jest szkodliwa, zaś „wysoka korelacja” pomiędzy zmiennymi wyjaśnianą i objaśnianą jest pożądana. W konsekwencji pojawia się całkowicie błędne zalecenie, żeby w modelu pozostawić zmienne objaśniające, które ze sobą nie są skorelowane, zaś są silnie skorelowane ze zmienna wyjaśnianą . UWAGA 3. O tym czy daną zmienną (lub ich grupę) usunąć przede wszystkim decydują testy, nigdy analiza korelacji! Przed usunięciem grupy zmiennych z modelu stosujemy test mnożnika Lagrange’a lub uogólniony test Walda dla tej podgrupy zmiennych. Najlepiej eliminować zmienne pojedynczo. W bardziej zaawanasowanej analizie stosujemy też pewne wskaźniki algebraiczne (wywiedlne z teorii), które umożliwiają ocenę stopnia „zagrożenia” wynikającego ze współliniowości zmiennych objaśniających. Omówimy je w dalszym ciągu wykładu. 7 Oto kolejny przykład – pokazuje, że znaczna współliniowość zmiennych objaśniających nie musi prowadzić do usunięcia którejś z nich zmiennej objaśniającej. Odwrotnie – usunięcie którejkolwiek ze zmiennych byłoby karygodnym błędem. Widać też, że oglądanie diagramów korelacyjnych nic nie daje w zakresie modelowania regresyjnego. Przykład 2. Y X1 X2 Dane: 8 Etap II: Estymacja parametrów modelu Y =β0 + β1 X1 + β2X2 + Z b = (XTX)-1XTCM = Wskaźniki jakości modelu: Oszacowany model: Y = 611.8 + 4.82 X1 – 9.48 X2 (8.57) (0.066) (0.13) Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z F=2699 (!) 9 Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej X1 Hipoteza zerowa: β1=0 Hipoteza alternatywna: β1≠ 0 ( zmienna jest „nieistotna”) ( zmienna jest „istotna”) Statystyka testowa: Test Studenta dla istotności zmiennej X2 Hipoteza zerowa: β2=0 Hipoteza alternatywna: β2≠ 0 ( zmienna jest „nieistotna”) ( zmienna jest „istotna”) Statystyka testowa: Zauważmy, że u nas rX1,X2 = 0.967 !!! Czy zatem należy usunąć jedną ze zmiennych? 10 Etap I: propozycja nowej postaci modelu Y =β0 + β1 X1 + Z Etap II: Estymacja parametrów modelu b= Etap III A Wskaźniki jakości modelu: ! Etap I: propozycja nowej postaci modelu Y =β0 + β2 X2 + Z Etap II: Estymacja parametrów modelu b= Etap III A Wskaźniki jakości modelu: ! 11 Zależność Y od X2 Zależność Y od X1 Zależność X1 od X2 A teraz wyjaśnienie błędności rozumowania opartego na analizie „korelacji” Wynika owa błędność z niezrozumienia oczywistego dla każdego matematyka faktu, że wielowymiarowa „zależność liniowa” zmiennej y od zmiennych x1,…,xk, nijak nie przekłada się na „zależność liniową” y od poszczególnych zmiennych xi . Łatwo to geometrycznie zobrazować w 3D Rozważmy model Y =2 + 3 X1 −3X2 +Z Oczywiście Y zależy liniowo od zmiennych objaśniających. Jak będzie wyglądał wykres danych ? Jeśli model jest naprawdę dobry (tj. gdy Z ma niewielką wariancję), to obserwacje ułożą się na płaszczyźnie, mniej więcej tak jak rysunku: 12 A teraz diagram korelacyjny. Co to właściwie jest? Diagram korelacyjny, np. pomiędzy Y i X1 jest rzutem tej „chmury” czarnych punktów na płaszczyznę X1 Y . Wygląda to tak: A taka sytuacja: Diagram korelacyjny, np. pomiędzy Y i X1 wygląda teraz tak: A teraz co sugeruje diagram korelacyjny? 13 Co sugeruje diagram korelacyjny? Widzimy, że diagram korelacyjny wskazuje na całkowity brak „liniowej zależności liniowej (czy jakiejkolwiek innej) pomiędzy Y i X1, co jak wiemy, przeczy faktowi. Należy to zapamiętać: oglądanie obrazków 2D nic nam nie mówi na temat liniowości zależności w większym wymiarze. Już w 3D można się bardzo pomylić, a co dopiero w wymiarach, gdzie nawet nasza wyobraźnie nic nie jest wstanie nam podpowiedzieć! 14 Kolejny przykład – tym razem z beletrystyką Przykład 3. Model wielkości popytu na wycieczki statkiem zbudowany dla mieszkańców Tertapolis, wioski na jednej z wysepek na morzu egejskim. Zmienne objaśniające to cena wycieczek (od osoby) i liczba turystów znajdujących się w wiosce 15 Dane: P C L P C L Macierz korelacji P C L P C L 16 Zależność P od C Zależność P od L Związek C z L P = 205 − 51,3 C + 0.34 LL (16,5) (1,40) (0,01) Dla wyrazu wolnego wartość statystyki t=12,38 Dla zmiennej C wartość statystyki t=-36,7 Dla zmiennej L wartość statystyki t=33,6 Współczynnik determinacji : R2 = 98,6% Odchylenie standardowe zakłócenia Z: 13,5 17 Wybór modelu ze względu na cele (E.E. Leamer, Speccification Searches,1978) 1. Model interpretacyjny, gdy celem jest wyjaśnienie związku zachodzącego pomiędzy różnymi zmiennymi 2. Model najprostszy, zwykle gdy celem jest predykcja Dobór zmiennych Podejście Hendrego (D. Hendry 1979) Intended overparametrization with data-based simplification Najczęstsze sposoby (kryteria) upraszczania; 1. Test Studenta 2. Test Walda dla modelu z restrykcjami 3. Rozmaite kryteria wskaźnikowe 18 Dobór zmiennych Modelowanie krokowe - procedura komputerowa (Stepwise regression) (N. Draper, H. Smith, 1981) Krok 1 Dla wszystkich rozważanych zmiennych objaśniających X1,X2,...,Xk , wyliczmy wartości statystyki t w k modelach z jedną zmienną objaśniającą. Jeśli żadna ze zmiennych nie przekracza zadanego progu , kończymy modelowanie. W przeciwnym przypadku wybieramy tę, która ma największą wartość statystyki t i przechodzimy do kroku 2. Krok 2 Do modelu otrzymanego w kroku poprzednim dodajemy tę zmienną z pozostałych, która daje (po dołączeniu) największą wartość statystyki t Krok 3 Z otrzymanego modelu usuwamy jedną zmienną - tę dla której wartość statystyki t jest najmniejsza, o ile spadła poniżej zadanego progu. Krok 4 Powtarzamy kroki 2 i 3 aż zostaną wyczerpane wszystkie możliwości Modelowanie krokowe - procedura komputerowa (Stepwise regression) Główne wady modelowania krokowego Nie ma gwarancji, że otrzymany model jest najlepszy, gdyż nie wszystkie są rozpatrywane. Np. nie badamy modeli linearyzowalnych, liniowych względem parametrów, nie badamy interakcji pomiędzy zmiennymi. Nie uwzględnia się również możliwości wystąpienia nierzetelnych obserwacji ważących i odstających. Nie badamy nawet 2k możliwych modeli liniowych. Nie uwzględniane są inne kryteria jakości modelu. Algorytm nie uwzględnia łącznego efektu kilku zmiennych objaśniających Nie wykorzystuje wiedzy eksperckiej. 19 Modelowanie krokowe - procedura komputerowa (Stepwise regression) Warianty algorytmu 1. Selekcja w przód (forward selection). Zaczyna od modelu z jedną zmienna i następnie dodaje zmienne pojedynczo 2. Selekcja w tył (backward selection). Zaczyna od modelu ze wszystkimi zmiennymi, a następnie usuwa zmienne pojedynczo 3. Wykorzystywanie testu Walda (F-ratio) do badania łącznego wpływu grupy zmiennych (byłby to Krok 5 – badanie czy wśród odrzuconych nie znajduje się zmienna istotna - może się tak zdarzyć!) Inne ilościowe metody analizy danych w kontekście ich przydatności i wykorzystania w analizie regresji omówimy na kolejnych wykładach. W szczególności omówimy problem występowania: - obserwacji odstających - obserwacji ważących - współliniowości – jej detekcji i ewentualnym środkom zaradczym 20