slajdy 13 - Czaj.org
Transkrypt
slajdy 13 - Czaj.org
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność – regresja liniowa W regresji liniowej estymujemy następujące równanie: Yi Xi β i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne objaśniające są egzogeniczne tj. E Xi i 0 Jeżeli ten warunek jest niespełniony mówimy o endogeniczności zmiennych objaśniających Złamanie tego założenia ma poważne konsekwencje – estymator MNK przestaje być zgodny! Może wynikać z różnych przyczyn: Korelacja ze zmienną pominiętą Sprzężenie zwrotne między zmienna objaśnianą i objaśniającą czaj.org Metoda zmiennych instrumentalnych W tej metodzie niezbędne jest znalezienie tzw. zmiennych instrumentalnych, które mają tę własność, że są silnie skorelowane ze zmienną, którą podejrzewamy o endogeniczność, ale nie są skorelowane z błędem losowym. Często nie jest to zadanie łatwe. Podstawowym estymatorem jest tzw. Dwustopniowa Metoda Najmniejszych Kwadratów (2MNK) czaj.org Dwustopniowa Metoda Najmniejszych Kwadratów W pierwszym kroku liczymy regresję, w której wyjaśniamy wszystkie zmienne z podstawowego modelu zmiennymi instrumentalnymi. 1 ZZ ZX B Gdzie wśród zmiennych instrumentalnych mogą być Z egzogeniczne zmienne z X W drugim kroku wyjaśniamy przy użyciu wartości Y ZB dopasowanych z pierwszych regresji : X 1 β 2MNK X X X Y Estymator jest zgodny jeżeli instrumenty są nieskorelowane z błędem losowym Aby model skonwergował potrzebujemy co najmniej tyle samo zmiennych instrumentalnych co zmiennych endogenicznych czaj.org Przykład – wydatki na leki 1. 2. 3. 2SLS Wczytaj zbiór danych me.medexp3.lpj Przeprowadź zwykłą regresję liniową, w której logarytm wydatków na leki jest objaśniany przez to czy ktoś posiada dodatkowe ubezpieczenie od pracodawcy (hi_empun), liczbę chorób chronicznych (totchr), wiek (age), płeć (female), kolor skóry (blhisp) oraz logarytm dochodu (lhinc) Porównaj wyniki z estymatorem 2MNK, gdzie zmienna hi_empun jest endogeniczna, a jako instrument wykorzystana jest zmienna ssiratio. ; lhs = ... ; rhs = ... ; inst = lista zmiennych instrumentalnych $ czaj.org Przykład – wydatki na leki cd. 4. 5. Sprawdź czy wykorzystane instrumenty są dobrymi predyktorami zmiennej hi_empun. Porównaj wyniki z modelem, w którym wykorzystane są 3 dodatkowe instrumenty: firmsz, lowincom i multlc. czaj.org Testowanie endogeniczności W NLOGIT dostępne są dwa testy na endogeniczność 1. Test Hausmana Analogiczny do tego, którego używaliśmy do testowania hipotezy o IIA w wielomianowym modelu logitowym H0: endogeniczność nie występuje Test przeprowadza się porównując oszacowania parametrów w MNK i 2MNK. 2 Statystyka ma rozkład z liczbą stopni swobody równą liczbie endogenicznych zmiennych w modelu. czaj.org Testowanie endogeniczności Test Wu 2. H0: endogeniczność nie występuje Statystyka testowa: ssOLS ss AUGEMENTED K 2 F K 2 , n K1 2 K 2 ss AUGEMENTED n K1 2 K 2 ssOLS oznacza sumę kwadratów z podstawowej regresji liniowej ss AUGEMENTED oznacza sumę kwadratów z regresji, w której jako dodatkowe zmienne uwzględnione są reszty z regresji zmiennych endogenicznych na instrumentach K1 , K 2 to odpowiednio liczba zmiennych egzogenicznych i endogenicznych Statystyka ma rozkład F czaj.org Przykład – wydatki na leki cd. 6. REGR Przeprowadź testy Hausmana i Wu dla analizowanego modelu ; ; ; ; lhs = ... rhs = ... inst = lista zmiennych instrumentalnych Wu test $ czaj.org Endogeniczność w modelach dla zmiennej binarnej Dla zmiennych nieciągłych endogeniczność jest dużo większym problemem Przy użyciu estymatora Największej Wiarygodności można zdefiniować model wielorównaniowe Dla zmiennej binarnej z jedną zmienną endogeniczną można go zdefiniować w następujący sposób: Gdzie Yi *,1 X i β Yi ,2 i Yi ,2 Z i γ i Yi*,1 to zmienna indeksowa, której nie obserwujemy Yi *,1 0 Yi ,1 to zmienna binarna, obserwowalna, równa 1 gdy oraz 0 w pozostałych przypadkach Yi ,2 to zmienna endogeniczna czaj.org Endogeniczność w modelach dla zmiennej binarnej i i Endogeniczność wynika z korelacji między oraz . W tym modelu zakładamy, że zmienne te pochodzą z dwuwymiarowego rozkładu normalnego BN 0, , gdzie 1 2 Hipotezę o endogeniczności można testować sprawdzając istotność parametru Z założenia o normalności wynika, że model należy do klasy modeli probitowych Zdefiniowanie analogicznego modelu logitowego jest trudne czaj.org Przykład – posiadanie ubezpieczenia 1. 2. 3. 4. Wczytaj zbiór danych me.insurance2.lpj Zbuduj model wyjaśniający jakie cechy wpływają na zakup dodatkowego ubezpieczenia Wykorzystaj model Probitowy z endogenicznością, aby sprawdzić czy logarytm dochodu jest zmienną endogeniczną. Jako zmienne instrumentalne wykorzystaj zmienne retire i sretire. Czy wyniki się zmieniły? Czy można policzyć model bez dodatkowych zmiennych instrumentalnych? PROBIT ; lhs = zmienna binarna, endogeniczna zmienna ciągła ; rh1 = zmienne objaśniające zmienną binarną ; rh2 = lista zmiennych instrumentalnych$ czaj.org Symulacje Symulacje są przydatnym narzędziem, które pozwala na sprawdzenie czy dany model działa tak jak powinien Pozwalają sprawdzić jakie są konsekwencje nie spełnienia wybranych założeń modelu. Przydatne kiedy dany problem jest bardzo złożony i potrzeba zaawansowanych narzędzi matematycznych, aby przeanalizować go formalnie Zazwyczaj stosowane, aby pokazać, że w pewnym określonym przypadku model źle działa Wyniki symulacji wskazujące, że model działa poprawnie nie są, niestety, dowodem jego poprawności czaj.org Symulacje Algorytm, który przeprowadza symulację w uproszczeniu wygląda tak: 1. 2. 3. 4. 5. 6. 7. Wygeneruj zmienne objaśniające z wybranych rozkładów Wygeneruj błędy losowe z odpowiednich rozkładów Wygeneruj zmienne objaśniane używając założonego procesu generującego dane Oszacuj na takich danych model o wybranej specyfikacji Zapisz wyniki estymacji (zazwyczaj parametry modelu) Powtórz powyższe kroki wielokrotnie Przeanalizuj zapisane wyniki czaj.org Przykład 1. 2. 3. Przeprowadź symulację sprawdzającą jak działa regresja liniowa, ze stałą i jedną zmienną objaśniającą Przeprowadź symulację sprawdzającą jak działa regresja liniowa, ze stałą i dwiema zmiennymi objaśniającymi, kiedy jedna z nich jest endogeniczna (zakładamy, że powodem endogeniczności jest brakująca zmienna). Załóż, że istnieje tylko jedna zmienna instrumentalna. Przeprowadź symulację sprawdzającą czy estymator 2MNK poprawi wyniki w powyższym przypadku. czaj.org Praca domowa ME.13 (grupy 2‐3‐osobowe) 1. 2. UWAGA: W tej pracy domowej proszę nie przesyłać całego outputu z symulacji. A jedynie 3‐4 końcowe iteracje + końcowe wyniki. Przeprowadź symulację analogiczną do tej przeprowadzonej na zajęciach z dwiema zmiennymi objaśniającymi, z których jedna jest endogeniczna (endogeniczność wynika z brakującej zmiennej). Tym razem załóż jednak, że w procesie generującym dane są aż 3 zmienne instrumentalne. Sprawdź jaki wpływ na wyniki ma zastosowanie 1, 2 lub 3 zmiennych instrumentalnych w 2MNK (pomimo, że w procesie generującym dane są 3). Czy zwiększenie liczby zmiennych instrumentalnych poprawia wyniki? Porównaj wyniki dla różnych wielkości prób (100, 200 i 500 osób). Zmienną niestacjonarną nazywamy zmienną, która ma jakiś trend (np. liniowy lub kwadratowy). Wygeneruj dwie niezależne zmienne niestacjonarne i przeprowadź regresję jednej na drugiej. Przy użyciu symulacji sprawdź czy parametr w tej regresji ma rozkład normalny (używając testów statystycznych). Czy parametr ten jest różny od 0? czaj.org 2016‐01‐27 9:37:01