slajdy 13 - Czaj.org

Transkrypt

slajdy 13 - Czaj.org
Mikroekonometria
13
Mikołaj Czajkowski
Wiktor Budziński
Endogeniczność – regresja liniowa

W regresji liniowej estymujemy następujące równanie:
Yi  Xi β   i




Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne objaśniające są egzogeniczne tj. E  Xi i   0
Jeżeli ten warunek jest niespełniony mówimy o endogeniczności zmiennych objaśniających
Złamanie tego założenia ma poważne konsekwencje –
estymator MNK przestaje być zgodny!
Może wynikać z różnych przyczyn:


Korelacja ze zmienną pominiętą
Sprzężenie zwrotne między zmienna objaśnianą i objaśniającą
czaj.org
Metoda zmiennych instrumentalnych


W tej metodzie niezbędne jest znalezienie tzw. zmiennych instrumentalnych, które mają tę własność, że są silnie skorelowane ze zmienną, którą podejrzewamy o endogeniczność, ale nie są skorelowane z błędem losowym. Często nie jest to zadanie łatwe. Podstawowym estymatorem jest tzw. Dwustopniowa Metoda Najmniejszych Kwadratów (2MNK)
czaj.org
Dwustopniowa Metoda Najmniejszych Kwadratów

W pierwszym kroku liczymy regresję, w której wyjaśniamy wszystkie zmienne z podstawowego modelu zmiennymi instrumentalnymi. 1
   ZZ  ZX
B


Gdzie wśród zmiennych instrumentalnych mogą być Z
egzogeniczne zmienne z X
W drugim kroku wyjaśniamy przy użyciu wartości Y
  ZB

dopasowanych z pierwszych regresji :
X
1
β 2MNK


    
  X X X Y


Estymator jest zgodny jeżeli instrumenty są nieskorelowane z błędem losowym Aby model skonwergował potrzebujemy co najmniej tyle samo zmiennych instrumentalnych co zmiennych endogenicznych
czaj.org
Przykład – wydatki na leki
1.
2.
3.
2SLS
Wczytaj zbiór danych me.medexp3.lpj
Przeprowadź zwykłą regresję liniową, w której logarytm wydatków na leki jest objaśniany przez to czy ktoś posiada dodatkowe ubezpieczenie od pracodawcy (hi_empun), liczbę chorób chronicznych (totchr), wiek (age), płeć (female), kolor skóry (blhisp) oraz logarytm dochodu (lhinc)
Porównaj wyniki z estymatorem 2MNK, gdzie zmienna hi_empun jest endogeniczna, a jako instrument wykorzystana jest zmienna ssiratio. ; lhs = ...
; rhs = ...
; inst = lista zmiennych instrumentalnych $
czaj.org
Przykład – wydatki na leki cd.
4.
5.
Sprawdź czy wykorzystane instrumenty są dobrymi predyktorami zmiennej hi_empun.
Porównaj wyniki z modelem, w którym wykorzystane są 3 dodatkowe instrumenty: firmsz, lowincom i multlc. czaj.org
Testowanie endogeniczności
W NLOGIT dostępne są dwa testy na endogeniczność
1. Test Hausmana





Analogiczny do tego, którego używaliśmy do testowania hipotezy o IIA w wielomianowym modelu logitowym
H0: endogeniczność nie występuje
Test przeprowadza się porównując oszacowania parametrów w MNK i 2MNK. 2
Statystyka ma rozkład z liczbą stopni swobody równą liczbie endogenicznych zmiennych w modelu. czaj.org
Testowanie endogeniczności
Test Wu
2.






H0: endogeniczność nie występuje
Statystyka testowa:
 ssOLS  ss AUGEMENTED  K 2
F  K 2 , n  K1  2 K 2  
ss AUGEMENTED  n  K1  2 K 2 
ssOLS oznacza sumę kwadratów z podstawowej regresji liniowej
ss AUGEMENTED oznacza sumę kwadratów z regresji, w której jako dodatkowe zmienne uwzględnione są reszty z regresji zmiennych endogenicznych na instrumentach
K1 , K 2 to odpowiednio liczba zmiennych egzogenicznych i endogenicznych
Statystyka ma rozkład F
czaj.org
Przykład – wydatki na leki cd.
6.
REGR
Przeprowadź testy Hausmana i Wu dla analizowanego modelu
;
;
;
;
lhs = ...
rhs = ...
inst = lista zmiennych instrumentalnych
Wu test $
czaj.org
Endogeniczność w modelach dla zmiennej binarnej




Dla zmiennych nieciągłych endogeniczność jest dużo większym problemem
Przy użyciu estymatora Największej Wiarygodności można zdefiniować model wielorównaniowe
Dla zmiennej binarnej z jedną zmienną endogeniczną można go zdefiniować w następujący sposób:
Gdzie



Yi *,1  X i β  Yi ,2   i
Yi ,2  Z i γ  i
Yi*,1 to zmienna indeksowa, której nie obserwujemy
Yi *,1  0
Yi ,1 to zmienna binarna, obserwowalna, równa 1 gdy oraz 0 w pozostałych przypadkach
Yi ,2 to zmienna endogeniczna czaj.org
Endogeniczność w modelach dla zmiennej binarnej

i
i
Endogeniczność wynika z korelacji między oraz . W tym modelu zakładamy, że zmienne te pochodzą z dwuwymiarowego rozkładu normalnego BN  0,   , gdzie  1

 



 
 2 
Hipotezę o endogeniczności można testować sprawdzając 
istotność parametru Z założenia o normalności wynika, że model należy do klasy modeli probitowych
Zdefiniowanie analogicznego modelu logitowego jest trudne
czaj.org
Przykład – posiadanie ubezpieczenia
1.
2.
3.
4.
Wczytaj zbiór danych me.insurance2.lpj
Zbuduj model wyjaśniający jakie cechy wpływają na zakup dodatkowego ubezpieczenia
Wykorzystaj model Probitowy z endogenicznością, aby sprawdzić czy logarytm dochodu jest zmienną endogeniczną. Jako zmienne instrumentalne wykorzystaj zmienne retire i sretire. Czy wyniki się zmieniły? Czy można policzyć model bez dodatkowych zmiennych instrumentalnych? PROBIT ; lhs = zmienna binarna, endogeniczna zmienna ciągła
; rh1 = zmienne objaśniające zmienną binarną
; rh2 = lista zmiennych instrumentalnych$
czaj.org
Symulacje

Symulacje są przydatnym narzędziem, które pozwala na sprawdzenie czy dany model działa tak jak powinien




Pozwalają sprawdzić jakie są konsekwencje nie spełnienia wybranych założeń modelu. Przydatne kiedy dany problem jest bardzo złożony i potrzeba zaawansowanych narzędzi matematycznych, aby przeanalizować go formalnie
Zazwyczaj stosowane, aby pokazać, że w pewnym określonym przypadku model źle działa
Wyniki symulacji wskazujące, że model działa poprawnie nie są, niestety, dowodem jego poprawności
czaj.org
Symulacje

Algorytm, który przeprowadza symulację w uproszczeniu wygląda tak:
1.
2.
3.
4.
5.
6.
7.
Wygeneruj zmienne objaśniające z wybranych rozkładów
Wygeneruj błędy losowe z odpowiednich rozkładów
Wygeneruj zmienne objaśniane używając założonego procesu generującego dane
Oszacuj na takich danych model o wybranej specyfikacji
Zapisz wyniki estymacji (zazwyczaj parametry modelu)
Powtórz powyższe kroki wielokrotnie
Przeanalizuj zapisane wyniki
czaj.org
Przykład
1.
2.
3.
Przeprowadź symulację sprawdzającą jak działa regresja liniowa, ze stałą i jedną zmienną objaśniającą
Przeprowadź symulację sprawdzającą jak działa regresja liniowa, ze stałą i dwiema zmiennymi objaśniającymi, kiedy jedna z nich jest endogeniczna (zakładamy, że powodem endogeniczności jest brakująca zmienna). Załóż, że istnieje tylko jedna zmienna instrumentalna.
Przeprowadź symulację sprawdzającą czy estymator 2MNK poprawi wyniki w powyższym przypadku. czaj.org
Praca domowa ME.13 (grupy 2‐3‐osobowe)

1.
2.
UWAGA: W tej pracy domowej proszę nie przesyłać całego outputu z symulacji. A jedynie 3‐4 końcowe iteracje + końcowe wyniki. Przeprowadź symulację analogiczną do tej przeprowadzonej na zajęciach z dwiema zmiennymi objaśniającymi, z których jedna jest endogeniczna (endogeniczność wynika z brakującej zmiennej). Tym razem załóż jednak, że w procesie generującym dane są aż 3 zmienne instrumentalne. Sprawdź jaki wpływ na wyniki ma zastosowanie 1, 2 lub 3 zmiennych instrumentalnych w 2MNK (pomimo, że w procesie generującym dane są 3). Czy zwiększenie liczby zmiennych instrumentalnych poprawia wyniki? Porównaj wyniki dla różnych wielkości prób (100, 200 i 500 osób). Zmienną niestacjonarną nazywamy zmienną, która ma jakiś trend (np. liniowy lub kwadratowy). Wygeneruj dwie niezależne zmienne niestacjonarne i przeprowadź regresję jednej na drugiej. Przy użyciu symulacji sprawdź czy parametr w tej regresji ma rozkład normalny (używając testów statystycznych). Czy parametr ten jest różny od 0? czaj.org
2016‐01‐27 9:37:01