slajdy 11 - Czaj.org
Transkrypt
slajdy 11 - Czaj.org
Mikroekonometria 11 Mikołaj Czajkowski Wiktor Budziński Modele binarne – dane panelowe Co jeśli mamy do dyspozycji dane panelowe? Kilka obserwacji od tych samych respondentów, w różnych punktach czasu (np. ankieta realizowana co roku) Yit∗ Yit = X it β + ε it = 1 ( X it β + ε it > 0 ) ; i = 1,..., N ; t = 1,..., Ti Możemy spodziewać się korelacji składników losowych (ε) dla tych samych osób / grup (nawet jeśli pomiędzy osobami/grupami nadal będą niezależne) Połączenie wszystkich danych i zignorowanie korelacji powoduje problemy (estymator ML nie będzie zgodny) Estymacja wszystkich korelacji wymaga szacowania prawdopodobieństwa z Ti-mianowego rozkładu Trudne z uwagi na charakter obserwowalnej zmiennej (0 lub 1) i zwykle niewielką liczbę obserwacji dla osoby (Ti) czaj.org Modele binarne – dane panelowe Alternatywna specyfikacja Yit∗ = X it β + υit + ui Yit ∗ it = 1 (Y > 0 ) ; i = 1,..., N ; t = 1,..., Ti mierzy nieobserwowalną, specyficzną dla osoby heterogeniczność Forma zależności między ui a X it daje model z efektami 'losowymi' lub 'stałymi' ui Model z efektami losowymi – ui i X it niezależne Narzuca restrykcje na rozkład heterogeniczności w populacji Model z efektami stałymi – ui i X it mogą być skorelowane Brak restrykcji, ale może powodować problem przypadkowych parametrów Forma modelu nie oznacza, że efekty są takie czy inne – to tylko wybór ekonometrycznego podejścia do problemu czaj.org Modele binarne – dane panelowe* Model efektów losowych Model efektów losowych zakłada, że ε it = υit + ui υit i ui to niezależne zmienne losowe E (υit |X ) = 0 ; Cov (υit ,υ js |X ) = Var (υit |X ) = 1 if i = j i t = s (0 w p.p.) E ( ui |X ) = 0 ; Cov ( ui , u j |X ) = Var ( uit |X ) = σ u2 if i = j (0 w p.p.) Cov (υit , u j |X ) = 0 Dla danych przekrojowych (cross-section, bez panelu) krańcowe prawdopodobieństwo to: Ui Pr (Yi |X i ) = f ( ε i ) dε i Li ( Li ,Ui ) = ( −∞ , −X i β ) gdzie ( Li ,Ui ) = ( −X i β, ∞ ) jeśli Yi = 0 jeśli Yi = 1 Probit – Φ ( ( 2Yi − 1) X i β ) , logit – Λ ( ( 2Yi − 1) X i β ) czaj.org Modele binarne – dane panelowe* Model efektów losowych W ogólnym przypadku (przy braku restrykcji) wkład osoby (grupy) i do funkcji LL to łączne prawdopodobieństwo Ti obserwacji ( UiTi Ui 1 ) ... f (ε Pr Yi 1 ,...,YiTi |X = LiTi i1 ) ,..., ε iTi dε i 1 ...ε iTi Li 1 Całkowanie takiej funkcji zwykle jest 'mało praktyczne' Dla modelu efektów losowych można jednak dostać funkcje gęstości poszczególnych υit wyciągając ui z łącznej gęstości ( ε i 1 ,..., ε iT , ui ) : ( ) ( ) i f ε i 1 ,..., ε iTi , ui = f ε i 1 ,..., ε iTi |ui f ( ui ) ( ) f (ε f ε i 1 ,..., ε iTi = i1 −∞ Wtedy dostajemy: ( ∞ UiTi Ui 1 ∞ ) ,..., ε iTi |ui f ( ui ) dui Ti ) ... ∏ f (ε Li = Pr Yi 1 ,...,YiTi |X = LiTi Li 1 −∞ t =1 it |ui ) f ( ui ) dui dε i 1 ...ε iTi czaj.org Modele binarne – dane panelowe* Model efektów losowych Przedziały całkowania są niezależne, więc można odwrócić kolejność UiTi Ui 1 Ti Li = Pr Yi 1 ,...,YiTi |X = ... ∏ f ( ε it |ui ) dε i 1 ...ε iTi Li 1 t =1 −∞ LiTi ( ) ∞ f ( ui ) dui A teraz elementy w nawiasie są niezależne, więc Ti Uit Li = Pr Yi 1 ,...,YiTi |X = ∏ f ( ε it |ui ) dε it f ( ui ) dui −∞ t =1 Lit ( ) ∞ Wewnętrzna całka to to samo co dla zwykłego probit/logit Zewnętrzna – wymaga założenia o rozkładzie ui Inne metody estymacji (przybliżania wartości całek) Kwadratura Gaussa-Hermite’a Maksymalizacja symulowanej wartości funkcji ML (o tym później) czaj.org Przykład – opieka zdrowotna w Niemczech 1. Wczytaj projekt me.gerhealth.lpj 2. Skonstruuj model, w którym odbycie wizyty u lekarza (Y = 1(docvis > 0)) wyjaśniane jest przez stałą, wiek, dochód, posiadanie dzieci, liczbę lat edukacji i bycie w małżeństwie Skonstruuj model traktując wszystkie obserwacje jako niezależne 1. Dlaczego współczynniki przy dochodzie są takie dziwne? Skonstruuj model efektów losowych 2. Czy korelacje są istotne? Dlaczego model konwerguje dłużej? Porównaj wyniki 3. Charakterystyki modeli, parametry, efekty krańcowe SETPANEL ; ; MODEL ; ; ; group = <zmienna identyfikująca osoby> pds = <liczba obserwacji dla osoby (zmienna)> $ ... panel random effects $ czaj.org Modele binarne – dane panelowe Model efektów stałych Model efektów losowych nakłada pewne restrykcje Określony rozkład ui Stałe korelacje pomiędzy okresami Model efektów stałych Yit∗ Yit = α i dit + X it β + ε it = 1 (Y > 0 ) ∗ it ; i = 1,..., N ; t = 1,..., Ti dit = 1 dla respondenta i, 0 w p.p. (w modelu jedna stała dla każdej osoby) Xit nie zawiera teraz stałej Model wymaga estymacji dodatkowych N-1 parametrów! Mogą ich być tysiące czaj.org Modele binarne – dane panelowe Model efektów stałych Funkcja LL dla modelu efektów stałych N T ln L = lnPr (Yit |α i + X it β ) i =1 t =1 Krańcowe prawdopodobieństwo (Pr) może mieć jedną z form poznanych wcześniej (np. logit, probit, …) Funkcja nieco trudniejsza w estymacji (z powodu rozmiaru), ale nie to jest głównym problemem Problemy statystyczne czaj.org Modele binarne – dane panelowe Model efektów stałych Możliwe problemy statystyczne W praktyce – zwykle Ti jest stałe i … małe Każde αi szacowane na podstawie Ti obserwacji Model może nie konwergować Estymator β także może nie być zgodny, bo jest funkcją α Obciążenie rzędu 100% (T = 2) – 10% (T = 8) Problem przypadkowych parametrów Model jest nieidentyfikowalny jeśli występują w nim zmienne objaśniające, które nigdy nie zmieniają się z okresu na okres Model jest nieidentyfikowalny dla obserwacji, dla których zmienna objaśniana ma tę samą wartość w każdym okresie (m.in. dla obserwacji dla których Ti = 1) czaj.org Przykład – opieka zdrowotna w Niemczech Skonstruuj model efektów stałych 3. Czy wszystkie obserwacje zostały wykorzystane? MODEL 4. ; ; ; ; Grupy o tej samej wartości zmiennej objaśnianej we wszystkich Ti ... rhs = ... ? należy pominąć stałą panel fixed effects$ Skonstruuj model z efektem stałym dla osób i lat jednocześnie ; time effects (= <zmienna określająca nr okresu>) czaj.org Praca domowa ME.11 (grupy 3-4-osobowe) Dane zawarte w me.usahealth.lpj pochodzą z eksperymentu społecznego w USA, w którym rodziny losowo przyporządkowano do różnych rodzajów ubezpieczeń medycznych i przez kilka lat zbierano dane o tym, jak z nich korzystają. Celem badania było sprawdzenie, w jaki sposób wysokość udziału własnego (coinsurance rate) wpływa na korzystanie z usług medycznych. Proszę to zweryfikować. 1. 1. 2. 3. 4. Uwzględniając panelowy charakter danych, skonstruuj model efektów losowych wyjaśniający to, czy osoba skorzystała w danym roku z wizyty u lekarza (mdu > 0). Uwzględniając panelowy charakter danych, skonstruuj model efektów losowych wyjaśniający to, czy osoba poniosła jakiekolwiek wydatki na pozaszpitalną opiekę medyczną (med > 0). Zbadaj, czy w powyższych modelach istnieją statystycznie istotne efekty stałe dla lat. Czy w poszczególnych latach prawdopodobieństwa wizyty u lekarza lub poniesienia kosztu na opiekę medyczną były takie same? Czy cel badania można osiągnąć stosując model efektów stałych? czaj.org Wybór uporządkowany – dane panelowe Efekty stałe yit∗ = δ i + X it β + ε it yit = j dla α j −1 < yit∗ < α j P ( yit = j |X i ) = F ( j , α , δ i + X it β ) − F ( j − 1, α , δ i + X it β ) Estymacja nie jest dużo bardziej skomplikowana Funkcja ML jest wklęsła Problemem – mała próba (problem przypadkowych parametrów) czaj.org Case study – analiza odpowiedzi na pytania światopoglądowe dotyczące Morza Bałtyckiego Wykorzystaj zbiór me.baltic.lpj do przeanalizowania, jakie charakterystyki respondentów pozwalają wyjaśnić ich odpowiedzi na pytanie o ocenę stanu ekologicznego Bałtyku (envw) 2. 2. Uzupełnij model o efekty stałe dla poszczególnych krajów (pseudo-panel) ORDERED; lhs = ... ? zmienna o wartościach od 0 do J-1 ; rhs = ... (; model = logit ? opcjonalnie - domyślnie probit) ; ... $ ► ► Ręcznie: ► Dodaj zmienne binarne dla krajów (zamiast stałej) Automatycznie (tu nie zadziała – zbyt dużo 'okresów'): ► Oszacuj model bez efektów stałych ► Oszacuj model z '; fixed effects' ► Dodaj '; pds = ...' - liczba obserwacji dla klastra (muszą być po kolei; liczba lub zmienna) ► Ewentualnie '; time = ...' - efekty stałe dla okresów ('= ...' jest opcjonalne, zmienna z numerem okresu obserwacji) czaj.org Wybór uporządkowany – dane panelowe Efekty losowe yit∗ = X it β + ε it + ui ui N ( 0,σ 2 ) yit = j dla α j −1 < yit∗ < α j P ( yit = j |X i , ui ) = F ( j , α , X it β + ui ) − F ( j − 1, α , X it β + ui ) Prawdopodobieństwo jest warunkowe po ui, które jest zmienną losową – trzeba całkować Estymacja – jak dla modeli binarnych z efektami losowymi Symulacje lub kwadratura Gaussa-Hermite’a ORDERED; ... ; pds = ... ? lub ; panel ; ... $ ? niedodanie '; fixed effects' oznacza model efektów losowych czaj.org Przykład – wybór uporządkowany – dane panelowe Dla me.baltic.lpj model z efektami losowymi nie zadziała (ponad 1000 obserwacji dla jednego klastru – zbyt skomplikowana funkcja łącznego prawdopodobieństwa) Przykładowy kod – dla projektu me.gerhealth.lpj skonstruowano model, w którym satysfakcja z własnego stanu zdrowia (hstat) wyjaśniana jest przez dochód, posiadanie dzieci i liczbę lat edukacji Model efektów stałych Model efektów losowych czaj.org Modele liczności zdarzeń – dane panelowe Dane panelowe – 2 standardowe podejścia log ( λit ) = α i + X it β ( +ε it dla neg-bin ) Model efektów stałych αi estymowane dla każdego respondenta osobno Model nie wymaga zmienności yit w grupie Wymaga, żeby co najmniej jedno yit było >0 Nie może zawierać stałej Identyfikacja za pomocą innej postaci funkcyjnej Model efektów losowych exp (α i ) Γ (θ ,θ ) E ( exp (α i ) ) = 1 var ( exp (α i ) ) = 1 θ Dla modelu ujemnego dwumianowego – parametr dyspersji losowy, specyficzny dla grup (respondentów) czaj.org Modele liczności zdarzeń – dane panelowe Modele liczności zdarzeń uwzględniające panelową strukturę danych w NLOGIT ► Zdefiniuj panelową strukturę danych ('SETPANEL') W modelu: ► '; panel' Dotyczy modeli efektów stałych, efektów losowych, parametrów z heterogenicznością preferencji (o tym później) Wykorzystanie bezwarunkowego estymatora - '; FEM' ► Teoretycznie bardziej poprawny (brak pewnych uproszczeń), ale problem przypadkowych parametrów Dwupoziomowe efekty stałe – '; time = ...' ► ► ► ► czaj.org Praca domowa ME.11 (grupy 3-4-osobowe) – c.d. 2. Wykorzystując projekt me.gerhealth.lpj, uwzględniając panelowy charakter danych sprawdź jakie zmienne pozwalają wyjaśnić liczbę wizyt respondentów u lekarza czaj.org 10.12.2015 16:52:45