Mikroekonometria 10
Transkrypt
Mikroekonometria 10
Mikroekonometria 10 Mikołaj Czajkowski Wiktor Budziński Wybór uporządkowany Wybór uporządkowany (ang. ordered choice) Wybór jednej z wielkości na podanej skali Skala – wartości są uporządkowane Przykłady: Oceny konsumenckie produktów (IMDB, Amazon, etc.) Ratingi (S&P, Moody’s) Dane ankietowe (satysfakcja z życia, stan zdrowia, etc.) Skala Likerta czaj.org Wybór uporządkowany Model funkcji wskaźnikowej / użyteczności losowej yi∗ = X i β + ε i X – charakterystyki konsumenta Zwykle – liniowa specyfikacja funkcji ε – składnik losowy, nieobserwowalne indywidualne idiosynkratyczności Rozkład normalny – uporządkowany probit Rozkład logistyczny – uporządkowany logit Obserwujemy J różnych ocen Interesuje nas estymacja β oraz J-1 progów, które kategoryzują (cenzurują) y* na y −∞ < y ∗ < +∞ i yi = j dla α j −1 < y < α j ∗ i yi = 1,..., J czaj.org Wybór uporządkowany Obserwujemy yi = 1 dla yi∗ ≤ α 1 yi = 2 dla α 1 < yi∗ ≤ α 2 ... yi = J α1 −∞ yi = 1 α2 yi = 2 dla yi∗ > α J −1 α J −1 +∞ yi = J Jeśli w modelu (X) jest stała, to tak jakby α1 = 0 (normalizacja) czaj.org Wybór uporządkowany Model jest nieliniowy … P ( y i = 1|X i ) = F (α 1 − Xβ ) P ( y i = 2|X i ) = F (α 2 − Xβ ) − F (α 1 − Xβ ) ... P ( y i = J |X i ) = 1 − F (α J −1 − Xβ ) … ponieważ F (dystrybuanta rozkładu normalnego, logistycznego, … ) jest funkcją nieliniową Prawdopodobieństwa muszą być dodatnie, więc: α 1 < α 2 < ... < α J −1 czaj.org Wybór uporządkowany – funkcja ML Z prawdopodobieństw – funkcja największej wiarygodności N ln L = ln ( P ( yi ) ) i =1 Suma logarytmów prawdopodobieństw wybranych wartości I dalej estymacja normalnie czaj.org Case study – analiza odpowiedzi na pytania światopoglądowe dotyczące Morza Bałtyckiego Ahtiainen et al. (2013) – badanie reprezentatywnej próby mieszkańców 9 krajów nadbałtyckich (n = 9627) Wśród pytań – pytania światopoglądowe, m.in.: Martwi mnie stan środowiska Morza Bałtyckiego Ja także wpływam na stan środowiska Morza Bałtyckiego Skala odpowiedzi: 1 – zdecydowanie się nie zgadzam 2 – raczej się nie zgadzam 3 – trudno powiedzieć 4 – raczej się zgadzam 5 – zdecydowanie się zgadzam czaj.org Case study – analiza odpowiedzi na pytania światopoglądowe dotyczące Morza Bałtyckiego 1. Wykorzystaj zbiór me.baltic.lpj do przeanalizowania, jakie charakterystyki respondentów pozwalają wyjaśnić ich odpowiedzi na pytanie o ocenę stanu ekologicznego Bałtyku (envw) ORDERED; lhs = ... ? zmienna o wartościach od 0 do J-1 ; rhs = ... (; model = logit ? opcjonalnie - domyślnie probit) ; ... $ ► ► Pierwszy próg jest normalizowany do 0 ► Model musi zawierać stałą jako pierwszą zmienną objaśniającą Wszystkie wartości zmiennej lhs (0,J-1) muszą występować w danych ► Inaczej jeden z progów niemożliwy do estymacji czaj.org Interpretacja wyników Interpretacja parametrów Znaki – jak zmienia się y* ze zmianą X Efekty krańcowe – nieliniowe, wymagają uwzględnienia formy funkcyjnej i poziomów X ; partial effects PARTIALS; ... SIMULATE; ... czaj.org Rozszerzenia – heteroskedastyczność Rozluźnienie założenia o stałości wariancji składnika 2 σ ( losowego ε = 1) i Dodanie obserwowalnych zmiennych (z) objaśniających wariancję składnika losowego (multiplikatywnie) 2 σ ε2 = exp ( γ′zi ) i ORDERED; ; ; ; ; 1. lhs rhs het hfn ... = ... = ... = ... ? zmienne objaśniające dla wariancji e $ Uzupełnij model wyjaśniający oceny stanu ekologicznego Bałtyku o możliwość zróżnicowania wariancji składnika losowego względem krajów czaj.org Liczność zdarzeń Liczność zdarzeń (ang. count data) Zmienna objaśniana przyjmuje wartości całkowite (0,1,2,…) Liczby mają bezpośrednią interpretację Przykłady: liczba wizyt u lekarza, w parku narodowym, na basenie, liczba zachorowań w danym okresie / na jednostce powierzchni, liczba aresztowań, zabójstw, dzieci, liczba wadliwych sztuk w procesie produkcyjnym, … czaj.org Regresja Poissonowska Potrzebna metoda, która uwzględni charakter zmiennej zależnej Regresja Poissona Zmienna zależna yi traktowana jak zmienna losowa o rozkładzie Poissona exp ( −λi ) λiyi P (Y = y i | X i ) = ln ( λi ) = X i β Oczekiwana liczba zdarzeń w okresie yi ! E ( yi |X i ) = var ( yi |X i ) = λi = exp ( X i β ) Silne założenie modelu: średnia = wariancji rozkładu – wrócimy do tego czaj.org Regresja Poissonowska – estymacja Model Poissonowski można estymować za pomocą regresji nieliniowej, ale prościej za pomocą metody ML Funkcja LL – suma logarytmów prawdopodobieństw zaobserwowanych ilości N ln L = ( −λi + yi X i β − ln ( yi !) ) i =1 Gradient Hesjan Hesjan ujemnie określony dla wszystkich β i X Optymalizacja metodą Newtona ∂ ln L N = X i ( yi − λi ) ∂β i =1 N ∂ 2 ln L = − λi X i X i′ ∂β∂β′ i =1 czaj.org Case study – liczba podróży nad Morze Bałtyckie Ahtiainen et al. (2013) – badanie reprezentatywnej próby mieszkańców 9 krajów nadbałtyckich (n = 9627) Pytania dotyczące liczby podróży nad Morze Bałtyckie w ciągu ostatnich 12 miesięcy i szczegółów ostatniej podróży 1. Dystans, środek transportu, czas, … Wykorzystaj zbiór me.baltic.lpj do przeprowadzenia regresji Poissonowskiej liczby wizyt nad morze (TRIPS), wyjaśniając je stałą specyficzną dla kraju i kosztem podróży (TC_km) POISSON; lhs = ... ; rhs = ... ; ... $ czaj.org Case study – liczba podróży nad Morze Bałtyckie Oczekiwana liczba podróży jest funkcją m.in. kosztu podróży E ( yi |X i ) = exp ( X i β ) Funkcja popytu Parametr przy koszcie jest ujemny, więc funkcja y = exp ( − x ) ma taki kształt: czaj.org Case study – liczba podróży nad Morze Bałtyckie Funkcja popytu dana przez E ( yi |X i ) = exp ( X i β ) Nadwyżka konsumenta (na podróż) to: CS = +∞ exp ( β x ) dx = − 0 1 β Minus odwrotność parametru przy koszcie podróży! SIMULATE ; scenario: & tc_km = 0(10)150 ; plot $ WALD ; fn1 = -1/b_tc_km $ 2. Oszacuj nadwyżkę konsumenta biorąc pod uwagę także koszt alternatywny czasu podróży (TC_time) czaj.org Regresja Poissonowska – ekwidyspersja Jednym z założeń modelu – ekwidyspersja Średnia = wariancja rozkładu E ( y i |X i ) = var ( y i |X i ) = λi = exp ( β′X i ) To założenie może w praktyce nie być spełnione Test nadmiernej dyspersji: H0 : var ( y i ) = E ( yi ) H1 : var ( yi ) = E ( yi ) + α g ( E ( yi ) ) Prosta regresja liniowa zi na wi Gdzie: ( z = i yi − λˆi ) 2 λˆi 2 − yi wi = ( ) g λˆi λˆi 2 ( ) ( ) g λˆi = λˆi lub g λˆi = λˆi2 λ̂i – średnia przewidywana przez model Rozkład chi-kwadrat z 1 stopniem swobody – czy α jest istotne? NLOGIT automatycznie podaje statystykę testu dla obu wariantów czaj.org Regresja Poissonowska – ekwidyspersja 3. Sprawdź czy regresja Poissona jest w naszym przypadku uzasadniona ► Wartość krytyczna rozkładu chi-kwadrat z 1 stopniem swobody = 3.84 ► Większe wartości – odrzucamy hipotezę zerową ► Restrykcja ekwidyspersji nieuzasadniona ► Trzeba wybrać mniej restrykcyjny model czaj.org Model ujemny dwumianowy Model ujemny dwumianowy – rozszerzenie modelu Poissona, poprzez wprowadzenie nieobserwowalnej heterogeniczności do średniej ln (E ( yi |X i ) ) = X i β + ε i = ln λi + ln ui yi (pod warunkiem xi i ui) ma rozkład Poissona z warunkową średnią i wariancją μi exp ( −λi ui )( λi ui ) i y f ( y i |X i , ui ) = yi ! Bezwarunkowy rozkład f ( yi |X i ) f ( y i |X i ) = +∞ 0 exp ( −λi ui )( λi ui ) i y yi ! g ( ui ) dui czaj.org Model ujemny dwumianowy Funkcja gęstości ui determinuje bezwarunkowy rozkład yi Wygodnie założyć rozkład gamma, E (ui ) = 1 θθ g ( ui ) = exp ( −θ ui ) uiθ −1 Γ (θ ) Wtedy bezwarunkowy rozkład yi dany jest przez f ( y i |X i ) = +∞ exp ( −λi ui )( λi ui ) i θ θ uiθ −1 exp ( −θ ui ) y yi ! 0 = = θ θ λiy Γ (θ ) dui +∞ i Γ ( yi + 1 ) Γ (θ ) θ + yi −1 exp − λ + θ u u dui ( ) ( ) i i i 0 θ θ λiy Γ (θ + yi ) i θ + yi Γ ( yi + 1 ) Γ (θ )( λi + θ ) czaj.org Model ujemny dwumianowy Warunkowa średnia λi Warunkowa wariancja λi (1 + (1 θ ) λi ) Uwagi: 1 θ =0 Ekwidyspersję można przetestować ex post jako Możliwe inne specyfikacje ui – np. rozkład normalny POISSON; ... ; heterogeneity $ Normalną nieobserwowalną heterogeniczność można dodać także do modelu ujemnego dwumianowego* NEGBIN ; ... ; heterogeneity $ czaj.org Case study – liczba podróży nad Morze Bałtyckie Skonstruuj model regresji ujemnej dwumianowej 4. NEGBIN ; lhs = ... ; rhs = ... ; ... $ Czy restrykcja 1 θ = 0 jest uzasadniona? Czy zmieniły się oszacowania CS? czaj.org Model ujemny dwumianowy – inne formy Powyższa specyfikacja to tylko jedna z możliwych – NB-2 Inna możliwość NB-1 POISSON; model = NB1; … $ θ zamieniamy na θλi Funkcja gęstości przyjmuje formę: P (Y = y i | X i ) = Ogólniej – NB-P Γ (θλi + y i )θ θλi y +θλi Γ ( y i + 1 ) Γ (θλi )(1 + θ ) i POISSON; model = NBP; … $ (z modelu NB-2) zamieniamy na θλi2−P Dodatkowy parametr P θ i Γ (θλi2 −P + yi )θ θλi θλi2 −P λi P (Y = y i | X i ) = 2−P 2−P Γ ( yi + 1 ) Γ (θλi2 −P ) θλi + λi θλi + λi y θλi2−P Modele NB-1 i NB-2 to szczególne przypadki, dla P=1 i P=2 czaj.org Model ujemny dwumianowy – inne formy Dla tych modeli Warunkowa średnia E ( yi | X i ) = exp ( β′X i ) = λi Warunkowa wariancja var ( yi | X i ) = λi (1 + (1 θ ) λiP −1 ) Istnieje wiele innych specyfikacji i postaci funkcyjnych Uogólniony model Poissona POISSON; model = GP / GP1 / GP2 / GPP; … $ Gamma POISSON; model = gamma; … $ Polya-Aeppli POISSON; model = polya; … $ Neg-Bin X POISSON; model = NBX; … $ Rozkład logarytmiczny Dla zbiorów o dużych wartościach yi (kilkadziesiąt-kilkaset) – dość dobrze działają rozkłady ciągłe czaj.org Model ujemny dwumianowy – heteroskedastyczność Jednym z możliwych rozszerzeń modelu – heteroskedastyczność Heterogeniczność średniej i wariancji zawsze ważna dla danych mikroekonomicznych Parametr dyspersji θ wyłapuje ogólne skalowanie rozkładu (średnia vs. wariancja) więc nie umożliwia heteroskedastyczności Ogólnie wariancja to var ( yi | X i ) = λi (1 + (1 θ ) λiP −1 ) Zróbmy więc θ i = θ exp ( δ′Z i ) Teraz θ (a więc ogólniej – wariancja) funkcją obserwowalnych zmiennych charakteryzujących respondentów Z 5. Skonstruuj model regresji ujemnej dwumianowej z heteroskedastycznością obserwacji dla różnych krajów NEGBIN ; ... ; hfn = ... $ czaj.org Praca domowa ME.10 (grupy 2 lub 3-osobowe) Wykorzystaj projekt me.baltic.lpj do przeanalizowania, jakie charakterystyki respondentów pozwalają wyjaśnić ich ocenę własnego wpływu na środowisko Bałtyku (ienv) 1. 1. 2. Wybierz najlepszą, Twoim zdaniem, specyfikację Zinterpretuj wyniki używając interpretacji jakościowej oraz ilościowej (wykorzystując efekty cząstkowe) Wykorzystując projekt me.baltic.lpj skonstruuj model liczności zdarzeń objaśniający liczbę wycieczek nad Bałtyk 2. 1. 2. Wybierz najlepszą, Twoim zdaniem, postać funkcyjną i specyfikację Zinterpretuj wyniki używając interpretacji jakościowej oraz ilościowej (wykorzystując efekty cząstkowe) czaj.org 04.12.2015 11:49:49