slajdy 6
Transkrypt
slajdy 6
Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński 'Nietypowe' zmienne objaśniane Problemy mikroekonometryczne – często zmienna objaśniana nie jest ciągła lub jej wartość nie ma bezpośredniej interpretacji ilościowej Zmienną objaśnianą jakiś wskaźnik o ocenzurowanych wartościach – np. decyzja o zakupie, głosowanie, wybór spośród dostępnych alternatyw, deklarowany poziom jakiejś wielkości (w podanej skali) itp. Wynikiem optymalizacji może być rozwiązanie brzegowe Estymatory MNK nie są zgodne -> estymacja MNW czaj.org 'Nietypowe' zmienne objaśniane Przykłady modeli dla nieciągłych zmiennych objaśnianych Wybór binarny (ang. binary choice) Wybór jednej z dwóch możliwości Np. podjęcie działania czy nie – dojazd transportem publicznym, kupno ubezpieczenia 0/1 oznacza nie/tak Wybór wielomianowy (ang. multinomial choice) Wybór jednej z więcej niż dwóch możliwości Tej, która dostarcza największej użyteczności Pozwala modelować preferencje konsumentów Np. wybór marki, produktu, sposobu dojazdu do pracy 0/1 oznacza nie wybraną/wybraną alternatywę czaj.org 'Nietypowe' zmienne objaśniane Przykłady modeli dla nieciągłych zmiennych objaśnianych Wybór uporządkowany (ang. ordered choice) Wybór jednej z wielkości na podanej skali Ujawnia siłę preferencji Wartości liczbowe są na skali porządkowej, nie absolutnej Np. ocena filmu, własnego stanu zdrowia, zadowolenia z produktu, miejsce w rankingu 4 oznacza lepiej niż 2, ale niekoniecznie 2 razy lepiej Liczność zdarzeń (ang. event counts) Obserwowane są wielkości całkowite Np. liczba wizyt u lekarza, w parku narodowym, na basenie, liczba zachorowań, aresztowań, dzieci, liczba wadliwych sztuk w procesie produkcyjnym w ciągu roku czaj.org Modele binarne Obserwujemy wynik (Y = 0 lub Y = 1) Interesuje nas jak można go przewidywać Prawdopodobieństwo Y = 0 / prawdopodobieństwo Y = 1 Funkcja zmiennych objaśniających X, Pr(Y) = Xβ Jakie powinny być parametry (β)? Jaka jest interpretacja takiego modelu? Jaki jest wzór na to prawdopodobieństwo, jako funkcja Xβ? W jaki sposób wykorzystać dane (obserwacje) do oszacowania β? czaj.org Modele binarne – modele dla zmiennej ukrytej Modele binarne można zinterpretować jako modele funkcji wskaźnikowej Wyjaśniana jest losowa, ciągła zmienna y* ale obserwowana jest tylko zmienna binarna y, która przyjmuje wartość 0 lub 1 w zależności od tego, czy y* przekracza wartość graniczną (np., po normalizacji, 0) ∗ y = β′X + ε y ∗ nie jest obserwowalne, obserwujemy tylko: Pr [ y = 1|X ] = Pr y ∗ > 0 = Pr [β′X + ε > 0] = Pr [ −ε < β′X ] = F ( β′X ) jeśli y ∗ > 0 jeśli y ∗ ≤ 0 F jest dystrybuantą ε 1 y= 0 Zwykle o gęstości symetrycznej względem 0 Pozostaje tylko wybrać odpowiedni rozkład ε czaj.org Modele dla zmiennej ukrytej Modele funkcji wskaźnikowej Np. obserwujemy 1 gdy student nigdy nie miał żadnych warunków, 0 jeśli miał Tworzymy funkcję wskaźnikową, w której y wyjaśniane jest zmiennymi socjodemograficznymi studentów X (wiek, płeć, IQ, dochód, rok studiów, …) i stałą ∗ ′ Jeśli wybierzemy jakiś rozkład ε to wzór na prawdopodobieństwo (dystrybuantę) będzie znany Stała pozwala znormalizować wartość graniczną do 0 y =β X +ε 1 y= 0 Pr [ y = 1|X ] = Pr y ∗ > 0 O tym za chwilę -> logit, probit Znając wzór na to prawdopodobieństwo możemy zastosować jakąś metodę estymacji parametrów β, która pozwala nam znaleźć takie ich oszacowania, żeby nasz model najlepiej pasował do obserwowanych wyników jeśli y ∗ > 0 jeśli y ∗ ≤ 0 = Pr [β′X + ε > 0] = Pr [ −ε < β′X ] = F ( β′X ) O tym już było -> maksymalizacja funkcji największej wiarygodności czaj.org Modele binarne – normalizacja składnika losowego Wariancja przyjętego rozkładu składnika losowego nie ma znaczenia y = 1 ⇔ β′X + ε > 0 ε ma średnią = 0 (jeśli model ma stałą to to też nie ma znaczenia) i jakąś wariancję σ (nie wiadomo jaką) Model będzie ten sam jeśli policzymy y =1 ⇔ Co jest tożsame z β′X σ + ε >0 σ y = 1 ⇔ γ′X + w > 0 Gdzie w to jakiś rozkład o średniej 0 i wariancji 1 Można przyjąć wariancję = 1, przeskalują się tylko parametry, model ten sam Normalizacja wariancji (lub jednego z parametrów) jest konieczna dla identyfikowalności modelu czaj.org Logit / probit Typowo zakładane – składnik losowy (ε) ma rozkład: Logistyczny x−μ exp − σ f (x) = 2 x − μ σ 1 + exp − σ Nie ma to znaczenia, bo najwyżej parametry β będą większe, żeby poziom 'losowości' był odpowiedni Dystrybuanta Λ(x) = ( x − μ )2 f (x) = exp − 2 σ 2 σ 2π 1 Zakładamy rozkład standardowy (μ = 0, σ = 1) Normalny exp ( x ) 1 + exp ( x ) Dystrybuanta x Φ ( x ) = φ ( z ) dz −∞ Mamy wzór na Pr, który możemy wykorzystać w estymacji! -> Model logit -> Model probit czaj.org Rozkład logistyczny vs. normalny czaj.org Logit / probit / liniowy model prawdopodobieństwa 1.5 Predicted Probabilities Across Models Actual Data (jittered) 1 Probit 0 .5 OLS -.5 Predicted probability Logit -2 0 2 4 Log relative price (lnrelp) czaj.org Logit / probit – który wybrać? Rozkład logistyczny – przypomina normalny (symetryczny dzwon, trochę grubsze ogony), ale ma wzór na dystrybuantę w postaci zamkniętej Probit Upraszcza obliczenia / umożliwia rozwiązanie analityczne Pozwala interpretować parametry jako stosunek log-oddsów Może być bardziej uzasadniony w przypadku normalnego rozkładu zmiennej ukrytej Praktycznie nie ma różnicy Istnieją testy dla porównywania niezagnieżdżonych modeli, ale w tym przypadku prawie zawsze nie dają jednoznacznego wyniku Ponieważ logit ma grubsze ogony, w próbach w których obserwacje są bardzo niesymetryczne (znacznie więcej 0 lub 1) lub jest bardzo duża wariancja ważnej zmiennej objaśniającej – różnice mogą być większe czaj.org Logit / probit – parametry Ponieważ logit i probit wykorzystują różne funkcje prawdopodobieństwa, oszacowania parametrów będą różne Jako 'reguła kciuka': βˆlogit βˆprobit ≈ 4 βˆMNK ≈ 2,5βˆ βˆlogit ≈ 1,6 βˆprobit MNK Ale to oczywiście bardziej skomplikowane Absolutne wartości parametrów i tak nie mają znaczenia Nie tak jak w MNK! Dlaczego? Bo parametry wykorzystywane w innych funkcjach Jeśli już, to lepiej porównywać efekty krańcowe (pochodne) Jak zmienne objaśniające wpływają na zmianę prawdopodobieństwa danego wyboru czaj.org Logit / probit i inne modele dla wyboru binarnego Inne rozkłady składnika losowego, które nie zakładają symetryczności: Gumbel, Gompit, Gompertz (ε ma rozkład wartości ekstremalnych) CDF ( x ) = exp ( − exp ( − x ) ) Complementary log log CDF ( x ) = 1 − exp ( − exp ( − x ) ) I inne (np. arctangens, burr (scobit), …) Wyniki mogą się czasem znacznie różnić od wyników logitu i probitu Przydatne, gdy jeden z wyników jest rzadki Np. mały odsetek 'tak' w próbie czaj.org Standardowy rozkład wartości ekstremalnych czaj.org Funkcje gęstości .4 1 9 .3 3 5 PDF .2 5 1 .1 6 8 .0 8 4 .0 0 0 -3 -2 -1 0 1 2 3 Z D P R OB I T D L OGI T D C L OGL OG D GOM P I T czaj.org Dystrybuanty 1 .0 0 .8 9 .7 8 CDF .6 6 .5 5 .4 4 .3 3 .2 2 .1 1 .0 0 -3 -2 -1 0 1 2 3 Z P R OB I T L OGI T C L OGL OG GOM P I T czaj.org Estymacja – metoda największej wiarygodności Zaobserwowaliśmy (Yi , X i ) , dla i = 1,..., N Zmienna zależna (Yi) ma rozkład Bernoulliego (binarny z 1 powtórzeniem) Funkcja prawdopodobieństwa masy f (Yi |X i ) = piYi (1 − pi ) 1 −Yi Co się dzieje z tą funkcją gdy Yi = 1 ? A gdy Yi = 0 ? Zawsze dostajemy pi lub (1 − pi ) U nas pi = F ( β′X ) więc f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) ) Y 1 −Yi czaj.org Estymacja – metoda największej wiarygodności Funkcja prawdopodobieństwa masy f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) ) 1 −Yi Y Obserwacje są niezależne. Jaka jest szansa, że dostaniemy taki zbiór obserwacji, jaki mamy? N L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) ) Y 1 −Yi i =1 Funkcja wiarygodności (ang. likelihood function) Chcemy znaleźć takie β, żeby zmaksymalizować tę funkcję Czyli, żeby nasz model miał takie parametry, żeby przewidywał takie prawdopodobieństwa, które dają największą szansę takiego wyniku, jaki dostaliśmy czaj.org Estymacja – metoda największej wiarygodności Szukamy maksimum funkcji wiarygodności: N L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) ) Y 1 −Yi i =1 Jest ono w tym samym punkcie, co maksimum logarytmu z funkcji wiarygodności (logarytm to funkcja monotonicznie rosnąca), a wygodniej maksymalizować coś takiego: N ( ln L ( β|dane ) = Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) ) i =1 ) W praktyce – dość prosto się liczy Dla każdej obserwacji wziąć prawdopodobieństwo uzyskanego wyniku (tak lub nie) Zsumować Zmaksymalizować funkcję po β czaj.org Estymacja – metoda największej wiarygodności* Maksymalizacja Liczymy pochodne − f ( β′X i ) ∂ ln L N Yi f ( β′X i ) = + (1 − Yi ) X i ∂β 1 − F ( β′X i ) i =1 F ( β′X i ) gdzie f ( β′X i ) jest funkcją gęstości, f ( β′X i ) = ∂F ( β′X i ) ∂ ( β′X i ) W zależności od wybranej formy F dostajemy np. logit lub probit czaj.org Estymacja – metoda największej wiarygodności* Dla modelu logit warunki konieczne to: ∂ ln L N = (Yi − Λ ( β′X i ) ) X′i = 0 ′ ∂β i =1 ( ) Czyli średnie oczekiwane prawdopodobieństwa muszą być równe udziałowi 1 w obserwacjach Pomyśl o (Yi − Λ ( β′X i ) ) jak o resztach w MNK Hesjan też jest dość prosty do wyznaczenia: N ∂ 2 ln L H= = − Λ ( β′X i ) (1 − Λ ( β′X i ) ) X′i X i ∂β′∂β i =1 ( ) Do optymalizacji można wykorzystać metodę Newtona czaj.org Estymacja – metoda największej wiarygodności* Dla modelu probit warunki konieczne to: −φ ( β′X i ) φ ( β′X i ) ∂ ln L X′i + X′i = 0 = ′ ′ ′ ∂β Yi = 0 1 − Φ ( β X i ) Yi =1 Φ ( β X i ) A ponieważ jeśli rozkład jest symetryczny to 1 − F ( β′X i ) = F ( −β′X i ) ∂ ln L N ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β′X i ) = X′i = 0 ∂β′ i =1 Φ ( ( 2Yi − 1 ) β′X i ) Hesjan modelu probit, korzystając z tego, że dφ ( z ) dz = − zφ ( z ) N ( 2Y − 1 ) φ ( 2Y − 1 ) β′X ′ ( ∂ 2 ln L i i i ) ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β X i ) = − − + β′X i X′i X i H= ′X i ) ′X i ) ∂β′∂β Φ − Φ − 2 Y 1 2 Y 1 β β ( ) ( ) ( ( i =1 i i Do optymalizacji można wykorzystać metodę Newtona czaj.org 2015-11-05 17:25:32 Macierz AVC estymatora MNW* Jeśli znamy postać wartości oczekiwanej Hesjanu LL, to: ∂ 2 lnL ( θ 0 ) AVC ( θ 0 ) = −E 0 ∂θ ∂θ ′ 0 0 Można oszacować dla θ̂ Niestety zwykle jest to trudna nieliniowa funkcja danych o nieznanej wartości oczekiwanej Alternatywa 1: −1 () ∂ ln L θˆ ∧ AVC θˆ = − ˆ ∂θˆ ′ ∂ θ () 2 −1 Po prostu bierzemy Hesjan Dla niektórych modeli wyznaczenie Hesjanu może być skomplikowane lub czasochłonne czaj.org Macierz AVC estymatora MNW* Aternatywa 2: ∧ ∧ N ˆ AVC θ = gˆ i gˆ ′i i =1 () −1 gdzie gˆ i = ( ∂ ln f X i , θˆ ∂ ln θˆ ) Nie wymaga żadnych innych obliczeń poza tymi, które i tak trzeba wykonać maksymalizując funkcję LL Zawsze nieujemnie określony Nazywany estymatorem BHHH czaj.org Estymacja – metoda największej wiarygodności Estymację robią za nas zwykle pakiety statystyczne Hesjan modelu logit/probit jest ujemnie określony Funkcja LL jest globalnie wklęsła Istnieje globalne maksimum Estymator MNW jest zgodny Ale jak widać jest to dość proste, da się policzyć na piechotę Estymator MNK nie jest Parametry mają asymptotyczny rozkład normalny Asymptotyczna macierz wariancji-kowariancji (ang. asymptotic variance covariance matrix, AVC) może być oszacowana jako odwrotność hesjanu dla optymalnych oszacowań MNW Stąd mamy błędy standardowe parametrów czaj.org Przykład – posiadanie kochanka Wczytaj projekt me.affairs.lpj 1. 2. 3. Dane z ankiety 6366 mężatek (magazyn Redbook) Ile % kobiet w próbie miało kiedykolwiek romans? Sprawdź, jakie zmienne mogą pomóc to przewidywać LOGIT ; ... $ ► OLS – podaje także oszacowania liniowego modelu prawdopodobieństwa (używane jako wartości startowe) czaj.org Przykład – posiadanie kochanka Interpretacja wyników Wartość funkcji LL Wartość funkcji LL0 Liczba zmiennych Liczba obserwacji Oszacowania parametrów Błędy standardowe Statystyka z, p-value 95% przedział ufności Asymptotyczna macierz wariancji-kowariancji Logl_obs – indywidualny wkład obserwacji do funkcji LL czaj.org Wartość funkcji LL zawsze ujemna Funkcja LL: N ( ln L ( β|dane ) = Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) ) i =1 ) Logarytm z prawdopodobieństwa (<1) zawsze ujemny Funkcja LL zawsze ujemna Osiąga teoretyczne maksimum w 0 czaj.org Przykład 2 – zakup eko-jabłek Wczytaj projekt me.apples.lpj Oszacuj model, w którym gotowość do zakupu dodatnich ilości ekojabłek wyjaśniana jest przez: 1. 2. 3. Poziom edukacji respondenta Cenę zwykłych jabłek Cenę eko-jabłek To, czy wybór dokonywany jest w sezonie To czy respondent był mężczyzną Dochód rodziny Liczbę członków rodziny w każdej kategorii wiekowej Co dzieje się z modelem, jeśli dodatkowo uwzględnić wielkość rodziny? czaj.org Pomiar 'dopasowania' modelu Po estymacji modelu zwykle raportowane są: Wartość funkcji LL w optimum (w punkcie konwergencji) Wartość funkcji LL 'w 0' (model wykorzystujący tylko stałą) Odpowiada założeniu, że wszystkie parametry w modelu nieistotne Nie ma miary R2 z MNK Pewnym rozwiązaniem jest Pseudo-R2 (kilka wersji) Miary oparte na wartości funkcji LL (wiele wersji): 1 − ln L ( β ) McFadden's pseudo-R = Im model lepiej dopasowany tym R2 bliższe 1 2 ln L ( Y ) = 1 − ln L ln L0 ∈[0,1) Ale przedział między 0 a 1 nie ma interpretacji naturalnej Nie wiemy, gdzie jest zero Z powodu istnienia składnika losowego model nie osiąga 1 czaj.org Pomiar 'dopasowania' modelu Kryterium informacyjne Akaike (AIC) AIC = 2k − 2ln L ( β ) AIC skorygowane (dla skończonej próby) AICc = AIC + 2k ( k + 1 ) N − k −1 Bayesowskie kryterium informacyjne (BIC, Schwarza) BIC = k ln N − 2ln L ( β ) Znormalizowane – podzielone przez N Jak w modelu liniowym – nie jest to kryterium 'statystycznego' porównania, ale często używane Mówi, który model lepiej pasuje do danych Nie mówi czy dobrze, o ile lepiej i czy istotnie lepiej W porównaniu z pseudo-R2 przynajmniej bierze pod uwagę liczbę zmiennych objaśniających czaj.org Pomiar 'dopasowania' modelu Miary oparte na przewidywaniu prawdopodobieństw ( 1 N BenAkiva i Lerman's pseudo-R = Yi Fˆ ( X i β ) + (1 − Yi ) 1 − Fˆ ( X i β ) N i =1 2 ( )) Średnie prawdopodobieństwo poprawnych predykcji Problem gdy obserwacje w próbie są niesymetryczne Miary oparte na przewidywaniu wyników Tabela poprawnych i niepoprawnych predykcji Błędy I i II typu – trade-off Ile % poprawnych predykcji ma naiwna reguła Yi = 1? ; output = IC ; summarize ; limit = 0.5 czaj.org Inne miary 'dopasowania' ln L Estrella's pseudo-R 2 = 1 − ln L 0 −2ln L0 N R 2 − ML = 1 − exp ( − 2 (ln L0 − ln L ) N ) Efron = 1 − i =1 N ( Yi − Pˆi ) (Y − Y ) 2 i =1 N Veal = McFadden's-R 2 −1 2ln L0 ( N 2 i N 2 − McFadden'sR L 2ln 0 ) ( Cramer = średnia Pˆi |Yi = 1 − średnia Pˆi |Yi = 0 ) czaj.org Przykład – eko-jabłka c.d. 1. Sprawdź który model najlepiej dopasowany do danych ► ► ► ► ► ► 2. ► Logit Probit Gompertz Comploglog Arctangent Burr Czy można to zrobić w oparciu o miary 'dopasowania'? Inne subkomendy ► Keep = ... – zachowuje przewidywane wartości Yi ► Prob = ... – zachowuje prawdopodobieństwa ► Res = ... – zachowuje reszty {-1,1} ► List – wyświetla to wszystko czaj.org Praca domowa ME.6 – wydatki na lekarza w USA Wczytaj projekt me.usahealth.lpj Sprawdź czy następujące zmienne mogą pomóc przewidzieć, czy ktoś skorzystał z pomocy lekarskiej 1. 2. ‒ ‒ ‒ 3. Udział własny w kosztach opieki medycznej Stan zdrowia Czynniki socjodemograficzne Wybierz najlepszy model Do przygotowania w grupach trzyosobowych czaj.org 2015-11-05 17:25:32