slajdy 6

Transkrypt

slajdy 6
Mikroekonometria
6
Mikołaj Czajkowski
Wiktor Budziński
'Nietypowe' zmienne objaśniane

Problemy mikroekonometryczne – często zmienna
objaśniana nie jest ciągła lub jej wartość nie ma
bezpośredniej interpretacji ilościowej



Zmienną objaśnianą jakiś wskaźnik o ocenzurowanych
wartościach – np. decyzja o zakupie, głosowanie, wybór
spośród dostępnych alternatyw, deklarowany poziom jakiejś
wielkości (w podanej skali) itp.
Wynikiem optymalizacji może być rozwiązanie brzegowe
Estymatory MNK nie są zgodne -> estymacja MNW
czaj.org
'Nietypowe' zmienne objaśniane

Przykłady modeli dla nieciągłych zmiennych objaśnianych

Wybór binarny (ang. binary choice)

Wybór jednej z dwóch możliwości



Np. podjęcie działania czy nie – dojazd transportem publicznym, kupno
ubezpieczenia
0/1 oznacza nie/tak
Wybór wielomianowy (ang. multinomial choice)

Wybór jednej z więcej niż dwóch możliwości




Tej, która dostarcza największej użyteczności
Pozwala modelować preferencje konsumentów
Np. wybór marki, produktu, sposobu dojazdu do pracy
0/1 oznacza nie wybraną/wybraną alternatywę
czaj.org
'Nietypowe' zmienne objaśniane

Przykłady modeli dla nieciągłych zmiennych objaśnianych

Wybór uporządkowany (ang. ordered choice)


Wybór jednej z wielkości na podanej skali
Ujawnia siłę preferencji


Wartości liczbowe są na skali porządkowej, nie absolutnej


Np. ocena filmu, własnego stanu zdrowia, zadowolenia z produktu, miejsce
w rankingu
4 oznacza lepiej niż 2, ale niekoniecznie 2 razy lepiej
Liczność zdarzeń (ang. event counts)

Obserwowane są wielkości całkowite

Np. liczba wizyt u lekarza, w parku narodowym, na basenie, liczba
zachorowań, aresztowań, dzieci, liczba wadliwych sztuk w procesie
produkcyjnym w ciągu roku
czaj.org
Modele binarne


Obserwujemy wynik (Y = 0 lub Y = 1)
Interesuje nas jak można go przewidywać






Prawdopodobieństwo Y = 0 / prawdopodobieństwo Y = 1
Funkcja zmiennych objaśniających X, Pr(Y) = Xβ
Jakie powinny być parametry (β)?
Jaka jest interpretacja takiego modelu?
Jaki jest wzór na to prawdopodobieństwo, jako funkcja Xβ?
W jaki sposób wykorzystać dane (obserwacje) do oszacowania β?
czaj.org
Modele binarne – modele dla zmiennej ukrytej

Modele binarne można zinterpretować jako modele
funkcji wskaźnikowej

Wyjaśniana jest losowa, ciągła zmienna y* ale obserwowana
jest tylko zmienna binarna y, która przyjmuje wartość 0 lub 1 w
zależności od tego, czy y* przekracza wartość graniczną (np.,
po normalizacji, 0)
∗
 y = β′X + ε
 y
∗
nie jest obserwowalne, obserwujemy tylko:
 Pr [ y = 1|X ] = Pr  y ∗ > 0 
= Pr [β′X + ε > 0]
= Pr [ −ε < β′X ]
= F ( β′X )

jeśli y ∗ > 0
jeśli y ∗ ≤ 0
F jest dystrybuantą ε


1
y=
0
Zwykle o gęstości symetrycznej
względem 0
Pozostaje tylko wybrać
odpowiedni rozkład ε
czaj.org
Modele dla zmiennej ukrytej

Modele funkcji wskaźnikowej


Np. obserwujemy 1 gdy student nigdy nie miał żadnych warunków, 0
jeśli miał
Tworzymy funkcję wskaźnikową, w której y wyjaśniane jest
zmiennymi socjodemograficznymi studentów X (wiek, płeć, IQ,
dochód, rok studiów, …) i stałą
∗
′


Jeśli wybierzemy jakiś rozkład ε to wzór
na prawdopodobieństwo (dystrybuantę)
będzie znany


Stała pozwala znormalizować wartość
graniczną do 0
y =β X +ε
1
y=
0
Pr [ y = 1|X ] = Pr  y ∗ > 0 
O tym za chwilę -> logit, probit
Znając wzór na to prawdopodobieństwo
możemy zastosować jakąś metodę estymacji
parametrów β, która pozwala nam znaleźć takie
ich oszacowania, żeby nasz model najlepiej pasował do
obserwowanych wyników

jeśli y ∗ > 0
jeśli y ∗ ≤ 0
= Pr [β′X + ε > 0]
= Pr [ −ε < β′X ]
= F ( β′X )
O tym już było -> maksymalizacja funkcji największej wiarygodności
czaj.org
Modele binarne – normalizacja składnika losowego

Wariancja przyjętego rozkładu składnika losowego nie ma
znaczenia
y = 1 ⇔ β′X + ε > 0


ε ma średnią = 0 (jeśli model ma stałą to to też nie ma znaczenia) i
jakąś wariancję σ (nie wiadomo jaką)
Model będzie ten sam jeśli policzymy
y =1 ⇔

Co jest tożsame z
β′X
σ
+
ε
>0
σ
y = 1 ⇔ γ′X + w > 0



Gdzie w to jakiś rozkład o średniej 0 i wariancji 1
Można przyjąć wariancję = 1, przeskalują się tylko parametry, model
ten sam
Normalizacja wariancji (lub jednego z parametrów) jest konieczna dla
identyfikowalności modelu
czaj.org
Logit / probit

Typowo zakładane – składnik losowy (ε) ma rozkład:

Logistyczny

 x−μ 
exp  −
σ 

f (x) =
2

 x − μ 
σ  1 + exp  −

 σ 


Nie ma to znaczenia, bo najwyżej parametry β będą większe, żeby
poziom 'losowości' był odpowiedni
Dystrybuanta
Λ(x) =


 ( x − μ )2 

f (x) =
exp  −
2


σ
2
σ 2π


1
Zakładamy rozkład standardowy (μ = 0, σ = 1)


Normalny
exp ( x )
1 + exp ( x )

Dystrybuanta
x
Φ ( x ) =  φ ( z ) dz
−∞
Mamy wzór na Pr, który możemy wykorzystać w estymacji!
-> Model logit
 -> Model probit
czaj.org
Rozkład logistyczny vs. normalny
czaj.org
Logit / probit / liniowy model prawdopodobieństwa
1.5
Predicted Probabilities Across Models
Actual Data (jittered)
1
Probit
0
.5
OLS
-.5
Predicted probability
Logit
-2
0
2
4
Log relative price (lnrelp)
czaj.org
Logit / probit – który wybrać?

Rozkład logistyczny – przypomina normalny (symetryczny
dzwon, trochę grubsze ogony), ale ma wzór na dystrybuantę w
postaci zamkniętej



Probit


Upraszcza obliczenia / umożliwia rozwiązanie analityczne
Pozwala interpretować parametry jako stosunek log-oddsów
Może być bardziej uzasadniony w przypadku normalnego rozkładu
zmiennej ukrytej
Praktycznie nie ma różnicy


Istnieją testy dla porównywania niezagnieżdżonych modeli, ale w tym
przypadku prawie zawsze nie dają jednoznacznego wyniku
Ponieważ logit ma grubsze ogony, w próbach w których obserwacje
są bardzo niesymetryczne (znacznie więcej 0 lub 1) lub jest bardzo
duża wariancja ważnej zmiennej objaśniającej – różnice mogą być
większe
czaj.org
Logit / probit – parametry

Ponieważ logit i probit wykorzystują różne funkcje
prawdopodobieństwa, oszacowania parametrów będą
różne



Jako 'reguła kciuka':
βˆlogit
βˆprobit
≈ 4 βˆMNK
≈ 2,5βˆ
βˆlogit
≈ 1,6 βˆprobit
MNK
Ale to oczywiście bardziej skomplikowane
Absolutne wartości parametrów i tak nie mają znaczenia



Nie tak jak w MNK!
Dlaczego? Bo parametry wykorzystywane w innych funkcjach
Jeśli już, to lepiej porównywać efekty krańcowe (pochodne)

Jak zmienne objaśniające wpływają na zmianę prawdopodobieństwa
danego wyboru
czaj.org
Logit / probit i inne modele dla wyboru binarnego

Inne rozkłady składnika losowego, które nie zakładają
symetryczności:

Gumbel, Gompit, Gompertz (ε ma rozkład wartości ekstremalnych)
CDF ( x ) = exp ( − exp ( − x ) )

Complementary log log
CDF ( x ) = 1 − exp ( − exp ( − x ) )



I inne (np. arctangens, burr (scobit), …)
Wyniki mogą się czasem znacznie różnić od wyników logitu i
probitu
Przydatne, gdy jeden z wyników jest rzadki

Np. mały odsetek 'tak' w próbie
czaj.org
Standardowy rozkład wartości ekstremalnych
czaj.org
Funkcje gęstości
.4 1 9
.3 3 5
PDF
.2 5 1
.1 6 8
.0 8 4
.0 0 0
-3
-2
-1
0
1
2
3
Z
D P R OB I T
D L OGI T
D C L OGL OG
D GOM P I T
czaj.org
Dystrybuanty
1 .0 0
.8 9
.7 8
CDF
.6 6
.5 5
.4 4
.3 3
.2 2
.1 1
.0 0
-3
-2
-1
0
1
2
3
Z
P R OB I T
L OGI T
C L OGL OG
GOM P I T
czaj.org
Estymacja – metoda największej wiarygodności


Zaobserwowaliśmy (Yi , X i ) , dla i = 1,..., N
Zmienna zależna (Yi) ma rozkład Bernoulliego (binarny z 1
powtórzeniem)

Funkcja prawdopodobieństwa masy
f (Yi |X i ) = piYi (1 − pi )
1 −Yi

Co się dzieje z tą funkcją gdy Yi = 1 ? A gdy Yi = 0 ?


Zawsze dostajemy pi lub (1 − pi )
U nas pi = F ( β′X ) więc
f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
czaj.org
Estymacja – metoda największej wiarygodności

Funkcja prawdopodobieństwa masy
f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) )
1 −Yi
Y

Obserwacje są niezależne. Jaka jest szansa, że dostaniemy
taki zbiór obserwacji, jaki mamy?
N
L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
i =1


Funkcja wiarygodności (ang. likelihood function)
Chcemy znaleźć takie β, żeby zmaksymalizować tę funkcję

Czyli, żeby nasz model miał takie parametry, żeby przewidywał
takie prawdopodobieństwa, które dają największą szansę
takiego wyniku, jaki dostaliśmy
czaj.org
Estymacja – metoda największej wiarygodności

Szukamy maksimum funkcji wiarygodności:
N
L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
i =1

Jest ono w tym samym punkcie, co maksimum logarytmu z
funkcji wiarygodności (logarytm to funkcja monotonicznie
rosnąca), a wygodniej maksymalizować coś takiego:
N
(
ln L ( β|dane ) =  Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) )
i =1

)
W praktyce – dość prosto się liczy



Dla każdej obserwacji wziąć prawdopodobieństwo uzyskanego wyniku (tak
lub nie)
Zsumować
Zmaksymalizować funkcję po β
czaj.org
Estymacja – metoda największej wiarygodności*

Maksymalizacja

Liczymy pochodne
− f ( β′X i ) 
∂ ln L N  Yi f ( β′X i )
=  
+ (1 − Yi )
 X i
∂β
1 − F ( β′X i ) 
i =1  F ( β′X i )


gdzie f ( β′X i ) jest funkcją gęstości, f ( β′X i ) = ∂F ( β′X i ) ∂ ( β′X i )
W zależności od wybranej formy F dostajemy np. logit lub
probit
czaj.org
Estymacja – metoda największej wiarygodności*

Dla modelu logit warunki konieczne to:
∂ ln L N
=  (Yi − Λ ( β′X i ) ) X′i = 0
′
∂β
i =1
(



)
Czyli średnie oczekiwane prawdopodobieństwa muszą być
równe udziałowi 1 w obserwacjach
Pomyśl o (Yi − Λ ( β′X i ) ) jak o resztach w MNK
Hesjan też jest dość prosty do wyznaczenia:
N
∂ 2 ln L
H=
= − Λ ( β′X i ) (1 − Λ ( β′X i ) ) X′i X i
∂β′∂β
i =1
(

)
Do optymalizacji można wykorzystać metodę Newtona
czaj.org
Estymacja – metoda największej wiarygodności*

Dla modelu probit warunki konieczne to:
 −φ ( β′X i )

 φ ( β′X i ) 
∂ ln L
X′i  +  
X′i  = 0
=  
′
′
′
∂β Yi = 0  1 − Φ ( β X i )  Yi =1  Φ ( β X i ) 

A ponieważ jeśli rozkład jest symetryczny to 1 − F ( β′X i ) = F ( −β′X i )
∂ ln L N  ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β′X i ) 
= 
X′i  = 0


∂β′ i =1 
Φ ( ( 2Yi − 1 ) β′X i )


Hesjan modelu probit, korzystając z tego, że
dφ ( z )
dz
= − zφ ( z )
N  ( 2Y − 1 ) φ ( 2Y − 1 ) β′X



′
(
∂ 2 ln L
i
i
i ) ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β X i )
= −  −
+ β′X i  X′i X i 
H=




′X i )
′X i )
∂β′∂β
Φ
−
Φ
−
2
Y
1
2
Y
1
β
β
(
)
(
)
(
(
i =1 
i
i





Do optymalizacji można wykorzystać metodę Newtona
czaj.org
2015-11-05 17:25:32
Macierz AVC estymatora MNW*

Jeśli znamy postać wartości oczekiwanej Hesjanu LL, to:

 ∂ 2 lnL ( θ 0 )  

AVC ( θ 0 ) =  −E 0 
 ∂θ ∂θ ′  

0
0



 Można oszacować dla θ̂


Niestety zwykle jest to trudna nieliniowa funkcja danych o
nieznanej wartości oczekiwanej
Alternatywa 1:


−1
()
 ∂ ln L θˆ 
∧

AVC θˆ =  −

ˆ ∂θˆ ′ 
∂
θ


()
2
−1
Po prostu bierzemy Hesjan
Dla niektórych modeli wyznaczenie Hesjanu może być
skomplikowane lub czasochłonne
czaj.org
Macierz AVC estymatora MNW*

Aternatywa 2:
∧
∧
 N

ˆ
AVC θ =   gˆ i gˆ ′i 
 i =1




()
−1
gdzie
gˆ i =
(
∂ ln f X i , θˆ
∂ ln θˆ
)
Nie wymaga żadnych innych obliczeń poza tymi, które i tak
trzeba wykonać maksymalizując funkcję LL
Zawsze nieujemnie określony
Nazywany estymatorem BHHH
czaj.org
Estymacja – metoda największej wiarygodności

Estymację robią za nas zwykle pakiety statystyczne 


Hesjan modelu logit/probit jest ujemnie określony




Funkcja LL jest globalnie wklęsła
Istnieje globalne maksimum
Estymator MNW jest zgodny


Ale jak widać jest to dość proste, da się policzyć na piechotę
Estymator MNK nie jest
Parametry mają asymptotyczny rozkład normalny
Asymptotyczna macierz wariancji-kowariancji
(ang. asymptotic variance covariance matrix, AVC) może być
oszacowana jako odwrotność hesjanu dla optymalnych
oszacowań MNW

Stąd mamy błędy standardowe parametrów
czaj.org
Przykład – posiadanie kochanka
Wczytaj projekt me.affairs.lpj
1.

2.
3.
Dane z ankiety 6366 mężatek (magazyn
Redbook)
Ile % kobiet w próbie miało
kiedykolwiek romans?
Sprawdź, jakie zmienne mogą
pomóc to przewidywać
LOGIT
; ... $
►
OLS – podaje także oszacowania
liniowego modelu
prawdopodobieństwa (używane jako
wartości startowe)
czaj.org
Przykład – posiadanie kochanka

Interpretacja wyników










Wartość funkcji LL
Wartość funkcji LL0
Liczba zmiennych
Liczba obserwacji
Oszacowania parametrów
Błędy standardowe
Statystyka z, p-value
95% przedział ufności
Asymptotyczna macierz wariancji-kowariancji
Logl_obs – indywidualny wkład obserwacji do funkcji LL
czaj.org
Wartość funkcji LL zawsze ujemna

Funkcja LL:
N
(
ln L ( β|dane ) =  Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) )
i =1

)
Logarytm z prawdopodobieństwa (<1) zawsze ujemny


Funkcja LL zawsze ujemna
Osiąga teoretyczne maksimum w 0
czaj.org
Przykład 2 – zakup eko-jabłek
Wczytaj projekt me.apples.lpj
Oszacuj model, w którym gotowość
do zakupu dodatnich ilości ekojabłek wyjaśniana jest przez:
1.
2.







3.
Poziom edukacji respondenta
Cenę zwykłych jabłek
Cenę eko-jabłek
To, czy wybór dokonywany jest w sezonie
To czy respondent był mężczyzną
Dochód rodziny
Liczbę członków rodziny w każdej
kategorii wiekowej
Co dzieje się z modelem, jeśli
dodatkowo uwzględnić wielkość
rodziny?
czaj.org
Pomiar 'dopasowania' modelu

Po estymacji modelu zwykle raportowane są:


Wartość funkcji LL w optimum (w punkcie konwergencji)
Wartość funkcji LL 'w 0' (model wykorzystujący tylko stałą)



Odpowiada założeniu, że wszystkie parametry w modelu nieistotne
Nie ma miary R2 z MNK
Pewnym rozwiązaniem jest Pseudo-R2 (kilka wersji)

Miary oparte na wartości funkcji LL (wiele wersji):
1 − ln L ( β )

McFadden's pseudo-R =

Im model lepiej dopasowany tym R2 bliższe 1
2

ln L ( Y )
= 1 − ln L ln L0
∈[0,1)
Ale przedział między 0 a 1 nie ma interpretacji naturalnej


Nie wiemy, gdzie jest zero
Z powodu istnienia składnika losowego model nie osiąga 1
czaj.org
Pomiar 'dopasowania' modelu

Kryterium informacyjne Akaike (AIC)
AIC = 2k − 2ln L ( β )

AIC skorygowane (dla skończonej próby)
AICc = AIC +

2k ( k + 1 )
N − k −1
Bayesowskie kryterium informacyjne (BIC, Schwarza)
BIC = k ln N − 2ln L ( β )


Znormalizowane – podzielone przez N
Jak w modelu liniowym – nie jest to kryterium 'statystycznego'
porównania, ale często używane



Mówi, który model lepiej pasuje do danych
Nie mówi czy dobrze, o ile lepiej i czy istotnie lepiej
W porównaniu z pseudo-R2 przynajmniej bierze pod uwagę liczbę
zmiennych objaśniających
czaj.org
Pomiar 'dopasowania' modelu

Miary oparte na przewidywaniu prawdopodobieństw




(
1 N
BenAkiva i Lerman's pseudo-R =  Yi Fˆ ( X i β ) + (1 − Yi ) 1 − Fˆ ( X i β )
N i =1
2
(
))
Średnie prawdopodobieństwo poprawnych predykcji
Problem gdy obserwacje w próbie są niesymetryczne
Miary oparte na przewidywaniu wyników

Tabela poprawnych i niepoprawnych predykcji


Błędy I i II typu – trade-off
Ile % poprawnych predykcji ma naiwna reguła Yi = 1?
; output = IC
; summarize
; limit = 0.5
czaj.org
Inne miary 'dopasowania'
 ln L 
Estrella's pseudo-R 2 = 1 − 

ln
L
 0
−2ln L0 N
R 2 − ML = 1 − exp ( − 2 (ln L0 − ln L ) N )
Efron = 1 −  i =1
N
(
Yi − Pˆi
)  (Y − Y )
2
i =1
 N

Veal = McFadden's-R 2 
−1
 2ln L0

(
N
2
i
 N
2
−
McFadden'sR


L
2ln
0


)
(
Cramer = średnia Pˆi |Yi = 1 − średnia Pˆi |Yi = 0
)
czaj.org
Przykład – eko-jabłka c.d.
1.
Sprawdź który model najlepiej dopasowany do danych
►
►
►
►
►
►
2.
►
Logit
Probit
Gompertz
Comploglog
Arctangent
Burr
Czy można to zrobić w oparciu o miary 'dopasowania'?
Inne subkomendy
► Keep = ... – zachowuje przewidywane wartości Yi
► Prob = ... – zachowuje prawdopodobieństwa
► Res = ... – zachowuje reszty {-1,1}
► List – wyświetla to wszystko
czaj.org
Praca domowa ME.6 – wydatki na lekarza w USA
Wczytaj projekt me.usahealth.lpj
Sprawdź czy następujące zmienne
mogą pomóc przewidzieć, czy ktoś
skorzystał z pomocy lekarskiej
1.
2.
‒
‒
‒
3.

Udział własny w kosztach opieki
medycznej
Stan zdrowia
Czynniki socjodemograficzne
Wybierz najlepszy model
Do przygotowania w grupach
trzyosobowych
czaj.org
2015-11-05 17:25:32

Podobne dokumenty