Mikroekonometria 10

Transkrypt

Mikroekonometria 10
Mikroekonometria
10
Mikołaj Czajkowski
Wiktor Budziński
Wybór uporządkowany

Wybór uporządkowany (ang. ordered choice)



Wybór jednej z wielkości na podanej skali
Skala – wartości są uporządkowane
Przykłady:



Oceny konsumenckie produktów (IMDB, Amazon, etc.)
Ratingi (S&P, Moody’s)
Dane ankietowe (satysfakcja z życia, stan zdrowia, etc.)

Skala Likerta
czaj.org
Wybór uporządkowany

Model funkcji wskaźnikowej / użyteczności losowej
yi∗ = X i β + ε i

X – charakterystyki konsumenta


Zwykle – liniowa specyfikacja funkcji
ε – składnik losowy, nieobserwowalne indywidualne
idiosynkratyczności



Rozkład normalny – uporządkowany probit
Rozkład logistyczny – uporządkowany logit
Obserwujemy J różnych ocen

Interesuje nas estymacja β oraz J-1 progów, które kategoryzują
(cenzurują) y* na y
−∞ < y ∗ < +∞
i
yi = j dla α j −1 < y < α j
∗
i
yi = 1,..., J
czaj.org
Wybór uporządkowany

Obserwujemy
yi = 1 dla yi∗ ≤ α 1
yi = 2 dla α 1 < yi∗ ≤ α 2
...
yi = J
α1
−∞
yi = 1

α2
yi = 2
dla yi∗ > α J −1
α J −1
+∞
yi = J
Jeśli w modelu (X) jest stała, to tak jakby α1 = 0 (normalizacja)
czaj.org
Wybór uporządkowany

Model jest nieliniowy …
P ( y i = 1|X i ) = F (α 1 − Xβ )
P ( y i = 2|X i ) = F (α 2 − Xβ ) − F (α 1 − Xβ )
...
P ( y i = J |X i ) = 1 − F (α J −1 − Xβ )


… ponieważ F (dystrybuanta rozkładu normalnego,
logistycznego, … ) jest funkcją nieliniową
Prawdopodobieństwa muszą być dodatnie, więc:
α 1 < α 2 < ... < α J −1
czaj.org
Wybór uporządkowany – funkcja ML

Z prawdopodobieństw – funkcja największej
wiarygodności
N
ln L =  ln ( P ( yi ) )
i =1


Suma logarytmów prawdopodobieństw wybranych wartości
I dalej estymacja normalnie
czaj.org
Case study – analiza odpowiedzi na pytania
światopoglądowe dotyczące Morza Bałtyckiego


Ahtiainen et al. (2013) – badanie reprezentatywnej próby
mieszkańców 9 krajów nadbałtyckich (n = 9627)
Wśród pytań – pytania światopoglądowe, m.in.:



Martwi mnie stan środowiska Morza Bałtyckiego
Ja także wpływam na stan środowiska Morza Bałtyckiego
Skala odpowiedzi:





1 – zdecydowanie się nie zgadzam
2 – raczej się nie zgadzam
3 – trudno powiedzieć
4 – raczej się zgadzam
5 – zdecydowanie się zgadzam
czaj.org
Case study – analiza odpowiedzi na pytania
światopoglądowe dotyczące Morza Bałtyckiego
1.
Wykorzystaj zbiór me.baltic.lpj do przeanalizowania, jakie
charakterystyki respondentów pozwalają wyjaśnić ich odpowiedzi
na pytanie o ocenę stanu ekologicznego Bałtyku (envw)
ORDERED; lhs = ... ? zmienna o wartościach od 0 do J-1
; rhs = ...
(; model = logit ? opcjonalnie - domyślnie probit)
; ... $
►
►
Pierwszy próg jest normalizowany do 0
► Model musi zawierać stałą jako pierwszą zmienną
objaśniającą
Wszystkie wartości zmiennej lhs (0,J-1) muszą występować
w danych
► Inaczej jeden z progów niemożliwy do estymacji
czaj.org
Interpretacja wyników

Interpretacja parametrów


Znaki – jak zmienia się y* ze zmianą X
Efekty krańcowe – nieliniowe, wymagają uwzględnienia formy
funkcyjnej i poziomów X
; partial effects
PARTIALS; ...
SIMULATE; ...
czaj.org
Rozszerzenia – heteroskedastyczność

Rozluźnienie założenia o stałości wariancji składnika
2
σ
(
losowego ε = 1)
i

Dodanie obserwowalnych zmiennych (z) objaśniających
wariancję składnika losowego (multiplikatywnie)
2
σ ε2 = exp ( γ′zi )
i
ORDERED;
;
;
;
;
1.
lhs
rhs
het
hfn
...
= ...
= ...
= ... ? zmienne objaśniające dla wariancji e
$
Uzupełnij model wyjaśniający oceny stanu ekologicznego
Bałtyku o możliwość zróżnicowania wariancji składnika
losowego względem krajów
czaj.org
Liczność zdarzeń

Liczność zdarzeń (ang. count data)



Zmienna objaśniana przyjmuje wartości całkowite (0,1,2,…)
Liczby mają bezpośrednią interpretację
Przykłady: liczba wizyt u lekarza, w parku narodowym, na
basenie, liczba zachorowań w danym okresie / na jednostce
powierzchni, liczba aresztowań, zabójstw, dzieci, liczba
wadliwych sztuk w procesie produkcyjnym, …
czaj.org
Regresja Poissonowska


Potrzebna metoda, która uwzględni charakter zmiennej zależnej
Regresja Poissona

Zmienna zależna yi traktowana jak zmienna losowa o rozkładzie Poissona
exp ( −λi ) λiyi

P (Y = y i | X i ) =

ln ( λi ) = X i β

Oczekiwana liczba zdarzeń w okresie
yi !
E ( yi |X i ) = var ( yi |X i ) = λi = exp ( X i β )

Silne założenie modelu: średnia = wariancji rozkładu – wrócimy do tego
czaj.org
Regresja Poissonowska – estymacja

Model Poissonowski można estymować za pomocą
regresji nieliniowej, ale prościej za pomocą metody ML

Funkcja LL – suma logarytmów prawdopodobieństw
zaobserwowanych ilości
N
ln L =  ( −λi + yi X i β − ln ( yi !) )
i =1

Gradient

Hesjan

Hesjan ujemnie określony dla wszystkich β i X
Optymalizacja metodą Newtona

∂ ln L N
=  X i ( yi − λi )
∂β
i =1
N
∂ 2 ln L
= − λi X i X i′
∂β∂β′
i =1
czaj.org
Case study – liczba podróży nad Morze Bałtyckie


Ahtiainen et al. (2013) – badanie reprezentatywnej próby
mieszkańców 9 krajów nadbałtyckich (n = 9627)
Pytania dotyczące liczby podróży nad Morze Bałtyckie w
ciągu ostatnich 12 miesięcy i szczegółów ostatniej podróży

1.
Dystans, środek transportu, czas, …
Wykorzystaj zbiór me.baltic.lpj do przeprowadzenia
regresji Poissonowskiej liczby wizyt nad morze (TRIPS),
wyjaśniając je stałą specyficzną dla kraju i kosztem
podróży (TC_km)
POISSON; lhs = ...
; rhs = ...
; ... $
czaj.org
Case study – liczba podróży nad Morze Bałtyckie

Oczekiwana liczba podróży jest funkcją m.in. kosztu
podróży
 E ( yi |X i ) = exp ( X i β )

Funkcja popytu

Parametr przy koszcie jest ujemny, więc funkcja y = exp ( − x )
ma taki kształt:
czaj.org
Case study – liczba podróży nad Morze Bałtyckie


Funkcja popytu dana przez E ( yi |X i ) = exp ( X i β )
Nadwyżka konsumenta (na podróż) to:
CS =
+∞
 exp ( β x ) dx = −
0

1
β
Minus odwrotność parametru przy koszcie podróży!
SIMULATE
; scenario: & tc_km = 0(10)150
; plot $
WALD
; fn1 = -1/b_tc_km $
2.
Oszacuj nadwyżkę konsumenta biorąc pod uwagę także koszt
alternatywny czasu podróży (TC_time)
czaj.org
Regresja Poissonowska – ekwidyspersja


Jednym z założeń modelu – ekwidyspersja
 Średnia = wariancja rozkładu E ( y i |X i ) = var ( y i |X i ) = λi = exp ( β′X i )
To założenie może w praktyce nie być spełnione

Test nadmiernej dyspersji:
H0 : var ( y i ) = E ( yi )
H1 : var ( yi ) = E ( yi ) + α g ( E ( yi ) )


Prosta regresja liniowa zi na wi
Gdzie:
(
z =
i


yi − λˆi
)
2
λˆi 2
− yi
wi =
( )
g λˆi
λˆi 2
( )
( )
g λˆi = λˆi lub g λˆi = λˆi2
λ̂i – średnia przewidywana przez model
Rozkład chi-kwadrat z 1 stopniem swobody – czy α jest istotne?
NLOGIT automatycznie podaje statystykę testu dla obu wariantów
czaj.org
Regresja Poissonowska – ekwidyspersja
3.
Sprawdź czy regresja Poissona jest w naszym przypadku
uzasadniona
►
Wartość krytyczna rozkładu chi-kwadrat z 1 stopniem
swobody = 3.84
► Większe wartości – odrzucamy hipotezę zerową
► Restrykcja ekwidyspersji nieuzasadniona
► Trzeba wybrać mniej restrykcyjny model
czaj.org
Model ujemny dwumianowy

Model ujemny dwumianowy – rozszerzenie modelu
Poissona, poprzez wprowadzenie nieobserwowalnej
heterogeniczności do średniej
 ln (E ( yi |X i ) ) = X i β + ε i = ln λi + ln ui

yi (pod warunkiem xi i ui) ma rozkład Poissona z
warunkową średnią i wariancją μi
exp ( −λi ui )( λi ui ) i
y
f ( y i |X i , ui ) =

yi !
Bezwarunkowy rozkład f ( yi |X i )
f ( y i |X i ) =
+∞

0
exp ( −λi ui )( λi ui ) i
y
yi !
g ( ui ) dui
czaj.org
Model ujemny dwumianowy


Funkcja gęstości ui determinuje bezwarunkowy rozkład yi
Wygodnie założyć rozkład gamma, E (ui ) = 1
θθ
g ( ui ) =
exp ( −θ ui ) uiθ −1
Γ (θ )

Wtedy bezwarunkowy rozkład yi dany jest przez
f ( y i |X i ) =
+∞

exp ( −λi ui )( λi ui ) i θ θ uiθ −1 exp ( −θ ui )
y
yi !
0
=
=
θ θ λiy
Γ (θ )
dui
+∞
i
Γ ( yi + 1 ) Γ (θ )
θ + yi −1
exp
−
λ
+
θ
u
u
dui
(
)
(
)
i
i
i

0
θ θ λiy Γ (θ + yi )
i
θ + yi
Γ ( yi + 1 ) Γ (θ )( λi + θ )
czaj.org
Model ujemny dwumianowy



Warunkowa średnia λi
Warunkowa wariancja λi (1 + (1 θ ) λi )
Uwagi:


1 θ =0
Ekwidyspersję można przetestować ex post jako
Możliwe inne specyfikacje ui – np. rozkład normalny
POISSON; ...
; heterogeneity $

Normalną nieobserwowalną heterogeniczność można dodać także do
modelu ujemnego dwumianowego*
NEGBIN ; ...
; heterogeneity $
czaj.org
Case study – liczba podróży nad Morze Bałtyckie
Skonstruuj model regresji ujemnej dwumianowej
4.
NEGBIN ; lhs = ...
; rhs = ...
; ... $


Czy restrykcja 1 θ = 0 jest uzasadniona?
Czy zmieniły się oszacowania CS?
czaj.org
Model ujemny dwumianowy – inne formy


Powyższa specyfikacja to tylko jedna z możliwych – NB-2
Inna możliwość NB-1 POISSON; model = NB1; … $
 θ

zamieniamy na θλi
Funkcja gęstości przyjmuje formę:
P (Y = y i | X i ) =

Ogólniej – NB-P
Γ (θλi + y i )θ θλi
y +θλi
Γ ( y i + 1 ) Γ (θλi )(1 + θ ) i
POISSON; model = NBP; … $
(z modelu NB-2) zamieniamy na θλi2−P
Dodatkowy parametr P
 θ

i
Γ (θλi2 −P + yi )θ θλi 
  θλi2 −P 
λi
P (Y = y i | X i ) =
 2−P
  2−P

Γ ( yi + 1 ) Γ (θλi2 −P )  θλi + λi   θλi + λi 
y

θλi2−P
Modele NB-1 i NB-2 to szczególne przypadki, dla P=1 i P=2
czaj.org
Model ujemny dwumianowy – inne formy

Dla tych modeli



Warunkowa średnia E ( yi | X i ) = exp ( β′X i ) = λi
Warunkowa wariancja var ( yi | X i ) = λi (1 + (1 θ ) λiP −1 )
Istnieje wiele innych specyfikacji i postaci funkcyjnych






Uogólniony model Poissona POISSON; model = GP / GP1 / GP2 / GPP; … $
Gamma POISSON; model = gamma; … $
Polya-Aeppli POISSON; model = polya; … $
Neg-Bin X POISSON; model = NBX; … $
Rozkład logarytmiczny
Dla zbiorów o dużych wartościach yi (kilkadziesiąt-kilkaset) –
dość dobrze działają rozkłady ciągłe
czaj.org
Model ujemny dwumianowy – heteroskedastyczność

Jednym z możliwych rozszerzeń modelu –
heteroskedastyczność




Heterogeniczność średniej i wariancji zawsze ważna dla danych
mikroekonomicznych
Parametr dyspersji θ wyłapuje ogólne skalowanie rozkładu (średnia vs.
wariancja) więc nie umożliwia heteroskedastyczności
Ogólnie wariancja to var ( yi | X i ) = λi (1 + (1 θ ) λiP −1 )
Zróbmy więc θ i = θ exp ( δ′Z i )
 Teraz θ (a więc ogólniej – wariancja) funkcją obserwowalnych zmiennych
charakteryzujących respondentów Z
5.
Skonstruuj model regresji ujemnej dwumianowej z
heteroskedastycznością obserwacji dla różnych krajów
NEGBIN ; ...
; hfn = ... $
czaj.org
Praca domowa ME.10 (grupy 2 lub 3-osobowe)
Wykorzystaj projekt me.baltic.lpj do przeanalizowania, jakie
charakterystyki respondentów pozwalają wyjaśnić ich ocenę
własnego wpływu na środowisko Bałtyku (ienv)
1.
1.
2.
Wybierz najlepszą, Twoim zdaniem, specyfikację
Zinterpretuj wyniki używając interpretacji jakościowej oraz ilościowej
(wykorzystując efekty cząstkowe)
Wykorzystując projekt me.baltic.lpj skonstruuj model
liczności zdarzeń objaśniający liczbę wycieczek nad Bałtyk
2.
1.
2.
Wybierz najlepszą, Twoim zdaniem, postać funkcyjną i specyfikację
Zinterpretuj wyniki używając interpretacji jakościowej oraz ilościowej
(wykorzystując efekty cząstkowe)
czaj.org
04.12.2015 11:49:49

Podobne dokumenty