Pytania teoretyczne 1. Jakie trzy testy stosujemy ww

Transkrypt

Pytania teoretyczne 1. Jakie trzy testy stosujemy ww
Pytania teoretyczne
1. Jakie trzy testy stosujemy w w kontekście estymacji M N W ? Porównaj zalety i wady tych testów.
Rozwiazanie:
˛
W kontekście estymacji M N W stosujemy trzy testy do testowania ograniczeń narzuconych na parametry:
testu LR (ilorazu wiarygodności), W (Walda) i LM (mnożników Lagrange’a). Główna˛ wada˛ testu LR
jest to, że wymaga policzenia zarówno estymatorów w modelu z ograniczeniami. Jago zaleta˛ jest bardzo
prosta forma analityczna. Test LM wymaga policzenia estymatorów jedynie w modelu z ograniczeniami.
Jego forma analityczna jest jednak bardziej skomplikowana niż testu LR. Test W wymaga wyestymowania
jedynie modelu bez ograniczeń. Jego główna˛ wada˛ jest brak niezmienniczości przy wzajemnie jednoznacznych przekształceniach liniowych - innymi słowy równoważne hipotezy zapisane w różny sposób moga˛
w małych próbach dawać różne wartości statystyki testowej.
2. Pokazac, że estymator M N K można wyprowadzić jako estymator GM M z warunku, że E ( εi | xi ) = 0.
Narzucajac
˛ ograniczenie na momenty bezwarunkowe otrzymujemy (xi pełni rol˛e instrumentu)
0
0
E (xi εi ) = E [xi (yi − xi β)] = 0
Odpowiadajacy
˛ temu warunkowi warunek narzucony na momenty empiryczne b˛edzie miał postać
n
´
³
´
1X 0³
b = 1 X 0y − X 0X β
b =0
xi y i −xi β
n i=1
n
¡
¢
b = X 0 X −1 X 0 β
Co daje nam znany wzór β
Z ADANIE 1 W prostym modelu popytu i podaży (w zapisie pomini˛eto indeksy obserwacji):
QD
QS
QD
= α0 + α1 P + ε1
= β 1 P + ε2
= QS
1. Sprawdzić identyfikacj˛e równań.
2. Wyprowadzić estymator Pośredniej M N K dla parametrów w równaniach, które sa˛ zidentyfikowane.
3. Wyprowadzić postać estymatora M ZI dla parametrów w równaniach, które sa˛ zidentyfikowane.
4. Policzyć granic˛e według prawdopodobieństwa estymatora M N K parametru β 1 . Czy estymator ten jest
PT
p
zgodny? Założyć, że E (ε1 ) = E (ε2 ) = 0, Var (ε1 ) = σ 21 ,Cov (ε1 , ε2 ) = σ 12 , P 2 = n1 t=1 Pt2 −→
P 2∗ .
Rozwiazanie:
˛
1. Sprawdzamy identyfikacj˛e równań
zmienne egzogeniczne
1
zmienne endogeniczne QD , QS , P
K=1
G1 = 2
G2 = 2
K1 = 1
K2 = 0
niezidentyfikowane 1 = K < G1 + K1 − 1 = 2
zidentyfikowane 1 = K ≥ G1 + K1 − 1 = 1
Równanie popytu nie jest zidentyfikowane, równanie podaży jest zidentyfikowane
2. Budujemy form˛e zredukowana.˛ Jedyna˛ zmienna˛ egzogeniczna˛ jest stała, forma zredukowana ma postać:
QD
P
=
=
QS = π 0 + ²1
π 1 + ²2
Rozwiazuj
˛ ac
˛ form˛e strukturalna˛ dla QD , QS i P otrzymujemy
QD
=
P
=
β ε1 − α1 ε2
β 1 α0
+ 1
β 1 − α1
β 1 − α1
ε1 − ε2
α0
+
β 1 − α1
β 1 − α1
QS =
1
Zależności mi˛edzy parametrami formy strukturalnej i zredukowanej
π0
=
π1
=
β 1 α0
β 1 − α1
α0
β 1 − α1
b = πb 0 . Ponieważ
Wynika z tego, że estymator Pośredniej M N K parametru β 1 można policzyć jako β
1
b1
π
b = Q.
estymatorami M N K stałej w modelu tylko ze stała sa˛ średnie zmiennych zależnych wi˛ec β
1
P
0
3. Jedynym zidentyfikowanym rówaniem jest równanie podaży Y = [QS1 , . . . , QsT ] a jedyna˛ zmienna˛ in0
0
strumentalna˛ stała Z = [1, . . . , 1] . Mamy dokładnie tyle zmiennych objaśniajacych
˛
(X = [P1 , . . . , PT ] )
Postać estymatora M ZI w tym przypadku b˛edzie nast˛epujaca:
˛
¡
¢−1 0
Q
bM ZI = Z 0 X
Z y=
P
a wi˛ec dokładnie ten sam wzór co w przypadku zastosowania Pośredniej M N K. Sytuacja taka zachodzi
zawsze, gdy równanie jest dokładnie zidentyfikowane.
4. Wzór na estymator M N K w równaniu podaży jest nast˛epujacy
˛
PT
PT
¡ 0 ¢−1 0
Pt (β Pt + ε2 )
t=1 Pt QSt
b = XX
X y = PT
= t=1 PT 1
2
2
t=1 Pt
t=1 Pt
P
T
1
Pt ε2
= β 1 + n1 Pt=1
T
2
t=1 Pt
n
Korzystajac
˛ z wyprowadzonego wzoru na Pt w formie zredukowanej, otrzymujemy
T
T
T
T
1X
α0
1X
1
1X
1
1X 2
P t ε2 =
ε2 +
ε1 ε2 −
ε
n t=1
β 1 − α1 n t=1
β 1 − α1 n t=1
β 1 − α1 n t=1 1
Ponieważ jednak plim
¡ ¢
E ε21 = σ 21 wi˛ec
´
³ P
´
³ P
´
T
T
1
1
2
ε
=
(ε
)
=
0,
plim
ε
ε
=
Cov
(ε
,
ε
)
=
σ
,
plim
ε
=
E
2
2
1
2
1
2
12
1
t=1
t=1
t=1
n
n
³ P
T
1
n
Ã
plim (b) =
=
=
!
P
ε
t
2
t=1
β 1 + plim
PT
2
t=1 Pt
³ P
´
T
plim n1 t=1 Pt ε2
³ P
´
β1 +
T
plim n1 t=1 Pt2
β1 +
PT
1
n
1
n
1
σ 12 − σ 21
β 1 − α1 P 2∗
Estymator M N K nie jest zgodny.
Z ADANIE 2 Pewien zbiór danych zawiera wyniki ankiety dotyczacej
˛ aktywności zawodowej. Wśród pytań w tej
ankiecie znajduje si˛e pytanie o to czy dana osoba posiadała prac˛e w ostatnim tygodniu. W ankiecie znajduja˛
si˛e także pytania dotyczace
˛ płci respondenta, wieku i wieku do kwadratu. Analizowanym problemem jest fakt
posiadania pracy przez respondenta w ostatnim tygodniu przed badaniem. Poniżej znajduja˛ si˛e oszacowania para2
metrów i efektów czaskowych
˛
policzonych dla średnich w próbie (płeć, wiek, wiek ) dla modelu probitowego
oszacowanego do tego problemu:
Probit estimates
Log likelihood =
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
-25355.75
2
=
=
=
=
48011
14361.19
0.0000
0.2207
-----------------------------------------------------------------------------DIDWORK
|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_ISEX_1 | -.2990495
.0129114
-23.16
0.000
-.3243553
-.2737436
AGE |
.2141407
.0023237
92.16
0.000
.2095864
.218695
AGE2 | -.0026057
.0000275
-94.68
0.000
-.0026597
-.0025518
_cons | -3.737656
.0450184
-83.03
0.000
-3.825891
-3.649422
-----------------------------------------------------------------------------Marginal effects after probit
y = Pr(_IDIDWORK_1) (predict)
= .67757262
-----------------------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z| [
95% C.I.
]
X
---------+-------------------------------------------------------------------_ISEX_1 | -.1065777
.00458 -23.29
0.000 -.115547 -.097608
.526379
AGE |
.0768204
.00069 111.87
0.000
.075474 .078166
37.0025
AGE2 | -.0009348
.00001 -118.19
0.000
-.00095 -.000919
1369.18
-----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
SEX:
DIDWORK:
0
1
0
1
mezczyzna
kobieta
nie pracuje
pracuje
Testy przeprowadzamy na poziomie istotności α = 0.05.
1. Wypisz założenia modelu probitowego.
2. Które założenie KM RL b˛edzie najprawdopodobniej fałszywe dla modelu liniowego opisujacego
˛
zależność
p-stwa posiadania pracy od charakterystyk respondenta.?
3. Na jakie problemy natkniemy si˛e, jeśli model ten oszacujemy za pomoca˛ M N K?
4. Jakie wnioski można wyciagn
˛ ać
˛ na podstawie oszacowań parametrów w tym modelu?
5. Podać intepretacj˛e R2 i statystyki LR pojawiajacej
˛ si˛e na wydruku i sprawdzić, czy wszystkie zmienne w
modelu sa˛ łacznie
˛
istotne.
6. Podać intepretacj˛e efektu czastkowego
˛
dla płci (kodowanie 0 - m˛eżczyzna, 1 kobieta)
7. Policz efekt czaskowy
˛
dla wieku (średni wiek respondentów w analizowanej próbie jest równy 43.7)
8. Jaki model powinniśmy zbudować, by przetestować hipotez˛e, że wiek wpływa inaczej na aktywność zawodowa kobiet i m˛eżczyzn? Jaki jest wynik tego testu jeśli dla tak rozbudowanego modelu wielkość logarytmu funkcji wiarygodności w maksimum jest równe −25353.992.
Podpowiedź: χ20.95 (1) = 3.84, χ20.95 (2) = 5.99, χ20.95 (3) = 7.81.
Rozwiazanie:
˛
1. Zmienna ukryta
y∗
=
xβ + ε
ε
∼
N (0, 1)
i poszczególne obserwacje sa˛ niezależne. Obserwujemy
dla y ∗ ≤ 0
dla y ∗ > 0
y=0
y=1
3
Alternatywna odpowiedź: prawdopodobieństwa zajścia pojedynczego zdarzenia:
½
1 − Φ (xβ) dla y = 0
Pr (yi ) =
Φ (xβ)
dla y = 1
i poszczególne obserwacje sa˛ niezależne.
2. W przypadku modelu liniowego (Liniowego Modelu Prawdopodobieństwa - LPM) fałszywe jest założenie
o homoskedastyczności, ponieważ Var (y) = Var (ε) = p (x) [1 − p (x)] = xβ (1 − xβ) i jest zależne od
x.
3. Szacujac
˛ model LPM natkniemy si˛e na dwa problemy: po pierwsze na wspomniana˛ wyżej heteroskeadstyczność a po drugie możemy uzyskać nieintepretowalen dopasowane wartości prawdopodobieństw (spoza
przedziału [0, 1])
4. Na podstawie oszacowań uzyskanych z modelu możemy zbadać istotność oraz kierunek wpływu poszczególnych zmiennych. Istotne sa˛ zmienne: SEX [−23.16, 0.000 < 0.05], AGE [92.16, 0.000 < 0.05], AGE2
[−94.68, 0.000 < 0.05], _cons [−83.03, 0.000 < 0.05]. Dodatni wpływ na p-stwo posiadania pracy ma
zmienna AGE. Pozostałe zmienne maja˛ ujemny wpływ na p-stwo posiadania pracy.
5. 22.07% zmienności p-stwa posiadania pracy jest wyjaśniona przez zmienne niezależne. Hipotez˛e zerowa o
nieistotności wszystkich zmiennych odrzucamy na podstawie statystyki LR [14361.19, 0.000 < 0.05]
6. Wielkość efektu czastkowego
˛
dla płci oznacza, że kobiety o charakterystykach na poziomie średnich w
próbie maja˛ o 10.07 punkta procentowego mniejsze prawdopodobieństwo uzyskania pracy w stosunku do
m˛eżczyzn o charakterystykach na poziomie średnich w próbie.
(xβ)
= f (xβ) β k . W analizowanym
7. Efekt czaskowy
˛
dla modeli ze binarna˛ zmienna˛ zależna˛ jest równy ∂F∂x
k
modelu policzone automatycznie efekty czastkowe
˛
dotycza˛ modelu, w którym wiek i wiek2 sa˛ osobnymi
zmiennymi (podczas gdy w rzeczywistości wiek2 jest funkcja˛ zmiennej wiek). Mamy wi˛ec efekt czaskowy
˛
dla wieku f (xβ) β wiek i wieku do kwadratu f (xβ) β wiek2 . Liczac
˛ bezpośrednio pochodna˛ uzysku∂F (β wiek wiek+β wiek2 wiek2 )
jemy
= f (xβ) β wiek + 2wiekf (xβ) β wiek2 . Prawidłowy efekt czastkowy
˛
∂wiek
policzony dla średnich wieku jest wi˛ec równy f (xβ) β wiek + 2wiekf (xβ) β wiek2 . Wielkości efektów
f (xb) bwiek = .07771011i f (xb) bwiek2 = −.000945 odczytujemy z tablicy z wynikami i otrzymujemy
całościowy efekt czaskowy
˛
na poziomie
.07771011 + 2 × 43.7 × −.0009450 = −0.0048829
8. W modelu poza płcia˛ i wiekiem powinny jeszcze być interakcje mi˛edzy płcia˛ a wiekiem i wiekem2 : płeć×wiek,
płeć×wiek2 . Statsytyka ilorazu wirygodności jest równa:
LR = 2 (−25353.992 + 25355.75) = 3. 516 < χ20.05 (2) = 5.99
Hipotezy zerowej o tym, że wiek wpływa tak samo na prawdopodobieństwo posiadania pracy przez m˛eżczyzn
i kobiety nie można odrzucić.
Z ADANIE 3 Analizujemy model z logitowy, w którym zmiennymi objaśniajacymi
˛
jest stała i jedna zmienna objaśnijaca
˛ xi . Próba zawiera 100 obserwacji, spośród nich 75 to sukcesy.
1. Załóżmy, że oszacowanie wielkości stałej jest równe 1 a parametru przy xi także równe 1. Jakie jest prawdopodobieństwo sukcesu dla xi = 1 i jaki jest iloraz szans dla parametru przy stałej?
2. Przy założeniu, że parametr przy zmiennej xi jest równy zero, policz M N W oszacowanie parametru przy
stałej.
3. Zweryfikuj hipotez˛e o tym, że parametr przy stałej jest równy zeru jeśli dla modelu logitowego ze stała˛ i xi
uzyskano wielkość logarytmu funkcji wiarygodności w maksimum na poziomie −72.00. Wartość krytyczna
χ2.05 (1) = 3.85, χ2.05 (2) = 5.99
4. Policz wielkość Pseudo R2 w tym modelu.
Wyniki moga˛ być wyrażone za pomoca˛ stałych matematycznych
4
Rozwiazanie:
˛
1. Prawdopodobieństwo sukcesu w modelu logitowym jest rowne Pr (yi = 1) =
parametrów uzyskujemy
Pr (yi = 1) =
exp(xβ)
1+exp(xβ) .Dla zadanej wielkości
exp (1 + 1)
e2
=
= . 880 8
1 + exp (1 + 1)
1 + e2
: Szansa dla modelu logitowego jest dana wzorem
Pr (yi = 1)
= exp (a + bxi ) = exp (a) exp (bxi )
1 − Pr (yi = 1)
Iloraz szans dla xi + 1 wzgl˛edem xi jest równy
exp (a) exp (bxi ) exp (b)
exp (a) exp [b (xi + 1)]
=
= exp (b)
exp (a) exp (bxi )
exp (a) exp (bxi )
dla parametru b iloraz szans (zmiana szansy przy zmianie xi o 1) jest równy exp (b) . W omawianym
przypadku b = 1 wi˛ec iloraz szans dla b jest równy e = 3.14
2. Funkcja wiarygodności dla logita dla pojedynczej obserwacji można zapisać jako
µ
Pr ( yi | xi ) =
exp (xi β)
1 + exp (xi β)
¶yi µ
1
1 + exp (xi β)
¶1−yi
Funkcja wiarygodności b˛edzie wi˛ec miała postać
` (β) =
n
X
yi xi β−
i=1
n
X
ln [1 + exp (xi β)]
i=1
W przypadku, kiedy jedyna˛ zmienna˛ objaśnijac
˛ a˛ jest stała funkcja ta b˛edzie miała postać:
` (β 0 ) = n1 β 0 − n ln [1 + exp (β 0 )]
gdzie n1 jest liczba˛ sukcesów. Maksymalizujac
˛ logarytm funkcji wiarygodności wzgl˛edem β 0 usykujemy
nast˛epujace
˛ warunki pierwszego rz˛edu:
∂` (β 0 )
n exp (β 0 )
= n1 −
=0
∂β 0
1 + exp (β 0 )
Rozwiazuj
˛ ac
˛ dla β 0 uzyskujemy
µ
β 0 = ln
n1
n − n1
¶
µ
= ln
50
25
¶
= ln (2) = . 693 15
3. Wielkość funkcji wiarygodności w maksimum dla modelu z ograniczeniami (modelu z sama˛ stała)
˛ jest równa
` (ln 2) = 50 ln 2 − 100 ln [1 + exp (ln 2)] = 50 ln 2 − 100 ln (3) = −75. 204. Wielkość statystyki ilorazu
wiarygodności jest równa
2 (−72.00 + 75. 204+) = 6. 408 > 3.85
Hipotez˛e zerowa˛ można odrzucić. Zmienna xi jest istotna w modelu.
4. Wielkość pseudo R2 jest równa 1 − ``R , gdzie ` jest wielkościa˛ funkcji wiarygodności w maksimum dla
−72.00
pełnego modelu a `R dla modelu tylko ze stała.˛ W naszym modelu pseudo R2 = 1 − −75.
204 = 0.0426
5

Podobne dokumenty