1 2 ∑ Pytania teoretyczne 1. Wyprowadz postac

Transkrypt

1 2 ∑ Pytania teoretyczne 1. Wyprowadz postac
1
2
P
Pytania teoretyczne
1. Wyprowadź postać macierzy wariancji kowariancji b i podaj interpretacj˛e jej elementów
Wyprowadzenie:
h¡
h¡
h
¢−1 0 i
¢−1 0 ¡ 0
¢i
¡
¢−1 0 i
Var X 0 X
X y = Var X 0 X
X X β + ε = Var β+ X 0 X
Xε
¡ 0 ¢−1
¡
¢
¡ 0 ¢−1 0
−1
= σ2 X 0 X
= XX
X Var (ε)X X X
| {z }
Var (b) =
σ2 I
Elementy na przekatnej
˛
macierzy Var (b) to wariancje elementów wektora b - Var (br ), a elementy poza
przekatn
˛ a˛ to kowariancje mi˛edzy elementami wektora b - Cov (br , bs ).
2. Wyjaśnij jakie korzyści i niebezpieczeństwa łacz
˛ a˛ si˛e z narzucaniem ograniczeń na modele
(a) Korzyści:
i. jeśli narzucone ograniczenia sa˛ prawdziwe, to polepszy si˛e jakość oszacowań - spadnie wariancja
estymatorów (taki efekt ma np. usuwanie zmiennych nieistotnych z modelu)
ii. w wyniku narzucenia ograniczeń uzyskujemy model prostszy - model prostszy jest lepszy od
modelu bardziej złożonego jeśli tylko równie dobra˛ moc objaśniajac
˛ a.˛
iii. narzucajac
˛ ograniczenia na model możemy je przetestować sprawdzajac,
˛ czy model z narzuconymi ograniczeniami rownie dobrze pasuje do danych co model bez ograniczeń - w ten sposób
można przetestować teorie o znaczeniu ekonomicznym
(b) Niebezpieczeństwa:
i. jeśli ograniczenia okaża˛ si˛e fałszywe to uzyskane oszacowania moga˛ być obcia˛żone - taki jest np.
wpływ pomini˛ecia zmiennych istotnych w modelu.
ii. obcia˛żenie estymatorów może spowodować, że wnioskowanie statystyczne w modelu na który
narzucono fałszywe ograniczenia może dać całkowicie bł˛edne wyniki.
IMIE˛ NAZWISKO..........................................................................
1
2
3
4
5
6
7
8
9
10
11a
11b
11c
P
Z ADANIE 1 Oszacowano regresj˛e logarytmu zagregowanej konsumpcji w wyrażeniu nominalnym (zmienna y) na
logarytmie PKB w wyrażeniu nominalnym (zmienna x1 ) i logarytmie deflatora (zmienna x2 ). Regresj˛e przeprowadzono dla danych kwartalnych dla Polski z okresu 1995-2002. Wprowadzono także do modelu zmienne sezonowe
przyjmujace
˛ wartość 1 dla odpowiedniego kwartału a 0 dla pozostałych. Wyniki regresji znajduja˛ si˛e w tabeli
poniżej.
y
|
Coef. Std.Err.
t
P>|t|
----------+------------------------------x1
|
.80
.081
9.72
0.000
x2
|
-.59
.117
-5.00
0.000
seasonal2 |
-.05
.011
-4.38
0.000
seasonal3 |
-.07
.011
-6.25
0.000
seasonal4 |
-.17
.012 -14.36
0.000
cons
|
1.87
.926
2.02
0.054
-----------------------------------------Number of obs = 32, F( 5, 26) = 229.88 [0.0000]
R-squared = 0.9779, s = .02027
-----------------------------------------Durbin-Watson test statistic:
d( 6, 32) =2.261303
Breusch-Godfrey LM statistic:
Chi-sq( 2) =4.894179
Breusch-Pagan test statistic:
Chi-sq(2) =10.41
White’s general test statistic: Chi-sq(14) =35.15268
Jarque-Berra test statistic:
Chi-sq(2) =8.34
Ramsey RESET test statistic:
F(3, 23)
=1.66
Chow test statistic (t=1999.1): F( 3, 23) =0.28
[.0867]
[.0054]
[.0013]
[.0154]
[.2030]
[.8359]
Przy założonym poziomie istotności α = 0.01 przeprowadzić analiz˛e wyników. Każda˛ z odpowiedzi należy
uzasadnić za pomoca˛ odpowiedniego testu.
Podpowiedź: wartości dL i dU dla testu DW przy 32 obserwacjach, 5 zmiennych i stałej oraz α = 0.01 wynosza˛
dL = 0.917, dU = 1.597.
1. Określić, czy model jest dobrze dopasowany, czy zbiór zmiennych niezależnych istotnie objaśnia zmienna˛
zależna.˛
2. Podać, które zmienne w modelu sa˛ istotne.
3. Zbadać, czy w modelu wyst˛epuje autokorelacja.
4. Zbadać, czy w modelu wyst˛epuje heteroskedastyczność.
5. Sprawdzić, czy forma funkcyjna modelu jest prawidłowa.
6. Przetestować, czy bład
˛ losowy w modelu ma rozkład normalny.
7. Sprawdzić, czy parametry modelu sa˛ stabilne.
8. Zinterpretować współczynnik przy zmiennej x2 .
9. W jaki sposób należałoby weryfikować hipotez˛e o neutralności pieniadza
˛
w gospodarce (tzn., że ważne sa˛
jedynie wartości realne a nie nominalne)?
10. W jaki sposób należałoby weryfikować hipotez˛e mówiac
˛ a˛ o tym, że zmienne sezonowe sa˛ nieistotne w
modelu?
11. Jeśli model nie spełnia założeń KMRL określić:
(a) które założenie nie jest spełnione?
(b) jakie ma to konsekwencje dla wnioskowania statystycznego?
(c) jakie sa˛ metody radzenia sobie z tym problemem?
IMIE˛ NAZWISKO..........................................................................
Rozwiazanie:
˛
1. Oszacowany model objaśnia prawie 98% zmienności zmiennej zależnej (współczynnik R2 = 0.9779). Zbiór
zmiennych objaśniajacych
˛
(bez stałej) jest łacznie
˛
istotny (F5,26 = 229.88) [0.0000 < 0.01].
2. Wszystkie zmienne objaśniajace
˛ poza stała˛ sa˛ istotne na zadanym poziomie istotności (p-value dla statystyk
t sa˛ mniejsze od 0.01).
3. W modelu nie wyst˛epuje autokorelacja I rz˛edu ponieważ statystyka DW ≈ 2.26 ∈ (1.597, 2.403) przyjmuje wartość, która nie pozwala odrzucić hipotezy zerowej. Odpowiednie wartości krytyczne dla tego testu
wynosza˛ (dL = 0.917, dU = 1.597).Także p-value dla testu Breuscha-Godfreya świadczy o tym, że w
modelu nie ma autokorelacji [.0867 > 0.01].
4. Odrzucamy hipotez˛e o homoskedastyczności składnika losowego w zwiazku
˛
z wartościa˛ p-value dla testu
White’a [.0013 < 0.01].
5. Forma specyfikacji modelu jest prawidłowa, o czym świadczy p-value dla testu RESET [.2030 > 0.01].
6. Bład
˛ losowy ma rozkład normalny, o czym świadczy p-value dla testu Jarque’a-Berra [.1886 > 0.01].
7. Parametry modelu sa˛ stabilne, o czym świadczy p-value dla testu Chowa [.8359 > 0.01].
8. Współczynnik przy zmiennej x2 jest elastycznościa˛ zagregowanej konsumpcji wzgl˛edem deflatora, zatem
wzrost deflatora o 1% spowoduje spadek zagregowanej konsumpcji o −0.59%.
9. Model można zapisać jako
log (cons) = α1 + α2 log (pkb) + α3 log (def l) + ε
Konsumpcja i PKB w wyrażeniu realnym sa˛ równe odpowiednio cons∗ =
od obu stron log (def l) uzyskujemy
cons
def l ,
pkb∗ =
pkb
def l .
Odejmujac
˛
log (cons∗ ) = α1 + α2 log (pkb∗ ) + (α2 + α3 − 1) log (def l) + ε
a wi˛ec na konsumpcj˛e w wyrażeniu realnym wpływa jedynie dochód w wyrażeniu realnym jeśli prawdziwe
jest H0 : α2 + α3 = 1.
10. Hipoteze o łacznej
˛
nieistotności zmiennych sezonowych należy testestować za pomoca˛ testu F , nakładajac
˛ łaczne
˛
ograniczenie na parametry przy zmiennych seasonal2 , seasonal3 , seasonal4 , - przyrównujac
˛ je
jednocześnie do zera.
11.
(a) Model nie spełnia założenia braku heteroskedastyczności składnika losowgo
(b) Macierz wariancji-kowariancji jest niewłaściwa, co powoduje, że niewłaściwe sa˛ bł˛edy standardowe
parametrów i tym samym niewłaściwe sa˛ statystyki t.
(c) Jeśli nie chcemy usunać
˛ heteroskedastyczności, należy posłużyć si˛e tzw. odporna˛ macierza˛ wariancjikowariancji White’a. Można też podjać
˛ prób˛e usuni˛ecia heteroskedastyczności za pomoca˛ Stosowalnej
UMNK.
IMIE˛ NAZWISKO..........................................................................
1
2
3
4
P
5
Z ADANIE 2 Przeprowadzono regresj˛e wyjaśniajac
˛ a˛ wykształacenie dzieci (mierzone ilościa˛ lat - educ), płcia˛ dzieci
(sex: 1 - m˛eżczyzna, 2 - kobieta), wykształceniem matki i ojca (mierzonym ilościa˛ lat - zmienne maeduc, paeduc) oraz prestiżem zawodu rodziców (masips, pasiops - zmienna ta przyjmuje wartości ciagłe
˛ i rośnie wraz ze
wzrostem prestiżu zawodu):
Source |
SS
df
MS
-------------+-----------------------------Model | 4538.79297
5 907.758594
Residual | 9096.62453 1388 6.55376407
-------------+-----------------------------Total | 13635.4175 1393 9.78852656
Number of obs
F( 5, 1388)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1394
138.51
0.0000
0.3329
0.3305
2.56
-----------------------------------------------------------------------------educ |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Isex_2 |
.0373704
.1383551
0.27
0.787
-.2340372
.308778
maeduc |
.2671991
.032688
8.17
0.000
.2030758
.3313223
paeduc |
.2564337
.0332495
7.71
0.000
.1912091
.3216584
masiops |
.0111014
.0087172
1.27
0.203
-.0059989
.0282016
pasiops | -.0014859
.0086718
-0.17
0.864
-.0184971
.0155253
_cons |
5.986173
.3496936
17.12
0.000
5.300188
6.672158
-----------------------------------------------------------------------------1. Które zmienne w modelu można uznać za istotne na poziomie istotności α = 5%?
2. Które zmienne powinno si˛e usunać
˛ z modelu i dlaczego?
3. Jaki wniosek zwiazany
˛
z wpływem prestiżu zawodu rodziców na liczb˛e lat poświ˛econych nauce przez dzieci
wynika z tych oszacowań?
4. Jakie najprawdopodobniej b˛eda˛ relacje mi˛edzy odchyleniami standardowymi, statystykami t oraz R2 w
regresji ze wszystkimi zmiennymi i w regresji z usuni˛etymi zmiennymi nieistotnymi?
5. Na identycznych danych przeprowadzono regresj˛e wyjaśniajac
˛ a˛ wykształcenie dzieci (zmienna educ - zdefiniowana jak poprzednio) za pomoca˛ prestiżu zawodu rodziców i uzyskano nast˛epujace
˛ wyniki:
Source |
SS
df
MS
-------------+-----------------------------Model | 962.291959
3 320.763986
Residual | 12673.1255 1390 9.11735651
-------------+-----------------------------Total | 13635.4175 1393 9.78852656
Number of obs
F( 3, 1390)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1394
35.18
0.0000
0.0706
0.0686
3.0195
-----------------------------------------------------------------------------educ |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Isex_2 | -.0316199
.1628064
-0.19
0.846
-.3509927
.2877529
masiops |
.0392992
.0099407
3.95
0.000
.0197989
.0587995
pasiops |
.0655153
.0092743
7.06
0.000
.0473221
.0837084
_cons |
6.65009
.411023
16.18
0.000
5.843797
7.456382
-----------------------------------------------------------------------------Jakie wnioski na temat wpływu prestiżu zawodu rodziców na wykształacenie dzieci wynikaja˛ z tego modelu?
Skad
˛ biora˛ si˛e rozbieżności mi˛edzy wnioskami z dwóch oszacowanych modeli?
Rozwiazanie:
˛
1. Na zadanym poziomie istotności, istotne sa˛ zmienne: maeduc (0.000 < 0.05), paeduc (0.000 < 0.05) i stała
(0.000 < 0.05)
IMIE˛ NAZWISKO..........................................................................
2. Powinniśmy z modelu usunać
˛ zmienne nieistotne płeć (sex), prestiż zawodu matki (masiops) i prestiż zawodu ojca (pasiops). Pozostawienie w modelu zmiennych niestotnych pogarsza jakość oszacowań zmiennych istotnych - etymator MNK jest w sytuacji wyst˛epowania zmiennych nieistotnych dalej nieobcia˛żony
ale nieefektywny.
3. Z oszacowań wynika, że po uwzgl˛ednieniu wykształcenia rodziców, prestiż zawodu rodziców nie ma wpływu
na edukacj˛e dzieci.
4. Po usuni˛eciu zmiennych niestotnych z modelu powinna wzrosnać
˛ precyzja oszacowań (spadek odchyleń
standardowych) a w konsekwencji powinny wzrosnać
˛ statystyki t dla zmiennych pozostawionych w modelu.
R2 jednak spadnie, ponieważ usuwanie zmiennych z modelu zawsze prowadzi do spadku R2 .
5. Z uzyskanej regresji wynika dodatni i statystycznie istotny zwiazek
˛
mi˛edzy prestiżem zawodu rodziców a
edukacja˛ dzieci. Sprzeczność mi˛edzy wnioskami z tych dwóch modeli bierze si˛e z tego, że w drugim modelu
pojawia si˛e problem zmiennej pomini˛etej wykształcenie rodziców (paeduc, maeduc). Ponieważ zawody
prestiżowe na ogół sa˛ zawodami wymagajacymi
˛
wykształcenia wi˛ec pomini˛ecie zmiennej wykształcenie
doprowadziło do dodatniego obcia˛żenia współczynników przy zmiennych prestiżu zawodu rodziców i do
bł˛ednych wniosków w drugim modelu.
IMIE˛ NAZWISKO..........................................................................
P
Z ADANIE 3 Oszacowano model
yi = β 1 + β 2 xi + εi
za pomoca˛ M N K i uzyskano oszacowania parametrów b1 i b2 . Pomiar zmiennej niezależnej xi był jednak systematycznie niedokładny. Oznaczmy jako x∗i prawdziwa˛ wartość zmiennej niezależnej a jako c identyczny dla
wszystkich obserwacji nielosowy bład
˛ pomiaru. Załóżmy, że założenia KM RL sa˛ spełnione dla modelu:
yi = β 1 + β 2 x∗i + εi
Pokazać, że jeśli dla każdej obserwacji xi = x∗i +c, to estymator b1 b˛edzie obcia˛żony a estymator
b nieobci
a˛żony.
P 2
P P
n
xi yi − xi
Podpowiedź: Skorzystaj z tego, że w modelu z ze stała i jedna˛ zmienna˛ objaśniajac
˛ a˛ b2 = n P x2 −(P x )2 yi a
i
i
b1 = y − b2 x i zastanów si˛e czemu jest równa wartość oczekiwana E (yi )
Rozwiazanie:
˛
Wartość oczekiwana yi
∗
∗
E (yi ) = E (β 1 + xi β 2 + εi ) = β 1 + xi β 2 + E (εi ) = β 1 + (xi − c) β 2
| {z }
0
Wartość oczekiwana b2
E (b2 ) =
=
" P
P P #
n xi yi − xi yi
E
P
P 2
n x2i − ( xi )
³ X
X X ´
1
xi yi −
xi
yi
P 2
P 2E n
n xi − ( xi )
³ X
X X ´
xi yi −
xi
yi
E n
=
=
=
=
E (b2 ) =
1. Wartość oczekiwana b1
n
P
X
xi
E (yi )
X
X X
n
xi (xi − c) β 2 +
xi
(xi − c) β 2
X
X X
n
x2i β −
xi
xi β 2
· X
³X ´2 ¸
xi
β2
n
x2i −
n
X
xi E (yi ) −
X
· X
³X ´2 ¸
2
n
x
−
xi
β2 = β2
P
i
2
x2i − ( xi )
1
µP
P ¶
yi
xi
− b2
E (b1 ) = E (y − b2 x) = E
n
n
P
P
xi
E (yi )
=
− E (b2 )
n
P
P n
xi
[β 1 + (xi − c) β 2 ]
− β2
=
Pn
P n
xi
xi
β 2 − cβ 2 − β 2
= β1 +
n
n
= β 1 − cβ 2
Alternatywne rozwiazanie
˛
E (b2 )
=
=
=
P P
P
P
P
xi yi − xi yi
n (x∗i + c) yi − (x∗i + c) yi
P
P
P 2 =
P
2
2
n x2i − ( xi )
n (x∗i + c) − [ (x∗i + c)]
P ∗
P
P ∗P
P
n xi yi + nc yi − xi
yi − nc yi
P
P ∗
P ∗ 2
P
2 c2 − (
n x∗2
+
2nc
x
+
n
x
)
− 2nc x∗i − n2 c2
i
P ∗i
P ∗ Pi
n xi yi − xi
yi
P ∗2
P ∗ 2
n xi − ( xi )
n
P
IMIE˛ NAZWISKO..........................................................................
Uzyskany estymator jest równy estymatorowi MNK b∗2 policzonemu dla modelu yi = β 1 + β 2 x∗i + εi .
Ponieważ dla tego modelu spełnione sa˛ założenia KMRL, wi˛ec z własności MNK w KMRL wynika, że b∗2 a
w konsekwencji i b2 sa˛ nieobcia˛żone.
UWAGA: Bez powyższego komentarza rozwiazanie
˛
to nie było zaliczane (udowodnić należało nieobcia˛żoność
a nie równoważność algebraiczna˛ estymatorów)!
Analogicznie b1 = y −b2 x = y −b2 (x∗ + c) = y −b2 x∗ −b2 c. Ponieważ b2 = b∗2 wi˛ec b1 = y −b∗2 x∗ −b∗2 c.
˛
założenia KMRL
Ponieważ nieobcia˛żonym estymatorem β 1 w modelu yi = β 1 + β 2 x∗i + εi spełniajacym
jest estymator MNK b∗1 = y − b∗2 x∗ wi˛ec estymator b1 6= b∗1 jest obcia˛żony dla c 6= 0 i β 2 6= 0.
UWAGA: To rozwiazanie
˛
jest poprawne tylko wtedy, gdy wcześniej dowiodło si˛e, że b2 = b∗2 . Wymagany
jest także komentarz na temat nieobcia˛żoności b∗1 w KMRL.
IMIE˛ NAZWISKO..........................................................................