1 2 ∑ Pytania teoretyczne 1. Wyprowadz postac
Transkrypt
1 2 ∑ Pytania teoretyczne 1. Wyprowadz postac
1 2 P Pytania teoretyczne 1. Wyprowadź postać macierzy wariancji kowariancji b i podaj interpretacj˛e jej elementów Wyprowadzenie: h¡ h¡ h ¢−1 0 i ¢−1 0 ¡ 0 ¢i ¡ ¢−1 0 i Var X 0 X X y = Var X 0 X X X β + ε = Var β+ X 0 X Xε ¡ 0 ¢−1 ¡ ¢ ¡ 0 ¢−1 0 −1 = σ2 X 0 X = XX X Var (ε)X X X | {z } Var (b) = σ2 I Elementy na przekatnej ˛ macierzy Var (b) to wariancje elementów wektora b - Var (br ), a elementy poza przekatn ˛ a˛ to kowariancje mi˛edzy elementami wektora b - Cov (br , bs ). 2. Wyjaśnij jakie korzyści i niebezpieczeństwa łacz ˛ a˛ si˛e z narzucaniem ograniczeń na modele (a) Korzyści: i. jeśli narzucone ograniczenia sa˛ prawdziwe, to polepszy si˛e jakość oszacowań - spadnie wariancja estymatorów (taki efekt ma np. usuwanie zmiennych nieistotnych z modelu) ii. w wyniku narzucenia ograniczeń uzyskujemy model prostszy - model prostszy jest lepszy od modelu bardziej złożonego jeśli tylko równie dobra˛ moc objaśniajac ˛ a.˛ iii. narzucajac ˛ ograniczenia na model możemy je przetestować sprawdzajac, ˛ czy model z narzuconymi ograniczeniami rownie dobrze pasuje do danych co model bez ograniczeń - w ten sposób można przetestować teorie o znaczeniu ekonomicznym (b) Niebezpieczeństwa: i. jeśli ograniczenia okaża˛ si˛e fałszywe to uzyskane oszacowania moga˛ być obcia˛żone - taki jest np. wpływ pomini˛ecia zmiennych istotnych w modelu. ii. obcia˛żenie estymatorów może spowodować, że wnioskowanie statystyczne w modelu na który narzucono fałszywe ograniczenia może dać całkowicie bł˛edne wyniki. IMIE˛ NAZWISKO.......................................................................... 1 2 3 4 5 6 7 8 9 10 11a 11b 11c P Z ADANIE 1 Oszacowano regresj˛e logarytmu zagregowanej konsumpcji w wyrażeniu nominalnym (zmienna y) na logarytmie PKB w wyrażeniu nominalnym (zmienna x1 ) i logarytmie deflatora (zmienna x2 ). Regresj˛e przeprowadzono dla danych kwartalnych dla Polski z okresu 1995-2002. Wprowadzono także do modelu zmienne sezonowe przyjmujace ˛ wartość 1 dla odpowiedniego kwartału a 0 dla pozostałych. Wyniki regresji znajduja˛ si˛e w tabeli poniżej. y | Coef. Std.Err. t P>|t| ----------+------------------------------x1 | .80 .081 9.72 0.000 x2 | -.59 .117 -5.00 0.000 seasonal2 | -.05 .011 -4.38 0.000 seasonal3 | -.07 .011 -6.25 0.000 seasonal4 | -.17 .012 -14.36 0.000 cons | 1.87 .926 2.02 0.054 -----------------------------------------Number of obs = 32, F( 5, 26) = 229.88 [0.0000] R-squared = 0.9779, s = .02027 -----------------------------------------Durbin-Watson test statistic: d( 6, 32) =2.261303 Breusch-Godfrey LM statistic: Chi-sq( 2) =4.894179 Breusch-Pagan test statistic: Chi-sq(2) =10.41 White’s general test statistic: Chi-sq(14) =35.15268 Jarque-Berra test statistic: Chi-sq(2) =8.34 Ramsey RESET test statistic: F(3, 23) =1.66 Chow test statistic (t=1999.1): F( 3, 23) =0.28 [.0867] [.0054] [.0013] [.0154] [.2030] [.8359] Przy założonym poziomie istotności α = 0.01 przeprowadzić analiz˛e wyników. Każda˛ z odpowiedzi należy uzasadnić za pomoca˛ odpowiedniego testu. Podpowiedź: wartości dL i dU dla testu DW przy 32 obserwacjach, 5 zmiennych i stałej oraz α = 0.01 wynosza˛ dL = 0.917, dU = 1.597. 1. Określić, czy model jest dobrze dopasowany, czy zbiór zmiennych niezależnych istotnie objaśnia zmienna˛ zależna.˛ 2. Podać, które zmienne w modelu sa˛ istotne. 3. Zbadać, czy w modelu wyst˛epuje autokorelacja. 4. Zbadać, czy w modelu wyst˛epuje heteroskedastyczność. 5. Sprawdzić, czy forma funkcyjna modelu jest prawidłowa. 6. Przetestować, czy bład ˛ losowy w modelu ma rozkład normalny. 7. Sprawdzić, czy parametry modelu sa˛ stabilne. 8. Zinterpretować współczynnik przy zmiennej x2 . 9. W jaki sposób należałoby weryfikować hipotez˛e o neutralności pieniadza ˛ w gospodarce (tzn., że ważne sa˛ jedynie wartości realne a nie nominalne)? 10. W jaki sposób należałoby weryfikować hipotez˛e mówiac ˛ a˛ o tym, że zmienne sezonowe sa˛ nieistotne w modelu? 11. Jeśli model nie spełnia założeń KMRL określić: (a) które założenie nie jest spełnione? (b) jakie ma to konsekwencje dla wnioskowania statystycznego? (c) jakie sa˛ metody radzenia sobie z tym problemem? IMIE˛ NAZWISKO.......................................................................... Rozwiazanie: ˛ 1. Oszacowany model objaśnia prawie 98% zmienności zmiennej zależnej (współczynnik R2 = 0.9779). Zbiór zmiennych objaśniajacych ˛ (bez stałej) jest łacznie ˛ istotny (F5,26 = 229.88) [0.0000 < 0.01]. 2. Wszystkie zmienne objaśniajace ˛ poza stała˛ sa˛ istotne na zadanym poziomie istotności (p-value dla statystyk t sa˛ mniejsze od 0.01). 3. W modelu nie wyst˛epuje autokorelacja I rz˛edu ponieważ statystyka DW ≈ 2.26 ∈ (1.597, 2.403) przyjmuje wartość, która nie pozwala odrzucić hipotezy zerowej. Odpowiednie wartości krytyczne dla tego testu wynosza˛ (dL = 0.917, dU = 1.597).Także p-value dla testu Breuscha-Godfreya świadczy o tym, że w modelu nie ma autokorelacji [.0867 > 0.01]. 4. Odrzucamy hipotez˛e o homoskedastyczności składnika losowego w zwiazku ˛ z wartościa˛ p-value dla testu White’a [.0013 < 0.01]. 5. Forma specyfikacji modelu jest prawidłowa, o czym świadczy p-value dla testu RESET [.2030 > 0.01]. 6. Bład ˛ losowy ma rozkład normalny, o czym świadczy p-value dla testu Jarque’a-Berra [.1886 > 0.01]. 7. Parametry modelu sa˛ stabilne, o czym świadczy p-value dla testu Chowa [.8359 > 0.01]. 8. Współczynnik przy zmiennej x2 jest elastycznościa˛ zagregowanej konsumpcji wzgl˛edem deflatora, zatem wzrost deflatora o 1% spowoduje spadek zagregowanej konsumpcji o −0.59%. 9. Model można zapisać jako log (cons) = α1 + α2 log (pkb) + α3 log (def l) + ε Konsumpcja i PKB w wyrażeniu realnym sa˛ równe odpowiednio cons∗ = od obu stron log (def l) uzyskujemy cons def l , pkb∗ = pkb def l . Odejmujac ˛ log (cons∗ ) = α1 + α2 log (pkb∗ ) + (α2 + α3 − 1) log (def l) + ε a wi˛ec na konsumpcj˛e w wyrażeniu realnym wpływa jedynie dochód w wyrażeniu realnym jeśli prawdziwe jest H0 : α2 + α3 = 1. 10. Hipoteze o łacznej ˛ nieistotności zmiennych sezonowych należy testestować za pomoca˛ testu F , nakładajac ˛ łaczne ˛ ograniczenie na parametry przy zmiennych seasonal2 , seasonal3 , seasonal4 , - przyrównujac ˛ je jednocześnie do zera. 11. (a) Model nie spełnia założenia braku heteroskedastyczności składnika losowgo (b) Macierz wariancji-kowariancji jest niewłaściwa, co powoduje, że niewłaściwe sa˛ bł˛edy standardowe parametrów i tym samym niewłaściwe sa˛ statystyki t. (c) Jeśli nie chcemy usunać ˛ heteroskedastyczności, należy posłużyć si˛e tzw. odporna˛ macierza˛ wariancjikowariancji White’a. Można też podjać ˛ prób˛e usuni˛ecia heteroskedastyczności za pomoca˛ Stosowalnej UMNK. IMIE˛ NAZWISKO.......................................................................... 1 2 3 4 P 5 Z ADANIE 2 Przeprowadzono regresj˛e wyjaśniajac ˛ a˛ wykształacenie dzieci (mierzone ilościa˛ lat - educ), płcia˛ dzieci (sex: 1 - m˛eżczyzna, 2 - kobieta), wykształceniem matki i ojca (mierzonym ilościa˛ lat - zmienne maeduc, paeduc) oraz prestiżem zawodu rodziców (masips, pasiops - zmienna ta przyjmuje wartości ciagłe ˛ i rośnie wraz ze wzrostem prestiżu zawodu): Source | SS df MS -------------+-----------------------------Model | 4538.79297 5 907.758594 Residual | 9096.62453 1388 6.55376407 -------------+-----------------------------Total | 13635.4175 1393 9.78852656 Number of obs F( 5, 1388) Prob > F R-squared Adj R-squared Root MSE = = = = = = 1394 138.51 0.0000 0.3329 0.3305 2.56 -----------------------------------------------------------------------------educ | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------_Isex_2 | .0373704 .1383551 0.27 0.787 -.2340372 .308778 maeduc | .2671991 .032688 8.17 0.000 .2030758 .3313223 paeduc | .2564337 .0332495 7.71 0.000 .1912091 .3216584 masiops | .0111014 .0087172 1.27 0.203 -.0059989 .0282016 pasiops | -.0014859 .0086718 -0.17 0.864 -.0184971 .0155253 _cons | 5.986173 .3496936 17.12 0.000 5.300188 6.672158 -----------------------------------------------------------------------------1. Które zmienne w modelu można uznać za istotne na poziomie istotności α = 5%? 2. Które zmienne powinno si˛e usunać ˛ z modelu i dlaczego? 3. Jaki wniosek zwiazany ˛ z wpływem prestiżu zawodu rodziców na liczb˛e lat poświ˛econych nauce przez dzieci wynika z tych oszacowań? 4. Jakie najprawdopodobniej b˛eda˛ relacje mi˛edzy odchyleniami standardowymi, statystykami t oraz R2 w regresji ze wszystkimi zmiennymi i w regresji z usuni˛etymi zmiennymi nieistotnymi? 5. Na identycznych danych przeprowadzono regresj˛e wyjaśniajac ˛ a˛ wykształcenie dzieci (zmienna educ - zdefiniowana jak poprzednio) za pomoca˛ prestiżu zawodu rodziców i uzyskano nast˛epujace ˛ wyniki: Source | SS df MS -------------+-----------------------------Model | 962.291959 3 320.763986 Residual | 12673.1255 1390 9.11735651 -------------+-----------------------------Total | 13635.4175 1393 9.78852656 Number of obs F( 3, 1390) Prob > F R-squared Adj R-squared Root MSE = = = = = = 1394 35.18 0.0000 0.0706 0.0686 3.0195 -----------------------------------------------------------------------------educ | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------_Isex_2 | -.0316199 .1628064 -0.19 0.846 -.3509927 .2877529 masiops | .0392992 .0099407 3.95 0.000 .0197989 .0587995 pasiops | .0655153 .0092743 7.06 0.000 .0473221 .0837084 _cons | 6.65009 .411023 16.18 0.000 5.843797 7.456382 -----------------------------------------------------------------------------Jakie wnioski na temat wpływu prestiżu zawodu rodziców na wykształacenie dzieci wynikaja˛ z tego modelu? Skad ˛ biora˛ si˛e rozbieżności mi˛edzy wnioskami z dwóch oszacowanych modeli? Rozwiazanie: ˛ 1. Na zadanym poziomie istotności, istotne sa˛ zmienne: maeduc (0.000 < 0.05), paeduc (0.000 < 0.05) i stała (0.000 < 0.05) IMIE˛ NAZWISKO.......................................................................... 2. Powinniśmy z modelu usunać ˛ zmienne nieistotne płeć (sex), prestiż zawodu matki (masiops) i prestiż zawodu ojca (pasiops). Pozostawienie w modelu zmiennych niestotnych pogarsza jakość oszacowań zmiennych istotnych - etymator MNK jest w sytuacji wyst˛epowania zmiennych nieistotnych dalej nieobcia˛żony ale nieefektywny. 3. Z oszacowań wynika, że po uwzgl˛ednieniu wykształcenia rodziców, prestiż zawodu rodziców nie ma wpływu na edukacj˛e dzieci. 4. Po usuni˛eciu zmiennych niestotnych z modelu powinna wzrosnać ˛ precyzja oszacowań (spadek odchyleń standardowych) a w konsekwencji powinny wzrosnać ˛ statystyki t dla zmiennych pozostawionych w modelu. R2 jednak spadnie, ponieważ usuwanie zmiennych z modelu zawsze prowadzi do spadku R2 . 5. Z uzyskanej regresji wynika dodatni i statystycznie istotny zwiazek ˛ mi˛edzy prestiżem zawodu rodziców a edukacja˛ dzieci. Sprzeczność mi˛edzy wnioskami z tych dwóch modeli bierze si˛e z tego, że w drugim modelu pojawia si˛e problem zmiennej pomini˛etej wykształcenie rodziców (paeduc, maeduc). Ponieważ zawody prestiżowe na ogół sa˛ zawodami wymagajacymi ˛ wykształcenia wi˛ec pomini˛ecie zmiennej wykształcenie doprowadziło do dodatniego obcia˛żenia współczynników przy zmiennych prestiżu zawodu rodziców i do bł˛ednych wniosków w drugim modelu. IMIE˛ NAZWISKO.......................................................................... P Z ADANIE 3 Oszacowano model yi = β 1 + β 2 xi + εi za pomoca˛ M N K i uzyskano oszacowania parametrów b1 i b2 . Pomiar zmiennej niezależnej xi był jednak systematycznie niedokładny. Oznaczmy jako x∗i prawdziwa˛ wartość zmiennej niezależnej a jako c identyczny dla wszystkich obserwacji nielosowy bład ˛ pomiaru. Załóżmy, że założenia KM RL sa˛ spełnione dla modelu: yi = β 1 + β 2 x∗i + εi Pokazać, że jeśli dla każdej obserwacji xi = x∗i +c, to estymator b1 b˛edzie obcia˛żony a estymator b nieobci a˛żony. P 2 P P n xi yi − xi Podpowiedź: Skorzystaj z tego, że w modelu z ze stała i jedna˛ zmienna˛ objaśniajac ˛ a˛ b2 = n P x2 −(P x )2 yi a i i b1 = y − b2 x i zastanów si˛e czemu jest równa wartość oczekiwana E (yi ) Rozwiazanie: ˛ Wartość oczekiwana yi ∗ ∗ E (yi ) = E (β 1 + xi β 2 + εi ) = β 1 + xi β 2 + E (εi ) = β 1 + (xi − c) β 2 | {z } 0 Wartość oczekiwana b2 E (b2 ) = = " P P P # n xi yi − xi yi E P P 2 n x2i − ( xi ) ³ X X X ´ 1 xi yi − xi yi P 2 P 2E n n xi − ( xi ) ³ X X X ´ xi yi − xi yi E n = = = = E (b2 ) = 1. Wartość oczekiwana b1 n P X xi E (yi ) X X X n xi (xi − c) β 2 + xi (xi − c) β 2 X X X n x2i β − xi xi β 2 · X ³X ´2 ¸ xi β2 n x2i − n X xi E (yi ) − X · X ³X ´2 ¸ 2 n x − xi β2 = β2 P i 2 x2i − ( xi ) 1 µP P ¶ yi xi − b2 E (b1 ) = E (y − b2 x) = E n n P P xi E (yi ) = − E (b2 ) n P P n xi [β 1 + (xi − c) β 2 ] − β2 = Pn P n xi xi β 2 − cβ 2 − β 2 = β1 + n n = β 1 − cβ 2 Alternatywne rozwiazanie ˛ E (b2 ) = = = P P P P P xi yi − xi yi n (x∗i + c) yi − (x∗i + c) yi P P P 2 = P 2 2 n x2i − ( xi ) n (x∗i + c) − [ (x∗i + c)] P ∗ P P ∗P P n xi yi + nc yi − xi yi − nc yi P P ∗ P ∗ 2 P 2 c2 − ( n x∗2 + 2nc x + n x ) − 2nc x∗i − n2 c2 i P ∗i P ∗ Pi n xi yi − xi yi P ∗2 P ∗ 2 n xi − ( xi ) n P IMIE˛ NAZWISKO.......................................................................... Uzyskany estymator jest równy estymatorowi MNK b∗2 policzonemu dla modelu yi = β 1 + β 2 x∗i + εi . Ponieważ dla tego modelu spełnione sa˛ założenia KMRL, wi˛ec z własności MNK w KMRL wynika, że b∗2 a w konsekwencji i b2 sa˛ nieobcia˛żone. UWAGA: Bez powyższego komentarza rozwiazanie ˛ to nie było zaliczane (udowodnić należało nieobcia˛żoność a nie równoważność algebraiczna˛ estymatorów)! Analogicznie b1 = y −b2 x = y −b2 (x∗ + c) = y −b2 x∗ −b2 c. Ponieważ b2 = b∗2 wi˛ec b1 = y −b∗2 x∗ −b∗2 c. ˛ założenia KMRL Ponieważ nieobcia˛żonym estymatorem β 1 w modelu yi = β 1 + β 2 x∗i + εi spełniajacym jest estymator MNK b∗1 = y − b∗2 x∗ wi˛ec estymator b1 6= b∗1 jest obcia˛żony dla c 6= 0 i β 2 6= 0. UWAGA: To rozwiazanie ˛ jest poprawne tylko wtedy, gdy wcześniej dowiodło si˛e, że b2 = b∗2 . Wymagany jest także komentarz na temat nieobcia˛żoności b∗1 w KMRL. IMIE˛ NAZWISKO..........................................................................