Pytania teoretyczne 1. Jakie trzy testy stosujemy ww
Transkrypt
Pytania teoretyczne 1. Jakie trzy testy stosujemy ww
Pytania teoretyczne 1. Jakie trzy testy stosujemy w w kontekście estymacji M N W ? Porównaj zalety i wady tych testów. Rozwiazanie: ˛ W kontekście estymacji M N W stosujemy trzy testy do testowania ograniczeń narzuconych na parametry: testu LR (ilorazu wiarygodności), W (Walda) i LM (mnożników Lagrange’a). Główna˛ wada˛ testu LR jest to, że wymaga policzenia zarówno estymatorów w modelu z ograniczeniami. Jago zaleta˛ jest bardzo prosta forma analityczna. Test LM wymaga policzenia estymatorów jedynie w modelu z ograniczeniami. Jego forma analityczna jest jednak bardziej skomplikowana niż testu LR. Test W wymaga wyestymowania jedynie modelu bez ograniczeń. Jego główna˛ wada˛ jest brak niezmienniczości przy wzajemnie jednoznacznych przekształceniach liniowych - innymi słowy równoważne hipotezy zapisane w różny sposób moga˛ w małych próbach dawać różne wartości statystyki testowej. 2. Pokazac, że estymator M N K można wyprowadzić jako estymator GM M z warunku, że E ( εi | xi ) = 0. Narzucajac ˛ ograniczenie na momenty bezwarunkowe otrzymujemy (xi pełni rol˛e instrumentu) 0 0 E (xi εi ) = E [xi (yi − xi β)] = 0 Odpowiadajacy ˛ temu warunkowi warunek narzucony na momenty empiryczne b˛edzie miał postać n ´ ³ ´ 1X 0³ b = 1 X 0y − X 0X β b =0 xi y i −xi β n i=1 n ¡ ¢ b = X 0 X −1 X 0 β Co daje nam znany wzór β Z ADANIE 1 W prostym modelu popytu i podaży (w zapisie pomini˛eto indeksy obserwacji): QD QS QD = α0 + α1 P + ε1 = β 1 P + ε2 = QS 1. Sprawdzić identyfikacj˛e równań. 2. Wyprowadzić estymator Pośredniej M N K dla parametrów w równaniach, które sa˛ zidentyfikowane. 3. Wyprowadzić postać estymatora M ZI dla parametrów w równaniach, które sa˛ zidentyfikowane. 4. Policzyć granic˛e według prawdopodobieństwa estymatora M N K parametru β 1 . Czy estymator ten jest PT p zgodny? Założyć, że E (ε1 ) = E (ε2 ) = 0, Var (ε1 ) = σ 21 ,Cov (ε1 , ε2 ) = σ 12 , P 2 = n1 t=1 Pt2 −→ P 2∗ . Rozwiazanie: ˛ 1. Sprawdzamy identyfikacj˛e równań zmienne egzogeniczne 1 zmienne endogeniczne QD , QS , P K=1 G1 = 2 G2 = 2 K1 = 1 K2 = 0 niezidentyfikowane 1 = K < G1 + K1 − 1 = 2 zidentyfikowane 1 = K ≥ G1 + K1 − 1 = 1 Równanie popytu nie jest zidentyfikowane, równanie podaży jest zidentyfikowane 2. Budujemy form˛e zredukowana.˛ Jedyna˛ zmienna˛ egzogeniczna˛ jest stała, forma zredukowana ma postać: QD P = = QS = π 0 + ²1 π 1 + ²2 Rozwiazuj ˛ ac ˛ form˛e strukturalna˛ dla QD , QS i P otrzymujemy QD = P = β ε1 − α1 ε2 β 1 α0 + 1 β 1 − α1 β 1 − α1 ε1 − ε2 α0 + β 1 − α1 β 1 − α1 QS = 1 Zależności mi˛edzy parametrami formy strukturalnej i zredukowanej π0 = π1 = β 1 α0 β 1 − α1 α0 β 1 − α1 b = πb 0 . Ponieważ Wynika z tego, że estymator Pośredniej M N K parametru β 1 można policzyć jako β 1 b1 π b = Q. estymatorami M N K stałej w modelu tylko ze stała sa˛ średnie zmiennych zależnych wi˛ec β 1 P 0 3. Jedynym zidentyfikowanym rówaniem jest równanie podaży Y = [QS1 , . . . , QsT ] a jedyna˛ zmienna˛ in0 0 strumentalna˛ stała Z = [1, . . . , 1] . Mamy dokładnie tyle zmiennych objaśniajacych ˛ (X = [P1 , . . . , PT ] ) Postać estymatora M ZI w tym przypadku b˛edzie nast˛epujaca: ˛ ¡ ¢−1 0 Q bM ZI = Z 0 X Z y= P a wi˛ec dokładnie ten sam wzór co w przypadku zastosowania Pośredniej M N K. Sytuacja taka zachodzi zawsze, gdy równanie jest dokładnie zidentyfikowane. 4. Wzór na estymator M N K w równaniu podaży jest nast˛epujacy ˛ PT PT ¡ 0 ¢−1 0 Pt (β Pt + ε2 ) t=1 Pt QSt b = XX X y = PT = t=1 PT 1 2 2 t=1 Pt t=1 Pt P T 1 Pt ε2 = β 1 + n1 Pt=1 T 2 t=1 Pt n Korzystajac ˛ z wyprowadzonego wzoru na Pt w formie zredukowanej, otrzymujemy T T T T 1X α0 1X 1 1X 1 1X 2 P t ε2 = ε2 + ε1 ε2 − ε n t=1 β 1 − α1 n t=1 β 1 − α1 n t=1 β 1 − α1 n t=1 1 Ponieważ jednak plim ¡ ¢ E ε21 = σ 21 wi˛ec ´ ³ P ´ ³ P ´ T T 1 1 2 ε = (ε ) = 0, plim ε ε = Cov (ε , ε ) = σ , plim ε = E 2 2 1 2 1 2 12 1 t=1 t=1 t=1 n n ³ P T 1 n à plim (b) = = = ! P ε t 2 t=1 β 1 + plim PT 2 t=1 Pt ³ P ´ T plim n1 t=1 Pt ε2 ³ P ´ β1 + T plim n1 t=1 Pt2 β1 + PT 1 n 1 n 1 σ 12 − σ 21 β 1 − α1 P 2∗ Estymator M N K nie jest zgodny. Z ADANIE 2 Pewien zbiór danych zawiera wyniki ankiety dotyczacej ˛ aktywności zawodowej. Wśród pytań w tej ankiecie znajduje si˛e pytanie o to czy dana osoba posiadała prac˛e w ostatnim tygodniu. W ankiecie znajduja˛ si˛e także pytania dotyczace ˛ płci respondenta, wieku i wieku do kwadratu. Analizowanym problemem jest fakt posiadania pracy przez respondenta w ostatnim tygodniu przed badaniem. Poniżej znajduja˛ si˛e oszacowania para2 metrów i efektów czaskowych ˛ policzonych dla średnich w próbie (płeć, wiek, wiek ) dla modelu probitowego oszacowanego do tego problemu: Probit estimates Log likelihood = Number of obs LR chi2(3) Prob > chi2 Pseudo R2 -25355.75 2 = = = = 48011 14361.19 0.0000 0.2207 -----------------------------------------------------------------------------DIDWORK | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_ISEX_1 | -.2990495 .0129114 -23.16 0.000 -.3243553 -.2737436 AGE | .2141407 .0023237 92.16 0.000 .2095864 .218695 AGE2 | -.0026057 .0000275 -94.68 0.000 -.0026597 -.0025518 _cons | -3.737656 .0450184 -83.03 0.000 -3.825891 -3.649422 -----------------------------------------------------------------------------Marginal effects after probit y = Pr(_IDIDWORK_1) (predict) = .67757262 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------_ISEX_1 | -.1065777 .00458 -23.29 0.000 -.115547 -.097608 .526379 AGE | .0768204 .00069 111.87 0.000 .075474 .078166 37.0025 AGE2 | -.0009348 .00001 -118.19 0.000 -.00095 -.000919 1369.18 -----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1 SEX: DIDWORK: 0 1 0 1 mezczyzna kobieta nie pracuje pracuje Testy przeprowadzamy na poziomie istotności α = 0.05. 1. Wypisz założenia modelu probitowego. 2. Które założenie KM RL b˛edzie najprawdopodobniej fałszywe dla modelu liniowego opisujacego ˛ zależność p-stwa posiadania pracy od charakterystyk respondenta.? 3. Na jakie problemy natkniemy si˛e, jeśli model ten oszacujemy za pomoca˛ M N K? 4. Jakie wnioski można wyciagn ˛ ać ˛ na podstawie oszacowań parametrów w tym modelu? 5. Podać intepretacj˛e R2 i statystyki LR pojawiajacej ˛ si˛e na wydruku i sprawdzić, czy wszystkie zmienne w modelu sa˛ łacznie ˛ istotne. 6. Podać intepretacj˛e efektu czastkowego ˛ dla płci (kodowanie 0 - m˛eżczyzna, 1 kobieta) 7. Policz efekt czaskowy ˛ dla wieku (średni wiek respondentów w analizowanej próbie jest równy 43.7) 8. Jaki model powinniśmy zbudować, by przetestować hipotez˛e, że wiek wpływa inaczej na aktywność zawodowa kobiet i m˛eżczyzn? Jaki jest wynik tego testu jeśli dla tak rozbudowanego modelu wielkość logarytmu funkcji wiarygodności w maksimum jest równe −25353.992. Podpowiedź: χ20.95 (1) = 3.84, χ20.95 (2) = 5.99, χ20.95 (3) = 7.81. Rozwiazanie: ˛ 1. Zmienna ukryta y∗ = xβ + ε ε ∼ N (0, 1) i poszczególne obserwacje sa˛ niezależne. Obserwujemy dla y ∗ ≤ 0 dla y ∗ > 0 y=0 y=1 3 Alternatywna odpowiedź: prawdopodobieństwa zajścia pojedynczego zdarzenia: ½ 1 − Φ (xβ) dla y = 0 Pr (yi ) = Φ (xβ) dla y = 1 i poszczególne obserwacje sa˛ niezależne. 2. W przypadku modelu liniowego (Liniowego Modelu Prawdopodobieństwa - LPM) fałszywe jest założenie o homoskedastyczności, ponieważ Var (y) = Var (ε) = p (x) [1 − p (x)] = xβ (1 − xβ) i jest zależne od x. 3. Szacujac ˛ model LPM natkniemy si˛e na dwa problemy: po pierwsze na wspomniana˛ wyżej heteroskeadstyczność a po drugie możemy uzyskać nieintepretowalen dopasowane wartości prawdopodobieństw (spoza przedziału [0, 1]) 4. Na podstawie oszacowań uzyskanych z modelu możemy zbadać istotność oraz kierunek wpływu poszczególnych zmiennych. Istotne sa˛ zmienne: SEX [−23.16, 0.000 < 0.05], AGE [92.16, 0.000 < 0.05], AGE2 [−94.68, 0.000 < 0.05], _cons [−83.03, 0.000 < 0.05]. Dodatni wpływ na p-stwo posiadania pracy ma zmienna AGE. Pozostałe zmienne maja˛ ujemny wpływ na p-stwo posiadania pracy. 5. 22.07% zmienności p-stwa posiadania pracy jest wyjaśniona przez zmienne niezależne. Hipotez˛e zerowa o nieistotności wszystkich zmiennych odrzucamy na podstawie statystyki LR [14361.19, 0.000 < 0.05] 6. Wielkość efektu czastkowego ˛ dla płci oznacza, że kobiety o charakterystykach na poziomie średnich w próbie maja˛ o 10.07 punkta procentowego mniejsze prawdopodobieństwo uzyskania pracy w stosunku do m˛eżczyzn o charakterystykach na poziomie średnich w próbie. (xβ) = f (xβ) β k . W analizowanym 7. Efekt czaskowy ˛ dla modeli ze binarna˛ zmienna˛ zależna˛ jest równy ∂F∂x k modelu policzone automatycznie efekty czastkowe ˛ dotycza˛ modelu, w którym wiek i wiek2 sa˛ osobnymi zmiennymi (podczas gdy w rzeczywistości wiek2 jest funkcja˛ zmiennej wiek). Mamy wi˛ec efekt czaskowy ˛ dla wieku f (xβ) β wiek i wieku do kwadratu f (xβ) β wiek2 . Liczac ˛ bezpośrednio pochodna˛ uzysku∂F (β wiek wiek+β wiek2 wiek2 ) jemy = f (xβ) β wiek + 2wiekf (xβ) β wiek2 . Prawidłowy efekt czastkowy ˛ ∂wiek policzony dla średnich wieku jest wi˛ec równy f (xβ) β wiek + 2wiekf (xβ) β wiek2 . Wielkości efektów f (xb) bwiek = .07771011i f (xb) bwiek2 = −.000945 odczytujemy z tablicy z wynikami i otrzymujemy całościowy efekt czaskowy ˛ na poziomie .07771011 + 2 × 43.7 × −.0009450 = −0.0048829 8. W modelu poza płcia˛ i wiekiem powinny jeszcze być interakcje mi˛edzy płcia˛ a wiekiem i wiekem2 : płeć×wiek, płeć×wiek2 . Statsytyka ilorazu wirygodności jest równa: LR = 2 (−25353.992 + 25355.75) = 3. 516 < χ20.05 (2) = 5.99 Hipotezy zerowej o tym, że wiek wpływa tak samo na prawdopodobieństwo posiadania pracy przez m˛eżczyzn i kobiety nie można odrzucić. Z ADANIE 3 Analizujemy model z logitowy, w którym zmiennymi objaśniajacymi ˛ jest stała i jedna zmienna objaśnijaca ˛ xi . Próba zawiera 100 obserwacji, spośród nich 75 to sukcesy. 1. Załóżmy, że oszacowanie wielkości stałej jest równe 1 a parametru przy xi także równe 1. Jakie jest prawdopodobieństwo sukcesu dla xi = 1 i jaki jest iloraz szans dla parametru przy stałej? 2. Przy założeniu, że parametr przy zmiennej xi jest równy zero, policz M N W oszacowanie parametru przy stałej. 3. Zweryfikuj hipotez˛e o tym, że parametr przy stałej jest równy zeru jeśli dla modelu logitowego ze stała˛ i xi uzyskano wielkość logarytmu funkcji wiarygodności w maksimum na poziomie −72.00. Wartość krytyczna χ2.05 (1) = 3.85, χ2.05 (2) = 5.99 4. Policz wielkość Pseudo R2 w tym modelu. Wyniki moga˛ być wyrażone za pomoca˛ stałych matematycznych 4 Rozwiazanie: ˛ 1. Prawdopodobieństwo sukcesu w modelu logitowym jest rowne Pr (yi = 1) = parametrów uzyskujemy Pr (yi = 1) = exp(xβ) 1+exp(xβ) .Dla zadanej wielkości exp (1 + 1) e2 = = . 880 8 1 + exp (1 + 1) 1 + e2 : Szansa dla modelu logitowego jest dana wzorem Pr (yi = 1) = exp (a + bxi ) = exp (a) exp (bxi ) 1 − Pr (yi = 1) Iloraz szans dla xi + 1 wzgl˛edem xi jest równy exp (a) exp (bxi ) exp (b) exp (a) exp [b (xi + 1)] = = exp (b) exp (a) exp (bxi ) exp (a) exp (bxi ) dla parametru b iloraz szans (zmiana szansy przy zmianie xi o 1) jest równy exp (b) . W omawianym przypadku b = 1 wi˛ec iloraz szans dla b jest równy e = 3.14 2. Funkcja wiarygodności dla logita dla pojedynczej obserwacji można zapisać jako µ Pr ( yi | xi ) = exp (xi β) 1 + exp (xi β) ¶yi µ 1 1 + exp (xi β) ¶1−yi Funkcja wiarygodności b˛edzie wi˛ec miała postać ` (β) = n X yi xi β− i=1 n X ln [1 + exp (xi β)] i=1 W przypadku, kiedy jedyna˛ zmienna˛ objaśnijac ˛ a˛ jest stała funkcja ta b˛edzie miała postać: ` (β 0 ) = n1 β 0 − n ln [1 + exp (β 0 )] gdzie n1 jest liczba˛ sukcesów. Maksymalizujac ˛ logarytm funkcji wiarygodności wzgl˛edem β 0 usykujemy nast˛epujace ˛ warunki pierwszego rz˛edu: ∂` (β 0 ) n exp (β 0 ) = n1 − =0 ∂β 0 1 + exp (β 0 ) Rozwiazuj ˛ ac ˛ dla β 0 uzyskujemy µ β 0 = ln n1 n − n1 ¶ µ = ln 50 25 ¶ = ln (2) = . 693 15 3. Wielkość funkcji wiarygodności w maksimum dla modelu z ograniczeniami (modelu z sama˛ stała) ˛ jest równa ` (ln 2) = 50 ln 2 − 100 ln [1 + exp (ln 2)] = 50 ln 2 − 100 ln (3) = −75. 204. Wielkość statystyki ilorazu wiarygodności jest równa 2 (−72.00 + 75. 204+) = 6. 408 > 3.85 Hipotez˛e zerowa˛ można odrzucić. Zmienna xi jest istotna w modelu. 4. Wielkość pseudo R2 jest równa 1 − ``R , gdzie ` jest wielkościa˛ funkcji wiarygodności w maksimum dla −72.00 pełnego modelu a `R dla modelu tylko ze stała.˛ W naszym modelu pseudo R2 = 1 − −75. 204 = 0.0426 5