Ekonometria Lista 9 Z2ZF01 Lista zadań obejmuje następujące
Transkrypt
Ekonometria Lista 9 Z2ZF01 Lista zadań obejmuje następujące
Ekonometria Lista 9 Z2ZF01 Lista zadań obejmuje następujące zagadnienia: • Modele jakościowych cech zależnych • Liniowy model prawdopodobieństwa • Liniowy model regresji logistycznej Modele jakościowych cech zależnych Rozważania ograniczymy do binarnej cechy zależnej, tzn. będziemy zakładać, że zmienna objaśniana Y może przyjmować dwie wartości: 0 lub 1. Często modele tego typu pojawiają się, gdy interesują nas przyczyny podejmowania określonych decyzji przez jednostki, np.: • Dlaczego część ludzi podejmuje studia, podczas gdy inni nie? (Yi = 1 jeśli i-ta osoba podjęła studia, Yi = 0 w przeciwnym wypadku; X = (X1 , . . . , Xm ) – zbiór m czynników, które mogą mieć wpływ na podjętą decyzję, np. płeć, wykształcenie rodziców, dochody, itp.) • Dlaczego niektórzy przedsiębiorcy decydują się na zakup samochodów, podczas gdy inni wybierają leasing? Innym popularnym zastosowaniem tego typu modeli jest ocena zdolności kredytowej (credit scoring). W rozpatrywanym do tej pory liniowym modelu ekonometrycznym modelowano za pomocą liniowego predyktora η = Xα = α0 +α1 X1 +· · ·+αm Xm warunkową wartość oczekiwaną ilościowej b |X) = ηb = Xα. b zmiennej Y : E(Y |X) = η = Xα. W wyniku estymacji otrzymywano: Yb = E(Y Zauważmy, że binarna zmienna Y posiada rozkład zero-jedynkowy, tzn. przyjmuje wartość 1 z prawdopodobieństwem Pr(Y = 1|X) oraz wartość 0 z prawdopodobieństwem Pr(Y = 0|X) = 1 − Pr(Y = 1|X). Uogólnimy też rozważania do przypadku, w którym warunkowa wartość oczekiwana modelowana jest za pomocą pewnej monotonicznej funkcji liniowego predyktora, tj. E(Y |X) = g(η). 1 Pokazać, że w przypadku binarnej zmiennej objaśnianej E(Y |X) = Pr(Y = 1|X). Liniowy model prawdopodobieństwa Jest to najprostszy model, w którym zakłada się, że funkcja g jest tożsamościowa: Pr(Y = 1|X) = η = Xα. (1) Parametry liniowego modelu prawdopodobieństwa można oszacować za pomocą KMNK. Liniowy model regresji logistycznej (logitowy) W modelu tym zakłada się, że g jest funkcją logistyczną: Pr(Y = 1|X) = 1 1 = . 1 + exp(−η) 1 + exp(−Xα) Parametry modeli logitowych można oszacować Metodą Największej Wiarogodności. 1 (2) Ekonometria Lista 9 Z2ZF01 2 W 18-sto osobowej grupie studentów ekonometrii przeprowadzono test zaliczeniowy. Postawiono hipotezę, że prawdopodobieństwo zdania testu zależy w sposób liniowy od liczby dni jakie i-ty student poświęcił na naukę tuż przed testem (Xi ). Yi jest zmienną sztuczną, przyjmującą wartość 1 jeśli i-ty student zdał test, a 0 w przeciwnym wypadku. Na podstawie poniższych danych: i 1 2 3 4 5 6 7 8 9 Yi 0 0 0 0 0 0 0 1 0 Xi 5 5 5 6 6 6 7 7 10 i 10 11 12 13 14 15 16 17 18 Yi 1 0 1 1 0 1 1 1 1 Xi 10 10 11 11 12 12 12 12 12 a) b) c) d) Zapisać liniowy model prawdopodobieństwa. Oszacować parametry modelu. Podać interpretację wartości oszacowanych parametrów. Wyznaczyć wartości prawdopodobieństwa Pr(Y = 1|X) oraz reszty modelu ei . Jakie mankamenty liniowego modelu prawdopodobieństwa dostrzegasz? e) Stworzyć wykres linii regresji. 3 Pokazać, że dla modelu logitowego (2), gdzie Pi = Pr(Yi = 1|Xi ): a) b) c) d) Pi = exp(Xi α)/[1 + exp(Xi α)] exp(Xi α) = Pi /(1 − Pi ) (iloraz szans, ang. odds) ln[Pi /(1 − Pi )] = Xi α (logarytm ilorazu szans, ang. log odds) 1 − Pi = 1/[1 + exp(Xi α)] 4 Pokazać, że logarytm naturalny funkcji wiarogodności ` dla n-elementowej próby dla modelu logitowego (2) wyraża się następującym wzorem: ln ` = n X i=1 Yi · Xi α − n X ln[1 + exp(Xi α)]. (3) i=1 Wskazówki: a) Zmienna losowa Y ma rozkład zero-jedynkowy: Pr(Y = Yi ) = PiYi ·(1−Pi )1−Yi , Yi ∈ {0, 1}. b) Skorzystać z równości z zadania 3. 2 Ekonometria Lista 9 Z2ZF01 5 Na podstawie obserwacji zmiennych z zadania 2 oszacować parametry modelu logitowego, maksymalizując logarytm naturalny funkcji wiarogodności ` podany w zadaniu 4. Skorzystać z narzędzia Solver w programie MS Excel. Jako początkowe wartości oszacowań parametrów przyjąć oszacowania MNK z zadania 2. Na wykres z zadania 2(e) nanieść wartości prawdopodobieństwa Pi wyznaczone na podstawie oszacowanego modelu logitowego. Aby oszacować wpływ zmiany liczby dni, jakie i-ty student poświęcił na naukę tuż przed testem (Xi ) na prawdopodobieństwo zdania testu, należy wyznaczyć pochodną funkcji g(α1 X + α0 ) po X. Pokazać, że ∂g(α1 X + α0 ) exp(−(α1 X + α0 )) = · α1 ∂X [1 + exp(−(α1 X + α0 ))]2 (4) a) Wyznaczyć i zinterpretować wartości pochodnej dla X̄, X = 5, X = 12. Dla każdej wartości X obliczyć prawdopodobieństwo zdania testu Pi . b) Porównać interpretację oszacowania parametru α1 z zadania 2 z interpretacją wartości pochodnej w punkcie X = X̄. 6 Historia współpracy pewnego banku z klientami pozwoliła stworzyć próbę uczącą, składającą się z klientów dobrych, którzy spłacili kredyt bez większych problemów, oraz klientów złych, którzy mieli trudności w spłacie kredytu. Na podstawie tej próby oszacowano dla celów aplikacyjnego credit scoringu liniowy model prawdopodobieństwa: Ybi = −0.475 + 0.234HOM Ei + 0.02IN Ci + 0.002AGEi − 0.011LOANi , gdzie: Y to zmienna przyjmująca wartość 1, gdy klient był dobry oraz 0 — gdy klient okazał się zły, HOM E to zmienna przyjmująca wartość 1, gdy klient był właścicielem domu oraz 0 w przeciwnym razie, IN C oznacza przeciętny roczny dochód klienta z ostatnich 3 lat w tys. USD, AGE to wiek klienta w latach, a LOAN to kwota kredytu w tys. USD. a) Stosując standardową regułę mikroprognozy (punkt odcięcia 12 ), zakwalifikować do odpowiedniej grupy ryzyka 30-letniego aplikanta, który nie jest właścicielem domu, jego przeciętny roczny dochód z ostatnich trzech lat wyniósł 35 tys. USD, a wniesiono o kredyt w wysokości 8 tys. USD. b) Wiedząc, że diag(XT X) = (60, 37, 128806, 73385, 6212) podać liczbę obserwacji tworzących próbę uczącą . c) Podać próbkową liczbę kredytowo wiarygodnych klientów, jeśli w próbie otrzymano Ȳ = 0.55. 3