Rozdzial_6 Gruszczynski - E-SGH
Transkrypt
Rozdzial_6 Gruszczynski - E-SGH
Rozdział 6 MODELE ZMIENNEJ JAKOŚCIOWEJ Wprowadzenie W tym rozdziale zajmiemy się modelami dla zmiennych jakościowych jako zmiennych objaśnianych w jednorównaniowym modelu. To są takie zmienne Y, których wartości mają postać niemierzalnych „kategorii”, na przykład: „zatrudniony” i „bezrobotny” albo: „bankrut” i „nie-bankrut” czy też: wykształcenie „podstawowe”, „średnie”, „studia licencjackie”, „studia magisterskie” i „inne”. W tej sytuacji klasyczny model regresji nie jest specjalnie użyteczny. Jeśli chodzi o zmienne objaśniające (X), to nadal warto posługiwać się ich kombinacją liniową, jak w klasycznym jednorównaniowym modelu. Jednak obecnie ta liniowa kombinacja powinna być powiązana ze zmienną objaśnianą za pomocą pewnej funkcji o postaci nieliniowej. Dlaczego? Z tego powodu, że „kategorie” zmiennej Y nie dają się sensownie wyrazić liczbowo, można jedynie mówić o prawdopodobieństwie, że dla pewnej kombinacji zmiennych X zmienna Y znajdzie się w pewnej „kategorii”. Przyjęty w modelu rozkład prawdopodobieństwa decyduje właśnie o postaci wspomnianej nieliniowej funkcji. Modele zmiennych jakościowych należą do mikroekonometrii. A to dlatego, że są zazwyczaj stosowane do mikrodanych czyli danych indywidualnych: o pracownikach, o bezrobotnych, o klientach banku, o firmach, o obywatelach, o osobach ankietowanych itd. Mikrodane gromadzone są w urzędach statystycznych, urzędach rejestracyjnych, biurach badania opinii, agencjach ratingowych, biurach marketingowych itd. To są zwykle dane przekrojowe, czasem też można mieć do czynienia z danymi panelowymi Mikrodane często powstają jako wynik badania ankietowego: osób, konsumentów, firm, inwestorów itd. Jeśli w drugiej turze wyborów prezydenckich w Polsce ankieter pyta przed lokalem wyborczym: „na kogo pani/ pan głosowała”, to otrzymuje odpowiedź: „na A” lub „na B” (pomijając odpowiedzi „nie głosowałam”, „skreśliłam obu”, „oddałam głos nieważny”). Dla analityka ważne byłoby powiązanie takich wyników (zmienna Y) ze zmiennymi charakteryzującymi daną osobę (zmienne X). Jako wartości zmiennych X ankieter może podać płeć oraz przybliżony przedział wieku respondenta. Jeśli zada mu dodatkowe pytania, to otrzyma dalsze informacje (wartości kolejnych zmiennych X). Tak czy inaczej, na tej podstawie można próbować wyświetlić związek zmiennych X ze zmienną Y przy użyciu pojęcia prawdopodobieństwa. Warunkiem jest odpowiednio duża liczba obserwacji. Rozdział 6 1 Modele zmiennych jakościowych znajdują zastosowanie w ekonomii, w finansach, a także w wielu naukach społecznych, w tym w demografii. Po przeczytaniu tego rozdziału i rozwiązaniu zadań oczekuje się, że Czytelnik powinien umieć: – skonstruować model dwumianowy dla opisu zmiennej jakościowej, – odróżnić liniowy model prawdopodobieństwa od modelu probitowego i logitowego, – określić wrażliwość prawdopodobieństwa w modelu probitowym i logitowym na zmienne objaśniające, – podać przykładowe zastosowania modelu dla zmiennych uciętych (modelu tobitowego). 6.1. Liniowy model prawdopodobieństwa Rozpoczniemy od sytuacji, w której – mimo, że zmienna Y jest zmienną jakościową – sto- sujemy jednak liniowy model regresji. PRZYKŁAD 6.1 Pięciuset studentów SGH pochodzących z Warszawy spytaliśmy o to, gdzie mieszkają. Przy tym możliwe były tylko dwie odpowiedzi: „z rodzicami” lub „samodzielnie” (zmienna Y). Zmienne X określające sytuację Y („mieszkam-nie-mieszkam z rodzicami”) to: rok studiów, płeć i dochód rodziny za poprzedni rok (według PIT). Wartości zmiennej Y ustaliliśmy jako „0” (z rodzicami) oraz „1” („samodzielnie”). Dane mieszkanie_z_rodzicami, dostępne są na stronie internetowej podręcznika w formacie programu gretl. Oszacowaliśmy odpowiedni model regresji za pomocą MNK i otrzymaliśmy następujący wynik: Model 1: Estymacja KMNK z wykorzystaniem 500 obserwacji 1-500 Zmienna zależna: Y Zmienna const X1 X2 X3 Współczynnik -0,0312077 0,0320255 0,00396163 -0,0996585 Błąd stand. Statystyka t Wartość p 0,0860583 -0,363 0,71703 0,0152510 2,100 0,03624 ** 0,000600157 6,601 <0,00001 *** 0,0425353 -2,343 0,01953 ** Średnia arytmetyczna zmiennej zależnej = 0,476 Błąd standardowy reszt = 0,474389 Wsp. determinacji R-kwadrat = 0,10496 Statystyka F (3, 496) = 19,3884 (wartość p < 0,00001) Rozdział 6 2 Zmienna X1 to rok studiów (od 1 do 5), zmienna X2 oznacza dochód rodziny studenta w zeszłym roku (dokładniej: procent trzeciego kwartyla przeciętnego dochodu rodziny w Warszawie), X3 to płeć studenta/studentki (1 dla kobiety, 0 dla mężczyzny). Mamy więc: Yˆ = –0,0312 + 0,0320 X1 + 0,0040 X2 –0,0996 X3 Zmienna Y jest zmienną objaśnianą szczególnego rodzaju. To zmienna jakościowa, która przyjmuje dwie wartości „1” oraz „0”. Można zadać pytanie: co tak naprawdę przedstawia oszacowany model? Na jego podstawie można na przykład „prognozować”, że dla studentki trzeciego roku, której rodzina miała dochód X2=100 wartość Y wynosi 0,3652. Co oznacza ta liczba? ▄ Aby odpowiedzieć na te pytania, zapiszmy na początek model dla zmiennej jakościowej Y, dla prostoty z jedną tylko zmienną objaśniającą X: Yi = α0 + α1 Xi + εi i=1,2,...,n. (6.1) Niech Yi oznacza fakt posiadania domu przez i–tą rodzinę (1=tak, 0=nie) natomiast Xi oznacza dochód tej rodziny. Czasami zmienną jakościową Y można sobie wyobrazić jako zero-jedynkową reprezentantkę pewnej zmiennej ciągłej Y*, która jest nieobserwowana (zmienna ukryta). W naszym przykładzie Y* może oznaczać „skłonność do posiadania domu” czyli coś czego nie da się wyrazić liczbowo lecz możemy to „coś” wyobrazić sobie jako zmienną ciągłą. Jeśli na przykład skłonność do posiadania domu jest dodatnia, to wówczas dana rodzina ma dom, a jeśli niedodatnia – to nie posiada domu. Przy tym „skłonność” to tylko jedno z możliwych określeń zmiennej Y* (można np. mówić o „inklinacji”, „ciążeniu do”, „dążności” itd.). Poza tą teorią fakty są po prostu takie, że ktoś ma dom, a ktoś inny go nie posiada, czyli zamiast Y* obserwujemy Y=1 lub Y=0. Typowy zbiór obserwacji oraz wynik oszacowania klasyczną MNK wygląda tak jak na rys. 6.1 (tutaj: 50 obserwacji; dane posiadanie_domu na stronie internetowej podręcznika). Rozdział 6 3 6.1. JPG Rysunek 6.1. Zależność pomiędzy posiadaniem domu (Y) i dochodem (X) Musimy teraz posunąć się dalej, poza klasyczne rozważania o modelu liniowym szacowanym za pomocą MNK. Powinniśmy posłużyć się innym niż dotąd sposobem opisywania zmiennej Y. Jest to zmienna jakościowa, która ma dwa możliwe warianty (stany, sytuacje itp.) opisane przy użyciu kodów „0” i „1”. Jest zatem dwumianowa. Pomyślmy o niej jak o zmiennej losowej o dwóch możliwych wartościach i spytajmy o rozkład prawdopodobieństwa tej zmiennej. Niech pi oznacza prawdopodobieństwo zdarzenia Yi=1. Wtedy 1–pi jest prawdopodobieństwem zdarzenia Yi=0. Wartość oczekiwana zmiennej Yi to po prostu: E(Yi) = 1⋅pi + 0⋅(1–pi) = pi (6.2) Z kolei, w modelu (6.1) zwykle zakładamy, że E(εi) = 0, czyli wartość oczekiwana Yi według (6.1) równa się: E(Yi) = α0 + α1 Xi, a zatem: pi = α0 + α1 Xi. (6.3) W ten sposób dochodzimy do wniosku, że linia MNK na rysunku 6.1 reprezentuje pi = P(Yi=1), gdzie P oznacza prawdopodobieństwo. Stąd się bierze nazwa modelu typu (6.1). Jest to liniowy model prawdopodobieństwa, w skrócie LMP. Jeśli jest tak, że linia MNK z rysunku 6.1 reprezentuje prawdopodobieństwo, to widać, że ma z tym kłopoty. Wielkość prawdopodobieństwa powinna znajdować się w przedziale <0,1>. LMP tego nie zapewnia. Widzimy, że dla kilku wartości Xi oszacowana linia regresji wykracza poza przedział <0,1>. Druga wada LMP to heteroskedastyczność składników losowych co powoduje, że dla estymacji powinno się korzystać raczej z uogólnionej niż z kla- Rozdział 6 4 sycznej MNK. Mimo tych niedoskonałości, w praktycznych zastosowaniach LMP stanowi akceptowalne przybliżenie związku między pi i zmiennymi objaśniającymi. Zapiszmy LMP w ogólniejszej postaci z k zmiennymi objaśniającymi: Yi = α0 + α1 X1i + ... + αk Xki + εi i=1,2,...,n. (6.4) Warto pamiętać, że parametr αj (j=1,...,k) w tym modelu interpretuje się jako przyrost prawdopodobieństwa pi związany z przyrostem Xj o jednostkę. PRZYKŁAD 6.1 (ciąg dalszy) Model oszacowany w przykładzie 6.1 to liniowy model prawdopodobieństwa typu (6.4) gdzie n=500 oraz k=3. Dla przykładu zinterpretujmy ocenę parametru przy zmiennej X1: z każdym rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samodzielnie zwiększa się o 0,032. Podobnie interpretuje się pozostałe parametry. Jak pamiętamy, na podstawie modelu otrzymaliśmy wartość 0,3652 jako „prognozę” zmiennej Y dla studentki trzeciego roku, której rodzina miała dochód X2=100. Jest to po prostu oszacowanie p̂ prawdopodobieństwa tego, że Y=1 („studentka mieszka samodzielnie”). Na tej podstawie można postawić prognozę samej wartości Y. Jeśli w próbie mieliśmy mniej więcej tyle samo wartości Y=1 ile Y=0, to zasadne jest postawienie wniosku, że Y=1 dla p̂ > 0,5 oraz Y=0 dla p̂ < 0,5. W tym konkretnym przypadku próba miała strukturę 48:52. Prognozujemy zatem, że studentka mieszka z rodzicami (czyli że Y=0). Warto przy okazji dodać, że akurat w tym modelu wszystkie wartości teoretyczne zmiennej objaśnianej (czyli oszacowane prawdopodobieństwa) znajdują się w przedziale <0,1> ▄ LMP jest najprostszym modelem dla dwumianowej zmiennej jakościowej. Oszacowane wartości zmiennej Y reprezentują tu prawdopodobieństwo, że Yi = 1. Jak wiemy (por. rysunek 6.1) funkcja liniowa nie nadaje się dobrze do reprezentowania związku między zmienną objaśniającą a wielkością tego prawdopodobieństwa. Takiej wady nie mają inne modele, które omówimy w kolejnych podrozdziałach. Uwaga na temat R-kwadrat w mikroekonometrii W LMP oszacowanym w przykładzie 6.1 wartość R2 jest równa 0,10. Czy to mało czy dużo? Żeby odpowiedzieć na to pytanie trzeba wiedzieć, że: – współczynnik R-kwadrat dla modeli szacowanych na podstawie szeregów czasowych jest zwykle większy, niż dla szacowanych przy użyciu danych przekrojowych; szeregi czaso- Rozdział 6 5 we w ekonomii dotyczą na ogół kategorii zagregowanych (np. w makroekonomii), a „agregaty wyjaśnia się zwykle łatwiej niż wyniki obserwacji dla pojedynczych osób, rodzin, firm” (Wooldridge 2003); – test F łącznej istotności wszystkich zmiennych w modelu liniowym w istocie weryfikuje hipotezę o istotności R2 (to jest H0: R2=0); łatwo sprawdzić, że dla R-kwadrat równego 0,2 oraz n = 1000 i k = 5 wartość F równa się 49,7 i oznacza odrzucenie hipotezy zerowej na bardzo niskim poziomie istotności; „graniczną” (dla poziomu istotności 0,01) wartością Rkwadrat jest w tym przykładzie 0,015; nawet tak niska wartość jest istotnie różna od zera – przy dostatecznie dużej próbie; z kolei, jeśli na przykład n = 20, to wartość graniczna Rkwadrat wynosi aż 0,63; jak widać, dla dużych n niska wartość R2 nie świadczy o złym modelu; – w LMP wartość R-kwadrat jest z reguły niska; można pokazać, że gdy prawdopodobieństwa pi nie mają wartości ekstremalnych (np. są w przedziale od 0,2 do 0,8), to R-kwadrat ma wartość ograniczoną do przedziału wartości małych, bliskich zeru; model może być całkiem poprawny, a wartość współczynnika determinacji jest niewielka (Cox i Wermuth 1992). W świetle tych wyjaśnień uznajemy, że wartość R2=0,10 z przykładu 6.1 nie jest mała. Przy tym, nie powinno się jej używać do oceny dopasowania modelu, a co najwyżej do porównań między konkurencyjnymi niezagnieżdżonymi LMP. 6.2. Model logitowy W odróżnieniu od LMP model logitowy dla danych posiadanie_domu wygląda tak jak na rysunku 6.2. Obecnie linia ma taki kształt, że może reprezentować prawdopodobieństwo dla każdej wartości X. Ta linia to dystrybuanta tzw. rozkładu logistycznego (przypominamy rozważania o funkcji logistycznej z poprzedniego rozdziału). Jest to jedna z linii o kształcie podobnym do litery S, określanych jako krzywe typu S. Rozdział 6 6 6.2. JPG Rysunek 6.2. Oszacowany model logitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X) Jak pamiętamy, w LMP funkcja, która wiąże prawdopodobieństwo pi ze zmienną objaśniającą Xi ma postać pi = α0 + α1 Xi. W modelu logitowym ten związek jest następujący: pi = exp(α 0 + α1 X i ) 1 + exp(α 0 + α1 X i ) (6.5) gdzie exp(V) = eV. Model ten nosi też nazwę regresji logistycznej lub model logistycznego. Jego ogólniejsza postać przyjmuje, że pi jest funkcją następującej liniowej kombinacji k zmiennych objaśniających: Zi = α0 + α1 X1i + ... + αk Xki czyli pi = exp( Z i ) 1 + exp( Z i ) (6.6) Jeśli obliczymy 1 − pi = 1 1 + exp( Z i ) a następnie podzielimy pi przez 1–pi: pi = exp( Z i ) 1 − pi i obliczymy stąd Zi = α0 + α1 X1i + ... + αk Xki, to otrzymamy: ln pi = α0 + α1 X1i + ... + αk Xki 1 − pi (6.7) Rozdział 6 7 Model (6.7) jest liniowy względem parametrów α i zmiennych X. Zmienną objaśnianą w tym modelu jest ln (pi/(1–pi)). Ta wielkość nazywa się logitem. Przypomnijmy, że pi to prawdopodobieństwo tego, iż Yi=1. Zatem logit to logarytm ilorazu szans1 przyjęcia oraz nieprzyjęcia wartości 1 przez zmienną Y. Jeśli szanse są jednakowe (pi=0,5), to logit równa się zeru. Dla pi>0,5 logit jest ujemny, a dla pi<0,5 jest dodatni. PRZYKŁAD 6.2 (ciąg dalszy przykładu 6.1) Oto wydruk oszacowanego w programie gretl modelu logitowego zależności między Y (mieszkanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć): Model MIESZKANIE Z RODZICAMI: Estymacja Logit z wykorzystaniem 500 obserwacji 1-500 Zmienna zależna: Y Zmienna const X1 X2 X3 Współczynnik -2,35743 0,140685 0,0176054 -0,438766 Błąd stand. Statystyka t Efekt krańcowy dla średnich 0,408173 -5,776 0,0680044 2,069 0,0350719 0,00288574 6,101 0,00438890 0,189761 -2,312 -0,109381 Średnia dla zmiennej Y = 0,476 Liczba przypadków 'poprawnej predykcji' = 377 (75,4%) f(beta'x) dla średnich niezależnych zmiennych = 0,249 McFaddena pseudo-R-kwadrat = 0,0796924 Logarytm wiarygodności = -318,424 Test ilorazu wiarygodności: Chi-kwadrat(3) = 55,1467 (wartość p 0,000000) Prognoza 0 1 Empiryczne 0 209 53 1 70 168 Będziemy analizować elementy tego wydruku. Na początek ustalmy, że oszacowana wartość logitu czyli Z jest następująca Ẑ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X3 Oznacza to, że prawdopodobieństwo pi (czyli sytuacji Yi=1) szacuje się jako: pˆ i = exp( 2,3574 + 0,1407 X 1 + 0,0176 X 2 − 0,4388 X 3) 1 + exp( 2,3574 + 0,1407 X 1 + 0,0176 X 2 − 0,4388 X 3) Na tej podstawie możemy obliczyć, że dla X1=3, X2=100 oraz X3=1 oszacowana wartość p wynosi 0,3512. Warto przypomnieć, że w przypadku LMP było to 0,3652. ▄ 1 Tutaj przez „szansę” rozumiemy „prawdopodobieństwo”. Na ogół jednak szansa czyli w języku angielskim odds oznacza od razu iloraz prawdopodobieństw. Jeśli prawdopodobieństwo sukcesu równa się 0,8, to „szansa na sukces” wynosi 4 do 1 czyli jest właśnie ilorazem prawdopodobieństw p oraz 1–p. Mimo tego, w angielskojęzycznych podręcznikach też mówi się o odds-ratio czyli o ilorazie szans. Rozdział 6 8 Estymacja modelu logitowego W jaki sposób szacuje się model logitowy (6.7)? Jest to model nieliniowy. Zauważmy jednak, że wielkości pi nie są obserwowalne. Jedyne co znamy, to wartości Yi czyli jedynki lub zera. Właściwą metodą estymacji jest tu metoda największej wiarygodności (MNW), która wykorzystuje założenie o postaci rozkładu logistycznego. Nie wdając się w szczegóły powiedzmy jedynie, że termin „logarytm wiarygodności” w wydruku wyników estymacji oznacza wartość logarytmu naturalnego funkcji wiarygodności, którą maksymalizuje się poszukując ocen parametrów przy pomocy MNW. Czyli – jest to wartość maksymalna dla danego modelu. Ciekawostka: średnia wartość Yi w modelu logitowym (czyli udział jedynek) równa się średniej wartości oszacowanych za pomocą MNW prawdopodobieństw pi. Efekty krańcowe w modelu logitowym Pochodna prawdopodobieństwa pi względem zmiennej objaśniającej Xji w modelu logitowym (6.7) jest następująca: exp(α 0 + α1 X 1i + ... + α k X ki ) ∂pi = αj pi (1–pi) = αj . ∂X ji [1 + exp(α 0 + α1 X 1i + ... + α k X ki )]2 (6.8) Jest więc nieco skomplikowana w porównaniu z taką samą pochodną równą αj dla liniowego modelu prawdopodobieństwa. Widzimy, że efekt krańcowej zmiany Xj na wartości p w modelu logitowym nie jest stały, zależy od wartości wszystkich zmiennych X. W praktyce podaje się taki efekt dla średnich wartości zmiennych X. Uwaga: Znak oszacowania parametru stojącego przy zmiennej Xj w modelu logitowym określa kierunek wpływu Xj na Y: – dla dodatniego αj wzrost Xj wiąże się ze wzrostem szans na to, że Y = 1; natomiast spadkowi Xj towarzyszy spadek szans na to, że Y = 1; – dla ujemnego αj wzrost Xj wiąże się ze spadkiem szans na to, że Y = 1; natomiast spadkowi Xj towarzyszy wzrost szans na to, że Y = 1. Stąd wynika, że interpretacja parametru strukturalnego modelu logitowego jest podobna do interpretacji znanej dla modelu liniowego: znak parametru określa kierunek zależności między zmiennymi Xj oraz Y. PRZYKŁAD 6.2 (ciąg dalszy) W modelu z przykładu 6.2 efekty krańcowe dla średnich to: 0,0351 dla zmiennej X1, 0,0044 dla zmiennej X2, –0,1094 dla zmiennej X3. Pierwszą z tych liczb możemy interpretować naRozdział 6 9 stępująco: dla osób, których charakterystyki odpowiadają średnim wartościom zmiennych X1, X2, X3 z każdym rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samodzielnie zwiększa się o 0,035. Podobnie interpretujemy pozostałe efekty krańcowe. Interpretacja z wykorzystaniem ilorazu szans Iloraz szans pi /(1–pi) dobrze nadaje się do interpretacji oszacowanego modelu logitowego. Można pokazać, że jeśli jedna ze zmiennych objaśniających, na przykład Xj wzrośnie o jednostkę (ceteris paribus), to iloraz szans zmieni się exp(αj) razy. W przypadku exp(αj) > 1 mamy wzrost, a w przypadku exp(αj) < 1 mamy spadek ilorazu szans. Jeśli Xj jest zmienną zerojedynkową, to exp(αj) mówi ile razy wzrasta iloraz szans wartości Yi = 1 dla kategorii „1” zmiennej Xj w porównaniu z tym samym ilorazem dla kategorii „0” zmiennej Xj. W naszym modelu z przykładu 6.2 logit jest oszacowany jako Ẑ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X3 natomiast iloraz szans to exp( Ẑ ). Zatem: krotność o jaką zmieni się iloraz szans przy wzroście każdej ze zmiennych o jednostkę równa się: exp(0,1407) = 1,1511 dla zmiennej X1, exp(0,0176) = 1,0178 dla zmiennej X2, exp(–0,4388) = 0,6448 dla zmiennej X3. Przykładowa interpretacja: każdy dodatkowy rok studiów zwiększa iloraz szans (szansę) samodzielnego mieszkania o 1,15 raza czyli o 15%. Miary dopasowania, testowanie modelu, dobór zmiennych W modelu logitowym nie można stosować zwykłego współczynnika determinacji R-kwadrat (ze względu na nieliniowość). W programie gretl podaje się w zamian wartość pseudo-Rkwadrat McFaddena, który oblicza się według wzoru: pseudo–R2 = 1 − ln LMP ln LMZ (6.9) gdzie ln LMP jest logarytmem funkcji wiarygodności dla modelu pełnego, natomiast ln LMZ – dla modelu zredukowanego do wyrazu wolnego. Pseudo-R-kwadrat może służyć do porównań pomiędzy logitowymi modelami niezagnieżdżonymi dla tej samej zmiennej. Podana w wydruku wyników estymacji wartość statystyki testu ilorazu wiarygodności służy do testowania istotności całego modelu logitowego. Hipoteza zerowa mówi, że wszyst- Rozdział 6 10 kie parametry modelu – poza wyrazem wolnym – są równe zeru. Statystyka testu zdefiniowana jako: 2 (ln LMP – ln LMZ) (6.10) ma rozkład chi-kwadrat z liczbą stopni swobody równą liczbie zmiennych objaśniających modelu pełnego. Na wydruku wyników estymacji w programie gretl podaje się wartość poziomu istotności (p), przy którym odrzucamy hipotezę zerową. Wartość mniejsza od 0,05 oznacza, że co najmniej jedna zmienna objaśniająca w modelu jest istotna statystycznie. Podane w wynikach estymacji wartości statystyki t dla parametrów służą – jak w klasycznym modelu liniowym – do testowania istotności każdej zmiennej oddzielnie. Ważna uwaga w sprawie doboru zmiennych. W modelu logitowym występuje kombinacja liniowa zmiennych objaśniających X, jak w klasycznym modelu liniowym z rozdziałów 1-4. Stąd wynika, że problemy specyfikacji modelu, jak na przykład współliniowość zmiennych objaśniających, są w modelu logitowym takie same jak w modelu liniowym. Ta uwaga odnosi się do każdego z modeli zmiennych jakościowych omawianych w tym rozdziale. Tablica trafności Po oszacowaniu modelu logitowego można obliczyć wartości empiryczne zmiennej objaśnianej czyli wartości logitów ln (pi/(1–pi)) dla każdej z n obserwacji. Na tej podstawie wyznacza się wartości empiryczne p̂i prawdopodobieństw pi. Wtedy, jak w przypadku LMP, można obliczyć prognozę ex post wartości Yi dla każdej obserwacji. Są przy tym dwie zasady: – zasada standardowa stosowana przy próbie zbilansowanej, to jest takiej gdzie liczba zer i jedynek dla zmiennej Y jest mniej więcej jednakowa; wówczas prognozujemy, że Y=1 dla p̂i > 0,5 oraz Y=0 dla p̂i < 0,5; – zasada optymalnej wartości granicznej (Cramer 1999) stosowana przy próbie niezbilansowanej, w której udział wartości Y=1 w próbie wynosi δ; wówczas prognozujemy, że Y=1 dla p̂i > δ oraz Y=0 dla p̂i < δ. Trafność prognozy ex post wygodnie jest przedstawić za pomocą tablicy trafności. Jest to czteropolowa tablica, której elementami są następujące liczebności przypadków: Rozdział 6 11 Empiryczne Prognozowane Y=1 Y=0 Razem Y=1 n11 n10 n1. Y=0 n01 n00 n0. Razem n.1 n.0 n Udział przypadków z trafnymi prognozami (n11 + n00) w łącznej licznie obserwacji (n) to miara trafności prognoz ex post, a zarazem miara jakości dopasowania modelu. Liczbę tę nazywa się niekiedy zliczeniowym R-kwadrat (count-R2). PRZYKŁAD 6.2 (ciąg dalszy) Z tablicy trafności wynika, że n11=168 oraz n00=209. Zatem trafność prognozy wynosi 377/500 czyli 75,4%. Uwaga: w tym przypadku stosowano standardową zasadę prognozy, bowiem udział wartości Y=1 w próbie jest bliski 50%. [Obecna wersja programu gretl stosuje wyłącznie tę zasadę, niezależnie od stopnia zbilansowania próby]. PRZYKŁAD 6.3 Wracamy do omawianego w tekście przykładu z posiadaniem domu. Yi oznacza fakt posiadania domu przez i–tą rodzinę (1=tak, 0=nie) natomiast Xi oznacza dochód tej rodziny (50 obserwacji; dane posiadanie_domu na stronie internetowej podręcznika). Wynik estymacji modelu logitowego w programie gretl jest następujący: Model POSIADANIE DOMU: Estymacja Logit z wykorzystaniem 50 obserwacji 1-50 Zmienna zależna: Y Zmienna const X Współczynnik -4,79156 0,0396580 Błąd stand. Statystyka t Efekt krańcowy dla średnich 1,24921 -3,836 0,0117456 3,376 0,00718633 Srednia dla zmiennej Y = 0,300 Liczba przypadków 'poprawnej predykcji' = 41 (82,0%) f(beta'x) do średnich niezależnych zmiennych = 0,181 McFaddena pseudo-R-kwadrat = 0,407392 Logarytm wiarygodności = -18,1002 Test ilorazu wiarygodności: Chi-kwadrat(1) = 24,8861 (wartość p 0,000001) Prognoza 0 1 Empiryczne 0 33 2 1 7 8 Rozdział 6 12 W tym przypadku liczba wartości Y=1 w próbie wynosi 30%, zatem do prognozowania ex post należy stosować zasadę Cramera. Poprawna tablica trafności dla tego modelu jest następująca (można ją wyznaczyć przenosząc do Excela oszacowane z modelu wartości pi): Prognoza 0 1 Empiryczne 0 29 6 1 4 11 W porównaniu z zasadą standardową model gorzej prognozuje zera, a lepiej jedynki. Łączna trafność prognoz ex post wynosi 40/50 czyli 80%. ▄ Duży model logitowy Przykład modelu logitowego o większych rozmiarach jest oparty na wynikach badania „Diagnoza społeczna 2005. Warunki i jakość życia Polaków”. Dane dostępne są na stronie internetowej www.diagnoza.com. PRZYKŁAD 6.4 Zmienna objaśniana Y jest zmienną jakościową dwumianową i oznacza odpowiedź ankietowanego na pytanie „Czy w ostatnich 4 tygodniach poszukiwał pracy?” (1=tak, 0=nie). Zmienne objaśniające wybrane do modelu to: płeć (1=mężczyzna, 0=kobieta), stan cywilny, poziom wykształcenia, miesięczny dochód netto w gospodarstwie domowym (w tys. zł). Zmienna „stan cywilny” może przybrać następujące kategorie, odpowiadające poszczególnym stanom: kawaler/panna (1), żonaty/zamężna (2), wdowiec/wdowa (3), rozwiedziony/ rozwiedziona (4), w separacji (5). Na bazie poszczególnych kategorii skonstruowane zostało 5 zmiennych binarnych, przyjmujących wartości 1, jeśli respondent reprezentował dany stan (kategorię) i 0 w przeciwnym przypadku. „Wykształcenie” może przyjmować 8 kategorii: 1 2 3 4 5 6 7 8 wyższe policealne średnie zawodowe średnie ogólnokształcące zasadnicze zawodowe podstawowe ukończone bez wykształcenia osoba w wieku 0-15 lat Na bazie zmiennej „wykształcenie” skonstruowane zostały 3 zmienne dwumianowe: wykszt_brak – przyjmujące wartość 1 dla respondentów z kategorią wykształcenie 7 lub 8 oraz 0 w przeciwnym przypadku; wykszt_zasad odpowiednio wartość 1 dla kategorii 5 lub 6 oraz Rozdział 6 13 wykszt_srednie – 1 dla kategorii 1,2,3 lub 4. Aby uniknąć problemu dokładnej współliniowości zmiennych, do modelu można było włączyć co najwyżej 4 zmienne binarne reprezentujące stan cywilny oraz 2 reprezentujące wykształcenie (dlaczego?). Poniższy wydruk z programu gretl przedstawia wyniki estymacji: Model 2: Estymacja Logit z wykorzystaniem 3902 obserwacji Zmienna zależna: czy_szukal Zmienna Współczynnik Błąd stand. Statystyka t const -4,14627 0,718449 -5,771 dochod_w_tys -0,690690 0,0743099 -9,295 Efekt krańcowy dla średnich -0,0609709 wykszt_srednie 3,87839 0,715297 5,422 0,342367 wykszt_zasad 3,53906 0,712719 4,966 0,312413 plec 0,263516 0,0942064 2,797 0,0232620 zonaty -0,168893 0,0981567 -1,721 -0,0149091 wdowiec -2,34247 0,318518 -7,354 -0,206783 rozwiedziony -0,0278297 0,238629 -0,117 -0,00245668 separacja -0,0550951 0,532782 -0,103 -0,00486354 Srednia dla zmiennej czy_szukal = 0,153 Liczba przypadków 'poprawnej predykcji' = 3305 (84,7%) f(beta'x) do średnich niezależnych zmiennych = 0,088 McFaddena pseudo-R-kwadrat = 0,127963 Logarytm wiarygodności = -1501,37 Test ilorazu wiarygodności: Chi-kwadrat(8) = 440,623 (wartość p 0,000000) Kryterium informacyjne Akaike'a (AIC) = 3020,74 Kryterium bayesowskie Schwarza (BIC) = 3077,16 Kryterium infor. Hannana-Quinna (HQC) = 3040,77 Nie wszystkie zmienne są istotne statystycznie. Model można próbować poprawiać. Zatrzymajmy się przy tym wyniku estymacji i – jako zadanie do samodzielnego rozwiązania – spróbujmy dokonać interpretacji ocen parametrów, korzystając z: a) efektów krańcowych, b) ilorazów szans. Szczególnie istotne jest przy tym porównanie pomiędzy zmiennymi binarnymi reprezentującymi różne kategorie zmiennej „stan cywilny” oraz zmiennej „wykształcenie”. ▄ 6.3. Model probitowy Model logitowy omówiliśmy dość szczegółowo w poprzednim podrozdziale. Całkiem podobne omówienie należałoby się modelowi probitowemu, który jest drugim ważnym modelem dla jakościowych zmiennych dwumianowych. To omówienie jednak pominiemy, albowiem Rozdział 6 14 oba modele są bliźniaczo podobne. Na rysunku 6.3 pokazany jest wykres modelu probitowego dla danych posiadanie_domu. Do złudzenia przypomina rysunek 6.2 z modelem logitowym. Przyczyna jest taka, że w modelu probitowym posługujemy się dystrybuantą rozkładu normalnego, bardzo podobną do dystrybuanty rozkładu logistycznego. 6.3.JPG Rysunek 6.3. Oszacowany model probitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X) W modelu probitowym funkcja, która wiąże prawdopodobieństwo pi z liniową kombinacją zmiennych objaśniających Zi = α0 + α1 X1i + ... + αk Xki ma postać: Zi 1 t2 exp ( − ) dt (6.10) ∫−∞ 2π 2 W tym modelu wartości prawdopodobieństwa pi są wartościami dystrybuanty rozkładu norpi = malnego N(0,1) w punktach Zi. Wartości Zi nazywa się probitami lub normitami. Są to wartości kombinacji liniowej (zbiorczego indeksu) zmiennych objaśniających dla określonego poziomu prawdopodobieństwa, przy założeniu, że kombinacja ta ma rozkład N(0,1). Efekty krańcowe w modelu probitowym Pochodna prawdopodobieństwa pi względem zmiennej objaśniającej Xji w modelu logitowym (6.7) jest następująca: ∂pi = αj φ(Zi) ∂X ji (6.11) gdzie φ(⋅) jest funkcją gęstości standardowego rozkładu normalnego. Wartości (6.11), które zależą od poziomów zmiennych X podaje się zwykle dla średnich wartości tych zmiennych. Rozdział 6 15 PRZYKŁAD 6.5 (ciąg dalszy przykładu 6.2) Wydruk oszacowanego w programie gretl modelu probitowego zależności między Y (mieszkanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć) jest następujący: Model MIESZKANIE Z RODZICAMI: Estymacja Probit z wykorzystaniem 500 obserwacji 1-500 Zmienna zależna: Y Zmienna const X1 X2 X3 Współczynnik -1,33736 0,0873128 0,00984407 -0,270730 Błąd stand. Statystyka t Efekt krańcowy dla średnich 0,230186 -5,810 0,0416130 2,098 0,0347606 0,00156297 6,298 0,00391908 0,115867 -2,337 -0,107782 Srednia dla zmiennej Y = 0,476 Liczba przypadków 'poprawnej predykcji' = 368 (73,6%) f(beta'x) do średnich niezależnych zmiennych = 0,398 McFaddena pseudo-R-kwadrat = 0,0760671 Logarytm wiarygodności = -319,678 Test ilorazu wiarygodności: Chi-kwadrat(3) = 52,638 (wartość p 0,000000) Prognoza 0 1 Empiryczne 0 208 54 1 78 160 Wynik estymacji potwierdza podobieństwo modelu probitowego i logitowego. Efekty krańcowe obliczone dla średnich wartości zmiennych objaśniających X1, X2 i X3 są prawie identyczne: w modelu logitowym to 0,0351, 0,0044 oraz –0,1094 natomiast w modelu probitowym 0,0348, 0,0039 oraz –0,1078. Na przykład w obu przypadkach stwierdzamy, że prawdopodobieństwo samodzielnego mieszkania studentki jest o 0,11 niższe niż studenta (w okolicy wartości średnich w próbie). ▄ Porównanie z parametrami modelu logitowego Pomiędzy parametrami α w modelu logitowym i probitowym zachodzi relacja: αlogit ≈ γ αprobit gdzie γ = 1,6 ÷ 1,7 co pozwala łatwo przeliczać wyniki estymacji parametrów jednego modelu na drugi. Sprawdźmy to na przykładach 6.2 i 6.4: Rozdział 6 16 Zmienna\Ocena parametru Model logitowy (1) Model probitowy (2) (1)/(2) Const -2,35743 -1,33736 1,763 X1 0,14069 0,08731 1,611 X2 0,01761 0,00984 1,788 X3 -0,43877 -0,27073 1,621 PRZYKŁAD 6.6 (ciąg dalszy przykładu 6.3) Dla danych posiadanie_domu na wynik estymacji modelu probitowego jest następujący: Model POSIADANIE DOMU: Estymacja Probit z wykorzystaniem 50 obserwacji 1-50 Zmienna zależna: Y Zmienna const X Współczynnik -2,78725 0,0230812 Błąd stand. Statystyka t Efekt krańcowy dla średnich 0,647303 -4,306 0,00622350 3,709 0,00732372 Srednia dla zmiennej Y = 0,300 Liczba przypadków ‘poprawnej predykcji’ = 41 (82,0%) f(beta’x) do średnich niezależnych zmiennych = 0,317 McFaddena pseudo-R-kwadrat = 0,412028 Logarytm wiarygodności = -17,9585 Tutaj także związek między ocenami parametrów modelu logitowego i probitowego jest podobny: –4,79156/–2,78725=1,719 oraz 0,03966/0,02308=1,718. ▄ 6.4. Model tobitowy Zdarza się, że zmienna objaśniana jest zmienną ciągłą lecz jej zakres jest ograniczony. Wtedy nazywamy ją zmienną ograniczoną. Zmienne ograniczone to rodzaj zmiennych „jakościowo-ilościowych”. Ich wartości obserwujemy – wtedy są zwykłymi kategoriami ilościowymi – lub ich nie obserwujemy – wtedy nadajemy im jakąś umowną wartość, np. zero. Oto przykłady: – wydatki na zakup samochodu w rodzinie w danym roku: wartość tej zmiennej dla wielu gospodarstw domowych równa się zeru; – przychody z pracy: dane te są dostępne od osób pracujących; dla niektórych osób równają się zeru – osoby te „wybierają” stan bezrobocia; – kwota przeznaczona na cele dobroczynne w danym roku; – liczba godzin pracy przepracowanych w ostatnim miesiącu. Rozdział 6 17 Zmienna ograniczona jako zmienna endogeniczna w jednorównaniowym modelu ekonometrycznym jest wyjaśniana przy użyciu innych zmiennych – egzogenicznych. Sposób zbierania danych o zmiennych lub dostępność tych danych determinują rodzaj próby, z którą mamy do czynienia. Może tu wystąpić jedna z dwóch sytuacji: – próba ucięta – dane dla zmiennych egzogenicznych dostępne tylko wówczas, gdy obserwuje się zmienną endogeniczną; przykład: losujemy w ZUS próbę 1000 osób płacących składki emerytalne w wysokości co najmniej 400 zł miesięcznie i badamy zależność wysokości składki od wieku i od liczby lat wykształcenia; wtedy nie jesteśmy w stanie nic powiedzieć o osobach płacących miesięcznie składki emerytalne niższe niż 400 zł; wszystkie informacje są ucięte poprzez warunek „minimum 400 zł składki”; – próba cenzurowana – dane dla zmiennych egzogenicznych dostępne także wtedy, gdy nie obserwuje się zmiennej endogenicznej (to jest: dla całej zbiorowości). przykład: pytamy 1000 osób w sondzie ulicznej o ich wydatki na wczasy w zeszłym roku i badamy zależność tych wydatków od płci i wieku respondenta; wtedy dla niektórych osób otrzymujemy odpowiedź: wydatki = 0; posiadamy jednak informację o ich wieku i płci. PRZYKŁAD 6.7 Niech Y oraz X oznaczają, odpowiednio, zmienną endo– i egzogeniczną w modelu, który dotyczy 500 jednostek obserwacji. Zmienna Y przyjmuje wartości niezerowe dla 300 obserwacji. Próba cenzurowana to: x1,..., x300, x300+1,..., x500 y1,..., y300, 0,...,0 Zmienną Y nazywa się zmienną cenzurowaną. Z kolei próba ucięta to: x1,..., x300 y1,..., y300 Zmienną Y nazywa się tu zmienną uciętą. ▄ W tym podręczniku zajmiemy się jedynie próbami cenzurowanymi. W takich przypadkach właściwym modelem regresji zmiennej endogenicznej względem zmiennych egzogenicznych jest model regresji cenzurowanej, zwany modelem tobitowym. Dla najprostszej sytuacji z jedną zmienną objaśniającą model tobitowy ma postać: Rozdział 6 18 Yi ∗ = α0 + α1 Xi + εi Yi = Yi ∗ dla Yi ∗ > 0 Yi = 0 dla Yi ∗ ≤ 0 i=1,2,...,n (6.12) Zmienna Yi * to jest właśnie zmienna objaśniana, którą modelujemy. Jest to zmienna ukryta. Jej wartości są obserwowane tylko wtedy, gdy są większe od zera. Wartości mniejsze od zera oraz wartości równe zero traktowane są jednakowo i są reprezentowane przez Yi=0. Wartości Xi są obserwowane dla wszystkich i = 1,...,n. Zmienna Yi ∗ nie jest obserwowana, jeśli nie jest większa od 0. PRZYKŁAD 6.8 Zmienna inwestycja oznacza kwotę, którą klienci banku przeznaczają na inwestycję w nowym funduszu. Spośród 40 klientów, do których skierowano ofertę, 20 postanowiło dokonać inwestycji. Znana jest wartość zmiennej inwestycja oraz zmiennej wiek dla tych 40 klientów (dane inwestycja dostępne na stronie internetowej podręcznika). Próba jest cenzurowana (20 osób nie odpowiedziało; znamy charakterystyki tych osób), zmienna inwestycja jest cenzurowana, bowiem 50% jej wartości równa się zeru – z racji wyboru dokonanego przez klientów banku. Skłonność do zainwestowania w nowym funduszu to zmienna Y*. Obserwujemy ją wówczas, gdy jest dodatnia: wtedy równa się dodatnim wartościom zmiennej Y=inwestycja. W pozostałych przypadkach (skłonność Y* ujemna lub równa zeru) wartość zmiennej Y=inwestycja jest po prostu równa 0. 6.4.JPG Rysunek 6.4. Oszacowany MNK model liniowy zależności pomiędzy inwestycją (Y) i wiekiem (X) Rozdział 6 19 Dane wyglądają tak jak na rysunku 6.4. Jeśli tę zależność Y od X oszacujemy przy pomocy klasycznej MNK, nie martwiąc się o to, że połowa wartości Y to zera, otrzymamy: Yˆi MNK = –78,924 + 4,309 Xi co oznaczałoby, że z każdym rokiem wieku inwestora jego inwestycja wzrasta o 4,3 jednostki pieniężne (jp). Szacowanie tego modelu klasyczną MNK nie jest jednak prawidłowe. Dlaczego? ▄ Wartości oczekiwane zmiennej Y i estymacja modelu tobitowego Jeśli przyjąć zwyczajowe założenie o tym, że składniki losowe w (6.12) mają rozkład normalny o średniej 0 i stałej wariancji σ2, można pokazać, że wartość oczekiwana E(Yi| Xi) jest nieliniową funkcją zmiennej Xi. Oznacza to, że estymatory MNK nie są estymatorami zgodnymi, która to własność jest kluczowa dla każdego estymatora. W związku z tym model tobitowy należy szacować metodą największej wiarygodności (MNW). Dla dociekliwych podajemy postać wartości oczekiwanej E(Yi| Xi) dla modelu (6.12): – dla wartości Yi>0: E(Yi | Yi>0, Xi) = α0 + α1 Xi + σ λ(ci), gdzie ci = (6.13) f ( ci ) α 0 + α1 X i natomiast λ(ci) = to tzw. odwrotny iloraz Millsa: stosunek σ F ( ci ) wartości funkcji prawdopodobieństwa f oraz dystrybuanty F standardowego rozkładu normalnego obliczonych w punkcie ci; – dla wszystkich wartości Yi: E(Yi| Xi) = F(ci) (α0 + α1 Xi) + σ f(ci). (6.14) Wzory (6.13) i (6.14) nie są specjalnie groźne, jeśli przypomnimy sobie, że zarówno funkcja gęstości f jak i dystrybuanta F przyjmują wartości jedynie z przedziału (0, 1) oraz że dla konkretnej zmiennej losowej jest zawsze f ≤ F. Dla modelu z większą liczbą zmiennych objaśniających we wzorach (6.13) i (6.14) w miejsce α0 + α1 Xi należy wpisać odpowiednie wyrażenie z kolejnymi zmiennymi X. PRZYKŁAD 6.8 (ciąg dalszy) Oszacowanie modelu tobitowego (6.12) za pomocą MNW jest następujące: Yˆi MNW = –411,853 + 9,093 Xi Rozdział 6 20 Pokazuje to następujący wydruk z programu gretl: Model INWESTYCJA: Estymacja Tobit z wykorzystaniem 40 obserwacji 1-40 Zmienna zależna: inwestycja Zmienna const wiek Współczynnik -411,853 9,09304 Błąd stand. Statystyka t Wartość p 181,602 3,95786 -2,268 0,02334 ** 2,297 0,02159 ** Srednia arytmetyczna zmiennej zależnej = 107,55 Odchylenie standardowe zmiennej zależnej = 183,584 Cenzurowane obserwacje: 20 (50,0%) Sigma (Se) = 288,836 Logarytm wiarygodności = -154,248 Otrzymaliśmy całkiem inny rezultat niż poprzednio. Nachylenie prostej regresji jest teraz większe niż dla modelu szacowanego za pomocą MNK. Widać to na rysunku 6.5. Różnicę można wyjaśnić w ten sposób, że obserwacje Y=0 reprezentują także ujemne wartości „skłonności do inwestowania”, których nie obserwujemy. Jeśli zatem wyobrazimy sobie istnienie tych ujemnych Y*, to wynik estymacji jest akceptowalny. 6.5. JPG Rysunek 6.5. Oszacowany MNW model tobitowy zależności pomiędzy inwestycją (Y) i wiekiem (X) Pytanie, jakie sobie stawiamy, jest takie: czy można interpretować oszacowanie 9,093 jako przyrost wartości zmiennej inwestycja w związku z przyrostem zmiennej wiek o 1? Odpowiedź brzmi: (1) tak – jeśli myślimy o zmiennej Y* czyli o skłonności do inwestowania, (2) nie – jeśli mówimy o zmiennej Y czyli o kwocie faktycznie zainwestowanej. Objaśnienie poniżej. ▄ Rozdział 6 21 Efekty krańcowe w modelu tobitowym Pochodną zmiennej Y względem zmiennej X w modelu tobitowym (6.12) możemy wyznaczyć ze wzorów (6.13) i (6.14). Mamy więc: – dla wartości Yi>0: ∂E (Yi | Yi > 0, X i ) = α1 {1 – λ(ci) [ci + λ(ci)]}, ∂X i gdzie ci = (6.15) f ( ci ) α 0 + α1 X i oraz λ(ci) = σ F ( ci ) – dla wszystkich wartości Yi: ∂E (Yi | X i ) = α1 F(ci). ∂X i (6.16) Co z tego wynika? Po pierwsze, że sam parametr α1 nie reprezentuje efektu jednostkowego przyrostu zmiennej X na wartości zmiennej Y. Ten efekt jest w istocie mniejszy. Na przykład według wzoru (6.16) wielkość α1 mnożymy przez F(ci), czyli liczbą mniejszą od 1 (F(ci) jest wartością dystrybuanty standardowego rozkładu normalnego obliczoną w punkcie ci). Można także pokazać, że w (6.15) mnożnik parametru α1 to wielkość z przedziału (0,1). Zależność między ocenami MNK i MNW Po drugie, z (6.16) wynika związek między ocenami MNK i MNK dla modelu tobitowego. Oceny MNK są bezpośrednimi oszacowaniami wyrażeń ∂E (Yi | X i ) . Zatem, aby otrzy∂X i mać oceny MNK na podstawie ocen MNW należy te ostatnie pomnożyć przez czynnik F(ci), na przykład w punkcie odpowiadającym średniej wartości zmiennej X. Wartość czynnika F zwiększa się w miarę zwiększania udziału niezerowych wartości w próbie. Według różnych badań, zależność między ocenami MNK i MNW dla modelu tobitowego jest następująca. Oceny MNW należy pomnożyć przez udział niezerowych obserwacji w próbie. W wyniku otrzymujemy w przybliżeniu oceny MNK. To stwierdzenie odnosi się do ocen parametrów przy zmiennych X (poza wyrazem wolnym). Jeśli więc z jakiegoś powodu nie dysponujemy programem do estymacji modelu tobitowego, to należy zastosować MNK i dokonać odpowiedniej korekty ocen parametrów. Pamiętajmy, że obecne rozważania dotyczące modelu tobitowego z jedną zmienną objaśniającą przenoszą się analogicznie na model z większą liczbą zmiennych X. Rozdział 6 22 PRZYKŁAD 6.8 (ciąg dalszy) Ocena parametru α1 otrzymana za pomocą MNK równa się 4,309, ocena otrzymana za pomocą MNW równa się 9,093. Pierwsza z ocen nie powinna być interpretowana (chociaż jest to w przybliżeniu efekt (6.16)), druga mówi o tym, jak wzrasta Y* (skłonność do inwestowania) przy wzroście X (wiek) o jednostkę. Zależność między tymi ocenami jest w przybliżeniu następująca: 4,309 równa się 0,5 (udział niezerowych obserwacji na Y) razy 9,093. Efekty krańcowe: 1. Efekt krańcowy ∂E (Yi * | X i ) jest równy 9,093 (jest stały dla każdego X). ∂X i 2. Ze wzoru (6.16) wynika, iż efekt krańcowy punkcie − 411,853 + 9,093 X σ̂ ∂E (Yi | X i ) dla średniej wartości X czyli w ∂X i równa się 9,093 razy wartość dystrybuanty standardowego rozkładu normalnego obliczona w tym punkcie. U nas X = 43,275 oraz σˆ = 288,84 (por. wydruk z programu gretl powyżej). Na tej podstawie F(–0,0635) = 0,4747. Zatem ∂E (Yi | X i ) ∂X i dla − 411,853 + 9,093 X średniej σ̂ wartości = –0,0635 oraz X równa się 9,093×0,4747=4,3162. Jeśli bierzemy pod uwagę zarówno osoby, które nie dokonały inwestycji oraz te, które dokonały inwestycji, jednostkowy przyrost X (w okolicy średnich wartości wszystkich zmiennych objaśniających; tutaj – tylko jednej) wiąże się z przyrostem Y o 4,32. 3. Z kolei ze wzoru (6.15) wynika, że ∂E (Yi | Yi > 0, X i ) dla średniej wartości X równa się ∂X i 9,093 razy współczynnik równy 1 – λ(–0,0635) [–0,0635 + λ(–0,0635)] = 0,3499. Zatem, jeśli bierzemy pod uwagę tylko osoby, które dokonały inwestycji, to jednostkowy przyrost X (w okolicy średniej) wiąże się z przyrostem Y o 3,18. ▄ PRZYKŁAD 6.9 Dla danych z badania „Diagnoza społeczna 2005. Warunki i jakość życia Polaków”. (www.diagnoza.com) oszacowano model tobitowy zależności pomiędzy dochodem netto go- Rozdział 6 23 spodarstwa domowego respondenta (Y – w złotych) i czynnikami określającymi ten dochód2. Wzięto pod uwagę 882 obserwacje. Dla 94 z nich wartość Y=0. Oszacowany model tobitowy ma następującą postać: Yˆi MNW = – 106,050 + 224,850 X1 + 338,320 X2 + 5,087 X3 – 232,226 X4 + 18,348 X5 gdzie X1 to miejsce zamieszkania (0= miejscowość poniżej 500 tys. mieszk., =1 powyżej), X2 – płeć respondenta (0=kobieta, 1=mężczyzna), X3 – skala pozycji ekonomicznej zawodu ojca (od 16 do 88), X4 – poziom wykształcenia ojca (1=wyższe, 0=inne), X5 – skala pozycji ekonomicznej zawodu respondenta (od 16 do 88). Z kolei model oszacowany za pomocą MNK ma postać taką: Yˆi MNK = 23,211 + 207,510 X1 + 311,658 X2 + 4,443 X3 – 199,592 X4 + 16,671 X5 Zależność między ocenami MNW i MNK powinna wynikać z udziału wartości niezerowych w próbie, który jest równy 788/882 czyli 0,8934. Zatem iloraz: ocena MNK /ocena MNW powinien mieć mniej więcej wartość 0,89 (poza oceną wyrazu wolnego). Tak właśnie jest dla tego modelu, co pokazuje następujące zestawienie: Parametr przy Ocena MNK (1) X1 X2 X3 X4 X5 207,510 311,658 4,443 -199,592 16,671 Ocena MNW (2) 224,850 338,320 5,087 -232,226 18,348 (1)/(2) 0,923 0,921 0,873 0,859 0,907 Jeśli idzie o interpretację, to wiadomo, że oceny MNW wskazują wrażliwość zmiennej Y* na jednostkowy przyrost wartości danej zmiennej X. Na przykład, ocena przy X2 mówi, że dochód dla mężczyzn jest większy (ceteris paribus) niż dla kobiet o ok. 338 zł (to stwierdzenie bierze pod uwagę ewentualne „ujemne dochody”, które występują w postaci dochodów równych zero). Efekty typu (6.15) i (6.16) nie są tutaj podane. Zauważmy także, iż znak oceny parametru przy zmiennej X4 nie jest zgodny z intuicją. ▄ Pojęcia kluczowe zmienna jakościowa liniowy model prawdopodobieństwa iloraz szans model logitowy, efekty krańcowe 2 Model został wybrany i oszacowany przez studenta SGH Jakuba Ślusarczyka. Rozdział 6 24 model probitowy, efekty krańcowe zmienna ucięta zmienna cenzurowana model tobitowy, efekty krańcowe Literatura D.R. Cox, N. Wermuth, A comment on the coefficient of determination for binary responses, The American Statistician, Vol. 46, 1992. J.S. Cramer, Predictive performance of the binary logit model in unbalanced samples, The Statistician, Vol. 48, 1999. J.S. Cramer, Logit models from economics and other fields, Cambridge University Press, 2003. P.M. Dawson, Econometric and quantitative methods, University of Bath, 2006 (materiały do zajęć). G.S. Maddala, Ekonometria, Wydawnictwo Naukowe PWN, Warszawa, 2006. M.P. Murray, Econometrics. A modern introduction, Addison-Wesley Pearson, 2006. J.H. Stock, M.H. Watson, Introduction to econometrics, wyd. 2, Pearson, 2006. J. Wooldridge, Introductory econometrics: a modern approach, wyd. 2, South-Western, 2003. Zadania 6.1. Przyjmując, że E(εi) = 0 oraz że εi i εj (i≠j) są nieskorelowane, pokaż, że wariancja zmiennej losowej εi w modelu (6.1) równa się pi (1–pi). Jakie są konsekwencje heteroskedastyczności w LMP? 6.2. Model logitowy wywodzi się z rozkładu logistycznego, którego funkcja gęstości ma po- stać exp( Z i ) [1 + exp( Z i )]2 natomiast dystrybuanta wynosi exp( Z i ) . 1 + exp( Z i ) Na wydruku wyników estymacji modelu logitowego w programie gretl pojawia się „f(beta'x) dla średnich niezależnych zmiennych”. Chodzi o wartość funkcji gęstości obliczoną w punkcie średnich arytmetycznych zmiennych X w modelu. Jak należy interpretować tę wartość w Rozdział 6 25 przykładzie 6.2? Odpowiedz na to pytanie wiedząc, że rozkład logistyczny ma funkcję gęstości i dystrybuantę podobną do odpowiedników z rozkładu normalnego. Wiadomo, że wartość oczekiwana zmiennej losowej o rozkładzie logistycznym równa się 0, a wariancja wynosi π2/3 ≈ 3,29. 6.3. Dla przykładu 6.2 wykreśl w Excelu funkcję pˆ i = exp( Zˆ i ) (i=1,...,500). 1 + exp( Zˆ i ) 6.4. (Wooldridge 2003) W modelu dwumianowym Y jest udziałem jedynek w próbie obser- wacji Yi (jest to średnia wartość Yi). Niech q̂0 oznacza procent trafnych prognoz ex post wartości Y=0 oraz q̂1 oznacza procent trafnych prognoz ex post wartości Y=1. Udowodnij, że jeśli p̂ oznacza łączną trafność prognoz ex post w procentach, to p̂ jest następującą średnią ważoną trafności q̂0 i q̂1 : pˆ = (1 − Y ) qˆ0 + Y qˆ1 Następnie oblicz łączną trafność prognoz przyjmując, że w próbie o liczebności 300 mamy Y = 0,70 (czyli jest 210 obserwacji z Y=1 oraz 90 obserwacji z Y=0) a procent trafnych pro- gnoz wartości Y=0 wynosi 80 natomiast procent trafnych prognoz wartości Y=1 wynosi 40. 6.5. (na podstawie Dawson 2006) W modelu logitowym oszacowanym dla zmiennej vote oznaczającej udział w wyborach (1=tak, 0=nie) mamy: pˆ Zˆ = ln = –2,020 + 0,044 age + 0,691 marry + 0,692 educ19 + 0,362 homeown + 1 − pˆ + 0,132 female (n=406 obserwacji, w tym 292 dla vote=1) gdzie age jest wiekiem respondenta, marry oznacza stan cywilny: 1=zamężna/żonaty, 0 w pozostałych przypadkach, educ19=1 jeśli w wieku 19 lat respondent nadal się uczył (=0 w pozostałych przypadkach), homeown=1 jeśli miejsce mieszkania respondenta jest jego własnością (=0 w pozostałych przypadkach), female=1 dla kobiet, =0 dla mężczyzn. a) oblicz prawdopodobieństwo udziału w wyborach osoby żonatego mężczyzny z wyższym wykształceniem w wieku 45 lat, mającego własne mieszkanie; jak zmieni się to prawdopodobieństwo za rok (age=46)?, b) oblicz ilorazy szans dla każdej ze zmiennych; o ile z każdym rokiem wieku respondenta zwiększa się szansa wzięcia udziału w wyborach? Rozdział 6 26 c) o ile procent zwiększa się szansa udziału w głosowaniu dla kobiety w porównaniu z mężczyzną? o ile procent zwiększa się szansa udziału w głosowaniu dla osoby zamężnej/żonatego w porównaniu z innymi osobami? d) jaka jest prognoza zmiennej vote dla p̂ = 0,65? e) zakładając, że głosować można od wieku 19 lat oblicz najmniejsze prawdopodobieństwo wzięcia udziału w głosowaniu; oblicz też prawdopodobieństwo największe przyjmując, że najstarszy respondent mógł mieć 80 lat. 6.6. Pomiędzy parametrami α w LMP i modelu logitowym zachodzi relacja αLMP ≈ 0,25 αlogit, przy czym dla wyrazu wolnego jest αLMP ≈ 0,25 αlogit + 0,5. Sprawdź te związki dla przykładu modeli mieszkanie_z_rodzicami oraz posiadanie domu (przykłady 6.1–6.3). 6.7. (według: Stock i Watson 2006) Które z następujących problemów można analizować przy użyciu modelu logitowego lub modelu probitowego: a) student SGH decyduje się na studiowanie za granicą przez jeden semestr, b) płeć pracownika ma wpływ na poziom zarobków, c) starający się o kredyt nie spłacą go, d) kandydat rozpocznie studia po przyjęciu go na uczelnię. 6.8. Według propozycji z podręcznika Maddali (2006) strony 381-382 dla danych z tablicy 8.4 dostępnych w formacie gretl na stronie internetowej naszego podręcznika: (a) Oszacuj modele: LMP, logitowy i probitowy dla zmiennej zerojedynkowej oznaczającej dopuszczenie (lub nie) kary śmierci w danym stanie USA. (b) Oblicz i zinterpretuj wrażliwość prawdopodobieństwa dopuszczenia kary śmierci względem zmiennej LF tj. stopy zatrudnienia w stanie w roku 1950: – na podstawie LMP, – na podstawie modelu logitowego, – na podstawie modelu probitowego, dla wartości średnich pozostałych zmiennych w modelu. 6.9. Dla zbioru 2820 gospodarstw domowych w Holandii (dane z roku 1980) J.S. Cramer (2003) oszacował kilka modeli logitowych opisujących zmienną Y –posiadanie prywatnego samochodu (1=tak, 0=nie) w zależności od następujących zmiennych: linc – logarytm docho- Rozdział 6 27 du (przeliczony na osobę dorosłą w ciągu roku, w guldenach), lsize – logarytm wielkości gospodarstwa (w osobach dorosłych przeliczeniowych: pierwsza osoba dorosła =1, kolejne =0,7, dzieci =0,5), buscar –samochód służbowy do dyspozycji (1=tak, 0=nie), age – wiek głowy gospodarstwa (mierzony w klasach 5-letnich), urba – rodzaj miejscowości (od 1=wieś do 6=duże miasto). Następująca tabela pokazuje wyniki estymacji pięciu modeli logitowych (oceny parametrów przy zmiennych plus wartość logarytmu funkcji wiarygodności ln L): linc 0,35 1,77 2,46 2,36 2,38 lsize buscar age urba 2,22 3,09 2,83 2,76 –2,95 –3,00 –3,04 –0,12 –0,13 –0,12 ln L –1831,29 –1614,92 –1393,74 –1360,23 –1351,39 a) czy znaki oszacowań parametrów są zgodne z intuicją? b) zinterpretuj parametry modelu ze zmiennymi linc, lsize i buscar; wykorzystaj ilorazy szans; c) o ile procent zmniejsza się iloraz szans posiadania samochodu przez rodzinę wraz ze zwiększaniem się miejscowości zamieszkania o jednostkę w skali zmiennej urba? d) o ile procent zmniejsza się iloraz szans posiadania prywatnego samochodu przez rodzinę, w której wykorzystuje się samochód służbowy? e) dodanie której zmiennej do modelu najwięcej podwyższyło wartość ln L? co to oznacza? 6.10. (według: Murray 2006) Kto pali? Dla próby 1169 mężczyzn w USA oszacowano model wyjaśniający zależność palenia (smoker =1 dla palaczy oraz =0 dla niepalących) od następujących zmiennych: educ – liczba lat nauki, age – wiek w latach, pcigs79 – cena papierosów w danym stanie w roku 1979 (w centach), ageeduc – zmienna interakcyjna równa iloczynowi wieku i liczby lat nauki. Otrzymany w programie Stata stylizowany wynik estymacji modelu logitowego jest następujący: Logistic regression Log likelihood -767.99226 smoker Coef. educ -.2217901 age -.0533935 pcigs79 -.022304 ageeduc .002894 constant 4.352163 No. of obs = pseudo R2 = Std. Err. .0593568 .0140595 .0125033 .0011942 1.060662 1169 0.0333 Odds Ratio .8010835 .9480069 .9779429 1.002898 LR chi2(5) = 52.97 prob > chi2 = 0.0000 Std. Err. z .0475498 -3.74 .0133285 -3.80 .0122275 -1.78 .0011977 2.42 4.10 P>|z| 0.000 0.000 0.074 0.015 0.000 a) oceń wyniki estymacji pod względem statystycznym, Rozdział 6 28 b) czy znaki parametrów przy zmiennych educ, age i pcigs79 są poprawne z punktu widzenia teorii i twoich oczekiwań; odpowiedź uzasadnij, c) jak należałoby zinterpretować znak przy zmiennej ageeduc? d) zinterpretuj podane ilorazy szans (odds ratio) dla każdej ze zmiennych, e) wiadomo, że średnie wartości zmiennych w próbie są następujące: 12,221 dla educ, 41,807 dla age, 60,985 dla pcigs79 oraz 498,955 dla ageeduc; oblicz jednostkowy efekt krańcowy dla zmiennej pcigs79; w jaki sposób można obliczyć takie efekty dla zmiennych educ i age? 6.11. Spółki prawa handlowego mogą wypłacać udziałowcom (akcjonariuszom) dywidendę z osiągniętego rocznego zysku netto. Czasem to czynią, a czasem nie (np. nie wypłacają dywidendy jeśli nie ma zysku). Zaproponuj badanie ekonometryczne 100 spółek giełdowych, w którym kwota wypłaconej dywidendy jest zmienną objaśnianą natomiast zmiennymi objaśniającymi są charakterystyki spółek (np. finansowe, prawne). Jaki model powinien być użyty do tego badania? 6.12. (według: Wooldridge 2003) Ile pracują kobiety? Dla próby 753 kobiet oszacowano za- leżność między liczbą godzin (zmienna hours) przepracowanych w roku 1975 (dane z USA) i zmiennymi charakteryzującymi kobietę oraz jej rodzinę. W tej próbie 428 kobiet pracowało w roku 1975 (hours>0) natomiast 325 nie (hours=0). Wyniki estymacji w programie gretl są następujące: Model PRACA KOBIET: Estymacja Tobit z wykorzystaniem 753 obserwacji 1-753 Zmienna zależna: hours Zmienna Współczynnik const nwifeinc educ exper expersq age kidslt6 kidsge6 965,305 -8,81424 80,6456 131,564 -1,86416 -54,4050 -894,022 -16,2180 Błąd stand. Statystyka t Wartość p 449,287 2,149 0,03167 ** 4,41614 -1,996 0,04594 ** 21,6835 3,719 0,00020 *** 16,2839 8,079 <0,00001 *** 0,506061 -3,684 0,00023 *** 7,80965 -6,966 <0,00001 *** 112,258 -7,964 <0,00001 *** 38,7426 -0,419 0,67550 Srednia arytmetyczna zmiennej zależnej = 740,576 Odchylenie standardowe zmiennej zależnej = 871,314 Cenzurowane obserwacje: 325 (43,2%) Sigma (Se) = 1122,02 Logarytm wiarygodności = -3819,09 Rozdział 6 29 Znaczenie poszczególnych zmiennych jest następujące: nwifeinc – dochód rodziny oprócz zarobków kobiety (w tys. dolarów), educ – liczba lat nauki, exper – doświadczenie na rynku pracy w latach, expersq – kwadrat zmiennej exper, age – wiek kobiety w latach, kidslt6 – liczba dzieci do 6 lat, kidsge6 – liczba dzieci w wieku 6-18 lat. a) dokonaj interpretacji parametrów przy zmiennych nwifeinc, educ, age, kidslt6, kidsge6; b) oblicz i zinterpretuj pochodną zmiennej Y* (reprezentowanej dla wartości nieujemnych przez zmienną hours) względem zmiennej exper dla średniego poziomu exper w próbie równego 10,631 lat; c) wiadomo, że czynnik 1 – λ(ci) [ci + λ(ci)] ze wzoru (6.15) dla wartości średnich w próbie równa się 0,451; oblicz efekt jednostkowego wzrostu zmiennej educ na wartości zmiennej hours pod warunkiem, że bierzemy pod uwagę jedynie obserwacje, dla których hours>0; d) czynnik F(ci) ze wzoru (6.16) dla wartości średnich w próbie równa się 0,645; oblicz efekt jednostkowego wzrostu zmiennej educ na wartości zmiennej hours biorąc pod uwagę wszystkie obserwacje na zmiennej hours; e) wyjaśnij różnicę między wynikami w c) i d). Rozdział 6 30