Rozdzial_6 Gruszczynski - E-SGH

Transkrypt

Rozdzial_6 Gruszczynski - E-SGH
Rozdział 6
MODELE ZMIENNEJ JAKOŚCIOWEJ
Wprowadzenie
W tym rozdziale zajmiemy się modelami dla zmiennych jakościowych jako zmiennych
objaśnianych w jednorównaniowym modelu. To są takie zmienne Y, których wartości mają
postać niemierzalnych „kategorii”, na przykład: „zatrudniony” i „bezrobotny” albo: „bankrut”
i „nie-bankrut” czy też: wykształcenie „podstawowe”, „średnie”, „studia licencjackie”, „studia magisterskie” i „inne”. W tej sytuacji klasyczny model regresji nie jest specjalnie użyteczny.
Jeśli chodzi o zmienne objaśniające (X), to nadal warto posługiwać się ich kombinacją liniową, jak w klasycznym jednorównaniowym modelu. Jednak obecnie ta liniowa kombinacja
powinna być powiązana ze zmienną objaśnianą za pomocą pewnej funkcji o postaci nieliniowej. Dlaczego? Z tego powodu, że „kategorie” zmiennej Y nie dają się sensownie wyrazić
liczbowo, można jedynie mówić o prawdopodobieństwie, że dla pewnej kombinacji zmiennych X zmienna Y znajdzie się w pewnej „kategorii”. Przyjęty w modelu rozkład prawdopodobieństwa decyduje właśnie o postaci wspomnianej nieliniowej funkcji.
Modele zmiennych jakościowych należą do mikroekonometrii. A to dlatego, że są zazwyczaj stosowane do mikrodanych czyli danych indywidualnych: o pracownikach, o bezrobotnych, o klientach banku, o firmach, o obywatelach, o osobach ankietowanych itd. Mikrodane gromadzone są w urzędach statystycznych, urzędach rejestracyjnych, biurach badania
opinii, agencjach ratingowych, biurach marketingowych itd. To są zwykle dane przekrojowe,
czasem też można mieć do czynienia z danymi panelowymi
Mikrodane często powstają jako wynik badania ankietowego: osób, konsumentów, firm,
inwestorów itd. Jeśli w drugiej turze wyborów prezydenckich w Polsce ankieter pyta przed
lokalem wyborczym: „na kogo pani/ pan głosowała”, to otrzymuje odpowiedź: „na A” lub „na
B” (pomijając odpowiedzi „nie głosowałam”, „skreśliłam obu”, „oddałam głos nieważny”).
Dla analityka ważne byłoby powiązanie takich wyników (zmienna Y) ze zmiennymi charakteryzującymi daną osobę (zmienne X). Jako wartości zmiennych X ankieter może podać płeć
oraz przybliżony przedział wieku respondenta. Jeśli zada mu dodatkowe pytania, to otrzyma
dalsze informacje (wartości kolejnych zmiennych X). Tak czy inaczej, na tej podstawie można
próbować wyświetlić związek zmiennych X ze zmienną Y przy użyciu pojęcia prawdopodobieństwa. Warunkiem jest odpowiednio duża liczba obserwacji.
Rozdział 6
1
Modele zmiennych jakościowych znajdują zastosowanie w ekonomii, w finansach, a także
w wielu naukach społecznych, w tym w demografii.
Po przeczytaniu tego rozdziału i rozwiązaniu zadań oczekuje się, że Czytelnik powinien
umieć:
–
skonstruować model dwumianowy dla opisu zmiennej jakościowej,
–
odróżnić liniowy model prawdopodobieństwa od modelu probitowego i logitowego,
–
określić wrażliwość prawdopodobieństwa w modelu probitowym i logitowym na zmienne
objaśniające,
–
podać przykładowe zastosowania modelu dla zmiennych uciętych (modelu tobitowego).
6.1. Liniowy model prawdopodobieństwa
Rozpoczniemy od sytuacji, w której – mimo, że zmienna Y jest zmienną jakościową – sto-
sujemy jednak liniowy model regresji.
PRZYKŁAD 6.1
Pięciuset studentów SGH pochodzących z Warszawy spytaliśmy o to, gdzie mieszkają. Przy
tym możliwe były tylko dwie odpowiedzi: „z rodzicami” lub „samodzielnie” (zmienna Y).
Zmienne X określające sytuację Y („mieszkam-nie-mieszkam z rodzicami”) to: rok studiów,
płeć i dochód rodziny za poprzedni rok (według PIT). Wartości zmiennej Y ustaliliśmy jako
„0” (z rodzicami) oraz „1” („samodzielnie”). Dane mieszkanie_z_rodzicami, dostępne są na
stronie internetowej podręcznika w formacie programu gretl. Oszacowaliśmy odpowiedni
model regresji za pomocą MNK i otrzymaliśmy następujący wynik:
Model 1: Estymacja KMNK z wykorzystaniem 500 obserwacji 1-500
Zmienna zależna: Y
Zmienna
const
X1
X2
X3
Współczynnik
-0,0312077
0,0320255
0,00396163
-0,0996585
Błąd stand. Statystyka t Wartość p
0,0860583 -0,363 0,71703
0,0152510 2,100 0,03624 **
0,000600157 6,601 <0,00001 ***
0,0425353 -2,343 0,01953 **
Średnia arytmetyczna zmiennej zależnej = 0,476
Błąd standardowy reszt = 0,474389
Wsp. determinacji R-kwadrat = 0,10496
Statystyka F (3, 496) = 19,3884 (wartość p < 0,00001)
Rozdział 6
2
Zmienna X1 to rok studiów (od 1 do 5), zmienna X2 oznacza dochód rodziny studenta w zeszłym roku (dokładniej: procent trzeciego kwartyla przeciętnego dochodu rodziny w Warszawie), X3 to płeć studenta/studentki (1 dla kobiety, 0 dla mężczyzny). Mamy więc:
Yˆ = –0,0312 + 0,0320 X1 + 0,0040 X2 –0,0996 X3
Zmienna Y jest zmienną objaśnianą szczególnego rodzaju. To zmienna jakościowa, która
przyjmuje dwie wartości „1” oraz „0”. Można zadać pytanie: co tak naprawdę przedstawia
oszacowany model? Na jego podstawie można na przykład „prognozować”, że dla studentki
trzeciego roku, której rodzina miała dochód X2=100 wartość Y wynosi 0,3652. Co oznacza ta
liczba?
▄
Aby odpowiedzieć na te pytania, zapiszmy na początek model dla zmiennej jakościowej
Y, dla prostoty z jedną tylko zmienną objaśniającą X:
Yi = α0 + α1 Xi + εi
i=1,2,...,n.
(6.1)
Niech Yi oznacza fakt posiadania domu przez i–tą rodzinę (1=tak, 0=nie) natomiast Xi oznacza
dochód tej rodziny.
Czasami zmienną jakościową Y można sobie wyobrazić jako zero-jedynkową reprezentantkę pewnej zmiennej ciągłej Y*, która jest nieobserwowana (zmienna ukryta). W naszym
przykładzie Y* może oznaczać „skłonność do posiadania domu” czyli coś czego nie da się
wyrazić liczbowo lecz możemy to „coś” wyobrazić sobie jako zmienną ciągłą. Jeśli na przykład skłonność do posiadania domu jest dodatnia, to wówczas dana rodzina ma dom, a jeśli
niedodatnia – to nie posiada domu. Przy tym „skłonność” to tylko jedno z możliwych określeń zmiennej Y* (można np. mówić o „inklinacji”, „ciążeniu do”, „dążności” itd.). Poza tą
teorią fakty są po prostu takie, że ktoś ma dom, a ktoś inny go nie posiada, czyli zamiast Y*
obserwujemy Y=1 lub Y=0.
Typowy zbiór obserwacji oraz wynik oszacowania klasyczną MNK wygląda tak jak na
rys. 6.1 (tutaj: 50 obserwacji; dane posiadanie_domu na stronie internetowej podręcznika).
Rozdział 6
3
6.1. JPG
Rysunek 6.1. Zależność pomiędzy posiadaniem domu (Y) i dochodem (X)
Musimy teraz posunąć się dalej, poza klasyczne rozważania o modelu liniowym szacowanym
za pomocą MNK. Powinniśmy posłużyć się innym niż dotąd sposobem opisywania zmiennej
Y. Jest to zmienna jakościowa, która ma dwa możliwe warianty (stany, sytuacje itp.) opisane
przy użyciu kodów „0” i „1”. Jest zatem dwumianowa. Pomyślmy o niej jak o zmiennej losowej o dwóch możliwych wartościach i spytajmy o rozkład prawdopodobieństwa tej zmiennej.
Niech pi oznacza prawdopodobieństwo zdarzenia Yi=1. Wtedy 1–pi jest prawdopodobieństwem zdarzenia Yi=0. Wartość oczekiwana zmiennej Yi to po prostu:
E(Yi) = 1⋅pi + 0⋅(1–pi) = pi
(6.2)
Z kolei, w modelu (6.1) zwykle zakładamy, że E(εi) = 0, czyli wartość oczekiwana Yi według (6.1) równa się:
E(Yi) = α0 + α1 Xi,
a zatem:
pi = α0 + α1 Xi.
(6.3)
W ten sposób dochodzimy do wniosku, że linia MNK na rysunku 6.1 reprezentuje
pi = P(Yi=1), gdzie P oznacza prawdopodobieństwo. Stąd się bierze nazwa modelu typu (6.1).
Jest to liniowy model prawdopodobieństwa, w skrócie LMP.
Jeśli jest tak, że linia MNK z rysunku 6.1 reprezentuje prawdopodobieństwo, to widać, że
ma z tym kłopoty. Wielkość prawdopodobieństwa powinna znajdować się w przedziale
<0,1>. LMP tego nie zapewnia. Widzimy, że dla kilku wartości Xi oszacowana linia regresji
wykracza poza przedział <0,1>. Druga wada LMP to heteroskedastyczność składników losowych co powoduje, że dla estymacji powinno się korzystać raczej z uogólnionej niż z kla-
Rozdział 6
4
sycznej MNK. Mimo tych niedoskonałości, w praktycznych zastosowaniach LMP stanowi
akceptowalne przybliżenie związku między pi i zmiennymi objaśniającymi.
Zapiszmy LMP w ogólniejszej postaci z k zmiennymi objaśniającymi:
Yi = α0 + α1 X1i + ... + αk Xki + εi
i=1,2,...,n.
(6.4)
Warto pamiętać, że parametr αj (j=1,...,k) w tym modelu interpretuje się jako przyrost prawdopodobieństwa pi związany z przyrostem Xj o jednostkę.
PRZYKŁAD 6.1 (ciąg dalszy)
Model oszacowany w przykładzie 6.1 to liniowy model prawdopodobieństwa typu (6.4) gdzie
n=500 oraz k=3. Dla przykładu zinterpretujmy ocenę parametru przy zmiennej X1: z każdym
rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samodzielnie zwiększa się
o 0,032. Podobnie interpretuje się pozostałe parametry.
Jak pamiętamy, na podstawie modelu otrzymaliśmy wartość 0,3652 jako „prognozę”
zmiennej Y dla studentki trzeciego roku, której rodzina miała dochód X2=100. Jest to po prostu oszacowanie p̂ prawdopodobieństwa tego, że Y=1 („studentka mieszka samodzielnie”).
Na tej podstawie można postawić prognozę samej wartości Y. Jeśli w próbie mieliśmy mniej
więcej tyle samo wartości Y=1 ile Y=0, to zasadne jest postawienie wniosku, że Y=1 dla
p̂ > 0,5 oraz Y=0 dla p̂ < 0,5. W tym konkretnym przypadku próba miała strukturę 48:52.
Prognozujemy zatem, że studentka mieszka z rodzicami (czyli że Y=0).
Warto przy okazji dodać, że akurat w tym modelu wszystkie wartości teoretyczne zmiennej objaśnianej (czyli oszacowane prawdopodobieństwa) znajdują się w przedziale <0,1>
▄
LMP jest najprostszym modelem dla dwumianowej zmiennej jakościowej. Oszacowane
wartości zmiennej Y reprezentują tu prawdopodobieństwo, że Yi = 1. Jak wiemy (por. rysunek
6.1) funkcja liniowa nie nadaje się dobrze do reprezentowania związku między zmienną objaśniającą a wielkością tego prawdopodobieństwa. Takiej wady nie mają inne modele, które
omówimy w kolejnych podrozdziałach.
Uwaga na temat R-kwadrat w mikroekonometrii
W LMP oszacowanym w przykładzie 6.1 wartość R2 jest równa 0,10. Czy to mało czy dużo?
Żeby odpowiedzieć na to pytanie trzeba wiedzieć, że:
– współczynnik R-kwadrat dla modeli szacowanych na podstawie szeregów czasowych jest
zwykle większy, niż dla szacowanych przy użyciu danych przekrojowych; szeregi czaso-
Rozdział 6
5
we w ekonomii dotyczą na ogół kategorii zagregowanych (np. w makroekonomii), a
„agregaty wyjaśnia się zwykle łatwiej niż wyniki obserwacji dla pojedynczych osób, rodzin, firm” (Wooldridge 2003);
– test F łącznej istotności wszystkich zmiennych w modelu liniowym w istocie weryfikuje
hipotezę o istotności R2 (to jest H0: R2=0); łatwo sprawdzić, że dla R-kwadrat równego 0,2
oraz n = 1000 i k = 5 wartość F równa się 49,7 i oznacza odrzucenie hipotezy zerowej na
bardzo niskim poziomie istotności; „graniczną” (dla poziomu istotności 0,01) wartością Rkwadrat jest w tym przykładzie 0,015; nawet tak niska wartość jest istotnie różna od zera
– przy dostatecznie dużej próbie; z kolei, jeśli na przykład n = 20, to wartość graniczna Rkwadrat wynosi aż 0,63; jak widać, dla dużych n niska wartość R2 nie świadczy o złym
modelu;
– w LMP wartość R-kwadrat jest z reguły niska; można pokazać, że gdy prawdopodobieństwa pi nie mają wartości ekstremalnych (np. są w przedziale od 0,2 do 0,8), to R-kwadrat
ma wartość ograniczoną do przedziału wartości małych, bliskich zeru; model może być
całkiem poprawny, a wartość współczynnika determinacji jest niewielka (Cox i Wermuth
1992).
W świetle tych wyjaśnień uznajemy, że wartość R2=0,10 z przykładu 6.1 nie jest mała. Przy
tym, nie powinno się jej używać do oceny dopasowania modelu, a co najwyżej do porównań
między konkurencyjnymi niezagnieżdżonymi LMP.
6.2. Model logitowy
W odróżnieniu od LMP model logitowy dla danych posiadanie_domu wygląda tak jak na
rysunku 6.2. Obecnie linia ma taki kształt, że może reprezentować prawdopodobieństwo dla
każdej wartości X. Ta linia to dystrybuanta tzw. rozkładu logistycznego (przypominamy
rozważania o funkcji logistycznej z poprzedniego rozdziału). Jest to jedna z linii o kształcie
podobnym do litery S, określanych jako krzywe typu S.
Rozdział 6
6
6.2. JPG
Rysunek 6.2. Oszacowany model logitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X)
Jak pamiętamy, w LMP funkcja, która wiąże prawdopodobieństwo pi ze zmienną objaśniającą
Xi ma postać pi = α0 + α1 Xi. W modelu logitowym ten związek jest następujący:
pi =
exp(α 0 + α1 X i )
1 + exp(α 0 + α1 X i )
(6.5)
gdzie exp(V) = eV. Model ten nosi też nazwę regresji logistycznej lub model logistycznego.
Jego ogólniejsza postać przyjmuje, że pi jest funkcją następującej liniowej kombinacji k
zmiennych objaśniających:
Zi = α0 + α1 X1i + ... + αk Xki
czyli
pi =
exp( Z i )
1 + exp( Z i )
(6.6)
Jeśli obliczymy
1 − pi =
1
1 + exp( Z i )
a następnie podzielimy pi przez 1–pi:
pi
= exp( Z i )
1 − pi
i obliczymy stąd Zi = α0 + α1 X1i + ... + αk Xki, to otrzymamy:
ln
pi
= α0 + α1 X1i + ... + αk Xki
1 − pi
(6.7)
Rozdział 6
7
Model (6.7) jest liniowy względem parametrów α i zmiennych X. Zmienną objaśnianą w tym
modelu jest ln (pi/(1–pi)). Ta wielkość nazywa się logitem. Przypomnijmy, że pi to prawdopodobieństwo tego, iż Yi=1. Zatem logit to logarytm ilorazu szans1 przyjęcia oraz nieprzyjęcia wartości 1 przez zmienną Y. Jeśli szanse są jednakowe (pi=0,5), to logit równa się zeru.
Dla pi>0,5 logit jest ujemny, a dla pi<0,5 jest dodatni.
PRZYKŁAD 6.2 (ciąg dalszy przykładu 6.1)
Oto wydruk oszacowanego w programie gretl modelu logitowego zależności między Y
(mieszkanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć):
Model MIESZKANIE Z RODZICAMI: Estymacja Logit z wykorzystaniem 500 obserwacji 1-500
Zmienna zależna: Y
Zmienna
const
X1
X2
X3
Współczynnik
-2,35743
0,140685
0,0176054
-0,438766
Błąd stand. Statystyka t Efekt krańcowy
dla średnich
0,408173 -5,776
0,0680044 2,069
0,0350719
0,00288574 6,101
0,00438890
0,189761 -2,312 -0,109381
Średnia dla zmiennej Y = 0,476
Liczba przypadków 'poprawnej predykcji' = 377 (75,4%)
f(beta'x) dla średnich niezależnych zmiennych = 0,249
McFaddena pseudo-R-kwadrat = 0,0796924
Logarytm wiarygodności = -318,424
Test ilorazu wiarygodności: Chi-kwadrat(3) = 55,1467 (wartość p 0,000000)
Prognoza
0 1
Empiryczne 0 209 53
1 70 168
Będziemy analizować elementy tego wydruku. Na początek ustalmy, że oszacowana wartość
logitu czyli Z jest następująca
Ẑ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X3
Oznacza to, że prawdopodobieństwo pi (czyli sytuacji Yi=1) szacuje się jako:
pˆ i =
exp( 2,3574 + 0,1407 X 1 + 0,0176 X 2 − 0,4388 X 3)
1 + exp( 2,3574 + 0,1407 X 1 + 0,0176 X 2 − 0,4388 X 3)
Na tej podstawie możemy obliczyć, że dla X1=3, X2=100 oraz X3=1 oszacowana wartość p
wynosi 0,3512. Warto przypomnieć, że w przypadku LMP było to 0,3652.
▄
1
Tutaj przez „szansę” rozumiemy „prawdopodobieństwo”. Na ogół jednak szansa czyli w języku angielskim odds
oznacza od razu iloraz prawdopodobieństw. Jeśli prawdopodobieństwo sukcesu równa się 0,8, to „szansa na sukces”
wynosi 4 do 1 czyli jest właśnie ilorazem prawdopodobieństw p oraz 1–p. Mimo tego, w angielskojęzycznych podręcznikach też mówi się o odds-ratio czyli o ilorazie szans.
Rozdział 6
8
Estymacja modelu logitowego
W jaki sposób szacuje się model logitowy (6.7)? Jest to model nieliniowy. Zauważmy jednak,
że wielkości pi nie są obserwowalne. Jedyne co znamy, to wartości Yi czyli jedynki lub zera.
Właściwą metodą estymacji jest tu metoda największej wiarygodności (MNW), która wykorzystuje założenie o postaci rozkładu logistycznego. Nie wdając się w szczegóły powiedzmy
jedynie, że termin „logarytm wiarygodności” w wydruku wyników estymacji oznacza wartość
logarytmu naturalnego funkcji wiarygodności, którą maksymalizuje się poszukując ocen parametrów przy pomocy MNW. Czyli – jest to wartość maksymalna dla danego modelu.
Ciekawostka: średnia wartość Yi w modelu logitowym (czyli udział jedynek) równa się
średniej wartości oszacowanych za pomocą MNW prawdopodobieństw pi.
Efekty krańcowe w modelu logitowym
Pochodna prawdopodobieństwa pi względem zmiennej objaśniającej Xji w modelu logitowym
(6.7) jest następująca:
exp(α 0 + α1 X 1i + ... + α k X ki )
∂pi
= αj pi (1–pi) = αj
.
∂X ji
[1 + exp(α 0 + α1 X 1i + ... + α k X ki )]2
(6.8)
Jest więc nieco skomplikowana w porównaniu z taką samą pochodną równą αj dla liniowego
modelu prawdopodobieństwa. Widzimy, że efekt krańcowej zmiany Xj na wartości p w modelu logitowym nie jest stały, zależy od wartości wszystkich zmiennych X. W praktyce podaje
się taki efekt dla średnich wartości zmiennych X.
Uwaga: Znak oszacowania parametru stojącego przy zmiennej Xj w modelu logitowym
określa kierunek wpływu Xj na Y:
– dla dodatniego αj wzrost Xj wiąże się ze wzrostem szans na to, że Y = 1; natomiast spadkowi Xj towarzyszy spadek szans na to, że Y = 1;
– dla ujemnego αj wzrost Xj wiąże się ze spadkiem szans na to, że Y = 1; natomiast spadkowi Xj towarzyszy wzrost szans na to, że Y = 1.
Stąd wynika, że interpretacja parametru strukturalnego modelu logitowego jest podobna do
interpretacji znanej dla modelu liniowego: znak parametru określa kierunek zależności między zmiennymi Xj oraz Y.
PRZYKŁAD 6.2 (ciąg dalszy)
W modelu z przykładu 6.2 efekty krańcowe dla średnich to: 0,0351 dla zmiennej X1, 0,0044
dla zmiennej X2, –0,1094 dla zmiennej X3. Pierwszą z tych liczb możemy interpretować naRozdział 6
9
stępująco: dla osób, których charakterystyki odpowiadają średnim wartościom zmiennych X1,
X2, X3 z każdym rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samodzielnie zwiększa się o 0,035. Podobnie interpretujemy pozostałe efekty krańcowe.
Interpretacja z wykorzystaniem ilorazu szans
Iloraz szans pi /(1–pi) dobrze nadaje się do interpretacji oszacowanego modelu logitowego.
Można pokazać, że jeśli jedna ze zmiennych objaśniających, na przykład Xj wzrośnie o jednostkę (ceteris paribus), to iloraz szans zmieni się exp(αj) razy. W przypadku exp(αj) > 1
mamy wzrost, a w przypadku exp(αj) < 1 mamy spadek ilorazu szans. Jeśli Xj jest zmienną
zerojedynkową, to exp(αj) mówi ile razy wzrasta iloraz szans wartości Yi = 1 dla kategorii „1”
zmiennej Xj w porównaniu z tym samym ilorazem dla kategorii „0” zmiennej Xj.
W naszym modelu z przykładu 6.2 logit jest oszacowany jako
Ẑ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X3
natomiast iloraz szans to exp( Ẑ ). Zatem: krotność o jaką zmieni się iloraz szans przy wzroście każdej ze zmiennych o jednostkę równa się:
exp(0,1407) = 1,1511
dla zmiennej X1,
exp(0,0176) = 1,0178
dla zmiennej X2,
exp(–0,4388) = 0,6448
dla zmiennej X3.
Przykładowa interpretacja: każdy dodatkowy rok studiów zwiększa iloraz szans (szansę) samodzielnego mieszkania o 1,15 raza czyli o 15%.
Miary dopasowania, testowanie modelu, dobór zmiennych
W modelu logitowym nie można stosować zwykłego współczynnika determinacji R-kwadrat
(ze względu na nieliniowość). W programie gretl podaje się w zamian wartość pseudo-Rkwadrat McFaddena, który oblicza się według wzoru:
pseudo–R2 = 1 −
ln LMP
ln LMZ
(6.9)
gdzie ln LMP jest logarytmem funkcji wiarygodności dla modelu pełnego, natomiast ln LMZ –
dla modelu zredukowanego do wyrazu wolnego. Pseudo-R-kwadrat może służyć do porównań
pomiędzy logitowymi modelami niezagnieżdżonymi dla tej samej zmiennej.
Podana w wydruku wyników estymacji wartość statystyki testu ilorazu wiarygodności
służy do testowania istotności całego modelu logitowego. Hipoteza zerowa mówi, że wszyst-
Rozdział 6
10
kie parametry modelu – poza wyrazem wolnym – są równe zeru. Statystyka testu zdefiniowana jako:
2 (ln LMP – ln LMZ)
(6.10)
ma rozkład chi-kwadrat z liczbą stopni swobody równą liczbie zmiennych objaśniających
modelu pełnego. Na wydruku wyników estymacji w programie gretl podaje się wartość poziomu istotności (p), przy którym odrzucamy hipotezę zerową. Wartość mniejsza od 0,05
oznacza, że co najmniej jedna zmienna objaśniająca w modelu jest istotna statystycznie.
Podane w wynikach estymacji wartości statystyki t dla parametrów służą – jak w klasycznym modelu liniowym – do testowania istotności każdej zmiennej oddzielnie.
Ważna uwaga w sprawie doboru zmiennych. W modelu logitowym występuje kombinacja
liniowa zmiennych objaśniających X, jak w klasycznym modelu liniowym z rozdziałów 1-4.
Stąd wynika, że problemy specyfikacji modelu, jak na przykład współliniowość zmiennych
objaśniających, są w modelu logitowym takie same jak w modelu liniowym. Ta uwaga odnosi
się do każdego z modeli zmiennych jakościowych omawianych w tym rozdziale.
Tablica trafności
Po oszacowaniu modelu logitowego można obliczyć wartości empiryczne zmiennej objaśnianej czyli wartości logitów ln (pi/(1–pi)) dla każdej z n obserwacji. Na tej podstawie wyznacza
się wartości empiryczne p̂i prawdopodobieństw pi. Wtedy, jak w przypadku LMP, można
obliczyć prognozę ex post wartości Yi dla każdej obserwacji. Są przy tym dwie zasady:
– zasada standardowa stosowana przy próbie zbilansowanej, to jest takiej gdzie liczba zer i
jedynek dla zmiennej Y jest mniej więcej jednakowa; wówczas prognozujemy, że Y=1 dla
p̂i > 0,5 oraz Y=0 dla p̂i < 0,5;
– zasada optymalnej wartości granicznej (Cramer 1999) stosowana przy próbie niezbilansowanej, w której udział wartości Y=1 w próbie wynosi δ; wówczas prognozujemy, że
Y=1 dla p̂i > δ oraz Y=0 dla p̂i < δ.
Trafność prognozy ex post wygodnie jest przedstawić za pomocą tablicy trafności. Jest to
czteropolowa tablica, której elementami są następujące liczebności przypadków:
Rozdział 6
11
Empiryczne
Prognozowane
Y=1
Y=0
Razem
Y=1
n11
n10
n1.
Y=0
n01
n00
n0.
Razem
n.1
n.0
n
Udział przypadków z trafnymi prognozami (n11 + n00) w łącznej licznie obserwacji (n) to
miara trafności prognoz ex post, a zarazem miara jakości dopasowania modelu. Liczbę tę nazywa się niekiedy zliczeniowym R-kwadrat (count-R2).
PRZYKŁAD 6.2 (ciąg dalszy)
Z tablicy trafności wynika, że n11=168 oraz n00=209. Zatem trafność prognozy wynosi
377/500 czyli 75,4%.
Uwaga: w tym przypadku stosowano standardową zasadę prognozy, bowiem udział wartości
Y=1 w próbie jest bliski 50%. [Obecna wersja programu gretl stosuje wyłącznie tę zasadę,
niezależnie od stopnia zbilansowania próby].
PRZYKŁAD 6.3
Wracamy do omawianego w tekście przykładu z posiadaniem domu. Yi oznacza fakt posiadania domu przez i–tą rodzinę (1=tak, 0=nie) natomiast Xi oznacza dochód tej rodziny (50 obserwacji; dane posiadanie_domu na stronie internetowej podręcznika). Wynik estymacji modelu logitowego w programie gretl jest następujący:
Model POSIADANIE DOMU: Estymacja Logit z wykorzystaniem 50 obserwacji 1-50
Zmienna zależna: Y
Zmienna
const
X
Współczynnik
-4,79156
0,0396580
Błąd stand. Statystyka t Efekt krańcowy
dla średnich
1,24921
-3,836
0,0117456 3,376
0,00718633
Srednia dla zmiennej Y = 0,300
Liczba przypadków 'poprawnej predykcji' = 41 (82,0%)
f(beta'x) do średnich niezależnych zmiennych = 0,181
McFaddena pseudo-R-kwadrat = 0,407392
Logarytm wiarygodności = -18,1002
Test ilorazu wiarygodności: Chi-kwadrat(1) = 24,8861 (wartość p 0,000001)
Prognoza
0 1
Empiryczne 0 33 2
1 7 8
Rozdział 6
12
W tym przypadku liczba wartości Y=1 w próbie wynosi 30%, zatem do prognozowania ex
post należy stosować zasadę Cramera. Poprawna tablica trafności dla tego modelu jest następująca (można ją wyznaczyć przenosząc do Excela oszacowane z modelu wartości pi):
Prognoza
0 1
Empiryczne 0 29 6
1 4 11
W porównaniu z zasadą standardową model gorzej prognozuje zera, a lepiej jedynki. Łączna
trafność prognoz ex post wynosi 40/50 czyli 80%.
▄
Duży model logitowy
Przykład modelu logitowego o większych rozmiarach jest oparty na wynikach badania „Diagnoza społeczna 2005. Warunki i jakość życia Polaków”. Dane dostępne są na stronie internetowej www.diagnoza.com.
PRZYKŁAD 6.4
Zmienna objaśniana Y jest zmienną jakościową dwumianową i oznacza odpowiedź ankietowanego na pytanie „Czy w ostatnich 4 tygodniach poszukiwał pracy?” (1=tak, 0=nie).
Zmienne objaśniające wybrane do modelu to: płeć (1=mężczyzna, 0=kobieta), stan cywilny,
poziom wykształcenia, miesięczny dochód netto w gospodarstwie domowym (w tys. zł).
Zmienna „stan cywilny” może przybrać następujące kategorie, odpowiadające poszczególnym
stanom: kawaler/panna (1), żonaty/zamężna (2), wdowiec/wdowa (3), rozwiedziony/ rozwiedziona (4), w separacji (5). Na bazie poszczególnych kategorii skonstruowane zostało 5
zmiennych binarnych, przyjmujących wartości 1, jeśli respondent reprezentował dany stan
(kategorię) i 0 w przeciwnym przypadku. „Wykształcenie” może przyjmować 8 kategorii:
1
2
3
4
5
6
7
8
wyższe
policealne
średnie zawodowe
średnie ogólnokształcące
zasadnicze zawodowe
podstawowe ukończone
bez wykształcenia
osoba w wieku 0-15 lat
Na bazie zmiennej „wykształcenie” skonstruowane zostały 3 zmienne dwumianowe: wykszt_brak – przyjmujące wartość 1 dla respondentów z kategorią wykształcenie 7 lub 8 oraz 0
w przeciwnym przypadku; wykszt_zasad odpowiednio wartość 1 dla kategorii 5 lub 6 oraz
Rozdział 6
13
wykszt_srednie – 1 dla kategorii 1,2,3 lub 4. Aby uniknąć problemu dokładnej współliniowości zmiennych, do modelu można było włączyć co najwyżej 4 zmienne binarne reprezentujące
stan cywilny oraz 2 reprezentujące wykształcenie (dlaczego?). Poniższy wydruk z programu
gretl przedstawia wyniki estymacji:
Model 2: Estymacja Logit z wykorzystaniem 3902 obserwacji
Zmienna zależna: czy_szukal
Zmienna
Współczynnik
Błąd stand.
Statystyka t
const
-4,14627
0,718449
-5,771
dochod_w_tys
-0,690690
0,0743099
-9,295
Efekt krańcowy dla średnich
-0,0609709
wykszt_srednie
3,87839
0,715297
5,422
0,342367
wykszt_zasad
3,53906
0,712719
4,966
0,312413
plec
0,263516
0,0942064
2,797
0,0232620
zonaty
-0,168893
0,0981567
-1,721
-0,0149091
wdowiec
-2,34247
0,318518
-7,354
-0,206783
rozwiedziony
-0,0278297
0,238629
-0,117
-0,00245668
separacja
-0,0550951
0,532782
-0,103
-0,00486354
Srednia dla zmiennej czy_szukal = 0,153
Liczba przypadków 'poprawnej predykcji' = 3305 (84,7%)
f(beta'x) do średnich niezależnych zmiennych = 0,088
McFaddena pseudo-R-kwadrat = 0,127963
Logarytm wiarygodności = -1501,37
Test ilorazu wiarygodności: Chi-kwadrat(8) = 440,623 (wartość p 0,000000)
Kryterium informacyjne Akaike'a (AIC) = 3020,74
Kryterium bayesowskie
Schwarza (BIC) = 3077,16
Kryterium infor. Hannana-Quinna (HQC) = 3040,77
Nie wszystkie zmienne są istotne statystycznie. Model można próbować poprawiać. Zatrzymajmy się przy tym wyniku estymacji i – jako zadanie do samodzielnego rozwiązania – spróbujmy dokonać interpretacji ocen parametrów, korzystając z:
a) efektów krańcowych,
b) ilorazów szans.
Szczególnie istotne jest przy tym porównanie pomiędzy zmiennymi binarnymi reprezentującymi różne kategorie zmiennej „stan cywilny” oraz zmiennej „wykształcenie”.
▄
6.3. Model probitowy
Model logitowy omówiliśmy dość szczegółowo w poprzednim podrozdziale. Całkiem podobne omówienie należałoby się modelowi probitowemu, który jest drugim ważnym modelem
dla jakościowych zmiennych dwumianowych. To omówienie jednak pominiemy, albowiem
Rozdział 6
14
oba modele są bliźniaczo podobne. Na rysunku 6.3 pokazany jest wykres modelu probitowego dla danych posiadanie_domu. Do złudzenia przypomina rysunek 6.2 z modelem logitowym. Przyczyna jest taka, że w modelu probitowym posługujemy się dystrybuantą rozkładu
normalnego, bardzo podobną do dystrybuanty rozkładu logistycznego.
6.3.JPG
Rysunek 6.3. Oszacowany model probitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X)
W modelu probitowym funkcja, która wiąże prawdopodobieństwo pi z liniową kombinacją zmiennych objaśniających Zi = α0 + α1 X1i + ... + αk Xki ma postać:
Zi
1
t2
exp
(
−
) dt
(6.10)
∫−∞ 2π
2
W tym modelu wartości prawdopodobieństwa pi są wartościami dystrybuanty rozkładu norpi =
malnego N(0,1) w punktach Zi. Wartości Zi nazywa się probitami lub normitami. Są to wartości kombinacji liniowej (zbiorczego indeksu) zmiennych objaśniających dla określonego poziomu prawdopodobieństwa, przy założeniu, że kombinacja ta ma rozkład N(0,1).
Efekty krańcowe w modelu probitowym
Pochodna prawdopodobieństwa pi względem zmiennej objaśniającej Xji w modelu logitowym
(6.7) jest następująca:
∂pi
= αj φ(Zi)
∂X ji
(6.11)
gdzie φ(⋅) jest funkcją gęstości standardowego rozkładu normalnego. Wartości (6.11), które
zależą od poziomów zmiennych X podaje się zwykle dla średnich wartości tych zmiennych.
Rozdział 6
15
PRZYKŁAD 6.5 (ciąg dalszy przykładu 6.2)
Wydruk oszacowanego w programie gretl modelu probitowego zależności między Y (mieszkanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć) jest następujący:
Model MIESZKANIE Z RODZICAMI: Estymacja Probit z wykorzystaniem 500 obserwacji 1-500
Zmienna zależna: Y
Zmienna
const
X1
X2
X3
Współczynnik
-1,33736
0,0873128
0,00984407
-0,270730
Błąd stand. Statystyka t Efekt krańcowy
dla średnich
0,230186 -5,810
0,0416130 2,098
0,0347606
0,00156297 6,298
0,00391908
0,115867 -2,337 -0,107782
Srednia dla zmiennej Y = 0,476
Liczba przypadków 'poprawnej predykcji' = 368 (73,6%)
f(beta'x) do średnich niezależnych zmiennych = 0,398
McFaddena pseudo-R-kwadrat = 0,0760671
Logarytm wiarygodności = -319,678
Test ilorazu wiarygodności: Chi-kwadrat(3) = 52,638 (wartość p 0,000000)
Prognoza
0 1
Empiryczne 0 208 54
1 78 160
Wynik estymacji potwierdza podobieństwo modelu probitowego i logitowego. Efekty krańcowe obliczone dla średnich wartości zmiennych objaśniających X1, X2 i X3 są prawie identyczne: w modelu logitowym to 0,0351, 0,0044 oraz –0,1094 natomiast w modelu probitowym 0,0348, 0,0039 oraz –0,1078. Na przykład w obu przypadkach stwierdzamy, że prawdopodobieństwo samodzielnego mieszkania studentki jest o 0,11 niższe niż studenta (w okolicy
wartości średnich w próbie).
▄
Porównanie z parametrami modelu logitowego
Pomiędzy parametrami α w modelu logitowym i probitowym zachodzi relacja:
αlogit ≈ γ αprobit
gdzie γ = 1,6 ÷ 1,7 co pozwala łatwo przeliczać wyniki estymacji parametrów jednego modelu
na drugi. Sprawdźmy to na przykładach 6.2 i 6.4:
Rozdział 6
16
Zmienna\Ocena parametru
Model logitowy (1)
Model probitowy (2)
(1)/(2)
Const
-2,35743
-1,33736
1,763
X1
0,14069
0,08731
1,611
X2
0,01761
0,00984
1,788
X3
-0,43877
-0,27073
1,621
PRZYKŁAD 6.6 (ciąg dalszy przykładu 6.3)
Dla danych posiadanie_domu na wynik estymacji modelu probitowego jest następujący:
Model POSIADANIE DOMU: Estymacja Probit z wykorzystaniem 50 obserwacji 1-50
Zmienna zależna: Y
Zmienna
const
X
Współczynnik
-2,78725
0,0230812
Błąd stand. Statystyka t Efekt krańcowy
dla średnich
0,647303 -4,306
0,00622350 3,709
0,00732372
Srednia dla zmiennej Y = 0,300
Liczba przypadków ‘poprawnej predykcji’ = 41 (82,0%)
f(beta’x) do średnich niezależnych zmiennych = 0,317
McFaddena pseudo-R-kwadrat = 0,412028
Logarytm wiarygodności = -17,9585
Tutaj także związek między ocenami parametrów modelu logitowego i probitowego jest podobny: –4,79156/–2,78725=1,719 oraz 0,03966/0,02308=1,718.
▄
6.4. Model tobitowy
Zdarza się, że zmienna objaśniana jest zmienną ciągłą lecz jej zakres jest ograniczony. Wtedy
nazywamy ją zmienną ograniczoną. Zmienne ograniczone to rodzaj zmiennych „jakościowo-ilościowych”. Ich wartości obserwujemy – wtedy są zwykłymi kategoriami ilościowymi –
lub ich nie obserwujemy – wtedy nadajemy im jakąś umowną wartość, np. zero. Oto przykłady:
– wydatki na zakup samochodu w rodzinie w danym roku: wartość tej zmiennej dla wielu
gospodarstw domowych równa się zeru;
– przychody z pracy: dane te są dostępne od osób pracujących; dla niektórych osób równają
się zeru – osoby te „wybierają” stan bezrobocia;
– kwota przeznaczona na cele dobroczynne w danym roku;
– liczba godzin pracy przepracowanych w ostatnim miesiącu.
Rozdział 6
17
Zmienna ograniczona jako zmienna endogeniczna w jednorównaniowym modelu ekonometrycznym jest wyjaśniana przy użyciu innych zmiennych – egzogenicznych. Sposób zbierania
danych o zmiennych lub dostępność tych danych determinują rodzaj próby, z którą mamy do
czynienia. Może tu wystąpić jedna z dwóch sytuacji:
– próba ucięta – dane dla zmiennych egzogenicznych dostępne tylko wówczas, gdy obserwuje się zmienną endogeniczną;
przykład: losujemy w ZUS próbę 1000 osób płacących składki emerytalne w wysokości
co najmniej 400 zł miesięcznie i badamy zależność wysokości składki od wieku i od liczby lat wykształcenia; wtedy nie jesteśmy w stanie nic powiedzieć o osobach płacących
miesięcznie składki emerytalne niższe niż 400 zł; wszystkie informacje są ucięte poprzez
warunek „minimum 400 zł składki”;
– próba cenzurowana – dane dla zmiennych egzogenicznych dostępne także wtedy, gdy
nie obserwuje się zmiennej endogenicznej (to jest: dla całej zbiorowości).
przykład: pytamy 1000 osób w sondzie ulicznej o ich wydatki na wczasy w zeszłym roku i
badamy zależność tych wydatków od płci i wieku respondenta; wtedy dla niektórych osób
otrzymujemy odpowiedź: wydatki = 0; posiadamy jednak informację o ich wieku i płci.
PRZYKŁAD 6.7
Niech Y oraz X oznaczają, odpowiednio, zmienną endo– i egzogeniczną w modelu, który dotyczy 500 jednostek obserwacji. Zmienna Y przyjmuje wartości niezerowe dla 300 obserwacji.
Próba cenzurowana to:
x1,..., x300, x300+1,..., x500
y1,..., y300, 0,...,0
Zmienną Y nazywa się zmienną cenzurowaną.
Z kolei próba ucięta to:
x1,..., x300
y1,..., y300
Zmienną Y nazywa się tu zmienną uciętą.
▄
W tym podręczniku zajmiemy się jedynie próbami cenzurowanymi. W takich przypadkach właściwym modelem regresji zmiennej endogenicznej względem zmiennych egzogenicznych jest model regresji cenzurowanej, zwany modelem tobitowym. Dla najprostszej
sytuacji z jedną zmienną objaśniającą model tobitowy ma postać:
Rozdział 6
18
Yi ∗ = α0 + α1 Xi + εi
Yi = Yi ∗
dla
Yi ∗ > 0
Yi = 0
dla
Yi ∗ ≤ 0
i=1,2,...,n
(6.12)
Zmienna Yi * to jest właśnie zmienna objaśniana, którą modelujemy. Jest to zmienna ukryta.
Jej wartości są obserwowane tylko wtedy, gdy są większe od zera. Wartości mniejsze od zera
oraz wartości równe zero traktowane są jednakowo i są reprezentowane przez Yi=0. Wartości
Xi są obserwowane dla wszystkich i = 1,...,n. Zmienna Yi ∗ nie jest obserwowana, jeśli nie jest
większa od 0.
PRZYKŁAD 6.8
Zmienna inwestycja oznacza kwotę, którą klienci banku przeznaczają na inwestycję w nowym
funduszu. Spośród 40 klientów, do których skierowano ofertę, 20 postanowiło dokonać inwestycji. Znana jest wartość zmiennej inwestycja oraz zmiennej wiek dla tych 40 klientów (dane
inwestycja dostępne na stronie internetowej podręcznika). Próba jest cenzurowana (20 osób
nie odpowiedziało; znamy charakterystyki tych osób), zmienna inwestycja jest cenzurowana,
bowiem 50% jej wartości równa się zeru – z racji wyboru dokonanego przez klientów banku.
Skłonność do zainwestowania w nowym funduszu to zmienna Y*. Obserwujemy ją wówczas, gdy jest dodatnia: wtedy równa się dodatnim wartościom zmiennej Y=inwestycja. W
pozostałych przypadkach (skłonność Y* ujemna lub równa zeru) wartość zmiennej
Y=inwestycja jest po prostu równa 0.
6.4.JPG
Rysunek 6.4. Oszacowany MNK model liniowy zależności pomiędzy inwestycją (Y) i wiekiem (X)
Rozdział 6
19
Dane wyglądają tak jak na rysunku 6.4. Jeśli tę zależność Y od X oszacujemy przy pomocy klasycznej MNK, nie martwiąc się o to, że połowa wartości Y to zera, otrzymamy:
Yˆi MNK = –78,924 + 4,309 Xi
co oznaczałoby, że z każdym rokiem wieku inwestora jego inwestycja wzrasta o 4,3 jednostki
pieniężne (jp). Szacowanie tego modelu klasyczną MNK nie jest jednak prawidłowe. Dlaczego?
▄
Wartości oczekiwane zmiennej Y i estymacja modelu tobitowego
Jeśli przyjąć zwyczajowe założenie o tym, że składniki losowe w (6.12) mają rozkład
normalny o średniej 0 i stałej wariancji σ2, można pokazać, że wartość oczekiwana E(Yi| Xi)
jest nieliniową funkcją zmiennej Xi. Oznacza to, że estymatory MNK nie są estymatorami
zgodnymi, która to własność jest kluczowa dla każdego estymatora. W związku z tym model
tobitowy należy szacować metodą największej wiarygodności (MNW).
Dla dociekliwych podajemy postać wartości oczekiwanej E(Yi| Xi) dla modelu (6.12):
– dla wartości Yi>0:
E(Yi | Yi>0, Xi) = α0 + α1 Xi + σ λ(ci),
gdzie ci =
(6.13)
f ( ci )
α 0 + α1 X i
natomiast λ(ci) =
to tzw. odwrotny iloraz Millsa: stosunek
σ
F ( ci )
wartości funkcji prawdopodobieństwa f oraz dystrybuanty F standardowego rozkładu
normalnego obliczonych w punkcie ci;
– dla wszystkich wartości Yi:
E(Yi| Xi) = F(ci) (α0 + α1 Xi) + σ f(ci).
(6.14)
Wzory (6.13) i (6.14) nie są specjalnie groźne, jeśli przypomnimy sobie, że zarówno
funkcja gęstości f jak i dystrybuanta F przyjmują wartości jedynie z przedziału (0, 1) oraz że
dla konkretnej zmiennej losowej jest zawsze f ≤ F. Dla modelu z większą liczbą zmiennych
objaśniających we wzorach (6.13) i (6.14) w miejsce α0 + α1 Xi należy wpisać odpowiednie
wyrażenie z kolejnymi zmiennymi X.
PRZYKŁAD 6.8 (ciąg dalszy)
Oszacowanie modelu tobitowego (6.12) za pomocą MNW jest następujące:
Yˆi MNW = –411,853 + 9,093 Xi
Rozdział 6
20
Pokazuje to następujący wydruk z programu gretl:
Model INWESTYCJA: Estymacja Tobit z wykorzystaniem 40 obserwacji 1-40
Zmienna zależna: inwestycja
Zmienna
const
wiek
Współczynnik
-411,853
9,09304
Błąd stand. Statystyka t Wartość p
181,602
3,95786
-2,268 0,02334 **
2,297 0,02159 **
Srednia arytmetyczna zmiennej zależnej = 107,55
Odchylenie standardowe zmiennej zależnej = 183,584
Cenzurowane obserwacje: 20 (50,0%)
Sigma (Se) = 288,836
Logarytm wiarygodności = -154,248
Otrzymaliśmy całkiem inny rezultat niż poprzednio. Nachylenie prostej regresji jest teraz
większe niż dla modelu szacowanego za pomocą MNK. Widać to na rysunku 6.5. Różnicę
można wyjaśnić w ten sposób, że obserwacje Y=0 reprezentują także ujemne wartości „skłonności do inwestowania”, których nie obserwujemy. Jeśli zatem wyobrazimy sobie istnienie
tych ujemnych Y*, to wynik estymacji jest akceptowalny.
6.5. JPG
Rysunek 6.5. Oszacowany MNW model tobitowy zależności pomiędzy inwestycją (Y) i wiekiem (X)
Pytanie, jakie sobie stawiamy, jest takie: czy można interpretować oszacowanie 9,093 jako
przyrost wartości zmiennej inwestycja w związku z przyrostem zmiennej wiek o 1? Odpowiedź brzmi: (1) tak – jeśli myślimy o zmiennej Y* czyli o skłonności do inwestowania, (2)
nie – jeśli mówimy o zmiennej Y czyli o kwocie faktycznie zainwestowanej. Objaśnienie poniżej.
▄
Rozdział 6
21
Efekty krańcowe w modelu tobitowym
Pochodną zmiennej Y względem zmiennej X w modelu tobitowym (6.12) możemy wyznaczyć ze wzorów (6.13) i (6.14). Mamy więc:
– dla wartości Yi>0:
∂E (Yi | Yi > 0, X i )
= α1 {1 – λ(ci) [ci + λ(ci)]},
∂X i
gdzie ci =
(6.15)
f ( ci )
α 0 + α1 X i
oraz λ(ci) =
σ
F ( ci )
– dla wszystkich wartości Yi:
∂E (Yi | X i )
= α1 F(ci).
∂X i
(6.16)
Co z tego wynika?
Po pierwsze, że sam parametr α1 nie reprezentuje efektu jednostkowego przyrostu zmiennej X na wartości zmiennej Y. Ten efekt jest w istocie mniejszy. Na przykład według wzoru
(6.16) wielkość α1 mnożymy przez F(ci), czyli liczbą mniejszą od 1 (F(ci) jest wartością dystrybuanty standardowego rozkładu normalnego obliczoną w punkcie ci). Można także pokazać, że w (6.15) mnożnik parametru α1 to wielkość z przedziału (0,1).
Zależność między ocenami MNK i MNW
Po drugie, z (6.16) wynika związek między ocenami MNK i MNK dla modelu tobitowego. Oceny MNK są bezpośrednimi oszacowaniami wyrażeń
∂E (Yi | X i )
. Zatem, aby otrzy∂X i
mać oceny MNK na podstawie ocen MNW należy te ostatnie pomnożyć przez czynnik F(ci),
na przykład w punkcie odpowiadającym średniej wartości zmiennej X. Wartość czynnika F
zwiększa się w miarę zwiększania udziału niezerowych wartości w próbie.
Według różnych badań, zależność między ocenami MNK i MNW dla modelu tobitowego
jest następująca. Oceny MNW należy pomnożyć przez udział niezerowych obserwacji w próbie. W wyniku otrzymujemy w przybliżeniu oceny MNK. To stwierdzenie odnosi się do ocen
parametrów przy zmiennych X (poza wyrazem wolnym). Jeśli więc z jakiegoś powodu nie
dysponujemy programem do estymacji modelu tobitowego, to należy zastosować MNK i dokonać odpowiedniej korekty ocen parametrów.
Pamiętajmy, że obecne rozważania dotyczące modelu tobitowego z jedną zmienną objaśniającą przenoszą się analogicznie na model z większą liczbą zmiennych X.
Rozdział 6
22
PRZYKŁAD 6.8 (ciąg dalszy)
Ocena parametru α1 otrzymana za pomocą MNK równa się 4,309, ocena otrzymana za pomocą MNW równa się 9,093. Pierwsza z ocen nie powinna być interpretowana (chociaż jest to w
przybliżeniu efekt (6.16)), druga mówi o tym, jak wzrasta Y* (skłonność do inwestowania)
przy wzroście X (wiek) o jednostkę.
Zależność między tymi ocenami jest w przybliżeniu następująca: 4,309 równa się 0,5
(udział niezerowych obserwacji na Y) razy 9,093.
Efekty krańcowe:
1. Efekt krańcowy
∂E (Yi * | X i )
jest równy 9,093 (jest stały dla każdego X).
∂X i
2. Ze wzoru (6.16) wynika, iż efekt krańcowy
punkcie
− 411,853 + 9,093 X
σ̂
∂E (Yi | X i )
dla średniej wartości X czyli w
∂X i
równa się 9,093 razy wartość dystrybuanty standardowego
rozkładu normalnego obliczona w tym punkcie. U nas X = 43,275 oraz σˆ = 288,84 (por.
wydruk z programu gretl powyżej). Na tej podstawie
F(–0,0635) = 0,4747.
Zatem
∂E (Yi | X i )
∂X i
dla
− 411,853 + 9,093 X
średniej
σ̂
wartości
= –0,0635 oraz
X
równa
się
9,093×0,4747=4,3162. Jeśli bierzemy pod uwagę zarówno osoby, które nie dokonały inwestycji oraz te, które dokonały inwestycji, jednostkowy przyrost X (w okolicy średnich
wartości wszystkich zmiennych objaśniających; tutaj – tylko jednej) wiąże się z przyrostem Y o 4,32.
3. Z kolei ze wzoru (6.15) wynika, że
∂E (Yi | Yi > 0, X i )
dla średniej wartości X równa się
∂X i
9,093 razy współczynnik równy 1 – λ(–0,0635) [–0,0635 + λ(–0,0635)] = 0,3499. Zatem,
jeśli bierzemy pod uwagę tylko osoby, które dokonały inwestycji, to jednostkowy przyrost
X (w okolicy średniej) wiąże się z przyrostem Y o 3,18.
▄
PRZYKŁAD 6.9
Dla danych z badania „Diagnoza społeczna 2005. Warunki i jakość życia Polaków”.
(www.diagnoza.com) oszacowano model tobitowy zależności pomiędzy dochodem netto go-
Rozdział 6
23
spodarstwa domowego respondenta (Y – w złotych) i czynnikami określającymi ten dochód2.
Wzięto pod uwagę 882 obserwacje. Dla 94 z nich wartość Y=0. Oszacowany model tobitowy
ma następującą postać:
Yˆi MNW = – 106,050 + 224,850 X1 + 338,320 X2 + 5,087 X3 – 232,226 X4 + 18,348 X5
gdzie X1 to miejsce zamieszkania (0= miejscowość poniżej 500 tys. mieszk., =1 powyżej), X2
– płeć respondenta (0=kobieta, 1=mężczyzna), X3 – skala pozycji ekonomicznej zawodu ojca
(od 16 do 88), X4 – poziom wykształcenia ojca (1=wyższe, 0=inne), X5 – skala pozycji ekonomicznej zawodu respondenta (od 16 do 88).
Z kolei model oszacowany za pomocą MNK ma postać taką:
Yˆi MNK = 23,211 + 207,510 X1 + 311,658 X2 + 4,443 X3 – 199,592 X4 + 16,671 X5
Zależność między ocenami MNW i MNK powinna wynikać z udziału wartości niezerowych w próbie, który jest równy 788/882 czyli 0,8934. Zatem iloraz: ocena MNK /ocena
MNW powinien mieć mniej więcej wartość 0,89 (poza oceną wyrazu wolnego). Tak właśnie
jest dla tego modelu, co pokazuje następujące zestawienie:
Parametr przy
Ocena MNK (1)
X1
X2
X3
X4
X5
207,510
311,658
4,443
-199,592
16,671
Ocena MNW (2)
224,850
338,320
5,087
-232,226
18,348
(1)/(2)
0,923
0,921
0,873
0,859
0,907
Jeśli idzie o interpretację, to wiadomo, że oceny MNW wskazują wrażliwość zmiennej Y*
na jednostkowy przyrost wartości danej zmiennej X. Na przykład, ocena przy X2 mówi, że
dochód dla mężczyzn jest większy (ceteris paribus) niż dla kobiet o ok. 338 zł (to stwierdzenie bierze pod uwagę ewentualne „ujemne dochody”, które występują w postaci dochodów
równych zero). Efekty typu (6.15) i (6.16) nie są tutaj podane. Zauważmy także, iż znak oceny parametru przy zmiennej X4 nie jest zgodny z intuicją.
▄
Pojęcia kluczowe
zmienna jakościowa
liniowy model prawdopodobieństwa
iloraz szans
model logitowy, efekty krańcowe
2
Model został wybrany i oszacowany przez studenta SGH Jakuba Ślusarczyka.
Rozdział 6
24
model probitowy, efekty krańcowe
zmienna ucięta
zmienna cenzurowana
model tobitowy, efekty krańcowe
Literatura
D.R. Cox, N. Wermuth, A comment on the coefficient of determination for binary responses,
The American Statistician, Vol. 46, 1992.
J.S. Cramer, Predictive performance of the binary logit model in unbalanced samples, The
Statistician, Vol. 48, 1999.
J.S. Cramer, Logit models from economics and other fields, Cambridge University Press,
2003.
P.M. Dawson, Econometric and quantitative methods, University of Bath, 2006 (materiały do
zajęć).
G.S. Maddala, Ekonometria, Wydawnictwo Naukowe PWN, Warszawa, 2006.
M.P. Murray, Econometrics. A modern introduction, Addison-Wesley Pearson, 2006.
J.H. Stock, M.H. Watson, Introduction to econometrics, wyd. 2, Pearson, 2006.
J. Wooldridge, Introductory econometrics: a modern approach, wyd. 2, South-Western, 2003.
Zadania
6.1. Przyjmując, że E(εi) = 0 oraz że εi i εj (i≠j) są nieskorelowane, pokaż, że wariancja
zmiennej losowej εi w modelu (6.1) równa się pi (1–pi). Jakie są konsekwencje heteroskedastyczności w LMP?
6.2. Model logitowy wywodzi się z rozkładu logistycznego, którego funkcja gęstości ma po-
stać
exp( Z i )
[1 + exp( Z i )]2
natomiast dystrybuanta wynosi
exp( Z i )
.
1 + exp( Z i )
Na wydruku wyników estymacji modelu logitowego w programie gretl pojawia się „f(beta'x)
dla średnich niezależnych zmiennych”. Chodzi o wartość funkcji gęstości obliczoną w punkcie średnich arytmetycznych zmiennych X w modelu. Jak należy interpretować tę wartość w
Rozdział 6
25
przykładzie 6.2? Odpowiedz na to pytanie wiedząc, że rozkład logistyczny ma funkcję gęstości i dystrybuantę podobną do odpowiedników z rozkładu normalnego. Wiadomo, że wartość
oczekiwana zmiennej losowej o rozkładzie logistycznym równa się 0, a wariancja wynosi
π2/3 ≈ 3,29.
6.3. Dla przykładu 6.2 wykreśl w Excelu funkcję pˆ i =
exp( Zˆ i )
(i=1,...,500).
1 + exp( Zˆ i )
6.4. (Wooldridge 2003) W modelu dwumianowym Y jest udziałem jedynek w próbie obser-
wacji Yi (jest to średnia wartość Yi). Niech q̂0 oznacza procent trafnych prognoz ex post wartości Y=0 oraz q̂1 oznacza procent trafnych prognoz ex post wartości Y=1. Udowodnij, że jeśli
p̂ oznacza łączną trafność prognoz ex post w procentach, to p̂ jest następującą średnią ważoną trafności q̂0 i q̂1 :
pˆ = (1 − Y ) qˆ0 + Y qˆ1
Następnie oblicz łączną trafność prognoz przyjmując, że w próbie o liczebności 300 mamy
Y = 0,70 (czyli jest 210 obserwacji z Y=1 oraz 90 obserwacji z Y=0) a procent trafnych pro-
gnoz wartości Y=0 wynosi 80 natomiast procent trafnych prognoz wartości Y=1 wynosi 40.
6.5. (na podstawie Dawson 2006) W modelu logitowym oszacowanym dla zmiennej vote
oznaczającej udział w wyborach (1=tak, 0=nie) mamy:
pˆ
Zˆ = ln
= –2,020 + 0,044 age + 0,691 marry + 0,692 educ19 + 0,362 homeown +
1 − pˆ
+ 0,132 female
(n=406 obserwacji, w tym 292 dla vote=1)
gdzie age jest wiekiem respondenta, marry oznacza stan cywilny: 1=zamężna/żonaty, 0 w
pozostałych przypadkach, educ19=1 jeśli w wieku 19 lat respondent nadal się uczył (=0 w
pozostałych przypadkach), homeown=1 jeśli miejsce mieszkania respondenta jest jego własnością (=0 w pozostałych przypadkach), female=1 dla kobiet, =0 dla mężczyzn.
a) oblicz prawdopodobieństwo udziału w wyborach osoby żonatego mężczyzny z wyższym
wykształceniem w wieku 45 lat, mającego własne mieszkanie; jak zmieni się to prawdopodobieństwo za rok (age=46)?,
b) oblicz ilorazy szans dla każdej ze zmiennych; o ile z każdym rokiem wieku respondenta
zwiększa się szansa wzięcia udziału w wyborach?
Rozdział 6
26
c) o ile procent zwiększa się szansa udziału w głosowaniu dla kobiety w porównaniu z mężczyzną? o ile procent zwiększa się szansa udziału w głosowaniu dla osoby zamężnej/żonatego w porównaniu z innymi osobami?
d) jaka jest prognoza zmiennej vote dla p̂ = 0,65?
e) zakładając, że głosować można od wieku 19 lat oblicz najmniejsze prawdopodobieństwo
wzięcia udziału w głosowaniu; oblicz też prawdopodobieństwo największe przyjmując, że
najstarszy respondent mógł mieć 80 lat.
6.6. Pomiędzy parametrami α w LMP i modelu logitowym zachodzi relacja αLMP ≈ 0,25 αlogit,
przy czym dla wyrazu wolnego jest αLMP ≈ 0,25 αlogit + 0,5. Sprawdź te związki dla przykładu
modeli mieszkanie_z_rodzicami oraz posiadanie domu (przykłady 6.1–6.3).
6.7. (według: Stock i Watson 2006) Które z następujących problemów można analizować przy
użyciu modelu logitowego lub modelu probitowego:
a) student SGH decyduje się na studiowanie za granicą przez jeden semestr,
b) płeć pracownika ma wpływ na poziom zarobków,
c) starający się o kredyt nie spłacą go,
d) kandydat rozpocznie studia po przyjęciu go na uczelnię.
6.8. Według propozycji z podręcznika Maddali (2006) strony 381-382 dla danych z tablicy
8.4 dostępnych w formacie gretl na stronie internetowej naszego podręcznika:
(a) Oszacuj modele: LMP, logitowy i probitowy dla zmiennej zerojedynkowej oznaczającej
dopuszczenie (lub nie) kary śmierci w danym stanie USA.
(b) Oblicz i zinterpretuj wrażliwość prawdopodobieństwa dopuszczenia kary śmierci względem zmiennej LF tj. stopy zatrudnienia w stanie w roku 1950:
– na podstawie LMP,
– na podstawie modelu logitowego,
– na podstawie modelu probitowego,
dla wartości średnich pozostałych zmiennych w modelu.
6.9. Dla zbioru 2820 gospodarstw domowych w Holandii (dane z roku 1980) J.S. Cramer
(2003) oszacował kilka modeli logitowych opisujących zmienną Y –posiadanie prywatnego
samochodu (1=tak, 0=nie) w zależności od następujących zmiennych: linc – logarytm docho-
Rozdział 6
27
du (przeliczony na osobę dorosłą w ciągu roku, w guldenach), lsize – logarytm wielkości gospodarstwa (w osobach dorosłych przeliczeniowych: pierwsza osoba dorosła =1, kolejne =0,7,
dzieci =0,5), buscar –samochód służbowy do dyspozycji (1=tak, 0=nie), age – wiek głowy
gospodarstwa (mierzony w klasach 5-letnich), urba – rodzaj miejscowości (od 1=wieś do
6=duże miasto). Następująca tabela pokazuje wyniki estymacji pięciu modeli logitowych
(oceny parametrów przy zmiennych plus wartość logarytmu funkcji wiarygodności ln L):
linc
0,35
1,77
2,46
2,36
2,38
lsize
buscar
age
urba
2,22
3,09
2,83
2,76
–2,95
–3,00
–3,04
–0,12
–0,13
–0,12
ln L
–1831,29
–1614,92
–1393,74
–1360,23
–1351,39
a) czy znaki oszacowań parametrów są zgodne z intuicją?
b) zinterpretuj parametry modelu ze zmiennymi linc, lsize i buscar; wykorzystaj ilorazy
szans;
c) o ile procent zmniejsza się iloraz szans posiadania samochodu przez rodzinę wraz ze
zwiększaniem się miejscowości zamieszkania o jednostkę w skali zmiennej urba?
d) o ile procent zmniejsza się iloraz szans posiadania prywatnego samochodu przez rodzinę,
w której wykorzystuje się samochód służbowy?
e) dodanie której zmiennej do modelu najwięcej podwyższyło wartość ln L? co to oznacza?
6.10. (według: Murray 2006) Kto pali? Dla próby 1169 mężczyzn w USA oszacowano model
wyjaśniający zależność palenia (smoker =1 dla palaczy oraz =0 dla niepalących) od następujących zmiennych: educ – liczba lat nauki, age – wiek w latach, pcigs79 – cena papierosów w
danym stanie w roku 1979 (w centach), ageeduc – zmienna interakcyjna równa iloczynowi
wieku i liczby lat nauki. Otrzymany w programie Stata stylizowany wynik estymacji modelu
logitowego jest następujący:
Logistic regression
Log likelihood
-767.99226
smoker
Coef.
educ
-.2217901
age
-.0533935
pcigs79
-.022304
ageeduc
.002894
constant
4.352163
No. of obs =
pseudo R2 =
Std. Err.
.0593568
.0140595
.0125033
.0011942
1.060662
1169
0.0333
Odds Ratio
.8010835
.9480069
.9779429
1.002898
LR chi2(5) = 52.97
prob > chi2 = 0.0000
Std. Err.
z
.0475498
-3.74
.0133285
-3.80
.0122275
-1.78
.0011977
2.42
4.10
P>|z|
0.000
0.000
0.074
0.015
0.000
a) oceń wyniki estymacji pod względem statystycznym,
Rozdział 6
28
b) czy znaki parametrów przy zmiennych educ, age i pcigs79 są poprawne z punktu widzenia teorii i twoich oczekiwań; odpowiedź uzasadnij,
c) jak należałoby zinterpretować znak przy zmiennej ageeduc?
d) zinterpretuj podane ilorazy szans (odds ratio) dla każdej ze zmiennych,
e) wiadomo, że średnie wartości zmiennych w próbie są następujące: 12,221 dla educ,
41,807 dla age, 60,985 dla pcigs79 oraz 498,955 dla ageeduc; oblicz jednostkowy efekt
krańcowy dla zmiennej pcigs79; w jaki sposób można obliczyć takie efekty dla zmiennych educ i age?
6.11. Spółki prawa handlowego mogą wypłacać udziałowcom (akcjonariuszom) dywidendę z
osiągniętego rocznego zysku netto. Czasem to czynią, a czasem nie (np. nie wypłacają dywidendy jeśli nie ma zysku). Zaproponuj badanie ekonometryczne 100 spółek giełdowych, w
którym kwota wypłaconej dywidendy jest zmienną objaśnianą natomiast zmiennymi objaśniającymi są charakterystyki spółek (np. finansowe, prawne). Jaki model powinien być użyty do
tego badania?
6.12. (według: Wooldridge 2003) Ile pracują kobiety? Dla próby 753 kobiet oszacowano za-
leżność między liczbą godzin (zmienna hours) przepracowanych w roku 1975 (dane z USA) i
zmiennymi charakteryzującymi kobietę oraz jej rodzinę. W tej próbie 428 kobiet pracowało w
roku 1975 (hours>0) natomiast 325 nie (hours=0). Wyniki estymacji w programie gretl są
następujące:
Model PRACA KOBIET: Estymacja Tobit z wykorzystaniem 753 obserwacji 1-753
Zmienna zależna: hours
Zmienna
Współczynnik
const
nwifeinc
educ
exper
expersq
age
kidslt6
kidsge6
965,305
-8,81424
80,6456
131,564
-1,86416
-54,4050
-894,022
-16,2180
Błąd stand. Statystyka t Wartość p
449,287
2,149 0,03167 **
4,41614
-1,996 0,04594 **
21,6835
3,719 0,00020 ***
16,2839
8,079 <0,00001 ***
0,506061 -3,684 0,00023 ***
7,80965
-6,966 <0,00001 ***
112,258
-7,964 <0,00001 ***
38,7426
-0,419 0,67550
Srednia arytmetyczna zmiennej zależnej = 740,576
Odchylenie standardowe zmiennej zależnej = 871,314
Cenzurowane obserwacje: 325 (43,2%)
Sigma (Se) = 1122,02
Logarytm wiarygodności = -3819,09
Rozdział 6
29
Znaczenie poszczególnych zmiennych jest następujące: nwifeinc – dochód rodziny oprócz
zarobków kobiety (w tys. dolarów), educ – liczba lat nauki, exper – doświadczenie na rynku
pracy w latach, expersq – kwadrat zmiennej exper, age – wiek kobiety w latach, kidslt6 –
liczba dzieci do 6 lat, kidsge6 – liczba dzieci w wieku 6-18 lat.
a) dokonaj interpretacji parametrów przy zmiennych nwifeinc, educ, age, kidslt6, kidsge6;
b) oblicz i zinterpretuj pochodną zmiennej Y* (reprezentowanej dla wartości nieujemnych
przez zmienną hours) względem zmiennej exper dla średniego poziomu exper w próbie
równego 10,631 lat;
c) wiadomo, że czynnik 1 – λ(ci) [ci + λ(ci)] ze wzoru (6.15) dla wartości średnich w próbie
równa się 0,451; oblicz efekt jednostkowego wzrostu zmiennej educ na wartości zmiennej
hours pod warunkiem, że bierzemy pod uwagę jedynie obserwacje, dla których hours>0;
d) czynnik F(ci) ze wzoru (6.16) dla wartości średnich w próbie równa się 0,645; oblicz efekt
jednostkowego wzrostu zmiennej educ na wartości zmiennej hours biorąc pod uwagę
wszystkie obserwacje na zmiennej hours;
e) wyjaśnij różnicę między wynikami w c) i d).
Rozdział 6
30

Podobne dokumenty