logit, probit, tobit

Transkrypt

logit, probit, tobit
M ODELE : LOGIT, PROBIT I TOBIT
(fragmenty 16 rozdziału książki pt. Basic econometrics, „Regresja
ze zmienną zależną typu dummy: modele LMP, logit, probit i tobit”)
Damodar N. Gujarati
W rozdziale 15, w którym rozważaliśmy modele regresyjne ze zmienną typu dummy,
zakładaliśmy, że zmienna zależna Y jest zmienną ilościową (na skali interwałowej – przyp.
tłum.) podczas gdy zmienne wyjaśniające były albo ilościowe, albo jakościowe (nominalne –
przyp. tłum.), albo były ich mieszanką. W tym rozdziale rozważamy modele regresji, w
których zmienna zależna czy też zmienna-reakcja sama może być z natury zmienną
dwuwartościową, przyjmując wartość 1 lub 0 i skupiamy uwagę na paru interesujących
problemach estymacyjnych związanych z tymi modelami.
16.1 ZMIENNA ZALEŻNA TYPU DUMMY
Przypuśćmy, że chcemy zająć się badaniem uczestnictwa w rynku pracy dorosłych mężczyzn
jako funkcji wskaźnika bezrobocia, przeciętnego wskaźnika zarobków, dochodów w rodzinie,
wykształcenia itd. człowiek albo jest na rynku pracy, albo nie jest. Zatem zmienna zależna,
uczestnictwo w rynku pracy, może przyjmować jedynie dwie wartości: 1 jeśli jednostka jest
na rynku pracy i 0 jeśli nie jest.
Rozważmy inny przykład dotyczący wyborów prezydenckich w USA. Załóżmy, że mamy
do czynienia z dwoma partiami politycznymi, Demokratyczną i Republikańską. Zmienną
zależną jest w tej sytuacji głosowanie stanowiące wybór między tymi dwoma partiami
politycznymi. Przyjmijmy, że Y=1, jeśli głos jest oddawany na kandydata Partii
Demokratycznej i Y=0, jeśli głos jest na kandydata Partii Republikańskiej. Ray Fair,
ekonomista z Uniwersytetu Yale oraz kilku politologów przeprowadziło sporo badań na ten
temat.2) Zmiennymi wykorzystywanymi w głosowaniu wyborczym były: tempo wzrostu
PKB, stopa bezrobocia i stopa inflacji, czy kandydat ubiega się o reelekcję itd. Dla naszych
obecnych celów ważne jest zauważenie, że zmienna zależna jest zmienną jakościową.*
Istnieje szereg takich przykładów, w których zmienna zależna jest zmienną
dwuwartościową. Tak więc, rodzina albo posiada dom, albo nie, posiada się ubezpieczenie od
kalectwa albo się nie posiada, zarówno mąż, jak i żona mają pracę, albo ma tylko jedna osoba.
Podobnie pewien lek jest skuteczny w leczeniu jakiejś choroby albo nie jest. Firma decyduje
się na ogłoszenie wypłacania dywidendy albo nie, senator decyduje się poprzeć Poprawkę o
równości praw lub też nie, prezydent postanawia zawetować ustawę lub nie itd.
Szczególną cechą wszystkich tych przykładów jest to, że zmienna zależna wywołuje
odpowiedź „tak” lub „nie”; innymi słowy jest z natury dychotomiczna.1
Jak będziemy radzić sobie z modelami zawierającymi dychotomiczne zmienne zależne
(typu zmienna-reakcja)? To jest, jak mamy je estymować? Czy istnieją jakieś związane z tymi
modelami szczególne problemy estymacyjne oraz/lub problemy związane z wnioskowaniem?
2)
Patrz: Ray Fair, „Econometrics and Presidential Elections”, Journal of Economic Perspective, lato 1996: 89102, oraz Michael S. Lewis-Beck, Economics and Elections: The major Western Democracies, University of
Michigan Press, Ann Arbor, 1980.
*
Ten akapit pochodzi z kolejnego, czwartego wydania książki, z 2003 r. Stąd osobna, zgodna z tym wydaniem,
numeracja przypisów. Akapit ten został dodany aby zwiększyć czytelność całości tekstu. – przyp. tłum.
1
Zmienna dychotomiczna jest szczególnym przypadkiem politomicznej czy też wielowartościowej kategorii
zmiennej zależnej, np. przynależność partyjna (demokrata, republikanin, niezależny). Rozważania w tym
rozdziale są jednakże ograniczone do zmiennych dychotomicznych. By bliżej zapoznać się z modelami
politomicznymi, patrz Ben-Akiva Moshe i Steven R. Lehrman. 1985. Discrete Choice Analysis. Cambridge,
Mass. The MIT Press. rozdział 5.
1
Albo, czy można je stosować przy zwyczajnych założeniach MNK (podstawowa wersja
metody najmniejszych kwadratów, ang. ordinary least squares – przyp. tłum.)? By
odpowiedzieć na te i związane z nimi pytania, rozważamy w niniejszym rozdziale cztery
najpowszechniej stosowane podejścia do estymacji następujących modeli:
1. Liniowy model prawdopodobieństwa (LMP)
2. Model logitowy
3. Model probitowy
4. Model tobitowy (ograniczonej regresji)
16.2 LINIOWY MODEL PRAWDOPODOBIEŃSTWA (LMP)
W celu przygotowania koncepcji, rozważmy następujący prosty model:
Yi = β1 + β2Xi + ui
gdzie
X
= dochód rodziny
Y
=1
jeśli rodzina posiada dom
=0
jeśli rodzina nie posiada domu
(16.2.1)
Modele takie jak (16.2.1), które wyrażają dychotomiczną Yi jako liniową funkcję zmiennej
(zmiennych) wyjaśniającej Xi, nazywane są liniowymi modelami prawdopodobieństwa (LMP)
ponieważ E(Yi | Xi), warunkowa wartość oczekiwana Yi przy danej Xi może być
interpretowana jako warunkowe prawdopodobieństwo, że przy danym Xi zajdzie zdarzenie, to
znaczy P(Yi = 1 | Xi). Zatem, w powyższym przykładzie, E(Yi | Xi) wyraża
prawdopodobieństwo posiadania domu przez rodzinę, której dochód wyraża wartość dana
przez Xi. Uzasadnienie określenia LMP dla modeli takich jak (16.2.1) może być
przedstawione następująco.
Zakładając jak zwykle E(ui) = 0 (by otrzymać estymatory nieobciążone), otrzymujemy
E(Yi | Xi) = β1 + β2Xi
(16.2.2)
Teraz, przyjmując Pi = prawdopodobieństwo, że Yi = 1 (to jest, że zaszło zdarzenie) oraz
(1 – Pi) = prawdopodobieństwo, że Yi = 0 (to jest, że zdarzenie nie zaszło), zmienna Yi ma
następujący rozkład:
Yi
Prawdopodobieństwo
0
1 – Pi
1
Pi
Razem
1
Dlatego też, korzystając z definicji wartości oczekiwanej, otrzymujemy
E(Yi) = 0(1 – Pi) + 1(Pi)= Pi
(16.2.3)
Porównując wyrażenie (16.2.2) z (16.2.3) możemy przyrównać
E(Yi | Xi) = β1 + β2Xi = Pi
(16.2.4)
co znaczy, że warunkowa wartość oczekiwana w modelu (16.2.1) może być w istocie
interpretowana jako warunkowe prawdopodobieństwo Yi.
Ponieważ prawdopodobieństwo Pi musi znajdować się pomiędzy 0 i 1, mamy ograniczenie
0 < E(Yi | Xi) < 1
(16.2.5)
co oznacza, że warunkowa wartość oczekiwana, czy też warunkowe prawdopodobieństwo,
musi przyjmować wartości między 0 i 1.
2
16.7 MODEL LOGITOWY
Nasze rozważania będziemy kontynuować posługując się dalej naszym przykładem z
własnością domu. Przy jego pomocy będziemy wyjaśniać podstawowe założenia tkwiące u
podstaw modelu logitowego. Przypomnijmy, że w wyjaśnianiu relacji posiadania domu do
dochodu, w modelu LMP* mieliśmy
Pi = E(Y = 1 | Xi) = β1 + β2Xi
(16.7.1)
gdzie zmienna X jest dochodem, zaś Y = 1 oznacza, że rodzina posiada dom na własność.
Jednakże teraz rozważamy następującą reprezentację posiadania domu:
Pi = E (Y = 1 | X i ) =
1
1+ e
− ( β1 + β 2 X i )
(16.7.2)
Dla ułatwienia prezentacji wyrażenie (16.7.2) zapiszemy jako
Pi =
1
eZ
=
1 + e − Zi 1 + e Z
(16.7.3)
gdzie Zi = β1 + β2Xi.
Równanie (16.7.3) reprezentuje to co znane jest jako logistyczna funkcja dystrybuanty
(ang. cumulative logistic distribution function).1
Łatwo sprawdzić, że jeśli Zi przyjmuje wartości od -∞ do +∞, wówczas Pi przyjmuje
wartości od 0 do 1 oraz, że Pi nieliniowo zależy od Zi (tj. Xi), w ten sposób spełniając dwa
wcześniej rozważane wymagania.2 Wydaje się jednak, że spełniając te wymagania,
stwarzamy problem estymacji, ponieważ Pi jest nieliniowe nie tylko względem X ale także
względem β jak widać to w wyrażeniu (16.7.2). Oznacza to, że przy estymacji parametrów nie
możemy korzystać ze znanej procedury MNK.3 Jednakże problem ten jest raczej pozorny
ponieważ wyrażenie (16.7.2) można uliniowić, co da się pokazać następująco.
Jeśli Pi, prawdopodobieństwo posiadania domu, jest dane przez (16.7.3), wówczas (1-Pi)
jest prawdopodobieństwem nie posiadania domu:
1
1 + e Zi
(16.7.4)
Pi
1 + e Zi
= e Zi
=
−Zi
1 − Pi 1 + e
(16.7.5)
1 − Pi =
Tak więc możemy zapisać
Tak więc Pi/(1–Pi) jest po prostu ilorazem szans na korzyść tego, że posiada się dom –
stosunkiem prawdopodobieństwa, że rodzina będzie posiadała dom do prawdopodobieństwa,
że nie będzie posiadała domu. Tak więc, jeśli Pi = 0.8, oznacza to, że szanse są jak 4 do 1 na
korzyść tego, że rodzina posiada dom.
Teraz, jeśli wyznaczymy logarytm naturalny wyrażenia (16.7.5), wówczas otrzymamy
bardzo interesujący wynik, a mianowicie,
*
Model ten bardziej szczegółowo omawiany był w poprzednich sekcjach tego rozdziału – przyp. tłum.
Model logistyczny został wykorzystany powszechnie do analiz wzrostu takich zjawisk jak populacja, PKB,
podaż pieniądza itd. Aby dotrzeć do teoretycznych i praktycznych szczegółów modeli logitowych i probitowych,
patrz: Kramer J.S. 1991. The Logit Model for Economists. Edward Arnold Publishers. London. oraz Maddala
G.S. 1983. Limited Dependent and Qualitative Variables in Econometrics. Cambridge University Press. New
York.
2
Zauważmy, że jeśli Zi → +∞, wówczas e-Zi zbiega do zera oraz gdy Zi → -∞, wówczas e-Zi rośnie
nieskończenie. Przypomnijmy, że e = 2.71828
3
Oczywiście, można użyć technik estymacji nieliniowej, ale te zagadnienia wykraczają poza ramy tego tekstu.
1
3
 P
Li = ln i
 1 − Pi

 = Z i = β 1 + β 2 X i

(16.7.6)
co znaczy, że L, logarytm ilorazu szans, jest nie tylko liniowe względem X, lecz również (z
punktu widzenia estymacji) liniowy ze względu na parametry.4 L nazywane jest logitem i stąd
modele takie jak (16.7.6) określa się mianem modeli logitowych.
Przyjrzyjmy się cechom modelu logitowego.
1. Jeśli P przebiega wartości od 0 do 1 (tj. Z zmienia się od -∞ do +∞), logit L przebiega
wartości od -∞ do +∞. To znaczy, wprawdzie prawdopodobieństwa leżą między 0 i 1,
logity nie są ograniczone.
2. Wprawdzie L jest liniowe względem X, prawdopodobieństwa jako takie nie są. Własność
ta kontrastuje z modelem LMP (16.7.1), w którym prawdopodobieństwo rośnie liniowo z
X.5
3. Wprawdzie wprowadziliśmy w przedstawionym modelu tylko pojedynczą zmienną
niezależną X, można dodać do modelu tyle zmiennych niezależnych ile wymaga teoria,
do której się odwołujemy.
4. Dodatnia wartość logitu L oznacza, że wraz ze wzrostem wartości zmiennej(-ych)
niezależnej(-ych) rośnie szansa, że zmienna zależna przyjmie wartość 1 (przyjęcie przez
zmienną zależną wartości 1 oznacza, że dzieje się interesujące nas zdarzenie). Jeśli L ma
ujemną wartość, przy wzroście wartości X, maleje szansa, że zmienna zależna przyjmie
wartość 1. Mówiąc inaczej, logit staje się ujemny i rośnie jego wartość bezwzględna jeśli
iloraz szans maleje od 1 do 0 oraz przyjmuje rosnące wartości dodatnie dla wzrostu
wartości ilorazu szans od 1 do nieskończoności.
5. Bardziej formalnie, interpretacja modelu logitowego jest następująca: β2, współczynnik
nachylenia określa zmianę wartości L jeśli X zmieni się o jednostkę, to znaczy mówi nam
jak logarytm szans posiadania domu zmienia się jeśli dochód zmieni się o jednostkę,
powiedzmy 1000$. Współczynnik przecięcia β1 jest wartością logarytmu szans posiadania
domu dla zerowego dochodu. Jak większość interpretacji współczynników przecięcia, ta
interpretacja może nie mieć jakiegokolwiek realnego znaczenia.
6. Jeśli, przy danym dochodzie, powiedzmy X*, chcemy naprawdę oszacować nie iloraz
szans posiadania domu lecz prawdopodobieństwo posiadania domu jako takiego, możemy
to zrobić bezpośrednio z (16.7.3) o ile tylko dostępne są oszacowania β1+β2. To jednak
rodzi najważniejsze pytanie: jak przede wszystkim estymować β1 i β2. odpowiedź
przedstawiona jest w następnej sekcji.
7. Podczas gdy LMP zakłada liniowy związek Pi z Xi, model logitowy zakłada liniowy
związek logarytmu ilorazu szans z Xi.
4
Przypomnijmy, że założenie liniowości z MNK nie wymaga aby zmienna X była koniecznie liniowa. Tak więc
możemy mieć X2, X3 itd. jako zmienne niezależne w modelu. Dla naszych celów liniowość ze względu na
parametry jest kluczowa.
5
Korzystając z rachunku różniczkowego można pokazać, że dP/dX = β2P(1-P), co pokazuje, że tempo zmiany
prawdopodobieństwa ze względu na X odwołuje się nie tylko do β2 lecz również do poziomu
prawdopodobieństwa, od którego mierzona jest zmiana (więcej na ten temat można znaleźć w sekcji 16.9). Przy
okazji, zwróćmy uwagę, że zmiana Xi o jednostkę wpływa na P najbardziej gdy P=0.5 i najmniej kiedy P jest
bliskie 0 lub 1.
4
16.8 ESTYMACJA MODELU LOGITOWEGO
Dla celów estymacji wyrażenie (16.7.6) zapiszemy następująco:
 P 
Li = ln i  = β1 + β 2 X i + ui
 1 − Pi 
(16.8.1)
Krótko omówimy własności składnika losowego ui.
Aby przeprowadzić estymację modelu potrzebujemy, niezależnie od Xi, wartości zmiennej
zależnej, logitu Li. Jednak w tym momencie napotykamy kilka trudności. Jeśli posiadamy
dane o poszczególnych rodzinach, Pi=1 w sytuacji, gdy rodzina posiada dom oraz Pi=0, gdy
nie ma domu na własność. Jednakże, jeśli wprost podstawimy te wartości do logitu Li,
otrzymamy
1
Li = ln  , jeśli rodzina posiada dom na własność
0
0
Li = ln  , jeśli rodzina nie posiada domu na własność
1
Oczywiście, te analizy są pozbawione większego znaczenia. Dlatego, jeśli dysponujemy
danymi na poziomie mikro czy też indywidualnym nie możemy rutynowo estymować
(16.8.1) za pomocą standardowej metody MNK. W tej sytuacji przy estymacji parametrów
może się zdarzyć, że trzeba by uciec się do metody najwyższej wiarygodności (MNW).
Jednakże, że względu na jej matematyczną złożoność w tym miejscu nie zajmiemy się nią,
choć w dalszej części tekstu zostanie przedstawiony przykład odwołujący się do niej.6
Przypuśćmy teraz, że dysponujemy danymi przedstawionymi w tabeli 16.4. Każda wartość
dochodu Xi opisuje Ni rodzin, spośród których ni posiada na własność dom (ni<Ni). Dlatego,
jeśli teraz wyznaczymy
n
Pˆi = i
Ni
(16.8.2)
czyli częstość, możemy wykorzystywać tę wartość jako estymator prawdziwej wartości Pi
przyporządkowaną każdej z wartości Xi. Jeśli Ni jest odpowiednio duże, P̂i będzie dobrym
estymatorem Pi.7 Korzystając z oszacowanego Pi otrzymujemy oszacowanie logitu jako
 Pˆi
ˆ

Li = ln
 1 − Pˆi

 = βˆ1 + βˆ 2 X i


(16.8.3)
6
Rozważania MNW w odniesieniu do modelu logitowego na porównywalnie prostym poziomie dostępne są w
pracy Johna Aldricha i Forresta Nelsona, op. cit. Ss. 49-54. Patrz także Alfred Demaris, Logit Modeling:
Practical Applications, Sage Publications, Newbury Park, California, 1992.
7
Bazując na podstawowym kursie statystyki, przypomnijmy, że prawdopodobieństwo zdarzenia jest granicą
częstości dla liczebności próby zmierzającej do nieskończoności.
5
Tabela 16.4
Hipotetyczne dane z Xi (dochód), Ni (liczba rodzin o dochodzie Xi) oraz ni (liczba rodzin
posiadających własny dom)
X
(w tysiącach dolarów)
6
8
10
13
15
20
25
30
35
40
Ni
ni
40
50
60
80
100
70
65
50
40
25
8
12
18
28
45
36
39
33
30
20
co będzie dość dobrym estymatorem prawdziwego logitu Li jeśli liczba obserwacji Ni dla
każdego Xi będzie wystarczająco duża.
Krótko mówiąc, na podstawie pewnych pogrupowanych lub replikowanych (powtórzone
obserwacje) danych, takich jak w tabeli 16.4, można uzyskać wartości zmiennej zależnej,
logitu, do estymacji modelu (16.8.1). Czy możemy zastosować MNK do (16.8.3) i zwykłym
sposobem estymować parametry? Odpowiedź brzmi: niezupełnie, ponieważ nie
powiedzieliśmy jeszcze niczego o własnościach składnika losowego. Można pokazać, że jeśli
Ni jest odpowiednio duże oraz jeśli każda obserwacja w danej klasie dochodowej Xi jest
zmienną o niezależnym rozkładzie dwumianowym, wówczas


1
u i ~ N 0,

 N i Pi (1 − Pi ) 
(16.8.4)
czyli ui ma rozkład normalny o średniej równej zero i wariancji równej 1/(NiPi(1-Pi).8
Zatem, tak jak w przypadku LMP, składnik losowy w modelu logitowym jest
heteroscedastyczny. Tak więc, zamiast korzystać z MNK będziemy zmuszeni do korzystania
z metody ważonych najmniejszych kwadratów (WNK). Dla celów empirycznych, jednakże,
nieznaną wartość Pi będziemy zastępować przez
P̂i
i jako estymator σ2 będziemy
wykorzystywać
σˆ 2 =
1
N i Pˆi (1 − Pˆi )
(16.8.5)
Teraz opiszemy kolejne etapy estymacji regresji logitowej (16.8.1):
1. Dla każdego poziomu dochodu X, oszacuj prawdopodobieństwo posiadania domu jako
Pˆi = ni N i .
2. dla każdego Xi otrzymasz wartość logitu jako9
8
Jak pokazano w elementarnej teorii prawdopodobieństwa, P̂i , częstość sukcesów (tutaj: posiadania domu), ma
rozkład dwumianowy ze średnia równa prawdziwej wartości Pi i wariancją równą Pi(1-Pi)/Ni; i wraz ze
wzrostem Ni do nieskończoności, rozkład dwumianowy zbiega do rozkładu normalnego. Własności rozkładu ui
dane w (16.8.4) wynikają z podstawowej teorii. Więcej szczegółów znaleźć można w pracy Henry Theila, „On
the relationships involving qualitative variables”, American Journal of Sociology, vol. 76, lipiec 1970: 103-154.
6
(
)
Lˆ i = ln Pˆi (1 − Pˆi ) .
3. Aby rozwiązać problem heteroscedastyczności, przekształćmy (16.8.1) w następujący
sposób:10
wi Li = β1 wi + β 2 wi X i + wi ui
(16.8.6)
co zapiszemy jako
L*i = β1 wi + β 2 X i* + vi
(16.8.7)
gdzie występują wagi wi = N i Pˆi (1 − Pˆi ) ; L*i = przekształcony czy też przeważony Li; X i* =
przekształcony czy też przeważony Xi; oraz vi = przekształcony składnik losowy. Łatwo
można sprawdzić, że przekształcony składnik losowy vi jest homoscedastyczny, pamiętając,
że wariancja oryginalnego składnika losowego jest równa σˆ u2 = 1 [N i Pˆi (1 − Pˆi )].
4. Oszacuj (16.8.6) za pomocą MNK – pamiętając, że WNK jest MNK dla danych
przeważonych. Zauważ, że w (16.8.6) nie ma bezpośrednio wprowadzonej, jawnej stałej
(dlaczego?). Tak więc, do estymacji (16.8.6) będzie trzeba wykorzystać pierwotne
rutynowe postępowanie.
5. Wyznacz przedziały ufności i/lub przeprowadź weryfikację hipotez odwołując się do
standardowej MNK, pamiętając jednak, że, ujmując rzecz ściśle, wszystkie wnioski będą
znaczące jeśli próba będzie odpowiednio duża (dlaczego?). Zatem, dla małych prób,
wyniki estymacji powinno się interpretować z ostrożnością.
9
( (N i − ni )) . Przy okazji
ˆ = ln n
Ponieważ P̂i =ni/Ni, Li może być alternatywnie przedstawione jako L
i
i
należy zwrócić uwagę, że po to by uniknąć przyjmowania przez P̂i wartości 0 lub 1, w praktyce L̂i jest


ˆ i = ln  ni +
mierzone jako L
1 
1 
1  
1 

  N i − ni +   = ln  Pˆi + N i  1 − Pˆi + N i   . Jako regułę
2 
2 
2  
2 

kciuka zaleca się, by Ni było dla każdego Xi równe co najmniej 5. Czytelników zainteresowanych szczegółami
tego zagadnienia zachęcam do lektury pracy D.R. Coxa, Analysis of Binary Data, Methuen, London, 1970: 33.
10
Jeśli estymujemy (16.8.1) nie zważając na heteroscedastyczność, estymatory, wprawdzie nieobciążone, nie
będą efektywne, co pokazano w rozdziale 11.
7
16.11MODEL PROBITOWY
Jak zauważyliśmy, aby przedstawić zachowanie dychotomicznej zmiennej zależnej potrzeba wykorzystać
odpowiednio wybraną funkcję dystrybuanty (ang. cumulative distribution function - CDF). Model
logitowy wykorzystuje logistyczna funkcję dystrybuanty (LFD) jak zostało to zapisane w (16.7.2). Nie jest
to jednakże jedyna funkcja dystrybuanty, którą można wykorzystać. W pewnych zastosowaniach
użyteczną może okazać się normalna funkcja dystrybuanty (NFD). Model estymacyjny wyłaniający się z
tej NFD11 jest popularnie zwany modelem probitowym, choć znany czasem jako model normitowy. W
zasadzie można by zastąpić LFD z (16.7.2) przez NFD i postępować w taki sposób jak opisano to w sekcji
(16.7). jednakże zamiast iść tą drogą, przedstawimy model probitowy odwołując się za McFaddenem12 do
teorii użyteczności, czy też perspektywy racjonalnego wyboru wobec zachowań.
Jako uzasadnienie modelu probitowego załóżmy, że w naszym przykładzie z własnością domu decyzja
i-tej rodziny o nabyciu (lub nie) domu zależy od nieobserwowalnego wskaźnika użyteczności Wi
(znanego także jako zmienna ukryta), który określa jedna lub więcej zmiennych wyjaśniających,
powiedzmy dochód Xi, w ten sposób, że im większa wartość wskaźnika Wi, tym większe
prawdopodobieństwo, że rodzina posiada dom na własność. Przedstawimy wskaźnik Wi jako
Wi = β1 + β2Xi
(16.11.1)
gdzie Xi oznacza dochód i-tej rodziny.
Jak się ma (nieobserwowalny) Wi do faktycznej decyzji o nabyciu domu? Tak jak poprzednio, niech
Y=1 jeśli rodzina posiada dom i Y=0, jeśli nie posiada. Teraz sensownym byłoby przyjąć, że dla każdej
rodziny istnieje pewien krytyczny, czy też progowy poziom wskaźnika, zapiszmy ją jako Wi*,
charakteryzujaca się tym, że jeśli Wi przekroczy wartość Wi* wówczas rodzina posiada dom, w
przeciwnym zaś wypadku – nie. Podobnie jak Wi, próg Wi* jest zmienną nieobserwowalną, jednakże jeśli
założymy, że ma rozkład normalny z tą samą średnią i wariancją, możliwe okaże się nie tylko oszacowanie
parametrów wskaźnika danego w (16.11.1), ale również uzyskanie pewnych informacji na temat
nieobserwowalnego wskaźnika jako takiego. Odpowiednie przekształcenia przedstawione są poniżej.
Przyjąwszy założenie o normalności, prawdopodobieństwo, że Wi* jest mniejsze bądź
równe Wi może być wyliczone z dystrybuanty standaryzowanego rozkładu normalnego jako 13
Pi = Pr (Y = 1) = Pr (Wi* ≤ Wi ) = F (Wi ) =
1
2π
∫
Ii
2
e −t 2 dt =
−∞
1
2π
∫
β1 + β 2 X i
−∞
2
e −t 2 dt
(16.11.2)
gdzie t jest standaryzowaną zmienną normalną, tj. ~ N(0,1).
Ponieważ Pi reprezentuje prawdopodobieństwo, że zajdzie pewne zdarzenie, w tym
przypadku prawdopodobieństwo posiadania domu, jego miarą jest powierzchnia pod
standaryzowana krzywa normalną od -∞ do Wi, jak przedstawia to rysunek 16.4a.
Teraz aby uzyskać informację o Wi, wskaźniku użyteczności, jak również o β1 i β2,
użyjemy funkcję odwrotną do (16.11.2)14:
11
W skrócie, jeśli zmienna Z ma rozkład normalny o średniej µZ i wariancji σ2, wówczas jej funkcja gęstości
prawdopodobieństwa dana jest jako
F( Z ) = ∫
Z0
−∞
12
2
1
e −( Z − µ Z )
2πσ
2σ 2
f (Z ) =
2
1
e −( Z − µ Z )
2πσ
2σ 2
zaś jej dystrybuanta (NFD) jako
, gdzie Z0 jest pewną ustalona wartością zmiennej Z.
D. McFadden, „Conditional Logit Analysis of Qualitative Choice Behavior’, w: P. Zarembka (red.), Frontiers
in Econometrics, Academic Press, New York, 1973.
13
Rozkład normalny o zerowej średniej i jednostkowej (=1) wariancji nazywany jest standardową czy też
standaryzowaną zmienną normalną.
14
Zauważmy, że (16.11.2) jest skrajnie nieliniowa, jednak tak samo było z logistyczną funkcją dystrybuanty
(16.7.2). I tak jak wyznaczanie logarytmu szans umożliwiało nam odwoływanie się do liniowości w modelu
logistycznym, odwrotność NFD także pozwala nam na posługiwanie się liniowościa w estymowanym
(probitowym) modelu.
8
Wi = F-1(F(Wi)) = F-1(Pi) = β1 + β2Xi
(16.11.3)
-1
gdzie F oznacza funkcję odwrotną do dystrybuanty standaryzowanej zmiennej normalnej.
Rysunek 16.4 służy wyjaśnieniu znaczenia powyższych rozważań. W części a) rysunku
odczytujemy (z osi rzędnych – pionowej) wartość dystrybuanty posiadania domu P(Wi* < Wi),
zaś w części b) możemy odczytać (z osi odciętych – poziomej) wartość Wi przyporządkowaną
wartości Pi, co jest czynnością odwrotną w stosunku do poprzedniej.
(Wi) i )
PPi =
F(W
i (F
1
P(Wi* < Wi)
Pi
0
Wi = β1 + β2Xi
(a)
PPi =
F(W
(Wi) i )
i (F
1
Pi
0
Wi = F-1 (Pi)
(b)
Rysunek 16.4
Model probitowy: (a) Dla danego Wi odczytujemy Pi z osi rzędnych; (b) Dla danego Pi odczytujemy Wi z osi
odciętych.
Jak w rzeczywistości postępować by zarówno otrzymać wskaźnik Wi jak i oszacować β1 i
β2, dysponując jedynie danymi na temat wielkości dochodu Xi oraz wartości Y = 1 lub 0, w
zależności od tego, czy rodzina ma dom, czy też nie? Załóżmy, że dysponujemy danymi
pogrupowanymi takimi jak te, które przedstawia tabela 16.5 i chcemy do tych danych
9
dopasować model probitowy traktując go jako alternatywne rozwiązanie wobec modelu
logitowego. Ponieważ dysponujemy już P̂i , częstością (estymator prawdopodobieństwa),
możemy ją wykorzystać do wyznaczenia Wi z dystrybuanty standaryzowanego rozkładu
normalnego (NFD) w sposób przedstawiony w tabeli 16.7 oraz na rysunku 16.5. Kiedy tylko
mamy oszacowane Wi, oszacowanie β1 i β2 jest, jak zaraz pokażemy, względnie prostą
sprawą. W języku analizy probitowej, nieobserwowany wskaźnik użyteczności Wi znany jest
jako normit. Ponieważ ów normalny równoważnik odchylenia czy też Wi będzie dla Pi < 0,5
ujemny, w praktyce do normitu dodaje się liczbę 5, zaś wynik nazywa się probitem.15
Tabela 16.7
Estymacja wskaźnika Wi na podstawie rozkładu normalnego standaryzowanego
Wi = F-1( P̂i )
P̂i
0,20
-0,84
0,24
-0,70
0,30
-0,52
0,35
-0,38
0,45
-0,12
0,51
0,03
0,60
0,25
0,66
0,40
0,75
0,67
0,80
0,84
Uwaga: P̂i pochodzi z tabeli 16.5
P i (F (W i )
1
0,66
0
0,4
Rysunek 16.5
Dystrybuanta rozkładu normalnego standaryzowanego
15
Jeśli przyjrzeć się własnościom rozkładowi normalnemu standaryzowanemu, to okazuje się, że dodanie liczby
5 do zmiennej o tym rozkładzie w praktyce zawsze da wartości dodatnie n.r.o. (dlaczego?)
10
W skrócie,
Probit = normit + 5 = Wi + 5
(16.11.4)
Teraz, w celu estymacji β1 i β2, wyrażenie (16.11.1) zapiszemy jako
Wi = β1 + β2Xi + ui
(16.11.5)
gdzie u jest składnikiem losowym.
Podczas estymacji modelu probitowego wymagane są następujące kroki:
1. Na podstawie danych pogrupowanych, takich jak w tabeli 16.5, oszacuj Pi tak jak dla
modelu logitowego.
2. Mając P̂i , wyznacz normit (= Wi) z dystrybuanty standaryzowanego rozkładu
normalnego.
3. Wykorzystaj oszacowany w poprzednim kroku Wi = Wˆ i jako zmienną zależną w regresji
(16.11.5).
4. Jeśli chcesz, dodaj 5 do oszacowanych wartości Wi by przekształcić w probity i
wykorzystaj tak otrzymaną zmienną (patrz: 16.11.4) jako zmienną zależną w regresji
(16.11.5). Czy posłużymy się normitem, czy probitem, wyniki regresji będą
porównywalne w tym sensie, że współczynnik nachylenia β2 oraz R2 będą w obu
modelach identyczne (dlaczego?), choć stałe będą różne (dlaczego?).
5. Składnik losowy w (16.11.5) jest heteroscedastyczny. Zatem, aby uzyskać efektywne
estymatory parametrów będziemy musieli przekształcić dane w taki sposób, że zmienna
resztowa w przekształconym modelu będzie homoscedastyczna. Sugerowane
przekształcenie podane jest w ćwiczeniu 16.10.
6. Jeśli ktoś chce przeprowadzić weryfikacje hipotez, itd., powinien pamiętać, że
wyznaczane statystyki będą zbieżne do prawdziwych wartości asymptotycznie, to jest dla
dużych prób.
7. Z powodów już wspominanych, R2 otrzymywane w takich modelach ma wątpliwą
wartość jako miara dopasowania modelu (patrz ćwiczenie 16.11).
11