iloraz szans - E-SGH

Transkrypt

iloraz szans - E-SGH
Ekonometria
Wykład 8 - Zmienne jakościowe i modele
logitowe
Dr Michał Gradzewicz
Katedra Ekonomii I
KAE
Plan wykładu
•
•
•
Zmienne jakościowe i binarne
Liniowy model prawdopodobieństwa
Model logitowy
–
–
–
–
–
Intuicja – model ze zmienna ukrytą
Estymacja
Iloraz szans
Efekty krańcowe
Miary dopasowania
Zmienne jakościowe i binarne
•
Zmienne jakościowe – ich wartości nie mają mierzalnych kategorii, np. wykształcenie – „podstawowe”,
„średnie”, „wyższe”
– Zazwyczaj można tym kategoriom przypisać wartości liczbowe
– Szczególnym przypadkiem tego typu zmiennych są zmienne zerojedynkowe, czyli binarne, zazwyczaj
związane z posiadaniem lub nie pewnej cechy, np.:
𝑥𝑖 =
•
1, 𝑔𝑑𝑦 𝑤𝑦𝑘𝑠𝑧𝑎𝑡𝑙𝑐𝑒𝑛𝑖𝑒 = "𝑤𝑦𝑧𝑠𝑧𝑒"
0,
𝑤 𝑝𝑟𝑧𝑒𝑐𝑖𝑤𝑛𝑦𝑚 𝑝𝑟𝑧𝑦𝑝𝑎𝑑𝑘𝑢
•
Dane jakościowe są charakterystyczne dla badań indywidualnych, ankiet, mikrodanych, ogólnie:
mikroekonometria
Jeśli zmienne jakościowa (binarna) występuje jako zmienna objaśniająca (jest jednym z elementów
wektora 𝒙, to traktujemy ja jako „normalną” zmienną o specyficznej interpretacji (współczynnik przy niej
informuje o ile przeciętnie inny jest 𝑦 dla pomiotów posiadających daną cechę, w stosunku do podmiotów
nie posiadających tej cechy)
Zmienna jakościowa (binarna) może być również naszym głównym przedmiotem zainteresowania (czyli
być zmienną objaśnianą 𝑦), możemy chcieć zbudować model objaśniający np. czy dana osoba spłaci/nie
spłaci kredytu, zachoruje/ nie zachoruje na daną jednostkę chorobową
– W zasadzie będziemy wtedy mówić o prawdopodobieństwie, że dana zmienna przyjmie wartość 0
lub 1
– Będziemy badać związki pomiędzy zmiennymi objaśniającymi a prawdopodobieństwem
występowania danej cechy
•
Możemy zastosować w przypadku binarnej zmiennej objaśnianej
•
–
–
liniowy model prawdopodobieństwa, ale ma on dużo wad
dostosowany do charakteru problemu model logitowy (lub probitowy)
Liniowy model prawdopodobieństwa (LMP)
•
Mamy dane indywidualne dotyczące faktu posiadania domu (𝑦, zmienna binarna)
oraz dochodu (𝑥, zmienna ciągła). Jak wyglądają wyniki estymacji zwykłą MNK?
LMP - interpretacja
•
Co właściwie zrobiliśmy?
0
= 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
1
– 𝑦 = 𝐸 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖
– Ale jeśli oznaczymy 𝑝𝑖 = 𝑃(𝑦𝑖 = 1) oraz oczywiście 1 − 𝑝𝑖 = 𝑃(𝑦𝑖 = 0), to wówczas…
– 𝐸 𝑦𝑖 = 1 × 𝑃 𝑦𝑖 = 1 + 0 × 𝑃 𝑦𝑖 = 0 = 1 × 𝑝𝑖 + 0 × 1 − 𝑝𝑖 = 𝑝𝑖
– 𝑦𝑖 =
– Zatem 𝑝𝑖 = 𝛽0 + 𝛽1
•
•
•
Czyli w gruncie rzeczy badaliśmy nieświadomie prawdopodobieństwo „sukcesu” –
posiadania domu
Model tego typu nazywamy liniowym modelem prawdopodobieństwa
Problemy z LMP:
– 𝑃 𝑦𝑖 = 1 ∉ < 0,1 >
– Składnik losowy jest heteroskedastyczny (jego wariancja z definicji zależy od 𝑥), model
powinniśmy estymować UMNK
•
Interpretacja parametru:
– 𝛽𝑖 =
𝜕𝑃 𝑦𝑖 =1
𝜕𝑥𝑖
, czyli przyrost prawdopodobieństwa 𝑝𝑖 związany z jednostkowym
przyrostem 𝑥𝑖
•
Interpretacja przeciętnej wartości 𝑦, czyli 𝐸 𝑦 = 𝑝𝑖 (częstość występowania
jedynek – „sukcesów” w analizowanej próbie)
Model logitowy - intuicja
•
Idea:
– Istnieje pewna zmienna ukryta (latent variable), nazwijmy ją 𝑦 ∗ , wartości której nie
obserwujemy, a wraża ona np. „skłonność do posiadania danej cechy”
1, 𝑔𝑑𝑦 𝑦 ∗ ≥ 0
– Obserwujemy natomiast zmienną 𝑦 =
0, 𝑔𝑑𝑦 𝑦 ∗ < 0
–
–
–
𝑃
–
Przykład – decyzja odnośnie kupna dobra vs. względna użyteczność
Chcemy estymować model: 𝑦 ∗ = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜖
Wtedy:
𝑦 ∗ > 0|𝑿 = 𝑃 𝑿𝜷 + 𝜖 > 0|𝑿 = 𝑃 𝜖 > −𝑿𝜷 𝑿 = 1 − 𝐹 −𝑿𝜷 = 𝐹(𝑿𝜷)
Zatem:
𝑃 𝑦 = 1 𝑿 = 𝐹 𝑿𝜷
• Jeśli:
– 𝐹 jest dystrybuantą rozkładu logistycznego, to mówimy o logicie (często używany w tych
zastosowaniach ze względu na jego prostotę)
𝑒𝑥
𝐹 𝑥 =
1 + 𝑒𝑥
– 𝐹 jest dystrybuantą rozkładu normalnego, to mówimy o probicie
𝑥
1 −𝑥 2
𝐹 𝑥 =Φ 𝑥 =
𝑒 2 𝑑𝑥
2𝜋
−∞
•
Na tych zajęciach skupimy się na modelu logitowym
Obrazkowo…
Estymacja modeli logitowych/probitowych
•
Jest to przykład estymacji modeli nieliniowych. Wiemy, że:
𝑃 𝑦𝑖 = 1 = 𝑃 𝑦 ∗ > 0 = 𝑃 𝜖𝑖 > −
𝛽𝑗 𝑥𝑗 = 1 − 𝐹𝜖 −
𝑗∈{0,1,..𝑘}
= 𝐹𝜖
𝛽𝑗 𝑥𝑗
𝑗
𝛽𝑗 𝑥𝑗
𝑗
•
Budujemy funkcję wiarygodności:
𝑁
𝐿 𝒙, 𝛽 =
𝑃 𝑦𝑖 = 1
𝑦𝑖
𝑃 𝑦𝑖 = 0
1−𝑦𝑖
𝑖=1
=
𝑃(𝑦𝑖 = 1) ⋅
𝑦𝑖 =1
𝑃(𝑦𝑖 = 0)
𝑦𝑖 =0
• Oraz jej logarytm (łatwiejszy do dalszych operacji, bo jest addytywny)
𝑙𝑛𝐿 𝒙, 𝛽 =
ln 𝐹𝜖
𝑦𝑖 =1
•
𝛽𝑗 𝑥𝑗 +
𝑗
ln 1 − 𝐹𝜖
𝑦𝑖 =0
𝛽𝑗 𝑥𝑗
𝑗
Szukamy optimum tej funkcji, ze względu na wektor parametrów:
max 𝑙𝑛𝐿 𝒙, 𝛽
𝛽
𝑒𝑥
1+𝑒 𝑥
Gdzie 𝐹𝜖 𝑥 =
w przypadku modelu logitowego lub 𝐹𝜖 𝑥 = Φ(𝑥) dla modelu
probitowego. Optimum zazwyczaj szukane jest metodami iteracyjnymi (metoda
scoringu Newtona)
Iloraz szans i logit
Przypomnijmy: w modelu logitowym zatem funkcja wiążąca prawdopodobieństwo 𝑝𝑖 ze
zmiennymi 𝑥 ma postać rozkładu logistycznego:
𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑘 𝑥𝑘
𝑝𝑖 =
1 + 𝑒𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑘𝑥𝑘
• Oznaczmy przez 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘
• Wtedy:
𝑒 𝑧𝑖
𝑃 𝑦𝑖 = 1 = 𝑝𝑖 =
1 + 𝑒 𝑧𝑖
• Z kolei
1
𝑃 𝑦𝑖 = 0 = 1 − 𝑝𝑖 =
1 + 𝑒 𝑧𝑖
• Zdefiniujmy iloraz szans (odds-ratio):
𝑝𝑖
= 𝑒 𝑧𝑖
1 − 𝑝𝑖
(np. iloraz szans równy 0,8 oznacza, że na 4 sukcesy mamy 1 porażkę)
• Zdefiniujmy logit:
𝑝𝑖
ln
= 𝑧𝑖
1 − 𝑝𝑖
• Jeśli szanse są jednakowe (𝑝𝑖 = 0.5), to logit jest zerowy, jeśli 𝑝𝑖 > 0.5 to logit jest dodatni,
jeśli 𝑝𝑖 < 0.5 , to logit jest ujemny
•
Interpretacja parametrów w modelu logitowym
•
Skoro ln
𝑝𝑖
1−𝑝𝑖
= 𝑧𝑖 oraz 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 , to
𝜕 ln
𝛽𝑗 =
•
•
𝑝𝑖
1−𝑝𝑖
𝜕𝑥𝑗
Zatem parametr przy zmiennej informuje o ile wzrośnie (procentowo i w
przybliżeniu) iloraz szans, jeśli zmienna ta wzrośnie o jednostkę
Równolegle (jeśli chcemy policzyć dokładną semi-elastyczność):
𝑝𝑖
𝜕
1 − 𝑝𝑖
𝑒 𝛽𝑗 =
𝜕𝑥𝑗
• Zatem 𝑒 𝛽𝑗 informuje o ile razy zmieni się iloraz szans w reakcji na jednostkowy
wzrost 𝑥𝑗 (jeśli 𝑒 𝛽𝑗 > 1 to iloraz szans reaguje wzrostem, np. 𝑒 𝛽𝑗 = 1.21 oznacza,
że w reakcji na jednostkowy wzrost zmiennej 𝑥 iloraz szans rośnie o 1.21 − 1 =
21%).
• Jeśli 𝑥𝑗 jest zmienna binarną to 𝑒 𝛽𝑗 oznacza ile razy wzrasta iloraz szans dla
kategorii „1” zmiennej 𝑥𝑗 w porównaniu z tym samym ilorazem dla kategorii „0”
zmiennej 𝑥𝑗
Efekty krańcowe w modelu logitowym
•
Efekty krańcowe (jak silnie reaguje samo prawdopodobieństwo sukcesu 𝑝𝑖 na
zmiany 𝑥𝑗 ) w modelu logitowym są nieco bardziej skomplikowane
𝑃 𝑦𝑖 = 1 = 𝑝𝑖 =
𝑒 𝑧𝑖
1+𝑒 𝑧𝑖
oraz 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘
𝑒 𝑧𝑖
𝜕𝑃 𝑦𝑖 = 1
𝜕𝑝𝑖 𝜕 1 + 𝑒 𝑧𝑖 𝜕𝑧𝑖
=
=
𝜕𝑥𝑗
𝜕𝑥𝑗
𝜕𝑧𝑖
𝜕𝑥𝑗
𝑒 𝑧𝑖
𝜕
𝑒 𝑧𝑖 1 + 𝑒 𝑧𝑖 − 𝑒 𝑧𝑖 ⋅ 𝑒 𝑧𝑖
𝑒 𝑧𝑖
1 + 𝑒 𝑧𝑖
=
=
𝜕𝑧𝑖
1 + 𝑒 𝑧𝑖 2
1 + 𝑒 𝑧𝑖
𝜕𝑧𝑖
= 𝛽𝑗
𝜕𝑥𝑗
2
𝑒 𝑧𝑖
1
=
= 𝑝𝑖 (1 − 𝑝𝑖 )
1 + 𝑒 𝑧𝑖 1 + 𝑒 𝑧𝑖
•
Zatem:
•
•
𝜕𝑝𝑖
𝑒 𝛽0+𝛽1𝑥1+⋯+𝛽𝑘 𝑥𝑘
= 𝛽𝑗 𝑝𝑖 1 − 𝑝𝑖 = 𝛽𝑗
𝜕𝑥𝑗
1 + 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘 𝑥𝑘 2
W praktyce podaje się taki efekt krańcowy dla średnich wartości zmiennych 𝑥
Znak oszacowania parametru określa kierunek wpływu 𝑥𝑗 na 𝑦
•
(W modelu probitowym
średnich 𝑥)
𝜕𝑃 𝑦𝑖 =1
𝜕𝑥𝑗
= 𝛽𝑗 𝜙(𝑧𝑖 ) i również wyznacza się go dla
Miary dopasowania modelu logitowego
•
Ze względu na nieliniowość modelu logitowego nie można stosować zwykłego
współczynnika 𝑅2
• Relewantną miarą dopasowania modelu do danych jest tzw. pseudo-𝑅2
McFaddena:
𝑙𝑛𝐿𝑀𝑃
2
𝑝𝑠𝑒𝑢𝑑𝑜−𝑅 = 1 −
𝑙𝑛𝐿𝑀𝑍
Gdzie MP oznacza model pełny (ze wszystkimi zmiennymi), a MZ – model
zredukowany (jedynie z wyrazem wolnym)
• Służy do porównań logitowych modeli niezagnieżdżonych dla tej samej zmiennej
• Analogonem dla uogólnionego testu Walda dla modeli logitowych (czyli testem na
łączną istotność wszystkich zmiennych w modelu) jest test oparty na ilorazie
wiarygodności:
• 𝐻0 : ∀𝑗∈{1,…,𝑘} 𝛽𝑗 = 0 𝑣𝑠. 𝐻1 : ∃𝑗∈{1,…𝑘} 𝛽𝑗 ≠ 0
2 𝑙𝑛𝐿𝑀𝑃 − 𝑙𝑛𝐿𝑀𝑍 ∼ 𝜒 2 (𝑘)
• Jeżeli statystyka testowa jest większa od wartości krytycznej (towarzyszy jej pvalue mniejsze od np. 5%), odrzucamy 𝐻0 , konkludując, że co najmniej jeden z
parametrów jest istotnie różny od zera
Tablica trafności i zliczeniowy 𝑅2
𝑒 𝑧𝑖
1+𝑒 𝑧𝑖
1
•
Przypomnijmy: 𝑃 𝑦𝑖 = 1 = 𝑝𝑖 =
•
Dla każdej obserwacji 𝑖 ∈ 1, … , 𝑛 możemy wyznaczyć wartość teoretyczną 𝑝𝑖 - prognozę ex
post (oraz oczywiście prognozy dla obserwacji spoza próby)
Na podstawie prognozy prawdopodobieństwa wyznaczmy prognozy 𝑦𝑖 :
•
–
–
•
•
oraz 𝑃 𝑦𝑖 = 0 = 1 − 𝑝𝑖 = 1+𝑒 𝑧𝑖
Na podstawi zasady standardowej stosowanej przy próbie zbilansowanej (kiedy częstość obserwacji
𝑦𝑖 = 1 jest bliska 0.5) – przyjmujemy, że 𝑦𝑖 = 1 dla 𝑝𝑖 ≥ 0.5 oraz 𝑦𝑖 = 0 dla 𝑝𝑖 < 0.5 – jest to
standardowa konstrukcja tablicy trafień w Gretlu (niezależnie od stopnia zbilansowania próby)
Na podstawie zasady Cramera stosowanej przy próbie niezbilansowanej (kiedy częstość obserwacji
𝑦𝑖 = 1 jest w ogólności równa 𝛿) – przyjmujemy, że 𝑦𝑖 = 1 dla 𝑝𝑖 ≥ 𝛿 oraz 𝑦𝑖 = 0 dla 𝑝𝑖 < 𝛿
Zliczamy przypadki, kiedy prognozy dla 𝑦𝑖 pokrywają się lub nie pokrywają się z wartościami
w próbie
𝒚=𝟏
𝒚=𝟎
𝒓𝒂𝒛𝒆𝒎
𝐲=𝟏
𝑛11
𝑛10
𝑛1 .
𝐲=𝟎
𝑛01
𝑛00
𝑛0 .
𝒓𝒂𝒛𝒆𝒎
𝑛.1
𝑛.0
𝑛
Zliczeniowy 𝑅 2 (count-𝑅 2 ) jest miarą trafności prognoz ex post - jest to udział trafnych
prognoz w łącznej liczbie obserwacji 𝑛
𝑛11 + 𝑛00
𝑐𝑜𝑢𝑛𝑡 − 𝑅 2 =
𝑛
Przykłady modeli dla „innych” zmiennych objaśnianych
•
Zmienne binarne – model probitowy – opiera się na innej funkcji gęstości –
rozkładu normalnego
– Między oszacowaniami parametrów zachodzi przybliżona relacja: 𝛽𝑙𝑜𝑔𝑖𝑡 ≈ 𝛾𝛽𝑝𝑟𝑜𝑏𝑖𝑡 ,
gdzie 𝛾 ∈ 1.6; 1.7
•
Zmienne ograniczone – mają ciągły charakter, ale ich zakres jest ograniczony
(często poprzez warunek nieujemności lub konstrukcję próby statystycznej)
– Model Tobitowy, stosuje się dla prób uciętych, kiedy dane na temat zmiennych
zależnych dostępne są wówczas, gdy obserwuje się zmienną zależną