iloraz szans - E-SGH
Transkrypt
iloraz szans - E-SGH
Ekonometria Wykład 8 - Zmienne jakościowe i modele logitowe Dr Michał Gradzewicz Katedra Ekonomii I KAE Plan wykładu • • • Zmienne jakościowe i binarne Liniowy model prawdopodobieństwa Model logitowy – – – – – Intuicja – model ze zmienna ukrytą Estymacja Iloraz szans Efekty krańcowe Miary dopasowania Zmienne jakościowe i binarne • Zmienne jakościowe – ich wartości nie mają mierzalnych kategorii, np. wykształcenie – „podstawowe”, „średnie”, „wyższe” – Zazwyczaj można tym kategoriom przypisać wartości liczbowe – Szczególnym przypadkiem tego typu zmiennych są zmienne zerojedynkowe, czyli binarne, zazwyczaj związane z posiadaniem lub nie pewnej cechy, np.: 𝑥𝑖 = • 1, 𝑔𝑑𝑦 𝑤𝑦𝑘𝑠𝑧𝑎𝑡𝑙𝑐𝑒𝑛𝑖𝑒 = "𝑤𝑦𝑧𝑠𝑧𝑒" 0, 𝑤 𝑝𝑟𝑧𝑒𝑐𝑖𝑤𝑛𝑦𝑚 𝑝𝑟𝑧𝑦𝑝𝑎𝑑𝑘𝑢 • Dane jakościowe są charakterystyczne dla badań indywidualnych, ankiet, mikrodanych, ogólnie: mikroekonometria Jeśli zmienne jakościowa (binarna) występuje jako zmienna objaśniająca (jest jednym z elementów wektora 𝒙, to traktujemy ja jako „normalną” zmienną o specyficznej interpretacji (współczynnik przy niej informuje o ile przeciętnie inny jest 𝑦 dla pomiotów posiadających daną cechę, w stosunku do podmiotów nie posiadających tej cechy) Zmienna jakościowa (binarna) może być również naszym głównym przedmiotem zainteresowania (czyli być zmienną objaśnianą 𝑦), możemy chcieć zbudować model objaśniający np. czy dana osoba spłaci/nie spłaci kredytu, zachoruje/ nie zachoruje na daną jednostkę chorobową – W zasadzie będziemy wtedy mówić o prawdopodobieństwie, że dana zmienna przyjmie wartość 0 lub 1 – Będziemy badać związki pomiędzy zmiennymi objaśniającymi a prawdopodobieństwem występowania danej cechy • Możemy zastosować w przypadku binarnej zmiennej objaśnianej • – – liniowy model prawdopodobieństwa, ale ma on dużo wad dostosowany do charakteru problemu model logitowy (lub probitowy) Liniowy model prawdopodobieństwa (LMP) • Mamy dane indywidualne dotyczące faktu posiadania domu (𝑦, zmienna binarna) oraz dochodu (𝑥, zmienna ciągła). Jak wyglądają wyniki estymacji zwykłą MNK? LMP - interpretacja • Co właściwie zrobiliśmy? 0 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖 1 – 𝑦 = 𝐸 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 – Ale jeśli oznaczymy 𝑝𝑖 = 𝑃(𝑦𝑖 = 1) oraz oczywiście 1 − 𝑝𝑖 = 𝑃(𝑦𝑖 = 0), to wówczas… – 𝐸 𝑦𝑖 = 1 × 𝑃 𝑦𝑖 = 1 + 0 × 𝑃 𝑦𝑖 = 0 = 1 × 𝑝𝑖 + 0 × 1 − 𝑝𝑖 = 𝑝𝑖 – 𝑦𝑖 = – Zatem 𝑝𝑖 = 𝛽0 + 𝛽1 • • • Czyli w gruncie rzeczy badaliśmy nieświadomie prawdopodobieństwo „sukcesu” – posiadania domu Model tego typu nazywamy liniowym modelem prawdopodobieństwa Problemy z LMP: – 𝑃 𝑦𝑖 = 1 ∉ < 0,1 > – Składnik losowy jest heteroskedastyczny (jego wariancja z definicji zależy od 𝑥), model powinniśmy estymować UMNK • Interpretacja parametru: – 𝛽𝑖 = 𝜕𝑃 𝑦𝑖 =1 𝜕𝑥𝑖 , czyli przyrost prawdopodobieństwa 𝑝𝑖 związany z jednostkowym przyrostem 𝑥𝑖 • Interpretacja przeciętnej wartości 𝑦, czyli 𝐸 𝑦 = 𝑝𝑖 (częstość występowania jedynek – „sukcesów” w analizowanej próbie) Model logitowy - intuicja • Idea: – Istnieje pewna zmienna ukryta (latent variable), nazwijmy ją 𝑦 ∗ , wartości której nie obserwujemy, a wraża ona np. „skłonność do posiadania danej cechy” 1, 𝑔𝑑𝑦 𝑦 ∗ ≥ 0 – Obserwujemy natomiast zmienną 𝑦 = 0, 𝑔𝑑𝑦 𝑦 ∗ < 0 – – – 𝑃 – Przykład – decyzja odnośnie kupna dobra vs. względna użyteczność Chcemy estymować model: 𝑦 ∗ = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜖 Wtedy: 𝑦 ∗ > 0|𝑿 = 𝑃 𝑿𝜷 + 𝜖 > 0|𝑿 = 𝑃 𝜖 > −𝑿𝜷 𝑿 = 1 − 𝐹 −𝑿𝜷 = 𝐹(𝑿𝜷) Zatem: 𝑃 𝑦 = 1 𝑿 = 𝐹 𝑿𝜷 • Jeśli: – 𝐹 jest dystrybuantą rozkładu logistycznego, to mówimy o logicie (często używany w tych zastosowaniach ze względu na jego prostotę) 𝑒𝑥 𝐹 𝑥 = 1 + 𝑒𝑥 – 𝐹 jest dystrybuantą rozkładu normalnego, to mówimy o probicie 𝑥 1 −𝑥 2 𝐹 𝑥 =Φ 𝑥 = 𝑒 2 𝑑𝑥 2𝜋 −∞ • Na tych zajęciach skupimy się na modelu logitowym Obrazkowo… Estymacja modeli logitowych/probitowych • Jest to przykład estymacji modeli nieliniowych. Wiemy, że: 𝑃 𝑦𝑖 = 1 = 𝑃 𝑦 ∗ > 0 = 𝑃 𝜖𝑖 > − 𝛽𝑗 𝑥𝑗 = 1 − 𝐹𝜖 − 𝑗∈{0,1,..𝑘} = 𝐹𝜖 𝛽𝑗 𝑥𝑗 𝑗 𝛽𝑗 𝑥𝑗 𝑗 • Budujemy funkcję wiarygodności: 𝑁 𝐿 𝒙, 𝛽 = 𝑃 𝑦𝑖 = 1 𝑦𝑖 𝑃 𝑦𝑖 = 0 1−𝑦𝑖 𝑖=1 = 𝑃(𝑦𝑖 = 1) ⋅ 𝑦𝑖 =1 𝑃(𝑦𝑖 = 0) 𝑦𝑖 =0 • Oraz jej logarytm (łatwiejszy do dalszych operacji, bo jest addytywny) 𝑙𝑛𝐿 𝒙, 𝛽 = ln 𝐹𝜖 𝑦𝑖 =1 • 𝛽𝑗 𝑥𝑗 + 𝑗 ln 1 − 𝐹𝜖 𝑦𝑖 =0 𝛽𝑗 𝑥𝑗 𝑗 Szukamy optimum tej funkcji, ze względu na wektor parametrów: max 𝑙𝑛𝐿 𝒙, 𝛽 𝛽 𝑒𝑥 1+𝑒 𝑥 Gdzie 𝐹𝜖 𝑥 = w przypadku modelu logitowego lub 𝐹𝜖 𝑥 = Φ(𝑥) dla modelu probitowego. Optimum zazwyczaj szukane jest metodami iteracyjnymi (metoda scoringu Newtona) Iloraz szans i logit Przypomnijmy: w modelu logitowym zatem funkcja wiążąca prawdopodobieństwo 𝑝𝑖 ze zmiennymi 𝑥 ma postać rozkładu logistycznego: 𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑘 𝑥𝑘 𝑝𝑖 = 1 + 𝑒𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑘𝑥𝑘 • Oznaczmy przez 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 • Wtedy: 𝑒 𝑧𝑖 𝑃 𝑦𝑖 = 1 = 𝑝𝑖 = 1 + 𝑒 𝑧𝑖 • Z kolei 1 𝑃 𝑦𝑖 = 0 = 1 − 𝑝𝑖 = 1 + 𝑒 𝑧𝑖 • Zdefiniujmy iloraz szans (odds-ratio): 𝑝𝑖 = 𝑒 𝑧𝑖 1 − 𝑝𝑖 (np. iloraz szans równy 0,8 oznacza, że na 4 sukcesy mamy 1 porażkę) • Zdefiniujmy logit: 𝑝𝑖 ln = 𝑧𝑖 1 − 𝑝𝑖 • Jeśli szanse są jednakowe (𝑝𝑖 = 0.5), to logit jest zerowy, jeśli 𝑝𝑖 > 0.5 to logit jest dodatni, jeśli 𝑝𝑖 < 0.5 , to logit jest ujemny • Interpretacja parametrów w modelu logitowym • Skoro ln 𝑝𝑖 1−𝑝𝑖 = 𝑧𝑖 oraz 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 , to 𝜕 ln 𝛽𝑗 = • • 𝑝𝑖 1−𝑝𝑖 𝜕𝑥𝑗 Zatem parametr przy zmiennej informuje o ile wzrośnie (procentowo i w przybliżeniu) iloraz szans, jeśli zmienna ta wzrośnie o jednostkę Równolegle (jeśli chcemy policzyć dokładną semi-elastyczność): 𝑝𝑖 𝜕 1 − 𝑝𝑖 𝑒 𝛽𝑗 = 𝜕𝑥𝑗 • Zatem 𝑒 𝛽𝑗 informuje o ile razy zmieni się iloraz szans w reakcji na jednostkowy wzrost 𝑥𝑗 (jeśli 𝑒 𝛽𝑗 > 1 to iloraz szans reaguje wzrostem, np. 𝑒 𝛽𝑗 = 1.21 oznacza, że w reakcji na jednostkowy wzrost zmiennej 𝑥 iloraz szans rośnie o 1.21 − 1 = 21%). • Jeśli 𝑥𝑗 jest zmienna binarną to 𝑒 𝛽𝑗 oznacza ile razy wzrasta iloraz szans dla kategorii „1” zmiennej 𝑥𝑗 w porównaniu z tym samym ilorazem dla kategorii „0” zmiennej 𝑥𝑗 Efekty krańcowe w modelu logitowym • Efekty krańcowe (jak silnie reaguje samo prawdopodobieństwo sukcesu 𝑝𝑖 na zmiany 𝑥𝑗 ) w modelu logitowym są nieco bardziej skomplikowane 𝑃 𝑦𝑖 = 1 = 𝑝𝑖 = 𝑒 𝑧𝑖 1+𝑒 𝑧𝑖 oraz 𝑧𝑖 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 𝑒 𝑧𝑖 𝜕𝑃 𝑦𝑖 = 1 𝜕𝑝𝑖 𝜕 1 + 𝑒 𝑧𝑖 𝜕𝑧𝑖 = = 𝜕𝑥𝑗 𝜕𝑥𝑗 𝜕𝑧𝑖 𝜕𝑥𝑗 𝑒 𝑧𝑖 𝜕 𝑒 𝑧𝑖 1 + 𝑒 𝑧𝑖 − 𝑒 𝑧𝑖 ⋅ 𝑒 𝑧𝑖 𝑒 𝑧𝑖 1 + 𝑒 𝑧𝑖 = = 𝜕𝑧𝑖 1 + 𝑒 𝑧𝑖 2 1 + 𝑒 𝑧𝑖 𝜕𝑧𝑖 = 𝛽𝑗 𝜕𝑥𝑗 2 𝑒 𝑧𝑖 1 = = 𝑝𝑖 (1 − 𝑝𝑖 ) 1 + 𝑒 𝑧𝑖 1 + 𝑒 𝑧𝑖 • Zatem: • • 𝜕𝑝𝑖 𝑒 𝛽0+𝛽1𝑥1+⋯+𝛽𝑘 𝑥𝑘 = 𝛽𝑗 𝑝𝑖 1 − 𝑝𝑖 = 𝛽𝑗 𝜕𝑥𝑗 1 + 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘 𝑥𝑘 2 W praktyce podaje się taki efekt krańcowy dla średnich wartości zmiennych 𝑥 Znak oszacowania parametru określa kierunek wpływu 𝑥𝑗 na 𝑦 • (W modelu probitowym średnich 𝑥) 𝜕𝑃 𝑦𝑖 =1 𝜕𝑥𝑗 = 𝛽𝑗 𝜙(𝑧𝑖 ) i również wyznacza się go dla Miary dopasowania modelu logitowego • Ze względu na nieliniowość modelu logitowego nie można stosować zwykłego współczynnika 𝑅2 • Relewantną miarą dopasowania modelu do danych jest tzw. pseudo-𝑅2 McFaddena: 𝑙𝑛𝐿𝑀𝑃 2 𝑝𝑠𝑒𝑢𝑑𝑜−𝑅 = 1 − 𝑙𝑛𝐿𝑀𝑍 Gdzie MP oznacza model pełny (ze wszystkimi zmiennymi), a MZ – model zredukowany (jedynie z wyrazem wolnym) • Służy do porównań logitowych modeli niezagnieżdżonych dla tej samej zmiennej • Analogonem dla uogólnionego testu Walda dla modeli logitowych (czyli testem na łączną istotność wszystkich zmiennych w modelu) jest test oparty na ilorazie wiarygodności: • 𝐻0 : ∀𝑗∈{1,…,𝑘} 𝛽𝑗 = 0 𝑣𝑠. 𝐻1 : ∃𝑗∈{1,…𝑘} 𝛽𝑗 ≠ 0 2 𝑙𝑛𝐿𝑀𝑃 − 𝑙𝑛𝐿𝑀𝑍 ∼ 𝜒 2 (𝑘) • Jeżeli statystyka testowa jest większa od wartości krytycznej (towarzyszy jej pvalue mniejsze od np. 5%), odrzucamy 𝐻0 , konkludując, że co najmniej jeden z parametrów jest istotnie różny od zera Tablica trafności i zliczeniowy 𝑅2 𝑒 𝑧𝑖 1+𝑒 𝑧𝑖 1 • Przypomnijmy: 𝑃 𝑦𝑖 = 1 = 𝑝𝑖 = • Dla każdej obserwacji 𝑖 ∈ 1, … , 𝑛 możemy wyznaczyć wartość teoretyczną 𝑝𝑖 - prognozę ex post (oraz oczywiście prognozy dla obserwacji spoza próby) Na podstawie prognozy prawdopodobieństwa wyznaczmy prognozy 𝑦𝑖 : • – – • • oraz 𝑃 𝑦𝑖 = 0 = 1 − 𝑝𝑖 = 1+𝑒 𝑧𝑖 Na podstawi zasady standardowej stosowanej przy próbie zbilansowanej (kiedy częstość obserwacji 𝑦𝑖 = 1 jest bliska 0.5) – przyjmujemy, że 𝑦𝑖 = 1 dla 𝑝𝑖 ≥ 0.5 oraz 𝑦𝑖 = 0 dla 𝑝𝑖 < 0.5 – jest to standardowa konstrukcja tablicy trafień w Gretlu (niezależnie od stopnia zbilansowania próby) Na podstawie zasady Cramera stosowanej przy próbie niezbilansowanej (kiedy częstość obserwacji 𝑦𝑖 = 1 jest w ogólności równa 𝛿) – przyjmujemy, że 𝑦𝑖 = 1 dla 𝑝𝑖 ≥ 𝛿 oraz 𝑦𝑖 = 0 dla 𝑝𝑖 < 𝛿 Zliczamy przypadki, kiedy prognozy dla 𝑦𝑖 pokrywają się lub nie pokrywają się z wartościami w próbie 𝒚=𝟏 𝒚=𝟎 𝒓𝒂𝒛𝒆𝒎 𝐲=𝟏 𝑛11 𝑛10 𝑛1 . 𝐲=𝟎 𝑛01 𝑛00 𝑛0 . 𝒓𝒂𝒛𝒆𝒎 𝑛.1 𝑛.0 𝑛 Zliczeniowy 𝑅 2 (count-𝑅 2 ) jest miarą trafności prognoz ex post - jest to udział trafnych prognoz w łącznej liczbie obserwacji 𝑛 𝑛11 + 𝑛00 𝑐𝑜𝑢𝑛𝑡 − 𝑅 2 = 𝑛 Przykłady modeli dla „innych” zmiennych objaśnianych • Zmienne binarne – model probitowy – opiera się na innej funkcji gęstości – rozkładu normalnego – Między oszacowaniami parametrów zachodzi przybliżona relacja: 𝛽𝑙𝑜𝑔𝑖𝑡 ≈ 𝛾𝛽𝑝𝑟𝑜𝑏𝑖𝑡 , gdzie 𝛾 ∈ 1.6; 1.7 • Zmienne ograniczone – mają ciągły charakter, ale ich zakres jest ograniczony (często poprzez warunek nieujemności lub konstrukcję próby statystycznej) – Model Tobitowy, stosuje się dla prób uciętych, kiedy dane na temat zmiennych zależnych dostępne są wówczas, gdy obserwuje się zmienną zależną