Wykład - modele zmiennych jakościowych
Transkrypt
Wykład - modele zmiennych jakościowych
D. Ciołek Modelowanie procesów i wspomaganie decyzji finansowych Temat: Modele zmiennych jakościowych dr Dorota Ciołek Katedra Ekonometrii Wydział Zarządzania UG http://wzr.pl/dc [email protected] 1 D. Ciołek Zmienne jakościowe w roli zmiennych objaśnianych Zmienne dwumianowe - binarne – dychotomiczne: typu TAK/NIE np. firma ogłosiła upadłość lub nie firma jest w złej lub dobrej kondycji finansowej spółka jest lub nie jest celem przejęcia firma prowadzi działalność eksportową lub nie itp. Konstruuje się tzw. modele zmiennej dwumianowej modele wyboru binarnego (binary choice model) modele danych binarnych (binary response model) Narzędzia ekonometryczne: Linowy model prawdopodobieństwa Model probitowy Model logitowy Komplementarny model log-log 2 D. Ciołek Zmienne jakościowe w roli zmiennych objaśnianych Zmienne wielomianowe – takie, które mają wiele kategorii (wiele wariantów), charakteryzujących się naturalnym uporządkowaniem np. w badaniu sondażowym – gdy firma nie chce ujawnić swoich wyników sprzedażowych może odpowiedzieć na pytanie: czy sprzedaż wzrosła, pozostała na tym samym poziomie , czy spadła lub w analizie sytuacji firmy czy notowania giełdowe w określonym czasie: spadły, nie zmieniły się, wzrosły pomiar cech niemierzalnych w badaniach ankietowych: preferencje, poglądy, zadowolenie, czy ocena: satysfakcja z pracy pracownika (bardzo niezadowolony, trochę niezadowolony, neutralny, w miarę zadowolony, bardzo zadowolony) zmienne przedziałowe – badany nie zawsze chce (a zazwyczaj nie chce) określić dokładną wysokość swojego dochodu – prosimy o wskazanie jednego z wymienionych przedziałów miejsce w rankingu – ranking najlepszych uczelni, odpowiedź na polecenia: proszę uszeregować wyróżnione marki samochodów od najbardziej prestiżowych do najmniej prestiżowych 3 D. Ciołek Cele modelowania zmiennej dwumianowej 1) Prognoza wartości zmiennej Y dla konkretnego zestawu zmiennych objaśniających – dokonanie klasyfikacji nowego obiektu (warunek: znamy wartości cech, które są czynnikami objaśniającymi) 2) Prognoza prawdopodobieństwa zdarzenia lub wystąpienia stanu polegającego na tym, że zmienna Y przyjmie wartość 1 3) Prognoza zmiany prawdopodobieństwa P(y=1) wywołanej zmianą wartości jednej ze zmiennych objaśniających – odpowiedź na pytanie, Jak analizowana zmienna jakościowa reaguje na zmiany czynników objaśniających? Określenie ważności poszczególnych czynników objaśniających. 4) Ustalenie czynników, które są istotne dla określenia prawdopodob. P(y=1) w danej zbiorowości. 5) Weryfikacja hipotezy na temat mechanizmu generującego wartości zmiennej Y. Co jest ważne, a co jest nieistotne? 6) Konstrukcja funkcji zmiennych X pozwalającej rozróżnić (dyskryminować) dwie grupy należące do danej zbiorowości: jedną z y=1 oraz drugą z y=0 4 D. Ciołek Model logitowy - założenia Binarna zmienna Y może przyjąć dwie wartości: yi 1 lub yi 0 Załóżmy, że prawdopodobieństwo P( yi 1) pi oraz P( yi 0) 1 pi Rozkład prawdopodobieństwa zmiennej Y to zerojedynkowy rozkład Bernoulliego Funkcja prawdopodobieństwa w tym rozkładzie jest następująca: f ( yi ) piyi 1 pi 1 yi dla yi 0,1 W modelu logitowym wyjaśniamy, jak określone zmienne X wpływają na zmienną Y, a dokładnie na prawdopodobieństwo pi . To pi reprezentuje swego rodzaju skłonność danego osobnika lub danej jednostki do podejmowania decyzji lub przyjmowania stanu odpowiadającego wartości y=1. Dotyczy to zarówno jednostek świadomie podejmujących decyzję jak i tych, które trafiają do danej kategorii, nie decydując o tym. 5 D. Ciołek Model logitowy - definicja Raczej nie wykorzystuje się klasycznej regresji liniowej (Liniowego Modelu Prawdopodobieństwa) ponieważ wartości teoretyczne wyliczone z takiego modelu mogą znajdować się poza przedziałem <0,1> - niezgodne z logika prawdopodobieństwa. Korzysta się z rozkładu logistycznego, którego dystrybuanta to: pi 1 1 e W modelu logitowym zmienną objaśnianą jest tzw. logit: logit ( pi ) ln ( xi ' ) pi 1 pi logarytm ilorazu szans przyjęcia oraz nieprzyjęcia wartości 1 przez zmienną y Logit zapisuje się jako liniowa funkcję zmiennych objaśniających X: logit ( pi ) 0 1 X 1i 2 X 2i ... k X ki i Metoda estymacji: Metoda Największej Wiarygodności (Maximum Likelihood Estimation)6 D. Ciołek Weryfikacja modelu – sprawdzenie adekwatności modelu Istotność statystyczna poszczególnych parametrów – statystyka z o rozkładzie normalnym N(0,1) Istotność całego modelu – test ilorazu wiarygodności Hipoteza zerowa w tym teście mówi, że wszystkie parametry przy zmiennych równają się zero, czyli, że prawdziwy jest model tylko z wyrazem wolnym. Normalność rozkładu reszt Dopasowanie modelu do danych rzeczywistych: - pseudo-R2 (np. R2 McFaddena) – wyższe wartości świadczą o lepszym dopasowaniu - tablica trafności - krzywa ROC (a dokładniej pole powierzchni pod krzywą ROC – więcej niż 0,5 oznacza klasyfikację lepszą niż losowa) - kryterium Akaike’a (AIC) – do porównania różnych modeli 7 D. Ciołek Ocena dobroci dopasowania modelu Tablica trafności : wszystkie przypadki z wartościami przewidywanymi (prawdopodobieństwami) mniejszymi lub równymi 0,5 są zaklasyfikowane jako y=0, te z wartościami przewidywanymi większymi od 0,5 jako y=1. iloraz szans (Statistica) oblicza się jako stosunek iloczynu poprawnie zaklasyfikowanych przypadków do iloczynu niepoprawnie zaklasyfikowanych przypadków. ilorazy szans większe od 1 wskazują, że klasyfikacja jest lepsza od klasyfikacji losowej. im większy iloraz szans tym lepiej dopasowany model. procent trafnych prognoz (% poprawnych) – liczba wszystkich trafnych klasyfikacji do liczby wszystkich przypadków razy 100 – tzw. zliczeniowy R2 8 D. Ciołek Interpretacja wyników oszacowania Jaka jest wrażliwość prawdopodobieństwa pi na zmienne objaśniające? 1) Znak oszacowania parametru przy danej zmiennej X określa kierunek wpływu X na Y (dodatni – wzrost szans, ujemny – spadek szans). 2) Efekty krańcowe należy wyliczyć oddzielnie dla określonej wartości zmiennych objaśniających – zależy od warunków początkowych. 3) tzw. ilorazy szans (odds ratio) – exp()-1 mówi o ile procent wzrasta prawdopodobieństwo sukcesu (Y=1) jeżeli zmienna przez tym parametrze wzrośnie o jednostkę. 4) Wyliczając wartości teoretyczne (wartości przewidywane) możemy określić prawdopodobieństwo sukcesu (Y=1) dla poszczególnych przypadków. 9 D. Ciołek Dobór próby do modelu logitowego Model opisuje na ogół zjawiska (Y=1), dla których częstość występowania zdecydowanie różni się od 50%. Np.: - N1 firm jest zagrożonych finansowo (Y=1) - N2 firm nie jest zagrożonych finansowo (Y=0). W tym przypadku N1 jest diametralnie mniejsza niż N2. Najczęściej w celu zapewnienia wyrazistości próby spośród obu grup firm losujemy n1 i n2 jednostek w taki sposób, aby zapewnić n1=n2. Oznacza to, że próba nie jest losowa lecz jest to tzw. próba dobierana. Proponowane są dwa rozwiązania: Ważony estymator parametrów (estymator Manskiego-Lermana) Wystarczy jedynie korekta wyrazu wolnego (Maddala 1983) 10 D. Ciołek Modelowanie zagrożenia finansowego i bankructwa Istotność problemu Dyrektywa Bazylei II - modele scoringu kredytowego uznane zostały za narzędzia przewidywania - modele prawdopodobieństwa niewypłacalności (PD: probability of default) - szacowania straty związanej z niewypłacalnością (LGD: loss given default) Szeroka gama podejść metodycznych daje instytucjom finansowym dużo możliwości wyboru dla swoich wewnętrznych systemów ratingu, które to systemy są zalecane w dyrektywie bazylejskiej. (Altman, Hotchkiss 2007) W dyrektywie Bazylei III, która powstała w efekcie światowego kryzysu, kładzie się jeszcze większy nacisk na własne bankowe systemy oceny ryzyka – szczególnie w obliczu wielu przypadków 11 niepoprawnych ocen dokonywanych przez agencje ratingowe. D. Ciołek Metody oceny ryzyka upadłości Klasyczna analiza wskaźnikowa jednowymiarowa Analiza dyskryminacyjna: np. Z-score Altmana Mikroekonometria finansowa – analiza logitowa: - modele dwumianowe - modele wielomianowe Modele czasu trwania (duration) Sieci neuronowe Drzewa decyzyjne, klasyfikacyjne Teoria chaosu Algorytmy genetyczne 12 D. Ciołek Zagrożenie finansowe (financial distress, corporate insolvency) * Całkowite zdrowie przedsiębiorstwa – sytuacja najlepsza * Zagrożenie finansowe – sytuacja pośrednia * Upadłość (bankructwo) - sytuacja ostateczna Kategoria płynna i dynamiczna Brak obiektywnej miary takiego zagrożenia Należy wyraźnie rozdzielić modelowanie upadłości od modelowania zagrożenia finansowego 13 D. Ciołek Zagrożenie upadłości a upadłość W sytuacji bankructwa lub wniosku o ustalenie bankructwa rzecz jest zero-jedynkowa – złożenie formalnego wniosku o upadłość Wniosek o upadłość wcale nie oznacza, że firma faktycznie kwalifikuje się do upadłości – ostatnio coraz częściej upadłość jest sposobem na przetrwanie/uratowanie/przekształcenie/zmianę własności W Polsce definiuje się tzw. „upadłość na własne życzenie” – szacuje się, że jedynie 10% upadłości w Polsce to bankructwa faktyczne. Badania zagrożenia finansowego powinno być znacznie ważniejsze niż badanie upadłości: Firma zagrożona finansowo – określone prawdopodobieństwo zaprzestania działalności i dalszego funkcjonowania Firma określona przez sąd jako upadała – przestaje działać, ale perspektywy jej dalszego funkcjonowania mogą być całkiem dobre. 14 D. Ciołek Metoda określenia zagrożenia/niewydolności finansowej Problemy finansowe – trudno jednoznacznie ustalić (pomijając nawet problem zatajania faktycznego stanu) W literaturze spotyka się od 2 do 5 stanów zagrożenia finansowego Odmienna definicja zmiennej objaśnianej – model dwumianowy lub wielomianowy uporządkowany Pytanie: W jaki sposób „mierzyć zagrożenie finansowe – gdzie leży punkt odcięcia pomiędzy firmą z kłopotami a firmą bez kłopotów? 15 D. Ciołek Przykład 1: Platt i Platt (2006) Model dwumianowy: yi=1 jeżeli i-ta firma jest finansowo zagrożona yi=0 jeżeli i-ta firma jest finansowo zdrowa Punkt odcięcia pomiędzy firmą zagrożoną a nie zagrożoną: jednocześnie ujemne wartości EBITDA, EBIT i zysku netto Próba składała się z 276 firm zagrożonych i 1127 firm pozostałych Informacje o firmach z lat 1999 i 2000 Pięć zmiennych objaśniających: 1. rentowność sprzedaży = (zysk netto+amortyzacja)/sprzedaż 2. rentowność aktywów = EBITDA/aktywa ogółem 3. stopa zadłużenia = bieżąca rata kapitałowa zadłużania długookresowego/aktywa ogółem 4. zdolność spłaty odsetek = zysk netto skorygowany/odsetki 5. Stopa wysokiej płynności = (majątek obrotowy – zapasy)/ zobowiązania krótkoterminowe 16 D. Ciołek Przykład 1: cd Wymienione czynniki objaśniające obliczono jako odchylenia od średnich wartości wskaźników w każdej z 14 analizowanych branż – co w pewnym stopniu pozwoliło uchwycić zróżnicowanie pomiędzy branżami (specyfikę poszczególnych branż). Ze znaków oszacowań parametrów wynika, że: Zagrożenie finansowe jest mniejsze przy: - większych przepływach pieniężnych - większym operacyjnym zysku - większym pokryciem odsetek Zagrożenie finansowe jest większe przy: - większym lewarowaniu - większej płynności 17 D. Ciołek Ograniczenia Badania statystyczno-ekonometryczne opierają się na próbach statystycznych, które nie odzwierciedlają sytuacji bieżącej, ale sytuację sprzed jakiegoś czasu – wnioski mają operacyjne opóźnienie. Oznacza to, że gdyby na podstawie takiego badania podejmować szybkie decyzje operacyjne (na przykład decyzje inwestycyjne), takie decyzje mogą nie być trafne. Dlatego korzystne w przypadku modeli upadłości warto wykorzystać dane o zmiennych objaśniających z okresów poprzedzających: prawdopodobieństwo upadłości firmy w roku t może być objaśnione za pomocą zmiennych objaśniających z roku poprzedniego (t-1) z przed dwóch lat (t-2) lub z przed trzech lat (t-3). 18 D. Ciołek Przykład 2: Ciesielski (2005) Próba 120 firm, z których 60 sklasyfikowano jako upadłe (orzeczenia sądowe bankructwa ogłoszone w „Monitorze Sądowym i Gospodarczym”) Informacje o tych firmach pochodziły z lat 2000-2002 Próba podzielona na część bazową (40 bankrutów i 40 niebankrutów) oraz część walidacyjną (kontrolnej) (20 bankrutów i 20 niebankrutów) Zmienne objaśniające: PMO – wskaźnik pokrycia majątku obrotowego kapitałem krótkoterminowym (rezerwy i zobowiązania krótkoterminowe/aktywa obrotowe NKA – nadwyżka/niedobór kapitału obrotowego dzielona przez aktywa ogółem KA – wskaźnik udziału kapitału obrotowego w finansowaniu aktywów ogółem (kapitał obrotowy/suma aktywów) BP – wskaźnik bieżącej płynności finansowej RZ – rotacja zobowiązań 19 D. Ciołek Przykład 2: Ciesielski (2005) cd OZ – wskaźnik ogólnego zadłużenia (zobowiązania ogółem/aktywa ogółem) PO – wskaźnik pokrycia odsetek zyskiem WO – wskaźnik wydajności operacyjnej majątku ogółem (przepływy pieniężne z działalności operacyjnej netto/aktywa ogółem) ROA – wskaźnik rentowności majątku KWA – wskaźnik pokrycia majątku kapitałem własnym (kapitał własny plus zobowiązania długoterminowe/aktywa ogółem). Model był szacowany dla wielu różnych kombinacji zmiennych objaśniających. Wybrano te, które okazały się najlepiej przyporządkowywać firmy, które znalazły się w grupie walidacyjnej (najlepszy: 83%). 20