Zastosowanie modelu regresji logistycznej w ocenie ryzyka
Transkrypt
Zastosowanie modelu regresji logistycznej w ocenie ryzyka
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji • • • • Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład zastosowania w ubezpieczeniach Model regresji liniowej Y- wektor obserwacji zmiennej zależnej (objaśnianej) wymiaru n X- macierz zmiennych niezależnych (objaśniających) wymiaru n(k+1) - wektor nieznanych parametrów wymiaru (k+1) - wektor błędów losowych wymiaru n Dla pojedynczej obserwacji i-ty błąd losowy i-ta obserwacja Obserwacje zmiennych niezależnych Wyraz wolny Współczynniki modelu Model regresji liniowej Założenia modelu: • • • • Elementy macierzy X są ustalonymi liczbami rzeczywistymi. Zmienne objaśniające nie są współliniowe. Liczba obserwacji jest większa od liczby parametrów modelu, czyli r(X)=k+1<n. Błędy losowe i dla 1in są niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,2). Wniosek: yi mają rozkład normalny N(0+1x1i+…+kxki+i, 2) Dlaczego uogólniamy model? 1. Zmienna objaśniana nie musi mieć rozkładu normalnego. 2. Zmienna nie musi być określona na całej prostej rzeczywistej. Może również przyjmować wartości dyskretne. Również zmienne objaśniane mogą być dyskretne. 3. Związek wartości oczekiwanej zmiennej objaśnianej i zmiennych objaśnianych nie musi być liniowy. Uogólniony model liniowy g() - funkcja wiążąca, yi – i-ta wartość zmiennej zależnej, 1in j – współczynniki modelu, 0jk, xji – zaobserwowane wartości zmiennych niezależnych dla i-tej obserwacji. Założenia modelu GLM • Funkcja wiążąca g() jest monotoniczna i gładka. • Rozkład zmiennej yi powinien należeć do rodziny wykładniczej, tj. gęstość ma postać: Funkcja wiążąca • Jeśli funkcja wiążąca jest identycznością, to mamy model liniowy. • Jeśli funkcja wiążąca ma postać to mówimy, że jest to kanoniczna funkcja wiążąca. Przykłady modeli GLM • yi ma rozkład B(1,p), funkcję wiążącą nazywamy funkcją logitową. wartość oczekiwaną, czyli p, możemy wyznaczyć jako • Dla tego samego modelu możemy użyć innej funkcji wiążącej, mianowicie . Jest to model probitowy, a prawdopodobieństwo p szacujemy przez Przykłady modeli GLM • yi ma rozkład Poiss(), model ten nazywamy modelem log-liniowym, a parametr rozkładu estymujemy przez • yi ma rozkład Exp(), parametr rozkładu estymujemy przez , , Szczegóły techniczne ;) • Współczynniki modelu GLM j otrzymujemy metodą największej wiarogodności. W modelu liniowym wykorzystuje się metodę najmniejszych kwadratów. • Równania wiarogodności najczęściej mają mało przyjemną postać, stosujemy więc metody iteracyjne rozwiązywania równań nieliniowych, np. metodę scoringu Fishera Dopasowanie modelu • Do badania dopasowania modelu do danych może posłużyć kryterium Akaike AIC=-2(L-k) L- zmaksymalizowany logarytm funkcji wiarogodności k- liczba parametrów w modelu Regresja logistyczna • Stosujemy ją, gdy chcemy oszacować prawdopodobieństwo zajścia zdarzenia, czyli modelujemy prawdopodobieństwo p w w rozkładzie Bernoulliego z jedną próbą (oczywiście wartość oczekiwana rozkładu wynosi p). • Funkcja wiążąca Zastosowanie • Najczęściej stosowany model GLM • Biologia: szacowanie prawdopodobieństwa zachorowania na chorobę i wyszczególnienie czynników wpływających na prawdopodobieństwo. • Farmakologia: prawdopodobieństwo zadziałania metody leczenia i czynniki wpływające na jej powodzenie. • Bankowość: metoda scoringu kredytowego, jest to ocena wiarygodności podmiotu starającego się o kredyt. Przedstawiany w postaci punktowej. Zastosowanie w ubezpieczeniach • Narzędzie stosowane przez aktuariuszy do oceny ryzyka ubezpieczeniowego. • Szacowanie prawdopodobieństwa zgonu lub przeżycia w ubezpieczeniach na życie w zależności od cech demograficznych. • Model czasem wykorzystywany jest w celu wykrycia wyłudzeń ubezpieczenia (np. ubezpieczenia komunikacyjne). Ryzyko ubezpieczeniowe Ryzykiem ubezpieczeniowym nazywamy możliwość wystąpienia określonego zdarzenia losowego, wypadku lub szkody. Ocena ryzyka ubezpieczeniowego polega na zbadaniu określonego wniosku ubezpieczeniowego (wraz z załącznikami) i ustaleniu czy nie występuje ponadprzeciętne zagrożenie. Na podstawie badania następuje zakwalifikowanie wniosku i ustalenie wielkości składek lub jego odrzucenie. Model ryzyka łącznego Zmienna określająca liczbę szkód, które nastąpiły w wyniku zdarzenia, ma rozkład dyskretny Zmienne wyrażające wartość pojedynczej szkody, zmienne niezależne Zmienna oznaczająca łączną wartość szkód Przykład • Zbiór danych autoCar z biblioteki insuranceData programu R (oryginalne źródło: de Jong P., Heller G.Z., Generelized Linear Models for Insurance Data, Cambrigde University Press). • Dane zawierają 67856 polis na ubezpieczenia pojazdów. • Dane pochodzą z Australii z lat 2004-05. Opis zmiennych veh_value – wartość pojazdu podana w 10 000$ exposure- ekspozycja na ryzyko ubezpieczonego (od 0 do 1) szkoda- zmienna binarna oznaczająca zaistniałą szkodę liczszk- liczba zaistniałych szkód wieksam- grupa wiekowa samochodu wiekkier- grupa wiekowa kierowcy claimcst0- wartość zaistniałych szkód veh_body- typ pojazdu gender- płeć kierowcy area- region, w którym zarejestrowany jest samochód Koniec! Dziękuję za uwagę ;)