Zastosowanie modelu regresji logistycznej w ocenie ryzyka

Transkrypt

Zastosowanie modelu regresji logistycznej w ocenie ryzyka
Zastosowanie modelu
regresji logistycznej
w ocenie ryzyka
ubezpieczeniowego
Łukasz Kończyk WMS AGH
Plan prezentacji
•
•
•
•
Model regresji liniowej
Uogólniony model liniowy (GLM)
Ryzyko ubezpieczeniowe
Przykład zastosowania w ubezpieczeniach
Model regresji liniowej
Y- wektor obserwacji zmiennej zależnej (objaśnianej) wymiaru n
X- macierz zmiennych niezależnych (objaśniających) wymiaru n(k+1)
- wektor nieznanych parametrów wymiaru (k+1)
- wektor błędów losowych wymiaru n
Dla pojedynczej obserwacji
i-ty błąd losowy
i-ta obserwacja
Obserwacje zmiennych niezależnych
Wyraz wolny
Współczynniki modelu
Model regresji liniowej
Założenia modelu:
•
•
•
•
Elementy macierzy X są ustalonymi liczbami
rzeczywistymi.
Zmienne objaśniające nie są współliniowe.
Liczba obserwacji jest większa od liczby parametrów
modelu, czyli r(X)=k+1<n.
Błędy losowe i dla 1in są niezależnymi zmiennymi
losowymi o rozkładzie normalnym N(0,2).
Wniosek: yi mają rozkład normalny N(0+1x1i+…+kxki+i, 2)
Dlaczego uogólniamy model?
1. Zmienna objaśniana nie musi mieć rozkładu
normalnego.
2. Zmienna nie musi być określona na całej
prostej rzeczywistej. Może również
przyjmować wartości dyskretne. Również
zmienne objaśniane mogą być dyskretne.
3. Związek wartości oczekiwanej zmiennej
objaśnianej i zmiennych objaśnianych nie
musi być liniowy.
Uogólniony model liniowy
g() - funkcja wiążąca,
yi – i-ta wartość zmiennej zależnej, 1in
j – współczynniki modelu, 0jk,
xji – zaobserwowane wartości zmiennych
niezależnych dla i-tej obserwacji.
Założenia modelu GLM
• Funkcja wiążąca g() jest monotoniczna i
gładka.
• Rozkład zmiennej yi powinien należeć do
rodziny wykładniczej, tj. gęstość ma
postać:
Funkcja wiążąca
• Jeśli funkcja wiążąca jest
identycznością, to mamy model liniowy.
• Jeśli funkcja wiążąca ma postać
to mówimy, że jest to kanoniczna
funkcja wiążąca.
Przykłady modeli GLM
• yi ma rozkład B(1,p),
funkcję wiążącą nazywamy funkcją logitową.
wartość oczekiwaną, czyli p, możemy wyznaczyć jako
• Dla tego samego modelu możemy użyć innej funkcji
wiążącej, mianowicie
. Jest to model
probitowy, a prawdopodobieństwo p szacujemy przez
Przykłady modeli GLM
• yi ma rozkład Poiss(),
model ten nazywamy modelem log-liniowym, a
parametr rozkładu estymujemy przez
• yi ma rozkład Exp(),
parametr rozkładu estymujemy przez
,
,
Szczegóły techniczne ;)
• Współczynniki modelu GLM j otrzymujemy metodą
największej wiarogodności. W modelu liniowym
wykorzystuje się metodę najmniejszych kwadratów.
• Równania wiarogodności najczęściej mają mało
przyjemną postać, stosujemy więc metody iteracyjne
rozwiązywania równań nieliniowych, np. metodę
scoringu Fishera
Dopasowanie modelu
• Do badania dopasowania modelu do danych może
posłużyć kryterium Akaike
AIC=-2(L-k)
L- zmaksymalizowany logarytm funkcji wiarogodności
k- liczba parametrów w modelu
Regresja logistyczna
• Stosujemy ją, gdy chcemy oszacować
prawdopodobieństwo zajścia zdarzenia, czyli
modelujemy prawdopodobieństwo p w w rozkładzie
Bernoulliego z jedną próbą (oczywiście wartość
oczekiwana rozkładu wynosi p).
• Funkcja wiążąca
Zastosowanie
• Najczęściej stosowany model GLM
• Biologia: szacowanie prawdopodobieństwa
zachorowania na chorobę i wyszczególnienie czynników
wpływających na prawdopodobieństwo.
• Farmakologia: prawdopodobieństwo zadziałania
metody leczenia i czynniki wpływające na jej
powodzenie.
• Bankowość: metoda scoringu kredytowego, jest to
ocena wiarygodności podmiotu starającego się o
kredyt. Przedstawiany w postaci punktowej.
Zastosowanie w
ubezpieczeniach
• Narzędzie stosowane przez aktuariuszy do oceny
ryzyka ubezpieczeniowego.
• Szacowanie prawdopodobieństwa zgonu lub przeżycia
w ubezpieczeniach na życie w zależności od cech
demograficznych.
• Model czasem wykorzystywany jest w celu wykrycia
wyłudzeń ubezpieczenia (np. ubezpieczenia
komunikacyjne).
Ryzyko ubezpieczeniowe
Ryzykiem ubezpieczeniowym nazywamy możliwość
wystąpienia określonego zdarzenia losowego, wypadku
lub szkody.
Ocena ryzyka ubezpieczeniowego polega na zbadaniu
określonego wniosku ubezpieczeniowego (wraz z
załącznikami) i ustaleniu czy nie występuje
ponadprzeciętne zagrożenie. Na podstawie badania
następuje zakwalifikowanie wniosku i ustalenie
wielkości składek lub jego odrzucenie.
Model ryzyka łącznego
Zmienna określająca liczbę szkód, które nastąpiły w
wyniku zdarzenia, ma rozkład dyskretny
Zmienne
wyrażające
wartość
pojedynczej
szkody, zmienne
niezależne
Zmienna oznaczająca
łączną wartość szkód
Przykład
• Zbiór danych autoCar z biblioteki insuranceData
programu R (oryginalne źródło: de Jong P., Heller G.Z.,
Generelized Linear Models for Insurance Data,
Cambrigde University Press).
• Dane zawierają 67856 polis na ubezpieczenia
pojazdów.
• Dane pochodzą z Australii z lat 2004-05.
Opis zmiennych










veh_value – wartość pojazdu podana w 10 000$
exposure- ekspozycja na ryzyko ubezpieczonego (od 0 do 1)
szkoda- zmienna binarna oznaczająca zaistniałą szkodę
liczszk- liczba zaistniałych szkód
wieksam- grupa wiekowa samochodu
wiekkier- grupa wiekowa kierowcy
claimcst0- wartość zaistniałych szkód
veh_body- typ pojazdu
gender- płeć kierowcy
area- region, w którym zarejestrowany jest samochód
Koniec!
Dziękuję za uwagę ;)