notatki c.d.

Transkrypt

notatki c.d.
Walidacja modelu logitowego z użyciem krzywej ROC i indeksu Giniego
Dzielimy obserwacje na dwa zbiory: zbiór uczący (inna nazwa: zbiór treningowy) i zbiór
testowy. Na podstawie obserwacji ze zbioru uczącego dokonujemy estymacji parametrów modelu
logitowego. Zbiór testowy posłuży nam do oceny, jak dobrze wyestymowany przez nas model
logitowy pozwala przewidywać prawdopodobieństwo sukcesu.
 0, 1,  , k−1
 ' oznacza estymator największej wiarogodności wektora
Niech =
parametrów =0, 1,  , k−1 ' obliczony na podstawie zbioru uczącego. Niech
k −1
S  a=a ' =∑ a j  j , gdzie a=a 0, a 1,  , a k −1 ' jest wektorem wartości zmiennych
j=0
niezależnych, przy których dokonujemy prognozy. Liczbę S a  będziemy nazywali punktami dla
wartości zmiennych niezależnych a 0, a 1,  , a k −1 .
Oznaczmy przez n liczbę elementów zbioru testowego. Niech a 1 , a 2 , , a n i
 1
 2
n
będą odpowiadającymi sobie wektorami zmiennych niezależnych i wartościami
Y , Y ,  ,Y
zmiennych zależnych dla zbioru testowego, przy czym elementy zbioru testowego numerujemy w
kolejności rosnącej przypadających im punktów tzn. jeśli 0i jn , to S a i S a  j  .
Niech g =∣{i :Y  i=1}∣ i b=∣{i: Y i =0}∣ . Jasnym jest, że g b=n . Niech
1
1
 j
i 
 j
 j
 i
 j
Gi= ∣{ j : S a S a ∧Y =1}∣ i B i= ∣{ j : S  a S a ∧Y =0}∣ , 1in ,
g
b
1
nadto G 0= B0=0 i G n1=B n1=1 . Łamaną o wierzchołkach {G i , B i}ni=0
będziemy nazywali krzywą ROC w opisanym problemie. Krzywa ROC zawiera się w kwadracie o
wierzchołkach w punktach (0,0), (1,0), (1,1) i (0,1). Zauważmy, że model tym lepiej oddziela
obserwacje z sukcesem i z porażką, im krzywa ROC jest bliżej odcinków o końcach w punktach
(0,0) i (0,1) oraz (0,1) i (1,1). Łatwo widać, że przy założeniu, iż cała krzywa ROC znajduje się
powyżej odcinka o końcach w punktach (0,0) i (1,1), to, jaka część trójkąta o wierzchołkach w
punktach (0,0), (0,1) i (1,1) leży poniżej krzywej ROC, można obliczyć w następujący sposób
(wykorzystując wzór na pole trapezu):
n
∑ 12 Gi1−G i⋅ Bi1 Bi− 12 n
i =0
=∑ Gi1−G i⋅ Bi1Bi−1
1
i=0
2
lub inaczej:
n0
1
1
−∑ Gi1G i⋅ Bi1− Bi
n
2 i=0 2
=1−∑ G i1Gi⋅ B i1−B i .
1
i =0
2
Powyższe wyrażenie będziemy nazywali indeksem Giniego w opisanym problemie (a wzór –
wzorem Browna). Im indeks Giniego jest bliży 1, tym prognoza na podstawie wyestymowanego
modelu jest lepsza, natomiast im jest mniejszy, tym prognoza na podstawie wyestymowanego
modelu jest gorsza.
Można rzucić okiem na strony 13-14 (w wydruku 39-40) w niniejszym opracowaniu:
http://www.statsoft.pl/Portals/0/Downloads/Ocena_modeli_skoringowych_w_SKOK_Stefczyka.pdf
, jednak jest to tylko poglądowa ilustracja, na podstawie której niewiele można ustalić.

Podobne dokumenty