notatki c.d.
Transkrypt
notatki c.d.
Walidacja modelu logitowego z użyciem krzywej ROC i indeksu Giniego Dzielimy obserwacje na dwa zbiory: zbiór uczący (inna nazwa: zbiór treningowy) i zbiór testowy. Na podstawie obserwacji ze zbioru uczącego dokonujemy estymacji parametrów modelu logitowego. Zbiór testowy posłuży nam do oceny, jak dobrze wyestymowany przez nas model logitowy pozwala przewidywać prawdopodobieństwo sukcesu. 0, 1, , k−1 ' oznacza estymator największej wiarogodności wektora Niech = parametrów =0, 1, , k−1 ' obliczony na podstawie zbioru uczącego. Niech k −1 S a=a ' =∑ a j j , gdzie a=a 0, a 1, , a k −1 ' jest wektorem wartości zmiennych j=0 niezależnych, przy których dokonujemy prognozy. Liczbę S a będziemy nazywali punktami dla wartości zmiennych niezależnych a 0, a 1, , a k −1 . Oznaczmy przez n liczbę elementów zbioru testowego. Niech a 1 , a 2 , , a n i 1 2 n będą odpowiadającymi sobie wektorami zmiennych niezależnych i wartościami Y , Y , ,Y zmiennych zależnych dla zbioru testowego, przy czym elementy zbioru testowego numerujemy w kolejności rosnącej przypadających im punktów tzn. jeśli 0i jn , to S a i S a j . Niech g =∣{i :Y i=1}∣ i b=∣{i: Y i =0}∣ . Jasnym jest, że g b=n . Niech 1 1 j i j j i j Gi= ∣{ j : S a S a ∧Y =1}∣ i B i= ∣{ j : S a S a ∧Y =0}∣ , 1in , g b 1 nadto G 0= B0=0 i G n1=B n1=1 . Łamaną o wierzchołkach {G i , B i}ni=0 będziemy nazywali krzywą ROC w opisanym problemie. Krzywa ROC zawiera się w kwadracie o wierzchołkach w punktach (0,0), (1,0), (1,1) i (0,1). Zauważmy, że model tym lepiej oddziela obserwacje z sukcesem i z porażką, im krzywa ROC jest bliżej odcinków o końcach w punktach (0,0) i (0,1) oraz (0,1) i (1,1). Łatwo widać, że przy założeniu, iż cała krzywa ROC znajduje się powyżej odcinka o końcach w punktach (0,0) i (1,1), to, jaka część trójkąta o wierzchołkach w punktach (0,0), (0,1) i (1,1) leży poniżej krzywej ROC, można obliczyć w następujący sposób (wykorzystując wzór na pole trapezu): n ∑ 12 Gi1−G i⋅ Bi1 Bi− 12 n i =0 =∑ Gi1−G i⋅ Bi1Bi−1 1 i=0 2 lub inaczej: n0 1 1 −∑ Gi1G i⋅ Bi1− Bi n 2 i=0 2 =1−∑ G i1Gi⋅ B i1−B i . 1 i =0 2 Powyższe wyrażenie będziemy nazywali indeksem Giniego w opisanym problemie (a wzór – wzorem Browna). Im indeks Giniego jest bliży 1, tym prognoza na podstawie wyestymowanego modelu jest lepsza, natomiast im jest mniejszy, tym prognoza na podstawie wyestymowanego modelu jest gorsza. Można rzucić okiem na strony 13-14 (w wydruku 39-40) w niniejszym opracowaniu: http://www.statsoft.pl/Portals/0/Downloads/Ocena_modeli_skoringowych_w_SKOK_Stefczyka.pdf , jednak jest to tylko poglądowa ilustracja, na podstawie której niewiele można ustalić.