Wojciech Skwirz [email protected]

Transkrypt

Wojciech Skwirz [email protected]
Wojciech Skwirz
[email protected]
1
Regularyzacja jako metoda doboru
zmiennych objaśniających do
modelu statystycznego.
Wojciech Skwirz
[email protected]
Wojciech Skwirz
[email protected]
2
Plan prezentacji
1. Wstęp
2. Część teoretyczna
- Algorytm podziału i ograniczeń
- Regularyzacja
3. Opis wyników badania empirycznego
4. Podsumowanie i wnioski
Wojciech Skwirz
[email protected]
3
Czas szacowania modeli
• Liczba zmiennych objaśniających: p=200
• Liczba kombinacji: 2p − 1
• Czas szacowania 1 modelu: t = 0,0001 s
Czas obliczeń:
Od Big Bang minęło:
𝑇 ≈ 5 ∗ 1048 lat
~14 ∗ 109 lat
Wojciech Skwirz
[email protected]
4
Metoda podziału i ograniczeń
𝐼0 - pełen model
𝐼1
𝐼2
𝐼3
𝐼4
Zmienne objaśniające:
𝑧1 , 𝑧2 , 𝑧3 , 𝑧4 , 𝑧5
𝐼𝑛 - instancja
𝐼5
𝑓 𝐼𝑛 - wartość funkcji celu
𝐼12
𝐼13
𝐼14
𝐼15
𝐼12
𝐼14
𝐼13
𝐼15
𝑓 𝐼0 = ℬ
ℬ - upper bound
𝑓 𝐼1 ≤ ℬ  eksploruj 𝐼1
𝐼132 𝐼134 𝐼135
𝐼132 𝐼134 𝐼135
Wojciech Skwirz
[email protected]
5
Funkcja celu
• Regresja liniowa: RSS
• Regresja logistyczna: score Chi-kwadrat
𝑆 = 𝑈 2 𝟎 ∗ 𝐼 −1 𝟎
𝜕 log 𝐿 𝜷|𝑿
𝑈 𝜷 =
− score
𝜕𝜷
𝐼𝑛 𝜷 = 𝐸𝜷
𝜕
log 𝑓 𝑥1 , … , 𝑥𝑛
𝜕𝜷
2
− informacja Fishera
Wojciech Skwirz
[email protected]
6
Wady i zalety
Zalety:
+ szybkość działania
+ możliwość uzyskania określonej liczby najlepszych
modeli danej klasy
+ brak zachłanności
Wady:
– wykładnicza złożoność obliczeniowa
– możliwość zapętlenia algorytmu
– heurystyka
Wojciech Skwirz
[email protected]
7
Regularyzacja
Regularyzacja L2 – regresja grzbietowa
Regularyzacja L1 – regresja lasso
Regularyzacja elastic net
Wojciech Skwirz
[email protected]
8
Idea regularyzacji
Funkcja straty zależna od jakości prognoz modelu
𝛬 𝜷
Funkcja kary na wartości parametrów
Wojciech Skwirz
[email protected]
9
Regresja grzbietowa
1943 r. Andriej Tohinow
1970 r. Arthur Hoerl i Robert Kennard
𝜷𝑀𝑁𝐾 = 𝑿𝑇 𝑿
−1 𝑿𝑇 𝒚
𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑿𝑇 𝑿 + 𝜞𝑇 𝜞
−1
Wojciech Skwirz
[email protected]
𝑿𝑇 𝒚
10
Regresja grzbietowa
= 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆
𝛽
Wojciech Skwirz
[email protected]
11
Regresja grzbietowa
𝑝
𝜷𝑟𝑖𝑑𝑔𝑒
= 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 + 𝜆2
𝛽
𝛽𝑗
𝑗=1
𝑝
𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤.
𝛽
Wojciech Skwirz
[email protected]
2
𝛽𝑗
2
≤ 𝑡2
𝑗=1
12
Regresja lasso
Wojciech Skwirz
[email protected]
13
Regularyzacja elastic net
• Dobór zmiennych wbudowany w proces estymacji
• Algorytm działa nawet wtedy, gdy liczba
obserwacji jest mniejsza niż liczba predyktorów
• Do modeli włączane są wiązki zmiennych
objaśniających
Wojciech Skwirz
[email protected]
14
Regularyzacja elastic net
Wojciech Skwirz
[email protected]
15
Porównanie regularyzacji
𝑛
𝜷𝑀𝑁𝐾 = 𝑎𝑟𝑔𝑚𝑖𝑛
𝛽
𝑦𝑖 − 𝛽0 −
𝛽
𝑗=1
𝑛
𝑝
𝑦𝑖 − 𝛽0 −
𝜷𝐸𝑁
𝑗=1
𝑛
𝑝
𝑦𝑖 − 𝛽0 −
𝛽
𝑗=1
𝑛
𝑝
𝑦𝑖 − 𝛽0 −
𝑖=1
𝑝
+ 𝜆2
𝛽𝑗
2
𝑗=1
2
𝛽𝑗 𝑥𝑖𝑗
𝑖=1
= 𝑎𝑟𝑔𝑚𝑖𝑛
2
𝛽𝑗 𝑥𝑖𝑗
𝑖=1
𝜷𝑙𝑎𝑠𝑠𝑜 = 𝑎𝑟𝑔𝑚𝑖𝑛
𝛽
𝛽𝑗 𝑥𝑖𝑗
𝑖=1
𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛
2
𝑝
𝑝
+ 𝜆1
𝛽𝑗
𝑗=1
2
𝛽𝑗 𝑥𝑖𝑗
𝑝
+ 𝜆1
𝑗=1
Wojciech Skwirz
[email protected]
𝑝
𝛽𝑗 + 𝜆2
𝑗=1
𝛽𝑗
2
𝑗=1
16
Regresja grzbietowa
𝒑
𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤.
𝛽
𝜷𝒋
𝟐
≤ 𝒕𝟐
𝒋=𝟏
Wojciech Skwirz
[email protected]
17
Regresja lasso
𝒑
𝜷𝑙𝑎𝑠𝑠𝑜 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤.
𝛽
𝜷 𝒋 ≤ 𝒕𝟏
𝒋=𝟏
Wojciech Skwirz
[email protected]
18
Elastic net
𝑝
𝜷𝐸𝑁 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 + 𝜆 𝛼
𝛽
𝑝
𝛽𝑗 + 1 − 𝛼
𝑗=1
Wojciech Skwirz
[email protected]
𝛽𝑗
2
𝑗=1
19
Badanie empiryczne
Cel
Porównanie modeli zbudowanych na
zmiennych otrzymanych z algorytmu podziału
i ograniczeń z modelami regularyzacyjnymi.
Wojciech Skwirz
[email protected]
20
Badanie empiryczne
• Regresja logistyczna - modele
prawdopodobieństwa defaultu kredytów
gotówkowych w fazie behawioralnej
• Około 800 tys. obserwacji
• 218 zmiennych objaśniających
Wojciech Skwirz
[email protected]
21
Ewolucja ryzyka portfela
40%
35%
30%
25%
20%
15%
10%
1980-01
1985-01
Okno obserwacji
1990-01
1995-01
2000-01
2005-01
Długoterminowa średnia w oknie obserwacji
Wojciech Skwirz
[email protected]
2010-01
Default rate
22
Przebieg modelowania
• Podział zbioru na treningowy / walidacyjny w
proporcji 70/30
• Kategoryzacja zmiennych na podstawie
entropii
• Obliczenie standaryzowanych logitów
Wojciech Skwirz
[email protected]
23
Kryteria porównań
• Moc predykcyjna:




indeks Giniego
statystyka Hosmera-Lemeshowa
statystyka Kołmogorowa-Smirnowa
Brier Score
• Współliniowość predyktorów:


Variance Inflation Factor
Condition Index
• Czas estymacji
Wojciech Skwirz
[email protected]
24
Oszacowane modele
• Rozmiar: od 5 do 13 predyktorów
• Algorytm branch and bound: 100 najlepszych
zestawów zmiennych
• Regresja lasso: 100 modeli dla różnych
wartości parametru lambda
• Elastic net: różne wartości lambda, różne
wartości alfa – dla każdej kombinacji 100
modeli
Wojciech Skwirz
[email protected]
25
Oszacowane modele
• Branch and bound – 900 modeli
• Regresja lasso – 900 modeli
• Regularyzacja elastic net – 14400 modeli
Wojciech Skwirz
[email protected]
26
Indeks Giniego
Wojciech Skwirz
[email protected]
27
Statystyka Kołmogorowa-Smirnowa
Wojciech Skwirz
[email protected]
28
Statystyka Hosmera-Lemeshowa
Wojciech Skwirz
[email protected]
29
Brier Score
Wojciech Skwirz
[email protected]
30
Indeks Giniego na zbiorze treningowym
75%
Indeks Giniego
70%
65%
60%
55%
50%
5
6
7
8
9
10
11
Liczba zmiennych objaśniających w modelu
Branch
Lasso
12
13
Elastic net
Wojciech Skwirz
[email protected]
31
Współliniowość
Metoda
Liczba modeli ze
współliniowością
Statystyka
Zakres
wartości
Branch and bound
VIF
2
1 – 10
Lasso
VIF
900
46 – 1000
Elastic net
VIF
900
46 – 4000
Branch and bound
CI
0
1–7
Lasso
CI
900
20 – 400
Elastic net
CI
900
20 - 100
Wojciech Skwirz
[email protected]
32
Porównanie czasów budowy modeli
350
0,0020
300
0,0018
Czas estymacji (s)
0,0014
200
0,0012
150
0,0010
100
Czas estymacji (s)
0,0016
250
0,0008
50
0,0006
0
0,0004
5
6
7
8
9
10
11
12
13
Liczba zmiennych objaśniających w modelu
Branch
Lasso
Elastic net
Wojciech Skwirz
[email protected]
33
Dodatkowe modele
• 12 modeli regresji grzbietowej
• Parametr lambda od 1 ∗ 10−4 do 1 ∗ 10−15
• Im parametr lambda większy, tym silniejsze
ograniczenie regularyzacyjne
• 10800 dodatkowych modeli
Wojciech Skwirz
[email protected]
34
Maksymalna różnica w indeksie Giniego
Różnica w wartości indeksu Giniego
0,00003
0,00002
0,00001
0
5
6
7
8
9
10
11
12
13
-0,00001
-0,00002
-0,00003
-0,00004
Zbiór treningowy
Zbiór walidacyjny
Wojciech Skwirz
[email protected]
35
Współczynnik korelacji liniowej Pearsona
-0,64
5
6
7
8
9
10
11
12
13
-0,66
Współczynnik korelacji
-0,68
-0,7
-0,72
-0,74
-0,76
-0,78
-0,8
Zbiór treningowy
Zbiór walidacyjny
Wojciech Skwirz
[email protected]
36
Podsumowanie i wnioski
Modele branch and bound:
Większa moc predykcyjna i brak współliniowości.
Modele regularyzacyjne:
Krótszy czas estymacji.
Tradycyjna statystyka działa
Wojciech Skwirz
[email protected]
37
Dziękuję za uwagę
Wojciech Skwirz
[email protected]
Wojciech Skwirz
[email protected]
38

Podobne dokumenty