Wojciech Skwirz [email protected]
Transkrypt
Wojciech Skwirz [email protected]
Wojciech Skwirz [email protected] 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. Wojciech Skwirz [email protected] Wojciech Skwirz [email protected] 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania empirycznego 4. Podsumowanie i wnioski Wojciech Skwirz [email protected] 3 Czas szacowania modeli • Liczba zmiennych objaśniających: p=200 • Liczba kombinacji: 2p − 1 • Czas szacowania 1 modelu: t = 0,0001 s Czas obliczeń: Od Big Bang minęło: 𝑇 ≈ 5 ∗ 1048 lat ~14 ∗ 109 lat Wojciech Skwirz [email protected] 4 Metoda podziału i ograniczeń 𝐼0 - pełen model 𝐼1 𝐼2 𝐼3 𝐼4 Zmienne objaśniające: 𝑧1 , 𝑧2 , 𝑧3 , 𝑧4 , 𝑧5 𝐼𝑛 - instancja 𝐼5 𝑓 𝐼𝑛 - wartość funkcji celu 𝐼12 𝐼13 𝐼14 𝐼15 𝐼12 𝐼14 𝐼13 𝐼15 𝑓 𝐼0 = ℬ ℬ - upper bound 𝑓 𝐼1 ≤ ℬ eksploruj 𝐼1 𝐼132 𝐼134 𝐼135 𝐼132 𝐼134 𝐼135 Wojciech Skwirz [email protected] 5 Funkcja celu • Regresja liniowa: RSS • Regresja logistyczna: score Chi-kwadrat 𝑆 = 𝑈 2 𝟎 ∗ 𝐼 −1 𝟎 𝜕 log 𝐿 𝜷|𝑿 𝑈 𝜷 = − score 𝜕𝜷 𝐼𝑛 𝜷 = 𝐸𝜷 𝜕 log 𝑓 𝑥1 , … , 𝑥𝑛 𝜕𝜷 2 − informacja Fishera Wojciech Skwirz [email protected] 6 Wady i zalety Zalety: + szybkość działania + możliwość uzyskania określonej liczby najlepszych modeli danej klasy + brak zachłanności Wady: – wykładnicza złożoność obliczeniowa – możliwość zapętlenia algorytmu – heurystyka Wojciech Skwirz [email protected] 7 Regularyzacja Regularyzacja L2 – regresja grzbietowa Regularyzacja L1 – regresja lasso Regularyzacja elastic net Wojciech Skwirz [email protected] 8 Idea regularyzacji Funkcja straty zależna od jakości prognoz modelu 𝛬 𝜷 Funkcja kary na wartości parametrów Wojciech Skwirz [email protected] 9 Regresja grzbietowa 1943 r. Andriej Tohinow 1970 r. Arthur Hoerl i Robert Kennard 𝜷𝑀𝑁𝐾 = 𝑿𝑇 𝑿 −1 𝑿𝑇 𝒚 𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑿𝑇 𝑿 + 𝜞𝑇 𝜞 −1 Wojciech Skwirz [email protected] 𝑿𝑇 𝒚 10 Regresja grzbietowa = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝛽 Wojciech Skwirz [email protected] 11 Regresja grzbietowa 𝑝 𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 + 𝜆2 𝛽 𝛽𝑗 𝑗=1 𝑝 𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤. 𝛽 Wojciech Skwirz [email protected] 2 𝛽𝑗 2 ≤ 𝑡2 𝑗=1 12 Regresja lasso Wojciech Skwirz [email protected] 13 Regularyzacja elastic net • Dobór zmiennych wbudowany w proces estymacji • Algorytm działa nawet wtedy, gdy liczba obserwacji jest mniejsza niż liczba predyktorów • Do modeli włączane są wiązki zmiennych objaśniających Wojciech Skwirz [email protected] 14 Regularyzacja elastic net Wojciech Skwirz [email protected] 15 Porównanie regularyzacji 𝑛 𝜷𝑀𝑁𝐾 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝛽 𝑦𝑖 − 𝛽0 − 𝛽 𝑗=1 𝑛 𝑝 𝑦𝑖 − 𝛽0 − 𝜷𝐸𝑁 𝑗=1 𝑛 𝑝 𝑦𝑖 − 𝛽0 − 𝛽 𝑗=1 𝑛 𝑝 𝑦𝑖 − 𝛽0 − 𝑖=1 𝑝 + 𝜆2 𝛽𝑗 2 𝑗=1 2 𝛽𝑗 𝑥𝑖𝑗 𝑖=1 = 𝑎𝑟𝑔𝑚𝑖𝑛 2 𝛽𝑗 𝑥𝑖𝑗 𝑖=1 𝜷𝑙𝑎𝑠𝑠𝑜 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝛽 𝛽𝑗 𝑥𝑖𝑗 𝑖=1 𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 2 𝑝 𝑝 + 𝜆1 𝛽𝑗 𝑗=1 2 𝛽𝑗 𝑥𝑖𝑗 𝑝 + 𝜆1 𝑗=1 Wojciech Skwirz [email protected] 𝑝 𝛽𝑗 + 𝜆2 𝑗=1 𝛽𝑗 2 𝑗=1 16 Regresja grzbietowa 𝒑 𝜷𝑟𝑖𝑑𝑔𝑒 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤. 𝛽 𝜷𝒋 𝟐 ≤ 𝒕𝟐 𝒋=𝟏 Wojciech Skwirz [email protected] 17 Regresja lasso 𝒑 𝜷𝑙𝑎𝑠𝑠𝑜 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 𝑝. 𝑤. 𝛽 𝜷 𝒋 ≤ 𝒕𝟏 𝒋=𝟏 Wojciech Skwirz [email protected] 18 Elastic net 𝑝 𝜷𝐸𝑁 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑆𝑆 + 𝜆 𝛼 𝛽 𝑝 𝛽𝑗 + 1 − 𝛼 𝑗=1 Wojciech Skwirz [email protected] 𝛽𝑗 2 𝑗=1 19 Badanie empiryczne Cel Porównanie modeli zbudowanych na zmiennych otrzymanych z algorytmu podziału i ograniczeń z modelami regularyzacyjnymi. Wojciech Skwirz [email protected] 20 Badanie empiryczne • Regresja logistyczna - modele prawdopodobieństwa defaultu kredytów gotówkowych w fazie behawioralnej • Około 800 tys. obserwacji • 218 zmiennych objaśniających Wojciech Skwirz [email protected] 21 Ewolucja ryzyka portfela 40% 35% 30% 25% 20% 15% 10% 1980-01 1985-01 Okno obserwacji 1990-01 1995-01 2000-01 2005-01 Długoterminowa średnia w oknie obserwacji Wojciech Skwirz [email protected] 2010-01 Default rate 22 Przebieg modelowania • Podział zbioru na treningowy / walidacyjny w proporcji 70/30 • Kategoryzacja zmiennych na podstawie entropii • Obliczenie standaryzowanych logitów Wojciech Skwirz [email protected] 23 Kryteria porównań • Moc predykcyjna: indeks Giniego statystyka Hosmera-Lemeshowa statystyka Kołmogorowa-Smirnowa Brier Score • Współliniowość predyktorów: Variance Inflation Factor Condition Index • Czas estymacji Wojciech Skwirz [email protected] 24 Oszacowane modele • Rozmiar: od 5 do 13 predyktorów • Algorytm branch and bound: 100 najlepszych zestawów zmiennych • Regresja lasso: 100 modeli dla różnych wartości parametru lambda • Elastic net: różne wartości lambda, różne wartości alfa – dla każdej kombinacji 100 modeli Wojciech Skwirz [email protected] 25 Oszacowane modele • Branch and bound – 900 modeli • Regresja lasso – 900 modeli • Regularyzacja elastic net – 14400 modeli Wojciech Skwirz [email protected] 26 Indeks Giniego Wojciech Skwirz [email protected] 27 Statystyka Kołmogorowa-Smirnowa Wojciech Skwirz [email protected] 28 Statystyka Hosmera-Lemeshowa Wojciech Skwirz [email protected] 29 Brier Score Wojciech Skwirz [email protected] 30 Indeks Giniego na zbiorze treningowym 75% Indeks Giniego 70% 65% 60% 55% 50% 5 6 7 8 9 10 11 Liczba zmiennych objaśniających w modelu Branch Lasso 12 13 Elastic net Wojciech Skwirz [email protected] 31 Współliniowość Metoda Liczba modeli ze współliniowością Statystyka Zakres wartości Branch and bound VIF 2 1 – 10 Lasso VIF 900 46 – 1000 Elastic net VIF 900 46 – 4000 Branch and bound CI 0 1–7 Lasso CI 900 20 – 400 Elastic net CI 900 20 - 100 Wojciech Skwirz [email protected] 32 Porównanie czasów budowy modeli 350 0,0020 300 0,0018 Czas estymacji (s) 0,0014 200 0,0012 150 0,0010 100 Czas estymacji (s) 0,0016 250 0,0008 50 0,0006 0 0,0004 5 6 7 8 9 10 11 12 13 Liczba zmiennych objaśniających w modelu Branch Lasso Elastic net Wojciech Skwirz [email protected] 33 Dodatkowe modele • 12 modeli regresji grzbietowej • Parametr lambda od 1 ∗ 10−4 do 1 ∗ 10−15 • Im parametr lambda większy, tym silniejsze ograniczenie regularyzacyjne • 10800 dodatkowych modeli Wojciech Skwirz [email protected] 34 Maksymalna różnica w indeksie Giniego Różnica w wartości indeksu Giniego 0,00003 0,00002 0,00001 0 5 6 7 8 9 10 11 12 13 -0,00001 -0,00002 -0,00003 -0,00004 Zbiór treningowy Zbiór walidacyjny Wojciech Skwirz [email protected] 35 Współczynnik korelacji liniowej Pearsona -0,64 5 6 7 8 9 10 11 12 13 -0,66 Współczynnik korelacji -0,68 -0,7 -0,72 -0,74 -0,76 -0,78 -0,8 Zbiór treningowy Zbiór walidacyjny Wojciech Skwirz [email protected] 36 Podsumowanie i wnioski Modele branch and bound: Większa moc predykcyjna i brak współliniowości. Modele regularyzacyjne: Krótszy czas estymacji. Tradycyjna statystyka działa Wojciech Skwirz [email protected] 37 Dziękuję za uwagę Wojciech Skwirz [email protected] Wojciech Skwirz [email protected] 38