Aleksandra Maj
Transkrypt
Aleksandra Maj
Wybór modelu liniowego poprzez jednoczesne usuwanie zmiennych ciągłych i łączenie poziomów zmiennych czynnikowych Aleksandra Maj-Kańska1 , Agnieszka Prochenka1 , Piotr Pokarowski2 1 Instytut Podstaw Informatyki, Polskiej Akademii Nauk Matematyki Stosowanej i Mechaniki, Uniwersytetu Warszawskiego 2 Instytut 2 grudnia 2013 Badanie zrealizowano dzięki stypendium naukowemu w ramach Projektu pt.: ”Technologie informacyjne: badania i ich interdyscyplinarne zastosowania” zrealizowanego ze środków ze środków Unii Europejskiej w ramach Europejskiego Funudszu Społecznego, Program Operacyjny Kapitał Ludzki, umowa nr UDA-POKL.04.01.01-00-051/10-00 Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Motywacja Zbiór danych Cars93 (R biblioteka MASS), 81 obserwacji: 7 zmiennych czynnikowych - 16 parametrów; 15 zmiennych ciągłych - 15 pararmetrów. CEL: Znaleźć model dla spalania: MPG ∼ Type + Cylinders + Weight + ... + EngineSize PROBLEM: Redukcja liczby parametróW. Rozważamy dwie możliwości: usunięcie zmiennej ciągłej:. βEngineSize = 0, złączenie dwóch poziomów faktora: βType:Large = βType:Small . Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Motywacja 95% family−wise confidence level 4−3 Prównanie średnich w grupach: 5−3 tradycyjne wielokrotne porównania: β4 = β5 , β5 = β6 , ale β4 6= β6 6−3 8−3 5−4 6−4 nowa metoda selekcji modelu: β4 = β5 , β5 = β6 ⇒ β4 = β6 8−4 6−5 8−5 0.2 0.0 −0.2 −0.4 −0.6 −0.8 −1.0 8−6 Differences in mean levels of Cylinders Tukey HSD Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Postać modelu liniowego Model z n obserwacjami i p < n parametrami: y = X β + ε = 1n β00 + X0 β0 + X1 β1 + . . . + Xl βl + ε, gdzie: ε ∼ N (0, σ 2 In ); X = [1n , X0 , X1 , . . . , Xl ] macierz modelu, gdzie: X0 macierz dla ciągłych regresorów; X1 , . . . , Xl macierze 0-1 kodujące poziomy faktorów; β = [β00 , β0T , β1T , . . . , βlT ]T ; p = 1 + p0 + (p1 − 1) + . . . + (pl − 1). Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Modele osiągalne Modelem osiągalnym nazywamy ciąg M = (C , P1 , ..., Pl ), gdzie: C oznacza podzbiór zbioru zmiennych ciągłych; Pk jest podziałem zbioru poziomów dla k-tego faktora. Celem jest wyznaczenie najlepszego wg kryterium BIC modelu osiągalnego. Ponieważ liczba takich modeli osiągalnych rośnie wykładniczo wraz z p, aby znacząco zmniejszyć ilość obliczeń, proponujemy zachłanną metodę selekcji. Każdy model osiągalny można jednoznacznie zakodować za pomocą zbioru hipotez liniowych następującej postaci: Hik : βik = 0, dla każdego i, k; Hijk : βik = βjk , dla każdego i, j oraz k > 0. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Algorytm DMR (Delete or Merge Regressors) 1 2 Wykonaj rozkład QR macierzy modelu pełnego. Dla k-tego faktora, k ∈ {1, . . . , l}, wykonaj klasteryzację hierarchiczną z miarą odleglości: kwadraty t-statystyk dla hipotez Hik dla każdego i; kwadraty t-statystyk dla hipotez Hijk dla każdego i, j > 1; 3 4 5 6 Wyznacz wysokości cięć dendrogramów hk . Wyznacz kwadraty t-statystyk dla hipotez Hi0 dla zmiennych ciągłych otrzymując h0 . Połącz wszystkie wysokości cięć: h = [h0T , h1T , . . . , hkT ]T i posortuj rosnąco: h = [h(1) , . . . , h(p) ]T . Dla i = 1, . . . , p zaakceptuj hipotezę odpowiadającą h(i) : usuń (delete) zmienną ciągłą lub połącz (merge) poziomy faktora. Wybierz model minimalizujący BIC na ścieżce zagnieżdżonych p modeli. DMR uogólnia algorytmy: X.Zheng, W.-Y.Loh, JASA 1995 i A.Ciampi et al., Pattern Anal Appl, 2008. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Porównanie DMR i innych metod CAS-ANOVA (H.Bondell, B.Reich, Biometrics, 2009): l h X 2 b β = argminβ ky − X βk + λ X (km) wj i |βkj − βmj | , j=1 1≤k<m≤pj pj X βkj = 0 dla j = 1, . . . , l, k=1 gdzie λ > 0 jest stałą wybraną przez BIC. gvcm (M.-R. Oelker, J.Gertheiss, G. Tutz, 2012): h βb = argminβ −logLik(β)+λ p X X j=0 |βjr − βjs | + bj r >s Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... pj X r =1 ! |βjr | i Eksperyment, opis modelu Zmienna objaśniana jest generowana z modelu: y = β00 1n + X1 β1 + X2 β2 + X3 β3 + ε = = 2·1n +X1 (0, −3, −3, −3, −3, −2, −2)T +X2 (0, 0, 0)T +X3 (0, 0)T +ε = = Z1 α1 + Z2 α2 + Z3 α3 + ε = = Z1 (2, 2, −1, −1, −1, −1, 0, 0)T +Z2 (0, 0, 0, 0)T +Z3 (0, 0, 0)T +ε, gdzie Xi jest Zi z usuniętą pierwszą kolumną dla i = 1, 2, 3 oraz ε ∼ N (0, In ). 1000 powtórzeń, 3 scenariusze: k obserwacji dla każdej kombinacji poziomów, k = 1, 2, 4; liczba obserwacji n = k · (8 · 4 · 3) = k · 96. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Eksperyment, błędy selekcji i predykcji n 96 192 384 Algorytm DMR ffs BIC CAS-ANOVA gvcm stepBIC DMR ffs BIC CAS-ANOVA gvcm stepBIC DMR ffs BIC CAS-ANOVA gvcm stepBIC TM(%) 43 43 17 0 0 68 70 32 1 0 78 78 47 2 0 MSEP±sd 1.09±.18 1.09±.17 1.09±.17 1.1±.17 1.08±.16 1.03±.11 1.03±.11 1.04±.11 1.04±.11 1.04±.11 1.01±.07 1.01±.07 1.02±.08 1.02±.08 1.02±.08 MD±sd 3.5±.7 3.5±.7 4.8±1.7 7.5±1.8 8±.3 3.3±.6 3.3±.5 4.3±1.3 7.1±1.8 8±.3 3.2±.5 3.3±.5 3.9±1.1 6.6±1.8 8±.1 Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Eksperyment, czasy wykonań Czasy wykonań podzielone przez czas wykonania lm.fit: k 1 4 20 n 96 384 1920 DMR 87 36 19 ffs BIC 883 526 394 CAS-ANOVA1 234 89 21 gvcm1 250 245 739 1 stepBIC 71 31 16 Wynik dla pojedyńczej wartości λ. Domyślnie siatka lambd ma długość 50 dla CAS-ANOVY i 5001 dla gvcm. Widać, że DMR jest nawet kilkaset razy szybszy niż inne metody. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Eksperyment, klasteryzacja 7 8 3 4 5 6 5 4 1 3 2 4 0 2 1 2 3 4 1 0 1 2 3 4 3 2 1 0 Factor 3 5 Factor 2 5 Factor 1 Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... 1 2 3 Eksperyment, Bayes factors Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Teoretyczne zalety DMR DMR jest szybki i asymptotycznie zgodny: Złożoność obliczeniowa algorytmu DMR jest rzędu O(np 2 ). Dominującą operacją jest rozkład QR macierzy pełnego modelu. Zakładając, że minimalny model prawdziwy Mtrue jest osiągalny oraz n1 X T X → Σ > 0 dla n → ∞. (Mtrue ) y = Xtrue βtrue + ε, gdzie Xtrue powstała poprzez usunięcie lub połączenie kolumn macierzy modelu pelnego X . Zachodzi: 1 2 P(DMR = Mtrue ) → 1 dla n → ∞, √ n(β̂true (DMR) − βtrue ) → N (0, σ 2 Σ−1 true ), T gdzie Σtrue = limn→∞ n1 Xtrue Xtrue . Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Podsumowanie DMR Algorytm: jednoczesne usuwanie zmiennych ciągłych i łączenie poziomów faktorów; klasteryzacja hierarchiczna predyktorów oparta na kwadratach t-statystyk dla hipotez liniowych; selekcja modelu oparta na BIC w zagnieżdżonej rodzinie modeli. Teoria: złożoność obliczeniowa taka jak dla rozkładu QR macierzy modelu pełnego; zgodna selekcja. Symulacje: kilkadziesiąt razy szybszy przy dokładniejszej selekcji niż CAS-ANOVA. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors... Bibliografia CIAMPI, A., LECHEVALLIER, Y., LIMAS, M.C., MARCOS A.G. (2008). Hierarchical clustering of subpopulations with a dissimilarity based on the likelihood ratio statistic: application to clustering massive data sets. Pattern Anal Appl 11 199-220. BONDELL, H.D. and REICH, B.J. (2009). Simultaneous factor selection and collapsing levels in anova. Biometrics 65 169-177. OELKER, M.-R., GERTHEISS, J., TUTZ, G. (2012). Regularization and Model Selection with Categorial Predictors and Effect Modifiers in Generalized Linear Models. Department of Statistics, University of Munich. ZHENG, X. and LOH, W.-Y. (1995). Consistent variable selection in linear models. Journal of the American Statistical Association 90 151-156. Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors...