Aleksandra Maj

Transkrypt

Aleksandra Maj

Wybór modelu liniowego poprzez jednoczesne
usuwanie zmiennych ciągłych i łączenie poziomów
zmiennych czynnikowych
Aleksandra Maj-Kańska1 , Agnieszka Prochenka1 ,
Piotr Pokarowski2
1 Instytut
Podstaw Informatyki, Polskiej Akademii Nauk
Matematyki Stosowanej i Mechaniki,
Uniwersytetu Warszawskiego
2 Instytut
2 grudnia 2013
Badanie zrealizowano dzięki stypendium naukowemu w ramach Projektu pt.: ”Technologie informacyjne: badania i
ich interdyscyplinarne zastosowania” zrealizowanego ze środków ze środków Unii Europejskiej w ramach
Europejskiego Funudszu Społecznego, Program Operacyjny Kapitał Ludzki, umowa nr
UDA-POKL.04.01.01-00-051/10-00
Aleksandra Maj-Kańska, Agnieszka Prochenka, Piotr Pokarowski Delete or Merge Regressors...
Motywacja
Zbiór danych Cars93 (R biblioteka MASS), 81 obserwacji:
7 zmiennych czynnikowych - 16 parametrów;
15 zmiennych ciągłych - 15 pararmetrów.
CEL: Znaleźć model dla spalania:
MPG ∼ Type + Cylinders + Weight + ... + EngineSize
PROBLEM: Redukcja liczby parametróW.
Rozważamy dwie możliwości:
usunięcie zmiennej ciągłej:. βEngineSize = 0,
złączenie dwóch poziomów faktora: βType:Large = βType:Small .
Motywacja
95% family−wise confidence level
4−3
Prównanie średnich w grupach:
5−3
tradycyjne wielokrotne
porównania:
β4 = β5 , β5 = β6 , ale β4 6= β6
6−3
8−3
5−4
6−4
nowa metoda selekcji
modelu:
β4 = β5 , β5 = β6 ⇒ β4 = β6
8−4
6−5
8−5
0.2
0.0
−0.2
−0.4
−0.6
−0.8
−1.0
8−6
Differences in mean levels of Cylinders
Tukey HSD
Postać modelu liniowego
Model z n obserwacjami i p < n parametrami:
y = X β + ε = 1n β00 + X0 β0 + X1 β1 + . . . + Xl βl + ε,
gdzie:
ε ∼ N (0, σ 2 In );
X = [1n , X0 , X1 , . . . , Xl ] macierz modelu, gdzie:
X0 macierz dla ciągłych regresorów;
X1 , . . . , Xl macierze 0-1 kodujące poziomy faktorów;
β = [β00 , β0T , β1T , . . . , βlT ]T ;
p = 1 + p0 + (p1 − 1) + . . . + (pl − 1).
Modele osiągalne
Modelem osiągalnym nazywamy ciąg M = (C , P1 , ..., Pl ), gdzie:
C oznacza podzbiór zbioru zmiennych ciągłych;
Pk jest podziałem zbioru poziomów dla k-tego faktora.
Celem jest wyznaczenie najlepszego wg kryterium BIC modelu
osiągalnego. Ponieważ liczba takich modeli osiągalnych rośnie
wykładniczo wraz z p, aby znacząco zmniejszyć ilość obliczeń,
proponujemy zachłanną metodę selekcji.
Każdy model osiągalny można jednoznacznie zakodować za
pomocą zbioru hipotez liniowych następującej postaci:
Hik : βik = 0, dla każdego i, k;
Hijk : βik = βjk , dla każdego i, j oraz k > 0.
Algorytm DMR (Delete or Merge Regressors)
1
2
Wykonaj rozkład QR macierzy modelu pełnego.
Dla k-tego faktora, k ∈ {1, . . . , l}, wykonaj klasteryzację
hierarchiczną z miarą odleglości:
kwadraty t-statystyk dla hipotez Hik dla każdego i;
kwadraty t-statystyk dla hipotez Hijk dla każdego i, j > 1;
3
4
5
6
Wyznacz wysokości cięć dendrogramów hk .
Wyznacz kwadraty t-statystyk dla hipotez Hi0 dla zmiennych
ciągłych otrzymując h0 .
Połącz wszystkie wysokości cięć: h = [h0T , h1T , . . . , hkT ]T i
posortuj rosnąco: h = [h(1) , . . . , h(p) ]T .
Dla i = 1, . . . , p zaakceptuj hipotezę odpowiadającą h(i) : usuń
(delete) zmienną ciągłą lub połącz (merge) poziomy faktora.
Wybierz model minimalizujący BIC na ścieżce zagnieżdżonych
p modeli.
DMR uogólnia algorytmy: X.Zheng, W.-Y.Loh, JASA 1995 i
A.Ciampi et al., Pattern Anal Appl, 2008.
Porównanie DMR i innych metod
CAS-ANOVA (H.Bondell, B.Reich, Biometrics, 2009):
l
h
X
2
b
β = argminβ ky − X βk + λ
X
(km)
wj
i
|βkj − βmj | ,
j=1 1≤k<m≤pj
pj
X
βkj = 0 dla j = 1, . . . , l,
k=1
gdzie λ > 0 jest stałą wybraną przez BIC.
gvcm (M.-R. Oelker, J.Gertheiss, G. Tutz, 2012):
h
βb = argminβ −logLik(β)+λ
p
X
X
j=0
|βjr − βjs | + bj
r >s
pj
X
r =1
!
|βjr |
i
Eksperyment, opis modelu
Zmienna objaśniana jest generowana z modelu:
y = β00 1n + X1 β1 + X2 β2 + X3 β3 + ε =
= 2·1n +X1 (0, −3, −3, −3, −3, −2, −2)T +X2 (0, 0, 0)T +X3 (0, 0)T +ε =
= Z1 α1 + Z2 α2 + Z3 α3 + ε =
= Z1 (2, 2, −1, −1, −1, −1, 0, 0)T +Z2 (0, 0, 0, 0)T +Z3 (0, 0, 0)T +ε,
gdzie Xi jest Zi z usuniętą pierwszą kolumną dla i = 1, 2, 3 oraz
ε ∼ N (0, In ).
1000 powtórzeń, 3 scenariusze:
k obserwacji dla każdej kombinacji poziomów, k = 1, 2, 4;
liczba obserwacji n = k · (8 · 4 · 3) = k · 96.
Eksperyment, błędy selekcji i predykcji
n
96
192
384
Algorytm
DMR
ffs BIC
CAS-ANOVA
gvcm
stepBIC
DMR
ffs BIC
CAS-ANOVA
gvcm
stepBIC
DMR
ffs BIC
CAS-ANOVA
gvcm
stepBIC
TM(%)
43
43
17
0
0
68
70
32
1
0
78
78
47
2
0
MSEP±sd
1.09±.18
1.09±.17
1.09±.17
1.1±.17
1.08±.16
1.03±.11
1.03±.11
1.04±.11
1.04±.11
1.04±.11
1.01±.07
1.01±.07
1.02±.08
1.02±.08
1.02±.08
MD±sd
3.5±.7
3.5±.7
4.8±1.7
7.5±1.8
8±.3
3.3±.6
3.3±.5
4.3±1.3
7.1±1.8
8±.3
3.2±.5
3.3±.5
3.9±1.1
6.6±1.8
8±.1
Eksperyment, czasy wykonań
Czasy wykonań podzielone przez czas wykonania lm.fit:
k
1
4
20
n
96
384
1920
DMR
87
36
19
ffs BIC
883
526
394
CAS-ANOVA1
234
89
21
gvcm1
250
245
739
1
stepBIC
71
31
16
Wynik dla pojedyńczej wartości λ. Domyślnie siatka lambd ma
długość 50 dla CAS-ANOVY i 5001 dla gvcm. Widać, że DMR jest
nawet kilkaset razy szybszy niż inne metody.
Eksperyment, klasteryzacja
7
8
3
4
5
6
5
4
1
3
2
4
0
2
1
2
3
4
1
0
1
2
3
4
3
2
1
0
Factor 3
5
Factor 2
5
Factor 1
1
2
3
Eksperyment, Bayes factors
Teoretyczne zalety DMR
DMR jest szybki i asymptotycznie zgodny:
Złożoność obliczeniowa algorytmu DMR jest rzędu O(np 2 ).
Dominującą operacją jest rozkład QR macierzy pełnego
modelu.
Zakładając, że minimalny model prawdziwy Mtrue jest
osiągalny oraz n1 X T X → Σ > 0 dla n → ∞.
(Mtrue )
y = Xtrue βtrue + ε,
gdzie Xtrue powstała poprzez usunięcie lub połączenie kolumn
macierzy modelu pelnego X . Zachodzi:
1
2
P(DMR
= Mtrue ) → 1 dla n → ∞,
√
n(β̂true (DMR) − βtrue ) → N (0, σ 2 Σ−1
true ),
T
gdzie Σtrue = limn→∞ n1 Xtrue
Xtrue .
Podsumowanie DMR
Algorytm:
jednoczesne usuwanie zmiennych ciągłych i łączenie poziomów
faktorów;
klasteryzacja hierarchiczna predyktorów oparta na kwadratach
t-statystyk dla hipotez liniowych;
selekcja modelu oparta na BIC w zagnieżdżonej rodzinie
modeli.
Teoria:
złożoność obliczeniowa taka jak dla rozkładu QR macierzy
modelu pełnego;
zgodna selekcja.
Symulacje:
kilkadziesiąt razy szybszy przy dokładniejszej selekcji niż
CAS-ANOVA.
Bibliografia
CIAMPI, A., LECHEVALLIER, Y., LIMAS, M.C., MARCOS
A.G. (2008). Hierarchical clustering of subpopulations with a
dissimilarity based on the likelihood ratio statistic: application
to clustering massive data sets. Pattern Anal Appl 11 199-220.
BONDELL, H.D. and REICH, B.J. (2009). Simultaneous
factor selection and collapsing levels in anova. Biometrics 65
169-177.
OELKER, M.-R., GERTHEISS, J., TUTZ, G. (2012).
Regularization and Model Selection with Categorial Predictors
and Effect Modifiers in Generalized Linear Models.
Department of Statistics, University of Munich.
ZHENG, X. and LOH, W.-Y. (1995). Consistent variable
selection in linear models. Journal of the American Statistical
Association 90 151-156.

Aleksandra Maj

Transkrypt

Podobne dokumenty

DMRnet - wybór zmiennych ciągłych i łączenie poziomów

pobierz pdf

Wentylatory kanałowe DMR z silnikiem EC

Lista uczestników_OPEN_3 ETAP

Pobierz

j. polskim

Komunikat nr 4/2016

1 Państwo Aleksandra Wielkiego. 1. Porównaj terytorium państwa