Wykorzystanie metod losowych podprzestrzeni do predykcji i

Transkrypt

Wykorzystanie metod losowych podprzestrzeni do predykcji i
Konferencja Statystyka Matematyczna Wisła 2013
Wykorzystanie metod losowych podprzestrzeni do
predykcji i selekcji zmiennych
Paweł Teisseyre
Instytut Podstaw Informatyki, Polska Akademia Nauk
Paweł Teisseyre
Metoda RSM
1 / 30
Plan prezentacji
1
Dwustopniowe procedury wyboru modelu regresji.
Metoda Zhenga i Loha (p < n).
Metoda Losowych Podprzestrzeni (RSM) i jej warianty (p ­ n).
2
Metody wyboru końcowego modelu.
3
Przykłady symulacyjne.
Paweł Teisseyre
Metoda RSM
2 / 30
Model regresji liniowej.
Model regresji liniowej
Obiekty opisane parą (x, y ), gdzie:
y ∈ R - zmienna odpowiedzi,
x ∈ R p - wektor atrybutów.
W modelu liniowym zakładamy, że:
y = x0 β + ε,
gdzie:
β = (β1 , . . . , βp ) ∈ R p jest wektorem parametrów,
ε błędem losowym o rozkładzie N(0, σ 2 ).
Uwaga:
Dopuszczamy sytuację: p ­ n.
Paweł Teisseyre
Metoda RSM
3 / 30
Model regresji liniowej.
Wybór modelu
Minimalny model prawdziwy: t := {k : βk 6= 0}, t.j.
dla regresji liniowej: minimalny model taki, że E(y |x) = x0t β t ,
gdzie: dolny indeks t oznacza wybór współrzędnych odpowiadających
modelowi t.
Cel: Identyfikacja zbioru t na podstawie niezależnych obserwacji
(xi , yi ), i = 1, . . . , n.
Paweł Teisseyre
Metoda RSM
4 / 30
Dwustopniowe procedury wyboru modelu.
Procedury dwustopniowe wyboru modelu
1
Zmienne {1, . . . , p} są porządkowane wg pewnej miary istotności:
Wi1 ­ Wi2 ­ . . . ­ Wip .
2
Wybieramy model z zagnieżdżonej rodziny:
{{0}, {i1 }, {i1 , i2 }, . . . , {i1 , . . . , ip }}
Uwaga:
W drugim kroku sprawdzamy p + 1 modeli zamiast 2p (przy pełnym
przeszukiwaniu).
Paweł Teisseyre
Metoda RSM
5 / 30
Dwustopniowe procedury wyboru modelu.
Procedura Zhenga i Loha dla modelu liniowego
1
Dopasuj model liniowy zawierający wszystkie zmienne 1, . . . , p.
2
Zmienne {1, . . . , p} są porządkowane wg kwadratu statystyki T :
Ti21 ­ Ti22 ­ . . . ­ Ti2p .
3
Wybieramy model z zagnieżdżonej rodziny:
{{0}, {i1 }, {i1 , i2 }, . . . , {i1 , . . . , ip }}.
Uwagi:
Użycie w drugim kroku kryterium GIC (Generalized Information
Citerion) prowadzi do zgodnej procedury selekcji (przy odpowiednich
założeniach).
Procedura nie może być zastosowana gdy p ­ n.
Paweł Teisseyre
Metoda RSM
6 / 30
Dwustopniowe procedury wyboru modelu.
Procedura Zhenga i Loha dla modelu liniowego
Kryterium GIC
GIC(m) := −2l(β̂ m ) + an |m| → min,
gdzie: l(·)- funkcja log-wiarogodności, an - kara, |m|- liczba zmiennych w
modelu m.
Założenia:
1
2
3
pn = o(an )
an = o(bn ), bn = minm6⊇t ||Xβ − HX (m)Xβ||2 , gdzie: HX (m) macierz
rzutu na podprzestrzeń rozpiętą przez kolumny z m.
bn = O(n)
Twierdzenie (Mielniczuk, Teisseyre, 2012)
Przy założeniach 1-3 dwustopniowa procedura Zhenga i Loha jest zgodna.
Paweł Teisseyre
Metoda RSM
7 / 30
Metoda Losowych Podprzestrzeni (RSM).
Metoda RSM dla klasyfikacji
Metoda zaproponowana w pracy:
T. K. Ho, The Random Subspace Method for Constructing Decision
Forests, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND
MACHINE INTELLIGENCE, VOL. 20, NO. 8, 1998.
Budowa komitetu klasyfikatorów na bazie losowo wybranych
podzbiorów atrybutów.
Efektywne narzędzie w przypadku dużego wymiaru przestrzeni cech.
Modyfikacje: M. Draminski, J. Koronacki et. al. Monte carlo feature
selection for supervised classification, BIOINFORMATICS, 24(1):110-117,
2008.
Paweł Teisseyre
Metoda RSM
8 / 30
Metoda Losowych Podprzestrzeni (RSM).
Metoda RSM dla modelu liniowego
Algorytm RSM
1
Wejście: Dane (Y, X), liczba symulacji B, wielkość podprzestrzeni |m| < min(p, n).
2
Powtarzaj procedurę dla k = 1, . . . , B z Ci,0 = 0 dla każdego i.
∗
Wylosuj zbiór zmiennych m∗ = {i1∗ , . . . , i|m|
} z przestrzeni cech.
Dopasuj model y ∼ xm∗ i oblicz wagi wn (i, m∗ ) ­ 0 dla zmiennych i ∈ m∗ .
Ustaw wn (i, m∗ ) = 0 jeżeli i ∈
/ m∗ .
Ci,k = Ci,k−1 + I {i ∈ m∗ }.
3
Dla wszystkich zmiennych i oblicz końcowe wagi:
Wi∗ =
1
Ci,B
X
wn (i, m∗ ).
m∗ :i∈m∗
4
Posortuj zmienne wg końcowych wag Wi∗ : Wi∗1 ­ Wi∗2 . . . ­ Wi∗p .
5
Wyjście: uporządkowana lista zmiennych {i1 , . . . , ip }.
Paweł Teisseyre
Metoda RSM
9 / 30
Metoda Losowych Podprzestrzeni (RSM).
Metoda RSM dla modelu liniowego
B random subsets
p attributes
m << p
attributes
model 1
weights
of attributes
m << p
attributes
model 2
weights
of attributes
...
m << p
attributes
Paweł Teisseyre
...
model B
Metoda RSM
final scores
of attributes
...
weights
of attributes
10 / 30
Metoda Losowych Podprzestrzeni (RSM).
Metoda RSM dla modelu liniowego
Algorytm WRSM
1
Wejście: Dane (Y, X), liczba symulacji B, wielkość podprzestrzeni |m| < min(p, n).
2
Dla każdej zmiennej i dopasuj model jednokrotny y ∼ xi i oblicz wagi początkowe
(0)
wn (i) ­ 0.
3
Dla każdej zmiennej i oblicz πi = wn (i)/
4
Wykonaj procedurę RSM, w ten sposób że prawdopodobieństwo wylosowania
zmiennej i do losowej podprzestrzeni jest równe πi .
5
Wyjście: uporządkowana lista zmiennych {i1 , . . . , ip }.
(0)
Paweł Teisseyre
Pp
Metoda RSM
l=1
(0)
wn (l).
11 / 30
Metoda Losowych Podprzestrzeni (RSM).
Metoda RSM- wybór wag wn (i, m)
Wybór wag:
2
wn (i, m) := Ti,m
,
gdzie Ti,m oznacza statystykę T dla zmiennej i, obliczoną na podstawie
dowolnego podmodelu m.
Zauważmy, że:
2
Ti,m
)·
= (R 2 − R 2
n − |m| | m {z m\{i}}
istotność zm. i
1
2
1 − Rm
,
| {z }
dopasowanie modelu m
2 jest współczynnikiem determinacji dla modelu m.
gdzie Rm
Paweł Teisseyre
Metoda RSM
12 / 30
Metoda Losowych Podprzestrzeni (RSM).
Asymptotyczna postać wag końcowych Wi∗
Można pokazać (przy B/p → ∞) asymptotyczną równoważność:
Wi∗ −
MSEP(m \ {i}) − MSEP(m) P ∗
−→ 0.
MSEP(m)
X
1
|Mi,|m| | m∈M
i,|m|
P ∗ miara na rodzinie modeli.
|Mi,|m| | to liczba modeli o liczności |m| które zawierają zmienną i.
Błąd predykcji dla modelu m:
MSEP(m) := lim n−1 E[||Y ∗ − Xm β̂ m ||2 |X],
n→∞
gdzie Y ∗ = Xβ + ε∗ , ε∗ niezależna kopia ε.
Paweł Teisseyre
Metoda RSM
13 / 30
Metoda Losowych Podprzestrzeni (RSM).
Procedura wyboru modelu:
1
2
Dane (Y, X) dzielone na część treningową: (Yt , Xt ) oraz walidacyjną
(Yv , Xv ).
Procedura RSM jest realizowana na części treningowej. Zmienne są
porządkowane wg. wag końcowych:
Wi∗1 ­ . . . , ­ Wi∗p .
3
Z zagnieżdżonej listy modeli
{{0}, {i1 }, {i1 , i2 }, . . . , {i1 , . . . , imin(n,p)−1 }} wybieramy model mopt
dla którego błąd na próbie walidacyjnej n−1 ||Yv − Xv β̂ mopt ||2 jest
najmniejszy.
(tutaj: β̂ mopt - estymator ML oparty na modelu mopt , obliczony na
próbie (Yt , Xt )).
Paweł Teisseyre
Metoda RSM
14 / 30
Metoda RSM + kryteria informacyjne.
Kryteria Informacyjne
Wada procedury opisanej powyżej: konieczność wydzielenia próby
walidacyjnej (duży problem w sytuacji małej liczby obserwacji).
Procedura oparta na GIC: z zagnieżdżonej rodziny
{{0}, {i1 }, {i1 , i2 }, . . . , {i1 , . . . , imin(n,p)−1 }} wyznaczonej na
podstawie metody RSM wybieramy model które minimalizuje GIC.
Problem: kryteria informacyjne działają poprawnie gdy liczba
atrybutów jest mniejszego rzędu niż liczba obserwacji.
Paweł Teisseyre
Metoda RSM
15 / 30
Metoda RSM + kryteria informacyjne.
Kryteria Informacyjne- problem
BIC
−200
0
200
400
600
Model 2
BIC
FIT
PENALTY
0
20
40
60
80
100
Variables
Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w
porównaniu z n (model prawdziwy t zawiera 3 zmienne).
Paweł Teisseyre
Metoda RSM
16 / 30
Metoda RSM + kryteria informacyjne.
Kryteria Informacyjne- problem
BIC
−200
0
200
400
600
Model 3
BIC
FIT
PENALTY
0
20
40
60
80
100
Variables
Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w
porównaniu z n (model prawdziwy t zawiera 10 zmiennych).
Paweł Teisseyre
Metoda RSM
17 / 30
Metoda RSM + kryteria informacyjne.
Wyniki symulacji- metody
Metoda lasso.
Metoda RSM + BIC.
Metoda WRSM + BIC.
Metoda Univariate + BIC.
Metoda CAR + BIC [CAR = corr (y , P −1/2 Xstd ), P- macierz korelacji
dla atrybutów].
Punkt odcięcia:
Sztywny punkt odcięcia: (n − 1)/2.
Paweł Teisseyre
Metoda RSM
18 / 30
Metoda RSM + kryteria informacyjne.
Modele symulacyjne
Wybrane 10 modeli z prac dotyczących selekcji zmiennych (liczba
zmiennych istotnych |t| ∈ [1, 50]).
Wiersze macierzy X generowane z rozkładu normalnego o średniej 0 i
macierzy kowariancji Σi,j := ρ|i−j| , ρ = 0.5.
Liczba obserwacji n = 200, liczba atrybutów p = 1000.
Liczba symulacji: L = 500.
Paweł Teisseyre
Metoda RSM
19 / 30
Metoda RSM + kryteria informacyjne.
Wyniki symulacji- miary oceny
(CS): poprawny wybór modelu t: I [t̂ = t],
(TPR): |t̂ ∩ t|/|t|,
(FDR): |t̂ \ t|/|t̂|,
(PE): Błąd predykcji na niezależnym zbiorze testowym.
(CO): poprawne uporządkowanie w pierwszym kroku procedury
2 < min
2
dwustopniowej. P[maxi6∈t Ti,f
i∈t Ti,f ].
Paweł Teisseyre
Metoda RSM
20 / 30
Metoda RSM + kryteria informacyjne.
Wyniki symulacji- błąd predykcji
Model
1
2
3
4
5
6
7
8
9
10
|t|
1
3
10
5
15
15
20
8
50
50
lasso
100.05
109.72
115.24
114.81
110.32
111.12
116.66
110.45
127.89
125.48
rsmBIC
112.43
100.26
101.05
100.30
110.44
117.45
117.49
101.07
123.00
145.53
wrsmBIC
118.58
111.86
101.15
107.29
102.00
101.42
103.94
111.87
100.88
102.07
uniBIC
109.49
100.06
101.79
100.43
114.69
124.62
136.58
100.40
149.91
208.14
carBIC
109.61
100.07
101.54
100.41
112.25
124.00
132.97
100.37
139.59
192.58
Min
lasso
UNI
RSM
RSM
WRSM
WRSM
WRSM
CAR
WRSM
WRSM
Tabela : 100*PE/min(PE) (średnie z 500 symulacji).
Paweł Teisseyre
Metoda RSM
21 / 30
Metoda RSM + kryteria informacyjne.
Wyniki symulacji- TPR
Model
1
2
3
4
5
6
7
8
9
10
|t|
1
3
10
5
15
15
20
8
50
50
lasso
0.000
1.000
1.000
1.000
0.996
0.998
1.000
0.854
0.995
1.000
rsmBIC
0.367
1.000
1.000
1.000
0.838
0.769
0.982
0.817
0.922
0.960
wrsmBIC
0.433
1.000
1.000
1.000
0.973
0.940
0.995
0.888
0.979
0.991
uniBIC
0.467
1.000
1.000
1.000
0.816
0.731
0.963
0.829
0.845
0.893
carBIC
0.467
1.000
1.000
1.000
0.829
0.733
0.967
0.833
0.870
0.908
Max. TPR
UNI, CAR
wszystkie
wszystkie
wszystkie
lasso
lasso
lasso
WRSM
lasso
lasso
Tabela : Wskaźniki TPR (średnie z 500 symulacji).
Paweł Teisseyre
Metoda RSM
22 / 30
Metoda RSM + kryteria informacyjne.
Wyniki symulacji- FDR
Model
1
2
3
4
5
6
7
8
9
10
|t|
1
3
10
5
15
15
20
8
50
50
lasso
1.000
0.124
0.410
0.329
0.216
0.297
0.271
0.111
0.419
0.427
rsmBIC
0.954
0.021
0.290
0.069
0.179
0.260
0.217
0.074
0.208
0.327
wrsmBIC
0.980
0.608
0.074
0.454
0.199
0.156
0.018
0.467
0.100
0.097
uniBIC
0.926
0.033
0.384
0.123
0.203
0.231
0.312
0.050
0.233
0.302
carBIC
0.931
0.025
0.358
0.109
0.220
0.191
0.260
0.059
0.198
0.275
Min. FDR
UNI
RSM
WRSM
RSM
RSM
WRSM
WRSM
WRSM
WRSM
WRSM
Tabela : Wskaźniki FDR (średnie z 500 symulacji).
Paweł Teisseyre
Metoda RSM
23 / 30
Metoda RSM + kryteria informacyjne.
Przykład: dane rzeczywiste
QSAR dataset (n=274,p=839)
RSM: 11.3
CAR: 10.9
UNI: 3.8
LASSO: 34.7
●
0.17
0.16
0.14
0.15
Prediction Error
0.18
0.19
●
RSM+BIC
CAR+BIC
UNI+BIC
LASSO+CV
Rysunek : Model zależności temperatury topnienia substancji od deskryptorów
cząstek (liczność zbioru treningowego: 182, liczność zbioru testowego: 92).
Paweł Teisseyre
Metoda RSM
24 / 30
Metoda RSM + kryteria informacyjne.
Pakiet R regRSM (P. Teisseyre, R. A. Kłopotek)
3 wersje: sekwencyjna, równoległa (MPI), równoległa (POSIX).
Algorytmy: RSM, WRSM, SRSM
wybór modelu w oparciu o BIC lub próbę walidaycjną
Metody:
predict,
update,
print, summary,
plot, ImpPlot
roc.
Paweł Teisseyre
Metoda RSM
25 / 30
Metoda RSM + kryteria informacyjne.
Czas obliczeń dla p = 1000, n = 100, |m| = 50.
Elapsed time
150
200
●
●
●
100
Elapsed time [sec]
250
300
1 slave
2 slaves
4 slaves
8 slaves
16 slaves
32 slaves
●
●
50
●
●
0
●
●
●
5
6
●
●
7
●
●
●
●
●
●
●
●
8
9
●
●
●
●
●
10
11
log(B)
Rysunek : Maszyna:2x Intel(R) Xeon(R) CPU E5-2630L @ 2.00GHz (6 cores, 12
threads) - 24 logical cores in total, 64 GB RAM
Paweł Teisseyre
Metoda RSM
26 / 30
Wnioski
RSM- wnioski
WRSM zazwyczaj działa lepiej niż konkurencyjne metody (biorąc pod
uwagę PE).
FDR jest zazwyczaj mniejsze dla RSM/WRSM niż dla metody lasso
oraz metody univariate.
Stosując metodę RSM/WRSM otrzymujemy mniej złożone modele
(jest to potwierdzone przez eksperymenty na zbiorach rzeczywistych).
Zastosowanie wersji ważonej (WRSM) pozwala zmniejszyć liczbę
symulacji i w ten sposób zredukować koszt obliczeniowy.
Paweł Teisseyre
Metoda RSM
27 / 30
Literatura
Literatura
1
J. Mielniczuk, P. Teisseyre, Using Random Subspace Method for Prediction and
Variable Importance Assessment in Linear Regression, Computational Statistics
and Data Analysis, Volume: 71, 725-742, 2014.
2
T. K. Ho, The Random Subspace Method for constructing decision forests, IEEE
Trans. Pattern Anal. Machine Intell., Vol. 20, No. 8, pages 832–844, 1998.
3
L. Breiman, Random forests, Machine Learning, Vol. 45, No. 1, pages 5–32, 2001.
4
C. Lai, M. J. T. Reinders, L. Wessels, Random Subspace Method for multivariate
feature selection, Pattern Recognition Letters, Vol. 27, pages 1067-1076, 2006.
5
M. Draminski et. al., Monte carlo feature selection for supervised classification,
BIOINFORMATICS, 24(1):110-117, 2008.
Paweł Teisseyre
Metoda RSM
28 / 30
Dziękuje za uwagę!
Dziękuje za uwagę!
Paweł Teisseyre
Metoda RSM
29 / 30