Pobierz plik

Transkrypt

Pobierz plik
Metody zbiorów przybliżonych w uczeniu się
podobieństwa z wielowymiarowych zbiorów danych
Andrzej Janusz
WMIM, Uniwersytet Warszawski
ul. Banacha 2, 02-097 Warszawa, Polska
[email protected]
13.06.2013
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Dlaczego właśnie podobieństwo?
Myślenie...
Podejmowanie
decyzji
i formowanie
pojęć
sampl
eID
AFFX3_at
3322_i
_at
4969_s
_at
...
22095_
s_at
22379
_at
Diagno
sis
GSM1
4.010
12.434
32.443
...
1.665
12.44
3
GSM2
5.314
43.765
5.763
...
3.567
7.645
2
GSM3
3.275
17.567
23.842
...
0.657
12.46
GSM4
2.112
8.432
54.849
...
87.656
45.32
1
...
...
...
...
...
...
...
...
GSM14
8.453
10.087
8.678
...
2.986
9.656
3
Podobieństwo
2
Rozwiązywanie
problemów
Uczenie się
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Zastosowania modeli podobieństwa
Przykłady:
klasyfikacja i regresja,
segmentacja danych,
planowanie, rozwiązywanie
problemów,
wykrywanie nietypowych
obiektów,
wizualizacja i streszczanie
danych.
Podstawowa zasada:
Podobne obiekty powinny być traktowane
podobnie (np. należeć do tej samej klasy
decyzyjnej, czy grupy).
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Czym tak naprawdę jest podobieństwo?
Trudności ze ścisłą definicją podobieństwa:
relacja, czy funkcja?
obiektywne, czy subiektywne?
bezkontekstowe, czy kontekstowe?
globalne, czy lokalne?
Czynniki, które wpływają
na kontekst to:
cel lub zadanie,
któremu służy
ewaluacja
podobieństwa,
wiedza o innych
znanych obiektach.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Czym tak naprawdę jest podobieństwo?
Trudności ze ścisłą definicją podobieństwa:
relacja, czy funkcja?
obiektywne, czy subiektywne?
bezkontekstowe, czy kontekstowe?
globalne, czy lokalne?
Czynniki, które wpływają
na kontekst to:
cel lub zadanie,
któremu służy
ewaluacja
podobieństwa,
wiedza o innych
znanych obiektach.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Idea Tversky-ego
Model kontrastu cech:
obiekty postrzegane są jako zbiory cech jakościowych,
cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane
“sensoryczne”, np.
dwa samochody są podobne ponieważ są małe i szybkie,
ważne są zarówno wspólne jak i wyróżniające cechy obiektów,
S(a, b) = θf (A ∩ B) − αf (A \ B) − βf (B \ A), gdzie θ, α, β ­ 0
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Idea Tversky-ego
Model kontrastu cech:
obiekty postrzegane są jako zbiory cech jakościowych,
cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane
“sensoryczne”, np.
dwa samochody są podobne ponieważ są małe i szybkie,
ważne są zarówno wspólne jak i wyróżniające cechy obiektów,
S(a, b) = θf (A ∩ B) − αf (A \ B) − βf (B \ A), gdzie θ, α, β ­ 0
Model Tversky-ego trudno jest zaaplikować do rzeczywistych danych:
jak definiować wysokopoziomowe cechy?
jak wybrać te istotne w danym kontekście?
Propozycja: można wykorzystać teorię zbiorów przybliżonych!
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Założenia proponowanego modelu podobieństwa:
Uczenie się podobieństwa w języku zbiorów przybliżonych:
wybór istotnych aspektów
podobieństwa
wysokopoziomowe cechy
agregacja argumentów za i
przeciw podobieństwu
funkcja podobieństwa
↔ wybór przestrzeni aproksymacji
↔ lewe strony reguł
↔ aproksymacja pojęć bycia podobnym i niepodobnym do obiektu
↔ funkcja przynależności do aproksymacji pojęcia
Wysokopoziomowe cechy można traktować jak argumenty za
lub przeciw podobieństwu obiektów!
Aproksymacja podobieństwa do obiektu to zbiór obiektów, do
który pasują argumenty za podobieństwem a nie pasują
argumety przeciwko.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Konstrukcja proponowanego modelu podobieństwa
Dyskretyzacja i
generowanie reduktów
decyzyjnych osobno
dla każdej klasy
Generowanie
reguł decyzyjnych
i wzbraniających
Aproksymacja
Argumenty pojęć podobieństwa
i niepodobieństwa
za
Podobień- do poszczególnych
obiektów
stwem
dla Klasy 1
Redukt
System
Decyzyjny
dla
Decision
Reduct
Decision
Klasy
Reduct
Decision
Reduct
Decision
Reduct
1
Andrzej Janusz
Argumenty
przeciw
Podobieństwu
dla Klasy 1
Regułowy
Model
Podobieństwa
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Opis formalny modelu
Aproksymacja podobieństwa i niepodobieństwa:
+
−
F(i)
oraz F(i)
+
F(i)
−
F(i)
SIM(i) (u) =
– zbiory cech dla i-tej klasy decyzyjnej, wyznaczone
przez reguły decyzyjne
i wzbraniające;
=
f : f → (d = i) ∈ RuleSet(DRi ) ;
=
f : f → (d 6= i) ∈ RuleSet(DRi ) ;
[
[u]f
0
DIS(i)
(u) =
[
+
f ∈F(i)
∧f (u)=1
U\[u]f
1
DIS(i)
(u) =
−
f ∈F(i)
∧f (u)=0
[
Przynależność do SIMd(u1 ) (u1 ):
0
Przynależność do DISd(u
(u1 ):
1)
(u1 )∩SIMi (u2 )|
µ(u2 , SIMi (u1 ))= |SIMi |SIM
i (u1 )|
ψ(u2 , DISi0 (u1 ))=
Andrzej Janusz
[u]f
−
f ∈F(i)
∧f (u)=1
|DISi0 (u1 )∩DISi1 (u2 )|
|DISi0 (u1 )|
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Dlaczego dane wielowymiarowe?
Rysunek: Ilustracja “przekleństwa wielu wymiarów” (z książki
Elements of Statistical Learning: Data Mining, Inference and Prediction).
typowe metody nie radzą sobie z problemem niewielu
obiektów o dużej liczbie cech,
duża złożoność obliczeniowa algorytmów uczenia się
podobieństwa z danych wielowymiarowych.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Rozszerzenia modelu dla danych wielowymiarowych
Główna idea:
W przypadku danych wielowymiarowych konieczne jest rozpatrywanie
wielu lokalnych modeli podobieństwa, które można interpretować jako
autonomicznych agentów z własnymi preferencjami i doświadczeniem.
Dwa typy wielowymiarowych danych
Dane mikromacierzowe:
uczenie z nadzorem
redukty dynamiczne
reguły decyzyjne i wzbraniające
Andrzej Janusz
Dane tekstowe:
uczenie bez nadzoru
biredukty informacyjne
pojęcia z ontologii dziedzinowej
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Opis eksperymentów na danych mikromacierzowych
Microarray data:
few-objects-many-attributes problem
≈40k genes (attributes)
sampleID AFFX-3_at 3322_i_at 4969_s_at
GSM1.CEL
4.010
12.434
32.443
GSM2.CEL
5.314
43.765
5.763
GSM3.CEL
3.275
17.567
23.842
GSM4.CEL
2.112
8.432
54.849
...
...
...
...
GSM149.
CEL
8.453
10.087
8.678
Opis danych
11 zbiorów mikromacierzy,
liczba obiektów: 124 – 284,
...
...
22095_s_at 22379_at Diagnosis
1.665
12.434
3
...
...
3.567
7.645
0.657
12.446
2
2
...
...
...
87.656
45.324
...
...
2.986
9.656
1
...
3
Opis eksperymentu
wielokrotnie powtarzana
weryfikacja krzyżowa,
liczba atrybutów: 22k – 61k,
miary jakości: ACC i BAC,
zbiory pochodzą z
repozytorium ArrayExpress.
porównywane klasyfikatory:
k-NN ∗ , RF , SVM.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
RBS
DRBS
50
60
70
80
90
1−NN + corTest
1−NN + t−test
1−NN + relief
40
Balanced classification accuracy (%)
100
Wyniki porównania z wybranymi modelami podobieństwa
ALL
BTu
GPe
Andrzej Janusz
HFF
HGl
SSh
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
100
Wyniki porównania z wybranymi metodami klasyfikacji
SVM
DRBS
80
70
60
50
40
30
Balanced classification accuracy (%)
90
RF
RF_b.
ALL
ATC
BTu
BLy
GPe
Andrzej Janusz
HFF
HeC
HGl
OTu
SSh
SPs
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Opis eksperymentów na danych tekstowych
Opis danych
zbior 1000 artykułów
naukowych z repozytorium
PubMed Central,
ontologia dziedzinowa MeSH
(≈ 26k pojęć),
metoda automatycznego
etykietowania: ESA,
zbiory etykiet nadanych
przez ekspertów.
Opis eksperymentu
grupowanie hierarchiczne
artykułów,
stosowane algorytmy: agnes
i diana,
porównywane modele: dwa
oparte o miarę kosinusową,
zewnętrzna miara oceny
jakości grupowania.
Ewaluacja wyników
Miara zgodności etykiet nadanych przez ekspertów wewnątrz grup.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
50
100
150
Number of clusters
0.6
0.4
0.2
Average semantic homogenity
0
agnes RBS bireduct
diana RBS bireduct
agnes RBS single
diana RBS single
agnes Cosine single
diana Cosine single
agnes Cosine ens.
diana Cosine ens.
random clustering
0.0
0.10
0.05
0.00
agnes RBS bireduct
diana RBS bireduct
agnes RBS single
diana RBS single
agnes Cosine single
diana Cosine single
agnes Cosine ensemble
diana Cosine ensemble
random clustering
−0.05
Average semantic homogenity
0.15
0.8
1.0
0.20
Wyniki ewaluacji modelu
0
200
400
600
800
1000
Number of clusters
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Podsumowanie
Co się udało?
dokonano interpretacji
problemu uczenia się
podobieństwa z punktu
widzenia teorii zbiorów
przybliżonych,
zaproponowano intuicyjny i
elastyczny model uczenia się
podobieństwa z danych,
opracowano efektywne
algorytmy działające dla
wielowymiarowych zbiorów
danych,
Kierunki na przyszłość:
lepsze wykorzystanie wiedzy
dziedzinowej,
optymalizacja wydajności
obliczeniowej dla dużych
zbiorów danych,
stworzenie
wysokopoziomowego
środowiska do
eksperymentów.
przeprowadzono dokładną
ewaluację zaproponowanego
podejścia.
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych
Dziękuję za uwagę!
Andrzej Janusz
Algorytmy uczenia się podobieństwa z wielowymiarowych danych