Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

Transkrypt

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Klasyfikacja wielo-etykietowa z wykorzystaniem
Boostingu
Seminarium Zakładu Inteligentnych Systemów Wspomagania
Decyzji Instytutu Informatyki Politechniki Poznańskiej
oraz
Sekcji ”Inteligentnych Systemów Wspomagania Decyzji oraz
Obliczeń Elastycznych Komitetu Informatyki PAN”
Tomasz Kajdanowicz
Instytut Informatyki,
Politechnika Wrocławska
8 listopada 2011
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Plan prezentacji
1
Klasyfikacja wielo-etykietowa
Wprowadzenie
Metody klasyfikacji wielo-etykietowej
2
Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq
Wprowadzenie do algorytmu
Analiza algorytmu
Eksperymenty
3
Podsumowanie
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Plan prezentacji
1
Klasyfikacja wielo-etykietowa
Wprowadzenie
Metody klasyfikacji wielo-etykietowej
2
Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq
Wprowadzenie do algorytmu
Analiza algorytmu
Eksperymenty
3
Podsumowanie
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie
Wprowadzenie
X = {x1 , x2 , . . . , xn } - przestrzeń obserwacji
L = {λ1 , λ2 , . . . , λm } - skończony zbiór etykiet
(x, Lx ) ∈ X × 2L - krotka obserwacja-etykiety
Klasyfikacja jedno-etykietowa
obserwacja x ∈ X jest skojarzona z pojedynczą etykietą
l∈L
cel: nauka klasyfikatora H : X −→ L
Klasyfikacja wielo-etykietowa
obserwacja x ∈ X może być skojarzona z podzbiorem
etykiet L ∈ 2L
cel: nauka klasyfikatora H : X −→ 2L
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie
Przykłady klasyfikacji wielo-etykietowej
Kategoryzacja emocjonalna muzyki
Model emocji Tellegen-Watson-Clark[1]
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie
Przykłady klasyfikacji wielo-etykietowej
Typ
danych
tekst
Zadanie
Zasoby
Opis
kategoryzacja
artykuły
tekst
kategoryzacja
strony www
tekst
kategoryzacja
ulubione
obrazy
annotacja
semantyczna
annotacja
semantyczna
detekcja szumu
detekcja emocji
obrazy
Reuters topics (agriculture, fishing)
Yahoo! directory (health,
science)
Bibsonomy tags (sports,
science)
pojęcie(drzewo,
zachód
słońca)
concepts (tłum, pustynia)
wideo
dźwięk
dźwięk
klipy z wiadomościami
dźwięk
klip
muzyczny
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
typ(mowa, szum)
emocje(relaksacyjny, spokojny)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie
Realizowane zadania
Dwa główne zadania w uczeniu nadzorowanym przy użyciu
danych wielo-etykietowych:
klasyfikacja wielo-etykietowa
odwzorowanie przypisujące obserwacji podzbiór etykiet
ranking etykiet
odwzorowanie przypisujące uporządkowaną według relewancji
listę etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie
Taksonomia metod
Metody transformujące problem
niezależne od algorytmów
transformują zadanie uczenia do jednego lub więcej zadań
uczenia jedno-etykietowego
wspierają się szeroką gamą standardowych algorytmów
Metody adaptujące algorytmy
rozszerzają poszczególne algorytmy
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody transformujące problem
dane wielo-etykietowe są konwertowane do postaci
jedno-etykietowej
klasyfikator jedno-etykietowy zwraca rozkład
prawdopodobieństwa klas, który można wykorzystać do
rankowania etykiet
przykładowe dane:
L.p.
1
2
3
4
Obserwacja (X)
x1
x2
x3
x4
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Etykiety(L)
{λ1 , λ4 }
{λ3 , λ4 }
{λ1 }
{λ2 , λ3 , λ4 }
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody transformujące problem
Proste transformacje
kopiowanie
kopiowanie z wagami
selekcja najczęstszej etykiety
selekcja najrzadszej etykiety
selekcja losowa
pomijanie wielo-etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody transformujące problem
Label powerset (zbiór potęgowy)
każdy istniejący unikatowy podzbiór etykiet stanowi jedną
nową etykietę
złożoność ograniczona przez min(n, 2m )
Przykład rankingu:
c
λ1,4
λ3,4
λ1
λ2,3,4
p(c|x)
0.7
0.2
0.1
P 0.0
c p(c|x)λj
λ1
1
0
1
0
0.8
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
λ2
0
0
0
1
0.0
λ3
0
1
0
1
0.2
λ4
1
1
0
1
0.9
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody transformujące problem
Pruned problem transformation[2]
rozszerzenie metody Label powerset (zbióru potęgowego)
odrzuca etykiety występujące rzadziej od zdefiniowanego
progu
Random k-labelsets (RAkEL)[3]
buduje rodzinę klasyfikatorów dla losowo wybranych
zbiorów k-elementowych podzbiorów potęgowych etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody transformujące problem
Binarna relewancja
uczenie m binarnych klasyfikatorów, po jednym dla każdej
z etykiet w L
m zbiorów uczących postaci (x, I(λj )), gdzie I(λj )
pozytywne dla obserwacji posiadającej etykietę λj oraz
negatywne wpp.
Ranking by pairwise comparison[4]
transformuje zbiór wielo-etykietowy do m(m−1)
binarnych
2
zbiorów jedno-etykietowych, dla każdej pary
(λi , λj ), 1 ¬ i ¬ j ¬ m
zbiory uczące zawierają obserwacje z etykietami λi ⊕ λj
przykład: Multi-label pairwise perceptron (MLPP)[5]
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
Zmodyfikowany algorytm C4.5[6]
strategia próbkowania obserwacji wielo-etykietowych przy
użyciu m-estymacji (generalizacji estymacji Laplace’a),
biorącej pod uwagę prawdopodobieństwo a priori etykiet
wiele etykiet dozwolonych w liściach
entropia: − m
j=1 (p(λj )logp(λj ) + q(λj )logq(λj )), gdzie p(λj )
to empiryczna częstość klasy λj , a q(λj ) = 1 − p(λj )
P
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
Użycie podejścia CRF (warunkowych pól losowych)[7]
dwa modele graficzne parametryzujące współwystępowanie
etykiet przez oznacznie klik(czarne kwadraty)
(a)-parametryzacja jednej etykiety i jednej cechy,
(b)-dodatkowo parametryzacja par etykiet,
(c)-parametryzacja dla każdej etykiety, każdej cechy oraz
każdej pary etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
Back-propagation perceptron for multi-label learning
BP-MLL[8]
adaptacja popularnego algorytmu z pętlą zwrotną dla
klasyfikacji wielo-etykietowej
modyfikacja funkcji błędu, która bierze pod uwagę wiele
etykiet
Multi-class multi-label perceptron (MMP)[9]
rodzina algorytmów dla rankingów etykiet bazująca na
perceptronie
perceptron dla każdej z etykiet
uaktualnianie wag - zgodność rankingu dla wszystkich
etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
Multi-label kNN (ML-kNN)[10]
wyszukanie k najbliższych sąsiadów
agregacja podzbiorów etykiet zgodnie
prawdopodobieństwem a posteriori dla każdej z etykiet
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Classifier Chain Model (Łańcuch klasyfikatorów)[12]
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
AdaBoost.MH[11]
minimalizuje odległość Hamminga
AdaBoost.MR[11]
szuka hipotez, które prawidłowo umiejscawiają prawdziwe
etykiety na szczycie rankingu
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Metody klasyfikacji wielo-etykietowej
Metody adaptujące algorytmy
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Plan prezentacji
1
Klasyfikacja wielo-etykietowa
Wprowadzenie
Metody klasyfikacji wielo-etykietowej
2
Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq
Wprowadzenie do algorytmu
Analiza algorytmu
Eksperymenty
3
Podsumowanie
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie do algorytmu
Algorytm AdaBoostSeq[13]
AdaBoostSeq
zmodyfikowany sposób ważenia obserwacji (schemat
próbkowania danych uczących)
modyfikacja funkcji kosztu
klasyfikacja wielo-etykietowa
Oznaczenia
yiµ ∈ {−1, 1}, dla i = 1, 2, . . . , n i µ = 1, 2, . . . , m
reprezentuje obecność etykiet: odpowiednio λ1 , λ2 , . . . , λm
m - liczba etykiet
n - liczba obserwacji
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Wprowadzenie do algorytmu
AdaBoostSeq
Cel
Skonstruować m liniowych kombinacji rodziny K klasyfikatorów
postaci:
∀µ = 1, 2, . . . , m
Fµ (xPµ ) =
K
X
µ
αk Φ(xPµ , Θµk )
(1)
k=1
Fµ (xPµ ) to meta-klasyfikator dla µ-tej etykiety
Φ(xPµ , Θµk ) reprezentuje k-ty klasyfikator bazowy z Θµk
parametrami klasyfikujący binarnie każdą obserwację x
αkµ waga k-tego klasyfikatora
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Nieznane wartości otrzymujemy z optymalizacji dla każdej
etykiety µ:
arg
min
µ
N
X
αµ
,Θk ,k:1,K
k
P
exp(−yiµ Fµ (xi µ ))
(2)
i=1
bezpośrednia optymalizacja bardzo skomplikowana
rozwiązanie z wykorzystaniem iteracyjnej minimalizacji
suma częściowa kroku s:
Fµs (xPµ ) =
s
X
µ
αk Φ(xPµ , Θµk ), s = 1, 2, . . . , K
(3)
k=1
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Z równania 3 mamy naturalną rekursję:
Fµs (xPµ ) = Fµs−1 (xPµ ) + αs Φ(xPµ , Θµs )
(4)
przed obliczeniem Fµs (xPµ ), wartość Fµs−1 (xPµ ) musiała już
zostać obliczona
problem w kroku s to zatem obliczenie:
µ
J(αµ , Θµ )
(αm
, Θµm ) = arg min
µ
µ
α ,Θ
(5)
gdzie funkcja J to koszt
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Funkcja kosztu
J(αµ , Θµ ) =
+(1 −
n
X
P
exp(−yiµ (ξFµs−1 (xi µ )
i=1
µ µ Pµ
ξ)yi R̂s (xi )
(6)
P
+ αµ Φ(xi µ , Θµ )))
gdzie:
P
R̂µs (xi µ ) - funkcja wpływająca na koszt, biorąca pod uwagę
jakość klasyfikacji poprzedzających etykiet
ξ - parametr kontrolujący poziom wpływu, ξ ∈ h0, 1i
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
R̂µs (xPµ ) =
s−1
X
αiµ Rµ (xPµ )
(7)
i=1
Rµ (xPµ ) =
Pµ−1 l Fl (xPµ )
yP
K
k=1
l=1
αlk
µ
(8)
gdzie:
P
Rµ (xi µ ) oznacza średnią zgodność klasyfikacji między
rzeczywistą etykietą l i Fl (xPµ )
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Zakładają stałe αµ (z równania 5 i 6), funkcja kosztu J może
P
być obliczana względem klasyfikatora bazowego Φ(xi µ , Θµ ):
Θµ = arg min
µ
Θ
n
X
µ
P
wi(s) exp(−yiµ αµ Φ(xi µ , Θµ ))
(9)
i=1
gdzie:
P
P
wiµ( s) = exp(−yiµ (ξFµs−1 (xi µ ) + (1 − ξ)yiµ R̂µs (xi µ )))
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
(10)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
P
wiµ( s) nie zależy od αµ ani od Φ(xi µ , Θµ ) dla każdej
Pµ
obserwacji xi
Pµ
wiµ( m) może być zatem wagą obserwacji xi
Dla binarnych klasyfikatorów bazowych obliczenie Θµ możemy
wykonać:
(
µ
Θ = arg min
µ
Θ
Pµm
=
N
X
µ
)
wi( m) I(1 −
P
yiµ Φ(xi µ , Θµ ))
(11)
i=1
gdzie:
(
I(x) =
0, if x = 0
1, if x > 0
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
(12)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Dla klasyfikatora bazowego w kroku s:
wiµ( s) = Pµs
(13)
wiµ( s) = 1 − Pµs
(14)
X
P
yiµ Φ(xi µ ,Θµ
s )<0)
X
P
yiµ Φ(xi µ ,Θµ
s )>0)
wartość αs otrzymujemy z:
αsµ = arg min
{exp(−αµ )(1 − Pµs ) + exp(αµ )Pµs }
µ
α
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
(15)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Po obliczeniu równania 15 mamy:
αsµ =
1 1 − Pµs
ln
2
Pµs
(16)
P
µ są już obliczone, wagi w
Gdy klasyfikator Φ(xi µ , Θµ ) oraz αm
kroku s + 1 wynoszą:
wiµ( s+1) =
=(17)
Zs
=
P
exp −yiµ ξ Pµ Fµs (xi µ ) + (1 − ξ)yiµ R̂µs (xPµ )
P
wi( s) exp −yiµ ξαsµ Φ(xi µ , Θµs ) − (1 − ξ)αsµ Rµ (xPµ )
Zs
gdzie Zs to czynnik normalizujący.
Zs =
N
X
µ
P
P
wi( s) exp −yiµ ξαsµ Φ(xi µ , Θµs ) − (1 − ξ)αsµ Rµ (xi µ )
i=1
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
(18)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Analiza algorytmu
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Eksperymenty
Eksperymenty
Tablica: Zbiory danych wielo-etykietowych użyte w eksperymentach
1
2
3
4
5
Dane
scene
yeast
emotions
mediamill
tmc2007
Obserwacji
2407
2417
593
12914
21519
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Atrybutów
294
203
72
120
500
Etykiet
6
14
6
101
22
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Eksperymenty
Miary ewaluacji
odległość Hamminga (Hamming Loss)
HL =
n
1X
Lxi 4F(xi )
n i=1
|Lxi |
(19)
(4 to symetryczna różnica zbiorów)
dokładność klasyfikacji (Classification Accuracy)
CA =
n
1X
I(Lxi = F(xi ))
n i=1
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
(20)
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Eksperymenty
Rysunek: Odległość Hamminga dla wybranych algorytmów
klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill,
scene, yeast oraz emotions
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Eksperymenty
Rysunek: Dokładność klasyfikacji dla wybranych algorytmów
klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill,
scene, yeast oraz emotions
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Eksperymenty
Rysunek: Czas pracy wybranych algorytmów klasyfikacji
wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene,
yeast oraz emotions
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Plan prezentacji
1
Klasyfikacja wielo-etykietowa
Wprowadzenie
Metody klasyfikacji wielo-etykietowej
2
Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq
Wprowadzenie do algorytmu
Analiza algorytmu
Eksperymenty
3
Podsumowanie
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Podsumowanie
AdaBoostSeq
klasyfikacja wielo-etykietowa
zmodyfikowany sposób ważenia obserwacji (schemat
próbkowania danych uczących)
klasyfikacja etykiet w ustalonej kolejności
kolejność uczenia ma znaczenie
Wyzwania
odzwierciedlenie rzeczywistych zależności występowania
etykiet
odpowiednie funkcje kosztu
złożoność obliczeniowa
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
[Tellegen et al., 1999] Tellegen, A., Watson, D., Clark, L.A.
On the dimensional and hierarchical structure of affect,
Psychological Science, Vol. 10, No. 4, 1999.
[Read, 2008] Read, J.
A pruned problem transformation method for multi-label
classification.
In: Proc. 2008 New Zealand Computer Science Research
Student Conference (NZCSRS 2008), pp. 143–150, 2008
[Tsoumakas et al., 2007] Tsoumakas, G., Vlahavas, I.
Random k-labelsets: An ensemble method for multilabel
classification.
In: Proc. of the 18th European Conference on Machine
Learning (ECML 2007), pp. 406–417, 2007
[Hullermeier et al., 2008] Hullermeier, E., Furnkranz, J.,
Cheng, W., Brinker, K.
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Label ranking by learning pairwise preferences.
Artificial Intelligence, Vol. 172, pp. 1897–1916, 2008
[Loza Mencia et al., 2008] Loza Mencia, E., Furnkranz, J.
Pairwise learning of multilabel classifications with
perceptrons.
In: Proc. of IEEE International Joint Conference on Neural
Networks (IJCNN-08), pp. 2900–2907, 2008
[Clare et al., 2001] Clare, A., King, R.
Knowledge discovery in multi-label phenotype data.
In: Proc. of the 5th European Conference on Principles of
Data Mining and Knowledge Discovery (PKDD 2001), pp.
42–53, 2001
[Ghamrawi et al., 2005] Ghamrawi, N., McCallum, A.
Collective multi-label classification.
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
In: Proc. of the ACM Conference on Information and
Knowledge Management (CIKM ’05), pp. 195–200, 2005
[Zhang et al., 2006] Zhang, M.L., Zhou, Z.H.
Multi-label neural networks with applications to functional
genomics and text categorization.
IEEE Transactions on Knowledge and Data Engineering,
Vol. 18, pp. 1338–1351, 2006
[Crammer et al., 2003] Crammer, K., Singer, Y.
A family of additive online algorithms for category ranking.
Journal of Machine Learning Research, Vol. 3, pp.
1025–1058, 2003
[Zhang et al., 2007] Zhang, M.L., Zhou, Z.H.
Ml-knn: A lazy learning approach to multi-label learning.
Pattern Recognition, Vol. 40, pp. 2038–2048, 2007
[Schapire et al., 2000] Schapire, R.E. Singer, Y.
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska
Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie
Boostexter: a boosting-based system for text categorization.
Machine Learning, Vol. 39, pp. 35–168, 2000
[Read et al., 2009] Read, J., Pfahringer, B., Holmes, G.,
Frank, E.
Classifier Chains for Multi-label Classification
In: Proc. of European Conference of Machine Learning and
Knowledge Discovery in Databases, pp. 254-269, 2009
[Kajdanowicz et al., 2011] Kajdanowicz T., Kazienko P.
Boosting-based Sequence Prediction
New Generation Computing, Vol. 29, No. 3, pp. 293-307,
2011
Tomasz Kajdanowicz
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Instytut Informatyki, Politechnika Wrocławska

Podobne dokumenty