Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Transkrypt
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu
Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji Instytutu Informatyki Politechniki Poznańskiej oraz Sekcji ”Inteligentnych Systemów Wspomagania Decyzji oraz Obliczeń Elastycznych Komitetu Informatyki PAN” Tomasz Kajdanowicz Instytut Informatyki, Politechnika Wrocławska 8 listopada 2011 Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Plan prezentacji 1 Klasyfikacja wielo-etykietowa Wprowadzenie Metody klasyfikacji wielo-etykietowej 2 Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Wprowadzenie do algorytmu Analiza algorytmu Eksperymenty 3 Podsumowanie Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Plan prezentacji 1 Klasyfikacja wielo-etykietowa Wprowadzenie Metody klasyfikacji wielo-etykietowej 2 Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Wprowadzenie do algorytmu Analiza algorytmu Eksperymenty 3 Podsumowanie Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie Wprowadzenie X = {x1 , x2 , . . . , xn } - przestrzeń obserwacji L = {λ1 , λ2 , . . . , λm } - skończony zbiór etykiet (x, Lx ) ∈ X × 2L - krotka obserwacja-etykiety Klasyfikacja jedno-etykietowa obserwacja x ∈ X jest skojarzona z pojedynczą etykietą l∈L cel: nauka klasyfikatora H : X −→ L Klasyfikacja wielo-etykietowa obserwacja x ∈ X może być skojarzona z podzbiorem etykiet L ∈ 2L cel: nauka klasyfikatora H : X −→ 2L Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie Przykłady klasyfikacji wielo-etykietowej Kategoryzacja emocjonalna muzyki Model emocji Tellegen-Watson-Clark[1] Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie Przykłady klasyfikacji wielo-etykietowej Typ danych tekst Zadanie Zasoby Opis kategoryzacja artykuły tekst kategoryzacja strony www tekst kategoryzacja ulubione obrazy annotacja semantyczna annotacja semantyczna detekcja szumu detekcja emocji obrazy Reuters topics (agriculture, fishing) Yahoo! directory (health, science) Bibsonomy tags (sports, science) pojęcie(drzewo, zachód słońca) concepts (tłum, pustynia) wideo dźwięk dźwięk klipy z wiadomościami dźwięk klip muzyczny Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu typ(mowa, szum) emocje(relaksacyjny, spokojny) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie Realizowane zadania Dwa główne zadania w uczeniu nadzorowanym przy użyciu danych wielo-etykietowych: klasyfikacja wielo-etykietowa odwzorowanie przypisujące obserwacji podzbiór etykiet ranking etykiet odwzorowanie przypisujące uporządkowaną według relewancji listę etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie Taksonomia metod Metody transformujące problem niezależne od algorytmów transformują zadanie uczenia do jednego lub więcej zadań uczenia jedno-etykietowego wspierają się szeroką gamą standardowych algorytmów Metody adaptujące algorytmy rozszerzają poszczególne algorytmy Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody transformujące problem dane wielo-etykietowe są konwertowane do postaci jedno-etykietowej klasyfikator jedno-etykietowy zwraca rozkład prawdopodobieństwa klas, który można wykorzystać do rankowania etykiet przykładowe dane: L.p. 1 2 3 4 Obserwacja (X) x1 x2 x3 x4 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Etykiety(L) {λ1 , λ4 } {λ3 , λ4 } {λ1 } {λ2 , λ3 , λ4 } Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody transformujące problem Proste transformacje kopiowanie kopiowanie z wagami selekcja najczęstszej etykiety selekcja najrzadszej etykiety selekcja losowa pomijanie wielo-etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody transformujące problem Label powerset (zbiór potęgowy) każdy istniejący unikatowy podzbiór etykiet stanowi jedną nową etykietę złożoność ograniczona przez min(n, 2m ) Przykład rankingu: c λ1,4 λ3,4 λ1 λ2,3,4 p(c|x) 0.7 0.2 0.1 P 0.0 c p(c|x)λj λ1 1 0 1 0 0.8 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu λ2 0 0 0 1 0.0 λ3 0 1 0 1 0.2 λ4 1 1 0 1 0.9 Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody transformujące problem Pruned problem transformation[2] rozszerzenie metody Label powerset (zbióru potęgowego) odrzuca etykiety występujące rzadziej od zdefiniowanego progu Random k-labelsets (RAkEL)[3] buduje rodzinę klasyfikatorów dla losowo wybranych zbiorów k-elementowych podzbiorów potęgowych etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody transformujące problem Binarna relewancja uczenie m binarnych klasyfikatorów, po jednym dla każdej z etykiet w L m zbiorów uczących postaci (x, I(λj )), gdzie I(λj ) pozytywne dla obserwacji posiadającej etykietę λj oraz negatywne wpp. Ranking by pairwise comparison[4] transformuje zbiór wielo-etykietowy do m(m−1) binarnych 2 zbiorów jedno-etykietowych, dla każdej pary (λi , λj ), 1 ¬ i ¬ j ¬ m zbiory uczące zawierają obserwacje z etykietami λi ⊕ λj przykład: Multi-label pairwise perceptron (MLPP)[5] Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Zmodyfikowany algorytm C4.5[6] strategia próbkowania obserwacji wielo-etykietowych przy użyciu m-estymacji (generalizacji estymacji Laplace’a), biorącej pod uwagę prawdopodobieństwo a priori etykiet wiele etykiet dozwolonych w liściach entropia: − m j=1 (p(λj )logp(λj ) + q(λj )logq(λj )), gdzie p(λj ) to empiryczna częstość klasy λj , a q(λj ) = 1 − p(λj ) P Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Użycie podejścia CRF (warunkowych pól losowych)[7] dwa modele graficzne parametryzujące współwystępowanie etykiet przez oznacznie klik(czarne kwadraty) (a)-parametryzacja jednej etykiety i jednej cechy, (b)-dodatkowo parametryzacja par etykiet, (c)-parametryzacja dla każdej etykiety, każdej cechy oraz każdej pary etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Back-propagation perceptron for multi-label learning BP-MLL[8] adaptacja popularnego algorytmu z pętlą zwrotną dla klasyfikacji wielo-etykietowej modyfikacja funkcji błędu, która bierze pod uwagę wiele etykiet Multi-class multi-label perceptron (MMP)[9] rodzina algorytmów dla rankingów etykiet bazująca na perceptronie perceptron dla każdej z etykiet uaktualnianie wag - zgodność rankingu dla wszystkich etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Multi-label kNN (ML-kNN)[10] wyszukanie k najbliższych sąsiadów agregacja podzbiorów etykiet zgodnie prawdopodobieństwem a posteriori dla każdej z etykiet Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Classifier Chain Model (Łańcuch klasyfikatorów)[12] Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy AdaBoost.MH[11] minimalizuje odległość Hamminga AdaBoost.MR[11] szuka hipotez, które prawidłowo umiejscawiają prawdziwe etykiety na szczycie rankingu Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Plan prezentacji 1 Klasyfikacja wielo-etykietowa Wprowadzenie Metody klasyfikacji wielo-etykietowej 2 Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Wprowadzenie do algorytmu Analiza algorytmu Eksperymenty 3 Podsumowanie Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie do algorytmu Algorytm AdaBoostSeq[13] AdaBoostSeq zmodyfikowany sposób ważenia obserwacji (schemat próbkowania danych uczących) modyfikacja funkcji kosztu klasyfikacja wielo-etykietowa Oznaczenia yiµ ∈ {−1, 1}, dla i = 1, 2, . . . , n i µ = 1, 2, . . . , m reprezentuje obecność etykiet: odpowiednio λ1 , λ2 , . . . , λm m - liczba etykiet n - liczba obserwacji Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Wprowadzenie do algorytmu AdaBoostSeq Cel Skonstruować m liniowych kombinacji rodziny K klasyfikatorów postaci: ∀µ = 1, 2, . . . , m Fµ (xPµ ) = K X µ αk Φ(xPµ , Θµk ) (1) k=1 Fµ (xPµ ) to meta-klasyfikator dla µ-tej etykiety Φ(xPµ , Θµk ) reprezentuje k-ty klasyfikator bazowy z Θµk parametrami klasyfikujący binarnie każdą obserwację x αkµ waga k-tego klasyfikatora Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Nieznane wartości otrzymujemy z optymalizacji dla każdej etykiety µ: arg min µ N X αµ ,Θk ,k:1,K k P exp(−yiµ Fµ (xi µ )) (2) i=1 bezpośrednia optymalizacja bardzo skomplikowana rozwiązanie z wykorzystaniem iteracyjnej minimalizacji suma częściowa kroku s: Fµs (xPµ ) = s X µ αk Φ(xPµ , Θµk ), s = 1, 2, . . . , K (3) k=1 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Z równania 3 mamy naturalną rekursję: Fµs (xPµ ) = Fµs−1 (xPµ ) + αs Φ(xPµ , Θµs ) (4) przed obliczeniem Fµs (xPµ ), wartość Fµs−1 (xPµ ) musiała już zostać obliczona problem w kroku s to zatem obliczenie: µ J(αµ , Θµ ) (αm , Θµm ) = arg min µ µ α ,Θ (5) gdzie funkcja J to koszt Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Funkcja kosztu J(αµ , Θµ ) = +(1 − n X P exp(−yiµ (ξFµs−1 (xi µ ) i=1 µ µ Pµ ξ)yi R̂s (xi ) (6) P + αµ Φ(xi µ , Θµ ))) gdzie: P R̂µs (xi µ ) - funkcja wpływająca na koszt, biorąca pod uwagę jakość klasyfikacji poprzedzających etykiet ξ - parametr kontrolujący poziom wpływu, ξ ∈ h0, 1i Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu R̂µs (xPµ ) = s−1 X αiµ Rµ (xPµ ) (7) i=1 Rµ (xPµ ) = Pµ−1 l Fl (xPµ ) yP K k=1 l=1 αlk µ (8) gdzie: P Rµ (xi µ ) oznacza średnią zgodność klasyfikacji między rzeczywistą etykietą l i Fl (xPµ ) Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Zakładają stałe αµ (z równania 5 i 6), funkcja kosztu J może P być obliczana względem klasyfikatora bazowego Φ(xi µ , Θµ ): Θµ = arg min µ Θ n X µ P wi(s) exp(−yiµ αµ Φ(xi µ , Θµ )) (9) i=1 gdzie: P P wiµ( s) = exp(−yiµ (ξFµs−1 (xi µ ) + (1 − ξ)yiµ R̂µs (xi µ ))) Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu (10) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu P wiµ( s) nie zależy od αµ ani od Φ(xi µ , Θµ ) dla każdej Pµ obserwacji xi Pµ wiµ( m) może być zatem wagą obserwacji xi Dla binarnych klasyfikatorów bazowych obliczenie Θµ możemy wykonać: ( µ Θ = arg min µ Θ Pµm = N X µ ) wi( m) I(1 − P yiµ Φ(xi µ , Θµ )) (11) i=1 gdzie: ( I(x) = 0, if x = 0 1, if x > 0 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu (12) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Dla klasyfikatora bazowego w kroku s: wiµ( s) = Pµs (13) wiµ( s) = 1 − Pµs (14) X P yiµ Φ(xi µ ,Θµ s )<0) X P yiµ Φ(xi µ ,Θµ s )>0) wartość αs otrzymujemy z: αsµ = arg min {exp(−αµ )(1 − Pµs ) + exp(αµ )Pµs } µ α Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu (15) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Po obliczeniu równania 15 mamy: αsµ = 1 1 − Pµs ln 2 Pµs (16) P µ są już obliczone, wagi w Gdy klasyfikator Φ(xi µ , Θµ ) oraz αm kroku s + 1 wynoszą: wiµ( s+1) = =(17) Zs = P exp −yiµ ξ Pµ Fµs (xi µ ) + (1 − ξ)yiµ R̂µs (xPµ ) P wi( s) exp −yiµ ξαsµ Φ(xi µ , Θµs ) − (1 − ξ)αsµ Rµ (xPµ ) Zs gdzie Zs to czynnik normalizujący. Zs = N X µ P P wi( s) exp −yiµ ξαsµ Φ(xi µ , Θµs ) − (1 − ξ)αsµ Rµ (xi µ ) i=1 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu (18) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Analiza algorytmu Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Eksperymenty Eksperymenty Tablica: Zbiory danych wielo-etykietowych użyte w eksperymentach 1 2 3 4 5 Dane scene yeast emotions mediamill tmc2007 Obserwacji 2407 2417 593 12914 21519 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Atrybutów 294 203 72 120 500 Etykiet 6 14 6 101 22 Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Eksperymenty Miary ewaluacji odległość Hamminga (Hamming Loss) HL = n 1X Lxi 4F(xi ) n i=1 |Lxi | (19) (4 to symetryczna różnica zbiorów) dokładność klasyfikacji (Classification Accuracy) CA = n 1X I(Lxi = F(xi )) n i=1 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu (20) Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Eksperymenty Rysunek: Odległość Hamminga dla wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Eksperymenty Rysunek: Dokładność klasyfikacji dla wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Eksperymenty Rysunek: Czas pracy wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Plan prezentacji 1 Klasyfikacja wielo-etykietowa Wprowadzenie Metody klasyfikacji wielo-etykietowej 2 Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Wprowadzenie do algorytmu Analiza algorytmu Eksperymenty 3 Podsumowanie Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Podsumowanie AdaBoostSeq klasyfikacja wielo-etykietowa zmodyfikowany sposób ważenia obserwacji (schemat próbkowania danych uczących) klasyfikacja etykiet w ustalonej kolejności kolejność uczenia ma znaczenie Wyzwania odzwierciedlenie rzeczywistych zależności występowania etykiet odpowiednie funkcje kosztu złożoność obliczeniowa Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie [Tellegen et al., 1999] Tellegen, A., Watson, D., Clark, L.A. On the dimensional and hierarchical structure of affect, Psychological Science, Vol. 10, No. 4, 1999. [Read, 2008] Read, J. A pruned problem transformation method for multi-label classification. In: Proc. 2008 New Zealand Computer Science Research Student Conference (NZCSRS 2008), pp. 143–150, 2008 [Tsoumakas et al., 2007] Tsoumakas, G., Vlahavas, I. Random k-labelsets: An ensemble method for multilabel classification. In: Proc. of the 18th European Conference on Machine Learning (ECML 2007), pp. 406–417, 2007 [Hullermeier et al., 2008] Hullermeier, E., Furnkranz, J., Cheng, W., Brinker, K. Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Label ranking by learning pairwise preferences. Artificial Intelligence, Vol. 172, pp. 1897–1916, 2008 [Loza Mencia et al., 2008] Loza Mencia, E., Furnkranz, J. Pairwise learning of multilabel classifications with perceptrons. In: Proc. of IEEE International Joint Conference on Neural Networks (IJCNN-08), pp. 2900–2907, 2008 [Clare et al., 2001] Clare, A., King, R. Knowledge discovery in multi-label phenotype data. In: Proc. of the 5th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD 2001), pp. 42–53, 2001 [Ghamrawi et al., 2005] Ghamrawi, N., McCallum, A. Collective multi-label classification. Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie In: Proc. of the ACM Conference on Information and Knowledge Management (CIKM ’05), pp. 195–200, 2005 [Zhang et al., 2006] Zhang, M.L., Zhou, Z.H. Multi-label neural networks with applications to functional genomics and text categorization. IEEE Transactions on Knowledge and Data Engineering, Vol. 18, pp. 1338–1351, 2006 [Crammer et al., 2003] Crammer, K., Singer, Y. A family of additive online algorithms for category ranking. Journal of Machine Learning Research, Vol. 3, pp. 1025–1058, 2003 [Zhang et al., 2007] Zhang, M.L., Zhou, Z.H. Ml-knn: A lazy learning approach to multi-label learning. Pattern Recognition, Vol. 40, pp. 2038–2048, 2007 [Schapire et al., 2000] Schapire, R.E. Singer, Y. Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska Klasyfikacja wielo-etykietowa Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Podsumowanie Boostexter: a boosting-based system for text categorization. Machine Learning, Vol. 39, pp. 35–168, 2000 [Read et al., 2009] Read, J., Pfahringer, B., Holmes, G., Frank, E. Classifier Chains for Multi-label Classification In: Proc. of European Conference of Machine Learning and Knowledge Discovery in Databases, pp. 254-269, 2009 [Kajdanowicz et al., 2011] Kajdanowicz T., Kazienko P. Boosting-based Sequence Prediction New Generation Computing, Vol. 29, No. 3, pp. 293-307, 2011 Tomasz Kajdanowicz Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Instytut Informatyki, Politechnika Wrocławska