Pobierz plik
Transkrypt
Pobierz plik
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych Andrzej Janusz WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska [email protected] 13.06.2013 Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Dlaczego właśnie podobieństwo? Myślenie... Podejmowanie decyzji i formowanie pojęć sampl eID AFFX3_at 3322_i _at 4969_s _at ... 22095_ s_at 22379 _at Diagno sis GSM1 4.010 12.434 32.443 ... 1.665 12.44 3 GSM2 5.314 43.765 5.763 ... 3.567 7.645 2 GSM3 3.275 17.567 23.842 ... 0.657 12.46 GSM4 2.112 8.432 54.849 ... 87.656 45.32 1 ... ... ... ... ... ... ... ... GSM14 8.453 10.087 8.678 ... 2.986 9.656 3 Podobieństwo 2 Rozwiązywanie problemów Uczenie się Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Zastosowania modeli podobieństwa Przykłady: klasyfikacja i regresja, segmentacja danych, planowanie, rozwiązywanie problemów, wykrywanie nietypowych obiektów, wizualizacja i streszczanie danych. Podstawowa zasada: Podobne obiekty powinny być traktowane podobnie (np. należeć do tej samej klasy decyzyjnej, czy grupy). Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Czym tak naprawdę jest podobieństwo? Trudności ze ścisłą definicją podobieństwa: relacja, czy funkcja? obiektywne, czy subiektywne? bezkontekstowe, czy kontekstowe? globalne, czy lokalne? Czynniki, które wpływają na kontekst to: cel lub zadanie, któremu służy ewaluacja podobieństwa, wiedza o innych znanych obiektach. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Czym tak naprawdę jest podobieństwo? Trudności ze ścisłą definicją podobieństwa: relacja, czy funkcja? obiektywne, czy subiektywne? bezkontekstowe, czy kontekstowe? globalne, czy lokalne? Czynniki, które wpływają na kontekst to: cel lub zadanie, któremu służy ewaluacja podobieństwa, wiedza o innych znanych obiektach. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Idea Tversky-ego Model kontrastu cech: obiekty postrzegane są jako zbiory cech jakościowych, cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane “sensoryczne”, np. dwa samochody są podobne ponieważ są małe i szybkie, ważne są zarówno wspólne jak i wyróżniające cechy obiektów, S(a, b) = θf (A ∩ B) − αf (A \ B) − βf (B \ A), gdzie θ, α, β 0 Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Idea Tversky-ego Model kontrastu cech: obiekty postrzegane są jako zbiory cech jakościowych, cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane “sensoryczne”, np. dwa samochody są podobne ponieważ są małe i szybkie, ważne są zarówno wspólne jak i wyróżniające cechy obiektów, S(a, b) = θf (A ∩ B) − αf (A \ B) − βf (B \ A), gdzie θ, α, β 0 Model Tversky-ego trudno jest zaaplikować do rzeczywistych danych: jak definiować wysokopoziomowe cechy? jak wybrać te istotne w danym kontekście? Propozycja: można wykorzystać teorię zbiorów przybliżonych! Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Założenia proponowanego modelu podobieństwa: Uczenie się podobieństwa w języku zbiorów przybliżonych: wybór istotnych aspektów podobieństwa wysokopoziomowe cechy agregacja argumentów za i przeciw podobieństwu funkcja podobieństwa ↔ wybór przestrzeni aproksymacji ↔ lewe strony reguł ↔ aproksymacja pojęć bycia podobnym i niepodobnym do obiektu ↔ funkcja przynależności do aproksymacji pojęcia Wysokopoziomowe cechy można traktować jak argumenty za lub przeciw podobieństwu obiektów! Aproksymacja podobieństwa do obiektu to zbiór obiektów, do który pasują argumenty za podobieństwem a nie pasują argumety przeciwko. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Konstrukcja proponowanego modelu podobieństwa Dyskretyzacja i generowanie reduktów decyzyjnych osobno dla każdej klasy Generowanie reguł decyzyjnych i wzbraniających Aproksymacja Argumenty pojęć podobieństwa i niepodobieństwa za Podobień- do poszczególnych obiektów stwem dla Klasy 1 Redukt System Decyzyjny dla Decision Reduct Decision Klasy Reduct Decision Reduct Decision Reduct 1 Andrzej Janusz Argumenty przeciw Podobieństwu dla Klasy 1 Regułowy Model Podobieństwa Algorytmy uczenia się podobieństwa z wielowymiarowych danych Opis formalny modelu Aproksymacja podobieństwa i niepodobieństwa: + − F(i) oraz F(i) + F(i) − F(i) SIM(i) (u) = – zbiory cech dla i-tej klasy decyzyjnej, wyznaczone przez reguły decyzyjne i wzbraniające; = f : f → (d = i) ∈ RuleSet(DRi ) ; = f : f → (d 6= i) ∈ RuleSet(DRi ) ; [ [u]f 0 DIS(i) (u) = [ + f ∈F(i) ∧f (u)=1 U\[u]f 1 DIS(i) (u) = − f ∈F(i) ∧f (u)=0 [ Przynależność do SIMd(u1 ) (u1 ): 0 Przynależność do DISd(u (u1 ): 1) (u1 )∩SIMi (u2 )| µ(u2 , SIMi (u1 ))= |SIMi |SIM i (u1 )| ψ(u2 , DISi0 (u1 ))= Andrzej Janusz [u]f − f ∈F(i) ∧f (u)=1 |DISi0 (u1 )∩DISi1 (u2 )| |DISi0 (u1 )| Algorytmy uczenia się podobieństwa z wielowymiarowych danych Dlaczego dane wielowymiarowe? Rysunek: Ilustracja “przekleństwa wielu wymiarów” (z książki Elements of Statistical Learning: Data Mining, Inference and Prediction). typowe metody nie radzą sobie z problemem niewielu obiektów o dużej liczbie cech, duża złożoność obliczeniowa algorytmów uczenia się podobieństwa z danych wielowymiarowych. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Rozszerzenia modelu dla danych wielowymiarowych Główna idea: W przypadku danych wielowymiarowych konieczne jest rozpatrywanie wielu lokalnych modeli podobieństwa, które można interpretować jako autonomicznych agentów z własnymi preferencjami i doświadczeniem. Dwa typy wielowymiarowych danych Dane mikromacierzowe: uczenie z nadzorem redukty dynamiczne reguły decyzyjne i wzbraniające Andrzej Janusz Dane tekstowe: uczenie bez nadzoru biredukty informacyjne pojęcia z ontologii dziedzinowej Algorytmy uczenia się podobieństwa z wielowymiarowych danych Opis eksperymentów na danych mikromacierzowych Microarray data: few-objects-many-attributes problem ≈40k genes (attributes) sampleID AFFX-3_at 3322_i_at 4969_s_at GSM1.CEL 4.010 12.434 32.443 GSM2.CEL 5.314 43.765 5.763 GSM3.CEL 3.275 17.567 23.842 GSM4.CEL 2.112 8.432 54.849 ... ... ... ... GSM149. CEL 8.453 10.087 8.678 Opis danych 11 zbiorów mikromacierzy, liczba obiektów: 124 – 284, ... ... 22095_s_at 22379_at Diagnosis 1.665 12.434 3 ... ... 3.567 7.645 0.657 12.446 2 2 ... ... ... 87.656 45.324 ... ... 2.986 9.656 1 ... 3 Opis eksperymentu wielokrotnie powtarzana weryfikacja krzyżowa, liczba atrybutów: 22k – 61k, miary jakości: ACC i BAC, zbiory pochodzą z repozytorium ArrayExpress. porównywane klasyfikatory: k-NN ∗ , RF , SVM. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych RBS DRBS 50 60 70 80 90 1−NN + corTest 1−NN + t−test 1−NN + relief 40 Balanced classification accuracy (%) 100 Wyniki porównania z wybranymi modelami podobieństwa ALL BTu GPe Andrzej Janusz HFF HGl SSh Algorytmy uczenia się podobieństwa z wielowymiarowych danych 100 Wyniki porównania z wybranymi metodami klasyfikacji SVM DRBS 80 70 60 50 40 30 Balanced classification accuracy (%) 90 RF RF_b. ALL ATC BTu BLy GPe Andrzej Janusz HFF HeC HGl OTu SSh SPs Algorytmy uczenia się podobieństwa z wielowymiarowych danych Opis eksperymentów na danych tekstowych Opis danych zbior 1000 artykułów naukowych z repozytorium PubMed Central, ontologia dziedzinowa MeSH (≈ 26k pojęć), metoda automatycznego etykietowania: ESA, zbiory etykiet nadanych przez ekspertów. Opis eksperymentu grupowanie hierarchiczne artykułów, stosowane algorytmy: agnes i diana, porównywane modele: dwa oparte o miarę kosinusową, zewnętrzna miara oceny jakości grupowania. Ewaluacja wyników Miara zgodności etykiet nadanych przez ekspertów wewnątrz grup. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych 50 100 150 Number of clusters 0.6 0.4 0.2 Average semantic homogenity 0 agnes RBS bireduct diana RBS bireduct agnes RBS single diana RBS single agnes Cosine single diana Cosine single agnes Cosine ens. diana Cosine ens. random clustering 0.0 0.10 0.05 0.00 agnes RBS bireduct diana RBS bireduct agnes RBS single diana RBS single agnes Cosine single diana Cosine single agnes Cosine ensemble diana Cosine ensemble random clustering −0.05 Average semantic homogenity 0.15 0.8 1.0 0.20 Wyniki ewaluacji modelu 0 200 400 600 800 1000 Number of clusters Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Podsumowanie Co się udało? dokonano interpretacji problemu uczenia się podobieństwa z punktu widzenia teorii zbiorów przybliżonych, zaproponowano intuicyjny i elastyczny model uczenia się podobieństwa z danych, opracowano efektywne algorytmy działające dla wielowymiarowych zbiorów danych, Kierunki na przyszłość: lepsze wykorzystanie wiedzy dziedzinowej, optymalizacja wydajności obliczeniowej dla dużych zbiorów danych, stworzenie wysokopoziomowego środowiska do eksperymentów. przeprowadzono dokładną ewaluację zaproponowanego podejścia. Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych Dziękuję za uwagę! Andrzej Janusz Algorytmy uczenia się podobieństwa z wielowymiarowych danych