recenzja 1

Transkrypt

recenzja 1
Prof. dr hab. Stanisław Matwin Instytut Podstaw Informatyki PAN Canada Research Chair Dalhousie University, Halifax, Kanada 24.02.2013 Recenzja pracy doktorskiej “Improving Rule Classifiers For Imbalanced Data” mgr inż. Krystyny Napierały W swej rozprawie doktorskiej autorka zajmuje się istotną i ciekawą problematyką uczenia się ze zbiorów danych o rozkładzie niezrównoważonym (bądź skośnym). Praca zawiera trzy zasadnicze osiągnięcia, mianowicie: 
charakteryzację czterech różnych rodzajów przykładów mniejszościowych ze względu na ich stopień trudności w procesie indukcji klasyfikatora na danych o rozkładzie niezrównoważonym 
algorytm klasyfikatora regułowego BRACID uczącego się ze zbiorów niezrównoważonych 
algorytm ABMOLDELEM uczący się z danych opatrzonych „uzasadnieniami” (argumentation) Każde z tych trzech zagadnień opracowanych i rozwiniętych w pracy doktorskiej stanowi istotny wkład do nauki i praktyki informatyki, a w szczególności eksploracji danych i maszynowego uczenia się. W mojej opinii, metoda charakteryzacji przykładów w konkretnym kontekście zadania uczenia się z danych niezrównoważonych jest być może osiągnięciem najbardziej trwałym i o największym potencjalnym „impakcie”. Jest to charakteryzacja oparta na analizie sąsiedztwa przykładów mniejszościowych, w swej istocie prosta, elegancka i intuicyjnie poprawna. Charakteryzacja ta została przez autorkę poddana rygorystycznym badaniom eksperymentalnym, polegającym na zbadaniu jej wrażliwości i stabilności w zależności od wartości przyjętych parametrów, na pokazaniu że stopień trudności jest zgodny z pomysłowo zrealizowaną wizualizacją danych, na analizie jakości wyników klasyfikatora budowanego na danych każdego z czterech typów, na analizie jej zgodności z grupowaniem danych przez funkcję jądra Epanecznikowa, i wreszcie na zbadaniu wpływu metod wstępnego równoważenia danych (preprocessing methods) na tak opisaną trudność danych. Każdy z tych sprawdzianów i ich całość wskazują przekonywująco, że autorka zbudowała trafną charakterystykę rodzajów trudności napotykanych przy klasyfikacji przykładów mniejszościowych. Byłoby moim zdaniem interesujące pokuszenie się o następny logiczny krok, a mianowicie o próbę zaproponowania matrycy rekomendacji dotyczącej użycia (lub nieużywania) konkretnego algorytmu wstępnego równoważenia danych lub konkretnego algorytmu uczącego się w zależności od profilu całego zbioru danych, zbudowanego z użyciem przedstawionego w rozprawie języka czterech rodzajów przykładów (np. rodzaj tabeli z rekomendacjami). Mam też na myśli pewną kwestię, na temat której ciekaw bym był poznać opinię doktorantki. Chodzi mi możliwy związek charakterystyki stopnia trudności przykładów w oparciu o własności ich sąsiedztw z teorią uczenia się, a konkretnie z Wapnikowskim pojęciem wymiaru VC i "rozbijalnością" (shattering) zbioru danych. Ogólnie bowiem trudność ta będzie zależała też od konkretnego klasyfikatora, jego "geometrii" czy też "skłonności" (bias). Krótka dyskusja możliwości tego związku, lub też jego braku, w wersji końcowej pracy, byłaby nie tylko ciekawa, lecz dowiązywałaby pracę do teorii uczenia się. Następnym ciekawym osiągnięciem jest oryginalne użycie przez autorkę metody "indukcji z uzasadnieniem” (argumentation‐based learning) zaproponowanej przez prof. I. Bratko do zadania uczenia się z danych niezrównoważonych. Ta ciekawa metoda, moim zdaniem niedoceniona przez środowisko, istotnie świetnie pasuje do zadania autorki. W procesie jej użycia został rozwiązany szereg nietrywialnych problemów technicznych, np. miara odległości między regułą a przykładem. Oprócz tego nowością jest też zaproponowana w pracy metoda wyboru przykładów wymagających uzasadnienia. Eksperymenty przedstawione w pracy pokazują, że dla danych niezrównoważonych ABMOLDELEM daje wyniki lepsze niż metody uczenia się reguł bez uzasadnienia. Naturalne byłoby empiryczne porównanie ABMODELEM z BRACID, ale o ile się nie mylę w pracy brak takiego eksperymentu ‐ zamieszczona jest jedynie ogólna dyskusja na str. 105. Bardzo ciekawym pomysłem autorki, o którym też myślałem w trakcie lektury rozprawy, jest użycie w ABMODELEM metody generacji próbek danych, zapożyczonej z aktywnego uczenia się (active learning). Być może inne techniki używane w aktywnym uczeniu się też mogłyby być przydatne w ewentualnej kontynuacji tych badań. Trzecim osiągnięciem pracy jest oryginalna metoda uczenia się reguł na danych o rozkładzie niezrównoważonym, nazwana BRACID. Algorytm BRACID używa oryginalnego podejścia do wstępującego (bottom‐up) uogólnienia danych. Wydaje się, że można się doszukiwać podobieństwa między wprowadzonym w pracy pojęciem najkonkretniejszego uogólnienia (most specific generalization), a pojęciem least general generalization wprowdzonym przez Plotkina i opartym na znanej i dobrze zbadanej w logice strukturze kraty. W pracy przedstawione i omówione są wyniki dogłębnych eksperymentów na dużej liczbie zbiorów danych, wykazujących że BRACID działa lepiej niż konkurencyjne algorytmy, a także lepiej niż znane metody wstępnego równoważenia danych. Jest to niewątpliwie znaczący, oryginalny wynik autorki. Praca odznacza się bardzo dobrą znajomością metodologii badań w dziedzinie algorytmów uczących się, od krytycznego wyboru miar oceny klasyfikatorów do wyjątkowo skrupulatnej analizy istotności statystycznej wyników. Mam tu na myśli kompetentne użycie testów Friedmana, Nemenyi a także Wilcoxona, podczas gdy w literaturze autorzy najczęściej ograniczają się do niekoniecznie poprawnej analizy t‐testu Studenta. Ponadto dyskusje rozwiązań i wyników są bardzo dojrzałe i wykazują że autorka ma dobrze ukształtowane i głębokie intuicje dotyczące zagadnień uczenia się z przykładów. Praca jest napisana biegłą, gładką angielszczyzną z nieomalże wartką narracją, tak że czyta się ją łatwo i z zaciekawieniem. Bardzo podobało mi się też polskie streszczenie pracy, głównie jako możliwość zapoznania się z polską terminologią pojęć, dla których terminologia ta była mi nieznana. Myślę że autorka kilka takich terminów zostało (pomyślnie!) stworzonych przez autorkę na potrzeby jej badań, jak np. terminy "przykłady mniejszościowe" lub "uczenie z kosztami". W kilku rozdziałach rozprawa daje dobry przegląd odnośnej literatury, np. klasyfikatorów regułowych, lub metod uczenia się z danych niezrównoważonych. Literatura tematu przedstawiona jest w sposób wyczerpujący, tak że trudno mi nawet wymienić choć jedną pominiętą pozycję. Bardzo istotny jest też fakt, że większość wyników przedstawionych w rozprawie została opublikowana w międzynarodowych konferencjach (ze sprawozdaniami w Springer Verlag) lub pismach (w sumie aż siedem prac, w tym dwie lub trzy w prestiżowych pismach), za co należą się wyrazy uznania przede wszystkim autorce, ale zapewne też i promotorowi. Podsumowując, w swej rozprawie mgr inż. Krystyna Napierała wykazała się umiejętnościami prowadzenia badań naukowych, prowadzenia złożonych eksperymentów, analizy ich wyników, a także syntetycznego spojrzenia na swą dziedzinę badań. Jej wyniki maja znaczenie dla maszynowego uczenia się i będą ze sporym prawdopodobieństwem cytowane w literaturze poświęconej klasyfikatorom regułowym i systemom uczącym się z danych niezrównoważonych. W mojej opinii rozprawa reprezentuje poziom odpowiadający dobrym pracom doktorskim we wiodących ośrodkach światowych. Uważam więc, że praca zdecydowanie spełnia wymagania ustawowe stawiane rozprawom doktorskim i może być dopuszczona do obrony. Biorąc pod uwagę wysoką w mojej opinii jakość pracy chciałbym wyrazić nadzieję, że Rada Wydziału będzie mogła rozważyć wyróżnienie rozprawy. Stanisław Matwin Halifax, 24.02.2013