Rola semantycznego podobieństwa w klasyfikacji
Transkrypt
Rola semantycznego podobieństwa w klasyfikacji
Rola semantycznego podobieństwa w klasyfikacji dokumentów Piotr Borkowski, Krzysztof Ciesielski, Mieczysław A. Kłopotek Instytut Podstaw Informatyki Polskiej Akademii Nauk ul. Jana Kazimierza 5, 01-248 Warszawa W pracy prezentujemy, w jaki sposób użycie semantycznego podobieństwa, bazującego na kategoriach przypisanych do dokumentu, poprawia klasyfikację tekstów. Nasza grupa badawcza opracowała nową metodę kategoryzacji dokumentów (patrz Ciesielski et al. (2011)), która bazuje na hierarchicznie uporządkowanej taksonomii (tutaj polskojęzycznej Wikipedii). Metoda ta nadaje dokumentom kategorie z taksonomii w sposób nienadzorowany. W ten sposób dokument zyskuje reprezentację poprzez kategorie, które mówią o jego tematyce. Taka reprezentacja stanowi alternatywę / uzupełnienie do standardowej reprezentacji bag-of-words. Dysponując kategoriami dokumentu, zdefiniowaliśmy miarę podobieństwa semantycznego, wzorowaną na mierze podobieństwa synsetów opisanej w Pirrò and Seco (2008). Miara bazuje na pojęciu Most Specific Common Abstraction (MSCA) dla pary kategorii, czyli najbardziej specyficznej kategorii spośród wszystkich nadkategorii zadanej pary kategorii (patrz Rysunek 1). Okazuje się (por. Borkowski and Ciesielski (2012)), że zastosowanie metody kategoryzacji poprawia wyniki klasyfikacji tekstów (do z góry usta- Rysunek 1: Kategoria Literatura fantastyczna jalonego zbioru klas, traktowanych ja- ko MSCA, czyli najbardziej specyficzna nadkako etykiety kategorii). Eksperymenty tegoria dwóch zadanych kategorii przeprowadzone na zbiorze będącym podzbiorem taksonomii DMOZ (http://www.dmoz.org) wykazały, że zastosowanie wiedzy o semantyce dokumentu przy jego klasyfikacji (poprzez użycie kategoryzacji jako dodatkowego klasyfikatora przy konstrukcji komitetu klasyfikatorów) poprawia jakość tej klasyfikacji (patrz Tabela 1). Najnowsze wyniki naszych badań demonstrują możliwość poprawy wyników klasyfikacji z wykorzystaniem reprezentacji kategoryjnej także w sytuacji, która stanowiła dotychczas bardzo poważne i trudne wyzwanie, mianowicie gdy dla zbiorów uczących i testowych występuje zjawisko semantic gap (w szczególności te same treści opisywane są za pomocą innych pojęć o zbliżonym znaczeniu). W Tabeli 2 znajdują się wartości miary precision 1 Nazwa Klasyfikator Klasyfikator Klasyfikator Komitet Komitet klasyfikatorów Komitet klasyfikatorów opis Winnow Bayes L-LDA 10xBayes i 10xWinnow 10xBayes i 10xWinnow + 3 kat. z kategoryzatora z wagami 7,5,3 10xBayes i 10xWinnow + llda 5.0 + 3 kat. z kategoryzatora z wagami 7,5,3 krótkie 0, 461 0, 182 0, 252 0, 467 0, 456 0,489 Precision średnie długie 0, 572 0, 613 0, 251 0, 318 0, 402 0, 578 0, 592 0, 633 0, 573 0, 656 0,603 0,672 Tabela 1: Wartości miary precision, w rozbiciu względem długości dokumentów, dla kategoryzacji przeprowadzonej na podzbiorze kolekcji DMOZ dla klasyfikacji dokumentów o tematyce medycznej, pochodzących z różnych katalogów domeny www.rynekzdrowia.pl. Korpusem uczącym były wiadomości na temat różnych dziedzin wiedzy, w tym medycyny, pochodzące z domeny www.kopalniawiedzy.pl. Występujący w tabeli termin klasyfikacja semantyczna oznacza metodę klasyfikacji opartą na kategoryzacyjnej reprezentacji dokumentów i mierze bazującej na omówionym powyżej semantycznym podobieństwie. Przy zmianie terminologii używanej w zbiorze testowym (w porównaniu ze zbiorem trenującym) metody tradycyjne oparte na reprezentacji bag-of-words nie znajdują analogii, co skutkuje znacznym obniżeniem jakości. Metody używające rozszerzonej reprezentacji semantycznej opartej na kategoriach, radzą sobie w tym przypadku dużo lepiej. Ginekologia Kardiologia Onkologia Klasyfikacja na słowach 0.404 Bayes 0.074 Winnow 0.782 Bayes 0.350 Winnow 0.758 Bayes 0.227 Winnow Klasyfikacja „semantyczna” 0.842 0.900 0.868 Tabela 2: Wartości miary precision dla klasyfikacji tradycyjnej (Bayes, Winnow) oraz „semantycznej klasyfikacji” (opartej na kategoryzacji) Literatura Borkowski, P. and Ciesielski, K. (2012). Etykietowanie dokumentów tekstowych z wykorzystaniem niejednorodnych komitetów klasyfikatorów i semantycznej kategoryzacji, Proceedings of Artificial Intelligence Studies. XIII International Conference on Artificial Intelligence AI-26’2012, pp. 71–82. Ciesielski, K., Borkowski, P., Klopotek, M. A., Trojanowski, K. and Wysocki, K. (2011). Wikipedia-based document categorization., Security and Intelligent Information Systems, SIIS 2011, Warsaw, Poland, June 13-14, 2011, pp. 265–278. Pirrò, G. and Seco, N. (2008). Design, implementation and evaluation of a new semantic similarity metric combining features and intrinsic information content, On the Move to Meaningful Internet Systems, Vol. 5332 of LNCS, Springer, pp. 1271–1288. 2