Rola semantycznego podobieństwa w klasyfikacji

Transkrypt

Rola semantycznego podobieństwa w klasyfikacji
Rola semantycznego podobieństwa w klasyfikacji
dokumentów
Piotr Borkowski, Krzysztof Ciesielski, Mieczysław A. Kłopotek
Instytut Podstaw Informatyki Polskiej Akademii Nauk
ul. Jana Kazimierza 5, 01-248 Warszawa
W pracy prezentujemy, w jaki sposób użycie semantycznego podobieństwa, bazującego na
kategoriach przypisanych do dokumentu, poprawia klasyfikację tekstów.
Nasza grupa badawcza opracowała nową metodę kategoryzacji dokumentów (patrz Ciesielski et al. (2011)), która bazuje na hierarchicznie uporządkowanej taksonomii (tutaj
polskojęzycznej Wikipedii). Metoda ta nadaje dokumentom kategorie z taksonomii w
sposób nienadzorowany. W ten sposób dokument zyskuje reprezentację poprzez kategorie,
które mówią o jego tematyce. Taka reprezentacja stanowi alternatywę / uzupełnienie do
standardowej reprezentacji bag-of-words.
Dysponując kategoriami dokumentu, zdefiniowaliśmy miarę podobieństwa semantycznego, wzorowaną na
mierze podobieństwa synsetów opisanej w Pirrò and Seco (2008). Miara bazuje na pojęciu Most Specific Common Abstraction (MSCA) dla pary
kategorii, czyli najbardziej specyficznej kategorii spośród wszystkich nadkategorii zadanej pary kategorii (patrz
Rysunek 1).
Okazuje się (por. Borkowski and
Ciesielski (2012)), że zastosowanie metody kategoryzacji poprawia wyniki
klasyfikacji tekstów (do z góry usta- Rysunek 1: Kategoria Literatura fantastyczna jalonego zbioru klas, traktowanych ja- ko MSCA, czyli najbardziej specyficzna nadkako etykiety kategorii). Eksperymenty tegoria dwóch zadanych kategorii
przeprowadzone na zbiorze będącym
podzbiorem taksonomii DMOZ (http://www.dmoz.org) wykazały, że zastosowanie wiedzy o semantyce dokumentu przy jego klasyfikacji (poprzez użycie kategoryzacji jako
dodatkowego klasyfikatora przy konstrukcji komitetu klasyfikatorów) poprawia jakość tej
klasyfikacji (patrz Tabela 1).
Najnowsze wyniki naszych badań demonstrują możliwość poprawy wyników klasyfikacji z wykorzystaniem reprezentacji kategoryjnej także w sytuacji, która stanowiła dotychczas bardzo poważne i trudne wyzwanie, mianowicie gdy dla zbiorów uczących i testowych
występuje zjawisko semantic gap (w szczególności te same treści opisywane są za pomocą
innych pojęć o zbliżonym znaczeniu). W Tabeli 2 znajdują się wartości miary precision
1
Nazwa
Klasyfikator
Klasyfikator
Klasyfikator
Komitet
Komitet
klasyfikatorów
Komitet
klasyfikatorów
opis
Winnow
Bayes
L-LDA
10xBayes i 10xWinnow
10xBayes i 10xWinnow
+ 3 kat. z kategoryzatora
z wagami 7,5,3
10xBayes i 10xWinnow
+ llda 5.0
+ 3 kat. z kategoryzatora
z wagami 7,5,3
krótkie
0, 461
0, 182
0, 252
0, 467
0, 456
0,489
Precision
średnie długie
0, 572
0, 613
0, 251
0, 318
0, 402
0, 578
0, 592
0, 633
0, 573
0, 656
0,603
0,672
Tabela 1: Wartości miary precision, w rozbiciu względem długości dokumentów, dla kategoryzacji przeprowadzonej na podzbiorze kolekcji DMOZ
dla klasyfikacji dokumentów o tematyce medycznej, pochodzących z różnych katalogów
domeny www.rynekzdrowia.pl. Korpusem uczącym były wiadomości na temat różnych
dziedzin wiedzy, w tym medycyny, pochodzące z domeny www.kopalniawiedzy.pl. Występujący w tabeli termin klasyfikacja semantyczna oznacza metodę klasyfikacji opartą
na kategoryzacyjnej reprezentacji dokumentów i mierze bazującej na omówionym powyżej semantycznym podobieństwie. Przy zmianie terminologii używanej w zbiorze testowym (w porównaniu ze zbiorem trenującym) metody tradycyjne oparte na reprezentacji
bag-of-words nie znajdują analogii, co skutkuje znacznym obniżeniem jakości. Metody
używające rozszerzonej reprezentacji semantycznej opartej na kategoriach, radzą sobie w
tym przypadku dużo lepiej.
Ginekologia
Kardiologia
Onkologia
Klasyfikacja na słowach
0.404 Bayes 0.074 Winnow
0.782 Bayes 0.350 Winnow
0.758 Bayes 0.227 Winnow
Klasyfikacja „semantyczna”
0.842
0.900
0.868
Tabela 2: Wartości miary precision dla klasyfikacji tradycyjnej (Bayes, Winnow) oraz
„semantycznej klasyfikacji” (opartej na kategoryzacji)
Literatura
Borkowski, P. and Ciesielski, K. (2012). Etykietowanie dokumentów tekstowych z wykorzystaniem niejednorodnych komitetów klasyfikatorów i semantycznej kategoryzacji,
Proceedings of Artificial Intelligence Studies. XIII International Conference on Artificial Intelligence AI-26’2012, pp. 71–82.
Ciesielski, K., Borkowski, P., Klopotek, M. A., Trojanowski, K. and Wysocki, K. (2011).
Wikipedia-based document categorization., Security and Intelligent Information Systems, SIIS 2011, Warsaw, Poland, June 13-14, 2011, pp. 265–278.
Pirrò, G. and Seco, N. (2008). Design, implementation and evaluation of a new semantic
similarity metric combining features and intrinsic information content, On the Move to
Meaningful Internet Systems, Vol. 5332 of LNCS, Springer, pp. 1271–1288.
2