Automatyczna ekstrakcja informacji z tekstu EPI - IV Zadanie:
Transkrypt
Automatyczna ekstrakcja informacji z tekstu EPI - IV Zadanie:
Automatyczna ekstrakcja informacji z tekstu EPI - IV Zadanie: Zbudować system ekstrahujący informację z tekstu krótkich notatek prasowych za pomocą ręcznie przygotowanego schematu informacyjnego. 1. Na wejściu zbiór 30 notatek przechowywanych w jednym pliku. Zbiór zawiera notatki, przekazujące informację poszukiwaną oraz przekazujące informację inną niż poszukiwana (nie mniej niż 5) 2. Na wyjściu widzimy dla każdego analizowanego tekstu: a. notatkę + ocenę dopasowania do schematu b. schemat wypełniony elementami tekstu c. regułę oceny dopasowania 3. Potrzebny będzie podgląd pliku, zwierającego: a. reguły dopasowania b. reguły oceny dopasowania c. zbiór notatek Składniki algorytmu • • • • Klasyczny algorytm ekstrakcji schemat przygotowywany ręcznie w postaci formularza (profilu), Zbiór reguł dopasowania schematu i tekstu – reguły „wypełniają formularz” Zbiór reguł rozszerzających reguły dopasowania – stosowane, gdy reguły dopasowania dadzą wynik negatywny Zbiór reguł oceny dopasowania Schemat informacyjny1 Przykładowy schemat służący ekstrakcji informacji o pewnego typu zdarzeniach, powiedzmy napadach lub rabunkach, mógłby mieć postać: Zdarzenie Sprawca Cel Obiekt Miejsce Narzędzie Czas Reguły dopasowania Formularz wypełniają reguły dopasowania schematu i tekstu, np. napad, rabunek, kradzież => Zdarzenie nieznany, napastnik, mężczyzna, gangster => Sprawca pieniądze, 3000 zł, gotówka => Cel bank, konwój bankowy, sklep, kasa => Obiekt Kraków, Karmelicka = > Miejsce broń, uzbrojony, nóż, pistolet => Narzędzie w południe, 12.30, nad ranem => Czas gdzie po lewej stronie symbolu => występuje lista wyrazów informacyjnie ważnych, a po prawej o element identyfikujący sekcję formularza. 1 Przykład z wykładu Zatem dla tekstu: Wczoraj w Krakowie z banku przy ul. Karmelickiej doszło do rabunku. Zamaskowany mężczyzna, grożąc bronią zrabował pewną ilość gotówki. reguły dopasowania wypełnią formularz następująco: Zdarzenie Sprawca Cel Obiekt Miejsce Narzędzie Czas rabunek, zrabować mężczyzna, zamaskowany gotówka bank Kraków, Karmelicka broń ? Ponieważ wyraz wczoraj nie został uznany za informacyjnie ważny reguła dopasowania czasu nie wypełniła swojej sekcji formularza. Reguły rozszerzające reguły dopasowania Jeśli reguła dopasowania da wynik negatywny można użyć reguły rozszerzającej uzyskanej z sieci semantycznej, np. Jeśli reguła dopasowania napad, rabunek, kradzież => Zdarzenie da wynik negatywny, to powinniśmy użyć np. reguły opartej na relacjach semantycznych np. relacji okaz - typ, napad, rabunek, kradzież <= przestępstwo W rezultacie jeśli w tekście wystąpi przestępstwo, to reguła napad, rabunek, kradzież => Zdarzenie zostaje uznana za dopasowaną Reguły oceny dopasowania Stopień dopasowania schematu i tekstu oceniają reguły analizujące wypełnienie sekcji formularza, powiedzmy mające postać implikacji. np If Sprawca & Cel & Obiekt Then dopasowanie 0,7 If Sprawca & Obiekt Then dopasowanie 0,5 Zatem dla formularza: Zdarzenie rabunek Sprawca mężczyzna, nieznany Cel gotówka Obiekt bank Miejsce Kraków, Karmelicka Narzędzie broń Czas ? Uzyskany dopasowanie 0,7 W rezultacie tekst Wczoraj w Krakowie z banku przy ul. Karmelickiej doszło do rabunku. Zamaskowany mężczyzna, grożąc bronią zrabował pewną ilość gotówki. Uzyska dopasowanie 0,7 Pozdrawiam WL