Automatyczna ekstrakcja informacji z tekstu EPI - IV Zadanie:

Transkrypt

Automatyczna ekstrakcja informacji z tekstu EPI - IV Zadanie:
Automatyczna ekstrakcja informacji z tekstu
EPI - IV
Zadanie:
Zbudować system ekstrahujący informację z tekstu krótkich notatek prasowych za
pomocą ręcznie przygotowanego schematu informacyjnego.
1. Na wejściu zbiór 30 notatek przechowywanych w jednym pliku. Zbiór zawiera
notatki, przekazujące informację poszukiwaną oraz przekazujące informację inną
niż poszukiwana (nie mniej niż 5)
2. Na wyjściu widzimy dla każdego analizowanego tekstu:
a. notatkę + ocenę dopasowania do schematu
b. schemat wypełniony elementami tekstu
c. regułę oceny dopasowania
3. Potrzebny będzie podgląd pliku, zwierającego:
a. reguły dopasowania
b. reguły oceny dopasowania
c. zbiór notatek
Składniki algorytmu
•
•
•
•
Klasyczny algorytm ekstrakcji schemat przygotowywany ręcznie w postaci
formularza (profilu),
Zbiór reguł dopasowania schematu i tekstu – reguły „wypełniają formularz”
Zbiór reguł rozszerzających reguły dopasowania – stosowane, gdy reguły
dopasowania dadzą wynik negatywny
Zbiór reguł oceny dopasowania
Schemat informacyjny1
Przykładowy schemat służący ekstrakcji informacji o pewnego typu zdarzeniach,
powiedzmy napadach lub rabunkach, mógłby mieć postać:
Zdarzenie
Sprawca
Cel
Obiekt
Miejsce
Narzędzie
Czas
Reguły dopasowania
Formularz wypełniają reguły dopasowania schematu i tekstu, np.
napad, rabunek, kradzież => Zdarzenie
nieznany, napastnik, mężczyzna, gangster => Sprawca
pieniądze, 3000 zł, gotówka => Cel
bank, konwój bankowy, sklep, kasa => Obiekt
Kraków, Karmelicka = > Miejsce
broń, uzbrojony, nóż, pistolet => Narzędzie
w południe, 12.30, nad ranem => Czas
gdzie po lewej stronie symbolu => występuje lista wyrazów informacyjnie
ważnych, a po prawej o element identyfikujący sekcję formularza.
1
Przykład z wykładu
Zatem dla tekstu:
Wczoraj w Krakowie z banku przy ul. Karmelickiej doszło do rabunku.
Zamaskowany mężczyzna, grożąc bronią zrabował pewną ilość gotówki.
reguły dopasowania wypełnią formularz następująco:
Zdarzenie
Sprawca
Cel
Obiekt
Miejsce
Narzędzie
Czas
rabunek, zrabować
mężczyzna, zamaskowany
gotówka
bank
Kraków, Karmelicka
broń
?
Ponieważ wyraz wczoraj nie został uznany za informacyjnie ważny
reguła dopasowania czasu nie wypełniła swojej sekcji formularza.
Reguły rozszerzające reguły dopasowania
Jeśli reguła dopasowania da wynik negatywny można użyć reguły rozszerzającej
uzyskanej z sieci semantycznej, np.
Jeśli reguła dopasowania
napad, rabunek, kradzież => Zdarzenie
da wynik negatywny, to powinniśmy użyć np. reguły opartej na relacjach
semantycznych np. relacji okaz - typ,
napad, rabunek, kradzież <= przestępstwo
W rezultacie jeśli w tekście wystąpi przestępstwo, to reguła
napad, rabunek, kradzież => Zdarzenie
zostaje uznana za dopasowaną
Reguły oceny dopasowania
Stopień dopasowania schematu i tekstu oceniają reguły analizujące
wypełnienie sekcji formularza, powiedzmy mające postać implikacji. np
If Sprawca & Cel & Obiekt Then dopasowanie 0,7
If Sprawca & Obiekt Then dopasowanie 0,5
Zatem dla formularza:
Zdarzenie
rabunek
Sprawca
mężczyzna, nieznany
Cel
gotówka
Obiekt
bank
Miejsce
Kraków, Karmelicka
Narzędzie
broń
Czas
?
Uzyskany dopasowanie 0,7
W rezultacie tekst
Wczoraj w Krakowie z banku przy ul. Karmelickiej doszło do rabunku.
Zamaskowany mężczyzna, grożąc bronią zrabował pewną ilość gotówki.
Uzyska dopasowanie 0,7
Pozdrawiam
WL