slajdy - WordPress.com

Transkrypt

Wydobywanie reguł na potrzeby
ujednoznaczniania morfo-syntaktycznego oraz
płytkiej analizy składniowej tekstów polskich
Adam Radziszewski
Instytut Informatyki Stosowanej PWr
SIIS 23, 12 czerwca 2008
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
O czym będzie mowa
1 Wprowadzenie
2 Przetwarzanie morfo-syntaktyczne
3 Stan badań
4 Propozycja
5 Podsumowanie
2 / 24
Wprowadzenie
Zadania przetwarzania tesktu (1)
Wydobywanie informacji z tekstu
Duży zbiór dokumentów tekstowych, np. raportów medycznych
Potrzeba informacyjna użytkownika
Automatyczne wypełnienie rekordów, np. hP, O, S, C i:
Pacjent P przyjęty na oddział O szpitala S
po rozpoznaniu jednostki chorobowej C
Maszynowe tłumaczenie
Wejście: tekst w języku J
Wyjście: tekst w języku K
Automatyczne streszczanie
Wejście: tekst w języku J
Wyjście: krótszy tekst w języku J zawierający najistotniejsze
informacje z tekstu wejściowego
3 / 24
Wprowadzenie
Trudne i złożone zadania
Wstępne przetworzenie tekstu wejściowego pozwala
abstrahować od cech morfologicznych i składniowych
Redukcja niejednoznaczności
ogromna przepaść
jak można tak przepaść
Ustalenie ról pełnionych przez wyrazy
Prezydent odwiedził ministra
Prezydenta odwiedził minister
4 / 24
Wprowadzenie
Dziedzina: przetwarzanie języka naturalnego
Rozpatrywane poziomy: morfologia i składnia
Dążymy do opracowania uniwersalnych metod przetwarzania
języka polskiego, które ułatwią wykonywanie innych zadań
Zastosowanie praktyczne: stworzenie narzędzi do
przetwarzania języka polskiego potrzebnych w ramach
projektów realizowanych w instytucie
Common Language Resources and INfrastructure
Wspomaganie decyzji — systemy nowej generacji
5 / 24
Przetwarzanie morfo-syntaktyczne
Analiza morfologiczna (1)
Klasyfikacja każdego wystąpienia jednostki leksykalnej
(tokenu)
Realizowana jest poprzez przypisanie znacznika
określającego:
klasę słowa (część mowy),
wybrane własności wyrazu (głównie związane z odmianą)
Analiza morfologiczna M : W → 2T
T — skończony ustalony zbiór znaczników, które mogą być
przypisane jednostce leksykalnej.
W — zbiór tokenów
6 / 24
Analiza morfologiczna (2)
Nie patrzymy na kontekst wystąpienia
Analiza morfologiczna jest wieloznaczna M : W → 2T
przepaść
czasownik,
rzeczownik,
rzeczownik,
bezokolicznik
mianownik,
biernik,
rodzaj żeński,
rodzaj żeński,
l. poj.
l. poj.
Kilka analizatorów dla języka polskiego
Morfeusz Marcina Wolińskiego rozpoznaje 1 700 000 form
Odgadywacz — ponad 70% dokładności
[Piasecki, Radziszewski 2007]
7 / 24
Ujednoznacznianie morfo-syntaktyczne (1)
Wybieramy właściwy w danym kontekście znacznik
Uzyskujemy przypisanie każdemu tokenowi dokładnie
jednego znacznika
Narzędzia ujednoznacznianiające nazywane są tagerami
Aby ocenić jakość tagera, potrzebujemy wzorcowego tekstu
oznakowanego ręcznie
Trafność tagera (accuracy): procent tokenów oznaczonych
prawidłowo
8 / 24
Po analizie morfologicznej
wielka
przymiotnik, mianownik, rodzaj żeński, l. poj.
przepaść
czasownik, bezokolicznik
rzeczownik, mianownik,
rodzaj żeński, l. poj.
rzeczownik, biernik,
9 / 24
Po ujednoznacznieniu morfo-syntaktycznym
wielka
przymiotnik, mianownik, rodzaj żeński, l. poj.
przepaść
czasownik, bezokolicznik
rzeczownik, mianownik,
rzeczownik, biernik,
10 / 24
Kontekst a ujednoznacznianie morfo-syntaktyczne
Tybetańskie władze na wygnaniu przekonują, że liczba ofiar jest o wiele większa i sięga ponad 150 osób.
*
*
*
Tybetańskie władze na wygnaniu
*
*
Tybetańskie władze na wygnaniu przekonują
*
Tybetańskie władze na wygnaniu przekonują,
Tybetańskie władze na wygnaniu przekonują, że
władze na wygnaniu
przekonują, że liczba
Lewy kontekst
KL = <M(władze), M(na), M(wygnaniu)>
Pozycja
p5 = <KL, KP, M(przekonują)>
Prawy kontekst
p5 ∈ Poz
KP = <M(,), M(że), M(liczba)>
Poz = Kon × Kon × 2T
Ujednoznacznianie
D: Poz  T
11 / 24
Analiza składniowa
Pełna analiza składniowa: pełna struktura zdania
Najczęściej: drzewo rozbioru składniowego
Dokładny opis wszystkich fraz, pełen stopień zagnieżdżenia
Istniejące analizatory składniowe dla języka polskiego są
niepraktyczne
Dla wielu zdań nie potrafią dać żadnej analizy
Dla wielu zdań dają tysiące alternatywnych analiz
Mają charakter eksperymentalno-badawczy
Płytka analiza składniowa (ang. shallow parsing)
Rezygnujemy z dokładności opisu na rzecz pewności
Ograniczony stopień zagłębienia lub struktura płaska
Ograniczony zestaw wyróżnianych fraz lub całostek
12 / 24
Całostki składniowe
Całostka (ang. chunk) [Abney, 1996]
Nierekursywny rdzeń frazy wewnątrzzdaniowej rozciągający się
od początku frazy do jej elementu nadrzędnego.
Przykłady całostek rzeczownikowych
[ Tybetańskie władze ] na [ wygnaniu ] przekonują, że [ liczba ]
[ ofiar ] jest o wiele większa i sięga ponad 150 [ osób ].
Całostkowanie (znakowanie całostek) można sprowadzić do
klasyfikacji tokenów. Tokenowi możemy przypisać znacznik
określający:
do jakiego typu całostki należy (lub nie należy do żadnej z
rozpatrywanych),
czy stanowi początek całostki
13 / 24
Stan badań
Ujednoznacznianie języków słowiańskich (1)
Swobodny szyk wyrazów oraz mnogość form w językach
słowiańskich czynią metody czysto statystyczne
bezużytecznymi [Sharoff, 2004]
Język polski — Tager TaKIPI [Piasecki, Godlewski 2006]
Trafność 93,44%
Drzewa decyzyjne, niewielka liczba reguł pisanych ręcznie
Ręcznie dobierane atrybuty dla drzew decyzyjnych
Język czeski
Reguły ręczne i model Markowa: 95,16% [Hajič et al. 2001]
ILP: 1% błędu przy ok. 50-procentowej redukcji
niejednoznaczności [Nepil et al. 2001]
14 / 24
Stan badań
Ujednoznacznianie języków słowiańskich (2)
Tager TaKIPI: trafność 93,44%
Dużą część tekstu stanowią jednostki jednoznaczne
(50,0% tokenów korpusu znakowanego ręcznie)
Dla jednostek wieloznacznych: 86,3%
Zastosowania pokazują, że dokładność ta jest
niewystarczająca
Eksperymenty z automatycznym wydobywaniem synonimii
Wyniki: synonimem słowa robot są robota, praca, urządzenie
Błąd tagera: robota jako dopełniacz słowa robot
15 / 24
Stan badań
Płytka analiza składniowa
Formalizm dla języka polskiego — prace Przepiórkowskiego
Jednoczesne ujednoznacznianie i płytka analiza składniowa
Założenie: wszystkie reguły pisane ręczne
Brak wyników i systematyki planowanych typów fraz
Formalizm wydaje się zbyt skomplikowany dla maszynowego
uczenia całostkowania
Gramatyki regularne pisane ręcznie [Przepiórkowski 1997]
Brak uniwersalnego płytkiego parsera dla języka polskiego
Znakowanie całostek rzeczownikowym w słoweńskich
instrukcjach użytkownika: 77% [Tanev, Mitkov 2002]
16 / 24
Propozycja
Cel i zakres
Cel pracy
Opracowanie metody znakowania całostek składniowych dla
języka polskiego, która umożliwi jednoczesne ujednoznacznianie
morfo-syntaktyczne. Poprawa trafności ujednoznaczniania w
stosunku do znanych metod.
Zakres
1
Metoda ma ujednoznaczniać tekst poddany analizie
morfologicznej.
2
Zestaw całostek będzie ograniczony do kilku (1–4).
3
Badania prowadzone będą w kierunku metod pozyskujących
wiedzę z dostępnego tekstu oznakowanego ręcznie.
17 / 24
Propozycja
Schemat
Tybetańskie
władze
na
wygnaniu
przekonują
,
że
...
Tekst
(ciąg tokenów)
Analizator
morfologiczny
Tybetańskie
władze
na
wygnaniu
przekonują
,
że
...
{adj,...}
{...}
{...}
{...}
{...}
{interp}
{...}
Tekst poddany analizie morfologicznej
Ujednoznacznianie
i całostkowanie
[Tybetańskieadj
władze]
subst
na
prep
[wygnaniu] subst
przekonują fin
,
interp
że
conj
...
Tekst ujednoznaczniony z oznaczonymi całostkami
18 / 24
Propozycja
Propozycja kształtu rozwiązania (1)
Złączenie ujednoznaczniania z płytką analizą składniową
Informacja potrzebna do ujednoznacznienia ma charakter
składniowy
Oznaczenie całostki pociąga za sobą ograniczenie możliwych
znaczników
Znacznikom morfo-syntaktycznym przypisujemy typowe
znaczniki całostek — za [Karlsson 1990]
W tekście nieujednoznacznionym część tokenów jest
jednoznaczna
Część tokenów należy jednoznacznie do pewnej całostki
Oznaczamy takie tokeny, po czym stosujemy reguły
19 / 24
Propozycja
Indukcja reguł ujednoznaczniających, które ingerują również
w całostki
Reguły powiększają całostki w lewo lub w prawo, ograniczając
jednocześnie możliwe znaczniki morfo-syntaktyczne
Reguły nie mogą zawęzić całostki, mogą jednak określać
miejsca, przez które nie może przechodzić całostka
Szablony reguł definiują wiedzę lingwistyczną podaną
„ręcznie”
Swobodny szyk wyrazów w zdaniu
W tekście występują tokeny, które nie mają większego
wpływu na ujednoznacznianie pozostałych
Ma sens utworzenie pośredniej reprezentacji zdania
pomijającej takie tokeny
Zdanie złożone może być podzielone na więcej niż jedną
pośrednią reprezentację
20 / 24
Propozycja
Władze wielokrotnie zapewniały, że zginęło „jedynie” 22 demonstrantów.
Władze wielokrotnie zapewniały,
zginęło „jedynie” 22 demonstrantów.
A:
B:
Władze zapewniały,
C:
zginęło 22 demonstrantów.
21 / 24
Podsumowanie
Podsumowanie
Przetwarzanie morfo-syntaktyczne języka polskiego
Analiza morfologiczna: istnieją narzędzia o wysokiej trafności
Ujednoznaczanie morfo-syntaktyczne: istnieją narzędzia,
warto poprawić ich trafność
Płytka analiza składniowa: praktycznie brak narzędzi
Wyzwania
Bogata fleksja języków słowiańskich, duży zbiór znaczników
Szyk wyrazów nie determinuje funkcji przez nie pełnionych
Szyk jest swobodny, występują długodystansowe zależności
Możliwe korzyści
Poprawa jakości istniejących i przyszłych systemów
przetwarzania języka naturalnego
Poprawa oznakowania korpusu języka polskiego IPI PAN
Możliwość przetestowania opracowanych metod na innych
językach
22 / 24
Podsumowanie
Literatura (1)
Dębowski, 2001. Tagowanie i dezambiguacja
morfosyntaktyczna. Przegląd metod i oprogramowania
Piasecki, Godlewski, 2006. Effective Architecture of the Polish
Tagger.
Piasecki, Radziszewski, 2007. Polish morphological guesser
based on a statistical a tergo index.
Sharoff, 2004. What is at stake: a case study of Russian
expressions starting with a preposition
Hajič, Hladka, 1998. Tagging inflective languages.
Hajič et al., 2001. Serial combination of rules and statistics:
a case study in Czech tagging.
23 / 24
Podsumowanie
Literatura (2)
Abney, 1991. Parsing by chunks.
Abney, 1996. Chunk stylebook.
Bird et al, 2007. Natural language processing in Python.
http://nltk.org.
Karlsson, 1990. Constraint Grammar as a Framework for
Parsing Running Text.
Nepil et al., 2001. Part-of-Speech Tagging by Means of
Shallow Parsing, ILP and Active Learning
Przepiórkowski, 1997. Slavic Information Extraction and
Partial Parsing.
Tanev, Mitkov, 2002. Shallow language processing
architecture for Bulgarian.
24 / 24

slajdy - WordPress.com

Transkrypt

Podobne dokumenty

Przetwarzanie tekstów Szkolenie Przetwarzanie tekstów dotyczy

orapi transnet polska

REGULAMIN KONKURSU SZKOLNEGO NA WIERSZ O

Scenariusz lekcji wychowania fizycznego na basenie

tłumacz korektor tekstów

Praca przez internet przepisywanie tekstów oferty

Marek Iwanowski Filolog pyta o bibliografię zawartości internetu

tutaj - CBA.PL