Kategorialny Parser Składniowo-Semantyczny dla jezyka

Transkrypt

Kategorialny Parser Składniowo-Semantyczny dla jezyka
Kategorialny Parser Składniowo-Semantyczny
dla jezyka
˛
polskiego
Wojciech Jaworski
Instytut Informatyki Uniwersytetu Warszawskiego
Instytut Podstaw Informatyki Polskiej Akademii Nauk
26 kwietnia 2016
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
1 / 36
Architektura
Preprocesing
Określanie struktury zależnościowej
Anotacja sensami słów i rolami tematycznymi
Dezambiguacja (w tym sprawdzanie preferencji selekcyjnych)
Generowanie reprezentacji semantycznej
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
2 / 36
Rozmyty potok przetwarzania
Parser nie wykonuje dezambiguacji po każdym kroku
przetwarzania tekstu.
Zamiast tego
I
I
tworzy zwarta˛ reprezentacje˛ niejednoznacznego wyniku, która˛
przekazuje˛ do nastepnego
˛
etapu;
wykonuje dezambiguacje˛ pod koniec potoku przetwarzania.
Uzasadnienie:
I
I
I
dezambiguacja działa poprawnie jedynie w pewnym procencie
przypadków
złożenie kilku procedur, które nie działaja˛ całkowicie poprawnie
radykalnie zmniejsza szanse˛ uzyskania poprawnego wyniku
np. tagery dla jezyka
˛
polskiego maja˛ skuteczność ok 93%, w zdaniu
wystepuje
˛
średnio 15 słów, wiec
˛ prawdopodobieństwo poprawnego
otagowania typowego zdania wynosi 0, 9315 = 0, 3367.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
3 / 36
Preprocesing
Tekst reprezentowany jest jako graf.
Krawedzie
˛
etykietowane sa˛ tokenami.
Podczas preprocesingu dodawane sa˛ nowe krawedzie
˛
i
wierzchołki
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
4 / 36
Etapy preprocesingu
identyfikacja wielkich i małych liter
identyfikacja złożonych znaków interpunkcyjnych
dezambiguacja znaczenia znaków interpunkcyjnych i wielkich liter
w tym obsługa haplologii,
oznaczanie możliwych poczatków
˛
i końców zdań składowych
(rozdzielanych przecinkami)
podział na tokeny
rozpoznawanie liczebników zapisanych za pomoca˛ cyfr, dat itp.
rozpoznawanie odmienionych akronimów i wyrazów obcych
lematyzacja (SGJP-20151020 oraz Polimorf-20151020)
rozwijanie skrótów
rozpoznawanie wyrażeń wielosłownych
wykrywanie nazw własnych (SGJP-20151020 oraz
Polimorf-20151020)
określanie sensów słów (Słowosieć 2.1.0)
określanie walencji (Walenty-20150412)
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
5 / 36
Gramatyka kategorialna
Reguły
I
podzbiór systemu dowodowego dla niekomutatywnej
intuicjonistycznej logiki liniowej
Leksykon
I
I
I
tworzony dynamicznie dla każdego zapytania na podstawie haseł z
SGJP i Walentego,
wzbogacony o domyślna˛ walencje˛ dla słów nie wystepuj
˛ acych
˛
w
Walentym
oraz pozycje w ramach walencyjnych dla modyfikatorów.
Gramatyka uzupełniona jest o
I
I
konstrukcje mowy niezależnej
zleksykalizowany opis określeń czasu.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
6 / 36
Parser
Bazuje na algorytmie CYK.
Bezpośrednia implementacja ograniczonego systemu
dowodowego.
Formalizm pozwala w zwarty sposób reprezentować
niejednoznaczności wynikajace
˛ z polskiej fleksji.
Siła wyrazu: gramatyka bezkontekstowa z wykładniczo
skompresowanymi regułami.
Generuje strukture˛ zależnościowa˛ pomiedzy
˛
tokenami.
Wyraża niejednoznaczność w formie skompresowanego lasu.
Generowanie struktury zależnościowej jest wykonywane w sposób
leniwy.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
7 / 36
Walencja semantyczna
Ramy semantyczne zawarte w Walentym dostarczaja˛ informacje o
rolach tematycznych poszczególnych argumentów oraz ich
preferencjach selekcyjnych.
Preferencje selekcyjne sa˛ sensami ze Słowosieci (lub ich
uogólnieniami). Sensy te powinny być bardziej ogólne od sensu
podrz˛ednika.
Spełnialność preferencji selekcyjnych przez sens danego słowa
można określić, sprawdzajac
˛ czy zbiór wszystkich jego
hiperonimów ma niepuste przeciecie
˛
ze zbiorem preferencji
selekcyjnych danego argumentu.
Preferencje selekcyjne w Walentym umożliwiaja˛ m.in.
rozstrzygniecie,
˛
że w zdaniu Kot aranżuje na fortepian, Kot jest
nazwa˛ własna˛ a nie rzeczownikiem pospolitym.
Pomagaja˛ też rozróżniać argumenty od modyfikatorów i dzieki
˛
temu wskazywać właściwe role tematyczne:
I
I
I
Załadował bagażnik jabłkamiTheme .
Załadował bagażnik koparka˛Instrument .
Załadował bagażnik wieczoremTime .
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
8 / 36
Niejednoznaczność sensów słów i ram walencyjnych
Sensy słów wprowadzaja˛ olbrzymia˛ niejednoznaczność, która
tylko w niewielkim stopniu redukowana jest przez preferencje
selekcyjne.
Wynika to m.in. z tego, że poszczególne sensy danego leksemu
sa˛ do siebie na tyle podobne, że wpadaja˛ w te same preferencje
selekcyjne.
Np. w zdaniu Człowiek aranżuje
I
I
I
I
czasownik ma pieć
˛ ram/schematów (skojarzonych z 3 sensami),
w których podmiot ma preferencje LUDZIE, badź
˛ PODMIOTY;
a rzeczownik ma 5 znaczeń,
z czego znaczenia 2, 4 i 5 maja˛ jako hiperonim znaczenie 1.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
9 / 36
Anotacja sensami słów i rolami tematycznymi
Z uwagi na niejednoznaczność walencja semantyczna jest
wprowadzana dopiero po określeniu struktury zależnościowej.
Poszczególne znaczenia i alternatywne ramy walencyjne sa˛
nakładane na strukture˛ zależnościowa˛ w taki sposób, by jedynie
lokalnie zwiekszać
˛
niejednoznaczność.
I
I
Pojedynczy wezeł
˛
w strukturze zależnościowej jest powielany
proporcjonalna˛ ilość razy do liczby jego interpretacji.
To powielenie nie propaguje sie˛ na reszte˛ struktury.
Konsekwencja˛ takiego podejścia jest wymaganie by preferencje
selekcyjne dotyczyły zawsze bezpośrednich podrz˛edników
danego wezła.
˛
Wymusza to odejście od klasycznych zasad rozbioru
składniowego: niesemantyczne przyimki, liczebniki, rzeczowniki
użyte w znaczeniu pojemnikowym, czasowniki posiłkowe staja˛ sie˛
teraz podrz˛ednikami swoich zwyczajowych argumentów.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
10 / 36
Dezambiguacja
Dezambiguacja odbywa sie˛ etapami:
1
2
3
4
Badanie spełnialności preferencji selekcyjnych tam, gdzie moga˛
one wpłynać
˛ na strukture˛ zależnościowa,
˛ czy w przypadku
argumentów, które nie moga˛ być modyfikatorami.
Wybór najbardziej prawdopodobnych lematów na podstawie listy
frekwencyjnej z NKJP1M.
Badanie spełnialności preferencji selekcyjnych w pozostałych
przypadkach.
Wybór sensów słów.
Pozostałe typy niejednoznaczności, takie jak np.
niejednoznaczność dowiazania
˛
frazy przyimkowej, pozostaja˛
aktualnie niezdezambiguowane.
Na potrzeby prezentacji w interfejsie webowym losowane jest 10
struktur zależnościowych.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
11 / 36
Semantyka
Wyrażana za pomoca˛ grafów semantycznych równoważnych
Minimal Recursion Semantics.
Rozwijana do formuł logiki pierwszego rz˛edu rozszerzonych o
predykat metajezykowy
˛
i kwantyfikatory specyficzne dla jezyka
˛
naturalnego.
Jezyk
˛
reprezentacji znaczenia (teoria opisu świata)
wykorzystywany przez parser został szczegółowo opisany w
ramach projektu Clarin-pl.
Ontologia (zestaw pojeć)
˛ zadana jest przez Słowosieć.
Relacje miedzy
˛
pojeciami
˛
sa˛ rozszerzaja˛ zbiór ról tematycznych
zdefiniowanych w Walentym.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
12 / 36
Demo
Dostepne
˛
tymczasowo pod adresem:
http://students.mimuw.edu.pl/∼wjaworski
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
13 / 36
Kot miauczy codziennie.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
14 / 36
Kot miauczy codziennie.
∃[x, DSCR[x,
∃[k , TYPE(k , kot 1) ∧ |k | = 1,
CODZIENNIE [m, TYPE (m, miauczeć
1) ∧ PRES(m) ∧
I NITIATOR(m, k )]]]]
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
15 / 36
Jaś wystosował petycje˛ do urz˛edu.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
16 / 36
Jaś wystosował petycje˛ do urz˛edu.
∃[x, DSCR[x,
∃[o, TYPE(o, osoba 1) ∧ HAS N AME(o, ’Jaś’) ∧ |o| = 1,
∃[w, TYPE(w, wystosować 1) ∧ PAST(w) ∧
∃[u, TYPE(u, urzad
˛ 1) ∧ |u| = 1, R ECIPIENT(w, u)] ∧
∃[p, TYPE(p, petycja 1) ∧ |p| = 1, T HEME(w, u)] ∧
I NITIATOR(w, o)]]]]
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
17 / 36
Ania schowała piłk˛e głeboko
˛
w szafie.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
18 / 36
Ania schowała piłk˛e głeboko
˛
w szafie.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
19 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
20 / 36
- Chce˛ jeść - zawołał Jaś.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
21 / 36
- Chce˛ jeść - zawołał Jaś.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
22 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
23 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
24 / 36
Jaś zawołał, że chce jeść.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
25 / 36
Jaś zawołał, że chce jeść.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
26 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
27 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
28 / 36
Kucharz posolił wszystkie dania dwoma łyżkami soli.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
29 / 36
Kucharz posolił wszystkie dania dwoma łyżkami soli.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
30 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
31 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
32 / 36
Kot odkupił 25 sierpnia 2015 samochód za 20000zł.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
33 / 36
Kot odkupił 25 sierpnia 2015 samochód za 20000zł.
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
34 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
35 / 36
Wojciech Jaworski (MIM UW, IPI PAN)
Kategorialny Parser Składniowo-Semantyczny
26 kwietnia 2016
36 / 36