Kategorialny Parser Składniowo-Semantyczny dla jezyka
Transkrypt
Kategorialny Parser Składniowo-Semantyczny dla jezyka
Kategorialny Parser Składniowo-Semantyczny dla jezyka ˛ polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 1 / 36 Architektura Preprocesing Określanie struktury zależnościowej Anotacja sensami słów i rolami tematycznymi Dezambiguacja (w tym sprawdzanie preferencji selekcyjnych) Generowanie reprezentacji semantycznej Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 2 / 36 Rozmyty potok przetwarzania Parser nie wykonuje dezambiguacji po każdym kroku przetwarzania tekstu. Zamiast tego I I tworzy zwarta˛ reprezentacje˛ niejednoznacznego wyniku, która˛ przekazuje˛ do nastepnego ˛ etapu; wykonuje dezambiguacje˛ pod koniec potoku przetwarzania. Uzasadnienie: I I I dezambiguacja działa poprawnie jedynie w pewnym procencie przypadków złożenie kilku procedur, które nie działaja˛ całkowicie poprawnie radykalnie zmniejsza szanse˛ uzyskania poprawnego wyniku np. tagery dla jezyka ˛ polskiego maja˛ skuteczność ok 93%, w zdaniu wystepuje ˛ średnio 15 słów, wiec ˛ prawdopodobieństwo poprawnego otagowania typowego zdania wynosi 0, 9315 = 0, 3367. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 3 / 36 Preprocesing Tekst reprezentowany jest jako graf. Krawedzie ˛ etykietowane sa˛ tokenami. Podczas preprocesingu dodawane sa˛ nowe krawedzie ˛ i wierzchołki Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 4 / 36 Etapy preprocesingu identyfikacja wielkich i małych liter identyfikacja złożonych znaków interpunkcyjnych dezambiguacja znaczenia znaków interpunkcyjnych i wielkich liter w tym obsługa haplologii, oznaczanie możliwych poczatków ˛ i końców zdań składowych (rozdzielanych przecinkami) podział na tokeny rozpoznawanie liczebników zapisanych za pomoca˛ cyfr, dat itp. rozpoznawanie odmienionych akronimów i wyrazów obcych lematyzacja (SGJP-20151020 oraz Polimorf-20151020) rozwijanie skrótów rozpoznawanie wyrażeń wielosłownych wykrywanie nazw własnych (SGJP-20151020 oraz Polimorf-20151020) określanie sensów słów (Słowosieć 2.1.0) określanie walencji (Walenty-20150412) Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 5 / 36 Gramatyka kategorialna Reguły I podzbiór systemu dowodowego dla niekomutatywnej intuicjonistycznej logiki liniowej Leksykon I I I tworzony dynamicznie dla każdego zapytania na podstawie haseł z SGJP i Walentego, wzbogacony o domyślna˛ walencje˛ dla słów nie wystepuj ˛ acych ˛ w Walentym oraz pozycje w ramach walencyjnych dla modyfikatorów. Gramatyka uzupełniona jest o I I konstrukcje mowy niezależnej zleksykalizowany opis określeń czasu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 6 / 36 Parser Bazuje na algorytmie CYK. Bezpośrednia implementacja ograniczonego systemu dowodowego. Formalizm pozwala w zwarty sposób reprezentować niejednoznaczności wynikajace ˛ z polskiej fleksji. Siła wyrazu: gramatyka bezkontekstowa z wykładniczo skompresowanymi regułami. Generuje strukture˛ zależnościowa˛ pomiedzy ˛ tokenami. Wyraża niejednoznaczność w formie skompresowanego lasu. Generowanie struktury zależnościowej jest wykonywane w sposób leniwy. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 7 / 36 Walencja semantyczna Ramy semantyczne zawarte w Walentym dostarczaja˛ informacje o rolach tematycznych poszczególnych argumentów oraz ich preferencjach selekcyjnych. Preferencje selekcyjne sa˛ sensami ze Słowosieci (lub ich uogólnieniami). Sensy te powinny być bardziej ogólne od sensu podrz˛ednika. Spełnialność preferencji selekcyjnych przez sens danego słowa można określić, sprawdzajac ˛ czy zbiór wszystkich jego hiperonimów ma niepuste przeciecie ˛ ze zbiorem preferencji selekcyjnych danego argumentu. Preferencje selekcyjne w Walentym umożliwiaja˛ m.in. rozstrzygniecie, ˛ że w zdaniu Kot aranżuje na fortepian, Kot jest nazwa˛ własna˛ a nie rzeczownikiem pospolitym. Pomagaja˛ też rozróżniać argumenty od modyfikatorów i dzieki ˛ temu wskazywać właściwe role tematyczne: I I I Załadował bagażnik jabłkamiTheme . Załadował bagażnik koparka˛Instrument . Załadował bagażnik wieczoremTime . Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 8 / 36 Niejednoznaczność sensów słów i ram walencyjnych Sensy słów wprowadzaja˛ olbrzymia˛ niejednoznaczność, która tylko w niewielkim stopniu redukowana jest przez preferencje selekcyjne. Wynika to m.in. z tego, że poszczególne sensy danego leksemu sa˛ do siebie na tyle podobne, że wpadaja˛ w te same preferencje selekcyjne. Np. w zdaniu Człowiek aranżuje I I I I czasownik ma pieć ˛ ram/schematów (skojarzonych z 3 sensami), w których podmiot ma preferencje LUDZIE, badź ˛ PODMIOTY; a rzeczownik ma 5 znaczeń, z czego znaczenia 2, 4 i 5 maja˛ jako hiperonim znaczenie 1. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 9 / 36 Anotacja sensami słów i rolami tematycznymi Z uwagi na niejednoznaczność walencja semantyczna jest wprowadzana dopiero po określeniu struktury zależnościowej. Poszczególne znaczenia i alternatywne ramy walencyjne sa˛ nakładane na strukture˛ zależnościowa˛ w taki sposób, by jedynie lokalnie zwiekszać ˛ niejednoznaczność. I I Pojedynczy wezeł ˛ w strukturze zależnościowej jest powielany proporcjonalna˛ ilość razy do liczby jego interpretacji. To powielenie nie propaguje sie˛ na reszte˛ struktury. Konsekwencja˛ takiego podejścia jest wymaganie by preferencje selekcyjne dotyczyły zawsze bezpośrednich podrz˛edników danego wezła. ˛ Wymusza to odejście od klasycznych zasad rozbioru składniowego: niesemantyczne przyimki, liczebniki, rzeczowniki użyte w znaczeniu pojemnikowym, czasowniki posiłkowe staja˛ sie˛ teraz podrz˛ednikami swoich zwyczajowych argumentów. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 10 / 36 Dezambiguacja Dezambiguacja odbywa sie˛ etapami: 1 2 3 4 Badanie spełnialności preferencji selekcyjnych tam, gdzie moga˛ one wpłynać ˛ na strukture˛ zależnościowa, ˛ czy w przypadku argumentów, które nie moga˛ być modyfikatorami. Wybór najbardziej prawdopodobnych lematów na podstawie listy frekwencyjnej z NKJP1M. Badanie spełnialności preferencji selekcyjnych w pozostałych przypadkach. Wybór sensów słów. Pozostałe typy niejednoznaczności, takie jak np. niejednoznaczność dowiazania ˛ frazy przyimkowej, pozostaja˛ aktualnie niezdezambiguowane. Na potrzeby prezentacji w interfejsie webowym losowane jest 10 struktur zależnościowych. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 11 / 36 Semantyka Wyrażana za pomoca˛ grafów semantycznych równoważnych Minimal Recursion Semantics. Rozwijana do formuł logiki pierwszego rz˛edu rozszerzonych o predykat metajezykowy ˛ i kwantyfikatory specyficzne dla jezyka ˛ naturalnego. Jezyk ˛ reprezentacji znaczenia (teoria opisu świata) wykorzystywany przez parser został szczegółowo opisany w ramach projektu Clarin-pl. Ontologia (zestaw pojeć) ˛ zadana jest przez Słowosieć. Relacje miedzy ˛ pojeciami ˛ sa˛ rozszerzaja˛ zbiór ról tematycznych zdefiniowanych w Walentym. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 12 / 36 Demo Dostepne ˛ tymczasowo pod adresem: http://students.mimuw.edu.pl/∼wjaworski Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 13 / 36 Kot miauczy codziennie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 14 / 36 Kot miauczy codziennie. ∃[x, DSCR[x, ∃[k , TYPE(k , kot 1) ∧ |k | = 1, CODZIENNIE [m, TYPE (m, miauczeć 1) ∧ PRES(m) ∧ I NITIATOR(m, k )]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 15 / 36 Jaś wystosował petycje˛ do urz˛edu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 16 / 36 Jaś wystosował petycje˛ do urz˛edu. ∃[x, DSCR[x, ∃[o, TYPE(o, osoba 1) ∧ HAS N AME(o, ’Jaś’) ∧ |o| = 1, ∃[w, TYPE(w, wystosować 1) ∧ PAST(w) ∧ ∃[u, TYPE(u, urzad ˛ 1) ∧ |u| = 1, R ECIPIENT(w, u)] ∧ ∃[p, TYPE(p, petycja 1) ∧ |p| = 1, T HEME(w, u)] ∧ I NITIATOR(w, o)]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 17 / 36 Ania schowała piłk˛e głeboko ˛ w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 18 / 36 Ania schowała piłk˛e głeboko ˛ w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 19 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 20 / 36 - Chce˛ jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 21 / 36 - Chce˛ jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 22 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 23 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 24 / 36 Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 25 / 36 Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 26 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 27 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 28 / 36 Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 29 / 36 Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 30 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 31 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 32 / 36 Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 33 / 36 Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 34 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 35 / 36 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 36 / 36