Przetwarzanie języka naturalnego Lista 1 Długa, ale prosta

Transkrypt

Przetwarzanie języka naturalnego Lista 1 Długa, ale prosta
Przetwarzanie języka naturalnego
Lista 1
Długa, ale prosta
Zadanie 1. Zaproponuj algorytm, który podzieli tekst na zdania (dla języka polskiego). Jakie dane
o języku będą Ci potrzebne?
Zadanie 2. Przedstaw drzewa rozbioru1 następujących zdań:
Stefan widział latarnię w Ustce.
Stefan widział latarnię w Ustce jedynie na zdjęciach Beaty.
Mam radę: nie mam mamy obietnicami bez pokrycia.
Wiktor zawsze uważał, że obiegowa opinia o Stefanie nie znajduje potwierdzenia w rzeczywistości.
Kraby, jak również inne owoce morza, potrafią przyprawić o niezły ból głowy
Wyjazd pociągiem do Krakowa zastąpił bogaty program artystyczny. Wiktor podarował
Beacie kwiaty, a Ewie czekoladki.
W których zdaniach możliwy jest więcej niż 1 rozbiór? Kiedy więcej niż jedno znaczenie? Jak wybór
rozbioru wpływa na znaczenie zdania.
Zadanie 3. Napisz gramatykę bezkontekstową, która będzie w stanie opisywać poprawnie takie
frazy rzeczownikowe jak:
dziewczyna Stefana
dom Wiktora i Beaty
piękna ruda wiewiórka
dzielne spadochroniarki
zdolny i ambitny kierowca samochodu osobowego
Oddziel reguły opisujące ogólne zasady gramatyczne od reguł „słownikowych”, opisujących poszczególne słowa (tych ostatnich oczywiście nie musisz wszystkich wypisywać.) Jak wygląda drzewo rozbioru frazy: dyrektor zjednoczenia zakładów produkcji parówek? Czy uważasz, że Twoja gramatyka
dobrze radzi sobie z tą frazą?
Zadanie 4. Zdanie Widziałem dom na rogu ulicy. ma dwa różne rozbiory (jakie?). Spróbuj przedstawić dwie możliwe kontynuacje tego zdania, z których każda będzie sugerowała wybór innego
rozbioru.
Zadanie 5. Rozważmy zdanie
I’ve decided to [...] her, though visitning aunts can be a nuisance.
Fragment rozpoczynający się od słowa visiting jest dwuznaczny, chociaż ma on jedno drzewo rozbioru
(narysuj). Wyjaśnij źródło tej dwuznaczności i pokaż, jak wstawiając odpowiednie słowa w miejsce
[...] możemy sprawiać, że któraś z interpretacji staje się bardziej naturalna.
Zadanie 6. Rozważmy zdanie:
Judyta podarowała wczoraj Stefanowi czekoladki.
Zmieniając kolejność wyrazów w tym zdaniu otrzymamy (czasami?) poprawne zdania w języku
polskim. Zaproponuj jakąś metodę oceny, tych kolejności (to znaczy przypisywania im liczby rzeczywistej, mówiącej o jakości (naturalności) danego wariantu.
Załóżmy, że jesteś w stanie przeprowadzić następujący eksperyment: różnym osobom będziesz
pokazywał po dwie permutacje powyższych wyrazów, a one będa mówić, która permutacja wydaje
się bardziej naturalnym polskim zdaniem. Jak wykorzystać ten eksperyment do poprawy jakości
Twojej funkcji oceniającej?
1 Nie zdefiniowaliśmy formalnie drzewa rozbioru dla polskiego zdania, zatem w rozwiązaniu jest pewien stopień
dowolności. Drzewo powinno opisywać strukturę zdania, liśćmi są słowa, a węzły etykietujemy „typem frazy”, np.
fraza rzeczownikowa lub wyrażenie przyimkowe.
Zadanie 7. Za pomocą rodzaju opisujemy rzeczowniki i przymiotniki. Potrzebujemy na tyle dokładny podział na rodzaje, żeby w poprawnym gramatycznie zdaniu zamienienie rzeczownika na
inny o tym samym rodzaju, liczbie i przypadku dało również poprawne zdanie.
Ile rodzajów należy przyjąć w języku polskim? Odpowiedź uzasadnij. Wskazówka: wiecej niż 3.
Zadanie 8. W zadaniu będziemy rozważać czasowniki w języku polskim:
a) Wybrany czasownik w języku polskim albo ma formy czasu przyszłego, albo teraźniejszego. Co
o tym decyduje? Jakie są wyjątki?
b) Niektórzy opisujący język polski twierdzą, że czytałam to nie forma czasownika, lecz sklejony
pseudoimiesłów czytała oraz specjalna część mowy, tzw. aglutynant -m. Czemu mogłoby to
służyć?
Zadanie 9. Słownik morfosyntaktyczny jest programem, który dla danego wyrazu zwraca listę
możliwych opisów gramatycznych tego wyrazu. Przykładowo dla wyrazu mam ta lista mogłamy
wyglądać tak:
mam
[mama], rzecz. Rodz=z,Liczba=mn,Przyp=mian
[mieć], czas. Czas=ter, Osoba=o1, Tryb=ozn
[mamić], czas. Osoba=o2, Tryb=roz
Jak wyglądałaby taka lista dla wyrazów: nogi, rad, musi, raczy, szkoda, jak?
Zadanie 10. Język polski jest jezykiem typu SVO (co to znaczy?). Niemniej jednak jest on mniej
„ortodoksyjnym” reprezentantem tej klasy niż np. angielski (dlaczego?) 2 Zaproponuj eksperyment,
który przy danym dużym zbiorze tekstów i słowniku morfosyntaktycznym pozwoli:
a) ocenić, czy rzeczywiście j.polski jest typu SVO,
b) wyznaczyć jego „stopień przynależności” do pozostałych pięciu klas.
Zakładamy, że nie umiemy dokonywać rozbioru. Czy rezygnacja z tego założenia coś by zmieniła?
Zadanie 11. Znajdź sytuacje (dwie conajmniej), w których założenie o typie języka (SVO, patrz
poprzednie zadanie) powinno pomóc w wyborze interpretacji jakiegoś dwuznacznego zdania. Jeżeli
masz taką możliwość, to zapytaj parę osób (najlepiej niewiedzących nic o SVO) o pierwszą możliwą
interpretację tych dwuznacznych zdań. Czy wyniki eksperymentu są takie, jak przewidywałeś?
Zadanie 12. (?) Przeplotem dwóch słów nazwiemy każde takie słowo, które powstało przez napisanie kilku znaków z pierwszego słowa, potem kilku z drugiego, znowu kilku z pierwszego i tak
do wyczerpania obu słów. Przykładowo przeplotem słów kotek i pies może być kopitesek. Do gramatyki bezkontekstowej chcemy dodać nowy rodzaj produkcji A → x BC. Nieterminal A powinien
generować wszystkie przeploty słów wB oraz wC , takich że wB jest generowane przez B, a wC jest
generowane przez C.
Przedstaw bardziej formalną definicję języka generowanego przez tak wzbogaconą gramatykę.
Czy klasa języków generowanych przez wzbogacone gramatyki bezkontekstowe jest równa klasie
języków bezkontekstowych? Jaki ma to związek z językiem polskim?
UWAGA: gwiazdka nie mówi o trudności zadania, ale o tym, że do jego rozwiązania może potrzebna
być wiedza niewymagana na naszym wykładzie, która nie będzie sprawdzana na egzaminie.
2 Wskazówkozagadka:
podaj poularny dziecięcy wierszyk potwierdzający tę nieortodoksyjność.
2