Przetwarzanie języka naturalnego Lista 1 Długa, ale prosta
Transkrypt
Przetwarzanie języka naturalnego Lista 1 Długa, ale prosta
Przetwarzanie języka naturalnego Lista 1 Długa, ale prosta Zadanie 1. Zaproponuj algorytm, który podzieli tekst na zdania (dla języka polskiego). Jakie dane o języku będą Ci potrzebne? Zadanie 2. Przedstaw drzewa rozbioru1 następujących zdań: Stefan widział latarnię w Ustce. Stefan widział latarnię w Ustce jedynie na zdjęciach Beaty. Mam radę: nie mam mamy obietnicami bez pokrycia. Wiktor zawsze uważał, że obiegowa opinia o Stefanie nie znajduje potwierdzenia w rzeczywistości. Kraby, jak również inne owoce morza, potrafią przyprawić o niezły ból głowy Wyjazd pociągiem do Krakowa zastąpił bogaty program artystyczny. Wiktor podarował Beacie kwiaty, a Ewie czekoladki. W których zdaniach możliwy jest więcej niż 1 rozbiór? Kiedy więcej niż jedno znaczenie? Jak wybór rozbioru wpływa na znaczenie zdania. Zadanie 3. Napisz gramatykę bezkontekstową, która będzie w stanie opisywać poprawnie takie frazy rzeczownikowe jak: dziewczyna Stefana dom Wiktora i Beaty piękna ruda wiewiórka dzielne spadochroniarki zdolny i ambitny kierowca samochodu osobowego Oddziel reguły opisujące ogólne zasady gramatyczne od reguł „słownikowych”, opisujących poszczególne słowa (tych ostatnich oczywiście nie musisz wszystkich wypisywać.) Jak wygląda drzewo rozbioru frazy: dyrektor zjednoczenia zakładów produkcji parówek? Czy uważasz, że Twoja gramatyka dobrze radzi sobie z tą frazą? Zadanie 4. Zdanie Widziałem dom na rogu ulicy. ma dwa różne rozbiory (jakie?). Spróbuj przedstawić dwie możliwe kontynuacje tego zdania, z których każda będzie sugerowała wybór innego rozbioru. Zadanie 5. Rozważmy zdanie I’ve decided to [...] her, though visitning aunts can be a nuisance. Fragment rozpoczynający się od słowa visiting jest dwuznaczny, chociaż ma on jedno drzewo rozbioru (narysuj). Wyjaśnij źródło tej dwuznaczności i pokaż, jak wstawiając odpowiednie słowa w miejsce [...] możemy sprawiać, że któraś z interpretacji staje się bardziej naturalna. Zadanie 6. Rozważmy zdanie: Judyta podarowała wczoraj Stefanowi czekoladki. Zmieniając kolejność wyrazów w tym zdaniu otrzymamy (czasami?) poprawne zdania w języku polskim. Zaproponuj jakąś metodę oceny, tych kolejności (to znaczy przypisywania im liczby rzeczywistej, mówiącej o jakości (naturalności) danego wariantu. Załóżmy, że jesteś w stanie przeprowadzić następujący eksperyment: różnym osobom będziesz pokazywał po dwie permutacje powyższych wyrazów, a one będa mówić, która permutacja wydaje się bardziej naturalnym polskim zdaniem. Jak wykorzystać ten eksperyment do poprawy jakości Twojej funkcji oceniającej? 1 Nie zdefiniowaliśmy formalnie drzewa rozbioru dla polskiego zdania, zatem w rozwiązaniu jest pewien stopień dowolności. Drzewo powinno opisywać strukturę zdania, liśćmi są słowa, a węzły etykietujemy „typem frazy”, np. fraza rzeczownikowa lub wyrażenie przyimkowe. Zadanie 7. Za pomocą rodzaju opisujemy rzeczowniki i przymiotniki. Potrzebujemy na tyle dokładny podział na rodzaje, żeby w poprawnym gramatycznie zdaniu zamienienie rzeczownika na inny o tym samym rodzaju, liczbie i przypadku dało również poprawne zdanie. Ile rodzajów należy przyjąć w języku polskim? Odpowiedź uzasadnij. Wskazówka: wiecej niż 3. Zadanie 8. W zadaniu będziemy rozważać czasowniki w języku polskim: a) Wybrany czasownik w języku polskim albo ma formy czasu przyszłego, albo teraźniejszego. Co o tym decyduje? Jakie są wyjątki? b) Niektórzy opisujący język polski twierdzą, że czytałam to nie forma czasownika, lecz sklejony pseudoimiesłów czytała oraz specjalna część mowy, tzw. aglutynant -m. Czemu mogłoby to służyć? Zadanie 9. Słownik morfosyntaktyczny jest programem, który dla danego wyrazu zwraca listę możliwych opisów gramatycznych tego wyrazu. Przykładowo dla wyrazu mam ta lista mogłamy wyglądać tak: mam [mama], rzecz. Rodz=z,Liczba=mn,Przyp=mian [mieć], czas. Czas=ter, Osoba=o1, Tryb=ozn [mamić], czas. Osoba=o2, Tryb=roz Jak wyglądałaby taka lista dla wyrazów: nogi, rad, musi, raczy, szkoda, jak? Zadanie 10. Język polski jest jezykiem typu SVO (co to znaczy?). Niemniej jednak jest on mniej „ortodoksyjnym” reprezentantem tej klasy niż np. angielski (dlaczego?) 2 Zaproponuj eksperyment, który przy danym dużym zbiorze tekstów i słowniku morfosyntaktycznym pozwoli: a) ocenić, czy rzeczywiście j.polski jest typu SVO, b) wyznaczyć jego „stopień przynależności” do pozostałych pięciu klas. Zakładamy, że nie umiemy dokonywać rozbioru. Czy rezygnacja z tego założenia coś by zmieniła? Zadanie 11. Znajdź sytuacje (dwie conajmniej), w których założenie o typie języka (SVO, patrz poprzednie zadanie) powinno pomóc w wyborze interpretacji jakiegoś dwuznacznego zdania. Jeżeli masz taką możliwość, to zapytaj parę osób (najlepiej niewiedzących nic o SVO) o pierwszą możliwą interpretację tych dwuznacznych zdań. Czy wyniki eksperymentu są takie, jak przewidywałeś? Zadanie 12. (?) Przeplotem dwóch słów nazwiemy każde takie słowo, które powstało przez napisanie kilku znaków z pierwszego słowa, potem kilku z drugiego, znowu kilku z pierwszego i tak do wyczerpania obu słów. Przykładowo przeplotem słów kotek i pies może być kopitesek. Do gramatyki bezkontekstowej chcemy dodać nowy rodzaj produkcji A → x BC. Nieterminal A powinien generować wszystkie przeploty słów wB oraz wC , takich że wB jest generowane przez B, a wC jest generowane przez C. Przedstaw bardziej formalną definicję języka generowanego przez tak wzbogaconą gramatykę. Czy klasa języków generowanych przez wzbogacone gramatyki bezkontekstowe jest równa klasie języków bezkontekstowych? Jaki ma to związek z językiem polskim? UWAGA: gwiazdka nie mówi o trudności zadania, ale o tym, że do jego rozwiązania może potrzebna być wiedza niewymagana na naszym wykładzie, która nie będzie sprawdzana na egzaminie. 2 Wskazówkozagadka: podaj poularny dziecięcy wierszyk potwierdzający tę nieortodoksyjność. 2