dobry przyjaciel
Transkrypt
dobry przyjaciel
Przetwarzanie języka naturalnego ćwiczenia 4 Zajęcia 8 Zadanie 1. Zaproponuj sposób opisu właściwości czasowników (jak najbardziej precyzyjny), który jest w stanie opisywać różne warianty składniowe ich użycia, jak również wymagania semantyczne dla ich „argumentów” (podmiotów, okoliczników, dopełnień). Wybierz 3 czasowniki, które pozwolą zademonstrować Twoją notację. Przedstaw opis tych czasowników. Zadanie 2. Jak wyznaczać dla danego modelu HMM µ = hπ, A, Bi oraz ciągu obserwacji O sekwencję najbardziej prawdopodobnych stanów? Zadanie 3. Sekwencja obserwacji ma długość T . Definiujemy βi (t) = P (ot . . . oT |Xt = i, µ). Podaj rekurencyjną zależność umożliwiającą efektywne obliczanie β. Zadanie 4. Dla ustalonego modelu Markowa µ oraz ciągu obserwacji O1 , . . . , OT definiujemy pt (i, j) jako prawdopodobieństwo tego, że w momencie t układ przeszedł ze stanu i do stanu j. Jak efektywnie obliczać to prawdopodobieństwo? Zadanie 5. Jak wykorzystać model HMM w zadaniu korekty błędów ortograficznych oraz literówek? Zadanie 6. Jak zmodyfikować algorytm Viterbiego (dający najbardziej prawdopodobny ciąg stanów) w ten sposób, aby zwracał nie jeden, lecz k najlepszych ciągów stanów. Zadanie 7. (2,?p) Co to jest wygładzanie Gooda-Turniga? (tego materiału nie było na wykładzie) Zadanie 8. Dla dwóch wybranych słów w1 i w2 wybieramy z korpusu te zdania, w których występują oba nasze słowa. Niech X będzie zmienną losową będącą różnica pozycji w zdaniu słowa w1 oraz w2 1 . Jak użyć wartości oczekiwanej i wariancji zmiennej X do wyznaczania kolokacji? Czy da się łatwo zmodyfikować tę metode w taki sposób, by nie wymagała pozdaniowanego korpusu? Zadanie 9. (2p) ? Wzbogaćmy gramatyki bezkontekstowe o nowy rodzaj produkcji A ⇒ A1 . . . An , oznaczający, że z symbolu A można wyprowadzić symbole A1 do An w dowolnej kolejności. Podaj złożoność problemu należenia słowa do języka generowanego przez tak wzbogaconą gramatykę bezkontekstową2 . Zadanie 10. 1 Załóżmy, że mamy do dyspozycji słownik dwujęzyczny (w obie strony), oraz tekst w jednym z tych języków wraz z tłumaczeniem do drugiego języka. Zaproponuj metodę, która dokonuje dezambiguacji semantycznej bazując na takich danych (czyli interesują nas jedynie takie sytuacje, w których dezambiguacja jest konieczna do wyboru słowa w przekładzie, np: zamek – (castle, lock, zip)). Zadanie 11. Wyobraźmy sobie metodę dezambiguacji, która dokonując wyboru najlepszego znaczenia wieloznacznego słowa w zdaniu nie zwraca jednego znaczenia, ale „rozkład prawdopodobieństwa” znaczeń. Jak wykorzystać tę metodę do ujednoznaczniania słów przy założeniu, że na wejściu mamy nie jedno zdanie z wieloznacznym słowem, lecz większy dokument, zawierający wiele wystąpień tego słowa. Zadanie 12. Rozwiń gramatykę z wykładu w ten sposób, aby poprawnie analizowała ona następujące zdania (nie musisz wypisywać produkcji związanych ze słownikiem): Mój dobry przyjaciel posiada wyjątkowo pięknego psa. Naszemu Piotrowi często brakuje dobrych i świeżych pomysłów. Stefan czytał kryminały chętniej niż nudnawe romanse z księgozbioru Judyty. Beata jest nazłośliwsza ze wszystkich sąsiadek Stefana. Jacek i Agatka czytali książkę. 1 Dla słów Ala oraz kota ich różnica pozycji w zdaniu Ala ma tłustego kota wynosi −3. dla takiej gramatyki można szukać w językach naturalnych, które nie mają silnie pozycyjnej składni, czyli na przykład w języku polskim 2 Inspiracji Zadanie 13. Rozwiń gramatykę z wykładu w ten sposób, aby poprawnie analizowała ona następujące zdania (nie musisz wypisywać produkcji związanych ze słownikiem): Ależ droga pani Judyto, niech pani nie będzie dzieckiem! Myśl, że musi zjeść tę owsiankę, wywoływała w nim dreszcze. Stefan, czytając zbyt długo miesięczniki dla panów, spóźnił się na ważną konferencję. Porównanie książki do eleganckiej laseczki dandysa nie jest całkiem dokładne. 2