dobry przyjaciel

Transkrypt

dobry przyjaciel
Przetwarzanie języka naturalnego
ćwiczenia 4
Zajęcia 8
Zadanie 1. Zaproponuj sposób opisu właściwości czasowników (jak najbardziej precyzyjny), który
jest w stanie opisywać różne warianty składniowe ich użycia, jak również wymagania semantyczne
dla ich „argumentów” (podmiotów, okoliczników, dopełnień).
Wybierz 3 czasowniki, które pozwolą zademonstrować Twoją notację. Przedstaw opis tych
czasowników.
Zadanie 2. Jak wyznaczać dla danego modelu HMM µ = hπ, A, Bi oraz ciągu obserwacji O sekwencję najbardziej prawdopodobnych stanów?
Zadanie 3. Sekwencja obserwacji ma długość T . Definiujemy βi (t) = P (ot . . . oT |Xt = i, µ). Podaj
rekurencyjną zależność umożliwiającą efektywne obliczanie β.
Zadanie 4. Dla ustalonego modelu Markowa µ oraz ciągu obserwacji O1 , . . . , OT definiujemy pt (i, j)
jako prawdopodobieństwo tego, że w momencie t układ przeszedł ze stanu i do stanu j. Jak efektywnie obliczać to prawdopodobieństwo?
Zadanie 5. Jak wykorzystać model HMM w zadaniu korekty błędów ortograficznych oraz literówek?
Zadanie 6. Jak zmodyfikować algorytm Viterbiego (dający najbardziej prawdopodobny ciąg stanów) w ten sposób, aby zwracał nie jeden, lecz k najlepszych ciągów stanów.
Zadanie 7. (2,?p) Co to jest wygładzanie Gooda-Turniga? (tego materiału nie było na wykładzie)
Zadanie 8. Dla dwóch wybranych słów w1 i w2 wybieramy z korpusu te zdania, w których występują oba nasze słowa. Niech X będzie zmienną losową będącą różnica pozycji w zdaniu słowa w1
oraz w2 1 . Jak użyć wartości oczekiwanej i wariancji zmiennej X do wyznaczania kolokacji?
Czy da się łatwo zmodyfikować tę metode w taki sposób, by nie wymagała pozdaniowanego
korpusu?
Zadanie 9. (2p) ? Wzbogaćmy gramatyki bezkontekstowe o nowy rodzaj produkcji A ⇒ A1 . . . An ,
oznaczający, że z symbolu A można wyprowadzić symbole A1 do An w dowolnej kolejności. Podaj złożoność problemu należenia słowa do języka generowanego przez tak wzbogaconą gramatykę
bezkontekstową2 .
Zadanie 10. 1 Załóżmy, że mamy do dyspozycji słownik dwujęzyczny (w obie strony), oraz tekst
w jednym z tych języków wraz z tłumaczeniem do drugiego języka. Zaproponuj metodę, która
dokonuje dezambiguacji semantycznej bazując na takich danych (czyli interesują nas jedynie takie
sytuacje, w których dezambiguacja jest konieczna do wyboru słowa w przekładzie, np: zamek –
(castle, lock, zip)).
Zadanie 11. Wyobraźmy sobie metodę dezambiguacji, która dokonując wyboru najlepszego znaczenia wieloznacznego słowa w zdaniu nie zwraca jednego znaczenia, ale „rozkład prawdopodobieństwa”
znaczeń. Jak wykorzystać tę metodę do ujednoznaczniania słów przy założeniu, że na wejściu mamy
nie jedno zdanie z wieloznacznym słowem, lecz większy dokument, zawierający wiele wystąpień tego
słowa.
Zadanie 12. Rozwiń gramatykę z wykładu w ten sposób, aby poprawnie analizowała ona następujące zdania (nie musisz wypisywać produkcji związanych ze słownikiem):
Mój dobry przyjaciel posiada wyjątkowo pięknego psa.
Naszemu Piotrowi często brakuje dobrych i świeżych pomysłów.
Stefan czytał kryminały chętniej niż nudnawe romanse z księgozbioru Judyty.
Beata jest nazłośliwsza ze wszystkich sąsiadek Stefana.
Jacek i Agatka czytali książkę.
1 Dla
słów Ala oraz kota ich różnica pozycji w zdaniu Ala ma tłustego kota wynosi −3.
dla takiej gramatyki można szukać w językach naturalnych, które nie mają silnie pozycyjnej składni,
czyli na przykład w języku polskim
2 Inspiracji
Zadanie 13. Rozwiń gramatykę z wykładu w ten sposób, aby poprawnie analizowała ona następujące zdania (nie musisz wypisywać produkcji związanych ze słownikiem):
Ależ droga pani Judyto, niech pani nie będzie dzieckiem!
Myśl, że musi zjeść tę owsiankę, wywoływała w nim dreszcze.
Stefan, czytając zbyt długo miesięczniki dla panów, spóźnił się na ważną konferencję.
Porównanie książki do eleganckiej laseczki dandysa nie jest całkiem dokładne.
2