1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP?
Transkrypt
1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP?
1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP? sygnał mowy -> Fonetyka -> Fonologia -> (ciąg głosek) -> Morfologia -> Składnia -> Semantyka -> Pragmatyka 2. Podać definicję reguły łańcuchowej, entropii (wraz z interpretacjami) Reguła łańcuchowa: uogólnienie prawdopodobieństwa warunkowego, reguła pozwalająca obliczać pochodne funkcji złozonych, oparta na twierdzeniu o pochodnej funkcji złożonej. (P(A|B) = P(A^B)/P(B)) na P(A1^...^An) = P(A1)*P(A2|A1)*P(A3|(A2^A1))*... Entropia - średnia ilość informacji przypadająca na znak symbolizujący zajście zdarzenia z pewnego zbioru Entropię można interpretować jako niepewność wystąpienia danego zdarzenia elementarnego w następnej chwili. Jeżeli zdarzenie występuje z prawdopodobieństwem równym 1, to jego entropia wynosi 0, gdyż z góry wiadomo, co się stanie – nie ma niepewności. Wykład 5 slajd 5 oraz Wykład 2 slajd 9. 3. Co to jest fleksja i jakie jest jej znaczenie w konstrukcji systemów NLP? Fleksja - nadanie znaczenia rdzeniu wyrazu za pomocą przyrostków i przedrostków zmieniająca liczbę, rodzaj, przypadek (w tych językach w których występują przypadki) itd. ale nie zmieniająca części mowy np. dog->dog-s, chodz-ić->chodz-ę Wpływ fleksji na konstrukcję systemów NLP - złożona fleksja komplikuje zastosowania takie jak wyszukiwanie informacji – nie można zastosować zwykłego dopasowywania wzorców ani wyrażeń regularnych. Informacja która w językach fleksyjnych zawarta jest w odmianie słów, w językach pozycyjnych przekazywana jest w strukturze zdania i kontekście. 4. Wyszukiwanie informacji - opisać dwa główne podejścia ● dokładne (exact match) – w większości wypadków związane z zastosowaniem jakiegoś języka wyszukiwania (czy tez raczej języka specyfikacji zapytań – query language) Wyszukiwanie dokładne wymaga indeksu pojęć, których można użyć w zapytaniu. Najbardziej popularna metoda – zbiory odwrócone (inverted files) ● rozmyte (fuzzy) – wykorzystuje metody statystyczne do oceny odpowiedniości dokumentu do zapytania Poszczególne dokumenty reprezentowane są jako wektory w przestrzeni atrybutów (słów, n-gramów itd.). Zapytania reprezentowane są także jako wektory w tej przestrzeni, potrzebne jest zatem mapowanie zapytanie – wektor. Dzięki temu zapytanie może być zbiorem słów kluczowych, ale także dokumentem albo nawet zbiorem dokumentów Wynik to dokumenty najbliższe wektorowi zapytania (potrzebna zatem metryka) 5. Reprezentacje dokumentów i ich przetwarzanie Reprezentacje: ○ unigramowe (zliczanie słów, bag-of-words). Binarne / częstościowe ○ n-gramowe (zliczanie sekwencji słów) ○ pozycyjne (rozkłady prawdopodobieństwa występowania słów) Przetwarzanie: ○ powiększanie: np. poprzez wygładzanie zbioru cech ○ zmniejszanie: ■ funkcje istotności atrybutów ■ wybór atrybutów (na oko) ■ przekształcanie przestrzeni atrybutów 6. Podać ideę algorytmu DIPRE Ogólnie celem algorytmu jest znalezienie relacji. Algrotym opiera się na obserwacji, że mając pewien zbiór wystąpień relacji możemy wydedukować pewne wzorce odnajdujące wystąpienia tych relacji w bazie danych (np. WWW). Możemy znaleźć takie cechy wspólne dla występowania tych relacji, np słowa dookoła nich, jakieś cechy wspólne dla wszystkich tych wystąpień. Mając takie wzorce możemy odnaleźć kolejne relacje. Proces ten można powtarzać w nieskończoność. Napierać napierać aż będziesz miał dużo. Przykład: mamy listę książek, wrzucamy to w nasz algorytm, i mamy nową listę książek w WWW. 7. Co to jest leksem (3 odpowiedzi do wyboru, 1 prawidłowa) Morfem - Podstawowa jednostka leksykalna na jaką dzielony jest tekst (np. koń, dzień) Leskem - oznaczenie wszystkich form fleksyjnych danego słowa, słowo w potocznym sensie 8. Właściwości gramatyki bezkontekstowej (3 odpowiedzi do wyboru, 1 prawidłowa). Gramatyka bezkontekstowa to gramatyka formalna, w której wszystkie reguły wyprowadzania wyrażeń są postaci: A -> Γ gdzie A jest dowolnym symbolem nieterminalnym i jego znaczenie nie zależy od kontekstu, w jakim występuje, a Γ to dowolny (być może pusty) ciąg symboli terminalnych i nieterminalnych. 9. Co to jest stemming, do czego służy. Podać przykład stemmera. Stemming - automatyczne odnajdywanie rdzeni lub pni wyrazów. Jest potrzebny w przypadku złożonej fleksji do rozpoznawania leksemów. Stemmery dzielą się na te do zastosowań lingwistycznych oraz na te służące do information retrieval. Przykładowe stemmery to Krovets (fleksyjny) i Paice/Husk (oparty na dopasowaniu reguł), Portera – najczęściej używany. Oparty na serii przekształceń dokonujących kolejnych podstawień ciągów znaków, wieloprzebiegowy, nie generuje poprawnych językowo rdzeni, np. ○ university universe ○ noise noisy 10. Jak powstaje model języka, do czego służy, co to jest wygładzanie i jak się je robi. Model języka to model probabilistyczny pozwalający obliczyć prawdopodobieństwo wystąpienia całego zdania. Do zastosowań należą OCR, rozpoznawanie mowy, poprawianie ortografii, automagiczne tłumaczenie. Do budowaniu modelu stosujemy MLE, liczymy wystąpienia odpowiednich n-gramów w korpusie. Przykład: korpus: <s> a b a b </s> MLE P(a|b)= ½, P(b|a)=1, P(a|<s>)=1, P(</s>|b) = ½ P(<s> a b a b </s>) = 1*1*1*1/2*1*1/2 = ¼ Wady: Zgodnie z MLE nie zaobserwowane wystąpienia n-gramów otrzymują zerowe prawdopodobieństwa, brak wystąpienia może być przypadkowy Wygładzanie - 1) zmniejszamy prawdopodobieństwo przypadające na zaobserwowane przypadki (discount) po czym 2) rozdzielamy to co uzyskamy na pozostałe przypadki (reallocate). W ten sposób rozkład prawdopodobieństwa się wygładza. 11. Krzywa/Prawo Zipfa - opisać, Prawo Zipfa − w korpusie języka naturalnego, częstotliwość występowania słów jest odwrotnie proporcjonalna do pozycji w rankingu. Jest to równoważne występowaniu wśród słów pewnego dyskretnego rozkładu prawdopodobieństwa zwanego rozkładem Zipfa. Ranking powstaje w wyniku zliczenia częstotliwości występowania słów oraz posortowania malejąco powstałej listy. Pierwsze słowo występować będzie około dwa razy częściej niż drugie słowo z rankingu. Podobna reguła dotyczy też np. liczby ludności miast. Hapax legomenon (gr., rzecz raz powiedziana; hapaks – jeden raz, legomenon – rzecz mówiona) – słowo, wyrażenie, forma stylistyczna, która występuje tylko jeden raz w danym dokumencie (czy w całej twórczości pisarza), lub jest poświadczona jednym cytatem. 12. NLP, NLU, NLG - rozszyfrować skróty, NLP - natural language processing NLU - natural language understanding NLG - natural language generation 13. Coś o błędach ortograficznych, wady zalety metody Kernighana, jak ulepszyć Występują cztery rodzaje błędów ortograficznych: ○ wstawienie: the -> ther ○ skasowanie: the -> th ○ podstawienie: the -> thw ○ transpozycja: the -> teh Metoda Kernighana wykrywania błędów ortograficznych zakłada, że błąd został popełniony przez jedną operację (skasowanie, wstawienie, transpozycję lub substytucję). Wady: ● Nie jest brany pod uwagę kontekst słowa (poprawić można stosując łańcuchy markowa i reprezentację n-gramową tekstu) ● Istnieje możliwość więcej niż jednej pomyłki w słowie (poprawiamy przez określenie odległości edycyjnej pomiędzy ciągami znaków) 14. Accuracy, Fallout... - z wzoru powiedziec ktore to inaczej: TP = true positives FP = false positives TN = true negatives FN = false negatives positive - relewantny DB - baza dokumentów, dr - dokumenty relewantne, ds - dokumenty uznane przez system za relewantne PR = TP / (TP + FP) PRECISION Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. FO = FPR = FP / (FP + TN) FALLOUT Zaszumienie określa prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest RECALL = TP / (TP + FN) RECALL Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. ACC = (TP + TN) / (TP + FP + TN + FN) ACCURACY Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. 15. Funkcje istotności atrybutów tf/idf, term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1. Y lln(wi,dj) = (1+log(tfij)) * log(N/dfi) 16. Struktura sieci www (jak mierzyć wielkość internetu), A - całe internety B - indeks wyszukiwarki #1 C - indeks wyszukiwarki #2 |A| = ? |B i C| = ? - ale można zestymować przez zadawanie tych samych zapytań do #1 i #2 |B|, |C| - znamy P(‘strona’ należy do B) = |B| / |A| |B i C| = |C| * P(‘strona’ należy do B) = |C| * |B| / |A| => |A| = |C|*|B| / |B i C| 17. Graf C33 (-> random graph model). Wykład 7, slajd 8: fans - strony które linkują do innych stron typu fans i centres centres - strony które nie linkują do innych stron Pierwsza liczba (3) to fans, druga (3) to centres. 18. HITS Oparty o spostrzeżenie iż istnieją dwa rodzaje „dobrych” stron WWW ● ● authority (wskazywane przez wiele innych stron) hub (wskazują na wiele innych stron) ● ● ● ● ● dobra strona authority wskazywana jest przez dobre strony hub dobre strony hub wskazują na dobre strony authority rekurencja – także obliczenia iteracyjne Słabo nadaje się do obliczeń dotyczących całej sieci WWW Może być wykorzystany do analizy podgrafu tworzonego przez strony znajdujące się w wyniku zapytania Authority: a(p):= ∑q→ph(q) Hub: h(p):= ∑p→q a(q) 19. PageRank PageRank – metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. R(p)=ε/n+(1−ε)⋅ ∑(q,p)∈G R(q)/outdegree(q) ε - współczynnik tłumienia n - ilość stron (?) 20. Opisać parasitic gap “Pasożytnicza luka”: przerwa, która nie może istnieć (czyli musi być wypełniona), jeśli pierwsza została wypełniona. Co Ci to daje? Ano to, że jak masz takiego gapa i uzupełnisz pierwszego (np. wstawiając najbardziej prawdopodobne słowo), to masz okrojony zestaw słów, które wiążą się z tym wstawionym w pierwszego i musisz któreś z nich (najbardziej prawdopodobne?) wstawić w tego parasitic gapa. Można w ten sposób uzupełniać luki (podpowiedzi do tekstu pisanego?). Po prostu traktujesz wpisywane słowa tak, jakby były uzupełnionymi gapami, od których jest zależny kolejny, jeszcze nieuzupełniony-parasitic gap i wyświetlasz możliwe podpowiedzi. Tak ja to rozumiem, moja interpretacja po kilkunastokrotnym przeczytaniu wiki. Na wykładzie nie byłem, przyznaję bez bicia ;)