1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP?

Transkrypt

1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP?
1. Jakie poziomy opisu języka wyróżnia się zwykle w NLP?
sygnał mowy -> Fonetyka -> Fonologia -> (ciąg głosek) -> Morfologia -> Składnia ->
Semantyka -> Pragmatyka
2. Podać definicję reguły łańcuchowej, entropii (wraz z interpretacjami)
Reguła łańcuchowa: uogólnienie prawdopodobieństwa warunkowego, reguła
pozwalająca obliczać pochodne funkcji złozonych, oparta na twierdzeniu o pochodnej
funkcji złożonej.
(P(A|B) = P(A^B)/P(B)) na P(A1^...^An) = P(A1)*P(A2|A1)*P(A3|(A2^A1))*...
Entropia - średnia ilość informacji przypadająca na znak symbolizujący zajście zdarzenia
z pewnego zbioru
Entropię można interpretować jako niepewność wystąpienia danego zdarzenia
elementarnego w następnej chwili. Jeżeli zdarzenie występuje z prawdopodobieństwem
równym 1, to jego entropia wynosi 0, gdyż z góry wiadomo, co się stanie – nie ma
niepewności.
Wykład 5 slajd 5 oraz Wykład 2 slajd 9.
3. Co to jest fleksja i jakie jest jej znaczenie w konstrukcji systemów NLP?
Fleksja - nadanie znaczenia rdzeniu wyrazu za pomocą przyrostków i przedrostków
zmieniająca liczbę, rodzaj, przypadek (w tych językach w których występują przypadki)
itd. ale nie zmieniająca części mowy np. dog->dog-s, chodz-ić->chodz-ę
Wpływ fleksji na konstrukcję systemów NLP - złożona fleksja komplikuje zastosowania
takie jak wyszukiwanie informacji – nie można zastosować zwykłego dopasowywania
wzorców ani wyrażeń regularnych. Informacja która w językach fleksyjnych zawarta
jest w odmianie słów, w językach pozycyjnych przekazywana jest w strukturze zdania i
kontekście.
4. Wyszukiwanie informacji - opisać dwa główne podejścia
●
dokładne (exact match) – w większości wypadków związane z zastosowaniem jakiegoś
języka wyszukiwania (czy tez raczej języka specyfikacji zapytań – query language)
Wyszukiwanie dokładne wymaga indeksu pojęć, których można użyć w
zapytaniu. Najbardziej popularna metoda – zbiory odwrócone (inverted files)
●
rozmyte (fuzzy) – wykorzystuje metody statystyczne do oceny odpowiedniości
dokumentu do zapytania
Poszczególne dokumenty reprezentowane są jako wektory w przestrzeni atrybutów
(słów, n-gramów itd.). Zapytania reprezentowane są także jako wektory w tej
przestrzeni, potrzebne jest zatem mapowanie zapytanie – wektor. Dzięki temu zapytanie
może być zbiorem słów kluczowych, ale także dokumentem albo nawet zbiorem
dokumentów
Wynik to dokumenty najbliższe wektorowi zapytania (potrzebna zatem metryka)
5. Reprezentacje dokumentów i ich przetwarzanie
Reprezentacje:
○ unigramowe (zliczanie słów, bag-of-words). Binarne / częstościowe
○ n-gramowe (zliczanie sekwencji słów)
○ pozycyjne (rozkłady prawdopodobieństwa występowania słów)
Przetwarzanie:
○ powiększanie: np. poprzez wygładzanie zbioru cech
○ zmniejszanie:
■ funkcje istotności atrybutów
■ wybór atrybutów (na oko)
■ przekształcanie przestrzeni atrybutów
6. Podać ideę algorytmu DIPRE
Ogólnie celem algorytmu jest znalezienie relacji. Algrotym opiera się na obserwacji, że
mając pewien zbiór wystąpień relacji możemy wydedukować pewne wzorce odnajdujące
wystąpienia tych relacji w bazie danych (np. WWW). Możemy znaleźć takie cechy
wspólne dla występowania tych relacji, np słowa dookoła nich, jakieś cechy wspólne
dla wszystkich tych wystąpień. Mając takie wzorce możemy odnaleźć kolejne relacje.
Proces ten można powtarzać w nieskończoność. Napierać napierać aż będziesz miał
dużo.
Przykład: mamy listę książek, wrzucamy to w nasz algorytm, i mamy nową listę książek
w WWW.
7. Co to jest leksem (3 odpowiedzi do wyboru, 1 prawidłowa)
Morfem - Podstawowa jednostka leksykalna na jaką dzielony jest tekst (np. koń, dzień)
Leskem - oznaczenie wszystkich form fleksyjnych danego słowa, słowo w potocznym
sensie
8. Właściwości gramatyki bezkontekstowej (3 odpowiedzi do wyboru, 1 prawidłowa).
Gramatyka bezkontekstowa to gramatyka formalna, w której wszystkie reguły
wyprowadzania wyrażeń są postaci:
A -> Γ
gdzie A jest dowolnym symbolem nieterminalnym i jego znaczenie nie zależy
od kontekstu, w jakim występuje, a Γ to dowolny (być może pusty) ciąg symboli
terminalnych i nieterminalnych.
9. Co to jest stemming, do czego służy. Podać przykład stemmera.
Stemming - automatyczne odnajdywanie rdzeni lub pni wyrazów. Jest potrzebny w
przypadku złożonej fleksji do rozpoznawania leksemów. Stemmery dzielą się na te do
zastosowań lingwistycznych oraz na te służące do information retrieval.
Przykładowe stemmery to Krovets (fleksyjny) i Paice/Husk (oparty na dopasowaniu
reguł), Portera – najczęściej używany. Oparty na serii przekształceń dokonujących
kolejnych podstawień ciągów znaków, wieloprzebiegowy, nie generuje poprawnych
językowo rdzeni, np.
○ university universe
○ noise noisy
10. Jak powstaje model języka, do czego służy, co to jest wygładzanie i jak się je robi.
Model języka to model probabilistyczny pozwalający obliczyć prawdopodobieństwo
wystąpienia całego zdania. Do zastosowań należą OCR, rozpoznawanie mowy,
poprawianie ortografii, automagiczne tłumaczenie. Do budowaniu modelu stosujemy
MLE, liczymy wystąpienia odpowiednich n-gramów w korpusie.
Przykład:
korpus: <s> a b a b </s>
MLE P(a|b)= ½, P(b|a)=1, P(a|<s>)=1, P(</s>|b) = ½
P(<s> a b a b </s>) = 1*1*1*1/2*1*1/2 = ¼
Wady: Zgodnie z MLE nie zaobserwowane wystąpienia n-gramów otrzymują zerowe
prawdopodobieństwa, brak wystąpienia może być przypadkowy
Wygładzanie - 1) zmniejszamy prawdopodobieństwo przypadające na zaobserwowane
przypadki (discount) po czym 2) rozdzielamy to co uzyskamy na pozostałe przypadki
(reallocate). W ten sposób rozkład prawdopodobieństwa się wygładza.
11. Krzywa/Prawo Zipfa - opisać,
Prawo Zipfa − w korpusie języka naturalnego, częstotliwość występowania słów jest
odwrotnie proporcjonalna do pozycji w rankingu. Jest to równoważne występowaniu
wśród słów pewnego dyskretnego rozkładu prawdopodobieństwa zwanego rozkładem
Zipfa.
Ranking powstaje w wyniku zliczenia częstotliwości występowania słów oraz
posortowania malejąco powstałej listy. Pierwsze słowo występować będzie około
dwa razy częściej niż drugie słowo z rankingu. Podobna reguła dotyczy też np. liczby
ludności miast.
Hapax legomenon (gr., rzecz raz powiedziana; hapaks – jeden raz, legomenon – rzecz
mówiona) – słowo, wyrażenie, forma stylistyczna, która występuje tylko jeden raz w
danym dokumencie (czy w całej twórczości pisarza), lub jest poświadczona jednym
cytatem.
12. NLP, NLU, NLG - rozszyfrować skróty,
NLP - natural language processing
NLU - natural language understanding
NLG - natural language generation
13. Coś o błędach ortograficznych, wady zalety metody Kernighana, jak ulepszyć
Występują cztery rodzaje błędów ortograficznych:
○ wstawienie: the -> ther
○ skasowanie: the -> th
○ podstawienie: the -> thw
○ transpozycja: the -> teh
Metoda Kernighana wykrywania błędów ortograficznych zakłada, że błąd został
popełniony przez jedną operację (skasowanie, wstawienie, transpozycję lub
substytucję).
Wady:
● Nie jest brany pod uwagę kontekst słowa (poprawić można stosując łańcuchy
markowa i reprezentację n-gramową tekstu)
● Istnieje możliwość więcej niż jednej pomyłki w słowie (poprawiamy przez
określenie odległości edycyjnej pomiędzy ciągami znaków)
14. Accuracy, Fallout... - z wzoru powiedziec ktore to
inaczej:
TP = true positives
FP = false positives
TN = true negatives
FN = false negatives
positive - relewantny
DB - baza dokumentów, dr - dokumenty relewantne, ds - dokumenty uznane przez
system za relewantne
PR = TP / (TP + FP)
PRECISION Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy
dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście
dokumentem relewantnym.
FO = FPR = FP / (FP + TN)
FALLOUT Zaszumienie określa prawdopodobieństwo niepoprawnego uznania za
relewantny dokumentu, który faktycznie relewantny nie jest
RECALL = TP / (TP + FN)
RECALL Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie
relewantny, zostanie za taki uznany przez system.
ACC = (TP + TN) / (TP + FP + TN + FN)
ACCURACY Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania
poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D.
15. Funkcje istotności atrybutów tf/idf,
term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj
document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi
N – określa liczbę wszystkich dokumentów w systemie
Funkcje istotności atrybutów - analiza funkcji gęstości
Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień
słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w
dokumencie) wartość równa jest 1.
Y lln(wi,dj) = (1+log(tfij)) * log(N/dfi)
16. Struktura sieci www (jak mierzyć wielkość internetu),
A - całe internety
B - indeks wyszukiwarki #1
C - indeks wyszukiwarki #2
|A| = ?
|B i C| = ? - ale można zestymować przez zadawanie tych samych zapytań do #1 i #2
|B|, |C| - znamy
P(‘strona’ należy do B) = |B| / |A|
|B i C| = |C| * P(‘strona’ należy do B) = |C| * |B| / |A| => |A| = |C|*|B| / |B i C|
17. Graf C33 (-> random graph model).
Wykład 7, slajd 8:
fans - strony które linkują do innych stron typu fans i centres
centres - strony które nie linkują do innych stron
Pierwsza liczba (3) to fans, druga (3) to centres.
18. HITS
Oparty o spostrzeżenie iż istnieją dwa rodzaje „dobrych” stron WWW
●
●
authority (wskazywane przez wiele innych stron)
hub (wskazują na wiele innych stron)
●
●
●
●
●
dobra strona authority wskazywana jest przez dobre strony hub
dobre strony hub wskazują na dobre strony authority
rekurencja – także obliczenia iteracyjne
Słabo nadaje się do obliczeń dotyczących całej sieci WWW
Może być wykorzystany do analizy podgrafu tworzonego przez strony znajdujące się w
wyniku zapytania
Authority: a(p):= ∑q→ph(q)
Hub: h(p):= ∑p→q a(q)
19. PageRank
PageRank – metoda nadawania indeksowanym stronom internetowym określonej
wartości liczbowej, oznaczającej jej jakość.
R(p)=ε/n+(1−ε)⋅ ∑(q,p)∈G R(q)/outdegree(q)
ε - współczynnik tłumienia
n - ilość stron (?)
20. Opisać parasitic gap
“Pasożytnicza luka”: przerwa, która nie może istnieć (czyli musi być wypełniona),
jeśli pierwsza została wypełniona. Co Ci to daje? Ano to, że jak masz takiego gapa i
uzupełnisz pierwszego (np. wstawiając najbardziej prawdopodobne słowo), to masz
okrojony zestaw słów, które wiążą się z tym wstawionym w pierwszego i musisz któreś z
nich (najbardziej prawdopodobne?) wstawić w tego parasitic gapa. Można w ten sposób
uzupełniać luki (podpowiedzi do tekstu pisanego?). Po prostu traktujesz wpisywane
słowa tak, jakby były uzupełnionymi gapami, od których jest zależny kolejny, jeszcze
nieuzupełniony-parasitic gap i wyświetlasz możliwe podpowiedzi. Tak ja to rozumiem,
moja interpretacja po kilkunastokrotnym przeczytaniu wiki. Na wykładzie nie byłem,
przyznaję bez bicia ;)

Podobne dokumenty