Słowa w kontek cie Słowa w kontek cie Rzeczywiste bł dy pisowni
Transkrypt
Słowa w kontek cie Słowa w kontek cie Rzeczywiste bł dy pisowni
Słowa w kontek cie Re yser nie podał adnych konkretów zwi zanych z realizacj Ŝ Ŝ ą Metody statystyczne w in ynierii lingwistycznej, cz.2 ą …filmu. Nie wiadomo, kiedy rozpoczn si …zdj cia, ani te kiedy dzieło miałoby wej na …ekrany Ŝ ą ś ę ę ć W wielu przypadkach jeste my w stanie przewidzie kolejne słowo (a przynajmniej klas do jakiej nale y) ś ć ę Ŝ Rodzaje zasobów wiedzy, z której korzystamy: – wiedza ogólna o wiecie i dotycz ca konkretnej dziedziny – wiedza syntaktyczna – wiedza leksykalna ś Słowa w kontek cie ą ę ś ć ę ą ć Ŝ ę ą ę their/there etc. – Je eli w zdaniu wyst puje które z cz sto mylonych słów konstrukcja alternatywnego zdania, – zbadanie prawdopodobie stwa konkurencyjnych zda i wybór słowa, które wchodziło w skład zdania o wi kszym prawdopod. – np.: ... blah blah blah the whether... vs blah blah blah the weather... Ŝ Czy rzeczywi cie chcemy przewidywa jakie b dzie nast pne słowo? ć ę ą – budowa listy cz sto mylonych słów: piece/peace, whether/weather/, ń ś ę Ŝ ę ą ć Wiadomo, e pewne typy bł dów prowadz do słów, które wyst puj w słowniku (wykrycie ich wymaga uwzgl dniania kontekstu); sposób traktowania takich bł dów, np. ę Ŝ Ŝ ś Rzeczywiste bł dy pisowni Postulat: Du cz wiedzy niezb dnej do przewidywania mo liwego dalszego ci gu wypowiedzi mo emy analizowa korzystaj c z metod statystycznych. W szczególno ci mo emy mówi o prawdopodobie stwie zdania (wypowiedzi) Ŝ ą ę ś ę ń ę ń ę NIE, ale je eli umiemy to zrobi , to znaczy, e umiemy porównywa prawdopodobie stwa pewnych poł cze - umiemy ocenia prawdopodobie stwo/poprawno zdania. Ŝ ć Ŝ ń ą ń ś ń ć ć ć Prawdopodobie stwo zdania mo e by widziane jako iloczyn prawdopodobie stwa słów, w nim wyst puj cych, np. ń Ŝ ć ę np. Przy analizie mowy mo emy oceni która z naszych hipotez jest najbardziej prawdopodobna Ŝ ń ą ć P(The big cat)= P (the ^ big ^ cat) „Złota reguła ...” Ła cuchy (Chain Rule) Przypomnijmy definicj prawdopodobie stwa warunkowego: czyli p(A ^ B) = p(B|A) p(A) tzn. ę ń p(A|B) = p(A^B) / p(B) OCR, ASR, MT, ... ... OCR, ASR,HR, HR, MT, p(The ^ dog) = p(dog|the) p(the) W ogólno ci: ś p(A1, A2, A3, A4, ..., An) = p(A1|A2,A3,A4,...,An) × p(A2|A3,A4,...,An) × p(A3|A4,...,An) × ... p(An-1|An) × p(An) × ! p(A|B) = p(B|A) p(A) / p(B) (formuła Bayesa) Abest = argmaxA p(B|A) p(A) („złota zasada”) p(B|A): model akustyczny, leksykalny, ... (nazwa zale na od Ŝ aplikacji) p(A): model j zyka ę inaczej p(wn1) = p(w 1 )p(w2 | w1) p(w3 |w21) ... p(wn | wn-11) = Πn k=1 p(wk | wk-11) W statystycznych aplikacjach dotycz cych j zyka naturalnego wiedza o ródle danych nazywana jest cz ciej modelem j zyka (Language Model) ni gramatyk . ą ź ę ę Ŝ ś ę ą (reguła ła cucha to bezpo rednia konsekwencja reguły Bayesa) ń ś 1 Idealny model j zyka Ła cuchy Markova W J zyk to ci g form wyrazowych. A W = (w1,w2,w3,...,wd) zadanie (cel modelowania): p(W) = ? Oczywi cie jest reguła: p(W) = p(w1,w2,w3,...,wd) = = p(w1) × p(w2|w1) × p(w3|w1,w2) ×...× ...× p(wd|w1,w2,...,wd-1) ę ą – pami tamy tylko kilka (k) poprzedzaj cych słów : ę ą Estymacja : P(w k | w k-1) na podstawie cz sto ci w korpusie treningowym ę P (w n | wn-1) = c(w n-1 wn) / Σ enie - zało enie Markova: Ŝ (N- rz d) ą powy szy stosunek nazywany jest cz sto ci wzgl dn i jest przykładem metody Maximum Likehood Estimation (MLE) poniewa wyliczony parametr jest takim, przy którym zgodno ze zbiorem testowym przy zadanym modelu jest najwi ksza Ŝ ≈ Π P(w k | w k-1) ę ę ą ś ć Przykład systemu „Berkeley restaurant project” x-Gramy Prawdopodobie stwa poszczególnych ci gów słów mog by przybli ane przez liczebno ci w odpowiednio du ym korpusie. ń – unigrams: (bez pami ci) ę ą Ŝ ś ą ć Ŝ P(sen) – bigramy: (pami jednego słowa) ę ć P(dog|big), P(sen|kolorowy) – trigramy: (pami ę ć dwóch sów) P(dog|the big) – quadrigramy: ą ę Przykłady P(dog), ś Ŝ k=1..n c(w n-1 w) = ogólnie: P (w n | wn-N+1n-1) = c(w n-N+1n-1 wn) / c(w n-N+1n-1) enie Markova dla bigramów 1) w ś = c(w n-1 wn) / c(w n-1) P (w n | wn-11) ≈ P (w n | wn-1n-N+1) P ę Ła cuchy Markova, bigramy k=1..n (wn ą wi-k,wi-k+1,...,wi-1 – metoda ta nazywana jest aproksymacj Markova k-tego rz du – “kth order Markov approximation” Π P(w k | w 1k-1) Ŝ Ŝ ć – zapominamy o „zbyt dawnych” poprzednikach P (wn1) = P (w 1) P(w 2 | w 1 ) P(w 3 | w 12)... P(w n | w 1n-1) zało Ŝ Ŝ wzór: Ŝ ń anie - zało enie Markova: Ŝ ę Ła cuchy Markova, bigramy przybli niesko czona: ć P (w n | wn-11) ≈ P (w n | wn-1n-N+1) , (robimy zało enie, które umo liwia nam zbieranie statystyk) tzn. pami ograniczona: ale niezbyt praktyczna -> zbyt wiele parametrów nawet przy małym d = ę Przybli ś pełny idealnym modelu - pami – dla wi, znamy wszystkich poprzedników w1,w2,w3,...,wi-1 notacja: P(sen|nienaturalnie kolorowy) (pami P(dog|the big bad) ę ć trzech słów) P(sen|bardzo nienaturalnie kolorowy) system odpowiada na pytania dotycz ce restauracji w Berkeley, California korzystaj c z odpowiedniej bazy danych przykładowe pytania: I’m looking for Cantonese food. I’d like to eat dinner someplace nearby. Tell me about Chez Panisse. Can you give me a list of the kinds of food that are available? When is cafe Venezia open during the day? Korpus ok. 10 000 zda , 1616 form wyrazowych ą ą ń 2 BERP, bigramy Counts I want to eat Chinese food lunch Probs I want to eat Chinese food lunch I 8 3 3 0 2 19 4 want 1087 0 0 0 0 0 0 I to 0 786 10 2 0 17 0 want .0023 .0025 .00092 0 .0094 .013 .0087 eat 13 0 860 0 0 0 0 to .32 0 0 0 0 0 0 Chinese food lunch 0 0 0 6 8 6 3 0 12 19 2 52 0 120 1 0 0 0 0 1 0 eat 0 .65 .0031 .0021 0 .011 0 Prawdopodobie stwo zdania P (w n | wn-1) =c(w n-1 wn) / c(w n-1) Chinese .0038 0 .26 0 0 0 0 0 .0049 .00092 .020 0 0 0 food lunch 0 .0066 0 .0021 .56 0 .0022 0 .0049 .0037 .055 .0047 0 0 Σ uni. 3437 1215 3256 938 213 1506 459 Prawdopodobie stwa policzone z danych: eat on (on|eat) - 0.16 eat at eat some - 0.06 eat Indian eat lunch - 0.06 eat Thai ń <s> I - 0.25 I want - 0.32 British food- .6 .65 .26 ń P(I|<s>) P(want|I) P(to|want) P(eat|to) P(British|eat) P(food|British) (z uwagi na małe liczby operujemy zwykle na logarytmach) N-gramowe modele j zyka n-gram Language Models Cz ste połaczenia: P (want|I) = .32 P (to|want) = .65 P (eat|to) = .26 P (food|chinese) = .56 P (lunch|eat) = .055 Rzadkie poł czenia: P (I|I) P (I|want) P (I|food) - Wyliczone prawdopodobie stwo zdania: P(I want to eat British food) = 0.000016 Kilka uwag o podanych liczbach: ę want to to eat 0.04 0.04 0.03 Aproksymacja Markova (n-1)th rz du → n-gram LM: ę p(W) =df Πi=1..dp(wi|wi-n+1,wi-n+2,...,wi-1) ą W szczególno ci (przy słowniku |V| = 60k): ś – 0-gram LM: uniform model, – 1-gram LM: unigram model, – 2-gram LM: bigram model, ale nie niemo liwe: P (I|I) I I I I want... P (I|want) I want I want Ŝ – 3-gram LM: trigram model, p(w) = 1/|V|, 1 parametr p(w), 6× ×104 parametry p(wi|wi-1) 3.6× ×109 parametry p(wi|wi-2,wi-1) 2.16× ×1014 parametry P (I|food) the kind of food I want is... Przykład - aproksymowanie Shakespeara Kilka uwag - wnioski Unigramy Every enter now severally so, let. Hill he late speaks; or! a more to leg less rest you enter. Bigramy What means, sir. I confess she? then all sorts, he is trim, captain. Why dost stand forth thy canopy, forsooth; he is this palpable hit the King Henry. Trigramy Sweet prince, Falsta shall die. This shall forbid it should be branded, if renown made it empty. Indeed the duke; and had a very good friend. niewielka liczba zdarze wyst puje z du ń ę Ŝ cz sto ci ą ę ś ą du a liczba zdarze wyst puje z niska cz sto ci . ! Mo na szybko zebra dane dotycz ce du ych cz sto ci ! Zebranie danych dotycz cych niskich cz sto ci mo e trwa zbyt długo ! Zera pojawiaj ce si w tabelach s dwojakiego rodzaju: Ŝ ń ę Ŝ ę ć ą ą ę ą – 0 wynikaj ce ze zbyt małej próby ą Ŝ ę – rzeczywiste 0 ą ś ą ę ś ś Ŝ Fly, and will rid me these news of price. 3 Przykład, aproksymowanie Shakespeara, cd. Ilo ciowe prawa j zykowe – prawo Zipf’a Wbrew intuicjom wielu osób traktuj cych j zyk jako co nieprzewidywalnego, teksty w j zyku naturalnym podlegaj ró nym zale no ciom ilo ciowym. ą Quadrigrams What! I will go seek the traitor Gloucester. Will you not tell me who I am? It cannot be but so. They say all lovers swear more performance than they are wont to keep obliged faith unforfeited! Proza Shakespeare zawiera 884,647 elementów, 29,000 form; 300,000 bigramów z 844,000,000 mo liwych ę ś ę Ŝ ś ą Ŝ ś Niech c(w) b dzie cz sto ci słowa w, tzn. liczb jego wyst pie w pewnym tek cie. Numer porz dkowy słowa w na li cie posortowanej malej co według cz sto ci nazywamy jego rang i oznaczamy przez r(w). Prawo Zipfa głosi, e cz sto jest w przybli eniu odwrotnie proporcjonalna do rangi, czyli: ę ę ś ś ą ą ą ą ń ś ą ę ś Ŝ ą ę ś ć Ŝ c(w) ∼ A / r(w), Ŝ 99.96% bigramów nie wyst puje wcale ę gdzie A jest stała empiryczn . (dla tekstów angielskich A wynosi około 0,1) ! ą Z powy szego równania wynika wprost, e r(w) * c(w) ∼ A Z prawa Zipfa wynika reguła : "W przeci tnym zbiorze tekstów około połowa słów pojawia si tylko raz.". Ŝ Dla 4-elementowych ci gów ten procent jest jeszcze wi kszy -> wyniki generowania przypominaj teksty Shakespeara, bo z nich bezpo rednio pochodz . ! Problemy wynikaj z liczebno ci 0 ą ę ą ś ą ą Ŝ ę ę ś Prawo Zipf’a a przydatno dla indeksowania Prawo Zipf’a a korpus Brown’a słów Zarówno słowa wyst puj ce bardzo cz sto, jak i te wyst puj ce bardzo rzadko, s mało przydatne z punktu widzenia indeksowania, Luhn (1958). ę ą ę ę ą ą ć Warto zauwa y , e na wykresie w skali logarytmicznej punkty (r(w), c(w)) le w przybli eniu na jednej linii prostej. Ŝ Ŝ Ŝ ą Ŝ k = 100,000 ś Prawo Zipf’a, upowszechnienie Przykładowe liczno ci dla niewielkich tekstów w j zyku polskim ę ``Awantura o Basi '' (AwoB0 - połowa I rozdziału, AwoB1 to rozdziały I-V, a AwoB2 to cała powie ), ``Bezgrzeszne lata'' (BL1, dwa pierwsze rozdziały) oraz zbiór 20 krótkich notatek z Tygodnika Finansowego z 2003 roku (TgF). ę ś Rozkład Zipf’a charakteryzuje m.in.: AwoB1 AwoB2 BL AwoB0 TgF liczba form 5138 11492 3256 942 592 liczba wyst pie 14614 42994 7687 1686 1232 liczba słów gdzie c(w) >=1 1567 3979 846 ą – wyst powanie słow w tek cie w j zyku naturalnym r(w) – liczb powi za do i ze strony www 1 2 3 4 5 6 7 8 9 10 20 ę ś ę – długo ą ń stron www – rozkład zarobków – sił trz sie ziemi ę ś ć ę ń ć ń AwoB1 c(w) AwoB2 c(w) BL c(w ) TgF c(w) ę i 349 si 348 nie 329 na 266 w 254 z 227 e 196 to 179 do 168 pan 116 j 68 ę ę Ŝ ą si i nie w na z e to do pan tak Ŝ 1052 i 265 w 1038 si 202 na 907 nie 168 akcji 768 w 160 do 767 na 120 z 744 z 117 hoop 490 to 93 zl e 87 akcje 456 436 jak 71 si 325 jest 67 spółki 186 jednak 34 ę Ŝ ę 53 38 20 20 19 15 15 14 14 14 4 N-gramy, problem zerowych wyst pie BERP, bigramy Counts I want to eat Chinese food lunch Probs I want to eat Chinese food lunch – w przypadku generowania tekstów jeste my ograniczeni tylko do ś tych n-gramów, które wyst piły w analizowanym korpusie; przy dostatecznej wielko ci korpusu ograniczenie to ma niewielkie znaczenie praktyczne; – przy analizie system przypisuje zerowe prawdopodobie stwa wyra eniom, które zawieraj takie elementy, które nie wyst piły w korpusie - tak by nie mo e. ą ś ń Ŝ ą ć ą Ŝ Metody „obej cia” problemu ś – nie wykorzystywa n-gramów wy szego rz du ć Ŝ ę – wprowadzenie poprawek do modelu - wygładzanie (smoothing) zmniejszeni liczno ci n-gramów, które wystapiły na rzecz tych, które nie wyst piły (metody: Witten-Bell) rodki matematyczne (backoff (Katz Backoff), interpolacja) ś ą ś ń <s> I - 0.25 I want - 0.32 British food- .6 want to to eat I to 0 786 10 2 0 17 0 want .0023 .0025 .00092 0 .0094 .013 .0087 .32 0 0 0 0 0 0 eat 13 0 860 0 0 0 0 to eat 0 .65 .0031 .0021 0 .011 0 Chinese food lunch 0 0 0 6 8 6 3 0 12 19 2 52 0 120 1 0 0 0 0 1 0 Chinese .0038 0 .26 0 0 0 0 0 .0049 .00092 .020 0 0 0 food lunch 0 .0066 0 .0021 .56 0 .0022 0 .0049 .0037 .055 .0047 0 0 Σ uni. 3437 1215 3256 938 213 1506 459 – w przypadku generowania tekstów jeste my ograniczeni tylko do 0.04 0.04 0.03 - want 1087 0 0 0 0 0 0 N-gramy, problem zerowych wyst pie Prawdopodobie stwo zdania Prawdopodobie stwa policzone z danych: eat on (on|eat) - 0.16 eat at eat some - 0.06 eat Indian eat lunch - 0.06 eat Thai - I 8 3 3 0 2 19 4 P (w n | wn-1) =c(w n-1 wn) / c(w n-1) ś tych n-gramów, które wyst piły w analizowanym korpusie; przy dostatecznej wielko ci korpusu ograniczenie to ma niewielkie znaczenie praktyczne; – przy analizie system przypisuje zerowe prawdopodobie stwa wyra eniom, które zawieraj takie elementy, które nie wyst piły w korpusie - tak by nie mo e. ą ś .65 .26 ń Ŝ ą ć Wyliczone prawdopodobie stwo zdania: P(I want to eat British food) = ą Ŝ Metody „obej cia” problemu ś ń = 0.000016 – nie wykorzystywa n-gramów wy szego rz du ć Ŝ ę – wprowadzenie poprawek do modelu - wygładzanie (smoothing) P(I|<s>) P(want|I) P(to|want) P(eat|to) P(British|eat) P(food|British) ą bigramy, model Add One zmniejszeni liczno ci n-gramów, które wystapiły na rzecz tych, które nie wyst piły (metody: Witten-Bell) rodki matematyczne (backoff (Katz Backoff), interpolacja) ś (z uwagi na małe liczby operujemy zwykle na logarytmach, logprob) ś BERP, bigramy, model Add One Najprostsza (zła, ale przedstawiona tu dla ilustracji, bo stanowi punkt wyj cia do metod skuteczniejszych) metoda poprawienia modelu bigramowego: ś – dodanie 1 do wszystkich zerowych liczno ci bigramów ś – poprawienie pozostałych liczno ci tak, suma Counts,org. I I 8 want 3 to 3 eat 0 Chinese 2 food 19 lunch 4 want 1087 0 0 0 0 0 0 to 0 786 10 2 0 17 0 eat 13 0 860 0 0 0 0 Chinese food 0 0 6 8 3 0 19 2 0 120 0 0 0 1 lunch 0 6 12 52 1 0 0 ś prawdopodobie stw była 1 ń – UWAGA: je li kto b dzie chciał stosowa tak prost ę ś ś ć ą ą metod , to nie powinien dodawa 1 tylko mniej, np. 0.5 ę ć Counts+1 I want to eat Chinese food lunch I 6 2 3 0.37 0.36 10 1.1 want 740 0.42 0.69 0.37 0.12 0.48 0.22 to 0.68 331 8 1 0.12 9 0.22 eat Chinese food lunch 10 0.68 0.68 0.68 0.42 3 4 3 594 3 0.69 9 0.37 7.4 1 20 0.12 0.12 15 0.24 0.48 0.48 0.48 0.48 0.22 0.22 0.44 0.22 5 Co osi gn li my? Witten-Bell Add One jest zł metod przybli ania ą ą Ŝ – bardzo du e zmiany cz sto ci Ŝ ę Idea: prawdopodobie stwo n-gramu, który jeszcze nie wyst pił jest z mo liwych n-gramów nie pojawiła si jeszcze zale ne od tego jaka cz w korpusie ń Ŝ ś (du y % przypisany tym n-gramom, które nigdy nie wyst piły) ą ę ś ć Ŝ ę Ŝ ą – Gale i Church (1994) dowodz , e jest to metoda gorsza ą nawet od wersji zupełnie nie poprawianej – mo na dodawa mniej ni 1, ale wci Ŝ ć Ŝ ą Ŝ nie jest to najlepsza metoda .. Ile razy rozpoznawali my jaki n-gram po raz pierwszy? - tyle razy ile stwierdzili my ró nych n-gramów (ka dy był kiedy rozpoznany po raz pierwszy) (T) ś ś Ŝ ś Ŝ Ŝ ś Tak wi c prawdopodobie stwo napotkania nowego typu (ngramu) (czyli suma prawdopodobie stw wszystkich n-gramów, które ę ń ń jeszcze nie wystapiły): ∑ pi* = T /( N + T) T- liczba typów, które wyst piły w korpusie ą i:ci=0 N-liczba wszystkich wyst pie wszystkich typów ą Modyfikacja metody Witten-Bell dla bigramów Witten-Bell Discounting Ustalili my prawdopodobie stwo wyst pienia wszystkich nie napotkanych jeszcze n-gramów, ale jak je rozdzieli ... Najprostsza propozycja - po równo ś ń ą ć ń W przypadku unigramów metoda ta przypomina metod Add One Dla bigramów jednak metoda ta uwzgl dnia w pewien sposób „histori ”: rozdzielanie prawdopodobie stwa równo pomi dzy wszystkie ngramy nie jest najlepsz strategi -- niektóre słowa cz ciej ni inne wprowadzaj nowe konteksty, ę ę ę ą Z = ∑ 1 czyli Z - liczba typów o licz. 0 ę ń ą ę ś Ŝ ą i:ci=0 st d: pi* = 1/Z * T /( N + T) czyli pi* = T /( Z *( N + T)) if ci =0 mo emy oszacowa prawdopodobie stwo wprowadzenia nowego bigramu na podstawie dotychczas zgromadzonych danych: Ŝ ć ń ą – Dla danego słowa liczymy ile ró nych bigramów zaczyna i Ŝ Nie mo emy jednak tylko doda przewidywanych prawdopodobie stw - musimy unormowa sum do 1. Tym samym pomniejszamy prawdopodobie stwa tych n-gramów, które si pojawiły w korpusie: Ŝ dzielimy przez liczb wyst pie wszystkich bigramów zaczynaj cych si od niego ć ń ć ę ę ń ą ą ń ę ę metoda cz sto u ywana w systemach rozpoznawania mowy ę Ŝ pi* = ci / (N + T) if (ci > 0) BERP Final Witten-Bell Bigram Equations Całkowite prawdopodobie stwo bigramów, rozpoczynaj cych si od wx, a które si jeszcze nie pojawiły: ń ą ę ę ∑ i: c(wx T- liczba typów bigramów, N- liczba wyst pie ą Dla poszczególnych bigramów (tak jak poprzednio): ą ę ∑ 1 (ile bigramów ma 0 wyst pie ) ą ń i:c(wx wi )=0 pi* (wi|wi-1) = T(wi-1) / Z(w i-1) (N + T(wi-1)) want food - 76 - 82 to -130 lunch - 45 eat - 124 ń Ŝ Z(wx)= Ŝ ń (je li jest mniej typów bigramów zaczynaj cych si od wx, to prawdopodobie stwo napotkania nowego te jest mniejsze) ś Liczba ró nych bigramów dla słów z przykładu: I - 95 Chinese - 20 pi* (wi|wx) = T (wx) / ( N(wx) + T(wx)) wi )=0 liczba słów 1616, wi c dla ka dego słowa mo liwych bigramów - 1616 liczba „niewidzianych” bigramów: ę I - 1521 want Chinese - 1596 food Ŝ Ŝ - 1540 to - 1486 - 1534 lunch - 1571 eat - 1492 if c(wi-1 wi )= 0 6 BERP, bigramy, model Witten-Bell bigramy, porównanie Add One i W-B Counts I want to eat Chinese food lunch CountsWB I I 8 want 3 to 3 eat 0.75 Chinese 2 food 18 lunch 4 want to eat Chinese food lunch 1060 0.62 13 0.62 0.62 0.62 0.46 740 0.46 6 8 6 0.85 10 827 3 0.085 12 0.75 2 0.075 17 2 20 0.12 0.01 0.12 0.12 109 1 0.59 16 0.59 0.59 0.59 0.59 0.26 0.2 0.26 0.26 1 0.26 Counts +1 I I 6 want 2 to 3 eat 0.37 Chinese 0.36 food 10 lunch 1.1 want to eat Chinese food lunch 740 0.68 10 0.68 0.68 0.68 0.42 331 0.42 3 4 3 0.69 8 594 3 0.69 9 0.37 1 0.37 7.4 1 20 0.12 0.12 0.12 0.12 15 0.24 0.48 9 0.48 0.48 0.48 0.48 0.22 0.22 0.22 0.22 0.44 0.22 I 8 3 3 0 2 19 4 want 1087 0 0 0 0 0 0 I 8 3 3 0.75 2 18 4 CountsWB I want to eat Chinese food lunch to 0 786 10 2 0 17 0 eat 13 0 860 0 0 0 0 Chinese food lunch 0 0 0 6 8 6 3 0 12 19 2 52 0 120 1 0 0 0 0 1 0 want to eat 1060 0.62 13 0.46 740 0.46 0.85 10 827 0.75 2 0.075 0.12 0.01 0.12 0.59 16 0.59 0.26 0.2 0.26 Chinese 0.62 6 3 17 0.12 0.59 0.26 food lunch 0.62 0.62 8 6 0.085 12 2 20 109 1 0.59 0.59 1 0.26 Good-Turing Discouting Good-Turing Discouting c(MLE) Nc liczba bigramów liczba typów o cz sto ci c reestymacja cz sto ci N(c) okre la ile słów wyst powało c - razy (count-of-counts) 0 74 671 000 000 0.0000270 – estymator prawdopodobie stwa wzgl dnego wyznaczony na 1 2 018 046 0.446 2 449 721 1.26 pr(w) = (c(w) + 1) × N(c(w) + 1) / (|T| × N(c(w))) 3 188 933 2.24 – w szczególno ci oszacowanie cz sto ci grupy na podstawie … oszacowanego stosunku grupy 1 do 0 (dla słów jeszcze niespotykanych: c(w) = 0) pr(w) = N(1) / (|T| × N(0)) – mała liczba grup (< 5-10, N(c) wysokie) – oczywi cie konieczna normalizacja (aby Σ w p’(w) = 1) 9 22 280 8.25 Idea ogólna: (metoda dobra dla estymacji z du ych danych) Ŝ – wyznaczenie cz sto ci wyst powania N-gramów, ę ś ę ś ę ń ś ę ś ę ś ę Katz Backoff ciowej) korzystania z wiedzy cz O ile forma ta ju wcze niej wyst powała (ale w innym kontek cie) mo emy oprze nasze przypuszczenia na danych jej dotycz cych. Ŝ ń ę ń ę Je eli N-gram ma liczno zero, „cofamy si ” do N-1 gramu, je li ten te ma liczno zero, to do n-2 - gramu ... ę Ŝ ś ś ć Ŝ ś ć ś Ŝ ś ę w przypadku trigramów... ś ć ą Na przykład: je eli nie mamy danych dla P(proces|poszlakowy) mo emy skorzysta jako z P(proces), które zapewne nie jest zerowe. Ŝ Ŝ ś ś Celem jest znalezienie przybli e dla n-gramów, które nie pojawiły si w zbiorze treningowym, a dokładniej prawdopodobie stwa pojawienia si formy x w konkretnym kontek cie Ŝ ś Przykład dla korpusu 22 mln słów, wiadomo ci Associated Press Metody Backoff (cofania, ę Od pewnego k uznaje si warto ci za wiarygodne i nie poprawia ś ś ę podstawie cz sto ci wyst powania: ę c*(GT) ę ć ś Ale trzeba wzi pod uwag dwa fakty: – normowanie całkowitego prawdopodobie stwa do 1, zachowanie proporcji, tak by nie przypisa zerowym wyst pieniom prawd. wy szego ni dla wyst pie nie zerowych – prawdopodobie stwa te ustalane s w ró nych przestrzeniach ą ć ę pi (wi| wi-2 wi-1) p`(wi| wi-2 wi-1) = α1 pi (wi| wi-1) α2 pi (wi) if c(wi-2 wi-1 wi )> 0 if c(wi-2 wi-1 wi )= 0 and c( wi-1 wi )> 0 wpp. ń ć ą Ŝ ń Ŝ ą ą ń Ŝ 7 Podsumowanie Ka da z zaprezentowanych metod oparta jest na jakie obserwacji dotycz cej cz sto ci wyst powania słów w j zyku. Ŝ ś ą ę ś ę ę ś adna z tych obserwacji nie jest nieprawdziwa, ale uwzgl dnienie ich prowadzi do modeli daj cych ró ne rezultaty. Tak naprawd wiele zale y od wielko ci i rodzaju korpusu i potrzeb konkretnej aplikacji. Nie ma metody najlepszej. ę ą ę Ŝ Ŝ ś Model j zyka najprostszy model j zyka składa si z: ę ę ę – zestawu N-gramów opracowanego na podstawie korpusu – z cz sto ciami „wygładzonymi” przy pomocy metody Wittenę ś Bell lub Good-Turing w poł czeniu z jak ą ą ś form backoff. ą Mimo swej prostoty taki model jest u yteczny dla wielu zastosowa Ŝ ń Dzi kuj za uwag . ę ę ę 8