Słowa w kontek cie Słowa w kontek cie Rzeczywiste bł dy pisowni

Transkrypt

Słowa w kontek cie Słowa w kontek cie Rzeczywiste bł dy pisowni
Słowa w kontek cie
Re yser nie podał adnych konkretów zwi zanych z realizacj
Ŝ
Ŝ
ą
Metody statystyczne
w in ynierii lingwistycznej, cz.2
ą
…filmu. Nie wiadomo, kiedy rozpoczn si …zdj cia, ani te
kiedy dzieło miałoby wej na …ekrany
Ŝ
ą
ś
ę
ę
ć
W wielu przypadkach jeste my w stanie przewidzie kolejne słowo (a
przynajmniej klas do jakiej nale y)
ś
ć
ę
Ŝ
Rodzaje zasobów wiedzy, z której korzystamy:
– wiedza ogólna o wiecie i dotycz ca konkretnej dziedziny
– wiedza syntaktyczna
– wiedza leksykalna
ś
Słowa w kontek cie
ą
ę
ś
ć
ę
ą
ć
Ŝ
ę
ą
ę
their/there etc.
– Je eli w zdaniu wyst puje które z cz sto mylonych słów konstrukcja alternatywnego zdania,
– zbadanie prawdopodobie stwa konkurencyjnych zda i wybór
słowa, które wchodziło w skład zdania o wi kszym prawdopod.
– np.: ... blah blah blah the whether... vs blah blah blah the weather...
Ŝ
Czy rzeczywi cie chcemy przewidywa jakie b dzie nast pne słowo?
ć
ę
ą
– budowa listy cz sto mylonych słów: piece/peace, whether/weather/,
ń
ś
ę
Ŝ
ę
ą
ć
Wiadomo, e pewne typy bł dów prowadz do słów, które wyst puj w
słowniku (wykrycie ich wymaga uwzgl dniania kontekstu); sposób
traktowania takich bł dów, np.
ę
Ŝ
Ŝ
ś
Rzeczywiste bł dy pisowni
Postulat:
Du cz
wiedzy niezb dnej do przewidywania mo liwego dalszego
ci gu wypowiedzi mo emy analizowa korzystaj c z metod
statystycznych.
W szczególno ci mo emy mówi o prawdopodobie stwie zdania
(wypowiedzi)
Ŝ
ą
ę
ś
ę
ń
ę
ń
ę
NIE, ale je eli umiemy to zrobi , to znaczy, e umiemy porównywa
prawdopodobie stwa pewnych poł cze - umiemy ocenia
prawdopodobie stwo/poprawno zdania.
Ŝ
ć
Ŝ
ń
ą
ń
ś
ń
ć
ć
ć
Prawdopodobie stwo zdania mo e by widziane jako iloczyn
prawdopodobie stwa słów, w nim wyst puj cych, np.
ń
Ŝ
ć
ę
np. Przy analizie mowy mo emy oceni która z naszych hipotez jest
najbardziej prawdopodobna
Ŝ
ń
ą
ć
P(The big cat)= P (the ^ big ^ cat)
„Złota reguła ...”
Ła cuchy (Chain Rule)
Przypomnijmy definicj prawdopodobie stwa warunkowego:
czyli p(A ^ B) = p(B|A) p(A) tzn.
ę
ń
p(A|B) = p(A^B) / p(B)
OCR, ASR,
MT,
... ...
OCR,
ASR,HR,
HR,
MT,
p(The ^ dog) = p(dog|the) p(the)
W ogólno ci:
ś
p(A1, A2, A3, A4, ..., An) =
p(A1|A2,A3,A4,...,An) × p(A2|A3,A4,...,An) ×
p(A3|A4,...,An) × ... p(An-1|An) × p(An)
×
!
p(A|B) = p(B|A) p(A) / p(B) (formuła Bayesa)
Abest = argmaxA p(B|A) p(A) („złota zasada”)
p(B|A): model akustyczny, leksykalny, ... (nazwa zale na od
Ŝ
aplikacji)
p(A): model j zyka
ę
inaczej
p(wn1) = p(w 1 )p(w2 | w1) p(w3 |w21) ... p(wn | wn-11)
= Πn k=1 p(wk | wk-11)
W statystycznych aplikacjach dotycz cych j zyka naturalnego
wiedza o ródle danych nazywana jest cz ciej modelem j zyka
(Language Model) ni gramatyk .
ą
ź
ę
ę
Ŝ
ś
ę
ą
(reguła ła cucha to bezpo rednia konsekwencja reguły Bayesa)
ń
ś
1
Idealny model j zyka
Ła cuchy Markova
W
J zyk to ci g form wyrazowych.
A W = (w1,w2,w3,...,wd)
zadanie (cel modelowania):
p(W) = ?
Oczywi cie jest reguła:
p(W) = p(w1,w2,w3,...,wd) =
= p(w1) × p(w2|w1) × p(w3|w1,w2) ×...×
...× p(wd|w1,w2,...,wd-1)
ę
ą
– pami tamy tylko kilka (k) poprzedzaj cych słów :
ę
ą
Estymacja : P(w k | w k-1) na podstawie cz sto ci w korpusie
treningowym
ę
P (w n | wn-1) = c(w n-1 wn) / Σ
enie - zało enie Markova:
Ŝ
(N- rz d)
ą
powy szy stosunek nazywany jest cz sto ci wzgl dn i jest
przykładem metody Maximum Likehood Estimation (MLE)
poniewa wyliczony parametr jest takim, przy którym zgodno
ze zbiorem testowym przy zadanym modelu jest najwi ksza
Ŝ
≈ Π P(w k | w k-1)
ę
ę
ą
ś
ć
Przykład systemu
„Berkeley restaurant project”
x-Gramy
Prawdopodobie stwa poszczególnych ci gów słów mog by
przybli ane przez liczebno ci w odpowiednio du ym korpusie.
ń
– unigrams: (bez pami ci)
ę
ą
Ŝ
ś
ą
ć
Ŝ
P(sen)
– bigramy: (pami
jednego słowa)
ę
ć
P(dog|big),
P(sen|kolorowy)
– trigramy: (pami
ę
ć
dwóch sów)
P(dog|the big)
– quadrigramy:
ą
ę
Przykłady
P(dog),
ś
Ŝ
k=1..n
c(w n-1 w) =
ogólnie:
P (w n | wn-N+1n-1) = c(w n-N+1n-1 wn) / c(w n-N+1n-1)
enie Markova dla bigramów
1)
w
ś
= c(w n-1 wn) / c(w n-1)
P (w n | wn-11) ≈ P (w n | wn-1n-N+1)
P
ę
Ła cuchy Markova, bigramy
k=1..n
(wn
ą
wi-k,wi-k+1,...,wi-1
– metoda ta nazywana jest aproksymacj Markova k-tego rz du
– “kth order Markov approximation”
Π P(w k | w 1k-1)
Ŝ
Ŝ
ć
– zapominamy o „zbyt dawnych” poprzednikach
P (wn1) = P (w 1) P(w 2 | w 1 ) P(w 3 | w 12)... P(w n | w 1n-1)
zało
Ŝ
Ŝ
wzór:
Ŝ
ń
anie - zało enie Markova:
Ŝ
ę
Ła cuchy Markova, bigramy
przybli
niesko czona:
ć
P (w n | wn-11) ≈ P (w n | wn-1n-N+1) ,
(robimy zało enie, które umo liwia nam zbieranie statystyk)
tzn. pami ograniczona:
ale niezbyt praktyczna -> zbyt wiele parametrów nawet przy
małym d
=
ę
Przybli
ś
pełny
idealnym modelu - pami
– dla wi, znamy wszystkich poprzedników w1,w2,w3,...,wi-1
notacja:
P(sen|nienaturalnie kolorowy)
(pami
P(dog|the big bad)
ę
ć
trzech słów)
P(sen|bardzo nienaturalnie kolorowy)
system odpowiada na pytania dotycz ce restauracji w Berkeley,
California korzystaj c z odpowiedniej bazy danych
przykładowe pytania:
I’m looking for Cantonese food.
I’d like to eat dinner someplace nearby.
Tell me about Chez Panisse.
Can you give me a list of the kinds of food that are available?
When is cafe Venezia open during the day?
Korpus ok. 10 000 zda , 1616 form wyrazowych
ą
ą
ń
2
BERP, bigramy
Counts
I
want
to
eat
Chinese
food
lunch
Probs
I
want
to
eat
Chinese
food
lunch
I
8
3
3
0
2
19
4
want
1087
0
0
0
0
0
0
I
to
0
786
10
2
0
17
0
want
.0023
.0025
.00092
0
.0094
.013
.0087
eat
13
0
860
0
0
0
0
to
.32
0
0
0
0
0
0
Chinese food
lunch
0
0
0
6
8
6
3
0
12
19
2
52
0
120
1
0
0
0
0
1
0
eat
0
.65
.0031
.0021
0
.011
0
Prawdopodobie stwo zdania
P (w n | wn-1) =c(w n-1 wn) / c(w n-1)
Chinese
.0038
0
.26
0
0
0
0
0
.0049
.00092
.020
0
0
0
food
lunch
0
.0066
0
.0021
.56
0
.0022
0
.0049
.0037
.055
.0047
0
0
Σ uni.
3437
1215
3256
938
213
1506
459
Prawdopodobie stwa policzone z danych:
eat on (on|eat)
- 0.16 eat at
eat some - 0.06
eat Indian eat lunch - 0.06
eat Thai ń
<s> I
- 0.25
I want
- 0.32
British food- .6
.65
.26
ń
P(I|<s>) P(want|I) P(to|want) P(eat|to) P(British|eat) P(food|British)
(z uwagi na małe liczby operujemy zwykle na logarytmach)
N-gramowe modele j zyka
n-gram Language Models
Cz ste połaczenia:
P (want|I) = .32 P (to|want) = .65 P (eat|to) = .26
P (food|chinese) = .56 P (lunch|eat) = .055
Rzadkie poł czenia:
P (I|I)
P (I|want) P (I|food)
-
Wyliczone prawdopodobie stwo zdania:
P(I want to eat British food) = 0.000016
Kilka uwag o podanych liczbach:
ę
want to
to eat
0.04
0.04
0.03
Aproksymacja Markova (n-1)th rz du → n-gram LM:
ę
p(W) =df Πi=1..dp(wi|wi-n+1,wi-n+2,...,wi-1)
ą
W szczególno ci (przy słowniku |V| = 60k):
ś
– 0-gram LM: uniform model,
– 1-gram LM: unigram model,
– 2-gram LM: bigram model,
ale nie niemo liwe:
P (I|I) I I I I want...
P (I|want) I want I want
Ŝ
– 3-gram LM: trigram model,
p(w) = 1/|V|,
1 parametr
p(w),
6×
×104 parametry
p(wi|wi-1)
3.6×
×109 parametry
p(wi|wi-2,wi-1) 2.16×
×1014 parametry
P (I|food) the kind of food I want is...
Przykład - aproksymowanie
Shakespeara
Kilka uwag - wnioski
Unigramy
Every enter now severally so, let.
Hill he late speaks; or! a more to leg less rest you enter.
Bigramy
What means, sir. I confess she? then all sorts, he is trim, captain.
Why dost stand forth thy canopy, forsooth; he is this palpable hit the
King Henry.
Trigramy
Sweet prince, Falsta shall die.
This shall forbid it should be branded, if renown made it empty.
Indeed the duke; and had a very good friend.
niewielka liczba zdarze wyst puje z du
ń
ę
Ŝ
cz sto ci
ą
ę
ś
ą
du a liczba zdarze wyst puje z niska cz sto ci .
! Mo na szybko zebra dane dotycz ce du ych cz sto ci
! Zebranie danych dotycz cych niskich cz sto ci mo e trwa zbyt długo
! Zera pojawiaj ce si w tabelach s dwojakiego rodzaju:
Ŝ
ń
ę
Ŝ
ę
ć
ą
ą
ę
ą
– 0 wynikaj ce ze zbyt małej próby
ą
Ŝ
ę
– rzeczywiste 0
ą
ś
ą
ę
ś
ś
Ŝ
Fly, and will rid me these news of price.
3
Przykład, aproksymowanie
Shakespeara, cd.
Ilo ciowe prawa j zykowe –
prawo Zipf’a
Wbrew intuicjom wielu osób traktuj cych j zyk jako co
nieprzewidywalnego, teksty w j zyku naturalnym podlegaj ró nym
zale no ciom ilo ciowym.
ą
Quadrigrams
What! I will go seek the traitor Gloucester.
Will you not tell me who I am?
It cannot be but so.
They say all lovers swear more performance than they are wont to
keep obliged faith unforfeited!
Proza Shakespeare zawiera 884,647 elementów, 29,000 form; 300,000
bigramów z 844,000,000 mo liwych
ę
ś
ę
Ŝ
ś
ą
Ŝ
ś
Niech c(w) b dzie cz sto ci słowa w, tzn. liczb jego wyst pie w pewnym
tek cie. Numer porz dkowy słowa w na li cie posortowanej malej co według
cz sto ci nazywamy jego rang i oznaczamy przez r(w). Prawo Zipfa głosi,
e cz sto jest w przybli eniu odwrotnie proporcjonalna do rangi, czyli:
ę
ę
ś
ś
ą
ą
ą
ą
ń
ś
ą
ę
ś
Ŝ
ą
ę
ś
ć
Ŝ
c(w) ∼ A / r(w),
Ŝ
99.96% bigramów nie wyst puje wcale
ę
gdzie A jest stała empiryczn . (dla tekstów angielskich A wynosi około 0,1)
!
ą
Z powy szego równania wynika wprost, e r(w) * c(w) ∼ A
Z prawa Zipfa wynika reguła : "W przeci tnym zbiorze tekstów około
połowa słów pojawia si tylko raz.".
Ŝ
Dla 4-elementowych ci gów ten procent jest jeszcze wi kszy -> wyniki
generowania przypominaj teksty Shakespeara, bo z nich
bezpo rednio pochodz .
! Problemy wynikaj z liczebno ci 0
ą
ę
ą
ś
ą
ą
Ŝ
ę
ę
ś
Prawo Zipf’a a przydatno
dla indeksowania
Prawo Zipf’a a korpus Brown’a
słów
Zarówno słowa wyst puj ce bardzo cz sto, jak i te wyst puj ce bardzo
rzadko, s mało przydatne z punktu widzenia indeksowania, Luhn (1958).
ę
ą
ę
ę
ą
ą
ć
Warto zauwa y ,
e na wykresie w
skali logarytmicznej punkty
(r(w), c(w))
le w przybli eniu na jednej linii
prostej.
Ŝ
Ŝ
Ŝ
ą
Ŝ
k = 100,000
ś
Prawo Zipf’a, upowszechnienie
Przykładowe liczno ci dla niewielkich tekstów
w j zyku polskim
ę
``Awantura o Basi '' (AwoB0 - połowa I rozdziału, AwoB1 to rozdziały I-V, a AwoB2 to cała
powie ), ``Bezgrzeszne lata'' (BL1, dwa pierwsze rozdziały) oraz zbiór 20 krótkich notatek
z Tygodnika Finansowego z 2003 roku (TgF).
ę
ś
Rozkład Zipf’a charakteryzuje m.in.:
AwoB1 AwoB2
BL AwoB0 TgF
liczba form
5138
11492 3256
942 592
liczba wyst pie
14614
42994 7687
1686 1232
liczba słów gdzie c(w) >=1 1567
3979 846
ą
– wyst powanie słow w tek cie w j zyku naturalnym
r(w)
– liczb powi za do i ze strony www
1
2
3
4
5
6
7
8
9
10
20
ę
ś
ę
– długo
ą
ń
stron www
– rozkład zarobków
– sił trz sie ziemi
ę
ś
ć
ę
ń
ć
ń
AwoB1 c(w)
AwoB2 c(w)
BL c(w )
TgF
c(w)
ę
i 349
si 348
nie 329
na 266
w 254
z 227
e 196
to 179
do 168
pan 116
j
68
ę
ę
Ŝ
ą
si
i
nie
w
na
z
e
to
do
pan
tak
Ŝ
1052
i 265
w
1038
si 202
na
907
nie 168 akcji
768
w 160
do
767
na 120
z
744
z 117 hoop
490
to 93
zl
e 87 akcje
456
436
jak 71
si
325
jest 67 spółki
186 jednak 34
ę
Ŝ
ę
53
38
20
20
19
15
15
14
14
14
4
N-gramy, problem zerowych
wyst pie
BERP, bigramy
Counts
I
want
to
eat
Chinese
food
lunch
Probs
I
want
to
eat
Chinese
food
lunch
– w przypadku generowania tekstów jeste my ograniczeni tylko do
ś
tych n-gramów, które wyst piły w analizowanym korpusie; przy
dostatecznej wielko ci korpusu ograniczenie to ma niewielkie
znaczenie praktyczne;
– przy analizie system przypisuje zerowe prawdopodobie stwa
wyra eniom, które zawieraj takie elementy, które nie wyst piły w
korpusie - tak by nie mo e.
ą
ś
ń
Ŝ
ą
ć
ą
Ŝ
Metody „obej cia” problemu
ś
– nie wykorzystywa n-gramów wy szego rz du
ć
Ŝ
ę
– wprowadzenie poprawek do modelu - wygładzanie (smoothing)
zmniejszeni liczno ci n-gramów, które wystapiły na rzecz tych,
które nie wyst piły (metody: Witten-Bell)
rodki matematyczne (backoff (Katz Backoff), interpolacja)
ś
ą
ś
ń
<s> I
- 0.25
I want
- 0.32
British food- .6
want to
to eat
I
to
0
786
10
2
0
17
0
want
.0023
.0025
.00092
0
.0094
.013
.0087
.32
0
0
0
0
0
0
eat
13
0
860
0
0
0
0
to
eat
0
.65
.0031
.0021
0
.011
0
Chinese food
lunch
0
0
0
6
8
6
3
0
12
19
2
52
0
120
1
0
0
0
0
1
0
Chinese
.0038
0
.26
0
0
0
0
0
.0049
.00092
.020
0
0
0
food
lunch
0
.0066
0
.0021
.56
0
.0022
0
.0049
.0037
.055
.0047
0
0
Σ uni.
3437
1215
3256
938
213
1506
459
– w przypadku generowania tekstów jeste my ograniczeni tylko do
0.04
0.04
0.03
-
want
1087
0
0
0
0
0
0
N-gramy, problem zerowych
wyst pie
Prawdopodobie stwo zdania
Prawdopodobie stwa policzone z danych:
eat on (on|eat)
- 0.16 eat at
eat some - 0.06
eat Indian eat lunch - 0.06
eat Thai -
I
8
3
3
0
2
19
4
P (w n | wn-1) =c(w n-1 wn) / c(w n-1)
ś
tych n-gramów, które wyst piły w analizowanym korpusie; przy
dostatecznej wielko ci korpusu ograniczenie to ma niewielkie
znaczenie praktyczne;
– przy analizie system przypisuje zerowe prawdopodobie stwa
wyra eniom, które zawieraj takie elementy, które nie wyst piły w
korpusie - tak by nie mo e.
ą
ś
.65
.26
ń
Ŝ
ą
ć
Wyliczone prawdopodobie stwo zdania:
P(I want to eat British food) =
ą
Ŝ
Metody „obej cia” problemu
ś
ń
= 0.000016
– nie wykorzystywa n-gramów wy szego rz du
ć
Ŝ
ę
– wprowadzenie poprawek do modelu - wygładzanie (smoothing)
P(I|<s>) P(want|I) P(to|want) P(eat|to) P(British|eat) P(food|British)
ą
bigramy, model Add One
zmniejszeni liczno ci n-gramów, które wystapiły na rzecz tych,
które nie wyst piły (metody: Witten-Bell)
rodki matematyczne (backoff (Katz Backoff), interpolacja)
ś
(z uwagi na małe liczby operujemy zwykle na logarytmach, logprob)
ś
BERP, bigramy, model Add One
Najprostsza (zła, ale przedstawiona tu dla ilustracji, bo
stanowi punkt wyj cia do metod skuteczniejszych) metoda
poprawienia modelu bigramowego:
ś
– dodanie 1 do wszystkich zerowych liczno ci bigramów
ś
– poprawienie pozostałych liczno ci tak, suma
Counts,org. I
I
8
want
3
to
3
eat
0
Chinese
2
food
19
lunch
4
want
1087
0
0
0
0
0
0
to
0
786
10
2
0
17
0
eat
13
0
860
0
0
0
0
Chinese food
0
0
6
8
3
0
19
2
0
120
0
0
0
1
lunch
0
6
12
52
1
0
0
ś
prawdopodobie stw była 1
ń
– UWAGA: je li kto b dzie chciał stosowa tak prost
ę
ś
ś
ć
ą
ą
metod , to nie powinien dodawa 1 tylko mniej, np. 0.5
ę
ć
Counts+1
I
want
to
eat
Chinese
food
lunch
I
6
2
3
0.37
0.36
10
1.1
want
740
0.42
0.69
0.37
0.12
0.48
0.22
to
0.68
331
8
1
0.12
9
0.22
eat
Chinese food lunch
10
0.68 0.68
0.68
0.42 3
4
3
594
3
0.69
9
0.37
7.4
1
20
0.12 0.12 15
0.24
0.48 0.48
0.48
0.48
0.22 0.22
0.44
0.22
5
Co osi gn li my?
Witten-Bell
Add One jest zł metod przybli ania
ą
ą
Ŝ
– bardzo du e zmiany cz sto ci
Ŝ
ę
Idea: prawdopodobie stwo n-gramu, który jeszcze nie wyst pił jest
z mo liwych n-gramów nie pojawiła si jeszcze
zale ne od tego jaka cz
w korpusie
ń
Ŝ
ś
(du y % przypisany tym n-gramom, które nigdy nie
wyst piły)
ą
ę
ś
ć
Ŝ
ę
Ŝ
ą
– Gale i Church (1994) dowodz , e jest to metoda gorsza
ą
nawet od wersji zupełnie nie poprawianej
– mo na dodawa mniej ni 1, ale wci
Ŝ
ć
Ŝ
ą
Ŝ
nie jest to
najlepsza metoda ..
Ile razy rozpoznawali my jaki n-gram po raz pierwszy? - tyle razy ile
stwierdzili my ró nych n-gramów (ka dy był kiedy rozpoznany po raz
pierwszy) (T)
ś
ś
Ŝ
ś
Ŝ
Ŝ
ś
Tak wi c prawdopodobie stwo napotkania nowego typu (ngramu) (czyli suma prawdopodobie stw wszystkich n-gramów, które
ę
ń
ń
jeszcze nie wystapiły):
∑
pi* = T /( N + T)
T- liczba typów, które wyst piły w korpusie
ą
i:ci=0
N-liczba wszystkich wyst pie wszystkich typów
ą
Modyfikacja metody Witten-Bell dla
bigramów
Witten-Bell Discounting
Ustalili my prawdopodobie stwo wyst pienia wszystkich nie
napotkanych jeszcze n-gramów, ale jak je rozdzieli ...
Najprostsza propozycja - po równo
ś
ń
ą
ć
ń
W przypadku unigramów metoda ta przypomina metod Add One
Dla bigramów jednak metoda ta uwzgl dnia w pewien sposób „histori ”:
rozdzielanie prawdopodobie stwa równo pomi dzy wszystkie ngramy nie jest najlepsz strategi -- niektóre słowa cz ciej ni inne
wprowadzaj nowe konteksty,
ę
ę
ę
ą
Z = ∑ 1 czyli Z - liczba typów o licz. 0
ę
ń
ą
ę
ś
Ŝ
ą
i:ci=0
st d: pi* = 1/Z * T /( N + T) czyli pi* = T /( Z *( N + T)) if ci =0
mo emy oszacowa prawdopodobie stwo wprowadzenia nowego
bigramu na podstawie dotychczas zgromadzonych danych:
Ŝ
ć
ń
ą
– Dla danego słowa liczymy ile ró nych bigramów zaczyna i
Ŝ
Nie mo emy jednak tylko doda przewidywanych
prawdopodobie stw - musimy unormowa sum do 1. Tym samym
pomniejszamy prawdopodobie stwa tych n-gramów, które si
pojawiły w korpusie:
Ŝ
dzielimy przez liczb wyst pie wszystkich bigramów
zaczynaj cych si od niego
ć
ń
ć
ę
ę
ń
ą
ą
ń
ę
ę
metoda cz sto u ywana w systemach rozpoznawania mowy
ę
Ŝ
pi* = ci / (N + T) if (ci > 0)
BERP
Final Witten-Bell Bigram Equations
Całkowite prawdopodobie stwo bigramów, rozpoczynaj cych si
od wx, a które si jeszcze nie pojawiły:
ń
ą
ę
ę
∑ i: c(wx
T- liczba typów bigramów, N- liczba wyst pie
ą
Dla poszczególnych bigramów (tak jak poprzednio):
ą
ę
∑
1
(ile bigramów ma 0 wyst pie )
ą
ń
i:c(wx wi )=0
pi* (wi|wi-1) = T(wi-1) / Z(w i-1) (N + T(wi-1))
want
food
- 76
- 82
to
-130
lunch - 45
eat
- 124
ń
Ŝ
Z(wx)=
Ŝ
ń
(je li jest mniej typów bigramów zaczynaj cych si od wx, to prawdopodobie stwo
napotkania nowego te jest mniejsze)
ś
Liczba ró nych bigramów dla słów z przykładu:
I
- 95
Chinese - 20
pi* (wi|wx) = T (wx) / ( N(wx) + T(wx))
wi )=0
liczba słów 1616, wi c dla ka dego słowa mo liwych bigramów - 1616
liczba „niewidzianych” bigramów:
ę
I
- 1521 want
Chinese - 1596 food
Ŝ
Ŝ
- 1540 to
- 1486
- 1534 lunch - 1571
eat
- 1492
if c(wi-1 wi )= 0
6
BERP, bigramy, model Witten-Bell
bigramy, porównanie Add One i W-B
Counts
I
want
to
eat
Chinese
food
lunch
CountsWB I
I
8
want
3
to
3
eat
0.75
Chinese
2
food
18
lunch
4
want
to
eat
Chinese food lunch
1060
0.62
13
0.62 0.62
0.62
0.46 740
0.46
6
8
6
0.85 10
827
3
0.085 12
0.75
2
0.075 17
2
20
0.12 0.01
0.12
0.12 109
1
0.59 16
0.59
0.59
0.59
0.59
0.26 0.2
0.26
0.26
1
0.26
Counts +1
I
I
6
want
2
to
3
eat
0.37
Chinese
0.36
food
10
lunch
1.1
want
to
eat
Chinese food lunch
740
0.68
10
0.68 0.68
0.68
0.42 331
0.42
3
4
3
0.69 8
594
3
0.69
9
0.37 1
0.37 7.4
1
20
0.12
0.12
0.12 0.12 15
0.24
0.48
9
0.48 0.48
0.48
0.48
0.22
0.22
0.22 0.22
0.44
0.22
I
8
3
3
0
2
19
4
want
1087
0
0
0
0
0
0
I
8
3
3
0.75
2
18
4
CountsWB
I
want
to
eat
Chinese
food
lunch
to
0
786
10
2
0
17
0
eat
13
0
860
0
0
0
0
Chinese food lunch
0
0
0
6
8
6
3
0
12
19
2
52
0
120
1
0
0
0
0
1
0
want
to
eat
1060
0.62
13
0.46 740
0.46
0.85 10
827
0.75
2
0.075
0.12 0.01
0.12
0.59 16
0.59
0.26
0.2
0.26
Chinese
0.62
6
3
17
0.12
0.59
0.26
food lunch
0.62
0.62
8
6
0.085 12
2
20
109
1
0.59
0.59
1
0.26
Good-Turing Discouting
Good-Turing Discouting
c(MLE)
Nc
liczba bigramów
liczba typów o cz sto ci c
reestymacja cz sto ci
N(c) okre la ile słów wyst powało c - razy (count-of-counts)
0
74 671 000 000
0.0000270
– estymator prawdopodobie stwa wzgl dnego wyznaczony na
1
2 018 046
0.446
2
449 721
1.26
pr(w) = (c(w) + 1) × N(c(w) + 1) / (|T| × N(c(w)))
3
188 933
2.24
– w szczególno ci oszacowanie cz sto ci grupy na podstawie
…
oszacowanego stosunku grupy 1 do 0 (dla słów jeszcze
niespotykanych: c(w) = 0)
pr(w) = N(1) / (|T| × N(0))
– mała liczba grup (< 5-10, N(c) wysokie)
– oczywi cie konieczna normalizacja (aby Σ w p’(w) = 1)
9
22 280
8.25
Idea ogólna: (metoda dobra dla estymacji z du ych danych)
Ŝ
– wyznaczenie cz sto ci wyst powania N-gramów,
ę
ś
ę
ś
ę
ń
ś
ę
ś
ę
ś
ę
Katz Backoff
ciowej)
korzystania z wiedzy cz
O ile forma ta ju wcze niej wyst powała (ale w innym kontek cie)
mo emy oprze nasze przypuszczenia na danych jej dotycz cych.
Ŝ
ń
ę
ń
ę
Je eli N-gram ma liczno zero, „cofamy si ” do N-1 gramu, je li ten te ma liczno zero, to do n-2 - gramu ...
ę
Ŝ
ś
ś
ć
Ŝ
ś
ć
ś
Ŝ
ś
ę
w przypadku trigramów...
ś
ć
ą
Na przykład: je eli nie mamy danych dla P(proces|poszlakowy)
mo emy skorzysta jako z P(proces), które zapewne nie jest zerowe.
Ŝ
Ŝ
ś
ś
Celem jest znalezienie przybli e dla n-gramów, które nie pojawiły
si w zbiorze treningowym, a dokładniej prawdopodobie stwa
pojawienia si formy x w konkretnym kontek cie
Ŝ
ś
Przykład dla korpusu 22 mln słów, wiadomo ci Associated Press
Metody Backoff (cofania,
ę
Od pewnego k uznaje si warto ci za wiarygodne i nie poprawia
ś
ś
ę
podstawie cz sto ci wyst powania:
ę
c*(GT)
ę
ć
ś
Ale trzeba wzi pod uwag dwa fakty:
– normowanie całkowitego prawdopodobie stwa do 1,
zachowanie proporcji, tak by nie przypisa zerowym
wyst pieniom prawd. wy szego ni dla wyst pie nie zerowych
– prawdopodobie stwa te ustalane s w ró nych przestrzeniach
ą
ć
ę
pi (wi| wi-2 wi-1)
p`(wi| wi-2 wi-1) = α1 pi (wi| wi-1)
α2 pi (wi)
if c(wi-2 wi-1 wi )> 0
if c(wi-2 wi-1 wi )= 0
and c( wi-1 wi )> 0
wpp.
ń
ć
ą
Ŝ
ń
Ŝ
ą
ą
ń
Ŝ
7
Podsumowanie
Ka da z zaprezentowanych metod oparta jest na jakie obserwacji
dotycz cej cz sto ci wyst powania słów w j zyku.
Ŝ
ś
ą
ę
ś
ę
ę
ś
adna z tych obserwacji nie jest nieprawdziwa, ale uwzgl dnienie ich
prowadzi do modeli daj cych ró ne rezultaty.
Tak naprawd wiele zale y od wielko ci i rodzaju korpusu i potrzeb
konkretnej aplikacji. Nie ma metody najlepszej.
ę
ą
ę
Ŝ
Ŝ
ś
Model j zyka
najprostszy model j zyka składa si z:
ę
ę
ę
– zestawu N-gramów opracowanego na podstawie korpusu
– z cz sto ciami „wygładzonymi” przy pomocy metody Wittenę
ś
Bell lub Good-Turing w poł czeniu z jak
ą
ą
ś
form backoff.
ą
Mimo swej prostoty taki model jest u yteczny dla wielu zastosowa
Ŝ
ń
Dzi kuj za uwag .
ę
ę
ę
8

Podobne dokumenty