Konwerter tagsetów TaCo

Transkrypt

q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
tt
t
t
t
Bartosz Zaborowski
j
INSTITUTE OF COMPUTER SCIENCE
POLISH ACADEMY OF SCIENCES
ul. Jana Kazimierza 5, 01-248 Warszawa
11 lutego 2013
t
tt
t
t
t t
t t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
Konwerter tagsetów TaCo
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Motywacja
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Wstęp Budowa TaCo Ewaluacja
Motywacja Opis zadania
j
Do anotacji korpusów używane są różne typy tagów.
Tagsety z reguły różnią się pomiędzy korpusami (również
pomiędzy korpusami dla tego samego języka).
Narzędzia i zasoby NLP często są przystosowane do
konkretnego tagsetu.
(Re-)anotacja ręczna: kosztowna.
Automatyczne (re-)anotowanie zwykłym taggerem: kiepska
jakość (niezależnie od jakości pierwotnej anotacji).
Ręcznie pisane reguły: obie powyższe wady (w różnych
stopniach).
2 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Motywacja
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Do anotacji korpusów używane są różne typy tagów.
Tagsety z reguły różnią się pomiędzy korpusami (również
pomiędzy korpusami dla tego samego języka).
Narzędzia i zasoby NLP często są przystosowane do
konkretnego tagsetu.
(Re-)anotacja ręczna: kosztowna.
Automatyczne (re-)anotowanie zwykłym taggerem: kiepska
jakość (niezależnie od jakości pierwotnej anotacji).
Ręcznie pisane reguły: obie powyższe wady (w różnych
stopniach).
2 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Konwersja regułowa
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
DZ Interset (Daniel Zeman):
proste reguły (kilka-kilkadziesiąt godzin pracy na tagset),
Interset – tagset pośredni (jak Interlingua w tłumaczeniu),
ignoruje kontekst, wyjątki gramatyczne i inne wskazówki.
nieoficjalny(?) konwerter KIPI->NKJP dla Korpusu Słownika
Frekwencyjnego (Michał Lenart i inni):
dla konkretnej pary tagsetów (i trochę korpusu),
długie listy słów i fraz traktowanych w szczególny sposób.
3 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Konwersja regułowa
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
proste reguły (kilka-kilkadziesiąt godzin pracy na tagset),
Interset – tagset pośredni (jak Interlingua w tłumaczeniu),
ignoruje kontekst, wyjątki gramatyczne i inne wskazówki.
nieoficjalny(?) konwerter KIPI->NKJP dla Korpusu Słownika
Frekwencyjnego (Michał Lenart i inni):
dla konkretnej pary tagsetów (i trochę korpusu),
długie listy słów i fraz traktowanych w szczególny sposób.
3 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Opis zadania
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Dla danego korpusu otagowanego równolegle za pomocą
dwóch różnych tagsetów (źródłowego i docelowego). . .
Zadanie polega na zbudowaniu automatycznej, statystycznej
metody konwersji. . .
która dla danego słowa wraz z kontekstem otagowanym
tagsetem źródłowym znajdzie najlepiej pasujący tag z tagsetu
docelowego.
4 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Opis zadania
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
docelowego.
4 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Opis zadania
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
docelowego.
4 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Tagsety użyte przy pracy nad konwerterem
t
forma ort.
To
dużo
czy
mało
?
tag źródłowy
pred
adv:pos
conj
qub
interp
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
źródłowy: tagset korpusu IPI
docelowy: tagset NKJP
Przykład:
tag docelowy
pred
num:pl:nom:f:rec
qub
num:pl:nom:f:rec
interp
5 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Baseline
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Użyjemy najprostszego taggera – unigramowego.
Trzeba go dostosować do zadania: częstości będą liczone dla
tagów źródłowych zamiast dla słów.
6 / 19
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Wybór klasyfikatora
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Algorytm baseline jest najprostszym klasyfikatorem. Czemu nie
spróbować jakiegoś lepszego?
Przetestowałem 45 klasyfikatorów z biblioteki WEKA.
Dane wejściowe: stabelaryzowany korpus (jeden rekord =
kodowane pozycyjnie tagi źródłowe dla słowa i kontekstu (+/1 słowo); atrybut klasy = tag docelowy).
Zwycięzca testu: J48 (= javowa implementacja C4.5).
Ostatecznie wybrałem C5.0 (następce C4.5) ze względu na
wydajność.
Example (zwykła i pozycyjna forma tagu)
subst:sg:acc:n
-,-,-,-,acc,-,n,-,sg,-,subst,-,-
Pojedynczy rekord tabeli na obecnym etapie:
pozycyjny tag –1 tag pozycyjny tag pozycyjny +1
tag
7 / 19
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
wydajność.
subst:sg:acc:n
-,-,-,-,acc,-,n,-,sg,-,subst,-,-
tag
7 / 19
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
wydajność.
subst:sg:acc:n
-,-,-,-,acc,-,n,-,sg,-,subst,-,-
tag
7 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Kontekst i pozycyjne kodowanie tagów
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Rozmiar kontekstu +/- 1 słowo użyty przed chwilą był
wybrany arbitralnie.
Po przetestowaniu różnych konfiguracji. . .
Lewy kontekst z 3 słowami i prawy z 1 słowem okazał się
najlepszy.
Założenie: oba tagsety są pozycyjne i (potencjalnie) duże.
Nie wszystkie tagi występują w korpusie, większość 3-gramów
tagów nie występuje. Zatem tagi zostały podzielone.
Testy zaskoczyły: zwykła tekstowa forma tagów źródłowych
dla badanego słowa działa lepiej.
Mniej zaskakujące: tagów docelowych też lepiej nie dzielić.
p. tag –3 p. tag –2 p. tag –1 p. tag p. tag +1
tag
8 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
najlepszy.
tag
8 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
najlepszy.
tag
8 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
najlepszy.
p. tag –3 p. tag –2 p. tag –1 tag p. tag +1
tag
8 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Informacje zawarte w formie ortograficznej
t
WPL(–3..+1)
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
prefiks(1) sufiks(1,2,3) PT(–3..–1) T
PT(+1)
j
Bezpośrednie użycie formy ortograficznej jest niewykonalne.
Najważniejsze części słowa dla języka polskiego: prefiksy,
sufiksy i wielkość pierwszej litery (WPL).
Ostatecznie:
WPL dla każdego słowa (kontekst + przetwarzane słowo),
1-literowy prefiks przetwarzanego słowa,
1-, 2- i 3-literowe sufiksy przetwarzanego słowa.
T
9 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Informacje zawarte w formie ortograficznej
t
WPL(–3..+1)
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
prefiks(1) sufiks(1,2,3) PT(–3..–1) T
PT(+1)
j
Bezpośrednie użycie formy ortograficznej jest niewykonalne.
Najważniejsze części słowa dla języka polskiego: prefiksy,
sufiksy i wielkość pierwszej litery (WPL).
Ostatecznie:
WPL dla każdego słowa (kontekst + przetwarzane słowo),
1-literowy prefiks przetwarzanego słowa,
1-, 2- i 3-literowe sufiksy przetwarzanego słowa.
T
9 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Dodatkowe atrybuty wyuczone na podstawie błędów
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Nie możemy wykorzystać formy ortograficznej dla wszystkich
słów, ale dla małej liczby wyjątków gramatycznych możemy.
Jak je znaleźć?
Klasyfikator odnajduje reguły/regularności. Myli się na
wyjątkach.
Rozwiązanie:
dane treningowe
wewnętrzna walidacja krzyżowa
zapamiętaj wyjątki wraz z kontekstami
oznacz rekordy zawierające wyjątki
wytrenuj końcowy model
wyjątek?(–3..+1)WPL(–3..+1)P(1)S(1,2,3)PT(–3..–1)TPT(+1)T
10 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Jak je znaleźć?
wyjątkach.
Rozwiązanie:
dane treningowe
10 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Jak je znaleźć?
wyjątkach.
Rozwiązanie:
dane treningowe
10 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Jak je znaleźć?
wyjątkach.
Rozwiązanie:
dane treningowe
10 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Informacje z analizatora leksykalnego
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Opisywany dotąd algorytm zgaduje tagi dla wszystkich słów.
Wszystkie tagi są dozwolone (przez tagset) ale mogą nie być
poprawne dla konkretnego słowa.
np. rodzaj dla rzeczowników – często kontekst dopuszcza
różne rodzaje, ale forma ortograficzna ma jeden konkretny.
Analizator morfologiczny (morfeusz) pozwala poprawić takie
przypadki.
11 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
przypadki.
11 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
przypadki.
11 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Poprawianie parametrów
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Wszystkie opisane usprawnienia wpływają na siebie wzajemnie.
Ze względów wydajnościowych poszukiwanie sensownych
wartości było przeprowadzone na małym korpusie rozwojowym.
Ostateczne wartości dobrane na większym korpusie ze 120 tys.
słów.
Optymalne wartości się nieco zmieniły. . .
12 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
słów.
12 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
słów.
12 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Ostateczne wartości parametrów
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
Baseline Ulepszenia
j
Prawy i lewy kontekst: 1 słowo,
osobny rozmiar kontekstu dla “wyjątków gramatycznych”: 2
słowa dla lewego, 1 słowo dla prawego kontekstu,
sufiksy formy ortograficznej: 1-, 2- i 3-literowy,
bez prefiksów formy ort.,
“wyjątki gramatyczne”: 1-literowe prefiks i sufiks dla lematu i
2-literowy sufiks formy ortograficznej (tylko przetwarzane
słowo).
wyj?(–2..+1)wlP(1)wlS(1)wS(2)WPL(–1..+1)S(1,2,3)PT(–1)TPT(+1)T
13 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Wyniki dla różnych kombinacji ulepszeń
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
Baseline Ulepszenia
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
T
a.m.–
w.–
a.m.+
a.m.–
w.+
a.m.+
k.–
k.+
k.–
k.+
k.–
k.+
k.–
k.+
91.04
91.11
92.79
92.85
94.91
94.99
95.00
95.06
bez formy ort.
PT
PT k.
k.+słowo
(tylko)
90.89
91.04
91.25
91.40
92.62
92.79
93.02
93.16
94.72
94.91
94.99
95.03
94.77
95.00
95.08
95.17
T
94.43
94.56
94.74
94.85
95.12
95.16
95.12
95.14
z formą ort.
PT
k.+słowo
94.45
94.50
94.74
94.84
95.01
95.10
95.03
95.11
j
PT k.
(tylko)
94.43
94.56
94.74
94.93
95.12
95.13
95.12
95.18
forma ort. – informacje z formy ortograficznej (WPL, prefiks, sufiks)
w. – informacje o wyjątkach
a.m. – analiza morfologiczna
k. – kontekst
T – tag (postać zwykła)
PT – tag kodowany pozycyjnie
14 / 19
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Wyniki ewaluacji
Wyniki ewaluacji Podsumowanie
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Korpus: część wzbogaconego korpusu Słownika frekwencyjnego
polszczyzny współczesnej – anotowany ręcznie za pomocą
tagsetów KIPI i NKJP.
≈ 377k słów, różne gatunki tekstów (popularnonaukowe,
wiadomości prasowe, publicystyka, dramat).
Korpus przeanalizowany za pomocą Morfeusza (56.1% słów
niejednoznacznych, 1.5% nieznanych analizatorowi).
Tagset KIPI: ≈ 1350 tagów, 913 użytych w anotacji,
Tagset NKJP: ≈ 1700 tagów, 792 użytych w anotacji,
Tagsety są podobne: konwersja 90.6% słów trywialna
(automatyczna zamiana napisów).
15 / 19
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Wyniki ewaluacji
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Korpus: część wzbogaconego korpusu Słownika frekwencyjnego
polszczyzny współczesnej – anotowany ręcznie za pomocą
tagsetów KIPI i NKJP.
≈ 377k słów, różne gatunki tekstów (popularnonaukowe,
wiadomości prasowe, publicystyka, dramat).
Korpus przeanalizowany za pomocą Morfeusza (56.1% słów
niejednoznacznych, 1.5% nieznanych analizatorowi).
Tagset KIPI: ≈ 1350 tagów, 913 użytych w anotacji,
Tagset NKJP: ≈ 1700 tagów, 792 użytych w anotacji,
Tagsety są podobne: konwersja 90.6% słów trywialna
(automatyczna zamiana napisów).
15 / 19
96.12
95.41
94.08
92.83
95
92.85
90
92.42
93
92.95
88.34
86.58
PANTERA
baseline
TaCo
WMBT
85
80.44
80
5k
algorytm
TaCo
baseline
TaCo
TaCo
korpus
377k
377k
120k
5k
120k
całość
96.12%
92.42%
95.41%
94.08%
377k
poprawność
niejednozn. nietrywialne
93.08%
58.54%
86.49%
19.00%
91.82%
50.95%
89.45%
36.74%
1M*
czas, pamięć
20h, 10.5GB
5min, 600MB
9h, 1.9GB
6min, 80MB
16 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Tło dla wyników – inne metody
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Klasyczne taggery – na wykresie (poprawność: 80%..93%).
reguły dla KIPI istnieją, dla NKJP brak,
poprawność szacunkowo ok. 91-92%.
nieoficjalny(?) konwerter KIPI->NKJP (Michał Lenart i inni) –
poprawność ok. 94%.
17 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Analiza błędów
t
% wszystkich
błędów
2.14
1.91
1.73
1.54
0.99
0.88
0.82
0.63
tag źródłowy
conj
adv:pos
qub
qub
qub
adv:pos
conj
adj:pl:gen:m3:pos
tag docelowy
(gold standard)
qub
qub
conj
qub
adv
adv:pos
conj
adj:pl:gen:n:pos
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
tag wybrany
conj
adv:pos
qub
conj
qub
adv
qub
adj:pl:gen:m3:pos
Główne przyczyny błędów:
niekonsekwentna anotacja manualna,
atrybuty opcjonalne.
18 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Podsumowanie
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Konwersja tagsetów może być ulepszona dzięki skorzystaniu z
istniejącej anotacji.
Najbardziej wartościowe informacje: forma ortograficzna i
“wyjątki gramatyczne”.
W przeciwieństwie do klasycznych taggerów TaCo osiąga dobre
wyniki nawet na małych danych treningowych.
Strona domowa TaCo: http://zil.ipipan.waw.pl/TaCo
19 / 19
q
q
q
t
tq
t t q
t
tq
t
q
t t q
t
q
t
tq
t
q
t
tq
tt tq
ttt q
ttt q
tt tq
ttt q
ttt q
ttt q
tt
q
t
q
tt tq
tt
q
t
q
t
q
tt tq
tt tq
ttt q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
tq
t t q
tt tq
tt tq
tt tq
ttt q
tt tq
t
q
t
q
tt
q
tt
q
tt
q
tt
q
tt tq
ttttq
t
q
tt tq
tt
q
t
q
t t q
tt
q
tt tq
tt
q
tt tq
tt
q
tt
q
ttt q
tq
tt q
tt q
t
q
t
tq
ttt q
tt
q
tt tq
tt tq
tt
q
t
q
t t q
ttt q
ttt q
t tq
tq
tt q
tt q
t tq
tt q
tt q
tt q
t
q
t t q
tt
q
ttt q
ttt q
tt
q
ttt q
t
q
t t q
tt tq
tt tq
tt
q
tt tq
tt
q
tq
tt
q
tt
q
tt
q
tt tq
tt
q
ttt q
tq
tq
q
q
q
q
Podsumowanie
t
ttt
t
t
tt
t
t t
t
t t
t
t t
t t
t
t t
t
t
t
tt
t
t
t t
t t
t
ttt
tt
tt
tt
t
t t
tt
tt
t t
tt
t t
t
t
ttt
t
t
ttt
tt
t
tt
t
t
tt
t t
t
t t
t
tt
ttt
ttt
t
t
tt
t
ttt
t t
t
t t
t
tt
tt
t
t t
tt
tt
t t
t t
ttt
t
t
tt
t
tt
tt
t
t
t
t t
t
t t
ttt
tt
tt
ttt
t t
tt
t
t
j
Konwersja tagsetów może być ulepszona dzięki skorzystaniu z
istniejącej anotacji.
Najbardziej wartościowe informacje: forma ortograficzna i
“wyjątki gramatyczne”.
W przeciwieństwie do klasycznych taggerów TaCo osiąga dobre
wyniki nawet na małych danych treningowych.
Strona domowa TaCo: http://zil.ipipan.waw.pl/TaCo
19 / 19

Konwerter tagsetów TaCo

Transkrypt

Podobne dokumenty

Zaproszenie na kurs metodologii

Bug Zapper BT-NICO, grzebień, elektroniczny, na wszy

Cześć druga