Inne aplikacje NLP Przykłady zastosowa metod

Transkrypt

Inne aplikacje NLP Przykłady zastosowa metod
Przykł
Przykłady zastosowa metod
statystycznych
Bardzo wiele problemów próbuje się rozwiązać bazując na różnicach
w częstości występowania różnych wyrazów/fraz/konstrukcji
MS Word – rozpoznawanie języka
budowa słowników specjalistycznych (porównanie liczności w
tekstach specjalistycznych i ogólnych)
klasyfikacja dokumentów -- różnice w rozkładzie częstości słów
klasyfikacja dokumentów w innym języku niż był trenowany
klasyfikator
wyszukiwanie dokumentów w innym języku niż język pytania
(cross language document retrieval)
...
Problemy z podejściem statystycznym:
Inne aplikacje NLP
Znakowanie granic zda
znajdowanie granic zdań byłoby łatwe gdyby nie skróty z kropkami
... (mgr. prof., r., itd.)
jeśli przed kropką jest słowo, które nie jest skrótem, to kropka
najprawdopodobniej kończy zdanie (...), ale jeśli to skrót, to o ile
potem jest znak interpunkcyjny lub słowo rozpoczynające się od
małej litery, to nie było końca zdania, wpp. trzeba zdecydować czy
słowo to jest nazwą własną
Mikheev -- połączenie ustalania granic zdań z tagowaniem
– osobne tagowanie wszystkich kropek w PennTreeBank
– wytrenowanie HMM (trigramy) na podstawie powyższych
danych (przy grupowaniu słów w klasy w zależności od typu
tagów, które mogą być im przypisane)
– algorytm zgadywania dla nieznanych skrótów
–
–
Różne typy pytań:
–
–
–
–
–
–
nie oczekujemy, że prawidłowo reprezentuje on język, lecz
że prawidłowo przewiduje wyniki.
Przykł
Przykład: (Dipre
(Dipre,, Snowball)
Snowball)
pytania o fakty,
pytania o definicje,
wyliczenia,
pytania typu jak i dlaczego.
pytania ograniczone do wybranej dziedziny,
pytania otwarte.
Zakres pytań:
0 w modelu - wygładzanie modelu
Model statystyczny
Systemy pyta i odpowiedzi (QA)
formy morfologiczne (niezbędny jest słownik)
wielość homonimów (przydatny jest tagger morfologiczny,
inaczej jest zbyt wiele rozwiązań)
wyszukiwanie w tekście wzorców podobnych do zadanych
przykładów, np. par organizacja - miejsce centrali
Microsoft - Redmont, Boeing- Seatle
wyszukanie w tekście kontekstów, w których wystąpiły te
pary
wyszukanie innych par, które wystąpiły w tych samych
kontekstach
wyszukanie par, które wystąpiły w rozszerzonym zbiorze
kontekstów
dodanie wag do elementów kontekstu
1
Schemat dział
działania
Program stworzony w PJWSTK
Praca magisterska
Źródło wiedzy – Wikipedia
Pytania 2 typów (rozpoznawanych automatycznie):
–
–
Kiedy rozegrano bitwę pod Grunwaldem?
Pytanie
analiza pytania
utworzenie zapytania
szukane hasło,
czasownik,
fraza rzeczownikowa
ranking
adres URL
porównanie wzorców
pobranie definicji
pytania o daty urodzin i śmierci
pytania otwarte zawierające nazwę (fragmenty nazwy) jakiegoś
hasła z Wikipedii
Bitwa pod Grunwaldem została stoczona
15 lipca 1410.
rozpoznane zdania
redagowanie odpowiedzi
Przykł
Przykład odpowiedzi
TRECTREC-9 QA
Zadanie:
–
–
–
–
Ewaluacja odpowiedzi
Zbiór wzorców (Perl) dopasowywanych do odpowiedzi,
odpowiedź jest zaliczana, jeśli pasuje choć jeden z nich, np.
Who invented Silly Putty?
General\s+Electric
Where is the location of the Orange Bowl?
^\s*Miami\s*$
to\s+Miami\
Miami\s*’\s*s+downtown
Orange\s+Bowl\s*,\s*Miami
Dade County …
Who is Jane Goodall?
naturalist
chimpanzee\s+specialist …
Odpowiedź
dany duży korpus dokumentów (gazetowych) – ok. 979 tys. –
3033 MB
pytania ustalonego typu
wynikiem miała być posortowana lista 5 dokumentów i
odpowiedzi na ich podstawie uzyskanych
zbiór testowy pytań (ok. 680 z logów Encarta i Excite),
na
każde na pewno w zbiorze była odpowiedź, przykłady:
How much folic acid should an expectant mother get dialy?
Who invented the paper clip?
Where is Rider Collage located
TRECTREC-9 QA
Uczestnicy: 28 systemów
–
Dokładne odpowiedzi:
# not found
LCCSMU2 (Southern Methodist U.)
0.58 34%
ISI0A50 (ISI, Univ. Of South Calif.)
0.32 57%
uwmt9pas0 (Multi Text, U. of Waterloo) 0.32 58%
dla 50 bajtowych odpowiedzi
LCCSMU2 (Southern Methodist U.)
Ibmhlt00250 (IBM, Ittycheriah)
Pir0qal2 (Queens College, CUNY)
uwmt9pas0 (Multi Text, U. of Waterloo)
–
0.58
0.46
0.46
0.46
14%
39%
39%
39%
2
Podzadania
Tłumaczenie maszynowe
tłumaczenie „zgrubne”
tłumaczenie ograniczone do wąskiego podzbioru języka (np.
prognozy pogody)
Wykorzystanie:
wyszukiwanie informacji w dokumentach w różnych językach
tłumaczenia instrukcji (lokalizacja oprogramowania)
tłumaczenia częściowe, słowniki fraz stanowiące materiał dla
tłumaczy (computer-aided human translation, CAHT, CAT)
tłumaczenia poprawiane przez człowieka (human-aided
computer translation, HACT)
Metody stosowane przy tłtłumaczeniu
Tłumaczenie jako transfer
transfer z jednego języka na drugi
tłumaczenie poprzez reprezentację znaczenia (interlingua)
Model tłumaczenia opierający się o wiedzę na temat
różnic między dwoma językami. Trzy etapy:
analiza
metody statystyczne
metody mieszane (łączenie elementów różnych metod najczęściej spotykane w praktyce)
→
TRANSFER →
drzewo rozbioru
w języku źródłowym
docelowym
synteza
drzewo rozbioru
w języku
Inne potrzeby analizy syntaktycznej, np.
– Nie interesuje nas analiza możliwych miejsc dołączeń fraz
przyimkowych, jeśli w obu językach są podobne zasady
(John saw the girl with the binoculars)
Transfer, przykł
przykład: angielski → japo ski
Tłumaczenie jako transfer
reguły transferu, przykłady:
–
w języku angielskim przymiotniki są przed rzeczownikami, we
francuskim za (z kilkoma wyjątkami)
noun-phrase
adjective
-- -- -- →
noun
noun phrase
noun
There was an old man gardening.
Existential-There-Sentence
there was an old man gardening
w języku japońskim nie ma takiej konstrukcji -> tłumaczymy na ‘zwykłe’
zdanie, zamieniając 4-ty element na modyfikator (zdanie względne):
Intermediate-Representation
an old man gardening
was
zamiana kolejności frazy rzeczownikowej i modyfikatora, tłumaczenie
słów:
Japanese-S
adjective
niwa no teire o suru
ojiisan ita
3
Transfer, przykł
przykład: angielski →
japo ski
Końcowa redakcja tekstu:
–
–
Transfer sł
słów
dodanie słowa wskazującego podmiot (ga)
wybór odpowiedniego czasownika (w japońskim są dwa ‘być” w
zależności od tego. Czy podmiot jest ożywiony czy nie)
– określenie formy fleksyjnej czasownika
Część słów wstawiana jest przez reguły gramatyczne (np. ga
dla japońskiego)
większość słów pochodzi z tłumaczenia słów w tekście
źródłowym
–
–
(gardening -> niwa no teire o suru )
niwa no
teire
o
shite ita
ojiisan
ga
ita
garden GEN upkeep OBJ do
PAST-PROG old man SUBJ
was
–
Problem z wyborem sł
słów, przykł
przykład
paw
Analiza
semantyczna
reprezentacja
znaczenia zdania
→
synteza
1 etap: interpretacja semantyczna zdania -> tworzenie zapisu jego
znaczenia w specjalnym, niezależnym od języka naturalnego
formalizmie (używającym jednak wyrazów jakiegoś języka do
oznaczenia reprezentowanych obiektów)
2 etap: generowanie tekstu w języku docelowym na podstawie zapisu
jego semantyki
foot
pied
różnice kulturowe
Metoda ta pozwala na tłumaczenie mniejszym kosztem z wielu na
wiele języków
brak informacji bezpośrednio porównujących dwa języki
problem: konstrukcje języka pośredniego, dokładna interpretacja
semantyczna
Przykł
Przykład
→
patte
leg
jambe
problemy z wyborem właściwego słowa
Idea j zyka po redniego - interlingua
Brak jednoznacznego odwzorowania słów
etape
jest odszukiwana w dwujęzycznym słowniku,
tłumaczeniem słowa może być jedno słowo bądź cała fraza
Zapis zdania ‘there was an old man gardening’
(przy bardzo uproszczonej semantyce)
Interlingua - zapis znaczenia sł
słów
EVENT GARDENING
AGENT MAN
NUMBER
DEFINITENESS
ASPECT PROGRESSIVE
TENSE PAST
SG
INDEF
zakres znaczeniowy słów w różnych językach nie pokrywa
się
można dokonywać dekompozycji leksykalnej, czyli
„rozkładania znaczenia” - zapisywania znaczenia słów za
pomocą elementów z wybranego zbioru predykatów i typów
obiektów, np.
drink -> ingest, fluid, by-mouth
eat -> ingest , not-fluid, by-mouth
dekompozycja znaczenia pozwala czasem na
ujednoznacznianie, np.
the policeman saw the man with the telescope
the policeman shot the man with the telescope
(2 znaczenia )
(1 znaczenie)
4
Poró
Porównanie transferu i tłtłumaczenia
poprzez j zyk po redni
transfer
- porównanie dwóch języków
- głównym źródłem informacji jest
i
analiza syntaktyczna
- możliwość zachowania niejednoprzy
znaczności (np. dołączanie fraz
przyimkowych czy przysłówków
w pokrewnych językach
interlingua
- oddzielny opis każdego języka
- kluczem do sukcesu jest poprawna
Tłumaczenie bezpo rednie
(direct translation)
translation)
dokładna analiza semantyczna
(nie wiemy też które jej elementy
będą niezbędne)
- konieczność ujednoznaczniania
–
–
interpretacji semantycznej
Tłumaczenie bezpo rednie przykł
przykład
system tłumaczenia z japońskiego na angielski
1. analiza morfologiczna
2. transfer słów
3. zmiany dotyczące przyimków
4. reorganizacja porządku SVO
5. różne ‘drobiazgi’
6. synteza morfologiczna
Tłumaczenie słów nie jest zawsze tak proste jak w podanym
przykładzie, może odbywać się w oddzielnych etapach,
np. najpierw czasowniki, potem rzeczowniki, przymiotniki …
odmienność podejścia - podział zadania w sposób
ortogonalny do tego w obu poprzednich podejściach - każdy
etap to kompletne tłumaczenie pewnych fragmentów
informacji
możliwość uzależnienia tłumaczenia słów od bezpośredniego
(linearnego) kontekstu
‘konserwatywność’ - tylko niezbędne zmiany są dokonywane
większość systemów charakteryzowanych jako systemy
bezpośrednie ma jednak pewne elementy analizy
(syntaktycznej i/lub semantycznej)
zwykle jedna wybrana para języków
kilka faz dotyczących rozwiązania jednego problemu ->
stopniowe przekształcanie tekstu źródłowego bez pośrednich
dodatkowych struktur
Tłumaczenie bezpo rednie przykł
przykład
Wejście: watashihatsukuenopenwojonniageta
1. Watashu ha tsuke no ue no pen wo jon ni ageru PAST (analiza
morfologiczna)
2. I ha desk no ue no pen wo John ni give PAST
3.
4.
5.
6.
Tłumaczenie bezpo rednie - cechy
ogó
ogólne
Oba poprzednie modele zakładały poprawną analizę
(syntaktyczną bądź semantyczną) tekstu, który był
tłumaczony, ale najczęściej lepszy jest choćby częściowy
wynik zamiast żadnego
systemy zwane systemami tłumaczenia bezpośredniego
zbudowane są zgodnie z założeniem, że system tłumaczący
powinien „robi”c jak najmniej się da”
I ha pen on desk wo John ni give PAST
I give PAST pen on desk John to.
I give PAST the pen on the desk to John.
I gave the pan on the desk to John.
(transfer słów)
(zmiany dotyczące przyimków)
( reorganizacja porządku SVO)
(dodanie przedimków)
(synteza morfologiczna)
Tłumaczenie - podej cie
statystyczne
Inny punkt widzenia: skupiamy się nie na opisie samego
procesu tłumaczenia ale na celu
co oznacza, że jedno zdanie jest tłumaczeniem drugiego?
–
–
Idealne tłumaczenie powinno zachowywać wiernie znaczenie
oryginału i być zgodne z językiem w którym zostało
sformułowane -> często nierealne
praktyka (tłumaczeń dokonywanych przez ludzi) - kompromis
między wiernością oryginałowi (faithfulnes) a płynnością
wypowiedzi (fluency):
best-translation T’ = argmaxT fluency(T) × faithfulness(T,S)
(S - zdanie w języku źródłowym,
T - zdanie w języku docelowym)
5
Tłumaczenie - model Bayesa
Przy powyższym sformułowaniu zadania możemy stosować
‘klasyczny’ model zaszumionego kanału i prawo Bayesa
jeżeli tłumaczenie będziemy interpretować jako
wprowadzenie szumu, to zadanie wyboru najlepszego
tłumaczenie równoznaczne jest ze znalezieniem zdania, dla
którego największe jest prawdopodobieństwo uzyskania go
ze zdania początkowego S, tj. szukamy zdania T, dla którego
największe jest P(T|S), czyli zgodnie z prawem Bayesa:
Tłumaczenie - model Bayesa
Porównując wzory:
best-translation T’ = argmaxT P(T) P(S|T)
best-translation T’ = argmaxT płynność(T) × wierność(T,S)
otrzymujemy definicje:
płynność - P(T) wierność - P(S|T)
musimy teraz wyznaczyć model pozwalający oszacować te
wartości
best-translation T’ = argmaxT P(T) P(S|T)
Wyznaczanie pł
płynno ci
Jaka może być miara mówiąca o tym jak dobrym zdaniem
jakiegoś języka jest zdanie T?
Statystyczny model języka (np. model trigramowy) pozwala
na wyznaczenie prawdopodobieństwa sformułowania
konkretnego zdania, zgodnie a tym modelem np. Zdanie:
that car was almost crush into me
będzie miało niższe prawdopodobieństwo niż zdanie:
– that car almost hit me
co odpowiada naszej ocenie płynności tych zdań.
Wyznaczanie wierno ci
–
w praktyce nawet systemy tłumaczenia nie oparte na
metodach statystycznych, w końcowej fazie tłumaczenia
stosują pewne heurystyki poprawiające płynność tekstu
tu trudniej o miarę ilościową
jedną z propozycji jest miara w jakim stopniu słowa ze zdania
w jednym języku odpowiadają słowom ze zdania w drugim
języku - informacji tej nie ma jednak w słownikach
prawdopodobieństwo można określić dysponując tekstami
dwujęzycznymi, w których zaznaczone są odpowiadające
sobie zdania - na ogół jednak brak jest takich anotacji
liczne prace nad metodami wyznaczania odpowiadających
sobie zdań i słów
lepsze dopasowanie pojedynczych słów nie oznacza
lepszego dopasowania całości
Szukanie najlepszego tłtłumaczenia
Wiemy (do pewnego stopnia) jak policzyć
prawdopodobieństwo, że dane zdanie jest tłumaczeniem
drugiego,
ale jak szukać kandydatów w potencjalnie nieskończonym
ciągu zdań języka naturalnego?
Jest to omawiane już zadanie „szukania najlepszej ścieżki”,
dla którego znamy rozwiązania w postaci np. algorytmu
Viterbi lub A*
przy podejściu statystycznym tłumaczenia generujemy więc
incrementalnie z tłumaczeń kolejnych elementów zdania
źródłowego i na bieżąco oceniamy stopień jego dopasowania
Funkcjonowanie systemó
systemów MT
Wiadomo, że żaden system nie jest w stanie dobrze
tłumaczyć wszystkich zdań (chyba, że bardzo ograniczymy
ich zbiór)
Możliwości korekt:
–
–
–
–
system zadaje pytania w przypadku problemu (-)
człowiek poprawia błędy systemu (+)
człowiek ‘poprawia’ zdania do tłumaczenia
teksty, które mają być tłumaczone na wiele języków pisane są
w specjalnie ograniczonym ‘kontrolowanym’ podzbiorze języka
naturalnego (dodatkowo często zwiększa to przejrzystość i
jednoznaczność tekstu oryginalnego) - np. instrukcje dołączane
do urządzeń
6
Przydatno
systemó
systemów MT
Bardzo skuteczne w bardzo ograniczonych kontekstach
Kluczem do sukcesu jest prawidłowe tłumaczenie słów czytelnik odtworzy sens jeśli składnia nie jest do końca
dobra, ale źle wybrane słowa mogą zaburzyć sens
kompletnie
Tłumaczenie na podstawie przykł
przykładó
adów
Example-based translation
(1) He buys a book on international politics.
politics.
(2) a. He buys a notebook.
Kare wa n¯oto o kau.
HE topic NOTEBOOK obj BUY.
(he took glasses -> szklanki czy okulary?)
b. I read a book on international politics.
politics.
największą wartością systemów MT są więc duże słowniki
dwujęzyczne (zawierające także idiomy, frazy, często
występujące zwroty i całe zdania
Watashi wa kokusai seiji nitsuite kakareta hon o yomu.
yomu.
I topic INTERNATIONAL POLITICS ABOUT
CONCERNED BOOK obj READ.
(3)
Kare wa kokusai seiji nitsuite kakareta hon o kau.
kau.
Teksty dwuj zyczne
Tłumaczenie na podstawie przykł
przykładó
adów
„boundary friction”
friction” problem
The handsome boy entered the room.
room.
a. The handsome boy ate his breakfast.
breakfast.
b. I saw the handsome boy.
Der schö
schöne Junge aß seinen Frü
Frühstü
hstück.
b. Ich sah den schö
schönen Jungen.
a.
najbardziej znany - kamień z Rosetty
Gravity is a pervasive force in the world, and both animals and
plants have adopted to it in a variety of ways.
La pesanteur s’exerce partout sur la terre, et les etres vivant se
sont adaptés de facons variées.
Gravity act everywhere on the earth, and living things have adopted to it in
various ways.
both animals and plants - living things
Co jest tłumaczeniem ‘pervasive force’? - nic, ‘partout’?
(w tym przypadku ‘partout’ może być potraktowane jako tłumaczenie,
ale nie może się to znaleźć w słowniku bez zapisania dodatkowych
ograniczeń)
Teksty dwuj zyczne
Problemy:
znalezienie odpowiadających sobie zdań (sentence
alignment):
znalezienie odpowiadających sobie słów (word alignment) i
wyrażeń
znalezienie odpowiadających sobie fraz
Dopasowywanie zda
I metoda (Kay & Röscheisen,1988,1993)
stwierdzamy, że pierwsze i ostanie zdania sobie odpowiadają
wyznaczamy pewien zakres, w którym szukamy
odpowiadających sobie zdań wewnątrz tekstu
– wybieramy te, dla których zgadza się najwięcej tłumaczeń słów
–
–
II metoda (Gale & Church , 1991, 1993)
krótkie zdania zwykle mają krótkie tłumaczenia, długie - długie,
stosunek długości zdań sobie odpowiadających jest
charakterystyczny dla pary języków (np. angielski -> francuski,
1.1)
– model probabilistyczny oparty dodatkowo o prawdop.
ominięcia, dodania tekstu do tłumaczenia czy połączenia zdań
(2)
–
7
Dopasowywanie zda
III metoda, dla podobnych sobie języków Simard et al., 1992;
Church, 1993 ...
Dopasowywanie leksykalne bez słownika - np. po identycznych
kształtach (4 pierwsze litery)
– działa nawet dla języków dalekich, jeśli w tekstach występują
często rozpoznawalne nazwy (nazwiska, nazwy firm, liczby...)
(natomiast stosunek długości zdań np. dla anielskiego i
chińskiego nie jest taki stały jak dla francuskiego)
–
Dopasowywanie sł
słów
Szukanie odpowiadających sobie słów i zdań to zadania
powiązane, często przeplatające się
metody statystyczne napotykają na pewne ograniczenia:
niejednoznaczność przypisań, zwłaszcza dla często
występujących słów funkcyjnych
– rzadkość wielu (większości?) konstrukcji utrudnia
sformułowanie modelu
– wiele ‘stałych’ wyrażeń nie jest do końca niezmienna (odmiana,
zmiana kolejności, wtrącenia)
– metody statystyczne mają na razie charakter pomocniczy w
stosunku do metod opartych o wykorzystanie słowników
dwujęzycznych
–
Systran
SYSTRAN's Machine Translation (MT) technology integrates
multilingual functionalities in information processing and
exchanges, for applications such as eCommerce, CRM, Content
Management, databases, corporate Intranets, email, Instant
Messaging, SMS, WAP, and more.
Corporations: Ford Motor Company, Cisco Systems, NCR,
DaimlerChrysler Corporation, PricewaterhouseCoopers, Dow
Corning Corporation, and others.
English Translator
English Translator: tłumaczenie na język polski Techland (Wrocław)
– komercyjny system automatycznego tłumaczenia
– dziedzina tłumaczenia jest praktycznie nieograniczona,
–
English Translator XT
to program tłumaczący w pełni kontekstowo.
Jednoczesne wykorzystanie analizy składniowej zdań, analizy
semantyki poszczególnych wyrazów (w kontekście znaczeń
wyrazów sąsiadujących) i najnowszych algorytmów transferu
gramatyki to najnowocześniejsza metoda komputerowego
(www.techlan.pl, 10.02.2006)
Dwa tryby tłumaczenia:
automatyczny z opcją szybkiej korekty;
ręczny, dający pełną kontrolę nad przekładem z możliwością
dostosowania tłumaczenia krok po kroku.
tłumaczenia kontekstowego
–
Portals: Google, AOL, Altavista, Apple's Sherlock Internet Search,
CompuServe, Lycos, OracleMobile.com, and others.
Government and Public Administrations: The European
Commission and the US Intelligence Community.
–
Internet Translator – tłumaczenie angielskich, niemieckich i
francuskich stron internetowych
Translatica
Komercyjny system tłumaczący
Translatica
Wydz. Mat.i Inf. UAM (dr K. Jassem), współpraca z PWN
Zapraszamy do zapoznania si
z automatycznym tłumaczeniem w programie Translatica.
ę
We are inviting for making ourselves acquainted
with the automatic translation in the Translatica program.
Zapraszamy dla robienia siebie zapoznany z
przekładem automatycznym w Translatica program.
Translatica to system tłumaczący z języka polskiego na angielski
oraz z angielskiego na polski. (nowa cecha). Translatica
wykorzystuje metodę wstępującej analizy składniowej i transferu a
w swojej bazie zawiera między innymi część Wielkiego Słownika
Angielsko-Polskiego PWN-Oxford.
870 000 wyrazów i idiomów
97 kontekstów tłumaczenia, 15 stylów i 5 dialektów
baza form fleksyjnych języka polskiego
możliwość wyboru wariantów tłumaczenia
możliwość wizualizacji struktury składniowej oryginalnych i
przetłumaczonych zdań
najwyższej jakości dane słownikowe i encyklopedyczne PWN,
8
Zasoby j zykowe
Aby stosować statystyczne metody przetwarzania języka
naturalnego potrzebne są różnorodne zasoby.
Podstawowe zasoby to:
–
–
–
–
–
–
Korpusy
analizatory morfologiczne (ok. 19 dla polskiego)
tagery (tager statystyczny (HMMm oparty o model trigramowy)
dla korpusu IPIPAN i tager regułowy dla korpusu PWN)
korpusy tekstowe (IPIPAN, PWN, Łódź)
korpusy języka mówionego (torchę w PWN, ?)
analizatory składniowe (publicznie niedostępne - Świgra,
analizator na potrzeby systemu tłum. Translatica)
??
korpus ogólny (w miarę zrównoważona reprezentacja różnych
form wykorzystania języka)
– korpusy specjalistyczne, np.
dla dialektu, bądź okresu czasu
język z jakiejś dziedziny
– korpus równoległy w dwóch różnych językach naturalnych
–
Korpusy, anotacje
Korpus zawierać może wyłącznie tekst, albo tekst wzbogacony
o informacje dodatkowe (anotacje) różnego rodzaju.
– anotacje natury ogólnej (metadane), np.
tytuł dzieła, autor, rok powstania
–
anotacje strukturalne, np.
granice akapitów i zdań, informacje o tym, że tekst jest
tytułem lub podpisem pod rysunkiem
–
anotacje morfosyntaktyczne, np.
część mowy, rodzaj, przypadek
Korpus IPIPAN
Korpus lingwistyczny to zbiór tekstów w języku naturalnym
(na ogół w jednym). W zależności od zastosowania różne
typy korpusów:
Korpusy j zyka polskiego
PWN - niewielka część udostępniona publicznie
IPI PAN - dokładniejsze znaczniki morfosyntaktyczne,
dostępność w sieci całego korpusu (w postaci binarnej)
http://www.korpus.pl
Korpus IPIPAN
9

Podobne dokumenty