Polsko-Ukraiński Korpus Równoległy PolUKR oraz jego następca

Transkrypt

Polsko-Ukraiński Korpus Równoległy PolUKR oraz jego następca
Polsko-Ukraiński Korpus Równoległy PolUKR
oraz jego następca PolUKR-2
Natalia Kotsyba
Instytut Podstaw Informatyki
Polska Akademia Nauk
Celem niniejszego artykułu jest przedstawienie obecnego stadium rozwoju jednego z aspektów
wieloletniego projektu korpusowego, dążącego do tworzenia elektronicznych zasobów dla
języka ukraińskiego. Jego istotną częścią jest polsko-ukraiński korpus równoległy (PolUKR),
który był rozwijany w latach 2004-2010 najpierw w Instytucie Slawistyki Polskiej Akademii
Nauk, a później na wydziale "Artes Liberales" Uniwersytetu Warszawskiego. Pierwsze dwie
wersje PolUKRu są dostępne do przeszukiwania pod adresem: http://domeczek.pl/~polukr .
PolUKR składa się wyłącznie z tekstów stworzonych oryginalnie albo w języku polskim
albo w języku ukraińskim, tzn. nie wykorzystuje on języków trzecich lecz jedynie bezpośrednie
tłumaczenia tekstów. Jest on wyrównany na poziomie zdań w sposób automatyczny, po czym
wyrównania były sprawdzone ręcznie. W zdaniach w języku polskim i ukraińskim zostały
dodane informacje morfoskładniowe. Cechą charakterystyczną opisu morfoskładni w
PolUKRrze jest to, że korzysta on ze specjalnie opracowanego dla tego celu aparatu
kategorialnego wspólnego dla obu języków oraz opartych na nim tagsetów morfoskładniowych
dla języka polskiego i języka ukraińskiego.
wielojęzycznym
projekcie
europejskim
Tagsety te zostały także wykorzystane w
MULTEXT-East
(1996-2010),
wersja
4
"MONDILEX", dostępnym pod adresem http://nl.ijs.si/ME/V4/.
O ile wersje pilotażowe PolUKRu skupiały się bardziej na opracowaniu technologii
tworzenia korpusów, zarówno kwestii technicznych, jak i z zakresu teorii lingwistyki, to obecna
wersja, tworzona we współpracy z Uniwersytetem Lwowskim oraz Politechniką Lwowską, ma
na celu 1) przede wszystkim rozbudowę objętościowe korpusu przynajmniej do 10 mln słów
(tak jak wcześniej, z możliwie jak największym udziałem tekstów oryginalnych, ale już bez
ścisłego ograniczenia do takich tekstów); 2) optymalizację opisu morfoskładni dla języka
ukraińskiego, tzn. ujednoznacznienie przypadków wieloznacznych oraz rozbudowa słownika
gramatycznego o nowe, nierozpoznane słowa. W planach jest także opracowanie płytkiej
składni dla języka ukraińskiego. PolUKR-2015 ma służyć jako podstawowy zasób, stanowiący
podstawę do stworzenia dużego słownika ukraińsko-polskiego, który ma liczyć ok. 80 tys. słów.