Polsko-Ukraiński Korpus Równoległy PolUKR oraz jego następca
Transkrypt
Polsko-Ukraiński Korpus Równoległy PolUKR oraz jego następca
Polsko-Ukraiński Korpus Równoległy PolUKR oraz jego następca PolUKR-2 Natalia Kotsyba Instytut Podstaw Informatyki Polska Akademia Nauk Celem niniejszego artykułu jest przedstawienie obecnego stadium rozwoju jednego z aspektów wieloletniego projektu korpusowego, dążącego do tworzenia elektronicznych zasobów dla języka ukraińskiego. Jego istotną częścią jest polsko-ukraiński korpus równoległy (PolUKR), który był rozwijany w latach 2004-2010 najpierw w Instytucie Slawistyki Polskiej Akademii Nauk, a później na wydziale "Artes Liberales" Uniwersytetu Warszawskiego. Pierwsze dwie wersje PolUKRu są dostępne do przeszukiwania pod adresem: http://domeczek.pl/~polukr . PolUKR składa się wyłącznie z tekstów stworzonych oryginalnie albo w języku polskim albo w języku ukraińskim, tzn. nie wykorzystuje on języków trzecich lecz jedynie bezpośrednie tłumaczenia tekstów. Jest on wyrównany na poziomie zdań w sposób automatyczny, po czym wyrównania były sprawdzone ręcznie. W zdaniach w języku polskim i ukraińskim zostały dodane informacje morfoskładniowe. Cechą charakterystyczną opisu morfoskładni w PolUKRrze jest to, że korzysta on ze specjalnie opracowanego dla tego celu aparatu kategorialnego wspólnego dla obu języków oraz opartych na nim tagsetów morfoskładniowych dla języka polskiego i języka ukraińskiego. wielojęzycznym projekcie europejskim Tagsety te zostały także wykorzystane w MULTEXT-East (1996-2010), wersja 4 "MONDILEX", dostępnym pod adresem http://nl.ijs.si/ME/V4/. O ile wersje pilotażowe PolUKRu skupiały się bardziej na opracowaniu technologii tworzenia korpusów, zarówno kwestii technicznych, jak i z zakresu teorii lingwistyki, to obecna wersja, tworzona we współpracy z Uniwersytetem Lwowskim oraz Politechniką Lwowską, ma na celu 1) przede wszystkim rozbudowę objętościowe korpusu przynajmniej do 10 mln słów (tak jak wcześniej, z możliwie jak największym udziałem tekstów oryginalnych, ale już bez ścisłego ograniczenia do takich tekstów); 2) optymalizację opisu morfoskładni dla języka ukraińskiego, tzn. ujednoznacznienie przypadków wieloznacznych oraz rozbudowa słownika gramatycznego o nowe, nierozpoznane słowa. W planach jest także opracowanie płytkiej składni dla języka ukraińskiego. PolUKR-2015 ma służyć jako podstawowy zasób, stanowiący podstawę do stworzenia dużego słownika ukraińsko-polskiego, który ma liczyć ok. 80 tys. słów.