Korpus równoległy polsko

Transkrypt

Korpus równoległy polsko
Korpus równoległy polsko-słowacki
Marianna Petrincová
Uniwersytet Palackiego w Olomuncu
Celem prezentacji jest przedstawienie budowy korpusu równoległego polskosłowackiego i badań na nim prowadzonych.
Korpus równoległy polsko-słowacki jest bazą materiałową do pracy doktorskiej
na temat analizy korpusowej słowackich ekwiwalentów polskich czasowników
przedrostkowych pod kątem ich przydatności leksykograficznej.
Korpus równoległy polsko-słowacki zbudowany został z tekstów literackich,
gdzie językiem tekstu oryginalnego jest język polski i językiem tłumaczenia język
słowacki, chodzi więc o korpus jednokierunkowy, o czym zadecydowano ze względu na
cele pracy. Teksty tworzące korpus to głównie teksty beletrystyczne, ale znajduje się
w nich również literatura faktu, eseje i książka dla dzieci. Chodzi o osiem książek razem
z ich tłumaczeniami, przy czym każda ze stron korpusu liczy ponad 600 tysięcy tokenów.
Do stworzenia korpusu zostało użyte oprogramowanie SketchEngine, teksty są
zarównane na poziomie zdań za pomocą wolnego oprogramowania LF_aligner. Korpus
jest również morfologicznie oznakowany i lematyzowany, ze względu na co do
wyszukiwania można było wykorzystać wyrażenia regularne.
Celem wyszukiwania jest dostarczenie słowackich ekwiwalentów polskich
czasowników przedrostkowych i ich następująca analiza oraz ocena ich potencjału
leksykograficznego. Ten oznacza zdolność ekwiwalentu tłumaczeniowego do pełnienia
zadania ekwiwalentu leksykograficznego (Perdek 2011). Ocena odbywa się poprzez
identyfikację znaczenia, w którym został użyty polski czasownik przedrostkowy, gdzie
jako
materiał
referencyjny
został
wykorzystany
Słownik
języka
polskiego
(http://sjp.pwn.pl). Następnie ocenia się i porównuje łączliwość kolokacyjna czasownika
polskiego i słowackiego w korpusach referencyjnych, którymi są korpus jednojęzyczny
polski (plTenTen12) i słowacki (skTenTen11) (https://the.sketchengine.co.uk), za
pomocą narzędzia WordSketch, które wytwarza automatyczny przegląd gramatycznego
i kolokacyjnego zachowania słów w tekstach. Materiałem referencyjnym o istniejących
ekwiwalentach leksykograficznych jest słownik polsko-słowacki „Poľsko-slovenský a
slovensko-poľský slovník” pod redakcją Stano i Buffa z 1975r. Mamy nadzieję, że dzieki
opisanej analizie uda nam się uzyskać materiał dla nowego słownika polsko-słowackiego.
Literatura
a) słowniki i korpusy
Poľsko-slovensý a slovensko-poľský slovník (red. M. Stano, F. Buffa), SPN 1975
Słownik języka polskiego, PWN (http://sjp.pwn.pl) [data dostępu 29.1.2015]
skTenTen11 (https://the.sketchengine.co.uk) [data dostępu 19.11.2014]
plTenTen12 (https://the.sketchengine.co.uk) [data dostępu 19.11.2014]
b) odnośniki
Atkins, B. Sue., Rundell, Michael. (2008). The Oxford Guide to Practical
Lexicography. Oxford University Press
Perdek, Magdalena. (2011). English phrasal verbs in translation: A lexicographic and
corpus study of equivalence, [niepublikowana praca doktorska] Poznań
Teubert, Wolfgang. (2002). The role of parallel corpora in translation and multilingual
lexicography, In: Bengt Altenberg and Sylviane Granger (eds.), Lexis in Contrast.
Corpus-based Approaches. Amsterdam: John Benajmins. 189–214.

Podobne dokumenty