Korpus równoległy polsko
Transkrypt
Korpus równoległy polsko
Korpus równoległy polsko-słowacki Marianna Petrincová Uniwersytet Palackiego w Olomuncu Celem prezentacji jest przedstawienie budowy korpusu równoległego polskosłowackiego i badań na nim prowadzonych. Korpus równoległy polsko-słowacki jest bazą materiałową do pracy doktorskiej na temat analizy korpusowej słowackich ekwiwalentów polskich czasowników przedrostkowych pod kątem ich przydatności leksykograficznej. Korpus równoległy polsko-słowacki zbudowany został z tekstów literackich, gdzie językiem tekstu oryginalnego jest język polski i językiem tłumaczenia język słowacki, chodzi więc o korpus jednokierunkowy, o czym zadecydowano ze względu na cele pracy. Teksty tworzące korpus to głównie teksty beletrystyczne, ale znajduje się w nich również literatura faktu, eseje i książka dla dzieci. Chodzi o osiem książek razem z ich tłumaczeniami, przy czym każda ze stron korpusu liczy ponad 600 tysięcy tokenów. Do stworzenia korpusu zostało użyte oprogramowanie SketchEngine, teksty są zarównane na poziomie zdań za pomocą wolnego oprogramowania LF_aligner. Korpus jest również morfologicznie oznakowany i lematyzowany, ze względu na co do wyszukiwania można było wykorzystać wyrażenia regularne. Celem wyszukiwania jest dostarczenie słowackich ekwiwalentów polskich czasowników przedrostkowych i ich następująca analiza oraz ocena ich potencjału leksykograficznego. Ten oznacza zdolność ekwiwalentu tłumaczeniowego do pełnienia zadania ekwiwalentu leksykograficznego (Perdek 2011). Ocena odbywa się poprzez identyfikację znaczenia, w którym został użyty polski czasownik przedrostkowy, gdzie jako materiał referencyjny został wykorzystany Słownik języka polskiego (http://sjp.pwn.pl). Następnie ocenia się i porównuje łączliwość kolokacyjna czasownika polskiego i słowackiego w korpusach referencyjnych, którymi są korpus jednojęzyczny polski (plTenTen12) i słowacki (skTenTen11) (https://the.sketchengine.co.uk), za pomocą narzędzia WordSketch, które wytwarza automatyczny przegląd gramatycznego i kolokacyjnego zachowania słów w tekstach. Materiałem referencyjnym o istniejących ekwiwalentach leksykograficznych jest słownik polsko-słowacki „Poľsko-slovenský a slovensko-poľský slovník” pod redakcją Stano i Buffa z 1975r. Mamy nadzieję, że dzieki opisanej analizie uda nam się uzyskać materiał dla nowego słownika polsko-słowackiego. Literatura a) słowniki i korpusy Poľsko-slovensý a slovensko-poľský slovník (red. M. Stano, F. Buffa), SPN 1975 Słownik języka polskiego, PWN (http://sjp.pwn.pl) [data dostępu 29.1.2015] skTenTen11 (https://the.sketchengine.co.uk) [data dostępu 19.11.2014] plTenTen12 (https://the.sketchengine.co.uk) [data dostępu 19.11.2014] b) odnośniki Atkins, B. Sue., Rundell, Michael. (2008). The Oxford Guide to Practical Lexicography. Oxford University Press Perdek, Magdalena. (2011). English phrasal verbs in translation: A lexicographic and corpus study of equivalence, [niepublikowana praca doktorska] Poznań Teubert, Wolfgang. (2002). The role of parallel corpora in translation and multilingual lexicography, In: Bengt Altenberg and Sylviane Granger (eds.), Lexis in Contrast. Corpus-based Approaches. Amsterdam: John Benajmins. 189–214.