Między młotem a kowadłem, czyli czego potrzebuje użytkownik

Transkrypt

Między młotem a kowadłem, czyli czego potrzebuje użytkownik
Między młotem a kowadłem, czyli czego potrzebuje użytkownik korpusu
równoległego a jakie są możliwości twórców korpusów
(na przykładzie czesko-polskiej części korpusu równoległego InterCorp)
Milena Hebal-Jezierska
Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawsk
Elżbieta Kaczmarska
Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski
Alexandr Rosen
Institute of Theoretical and Computational Linguistics, Charles University, Prague
Celem referatu jest próba przedstawienia oczekiwań użytkownika korpusu równoległego z
punktu
widzenia
różnego
typu
badań,
zwłaszcza
analiz
konfrontatywnych
oraz
translatologicznych.
Prezentacja oparta jest na doświadczeniach zdobytych w trakcie budowy korpusu oraz
prób zastosowania kolejnych wersji czesko-polskich zasobów elektronicznych w badaniach
językoznawczych. Ograniczona liczba i rodzaj tekstów, czasochłonne i kosztowne ich
przetwarzanie oraz niekompatybilność tagsetów i funkcji to zaledwie niektóre z problemów
wpływających na rozbieżność ocen funkcjonalności opisywanych korpusów pomiędzy ich
użytkownikami a twórcami. Należy tu także wspomnieć o problemach dotyczących wyboru
tematu oraz próbach szczegółowej analizy zjawisk leksykalnych i gramatycznych (szerzej:
Hebal-Jezierska 2013).
Korpusy równoległe wymagają częściowo odmiennych metod pracy w porównaniu z
korpusami jednojęzycznymi (kierunek przekładu, problematyka badań ilościowych).
Jednocześnie jednak otwierają przed badaczami nowe perspektywy, np. generowanie
słowników (ekstrakcja na podstawie InterCorpu: Skoumalová 2010, Jirásek 2011, Kaczmarska
– Rosen 2013).
Oczekiwania użytkownika korpusu równoległego zostaną zatem skonfrontowane z
realnymi możliwościami budowania tego typu korpusów (zarówno technicznymi, jak i
finansowymi). Konkretne przykłady zostaną podane w trakcie prezentacji.
Literatura
Hebal-Jezierska M (2013): Podstawowe zasady korzystania z korpusów przy badaniu języka.
In: Chlebda W. (ed.): Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów.
Wydawnictwo Uniwersytetu Opolskiego, 17-30.
Jirásek K. (2010): Možnosti využití paralelního korpusu pro komparativní studium přirovnání
v českém a chorvatském jazyce. In: Čermák F. – Kocek J. (eds.): Mnohojazyčný korpus
InterCorp: Možnosti studia. Praha, 122-152.
Jirásek K. (2011): Využití paralelního korpusu InterCorp k získávání ekvivalentů pro
chorvatsko-český slovník. In: Čermák F. (ed.): Korpusová lingvistika Praha 2011: 1 –
InterCorp. Praha, 45-55.
Kaczmarska E. (2012a): Czeski czasownik „zdát se” w przekładzie na język polski (na
podstawie badań z wykorzystaniem czesko-polskiego korpusu równoległego InterCorp).
Studia z Filologii Polskiej i Słowiańskiej 47. Warszawa, 247-261.
Kaczmarska E. (2012b): Searching for equivalents on the basis of Czech–Polish parallel corpus
(the case of the verb zdát se"). In: Karagiozov P. – Bahneva K. – Geshev, V. – Hristova I. –
Mladenova M. (eds.): Време и история в славянските езици, литератури и култури.
Езикознание. Sofia, 238-245.
Kaczmarska E. – Rosen A. (2013): Między znaczeniem leksykalnym a walencją - próba
opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia
z Filologii Polskiej i Słowiańskiej 48. Warszawa, 103-121.
Skoumalová H. (2010): Extrakce česko-litevského slovníku z korpusu. In: Čermák F. – Kocek
J. (eds.): Mnohojazyčný korpus InterCorp: Možnosti studia. Praha, 241-247.
Waliński J. (2005): Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej.
In: Lewandowska-Tomaszczyk B. (ed.): Podstawy językoznawstwa korpusowego. Łódź.