Mały korpus polsko-włoski do badań gramatycznych

Transkrypt

Mały korpus polsko-włoski do badań gramatycznych
Mały korpus polsko-włoski do badań gramatycznych
Dorota Sieroń
Katedra Językoznawstwa Ogólnego i Indoeuropejskiego
Uniwersytet Jagielloński
Celem referatu jest przedstawienie niedużego korpusu polsko-włoskiego stworzonego do
kontrastywnych badań gramatycznych na potrzeby rozprawy doktorskiej.
Omówiony zostanie wpływ założeń korpusu (planowany sposób wykorzystania oraz
uwzględnione języki) na jego wielkość i rodzaj zebranych tekstów. Przedstawiony zostanie
również wpływ planowanej wielkości korpusu na inne aspekty jego budowy, takie jak
zrównoważenie i zróżnicowanie tekstów, oraz na zakładaną jakość ich przetwarzania
(sprawdzanie pisowni, ręczne sprawdzanie wyrównania segmentów (alignment)).
Następnie zostanie zaprezentowana budowa korpusu. Zawiera on około 2 mln słów
(suma tekstów polskich i włoskich) pochodzących z 40 powieści (20 powieści polskich
przetłumaczonych na język włoski oraz 20 powieści polskich przetłumaczonych na język
włoski). Korpus zbiera teksty pochodzące od 40 autorów i 39 tłumaczy. Suma słów każdej
powieści i jej tłumaczenia wynosi około 50 tysięcy. Korpus zawiera wyłącznie teksty literackie
powstałe po 1945 roku, od beletrystyki poprzez fantastykę po powieści kryminalne. Jest
otagowany morfosyntaktycznie.
Kolejnym poruszonym zagadnieniem będą najważniejsze problemy praktyczne, które
napotkano podczas kompilacji korpusu. Przede wszystkim są to problemy związane
z pozyskiwaniem tekstów, liczeniem słów (regularne różnice w długości tekstów polskich
i włoskich, definicje słowa przyjęte przez konkretne narzędzia i ich wpływ na wynik zliczania)
oraz z odmiennymi konwencjami zapisu dialogów, co powodowało pogorszenie jakości
wyrównania segmentów.
Na zakończenie zostaną krótko przedstawione główne narzędzia użyte podczas
przetwarzania tekstów (LF Aligner, TreeTagger, CWB, ParaVoz).
Literatura
Aijmer, K. (2008) „Parallel and comparable corpora”, w A. Lüdeling, M. Kytö. (ed.) Corpus
Linguistics. An International Handbook. Volume 1, Berlin – New York: Mouton de Gruyter.
Biber, D. (1993) „Representativeness in Corpus Design”, Literary and Linguistic Computing,
vol. 8(4) , str. 243-257.
Górski, R., Łaziński, M. (2012) „Reprezentatywność i zrównoważenie korpusu”, w A.
Przepiórkowski, M. Bańko, R. Górski, B. Lewandowska-Tomaszczyk. (ed.) Narodowy
Korpus Języka Polskiego, Warszawa: Wydawnictwo Naukowe PWN.
Koester, A. (2010) „Building small specialised corpora”, w A. O'Keeffe, M. McCarthy. (ed.)
The Routledge Handbook of Corpus Linguistics, London & New York: Routledge.
Sinclair, J. (2005) „Corpus and Text – Basic Principles”, w M. Wynne (ed.) Developing
Linguistic Corpora: a Guide to Good Practice, Oxford: Oxbow Books.