Mały korpus polsko-włoski do badań gramatycznych
Transkrypt
Mały korpus polsko-włoski do badań gramatycznych
Mały korpus polsko-włoski do badań gramatycznych Dorota Sieroń Katedra Językoznawstwa Ogólnego i Indoeuropejskiego Uniwersytet Jagielloński Celem referatu jest przedstawienie niedużego korpusu polsko-włoskiego stworzonego do kontrastywnych badań gramatycznych na potrzeby rozprawy doktorskiej. Omówiony zostanie wpływ założeń korpusu (planowany sposób wykorzystania oraz uwzględnione języki) na jego wielkość i rodzaj zebranych tekstów. Przedstawiony zostanie również wpływ planowanej wielkości korpusu na inne aspekty jego budowy, takie jak zrównoważenie i zróżnicowanie tekstów, oraz na zakładaną jakość ich przetwarzania (sprawdzanie pisowni, ręczne sprawdzanie wyrównania segmentów (alignment)). Następnie zostanie zaprezentowana budowa korpusu. Zawiera on około 2 mln słów (suma tekstów polskich i włoskich) pochodzących z 40 powieści (20 powieści polskich przetłumaczonych na język włoski oraz 20 powieści polskich przetłumaczonych na język włoski). Korpus zbiera teksty pochodzące od 40 autorów i 39 tłumaczy. Suma słów każdej powieści i jej tłumaczenia wynosi około 50 tysięcy. Korpus zawiera wyłącznie teksty literackie powstałe po 1945 roku, od beletrystyki poprzez fantastykę po powieści kryminalne. Jest otagowany morfosyntaktycznie. Kolejnym poruszonym zagadnieniem będą najważniejsze problemy praktyczne, które napotkano podczas kompilacji korpusu. Przede wszystkim są to problemy związane z pozyskiwaniem tekstów, liczeniem słów (regularne różnice w długości tekstów polskich i włoskich, definicje słowa przyjęte przez konkretne narzędzia i ich wpływ na wynik zliczania) oraz z odmiennymi konwencjami zapisu dialogów, co powodowało pogorszenie jakości wyrównania segmentów. Na zakończenie zostaną krótko przedstawione główne narzędzia użyte podczas przetwarzania tekstów (LF Aligner, TreeTagger, CWB, ParaVoz). Literatura Aijmer, K. (2008) „Parallel and comparable corpora”, w A. Lüdeling, M. Kytö. (ed.) Corpus Linguistics. An International Handbook. Volume 1, Berlin – New York: Mouton de Gruyter. Biber, D. (1993) „Representativeness in Corpus Design”, Literary and Linguistic Computing, vol. 8(4) , str. 243-257. Górski, R., Łaziński, M. (2012) „Reprezentatywność i zrównoważenie korpusu”, w A. Przepiórkowski, M. Bańko, R. Górski, B. Lewandowska-Tomaszczyk. (ed.) Narodowy Korpus Języka Polskiego, Warszawa: Wydawnictwo Naukowe PWN. Koester, A. (2010) „Building small specialised corpora”, w A. O'Keeffe, M. McCarthy. (ed.) The Routledge Handbook of Corpus Linguistics, London & New York: Routledge. Sinclair, J. (2005) „Corpus and Text – Basic Principles”, w M. Wynne (ed.) Developing Linguistic Corpora: a Guide to Good Practice, Oxford: Oxbow Books.