R. Bronikowska, A.Wieczorek, Problemy opisu nazw geograficznych
Transkrypt
R. Bronikowska, A.Wieczorek, Problemy opisu nazw geograficznych
Problemy opisu nazw geograficznych w słowniku morfologicznym (na podstawie prac nad PoliMorfem) Powstający w IPI PAN PoliMorf jest słownikiem morfologicznym przeznaczonym na potrzeby automatycznej analizy tekstów. Jego zasadniczy trzon stanowią hasła przejęte ze Słownika gramatycznego języka polskiego Z. Saloniego, M. Wolińskiego, R. Wołosza, W. Gruszczyńskiego i D. Skowrońskiej (dalej SGJP) oraz wolnodostępnego słownika Morfologik, tworzonego pod redakcją M. Miłkowskiego. Prócz tego PoliMorf zawiera hasła dodane z kilku innych, mniejszych słowników oraz hasła nowo utworzone. Liczy obecnie niemal 400 000 haseł. Rozbudowywany jest za pomocą programu Kuźnia – narzędzia wspomagającego pracę nad słownikami elektronicznymi. Hasła w PoliMorfie, podobnie jak we wszystkich słownikach powstających w ramach Kuźni, są opracowywane według zasad przejętych z SGJP, przy czym zdarza się, że praca nad materiałem językowym wpływa na ich doprecyzowanie lub zmianę. Z przeznaczenia PoliMorfa wynikają pewne różnice w stosunku do słowników morfologicznych, takich jak SGJP, nastawionych na odbiór przez człowieka – m.in. celowe jest uwzględnienie w nim jak największej liczby jednostek, tak aby mogły być one rozpoznane przez program analizujący tekst. Dlatego też w ramach projektu CESAR podjęliśmy zadanie weryfikacji i uzupełnienia zasobów nazw geograficznych w PoliMorfie. Przy ustaleniu listy haseł geograficznych do weryfikacji i opisu kierowaliśmy się frekwencją (wybraliśmy hasła najczęściej odwiedzane w polskiej Wikipedii); prócz tego umieściliśmy tam wszystkie nazwy pewnych typów obiektów (np. wszystkie państwa, stolice, jednostki administracyjne 1. rzędu w Europie). W ramach projektu CESAR zweryfikowanych lub dodanych zostało ponad 6000 nazw geograficznych. W naszym referacie omówimy problemy, z którymi zetknęliśmy się podczas pracy nad nazwami geograficznymi w PoliMorfie, i zastosowane przez nas rozwiązania. Dla niektórych nazw okazało się nieoczywiste, jaki przypisać im rodzaj i wzór odmiany. Problem rodzaju dotyczył głównie nazw nieodmiennych (charakteryzujących się pełnym synkretyzmem form, np. Kos), czasem również odmiennych o możliwej dwojakiej interpretacji rodzajowej (np. Kotań, Łyse). Przedstawimy stosowane przez nas kryteria (syntaktyczne i semantyczne) oraz ich ograniczenia. Powiemy, kiedy decydowaliśmy się na stworzenie dwóch haseł homonimicznych, a kiedy w obrębie jednego hasła przypisywaliśmy danej nazwie dwa rodzaje (i co za tym idzie – dwa wzorce odmiany). Ustalenie wzoru odmiany napotykało na trudności zarówno w przypadku nazw polskich, jak i obcych. W przypadku nazw polskich problematyczne bywało zwłaszcza ustalenie postaci dopełniacza. W przypadku nazw obcych nie zawsze było jasne, czy dana nazwa jest przez użytkowników języka traktowana jako odmienna czy nieodmienna. Zdarzało się, że forma zalecana przez słowniki w ogóle nie pojawiała się w tekstach, a zamiast niej występowała forma inna (np. Gumieniec zamiast Gumieńców). Często mogliśmy również obserwować zderzenie norm słownikowych zalecających odmianę z uzusem językowym preferującym formy nieodmienne (np. w Wyoming zamiast w Wyomingu). Do opisu takich sytuacji używaliśmy specjalnego kwalifikatora: zalecane-nieużywane. Osobnym problemem było potraktowanie w opisie słownikowym nazw złożonych z kilku członów połączonych dywizem (np. Skarżysko-Kamienna). Co do zasady każdy z członów takiej nazwy był opisywany w odrębnym haśle. W przypadku nazw obcych pojawiały się jednak wątpliwości dotyczące zakwalifikowania niektórych członów do odpowiedniej części mowy (np. et w Meurthe-et-Moselle). Rozwiązania wymagała także kwestia istnienia kilku wariantów danej nazwy (np. Myanmar – Mjanma) oraz funkcjonowania w polskich tekstach nazw obcych zapisanych z pominięciem nieznanych polszczyźnie znaków diakrytycznych (np. Ceara zamiast Ceará). Bibliografia: Derwojedowa M., Rudolf M., 2003, Czy Burkina to dziewczyna i co o tym sądzą ich królewskie mości, czyli o jednostkach leksykalnych pewnego typu. „Poradnik Językowy”, 5, s. 39-49. Grzenia J., 2003, Słownik nazw własnych, Warszawa. Grzenia J., 2008, Słownik nazw geograficznych z odmianą i wyrazami pochodnymi, Warszawa. Miłkowski M., 2010, Developing an open-source, rule-based proofreading tool. Software: Practice and Experience, 40(7), s. 543–566. Nowy słownik poprawnej polszczyzny PWN, 2002, red. A. Markowski, Warszawa. Rozporządzenie Ministra Administracji i Cyfryzacji z dnia 13 grudnia 2012 r. w sprawie wykazu urzędowych nazw miejscowości i ich części (http://dziennikustaw.gov.pl/du/2013/200/1) Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D., 2012, Słownik gramatyczny języka polskiego. Warszawa, 2. wyd. Szałkiewicz Ł., Przepiórkowski A., 2012, Anotacja morfoskładniowa (w:) Narodowy Korpus Języka Polskiego, red. A. Przepiórkowski, M. Bańko, R.L. Górski, B. LewandowskaTomaszczyk, Warszawa, s. 59-96. Wielki słownik ortograficzny PWN z zasadami pisowni i interpunkcji, 2006, red. nauk. E. Polański, Warszawa. Woliński M., Miłkowski M., Ogrodniczuk M., Przepiórkowski A., Szałkiewicz Ł., 2012, PoliMorf: a (not so) new open morphological dictionary for Polish (w:) Proceedings of the Eighth International Conference on Language Resources and Evaluation, LREC 2012, Istambuł, s. 860-864 (http://www.lrec-conf.org/proceedings/lrec2012/pdf/263_Paper.pdf).