R. Bronikowska, A.Wieczorek, Problemy opisu nazw geograficznych

Transkrypt

R. Bronikowska, A.Wieczorek, Problemy opisu nazw geograficznych
Problemy opisu nazw geograficznych w słowniku morfologicznym (na podstawie prac
nad PoliMorfem)
Powstający w IPI PAN PoliMorf jest słownikiem morfologicznym przeznaczonym na
potrzeby automatycznej analizy tekstów. Jego zasadniczy trzon stanowią hasła przejęte ze
Słownika gramatycznego języka polskiego Z. Saloniego, M. Wolińskiego, R. Wołosza,
W. Gruszczyńskiego i D. Skowrońskiej (dalej SGJP) oraz wolnodostępnego słownika
Morfologik, tworzonego pod redakcją M. Miłkowskiego. Prócz tego PoliMorf zawiera hasła
dodane z kilku innych, mniejszych słowników oraz hasła nowo utworzone. Liczy obecnie
niemal 400 000 haseł. Rozbudowywany jest za pomocą programu Kuźnia – narzędzia
wspomagającego pracę nad słownikami elektronicznymi. Hasła w PoliMorfie, podobnie jak
we wszystkich słownikach powstających w ramach Kuźni, są opracowywane według zasad
przejętych z SGJP, przy czym zdarza się, że praca nad materiałem językowym wpływa na ich
doprecyzowanie lub zmianę.
Z przeznaczenia PoliMorfa wynikają pewne różnice w stosunku do słowników
morfologicznych, takich jak SGJP, nastawionych na odbiór przez człowieka – m.in. celowe
jest uwzględnienie w nim jak największej liczby jednostek, tak aby mogły być one
rozpoznane przez program analizujący tekst. Dlatego też w ramach projektu CESAR
podjęliśmy zadanie weryfikacji i uzupełnienia zasobów nazw geograficznych w PoliMorfie.
Przy ustaleniu listy haseł geograficznych do weryfikacji i opisu kierowaliśmy się frekwencją
(wybraliśmy hasła najczęściej odwiedzane w polskiej Wikipedii); prócz tego umieściliśmy
tam wszystkie nazwy pewnych typów obiektów (np. wszystkie państwa, stolice, jednostki
administracyjne 1. rzędu w Europie). W ramach projektu CESAR zweryfikowanych lub
dodanych zostało ponad 6000 nazw geograficznych. W naszym referacie omówimy
problemy, z którymi zetknęliśmy się podczas pracy nad nazwami geograficznymi
w PoliMorfie, i zastosowane przez nas rozwiązania.
Dla niektórych nazw okazało się nieoczywiste, jaki przypisać im rodzaj i wzór odmiany.
Problem rodzaju dotyczył głównie nazw nieodmiennych (charakteryzujących się pełnym
synkretyzmem form, np. Kos), czasem również odmiennych o możliwej dwojakiej
interpretacji rodzajowej (np. Kotań, Łyse). Przedstawimy stosowane przez nas kryteria
(syntaktyczne i semantyczne) oraz ich ograniczenia. Powiemy, kiedy decydowaliśmy się na
stworzenie dwóch haseł homonimicznych, a kiedy w obrębie jednego hasła przypisywaliśmy
danej nazwie dwa rodzaje (i co za tym idzie – dwa wzorce odmiany). Ustalenie wzoru
odmiany napotykało na trudności zarówno w przypadku nazw polskich, jak i obcych.
W przypadku nazw polskich problematyczne bywało zwłaszcza ustalenie postaci dopełniacza.
W przypadku nazw obcych nie zawsze było jasne, czy dana nazwa jest przez użytkowników
języka traktowana jako odmienna czy nieodmienna. Zdarzało się, że forma zalecana przez
słowniki w ogóle nie pojawiała się w tekstach, a zamiast niej występowała forma inna (np.
Gumieniec zamiast Gumieńców). Często mogliśmy również obserwować zderzenie norm
słownikowych zalecających odmianę z uzusem językowym preferującym formy nieodmienne
(np. w Wyoming zamiast w Wyomingu). Do opisu takich sytuacji używaliśmy specjalnego
kwalifikatora: zalecane-nieużywane.
Osobnym problemem było potraktowanie w opisie słownikowym nazw złożonych z kilku
członów połączonych dywizem (np. Skarżysko-Kamienna). Co do zasady każdy z członów
takiej nazwy był opisywany w odrębnym haśle. W przypadku nazw obcych pojawiały się
jednak wątpliwości dotyczące zakwalifikowania niektórych członów do odpowiedniej części
mowy (np. et w Meurthe-et-Moselle). Rozwiązania wymagała także kwestia istnienia kilku
wariantów danej nazwy (np. Myanmar – Mjanma) oraz funkcjonowania w polskich tekstach
nazw obcych zapisanych z pominięciem nieznanych polszczyźnie znaków diakrytycznych
(np. Ceara zamiast Ceará).
Bibliografia:
Derwojedowa M., Rudolf M., 2003, Czy Burkina to dziewczyna i co o tym sądzą ich
królewskie mości, czyli o jednostkach leksykalnych pewnego typu. „Poradnik Językowy”, 5,
s. 39-49.
Grzenia J., 2003, Słownik nazw własnych, Warszawa.
Grzenia J., 2008, Słownik nazw geograficznych z odmianą i wyrazami pochodnymi,
Warszawa.
Miłkowski M., 2010, Developing an open-source, rule-based proofreading
tool. Software: Practice and Experience, 40(7), s. 543–566.
Nowy słownik poprawnej polszczyzny PWN, 2002, red. A. Markowski, Warszawa.
Rozporządzenie Ministra Administracji i Cyfryzacji z dnia 13 grudnia 2012 r. w sprawie wykazu
urzędowych nazw miejscowości i ich części (http://dziennikustaw.gov.pl/du/2013/200/1)
Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D., 2012, Słownik
gramatyczny języka polskiego. Warszawa, 2. wyd.
Szałkiewicz Ł., Przepiórkowski A., 2012, Anotacja morfoskładniowa (w:) Narodowy Korpus
Języka Polskiego, red. A. Przepiórkowski, M. Bańko, R.L. Górski, B. LewandowskaTomaszczyk, Warszawa, s. 59-96.
Wielki słownik ortograficzny PWN z zasadami pisowni i interpunkcji, 2006, red. nauk.
E. Polański, Warszawa.
Woliński M., Miłkowski M., Ogrodniczuk M., Przepiórkowski A., Szałkiewicz Ł., 2012,
PoliMorf: a (not so) new open morphological dictionary for Polish (w:) Proceedings of the
Eighth International Conference on Language Resources and Evaluation, LREC 2012,
Istambuł, s. 860-864 (http://www.lrec-conf.org/proceedings/lrec2012/pdf/263_Paper.pdf).

Podobne dokumenty