Abstrakty - Glosa do leksykografii polskiej
Transkrypt
Abstrakty - Glosa do leksykografii polskiej
22–23.09.2016, Warszawa Abstrakty referatów, które zostaną wygłoszone podczas konferencji (w kolejności alfabetycznej) dr Anna Andrzejczuk (Instytut Podstaw Informatyki PAN), dr hab. Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN) Analiza wybranych problemów przy tworzeniu warstwy semantycznej słownika walencyjnego Walenty W niniejszym referacie przedstawiona zostanie warstwa semantyczna słownika walencyjnego „Walenty”. „Walenty” jest to duży, liczący 15 tysięcy predykatów (głównie czasowników) elektroniczny słownik walencyjny o sformalizowanej strukturze. O ile warstwa składniowa składa się ze schematów składniowych, zawierających morfoskładniowe informacje o argumentach predykatów, to warstwa semantyczna składa się z ram semantycznych, będących listami argumentów semantycznych reprezentowanych jako pary <rola semantyczna, preferencje selekcyjne>. Każda rama powiązana jest z adekwatną jednostką leksykalną polskiego wordnetu (Słowosieć); wordnet jest wykorzystywany także do określania preferencji selekcyjnych predykatu względem argumentu. W niniejszym referacie skupimy się na problemie wyodrębniania jednostek leksykalnych w obrębie jednego hasła słownikowego. W „Walentym” uznano, że hasło rozbijamy na więcej niż jedną jednostkę leksykalną w trzech sytuacjach. Przede wszystkim wówczas, gdy dane hasło wchodzi w różne zestawy schematów składniowych (realizuje różne możliwości parafrazy). Poza tym rozbijamy hasło na więcej jednostek leksykalnych, jeśli jednemu z argumentów danego predykatu musimy przypisać różne role albo różny zestaw preferencji selekcyjnych. Na zakończenie referatu przedstawimy kilka haseł rozbitych na jednostki leksykalne z uwzględnieniem omówionej metody. dr Ewa Białek (Instytut Filologii Słowiańskiej UMSC) Teksty paralelne – pary przekładowe – słownik przekładowy: uwagi o projekcie „Dyplomacja i polityka. Rosyjsko-polska sonda słownikowa” Celem referatu jest przybliżenie procesu powstawania dwujęzycznego słownika przekładowego, a także wskazanie aktualnych problemów związanych z kompaktowym leksykograficznym opisem słów i ich połączeń z dziedziny polityki zagranicznej na materiale dwóch języków słowiańskich. Przygotowywany projekt leksykograficzny, który w założeniu ma być pomocny tłumaczom, dyplomatom, studentom kierunków politologicznych i neofilologicznych, nosi nazwę „Dyplomacja i polityka. Rosyjsko-polska sonda słownikowa”. W jego tworzeniu wykorzystuje się metodologię przyjętą w badaniach translatologicznych i korpusowych. Znaczna część tekstów źródłowych to teksty oficjalne pozyskiwane z przestrzeni internetowej. Celem projektu jest przygotowanie uporządkowanego zbioru rosyjsko-polskich par przekładowych, pomocnego w tworzeniu i tłumaczeniu tekstów z zakresu dyplomacji i stosunków międzynarodowych. W wystąpieniu zostanie poruszony problem wykorzystania w pracy leksykografów t e k s t ó w p a r a l e l n y c h , czyli tekstów o zbliżonej tematyce i funkcji, równolegle istniejących w dwóch różnych przestrzeniach językowych. W tym kontekście istotne są zasady doboru i reprezentatywna liczba takich tekstów. Teksty paralelne są źródłem t r a n s l a n d ó w i t r a n s l a t ó w opisywanych w danym projekcie. Kolejnym problemem jest sposób pozyskiwania jednostek do opisu – w pracy stosowana jest prosta metoda ekscerpcji manualnej z drukowanych tekstów źródłowych, wykorzystuje się także wyszukiwarki na stronach instytucji, wspomagające pozyskiwanie materiału badawczego w sposób zautomatyzowany. Taka droga ekscerpcji jednostek nie jest jednak w pełni doskonała, ponieważ ogranicza tworzenie kompletnych statystyk dotyczących frekwencji wyrazów i połączeń z obu języków, a przede wszystkim utrudnia jednoznaczną ocenę statusu translandów i translatów. Status jednostek weryfikowany jest także w oparciu o narodowe korpusy języka polskiego i rosyjskiego. Jeszcze innym problemem, który wymaga głębszej refleksji, jest ocena doboru samych jednostek do opisu – jakie kryteria (znaczenie, frekwencja) pozwalają na wprowadzenie ich do sondy i na ile te jednostki są reprezentatywne dla eksplorowanego obszaru języka i komunikacji. Wreszcie – jak dany projekt leksykograficzny spełnia warunki stawiane słownikowi przekładowemu, o którym we współczesnych badaniach leksykograficznych mówi się coraz częściej oraz coraz bardziej precyzuje się samo to pojęcie. dr hab., prof. UW Wanda Decyk-Zięba (Instytut Języka Polskiego UW), dr Monika Kresa (Instytut Języka Polskiego UW), dr Izabela Stąpor (Instytut Języka Polskiego UW) Od „dictio” do „wyrazu”. Hasła i ich definiowanie w „Słowniku historycznym terminów gramatycznych” Referat dotyczy pierwszego internetowego słownika historycznego terminów gramatycznych, który powstaje w Zakładzie Historii Języka Polskiego i Dialektologii UW. Celem projektu jest stworzenie kompleksowej bazy terminów gramatycznych występujących w pracach poświęconych opisowi polszczyzny i innych języków od XV do XX wieku. Dążeniem twórców słownika jest przedstawienie – na podstawie bogatego materiału – ewolucji polskiej nomenklatury językoznawczej oraz pokazanie wpływów europejskiej myśli językoznawczej i języków obcych na polską terminologię gramatyczną. Multimedialna forma słownika pozwala na różnoraki sposób przeglądu materiału. Dzięki niej stworzono szereg indeksów, które pozwalają na przeszukiwanie materiału. Prócz tradycyjnego alfabetycznego układu haseł możemy skorzystać z: – indeksu językowego (pozwala na wyodrębnienie haseł z jednego konkretnego języka), – indeksu autorów (terminy poświadczone tylko w gramatyce/dziele u jednego autora), – indeksu chronologicznego (hasła odnotowane w wybranym stuleciu), 2 – indeksu działów (pokazanie haseł dotyczących jednego konkretnego działu języka, np. fonetyki, fleksji, składni). Autorki przedstawią w wystąpieniu ogólną koncepcję leksykonu, szczegółową budowę haseł słownikowych i problemy, jakie pojawiły się w trakcie ich opracowywania. Na hasło słownikowe składają się następujące elementy: – forma hasłowa (zazwyczaj M. liczby pojedynczej), – język (terminy mogą być polskie, łacińskie, niemieckie, rosyjskie, francuskie lub inne), – geneza terminu, – odsyłacze do innych haseł słownikowych (do synonimów, do pojęć nadrzędnych i podrzędnych, do pojęć powiązanych z hasłem, ale nie będących jego odpowiednikami), – dział gramatyki, którego dotyczy dany termin (dawniej i dziś), – definicja współczesna hasła, – definicje autorów gramatyk (definicje terminu występujące w gramatykach i ich lokalizacje), – cytaty (każde hasło posiada bogatą ilustrację materiałową; cytaty z dzieł obcojęzycznych są przetłumaczone). Do podstawowych wyzwań przy tworzeniu tego typu słownika należą kwestie związane z odpowiedniością haseł i ich definiowaniem. Terminy polskie nie zawsze odpowiadają ich łacińskim lub niemieckim ekwiwalentom. Często ten sam termin ma inne znaczenie w różnych gramatykach lub wiekach. Niejednokrotnie trudno określić język hasła, gdyż terminy łacińskie, niemieckie i polskie zapisywane były tak samo. Te i inne dylematy oraz propozycje ich rozwiązań zostaną przedstawione w referacie. mgr Ewa Dulna-Rak (UW) Słownik teatralny największych polskich reformatorów teatru w dwudziestoleciu międzywojennym – Juliusza Osterwy, Leona Schillera, Aleksandra Zelwerowicza, Wilama Horzycy, Iwona Galla Referat prezentuje wyniki grantu prowadzonego w ramach programu „Preludium” w Narodowym Centrum Nauki. Powstały w wyniku badań słownik gromadzi słownictwo związane z teatrem jako dziedziną kultury i nauki, wyekscerpowane z tekstów pięciu reformatorów teatru dwudziestolecia międzywojennego. Autorka zaprezentuje słownik, omówi jego budowę, sposoby gromadzenia słownictwa (korpus tekstów) i narzędzia komputerowe, które wspomogły pracę przy analizie wyżej wymienionego słownictwa. mgr Daniel Dzienisiewicz (UAM), dr Filip Graliński (UAM) RE-RESEARCH.PL: Towards contemporary challenges in word archaeology The aim of this talk is to present the website RE-RESEARCH.PL as an integral part of a broader project called Odkrywka (Discovermat) run by the researchers from the Institute of Linguistics and the Laboratory of Information Systems at Adam Mickiewicz University in Poznań. The very main idea of Odkrywka can be concisely summarized as searching for linguistic units in the largest diachronic corpus of Polish consisting of hundreds of thousands of texts from the years 1800–2000 mainly (but not only) collected by Polish digital libraries. The central aim is, first and foremost, to chronologize and ‒ sometimes, if necessary ‒ antedate the 3 units of language and present the data in the form of scans taken from the original printing matter. However, not only is Odkrywka a tool for conducting linguistic studies (let’s say: “word archeology”), but it also serves as a source of materials for analyzing Polish history, culture and society in a multidisciplinary fashion. The whole process is assisted by searching tools and automatically generated frequency graphs which enable to conduct research in a fast and effective way. The aforementioned webpage RE-RESEARCH.PL serves several purposes. Firstly, it is an interdisciplinary popular scientific blog based on and mainly devoted to (but not restricted to!) “word archeology”. The goal of its authors is to submit posts on a variety of subjects every single day. The content that has already been created comprises for the most part research on phraseology and phrasematics, e.g. chronologizing, (sometimes) antedating and investigating the history of collocations such as ani me, ani be, ani kukuryku, zgniły Zachód and żelazna kurtyna as well as tracing the first appearances of fast food names in Polish texts. Series of thematic posts are planned, for example, Szynobus miesiąca, Pogromcy mitów, Z historii szybkiego jedzenia and Prolegomena do świronimii. Secondly, the website is a promotional environment for Odkrywka project. It contains the list of publications directly or indirectly related to our joint work as well as the list of abstracts for both local (Polish) and international conferences. Depending on target viewers posts are to be translated into several foreign languages (e.g. Russian, English and German) whereas some posts will be translated into 10 or more foreign languages every week. In the presentation the content and goals of the website will be discussed in detail. dr Filip Graliński (UAM), Łukasz Borchmann, prof. dr hab. Piotr Wierzchoń (UAM) Odkrywka, czyli leksykografia diachroniczna live Jak optymalnie wykorzystać znane już i dopiero rysujące się możliwości techniczne dla procedury l i n g w o c h r o n o l o g i z a c j i , polegającej na przyporządkowaniu informacji chronologizacyjnej obiektom językowym? Naszą odpowiedzią jest opisywane urządzenie: Odkrywka. W referacie zamierzamy przedstawić zatem pionierskie i rewolucyjne rozwiązanie, którego zadaniem jest automatyzacja chronologizacji obiektów językowych, głównie słów. Przedział chronologizacyjny, w jakim możliwe będzie monitorowanie wspomnianych obiektów, to lata 1800–2016. Podstawą Odkrywki jest a u t o m a t y c z n e p r z e t w a r z a n i e i i n d e k s o w a n i e bardzo dużych zbiorów tekstów — leksykograf szuka słów, a nie słowo „szuka” oczu leksykografa. Integralną częścią Odkrywki są w i z u a l i z a c j e (interaktywne wykresy frekwencji w funkcji czasu, mapy, animacje). W Odkrywce wychodzimy jednak poza te, dość już oczywiste, techniki: ł ą c z y m y na bieżąco obszerne dane p o z y s k a n e a u t o m a t y c z n i e (np. liczne umocowane w czasie wystąpienia obiektów językowych — nie sposób ich wszystkich zweryfikować ręcznie, ale w swej masie dają statystycznie wiarygodne informacje) z m a n u a l n ą p r a c ą leksykografa (np. weryfikacją najwcześniejszych wystąpień, sprawdzaniem losowych próbek dla poszczególnych lat). Na b i e ż ą c o , jako że masa dostępnych tekstów bezustannie się powiększa, i to nie tylko wprzód (każdy nowy tweet staje się historią), lecz przede wszystkim w t y ł – każdy nowo zeskanowany kawałek zadrukowanego papieru może przynieść nowe rozstrzygnięcia w lingwochronologizacji (i potem w większej masie: odnośnie do leksyki, morfologii itd.) Twierdzimy, że w dającej się przewidzieć przyszłości nie powstanie ani w formie projektu, ani makiety, ani gotowego rozwiązania analogiczne do przedstawianego urządzenie, dlatego ośmielamy się twierdzić, że 4 bardziej wnikliwe omówienie Odkrywki może zainteresować szerokie grupy badaczy języka polskiego XIX i XX wieku. dr Anna Grzeszak (Katedra Hungarystyki UW) Dawne i współczesne słowniki wielojęzyczne. Thesaurus Polyglottus (1603), słownik Pallasa (1787–1789) i Wikisłownik Celem wystąpienia jest porównanie trzech słowników wielojęzycznych z różnych okresów: Thesaurus Polyglottus Hieronima Megisera z 1603 roku, Linguarum totius orbis vocabularia comparativa Piotra Szymona Pallasa z końca XVIII wieku oraz tworzonego współcześnie Wikisłownika. Wszystkie trzy zbiory łączy to, że powstały lub powstają, by gromadzić słownictwo jak największej liczby języków świata. W referacie spróbuję odpowiedzieć na pytanie, co się zmieniło w sposobie opracowywania słowników tworzonych w tym celu oraz jak radzono sobie z problemem różnorodności językowej i brakiem jedno-jednoznacznych powiązań między wyrażeniami różnych języków. Porównując słowniki, w pierwszej kolejności opiszę ich przeznaczenie i zakładanych adresatów. Następnie przedstawię ich ogólną strukturę, języki uwzględnione w słownikach oraz sposób definiowania języka przez autorów. W kolejnej części omówię zakres i rodzaj rejestrowanych wyrażeń. Ostatnim elementem analizy będzie porównanie budowy artykułów hasłowych oraz typu informacji o wyrażeniach hasłowych zamieszczanej w poszczególnych artykułach. dr hab. Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN), dr Agnieszka Patejuk (Instytut Podstaw Informatyki PAN), dr hab., prof. IPI PAN, prof. UW Adam Przepiórkowski (UW, Instytut Podstaw Informatyki PAN), dr Marcin Woliński (Instytut Podstaw Informatyki PAN) Syntactic information in Walenty (a valency dictionary of Polish) Celem referatu jest prezentacja największego obecnie i najbardziej szczegółowego słownika walencyjnego języka polskiego „Walenty”, ze szczególnym uwzględnieniem jego warstwy składniowej. „Walenty” jest rozwijany przez zespół leksykografów, lingwistów i informatyków w Instytucie Podstaw Informatyki PAN i jest słownikiem swobodnie dostępnym: pod adresem http://walenty.ipipan.waw.pl/ można przeglądać poszczególne hasła słownika, jak i uzyskać dostęp do jego aktualnej wersji tekstowej. „Walenty” zawiera wiele cech nowatorskich w stosunku do innych słowników walencyjnych. Przede wszystkim jawnie zdefiniowane jest w nim pojęcie pozycji składniowej: różne typy fraz zajmują tę samą pozycję, o ile możliwa jest ich koordynacja. Schematy walencyjne, na które takie pozycje składniowe się składają, są przypisane do poszczególnych predykatów (czasowników, przymiotników, przysłówków i rzeczowników) z opcjonalną informacją, że są właściwe tylko dla zanegowanych/ niezanegowanych wystąpień danego predykatu. Jasno oznaczane są pozycje podmiotu i dopełnienia bliższego (argumentu przechodzącego na podmiot w stronie biernej). Wśród wielu typów fraz znajdują się zarówno typy definiowane czysto morfoskładniowo (na przykład fraza rzeczownikowa w narzędniku itp.), jak i typy definiowane ze względu na ich rolę semantyczną (na przykład frazy duratywne czy ablatywne), przy czym dla każdego z takich typów semantycznych zdefiniowana jest lista ich możliwych realizacji morfoskładniowych. W warstwie składniowej słownik nie stroni także od pewnych pojęć wprowadzonych przez podejścia generatywne: oznaczane explicite są przypadki kontroli i podnoszenia, a także 5 przypadek strukturalny (niestabilny składniowo). W kwietniu 2016 kończy się ważny etap rozwoju słownika, zawierającego już prawie 230 tys. pozycji składniowych w ok. 84 tys. schematach walencyjnych dla ponad 15 tys. haseł. prof. Patrick Hanks (Research Institute for Information and Language Processing, University of Wolverhampton) Corpus Pattern Analysis and Lexicography The theme of this year’s Polish lexicography conference is ‘Between theory and practice: methods in contemporary lexicography’. This is a particularly apposite theme at the present time, for many reasons, including the following: – The business model for dictionary publishing has changed. Sales of dictionaries as printed books have collapsed. Typically now, for answers to questions about meaning and usage, people look to electronic resources, ranging from small hand-held devices to large, publicly accessible databases. – The focus of theoretical linguistics has shifted in the past 20 years from syntactic structures to word use and meaning. However, the implications have not yet been fully worked out. – The relationship between word use and word meaning is still not well understood. Despite (or perhaps because of) much intensive work by theoretical linguists and logicians during the past 300 years, the nature of meaning is much disputed. Rival and often incompatible theories of meaning are numerous. What to make of them? – New types of lexicographic evidence (“corpora”) have recently become available in unimaginably large quantities, along with new kinds of tools for examining the way words are used. – New kinds of evidence and new publishing outlets demand new tools and new methods. In this talk, i argue that, in these circumstances, a fundamental new approach needs to be developed, affecting both practical dictionary creation and linguistic theory. Linguistic theory needs to be lexicocentric (rather than syntactocentric), i.e. it should focus on words and phraseology. Dictionaries must present the phraseology that is associated with each word, for only then can its meaning be understood. According to the Theory of Norms and Exploitations (Hanks, 1994, 2004, 2013), a word in isolation has only meaning potential (not meaning as such). To activate meaning, words need to be used – i.e. put into a context. Different aspects of a word’s meaning potential are activated in different contexts. Work in corpus linguistics since 1987 has shown that contexts can be grouped into patterns. The talk explores ways in which this can be done. In addition, it asks: what should be done about utterances that do not conform neatly to any one pattern? dr Celina Heliasz-Nowosielska (Wydział Neofilologii UW) Metody rejestrowania jednostek w słownikach gestów – stan obecny i propozycje W ramach prowadzonych współcześnie prac leksykograficznych rejestruje się i opisuje nie tylko słowa, lecz także gesty. Dostępne rejestry gestów obejmują materiał dotyczący różnych obszarów kulturowych, w których gesty różnią się formą i funkcją, por. np. Gestykulacja 6 i mimika: słownik (1994) Krystyny Jarząbek, Dictionary of Worldwide Gestures (1997) Betty J. Bäuml i Franza H. Bäuml, Picture Dictionary of Gestures. American, Slovak, Japanese and Chinese (2001) Evy Ružičkovej, Neverbalnaja semiotika: jazyk tela i jestestvennyj jazyk (2004) Grigorija Efimoviča Krejdlina czy Keep in Touch – A Dictionary of Contemporary Physical Contact Gestures in the Mid-Atlantic region of the United States (2011) Ulrike Lynn. Przedmiotem refleksji teoretycznej badaczy gestów staje się kwestia delimitacji jednostek opisu zarówno na poziomie komunikacyjnym, por. Antas, Majewska (2006), jak i na poziomie metakomunikacyjnym, por. Karpiński et al. (2010). W swoim referacie omówię metody rejestracji jednostek, stosowane w wybranych istniejących słownikach gestów, a także przedstawię nowe propozycje w zakresie „gestografii” polskiej: metodę identyfikowania emblematów opracowaną przez Agnieszkę Szczepaniak i Tomasza Piekota (2009) i własną metodę klasyfikowania gestów, której podstawę stanowi metapragmatyczna analiza wypowiedzi użytkowników języka, relacjonujących zaobserwowane wykonania gestów. prof. dr hab. Halina Karaś (Instytut Języka Polskiego UW) Trójjęzyczny słownik Konstantego Szyrwida i jego wzory polskie Celem referatu jest przedstawienie okoliczności powstania słownika Konstantego Szyrwida Dictionarium Trium Linguarum in usum studiosae iuventutis, krótka charakterystyka poszczególnych wydań, zwłaszcza I i III, oraz określenie wzorów jego części polskiej. Omawiany słownik polsko-łacińsko-litewski powstał na początku XVII w., a źródłami dwóch jego różnych wydań stały się dwa ważne słowniki w dziejach polskiej leksykografii przełomu XVI i XVII wieku. Pierwsze wydanie słownika z ok. 1620 r. Szyrwid wzorował na części polsko-łacińskiej Polonicolatina słownika Volckmara z roku 1613, a w kolejnych wydaniach (II–V) na słowniku Grzegorza Knapiusza Thesaurus Polonolatinograecus… z 1621 r. Słownik Szyrwida traktowany jest na dwa sposoby. Zgodnie z tradycją bibliograficzną Szyrwid uważany jest za autora jednego słownika Dictionarium trium linguarum…, wydanego w pięciu edycjach, natomiast z leksykograficznego punktu widzenia, biorąc pod uwagę jego źródła, można uważać Szyrwida za autora dwóch różnych słowników, z których I wydanie stanowi pierwszy słownik, a pozostałe (II–V) wydania – drugi, późniejszy słownik. Wydanie I słownika z roku 1620 zawiera ok. 8260 artykułów hasłowych, a wydanie III z r. 1642, opublikowane po śmierci autora, obszerniejsze, ok. 14 580 haseł. Słownik Szyrwida w części polskiej nie jest oryginalny. Wyraźnie jest zależny od swych źródeł w doborze haseł, w ich definiowaniu, w podawaniu informacji gramatycznej, w stosowaniu kwalifikatorów, a pewne różnice wynikają przede wszystkim z pominięcia niektórych wyrazów czy informacji zawartych w jego wzorach. Słownik Szyrwida odegrał wyjątkowo ważną rolę w Wielkim Księstwie Litewskim jako pierwszy słownik zawierający część litewskojęzyczną. Mniej istotny dla leksykografii polskiej dokumentuje jednak ważny dla obu narodów – polskiego i litewskiego, istotny dla historii kultury i historii społeczno-politycznej okres wspólnego rozwoju w obrębie jednego organizmu państwowego: Rzeczypospolitej Obojga Narodów. dr Boris Kern (Filozofska fakulteta Univerze v Ljubljani) Zmiany społeczne a leksykografia Celem referatu jest próba zbadania, w jaki sposób zmiany społeczne odzwierciedlają się w słownikach. Słowniki są swoistymi dokumentami czasu, w którym powstały, i pod tym 7 względem odzwierciedlają ten czas, jak również wówczas istniejące w świadomości społecznej pewne normy czy poglądy. Szczególny nacisk zostanie położony też na rozważania na temat tego, w jakiej mierze i w jaki sposób we współczesnej leksykografii powinna być brana pod uwagę poprawność polityczna. To zjawisko pojawia się zwłaszcza w kontekście leksemów określających członków różnych narodów, grup religijnych, zwolenników partii politycznych, a także leksemów dotyczących seksualności, tożsamości seksualnej i płciowej itd. Zmiany dotyczące postrzegania i relacji człowieka względem rzeczywistości pozajęzykowej dotyczą również np. stosunku do zwierząt: jeżeli stare słowniki opisywały zwierzęta – przede wszystkim bydło, drób, owce itd. – z punktu widzenia użyteczności ich mięsa i futra, to nowsze koncentrują się na opisie ich cech zewnętrznych. Przed leksykografem stoi zatem trudne zadanie balansowania pomiędzy wiernością danym zawartym w korpusach a świadomością potrzeby brania pod uwagę poprawności politycznej. W referacie analizowane będą leksemy i ich sposoby przedstawienia w wybranych słownikach różnych języków (słoweńskiego, polskiego, chorwackiego, rosyjskiego, angielskiego i niemieckiego). mgr Magdalena Klapper (Instytut Języka Polskiego PAN), dr Dorota Kołodziej (Instytut Języka Polskiego PAN) Z zagadnień mikrostruktury Słownika staropolskiego – teksty i glosy paralelne jako ilustracja materiałowa haseł W kanonie źródeł Słownika staropolskiego i jego Suplementu, cz. 1, ważne miejsce zajmują teksty zachowane w więcej niż jednym odpisie (np. modlitwy, pieśni czy teksty prawne). Ilustracja materiałowa wyrazu hasłowego uwzględnia wykaz jego wariantów leksykalnych pochodzących z poszczególnych odpisów w rękopisach i inkunabułach. Podobnie są prezentowane różne polskie tłumaczenia tego samego fragmentu Pisma Świętego, zapisane w tekstach ciągłych i w postaci glos. Zamieszczenie tych informacji zwiększa użyteczność słownika, ale jest też poważnym problemem edytorskim. Odnajdywanie glos polskich w kolejnych, nieprzebadanych dotąd rękopisach powoduje przyrost materiału, co wymusza włączanie coraz dłuższych wykazów wariantów do ilustracji materiałowej opracowywanych aktualnie haseł. Niestety, uzupełnianie tych wykazów w hasłach już opublikowanych jest możliwe tylko w postaci niewygodnej w użyciu erraty. Obniża to czytelność Słownika i utrudnia jego cytowanie. W referacie przybliżymy charakterystykę tekstów paralelnych. Przeanalizujemy stosowany dotychczas system uwzględniania wariantów leksykalnych w poświadczeniach materiałowych haseł i omówimy jego ograniczenia. Pokażemy też, jakie możliwości prezentacji wariantów leksykalnych będzie dawała projektowana elektroniczna edycja Słownika staropolskiego. Pragniemy podkreślić, że pojęcie wariantu leksykalnego nie jest tożsame z synonimem. Po objaśnieniu tego rozróżnienia wskażemy jako perspektywę badawczą możliwość wzbogacenia struktury haseł Elektronicznego słownika staropolskiego o listy synonimów, których nie ma w edycji drukowanej. Prof. Svetla Koeva (Institute for Bulgarian Language, Sofia) The Dictionary Portal LexIt Several Bulgarian resources developed at the Institute for Bulgarian Language have been integrated and made accessible via the web portal LexIt providing access to an extensive lexicographic database. The Dictionary portal LexIt links the following resources [1]: 8 1) the Dictionary of Bulgarian, totalling so far in 15 consecutive volumes with thesaurus information (from letter А to letter Р) Cholakova 2010) [2]; 2) the Bulgarian WordNet (Koeva 2010), containing over 120,000 synsets interconnected through a rich set of semantic, morpho-semantic, derivational and extralinguistic relations (a total of over 256,000 links) [3]; 3) Grammatical Dictionary of Bulgarian, representing the inflexional paradigms of app. 70,000 words [4]; 4) the Dictionary of Old Bulgarian, representing the vocabulary of classical Old Bulgarian (Ivanova-Mircheva et al. 1999; 2009) [5]. The user can select among the four dictionaries to search for a word. From the Grammatical Dictionary of Bulgarian all word forms of the queried word are displayed with information about their grammatical characteristics. The lemma of the queried word also links to any of the other resources it appears in: the Dictionary of Bulgarian, the Bulgarian WordNet and the Dictionary of Old Bulgarian. At the first stage, the link redirects to one of the other dictionaries. At next stages, the information will be presented directly to the user and in certain cases it may be different from the source information. The lemmas from the four dictionaries have been already linked. Further, from the portal there are links to the Online Language Consultations Guide, [6] the Facebook Language Consultations page [7] and an online interactive language game (testing knowledge from various areas of the Bulgarian language). References [1] http://ibl.bas.bg/dictionary_portal/ [2] http://ibl.bas.bg/rbe/ [3] http://dcl.bas.bg/bulnet/ [4] http://dcl.bas.bg/est/dict.php [5] http://dcl.bas.bg/lib/Starobalgarski_rechnik_tom1/ [6] http://ibl.bas.bg/ezikovi_spravki/ [7] https://www.facebook.com/ezikovi.spravki/ dr Dorota Kopcińska (Instytut Języka Polskiego UW) Leksykografia jako przedmiot nauczania akademickiego w dobie e-leksykografii W swoim referacie zamierzam rozważyć, co powinno się współcześnie znajdować w programie uniwersyteckich zajęć o nazwie „leksykografia” prowadzonych na kierunkach filologicznych, w szczególności na filologii polskiej. Bezpośredni impuls do tych przemyśleń dała reorganizacja programu studiów polonistycznych na UW, w wyniku której zdecydowano o przeniesieniu przedmiotu „leksykografia” z pierwszego roku studiów licencjackich na pierwszy rok studiów magisterskich. Jednak niezależnie od tych czynników zewnętrznych (programowych), każdy dydaktyk w sytuacji, kiedy na jego oczach całkowicie zmienia się kształt dzieł będących przedmiotem wykładu, zdaje sobie sprawę z potrzeby przebudowania zajęć, jeśli nie chce prowadzić faktycznie „historii leksykografii”. Dlatego w referacie chcę mówić o tych elementach współczesnego słownikarstwa, które sprawiają, że świadomy użytkownik słowników musi wiedzieć o nich trochę co innego niż jego poprzednik z czasów dominacji słowników, które ukazywały się wyłącznie na papierze. W propozycji nowego programu uwzględnię przykładowo kwestię uświadamiania użytkownikom możliwości, jakie dali im twórcy elektronicznych pansłowników. 9 mgr Mirosław Koziarski (Wydział Neofilologii UAM) Polska leksyka tematyczna. Problemy digitalizacyjne i sposoby rekonstrukcji struktury hasłowej słowników pierwszej połowy XX w. Badania leksyki tematycznej pierwszej połowy XX wieku zobowiązują do podjęcia dobrego rozpoznania w zakresie dotychczasowego dorobku leksykograficznego. W referacie zostaną zatem pokrótce poruszone kwestie wynikające z procedury doboru korpusu słowników, które chcemy analizować, natomiast w głównej mierze omówione będą główne problemy, które napotkano w trakcie digitalizacji, ekstrakcji oraz ubazodanawiania materiału leksykalnego. Wspomniane procedury wymagają wypracowania wyjątkowych metod oraz narzędzi informatycznych, z pomocą których problemy te zostają rozwiązywane. Na poszczególnych przykładach konkretnych słowników zamierzamy zaprezentować różnorodne struktury leksykonów jednojęzycznych i wielojęzycznych. Specyfika tych źródeł, wynikająca z braku ustandaryzowanej struktury oraz notacji informacji leksykograficznej, wymusza bowiem odpowiednie scenariusze badawcze. W podsumowaniu zamierzamy omówić cel naszej pracy, tj. zbudowanie ujednoliconego korpusu składającego się z ok. 50–100 słowników tematycznych w celu obserwacji słownictwa tematycznego okresu 1918–1939. Okres II Rzeczpospolitej to czas ożywionego rozwoju słownictwa specjalistycznego związanego z takimi dziedzinami, jak: chemia, fizyka, matematyka, filozofia, historia, sztuka, architektura itd. Podsumowanie zatem tematyczne tego okresu przez pryzmat słownictwa specjalistycznego jest głównym celem wspomnianych prac. dr Ewa Kozioł-Chrzanowska (Instytut Języka Polskiego PAN) Obrazy Google – możliwości i ograniczenia narzędzia jako źródła informacji dla leksykografów redagujących definicje słownikowe W dobie postępujących zmian warsztatu leksykograficznego, w którym coraz ważniejszą rolę odgrywają szeroko rozumiane zasoby cyfrowe, pojawiają się coraz nowsze możliwości pozyskiwania informacji wspomagających pracę badaczy redagujących definicje słownikowe. Jedną z tych możliwości jest korzystanie z wyszukiwarki obrazów udostępnianej przez Google (Obrazy Google). Referat zawiera analizę informacji, które leksykograf może pozyskać ze źródeł tekstowych (korpusy, internet, akademickie i amatorskie portale poświęcone polszczyźnie) i graficznych (Obrazy Google). Analiza ta służy prezentacji wad i zalet wyszukiwania prowadzonego za pomocą Obrazów Google (w stosunku do bardziej tradycyjnych źródeł tekstowych); pokazuje również grupy jednostek i ich znaczeń, w odniesieniu do których metoda ta jest najbardziej efektywna (np. znaczenia nieabstrakcyjne i nieprzenośne, słownictwo wyróżniające w socjolektach), oraz typy definicji, w których informacje graficzne bywają przydatne (np. ostensywne, kognitywne). dr Tomasz Kurdyła (UJ) O potrzebie, możliwościach i trudnościach gwarowego słownika gniazd słowotwórczych Referat poświęcony będzie zagadnieniom gwarowego słowotwórstwa gniazdowego, które można prezentować w postaci słownika gniazd słowotwórczych. Autor referatu zamierza uzasadnić potrzebę takiego opracowania, przedstawić możliwości wykorzystania planowanego 10 słownika w badaniach słowotwórczych oraz omówić podstawowe trudności wynikające ze specyfiki gwarowego materiału słowotwórczego, związane z konstruowaniem gniazd słowotwórczych oraz ich prezentacją w formie słownika. dr Anna Ledzińska (Instytut Języka Polskiego PAN) Sanctus vir sed non femina. Badanie łączliwości wyrazów desygnujących świętość w oparciu o „Korpus polskiej hagiografii średniowiecznej” Przedmiotem proponowanego wystąpienia jest semantyka i łączliwość łacińskich przymiotników odnoszących się do świętości, w kontekście osób, którym te określenia są przypisywane. Badania te prowadzone są w oparciu o „Korpus średniowiecznej hagiografii polskiej”. Referat podzielony jest na kilka punktów: 1. Rozwój znaczenia przymiotnika sanctus i pokrewnych (beatus, divus etc.) można obserwować w wybranych słownikach łaciny klasycznej i średniowiecznej. 2. Analiza wyżej wspomnianego materiału leksykograficznego wykazuje, że samo znaczenie ulegało nieznacznym tylko modyfikacjom, natomiast zmieniała się z czasem łączliwość wyrazów, pojawiają się też nowe kolokacje. I właśnie w zakresie znaczenia rozumianego kontekstowo, a także wielowyrazowych jednostek leksykalnych najwięcej wnieść mogą badania korpusowe, dając szansę tak jakościowego jak ilościowego opisu zjawisk nieujętych lub rzadko tylko ujmowanych w tradycyjnym opisie leksykograficznym. 3. „Korpus polskiej hagiografii średniowiecznej” to zbiór łacińskich tekstów Vitarum, Translationum oraz Miraculorum powstałych w latach 500–1500 na szeroko rozumianych ziemiach polskich i dotyczących świętych z tymi ziemiami związanych. Korpus docelowo obejmował będzie około 500 tys. wyrazów (trwa akwizycja tekstów). Struktura i metadane kodowane są w XML zgodnie ze specyfikacją TEI, zaś dane morfosyntaktyczne anotowane są przy pomocy narzędzia TreeTagger. Zastosowanie takiego systemu anotacji umożliwia analizę statystyczną z zastosowaniem choćby takich programów jak TXM. 4. Wstępne wyniki badań wskazują na istnienie kilku ciekawych zjawisk, z których najwiekszą uwagę zwraca zróżnicowanie opisu świętych kobiet i świętych mężczyzn. O ile bowiem ci drudzy określani są np. zleksykalizowaną zbitką sanctus/beatus vir, o tyle w przypadku kobiet określenie sancta/sanctissima virgo zarezerwowane jest dla Matki Boskiej, zaś inne połączenia zawierające rzeczowniki mulier, femina itp. oraz przymiotniki desygnujące świętość używane są rzadziej i w wiekszej ilości wariantów, częstokroć wzbogaconych o inne określenia. Wybrane pozycje bibliograficzne Heiden, S., Magué, J.-P., Pincemin, B. (2010). TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement. The 10th International Conference on the Statistical Analysis of Textual Data – JADT 2010. Edizioni Universitarie di Lettere Economia Diritto, pp. 1021– 1032. McEnery, T., Xiao, R., Tono, Y. (2006). Corpus-based Language Studies: An Advanced Resource Book. Taylor & Francis. Piotrowski, M. (2012). Natural Language Processing for Historical Texts. Morgan & Claypool Publishers. Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. In Proceedings of International Conference on New Methods in Language Processing. Manchester, pp. 44–49. Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford University Press. 11 Sinclair, J. (2003). Reading concordances : an introduction. Pearson/Longman, New York. Starnawski, J. (1993). Drogi rozwojowe hagiografii polskiej i łacińskiej w wiekach średnich. Polskie Towarzystwo Teologiczne, Kraków. Stubbs, M. (2001). Words and Phrases: Corpus Studies of Lexical Semantics. Wiley-Blackwell. Dr. Veronika Lipp (Hungarian Academy of Sciences, Budapest) The Comprehensive Dictionary of Hungarian Nowadays in Hungary the most significant on-going lexicographic enterprise focuses on the Comprehensive Dictionary of Hungarian (A magyar nyelv nagyszótára, abbr. Nszt.). The dictionary will principally contain the vocabulary of the Hungarian literary and common language, and, to a lesser extent, that of other language varieties (dialects, technical terminologies, slang etc.), by processing data from the time of the language reform (beginning of the 19th century) up to the present day. It is based on the electronic Hungarian Historical Corpus (http://www.nytud.hu/hhc/), containing 27 million running words, as well as on the archive of 6 million dictionary notes, and on other texts from CD-ROMs (this collection consists of more than 335 million words). The compilation of the list of the headwords as well as the grammatical and semantic description of the lexemes is based on corpus evidence. Using synonymic interpretation in a strictly controlled way (in addition to paraphrasing-explaining interpretation), Nszt. also functions as a synonymic dictionary to some extent. Nszt. applies four methods in the lexicographical description: grammatical analysis, usage indications, semantic analysis (meaning structure with definitions), and examples (Ittzés, N. 2012, pp. 36–40). The dictionary is encoded in XML format, and will appear in both printed and electronic form. The first five volumes have been published so far. References [Nszt.] Ittzés, N. (2006−2013). Comprehensive Dictionary of Hungarian I−V. (A magyar nyelv nagyszótára), Budapest: MTA Nyelvtudományi Intézet. Ittzés, N. (2012). The Comprehensive Dictionary of Hungarian. In Fábián, Zs. (Ed.), Hungarian lexicography II. Monolingual and special dictionaries. Lexikográfiai füzetek 6. (pp. 31–43), Budapest: Akadémiai Kiadó. dr Anetta Luto-Kamińska (Instytut Badań Literackich PAN) Źródła wiedzy językowej (tekst – korpus – słownik) W bieżącym roku mija 60 lat od ukazania się Zeszytu próbnego Słownika polszczyzny XVI wieku oraz 50 – od wydania jego pierwszego tomu. Obie te rocznice skłaniają do refleksji nad początkowym i obecnym kształtem słownika, nad jego miejscem w nauce polskiej pół wieku temu i dziś, jak również nad jego rolą w obliczu nowych możliwości, jakich dostarczają współczesne media i technika. Dzięki rozwojowi bibliotek cyfrowych badacze zyskują nieograniczony wręcz dostęp do oryginalnych tekstów dawnych w postaci bardzo dobrych jakościowo skanów. W momencie, gdy krystalizowała się koncepcja Słownika polszczyzny XVI wieku, o podobnych możliwościach nie można było nawet marzyć – dotarcie do tekstów źródłowych wiązało się z koniecznością czasochłonnych kwerend bibliotecznych, nie mówiąc już o zupełnie ograniczonej możności kolacjonowania różnych egzemplarzy starodruków bądź rękopisów. Drugim przełomowym osiągnięciem naszych czasów jest dostęp do obszernych 12 korpusów tekstowych. Dla języka współczesnego mamy do dyspozycji Narodowy Korpus Języka Polskiego, dla badaczy polszczyzny wieku XVI podobnym narzędziem będzie korpus tekstów z tego okresu. W referacie skupię się nie tyle na przedstawieniu wymienionych w tytule źródeł wiedzy językowej (ograniczonych tu do wieku XVI), ile na stosunku słownika do dwu pozostałych oraz na wskazaniu jego roli w badaniach historycznojęzykowych w obliczu owych nowych możliwości. dr Marek Łukasik (Akademia Pomorska w Słupsku) Electronic Specialised Dictionaries in Poland: Desiderata and Reality In a number of metalexicographic considerations their authors emphasise the need to develop electronic dictionaries as sources that are best tailored to the needs of potential users. Researchers of specialised (terminological/LSP) dictionaries speak in the same vein, additionally underscoring the hypothesised high effectiveness of such works in professional knowledge representation and transfer. Some of them put forward elaborate e-dictionary models and have theorised about their usefulness. Unfortunately, most of the desiderata remain unfulfilled. This concerns both the electronic dictionary structures, their content, as well as terminographic output of such works, i.e. the number of e-dictionaries published so far in Poland. The author of this presentation conducted a terminographic analysis of specialised dictionaries with English and Polish, published in Poland between 1945 and 2013. According to the study, there were no more than a few dozen electronic terminological dictionaries published throughout the period, which sharply contrasts with more than 1,200 traditional (i.e. book form) dictionaries published in the same period. Additionally, the former do not match the expectations of the theoreticians: they fail to present the terminological data in an innovative manner and do not implement the possibilities modern computer technology offers. The presentation will focus on the results of terminographic analysis and evaluation of selected electronic specialised dictionaries, in light of some desiderata, and against the background of traditional terminographic works. dr Agnieszka Małocha-Krupa (Instytut Filologii Polskiej UWr) Opis leksykograficzny feminatywum. (Nie)możliwości zobiektywizowania Na wrocławskiej polonistyce powstał niedawno Słownik nazw żeńskich polszczyzny będący pierwszą publikacją leksykograficzną, która rejestruje wyłącznie feminatywa – materiał leksykalny żywo dyskutowany w dyskursie publicznym i naukowym, uwikłany w zróżnicowane spory ideologiczno-polityczne, budzący emocje wśród podmiotów komunikujących, toteż niełatwo poddający się zobiektywizowanemu opisowi. Autorka referatu, będąca współtwórczynią oraz redaktorką Słownika, przedstawi niektóre z założeń metody słownikowej, szczególnie te, które w dotychczasowej praktyce leksykograficznej stanowią novum, wynikające w sposób konieczny z samej natury nazw feminatywnych (metoda dyskursocentryczna, rozumienie potoczności). Opowie o trudnościach warsztatowych, jakich dostarczał materiał leksykalny, oraz o tym, co dla leksykografa wydaje się równie ciekawe – odbiorze społecznym, medialnym Słownika po jego publikacji. Refleksje wokółfeminatywne nasuwają też pytania natury ogólnej, pytania o układy niby-dychotomiczne: między słownikową rejestracją a kodyfikacją, między deskrypcją a preskrypcją oraz wizją leksykografii w tym zakresie. 13 dr hab., prof. UKSW Piotr Müldner-Nieckowski (UKSW), dr n. med. Łukasz MüldnerNieckowski (UJ) Wielki słownik frazeologiczny języka polskiego w Internecie. Zagadnienia naukowe, techniczne i organizacyjne Wydanie książkowe Wielkiego słownika frazeologicznego języka polskiego ukazało się w 2003 r. Słownik zawierał dużo, bo ok. 200 tys. jednostek języka skondensowanych w 38 tys. artykułów hasłowych, co wymagało jego opracowania informatycznego. Referat omawia problemy, które pojawiły się w związku z zanikiem możliwości drukowania następnych wydań słownika po 2005 r., co wymusiło zastosowanie nowych metod leksykograficznych (ze szczególnym uwzględnieniem frazeologii). Przeniesiono bazę danych słownika do Internetu, tworząc słownik on-line do celów użytkowych i jednocześnie badawczych. Uruchomiono forum Frazeologia.pl, na którym korespondowano z użytkownikami słownika i osobami poszukującymi informacji frazeologicznych, w tym także z pracownikami nauki. M.in. w ten sposób przez kilka lat zbierano informacje co do oczekiwań użytkowników słownika, zarówno jego wersji pedagogicznej, jak i naukowej. Słownik udostępniono internautom w postaci klasycznej w roku 2010. Część badawczo-robocza jest dostępna jedynie dla autorów słownika i współpracowników. Dużym problemem ze względu na nieciągłość fraz w linii tekstu, fleksję, alternację i supletywizm było tworzenie algorytmu przeszukiwania bazy, zestawiania form wielowyrazowych i ich grup według różnych kryteriów. W związku ze specyfiką frazeologii konieczne okazało się budowanie własnego korpusu cytatów gromadzonych fotoleksykograficznie (wraz z OCR), audiograficznie, metodą przenieś-kopiuj-wklej, a także opracowanie metod oceny przydatności ekscerptów. Obsługa bazy powinna umożliwiać aktualizowanie słownika na różnych poziomach akceptacji, zestawianie haseł według dobieranych parametrów, wydzielanie baz chwilowych, wprowadzanie nowych pól w rekordach jednostek hasłowych i wypełnianie ich treścią (np. dodawanie nowych parametrów eksplikacji), tworzenie grafów semantycznych, zestawianie wariantów, indeksowanie, generowanie kodu drukarskiego dla różnych systemów publikowania, a także dla słowników o różnym przeznaczeniu, wreszcie zdalne badanie frazeologizmów zawartych w bazie oraz prowadzenie bieżących prac nad słownikiem. dr Krzysztof Nowak (Instytut Języka Polskiego PAN) Norma i anomalia w leksykograficznym opisie łaciny średniowiecznej a metody korpusowe Jak średniowiecze bywało w historiografii uważane za epokę intelektualnego regresu, tak i używana podówczas na terenie całej Europy łacina bywała określana mianem „ciemnej” czy „zepsutej”. Ta metafora, choć wywodzi się z polemicznych pism miłośników czystości klasycznego języka Cycerona, zaciążyła poniekąd również na dyskursie naukowym i badaniach łaciny średniowiecznej, w tym na jej opisie słownikowym. Upowszechnienie się metod korpusowych pozwala mieć nadzieję, że ostatecznie uda się rozprawić z „dialektyką normy i anomalii” (Stotz 2002), jaka charakteryzuje leksykografię łaciny średniowiecznej, ale – choć analiza konkordancji jest od wieków podstawowym modus analizy filologicznej (Geeraerts 2009) – recepcja owych metod jest wciąż w mediolatynistyce niedostateczna. W pierwszej części referatu przedstawi się te elementy opisu, które w słownikach łaciny średniowiecznej są szczególnie uwikłane we wspomnianą antynomię. Przyjęcie za podstawę języka wcześniejszych o stulecia starożytnych dzieł literackich wysokiego rejestru sprawia choćby, że słowniki często 14 ograniczają się do rejestrowania zjawisk językowych poświadczonych wyłącznie w średniowieczu, a ich opis cechuje daleko posunięty preskryptywizm oraz zaburzenie proporcji między zjawiskami standardowymi i rzadkimi. W drugiej części referatu, odwołując się do przykładów ze słowników tak polskich, jak i europejskich, przedstawia się korzyści, jakie leksykografia mediolatynistyczna mogłaby odnieść, stosując na szerszą skalę metody korpusowe. Szczególną uwagę przy tym zwraca się na możliwość lepszego ujęcia użyć pozastandardowych oraz zniuansowanie opisu łączliwości i dystrybucji leksemów w tekstach średniowiecza. prof. dr hab. Tadeusz Piotrowski (Wyższa Szkoła Filologiczna we Wrocławiu) Nietradycyjne słowniki współczesne Na podstawie dostępnych statystyk można uznać, że dla większości potencjalnych użytkowników, zwłaszcza młodych, słowniki papierowe dla nieprofesjonalistów (językoznawców) w zasadzie już nie istnieją. Wypierają je słowniki elektroniczne, zainstalowane na jednym urządzeniu lub internetowe. Niektóre z nich powielają wzory znane z tradycyjnych dzieł, a także ich zawartość, jednak są i takie, które się wyraźnie odróżniają. W referacie przedstawię przegląd słowników nietradycyjnych, przede wszystkim takich, które są używane w urządzeniach mobilnych, czyli telefonach lub tabletach, zwracając uwagę na rozwiązania nietradycyjne. Będę posługiwał się dostępnymi statystykami na temat używalności aplikacji na urządzenia mobilne, a także popularności słowników na podstawie danymi ze sklepów oferujących takie programy (takich jak play.google.com). Przedstawię słowniki, które mogą zastąpić tradycyjne dzieła leksykograficzne, zgodnie z potrzebami ich użytkowników opisanymi w literaturze, jak sprawdzanie formy jednostki języka oraz określenie jego znaczenia (to ostatnie obejmuje możliwości jego przetłumaczenia z języka polskiego na język obcy lub odwrotnie), korelując opisy słowników z danymi statystycznymi. dr Mirosława Podhajecka (UO) Słownik Jana Józefa Baranowskiego w świetle jego korespondencji: między teorią a praktyką W badaniach nad XIX-wieczną historią leksykografii polsko-angielskiej i angielsko-polskiej rzadko można odwołać się do korespondencji. Słownikarze albo nie pozostawili po sobie żadnych listów (np. Władysław Kierst), albo nie dotyczą one działalności stricte leksykograficznej (np. Krystyn Lach-Szyrma). Jan Józef Baranowski, autor Anglo-Polish lexicon (1883) i Słownika polsko-angielskiego (1884), jest pod tym względem szczególnym wyjątkiem. Jego korespondencja jest nie tylko bogata, ale stanowi wręcz drobiazgowy opis procesu tworzenia słownika. W referacie omawia się fragmenty listów Baranowskiego, aby skonfrontować je z zawartością obu tomów słownika. Był on przeznaczony dla „Anglików chcących się jako tako rozmówić z Polakami” (Baranowski 1881) oraz „Polaków, aby się uczyli języka angielskiego i wymawiali wyrazy z właściwym akcentem” (Baranowski 1883). Od innych opracowań wyróżniała go jednak ‒ zdaniem autora ‒ nowatorska koncepcja. Jedynym materiałem źródłowym był dla Baranowskiego słownik Rykaczewskiego (1849‒1851), być może wydanie pod nazwiskiem Chodźki (1874), a jedyną innowację stanowił system transkrypcji. Ponieważ wymową opatrzone są ekwiwalenty, nie wyrazy hasłowe, Słownik polsko-angielski można uznać za pierwszy słownik aktywny dla Polaków, a Anglo-Polish 15 lexicon ‒ dla użytkowników anglojęzycznych. Mimo iż Baranowski dokładał starań, aby wypromować swoje dzieło, braki metodologiczne i warsztatowe znacząco obniżyły jego atrakcyjność w oczach użytkowników. Bibliografia Baranowski, Jan Józef (1883‒1884). Anglo-Polish lexicon / Słownik polsko-angielski. T. 1‒2. Warszawa: Lesman i Świszczewski. Listy Baranowskiego Jana Józefa [1879‒1884]. Pozyskano z http://www.wbc.poznan.pl/. [Rykaczewski, Erazm] (1849‒1851). A complete dictionary English and Polish ... / Dokładny słownik polsko-angielski i angielsko-polski ... T. 1‒2. Berlin: B. Behr. [Rykaczewski, Erazm] (1874). Alex. Chodźko’s a complete dictionary English and Polish ... / Chodzki Alexandra dokładny słownik polsko-angielski i angielsko-polski ... T. 1‒2. Berlin: B. Behr. dr Patrycja Potoniec (Instytut Badań Literackich PAN, Pracownia Słownika Polszczyzny XVI wieku) Słownik polszczyzny XVI wieku – trwanie i zmiana Słownik polszczyzny XVI wieku reprezentuje pomnikowe założenie polskiej leksykografii XX wieku oparte na tradycyjnych metodach leksykograficznych. Kultywuje się w nim przygotowane na wstępie założenia metodologiczne, dążąc do uzyskania jednolitości opracowania analizowanego materiału. Rozwój nauki, praca z bardzo zróżnicowanym materiałem językowym, przemiana pokoleń w zespole redakcyjnym wymuszają jednak zmiany, które odzwierciedlają się w hasłach, często w sposób trudno uchwytny dla użytkowników Słownika. Wkraczanie nowych technologii do leksykografii pociąga za sobą zmiany bardziej uchwytne, choć z punktu widzenia twórców Słownika ograniczone do zabiegów technicznych. Celem wystąpienia jest prezentacja zmian, jakie zaszły przez 50 lat publikacji kolejnych tomów Słownika – w metodach pracy, sposobach prezentacji wyników, lecz przede wszystkim w pozornie nienaruszalnych założeniach metodologicznych, co odzwierciedla się w kształcie haseł słownikowych. Przedstawione zostaną zmiany w typowych artykułach hasłowych i unikatowe rozwiązania zastosowane w wypadkach szczególnych. Podjęta zostanie także próba analizy, w jaki sposób przemiana technologiczna (m.in. otwierająca zupełnie nowe drogi i sposoby publikacji) wpłynęła na zmianę Słownika. dr hab., prof. IPI PAN, prof. UW Adam Przepiórkowski (Instytut Filozofii UW, Instytut Podstaw Informatyki PAN) From valency dictionaries to dependency dictionaries Valency dictionaries, as well as some general dictionaries, provide information about some of the dependents of lexemes, namely those that a given team of lexicographers considers to be arguments. The aim of this presentation is twofold. On a destructive note, I will argue against the scientific foundations of such valency dictionaries, by showing that the argument–adjunct dichotomy (AAD) on which such dictionaries rely is as vague today as it was in the times of Tesnière (1959), who proposed three mutually inconsistent tests for distinguishing arguments (his actants) from adjuncts (his circumstants). By contrast, on a constructive note, I will argue for a new approach to such dictionaries, one where all possible dependent types are represented. Such a proposal raises two immediate questions: 1) is such an approach worthwhile?, and 2) is it even possible? 16 Ad 1. The immediate objection is that some types of dependents are deemed to apply to all predicates of a given grammatical class (e.g. to all verbs), so it is not economical to mention them next to each lexeme. This objection rests on the assumption that has never, to the best of our knowledge, been verified. In fact, there are reasons to believe that while sets of possible heads of various dependent types vary widely, hardly any dependent type may be headed by all possible lexemes of a given class – relevant results and literature will be cited in the presentation. Ad 2. As shown e.g. in Praguian work on valency and treebanks, the number of possible dependent types of reasonable granularity is finite and relatively small (around 40), so a dependency dictionary may be approximated with a table whose rows are lexemes and whose columns are dependency types. As natural language processing tools may be used to identify many dependency types in corpora with a great deal of confidence, the role of human lexicographers could be limited to those cells of the table for which there is no sufficient corpus evidence. In summary, I will try to show that replacing valency dictionaries with full-fledged dependency dictionaries is both scientifically desirable and practically feasible. Ewa Rudnicka (Wrocław University of Technology), Łukasz Grabowski (UO), Maciej Piasecki (Wrocław University of Technology), prof. dr hab. Tadeusz Piotrowski (Wyższa Szkoła Filologiczna we Wrocławiu) Between a dictionary and a lexical resource – the case of enWordNet 1.0 In this paper, we will present the methods of construction of a unique Polish-English lexical resource, enWordNet 1.0, as well as the plans for its future development and possible applications in bilingual lexicography. enWordNet 1.0 was built through manual linking of two large lexical databases, that is plWordNet for Polish (cf. Piasecki et al. 2009, Rudnicka et al. 2012) and Princeton WordNet for English (cf. Fellbaum 1998). Wordnets resemble hybrid electronic dictionaries in that they encompass a monolingual dictionary, theasaurus and lexicosemantic network. plWordNet and Princeton Wordnet contain two types of entries, namely lexical units (i.e. lemma sense pairs) and synsets (i.e. sets of synonymous lexical units). Currently, the inter-lingual linking between the Polish and English wordnets was implemented on the level of synsets. In a new project, we aim to develop the methodology that would allow to link the two wordnets on the level of lexical units. At this point, we argue that this aim cannot be achieved without reference to the concept of equivalence (cf. Piotrowski 1994, Svensen 2009, Adamska-Sałaciak 2014), notably in view of the fact that so far the research on the status of equivalents in bilingual wordnets has been scarce (cf. Rudnicka et al. 2016). Therefore, in order to operationalize the concept of equivalence for the purposes of mapping the Polish and English wordnets, we attempt to explore the types of equivalents found in the two wordnets and to discuss their potential practical application for bilingual lexicography. References Adamska-Salaciak, A. (2014). Bilingual Lexicography: Translation Dictionaries. In International Handbook of Modern Lexis and Lexicography. Springer-Verlag Berlin Heildelberg. Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Press: Cambridge, Massachusetts. Piasecki, M., Szpakowicz, S. and Broda, B. (2009). A Wordnet from the Ground Up. Oficyna Wydawnicza Politechniki Wrocławskiej: Wrocław. 17 Piotrowski, T. (1994). Problems in Bilingual Lexicography. Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego. Rudnicka, E., Maziarz, M., Piasecki, M., Szpakowicz, S. (2012). A Strategy of Mapping Polish WordNet onto Princeton WordNet. In Proceedings of COLING 2012. ACL. Rudnicka, E., Witkowski, W., Grabowski, Ł. (2016). Towards a methodology for filtering out gaps and mismatches across wordnets: the case of noun synsets in plWordNet and PrincetonWordNet. In Proceedings of the 8th International Global WordNet Conference 2016, 27–30 Jan 2016, Bucharest, Romania, pp. 344-351. Svensen, B. (2009). A Handbook of Lexicography. The Theory and Practice of Dictionary-Making. Cambridge: Cambridge University Press. dr Ewa Rudnicka („Artes Liberales”, UW) Kategoria stylu w badaniach metaleksykograficznych Celem referatu jest z jednej strony pokazanie, że można mówić o stylu w leksykografii, i określenie elementów stylu w opracowaniach słownikowych, z drugiej zaś – refleksja nad kilkoma aspektami wiążącymi się ze swoistą sytuacją komunikacyjną w wypadku opracowań leksykograficznych, a determinującymi przejawy stylu w tych opracowaniach. Wychodząc z założenia, że słowniki są tekstami, zgodnie z duchem współczesnej tekstologii chciałabym zaproponować rozważenie wprowadzenia do badań metaleksykograficznych kategorii stylu, mimo tego że słowniki jako opracowania użytkowe wydają się pozbawione znamion indywidualizacji stylowej. W dotychczasowych zresztą badaniach na polskim gruncie słowniki jako materiał językowy stanowiący podstawę do badań stylistycznych nie były brane pod uwagę. Wydaje się natomiast, że zagadnienie to jest nie tylko ciekawe, lecz także niebagatelne poznawczo. Traktowanie słowników jako tekstów kultury wiąże się z tekstologicznym i semiotyczno-kulturowym podejściem do kategorii stylu. Nawiązując do ujęcia Jerzego Bartmińskiego, chciałabym rozważyć, co składałoby się na styl w wypadku słowników, i na wybranych przykładach pokazać, jak wartości stylu i eksponenty stylu uwidaczniają się w opracowaniach leksykograficznych, co z kolei pozwala zastanowić się nad czynnikami determinującymi style w leksykografii. Kluczowa jednak przy tym wszystkim będzie próba odpowiedzi na pytanie o zasadność wprowadzania kategorii stylu do badań metaleksykograficznych. dr Martyna Sabała (Instytut Języka Polskiego UW) Neologizmy w socjolekcie studentów Uniwersytetu leksykograficzna Warszawskiego. Analiza Zdaniem Aleksandra Wilkonia warunkiem istnienia socjolektu jest m.in. „istnienie środowiska społecznego, którego członkowie powiązani są silnymi więziami wewnątrzgrupowymi […]; względna stabilność grupy; część kontaktów członków grupy nie ograniczona tylko do kontaktów zawodowych” (A. Wilkoń, Typologia odmian językowych współczesnej polszczyzny, 2000, s. 92). Warunki te niewątpliwie spełnia społeczność akademicka Uniwersytetu Warszawskiego, której członkowie w codziennej komunikacji używają różnego rodzaju środków językowych do opisu realiów uczelnianych. Przedmiotem analizy są innowacje leksykalne – neologizmy słowotwórcze – występujące w języku studentów warszawskiej uczelni. Materiał badawczy został wyekscerpowany z dostępnego online Słownika języka studentów Uniwersytetu Warszawskiego (www.studenckamowa.uw.edu.pl). Publikacja powstaje 18 w Instytucie Języka Polskiego na Wydziale Polonistyki UW w ramach obchodów 200. rocznicy powstania uczelni. Celem badania jest odpowiedź na pytanie, jakie struktury służą dzisiejszym żakom do tworzenia nowych wyrazów (czy są one motywowane przez istniejące w języku polskim wyrazy, czy raczej powstają na gruncie zapożyczeń), w którym polu semantycznym występują najliczniej, jaki jest ich udział w całym zgromadzonym zasobie leksykalnym oraz jakie funkcje pełnią w mowie studentów. Materiał badawczy obejmuje wszystkie nowe formacje, które nie zostały zarejestrowane w dostępnych ogólnych słownikach języka polskiego. Zebrane neologizmy reprezentują różne mechanizmy słowotwórcze, m.in. derywację ujemną (konw ‘konwersatorium’, lekto ‘lektorat’, mikro ‘mikroekonomia’, psycho ‘psychopedagogika’), uniwerbizację (opisówka ‘gramatyka opisowa’, powierzchniówka ‘krótki wyjazd archeologiczny, podczas którego szuka się śladów ludzkiej działalności na powierzchni ziemi’, wydziałówka ‘biblioteka wydziałowa’), złożenia rodzime i półkalki hybrydalne (alkoholocaust ‘impreza’, wiedzopodawacz ‘osoba prowadząca zajęcia’, współżuczki ‘koledzy z roku’, żebromejl ‘e-mail z prośbą do wykładowcy’). Analiza wybranych haseł zostanie zobrazowana przykładami ich użycia uzyskanymi na drodze kwerendy internetowej. mgr Marta Sobocińska (Instytut Języka Polskiego UW) Gwary w polu zainteresowań młodzieży szkolnej. Dwa podejścia do badań i ich wykorzystania na przykładzie nazw obuwia i odzieży W referacie przedstawię powody zainteresowania się zagadnieniem i wskażę różnice w zakresie narzędzi badawczych stosowanych w wieku XX (kwestionariusze ręcznie wypełniane i nagrania wywiadów rejestrowanych na szpulowych kasetach magnetofonowych przez uczniów szkół średnich z najstarszymi mieszkańcami wsi na Suwalszczyźnie i Lubelszczyźnie w czasie wakacji letnich), omówię też wartość nagrań na czułych dyktafonach zapisujących dokładnie wymowę. Pokażę sposoby wykorzystywania gwaryzmów na lekcjach w XXI wieku i możliwości pracy ze źródłami oraz przykłady prezentowania obecności gwar w tradycyjnych dawnych i współczesnych słownikach języka polskiego, dostępnych w Internecie, a także możliwości wykorzystywania ich w edukacji regionalnej. Na przykładach z tych źródeł pokażę łatwość wykorzystania ich w czasie lekcji jako rodzaju współczesnych spotkań uczniów w różnym wieku z dziedzictwem kultury regionalnej. Odniosę się do pytania, jak zachęcić uczniów do zainteresowania się dzisiejszą gwarą. Wielu gimnazjalistów i licealistów ma dziadków i pradziadków mieszkających na wsiach, co mogą wykorzystać nauczyciele kilku przedmiotów, w tym języka polskiego i historii. Można uczniom zadać, by w czasie wizyt rodzinnych nagrali na przykład rozmowy i wspomnienia dziadków, które wysłuchane na lekcjach (raczej we fragmentach) byłyby przygotowaniem do ćwiczeń językowo-kulturowych ze słownikami w rękach lub w Internecie. Część tej pracy uczniowie mogliby wykonywać w domu lub w bibliotekach, docierając do nieznanych im słowników, a potem wspólnie z nauczycielem spożytkować do sporządzenia klasowego, potem szkolnego słownika wyrazów gwarowych, a następnie słownika dawnej polszczyzny jakiegoś regionu Polski. Niezbędne byłoby uzupełnienie takiego słownika o informacje zaczerpnięte ze słowników dawnych. Takie działania sprzyjałyby spajaniu więzi rodzinnych i wzbudzały większy szacunek dla przodków. 19 dr Łukasz Szałkiewicz Co istnieje w słownikach... choć nie istnieje. Ogery współczesnej leksykografii Według pewnego ważnego współczesnego słownika wyrazów obcych zielonkawy stwór o imieniu Shrek to oger, bowiem taki wariant zanotowano w haśle ogr (i takie zamieszczono hasło odsyłaczowe). Stąd w pracach nad Dobrym słownikiem (dostępnym pod adresem dobryslownik.pl) wszelkiego typu hasła lub warianty obecne we współczesnych słownikach, ale nieobecne w uzusie, przyjęto nazywać ogerami. Ogery często przepisywane są od słownika do słownika (zwłaszcza w przypadku słowników ortograficznych) i w ten sposób żyją własnym życiem; ogerami są na przykład: czinczila (ponoć szynszyla), dżudysta (ponoć judoka), audiotelediota (ponoć uczestnik audiotele). Ogery kryją się też wśród form odmiany (np. dopełniacz liczby mnogiej piętr od rzeczownika piętro). W swoim referacie postaram się pokazać na wielu konkretnych przykładach, jakiego typu ogery kryją się w jakiego typu słownikach, oraz zastanowię się, skąd się tam wzięły. Rozważania te dotkną też kwestii istotności badań korpusowych we współczesnej leksykografii. mgr Marta Śleziak (UWr) Leksemy, które zmieniają formę bądź recepcję – na marginesie Słownika nazw żeńskich polszczyzny W Słowniku nazw żeńskich polszczyzny, wydanym na początku tego roku, zamieszczono wiele haseł mających dwa lub trzy warianty, np. przodownica/przodowniczka, sędzia/sędzina, cheerleaderka/cheerliderka/czirliderka. Jak pokazują zawarte w publikacji przykłady, w tekstach publicznych nazwy te funkcjonują na równi, a ich autorzy nie różnicują tego typu określeń ze względu na normę wzorcową, która się do nich odnosi, czy odmienność znaczeń. Słownik gromadzi także cytaty zaczerpnięte z prasy końca lat 40. i początku lat 50. XX wieku, które świadczą o powszechności typowych dla PRL-u form. Dawna popularność takich nazw, jak traktorzystka, tokarka czy szoferka jest wynikiem ówczesnej polityki językowej. Jednak formy te są dla młodszych użytkowników języka zupełnie obce bądź inaczej przez nich rozumiane. Wykazały to ankiety, których wyniki zostaną przedstawione słuchaczom. Celem wystąpienia jest nie tylko uzasadnienie doboru haseł w niedawno wydanym słowniku, ale przede wszystkim ukazanie dylematów, które towarzyszą leksykografom pracującym na materiale szybko ewoluującej polszczyzny. Jest też próbą odpowiedzi na pytanie, jak definiować hasła, zachowując równowagę między obowiązującą normą a ekspansywnym uzusem, oraz jak tworzyć słownik dostosowany do oczekiwań współczesnego odbiorcy. prof. dr hab. Jadwiga Waniakowa (Instytut Języka Polskiego PAN), dr Przemysław Dębowiak (Instytut Języka Polskiego PAN), dr hab., prof. IJP PAN Bogumił Ostrowski (Instytut Języka Polskiego PAN) Etymologia w Wielkim słowniku języka polskiego PAN Referat ma na celu prezentację etymologii w Wielkim słowniku języka polskiego PAN. Na wstępie przedstawiamy krótko WSJP PAN ze szczególnym uwzględnieniem zasad hasłowania, które rzutują na sposób podawania etymologii. Zasadnicza część referatu poświęcona jest prezentacji pola „pochodzenie” oraz informacjom, jakie tam podajemy w hasłach jednowyrazowych. Szczegółowo omawiamy zasady, według których opracowujemy 20 etymologię, ilustrując to odpowiednimi przykładami. Przedstawiamy też problemy, z jakimi stykamy się, ustalając pochodzenie poszczególnych haseł i podhaseł. Sporo miejsca poświęcamy sposobom przedstawienia motywacji semantycznej oraz sposobom uwidocznienia zmian semantycznych w drodze od etymonu do etymologizowanego wyrazu. Omawiamy sposób postępowania z zapożyczeniami oraz zajmujemy się ważnym, a zarazem wysoce skomplikowanym, problemem kalk. prof. dr hab. Piotr Wierzchoń (UAM), Łukasz Borchmann Wielki fotokorpus języka wietnamskiego XX wieku. Geneza, założenia, cele Zawirowania polityczno-społeczne, jakie miały miejsce na terenie Półwyspu Indochińskiego w XX wieku, stwarzają niepowtarzalną okazję do skonstruowania na przykładzie tego obszaru specyficznej koncepcji leksykograficznej. Polega ona na kolekcji ogromnego (kilkadziesiąt tysięcy jednostek-haseł) materiału leksykalnego z realnych, drukowanych tekstów XX wieku. W referacie zamierzamy omówić etapy i parametry tego procesu. Kolekcjonowanie materiału odbywać się będzie w formule fotodokumentacyjnej, w której każdy ekscerpt zostanie zilustrowany oryginalną fotografią fragmentu tekstu. Omówienie i przetestowanie koncepcji ekscerptologicznej dla języka wietnamskiego pozwoli odnieść owe doświadczenia również do języków europejskich, np. języka polskiego. Innymi słowy, zamierzamy na przykładzie języka wietnamskiego omówić generalny problem kolekcji materiału leksykalnego w odmianie fotodokumentacyjnej. Historia powstania fotokorpusu nie jest długa. Pomysł zrodził się w marcu roku 2016, w czasie konferencji 8th Asian Conference on Intelligent Information and Database Systems, w wietnamskim mieście Da Nang. Jednak prace przygotowawcze, które umożliwiły przystąpienie do prac nad tym dziełem, trwały ponad dekadę i wymagały zaangażowania wiedzy z różnych dyscyplin. Zostały one przetestowane na materiale innych języków, np. języka polskiego czy języka rosyjskiego. Podsumowując, w przedstawianym referacie zaprezentujemy tym razem metody kolekcji wietnamskich słów, które odkryliśmy w drukowanych tekstach z XX wieku. Jest to okres bardzo różnorodny, bogaty historycznie, odzwierciedlający wpływy kolonialne, lata wojenne, okres podziału oraz zjednoczenia państwowości, a zatem jest to przebogaty materiał, którego wartości nie można przecenić: służyć on może dla wielu analiz językoznawczych oraz tych z szerokiej humanistyki w ogóle. dr Beata Wójtowicz (Wydział Orientalistyczny UW) Dydaktyczne cechy elektronicznych słowników języka suahili Tradycyjne słowniki papierowe języka suahili najbardziej różniły się sposobem prezentacji rodzin derywacyjnych. Sama lista haseł, ich opis czy informacje gramatyczne często bywały kopiowane z jednego słownika do kolejnych. Nowe słowniki elektroniczne nie tylko są opracowywane na podstawie danych z elektronicznych korpusów języka ale ich autorzy korzystają z nowoczesnych metod prezentacji informacji i dostępu do niej. W referacie przedstawione zostaną główne założenia nowego słownika suahili-polskiego. Główną grupą odbiorców słownika są studenci języka suahili i z myślą o nich szczególny nacisk został położony na jego aspekt dydaktyczny. Specyfika języka wymaga od użytkowników zaawansowanej znajomości gramatyki, w tym słowotwórstwa. Podstawową operacją słowotwórczą w suahili jest derywacja poprzez sufiksację. Na gruncie leksykograficznym od lat prowadzona jest dyskusja czy eksplicytne zależności derywacyjne są na tyle ważne, żeby je 21 zachowywać w słownikach czy można je pominąć nadając każdemu z derywatów statut hasła głównego (ang. lumping vs. splitting approach). Na początkowym etapie nauki języka derywaty jako hasła główne ułatwiają wyszukiwanie informacji, w późniejszym jednak etapie zależności derywacyjne okazują się ważne i pomocne w zgłębianiu niuansów języka. do tej pory autorzy słowników opowiadali się za jednym z podejść i zgodnie z nim wprowadzali hasła a użytkownicy zależnie od preferencji mogli wybrać słownik, z którego korzystają. Dzisiejsze technologie komputerowe pozwalają jednak na taką konstrukcję słownika, dzięki której sam użytkownik może wybrać tryb przeglądania haseł. Ze względu na dydaktyczny charakter słownika suahili-polskiego została zachowana i unaoczniona użytkownikowi wielopoziomowość derywacji przy jednoczesnym nadaniu poszczególnym derywatom statusu haseł głównych. mgr Alyaxey Yaskevich (Białoruskie Centrum Naukowo-Badawcze Dokumentacji Elektronicznej) Trudna droga od publikacji elektronicznej do słownika elektronicznego: dwa paradygmaty naukowe w świetle studium przypadku Referat będzie poświęcony problemom, które powstały w trakcie przekształcenia publikacji pt. Glosariusz staropolski w słownik elektroniczny. Glosariusz jako projekt jest klasycznym słownikiem filologicznym, przygotowywanym jako książka. Niemniej jednak autorzy, współredaktorzy słownika mieli nadzieję, że uda się upowszechnić słownik w wersji elektronicznej. Za ich przyzwoleniem i za zgodą wydawcy zadania tego podjął się autor wystąpienia. Niestety, wykorzystanie tekstowych plików źródłowych oraz pliku makiety wydawniczej okazało się niemożliwe z przyczyn nietechnicznych: teksty były przekazane Wydawnictwu przez autorów w wersji papierowej, makietą wydawniczą dysponuje Wydawca. Do dyspozycji pozostał jedynie plik w formacie PDF, zawierający artykuły hasłowe, ale plik ten został złamany w takim trybie, że normalna ekstrakcja danych okazała się niemożliwa. W wystąpieniu na przykładzie konkretnych kroków procesu przekształcenia Glosariusza staropolskiego w leksykograficzną aplikację internetową autor będzie próbował odpowiedzieć na następujące pytania: Dlaczego PDF jest tak złym formatem dla celów leksykograficznych i właściwie dlaczego trzeba o tym mówić, choćby to było rzeczą jasną? Jak odzyskać tekst z pliku z uszkodzonymi znakami? Jak się projektuje i robi słownik internetowy? Jaka wiedza jest potrzebna do rozwiązania takich zadań? Czym w ogóle jest dzisiaj humanistyka cyfrowa? Referat może być interesujący dla osób, które mają podobne zadanie przed sobą lub chcą zrobić swój słowniczek elektroniczny od zera. 22