Słowniki i korpusy języka polskiego

Transkrypt

Słowniki i korpusy języka polskiego
Słowniki i korpusy języka polskiego
Leksykografia
opracowywanie słowników, słownikarstwo
nauka o metodach i technice opracowywania słowników
Słownik – zbiór słów lub wyrażeń ułożonych i opracowanych
według jakiejś zasady. Dzieli się na artykuły hasłowe ułożone w
porządku alfabetycznym, rzadko tematycznym.
Rodzaj słownika określa zasadę budowy artykułu hasłowego i
sposób uporządkowania.
Kwalifikator – skrót podawany przed definicjami w słowniku,
encyklopedii zawierający informację o zakresie używania
danego wyrazu lub jego różnorodnym nacechowaniu, np.
stylistycznym, chronologicznym, ekspresywnym (Engelking,
Markowski, Weiss 1989, 300)
Stosowane są różnego rodzaju kwalifikatory – najczęściej we
wstępie do danej publikacji można znaleźć ich opis.
Rodzaje słowników jednojęzycznych
•
•
•
•
•
•
•
•
•
•
•
•
ogólny języka polskiego
ortograficzny języka
frazeologiczny
terminologiczny (np. prawniczy)
grup społecznych i zawodowych
etymologiczny
częstotliwościowy (frekwencyjny)
synonimiczny
onomastyczny
skrótów
ortoepiczny
wyrazów bliskoznacznych itd.
Rodzaje kwalifikatorów
• Kwalifikatory chronologiczne: daw., przestarz.
• Kwalifikatory frekwencyjne: rzadziej
• Kwalifikatory dotyczące zasięgu użycia innego niż zasięg czasowy
– Zasięg sytuacyjny/stylistyczny: książk., pot., urzęd.,
– zasięg geograficzny: białost., krak., lubel.
– zasięg środowiskowy: młodz., przestęp.,
• Kwalifikatory specjalistyczne, odsyłające do dziedziny działalności
ludzkiej, w tym wiedzy fachowej lub nauki:
- odsyłające do konkretnej dziedziny: anat., archeol., med., bank.,
bibliot., biol., biznes., chem., ekon., filoz., geogr., inform., zool., itd.
- Odsyłające do grupy dziedzin: techn., nauk., kultur.,
• Kwalifikatory ekspresywne, informujące o treści emocjonalnowartościującej jednostki: pogard., pejorat., wulg., żart., iron.
(Kurkiewicz 2007, 44-45)
Najnowsze słowniki języka polskiego
Słownik języka polskiego pod red.
Mieczysława Szymczaka (1978)
• Najpopularniejszy ogólny słownik dostępny w
licznych wariantach
• 3 tomy
• zawiera około 80 000 haseł: wyrazy używane
powszechnie, terminy specjalistyczne.
• Podaje także frazeologię, przykłady użycia,
informacje fleksyjne , kwalifikatory
zakresowe i stylistyczne, najważniejsze
synonimy i informacje etymologiczne.
Słownik współczesnego języka polskiego
pod red. Bogusława Dunaja (1996)
• słownik jednotomowy
• obejmuje ponad 62 000 haseł
• uwzględniono w nim słownictwo specjalistyczne
(tylko najbardziej rozpowszechnione).
• zawiera niektóre wyrazy potoczne i środowiskowe,
słownictwo dawne, dotyczące realiów i kultury
wcześniejszych epok i sporo wyrazów nowych
Nowy słownik języka polskiego PWN
pod red. Mirosława Bańki (2000)
• jednotomowy
• obejmuje objaśnieniami około 100 000 jednostek
leksykalnych
• Każda jednostka leksykalna jest zaopatrzona w
informację gramatyczną, rejestr synonimów i
antonimów w postaci przypisów na marginesach,
oraz informacje z zakresu pragmatyki językowej.
• Innowacją są kontekstowe definicje, formułowane
naturalną polszczyzną
Uniwersalny słownik języka polskiego
pod red. Stanisława Dubisza (2003)
• cztery tomy
• koncentruje się na opisie słownictwa polszczyzny ogólnej drugiej
połowy XX w.
• obejmuje ok. 100 000 jednostek hasłowych oraz kilkaset tysięcy
zestawień terminologicznych, frazeologizmów i przysłów
• Wprowadza wiele nowego – opis słownictwa wg zasady
klasyfikacji na nacechowane i nienacechowane, podawanie
podstaw etymologicznych wyrazów pochodzenia obcego,
definiowanie treści przysłów, podawanie schematów typowych
połączeń składniowych, informacji dotyczących pisowni, wymowy
i pragmatyki. Szeroko uwzględnia słownictwo potoczne, wtręty o
genezie obcojęzycznej, formy najczęściej stosowanych
skrótowców.
Popularny słownik języka polskiego (2007)
• zawiera 30 000 podstawowych, używanych na co
dzień wyrazów i zwrotów a także wybrane
związki frazeologiczne oraz wskazówki
poprawnościowe
• dobór i opracowanie haseł jest wynikiem pracy
zespołu językoznawców Uniwersytetu
Jagiellońskiego pod kierunkiem Bogusława
Dunaja
Nowy słownik poprawnej polszczyzny
pod red. Andrzeja Markowskiego (1999)
• jednotomowy
• ok. 31 000 haseł
• największy słownik poprawnościowy, oprócz
ułożonych alfabetycznie haseł z objaśnieniem
poprawnego użycia i wskazaniem najczęstszych
błędów zawiera artykuły przeglądowe dotyczące
różnych zagadnień poprawnościowych
• W osobny blok wydzielone nazwy geograficzne
skróty i skrótowce i nazwiska
Inny słownik języka polskiego pod red. Mirosława Bańki (2000)
• Ok. 100 000 jednostek
• Obszerny ogólny słownik języka polskiego
• wyróżnia się innym od tradycyjnego
sposobem definiowania znaczenia słów
(sposób ten może być szczególnie przydatny
m. in. w nauce języka polskiego przez
cudzoziemców)
Praktyczny słownik współczesnej polszczyzny
pod red. Haliny Zgółkowej (1994)
• Wydawany od 1994, 50 tomów
• prezentuje zasób leksykalny znajdujący już opis
we wcześniejszych opracowaniach i sumujący
rejestr słownictwa polskiego końca XX w.
• zawiera sporo słów obcego pochodzenia
• adresowany do najszerszego kręgu odbiorców
Wielki słownik języka polskiego
• trwają nad nim prace – polszczyzna po 1945 r.
(Żmigrodzki, Przybylska)
• Tylko w wersji elektronicznej
• Źródłem komputerowe korpusy języka
polskiego
Internetowe korpusy języka polskiego
• Korpus językowy to zbiór tekstów, w którym szukamy
typowych użyć słów i konstrukcji oraz innych informacji o
ich znaczeniu i funkcji. Bez dostępu do korpusu nie da się
dziś prowadzić badań językoznawczych, pisać słowników ani
podręczników języków obcych, tworzyć wyszukiwarek
uwzględniających polską odmianę, tłumaczy komputerowych
ani innych programów zaawansowanej technologii językowej.
• Narodowy Korpus Języka Polskiego (NKJP)
• Korpus Języka Polskiego Wydawnictwa Naukowego
• Korpus IPI PAN
Narodowy korpus języka polskiego (NKJP)
• wspólna inicjatywa Instytutu Podstaw Informatyki PAN,
Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego
PWN oraz Zakładu Językoznawstwa Komputerowego
i Korpusowego uniwersytetu Łódzkiego
• korpus referencyjny polszczyzny wielkości kilkuset milionów
słów
• Lista źródeł korpusu zawiera nie tylko klasykę literatury
polskiej, ale też prasę codzienną i specjalistyczną, nagrania
rozmów, teksty ulotne i internetowe. Zróżnicowanie
tematyczne i gatunkowe tekstów, dbałość o reprezentację
rozmówców obu płci, w różnym wieku i z różnych regionów,
są dla wiarygodności korpusu równie ważne jak jego wielkość.
• Dwie wyszukiwarki – konkordancje i kolokacje
• http://www.nkjp.uni.lodz.pl/
Korpus Języka Polskiego
Wydawnictwa Naukowego
• Wydawnictwo Naukowe PWN przygotowało i
udostępniło sieciową wersję Korpusu Języka Polskiego
PWN wielkości 40 milionów słów.
• Korpus składa się z fragmentów 386 różnych książek,
977 numerów 185 różnych gazet i czasopism, 84
nagranych rozmów, 207 stron internetowych oraz
kilkuset ulotek reklamowych.
• Pełna wersja sieciowa korpusu jest dostępna odpłatnie,
a bezpłatnie wersja demonstracyjna wielkości ponad 7,5
miliona słów na stronie:
• http://korpus.pwn.pl/
Korpus IPI PAN
• Korpus IPI PAN jest dużym (obecnie ponad
250 mln segmentów), anotowanym
morfosyntaktycznie, publicznie dostępnym
korpusem języka polskiego, stworzonym
przez Zespół Inżynierii Lingwistycznej
w Instytucie Podstaw Informatyki PAN, w
ramach projektów Komitetu Badań
Naukowych oraz w ramach badań
statutowych IPI PAN.
• http://korpus.pl/
Český národní korpus (ČNK)
• je akademický projekt zaměřený na budování
rozsáhlého počítačového korpusu především psané
češtiny. Pracuje na něm Ústav Českého národního
korpusu na Filozofické fakultě Univerzity Karlovy v
Praze (ÚČNK). Od svého založení roku 1994 má
ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž
činnosti související, zvláště v oblasti výuky a pěstování
oboru korpusová lingvistika.
• Korpusy języka pisanego i mówionego
• Pełny opis na stronie: http://ucnk.ff.cuni.cz/
Literatura:
Kania S., Tokarski J., 1984, Zarys leksykologii i
leksykografii polskiej,Warszawa.
Kurkiewicz J., 2007, Kwalifikatory w Wielkim Słowniku
języka polskiego, [w:] Nowe Studia Leksykograficzne,
pod red. P. Żmigrodzkiego i R. Przybylskiej, Kraków.
Lewandowska-Tomaszczyk B. (red.), 2005, Podstawy
językoznawstwa korpusowego, Łódź.
Piotrowski T., 2001, Zrozumieć leksykografię, Warszawa.
Piotrowski T., 2004, Komputerowe korpusy tekstowe
polszczyzny. Materiały Zjazdu polonistów, Kraków.