Izabela Gatkowska, Katedra Lingwistyki Komputerowej

Transkrypt

Izabela Gatkowska, Katedra Lingwistyki Komputerowej
Izabela Gatkowska,
Katedra Lingwistyki Komputerowej,
Uniwersytet Jagielloński, Kraków
[email protected]
Węzeł rzeczownikowy w sieci naturalnych powiązań leksykalnych
1. Budowa empirycznej sieci powiązań leksykalnych
Empiryczna sieć leksykalna została zbudowana za pomocą eksperymentu swobodnych
skojarzeń słownych, w których wzięło udział 900 osób. Badani podawali jako odpowiedź
pierwszy wyraz, jaki przychodził im na myśl po zrozumieniu wyrazu bodźca. Ponieważ
eksperyment miał formę cykliczną, co znaczy, że wyrazy odpowiedzi uzyskane w cyklu
początkowym zostały użyte jako bodźce w cyklu kolejnym, to powiązania bodziec –
odpowiedź utworzyły sieć leksykalną. W wyniku eksperymentu, w którym użyto 322 wyrazy
bodźce - w tym 63 bodźce prymarne (cykl początkowy), którymi były rzeczowniki z listy
Kent–Rosanoffa (polska wersja listy – za Kurcz,1967), oraz 259 bodźców sekundarnych (cykl
kolejny) – najczęstsze skojarzenia do każdego bodźca prymarnego uzyskane w
eksperymencie Kurcz. Przedstawiona sieć ilustruje przykład z naszego eksperymentu, gdzie
pary bodziec – odpowiedź:
morze → woda
woda → rzeka
rzeka → morze
morze → ocean
ocean → woda
tworzą sieć o postaci:
ocean
woda
morze
rzeka
Ocean, rzeka to bodźce prymarne, woda, morze to bodźce sekundarne.
Uzyskana w wyniku eksperymentu sieć zawiera 11 224 węzły leksykalne (różne wyrazy
notowane w komputerowym Słowniku fleksyjnym języka polskiego, Lubaszewski i inni, 2001)
oraz 50 849 różnych powiązań pomiędzy wyrazami (węzłami). W sieci mamy: 7757
rzeczowników (69.1% węzłów), 2 459 przymiotników (21.9 % węzłów),744 czasowników
(6.6 % węzłów) oraz 264 wyrazów innych klas (2.4% węzłów). Dane te pokazują duże
podobieństwo do współcześnie budowanej sieci języka flamandzkiego, gdzie: rzeczowniki to
72%, przymiotniki to 18%, czasowniki to 9% oraz inne to 1% węzłów (De Deyne S., Storms
G. (2008). Przykłady naszych węzłów leksykalnych sieci: http://www.klk.uj.edu.pl/sssjp
2. Struktura empirycznej sieci powiązań leksykalnych
Węzeł leksykalny sieci to wyraz bodziec (węzeł początkowy) oraz zbiór odpowiedzi, czyli
wyrazów węzłów, wchodzących w powiązania bezpośrednie z wyrazem bodźcem oraz
wszystkie ścieżki zamknięte, tj. takie sekwencje powiązań w których węzłem początkowym i
węzłem końcowym jest wyraz bodziec. W sieci naturalnych powiązań leksykalnych mamy
powiązania pomiędzy znaczeniami, które możemy opisać jako: powiązania poprzez
znaczenie (jakościowe) dom - dach, powiązania przez formę kwiecie - plecie, powiązania
składnikowe złość – piękności szkodzi oraz powiązania przez sieć baranina – wełna.
Powiązania poprzez znaczenie (jakościowe) są etykietowane za pomocą wyznaczników
powiązania.
3. Jakościowa klasyfikacja powiązań – propozycja
Klasyfikację można oprzeć na dobrze znanych językoznawstwu relacjach semantycznych,
takich jak: synonimia, antonimia i relacjach pomiędzy znaczeniem nadrzędnym a podrzędnym
i zależnościach część – całość. Niestety, w węźle leksykalnym sieci występuje wiele
powiązań, np. baranina – owca, lampa – sufit, stół – krzesło, igła – nitka, lampa – światło,
lekarz – pielęgniarka, kwiecie – wiosna, owca –hala, praca – ciężka, złodziej – portfel,
nożyczki – krawiec, owca – trawa, choroba – kłopot itd., których nie da się sklasyfikować za
pomocą znanych relacji paradygmatycznych. Najnowsze prace przeglądowe relacji
stosowanych w semantyce leksykalnej (L. Murphy 2003,2008, D. Geeraerts, 2010) pokazują,
że nie ma gotowego zestawu relacji syntagmatycznych, które pozwoliłyby sklasyfikować
występujące w sieci powiązania znaczeń. Trzeba też dodać, że model semantycznych
zależności syntagmatycznych opracowany przez Ch. Fillmore’a dla słownika Framenet
(Ruppenhofer i wsp.2010) nie stosuje relacji, lecz rozbudowany system ról semantycznych.
Dlatego w referacie zostanie omówiona propozycja klasyfikacji powiązań nawiązująca do
modelu J. Bartmińskiego, „Słownik ludowych stereotypów językowych. Założenia ogólne”.
W rezultacie opracowano zestaw kwalifikatorów (wyznaczników) etykietujących powiązania,
np. owca – hala, miejsce_charakterystyczne; lampa – sufit, lokalizacja; kwiecie – wiosna,
lokalizacja_w_czasie; nożyczki – krawiec, użycie; złodziej – portfel, cel; krzesło – siedzieć,
przeznaczenie itp.
4. Analiza węzła leksykalnego poprzez porównanie z definicją słownikową
Przyjmujemy, że zbiór powiązań konkretnego wyrazu bodźca jest sieciową definicją
znaczenia tego bodźca. Będziemy analizować to znaczenie poprzez porównanie z definicją
słownikową. Jako przykład bierzemy wyraz bodziec księżyc i jego skojarzenia – uzyskane w
eksperymencie.
Wyraz bodziec:
Księżyc – 870 odpowiedzi, 170 wyrazów skojarzonych.
SJP PWN:
Księżyc – rzeczownik, r. m., l. p., 1. «naturalny satelita Ziemi»
2. «ciało niebieskie krążące dookoła jakiejś planety» • księżycowy.
a. Znaczenie księżyc: ‘naturalny satelita Ziemi’ reprezentują następujące odpowiedzi: satelita 2,53%, ziemia 1,49%, odpowiedniki w innych językach: moon [tłum. ang.] 0,23%,
luna [tłum. łac.]0,8% ( łącznie stanowi 5,05% wszystkich odpowiedzi);
- odpowiedzi wskazujące na dążenia ludzkie do poznania księżyca: podróż 0,34%, Armstrong
0,57%. Łącznie 5,96% wszystkich odpowiedzi;
b. Znaczenie księżyc: ‘ciało niebieskie krążące dookoła jakiejś planety’ ma skojarzenia:
planeta 1,03%, planety 0,23%, ciało niebieskie 0,23%, galaktyka 0,23%, kosmos 0,57%,
Łącznie 2,29% wszystkich odpowiedzi.
c. Najliczniejszy zbiór skojarzeń (pozostałe odpowiedzi) odnosi się do znaczenia wyrazu
księżyc, które nie zostało bezpośrednio zdefiniowane w słowniku. Są to według naszego opisu
powiązania jakościowe etykietowane przez następujące wyznaczniki powiązania:
- lokalizacja: miejsce w przestrzeni, gdzie się księżyc znajduje: niebo 2,87%;
- lokalizacja_w_czasie , kiedy księżyc jest widoczny: noc 17,24%, północ 0,23%, zmierzch
0,34%, ciemno 0,23%, zachód 0,23%;
- kształt (fazy księżyca): pełnia 7,24%, w pełni 6,55%, okrągły 0,57%, kula 0,23%, nów
4,94%, w nowiu 3,1%, rogal 0,69%, półksiężyc 0,46%, sierp 0,23%, rogalik 0,46%, ser 0,46%
i określenie widoczności : zaćmienie 0,23%;
- zachowanie: świeci 5,63%, swieci [zachowana oryginalna pisownia] 0,23%
- źródło: światło 0,92%, blask 0,57%, jasność 0,34%;
- kolor: jasny 3,22%, żółty 0,23%, srebro 0,34%;
- współwystępowanie: w tym przypadku obiekty wchodzące w zależność z księżycem na
niebie: gwiazdy 3,91%, gwiazda 0,46%;
- komplementarność: - słońce 9,08%, slonce [zachowana oryginalna pisownia] 0,69%,
słońca 0,23%;
- ocena: piękny 0,57%, piękno 0,23%;
- powiązanie składnikowe: Czarodziejka 0,23% (japońska kreskówka: Czarodziejka z
księżyca).
Zatem opis księżyca z punktu widzenia ziemskiego obserwatora - to łącznie: 79,75%
wszystkich odpowiedzi. Można więc na podstawie odpowiedzi uzyskanych od 870 osób
można sformułować następującą skojarzeniową definicję znaczenia wyrazu księżyc:
Księżyc - obiekt widoczny na niebie w nocy, świeci jasno jest (światłem koloru
srebrnego), widoczny na tle gwiazd. Kształt księżyca zmienia się od nowiu (rogal,
rogalik, półksiężyc, sierp) do pełni (okrągły, kula, ser). Przeciwieństwo słońca.
Pytanie, czy taka definicja powinna się znaleźć w słowniku obok encyklopedycznej?
Konkluzja:
Wynik analizy pozwala ustalić charakterystyczne modele węzłów rzeczownikowych.
Bibliografia:
Bartmiński J., 1988, „Definicja kognitywna jako narzędzie opisu konotacji”[w:] Konotacja ,
red. J. Bartmiński, Lublin, s.169 – 183.
Bartmiński J.,1988, „Słownik ludowych stereotypów językowych. Założenia ogólne” [w:]
Etnolingwistyka 1, red. J. Bartmiński, Lublin, s.11-34.
De Deyne, S., Storms, G., 2008, “Word associations: Network and semantic properties”,
[w:] Behavior Research Methods, 40 (1), s.213-231.
Gatkowska, I., 2014, “Word Associations as a Linguistic Data” [w] Languages in Contact
2012, t.1, red. P. Chruszczewski, J. Rickford, K. Buczek, A. Knapik, J. Mianowski, Wrocław,
79-92.
Geeraerts D., 2010, Theories of Lexical Semantics, Oxford Linguistics.
Kent, G. H., Rosanoff, A. J., 1910, “A study of association in insanity” [w:] American
Journal of Insanity 67 (37-96), s. 317-390.
Kiss, G.R., Armstrong, C., Milroy, R., Piper, J.,1973, “An associative thesaurus of English
and its computer analysis”, [w:] The Computer and Literary Studies, red. Aitken, A.J., Bailey,
R.W., Edinburgh, s. 153-165.
Kurcz I., 1967, „Polskie normy powszechności skojarzeń swobodnych na 100 słów z listy
Kent-Rosanoffa” [w]: Studia Psychologiczne, t.VIII, s.122- 255.
Murphy, M. L., 2003(2008), Semantic Relations and the Lexicon: Antonymy, Synonymy,
and other Paradigms, Cambridge.
Ruppenhofer J., Ellsworth M., Petruck M.R.L., Johnson C. R, Scheffczyk J., 2010,
FrameNet II: Extended Theory and Practice, Berkeley.
www. SJP.PWN, on-line.