SEMANTYKA A KONFRONTACJA J†ZYKOWA tom 4
Transkrypt
SEMANTYKA A KONFRONTACJA J†ZYKOWA tom 4
SEMANTYKA A KONFRONTACJA JZYKOWA tom 4 POLSKA AKADEMIA NAUK INSTYTUT SLAWISTYKI SEMANTYKA A KONFRONTACJA JZYKOWA tom 4 Pod redakcj¡ Violetty Koseskiej-Toszewej i Romana Roszki Warszawa 2008 Tom opiniowali do druku ZBIGNIEW GRE i MAGORZATA KORYTKOWSKA Pozycja donansowana przez ????????????????? Skªad i ªamanie Danuta Roszko c Copyright by Slawistyczny O±rodek Wydawniczy ° Printed in Poland ISBN ????????????????? Slawistyczny O±rodek Wydawniczy Instytut Slawistyki PAN Paªac Staszica, ul. Nowy wiat 72, 00330 Warszawa tel./fax [+48] 22 826 76 88 tel. [+48] 22 827 17 41 [email protected] www.ispan.waw.pl SPIS TRECI Wst¦p V. Koseska-Toszewa, R. Roszko . . . . . . . . . . . . . . . . 7 Maªgorzata Korytkowska (Uniwersytet ódzki, ód¹), Violetta Koseska-Toszewa (Instytut Slawistyki PAN, Warszawa), Polsko-buªgarska gramatyka konfrontatywna . . . . . . . . . . . . . . . . . . . . ?? Viara Maldjieva (Instytut Slawistyki PAN, Warszawa), Kategorie sªowotwórcze a kategorie nazw w badaniu konfrontatywnym . . . . ?? Lili Krumova-Cvetkova (Institut za blgarski ezik, BAN, Sofi), Diana Blagoeva (Institut za blgarski ezik, BAN, Sofi), Za kavantitativnostta, izrazvana ot vida i vremeto na glagola v blgarski ezik (v spostavka s polski) . . . . . ?? Roman Roszko (Instytut Slawistyki PAN, Warszawa), Egzystencjalna fraza nominalna w badaniu konfrontatywnym . . . . . . . . . . . . . ?? Natalia Kotsyba (Instytut Slawistyki PAN, Warszawa), Ingresywno±¢ i inchoatywno±¢ jako pocz¡tkowe rodzaje czynno±ci a kwantykacja predykatów w zdaniu (na przykªadzie j¦zyka ukrai«skiego) ?? Joanna Satoªa-Sta±kowiak (Instytut Slawistyki PAN, Warszawa), Zdania z zawieszon¡ asercj¡ na podstawie polskich i buªgarskich zda« praeterytalnych . . . . . . . . . . . . . . . . . . . . . . . . . . ?? Volodimir A.Xirokov (Ukra=ns~kii movno-nformacni fond Naconal~no= akademim= nauk Ukra=ni), Kvantova lingvistika . . . ?? El»bieta Hajnicz (Instytut Podstaw Informatyki PAN, Warszawa), Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika semantycznego czasowników polskich . . . . . . . . . . . ?? Daniela Sorea (University of Bucharest, Bucharest), Blends of Seasons and Mind Styles in Plath's <Spinster> . . . . . . . . . . . . . . . ?? Daniela Sorea (University of Bucharest, Bucharest), Hyperbole and Irony as Sitcom Props . . . . . . . . . . . . . . . . . . . . . . . . . . . ?? WSTP Tom 4. studiów Semantyka a konfrontacja j¦zykowa porusza ró»norodne zjawiska semantyczne gªównie opisywane na podstawie konfrontowanych j¦zyków. Tom 4. zawiera równie» artykuªy z modnymi obecnie zagadnieniami z lingwistyki kwantowej, lingwistyki korpusowej oraz kognitywnej. Ró»norodno±¢ zagadnie« poruszanych przez autorów powinna zainteresowa¢ szeroki kr¡g lingwistów, zwªaszcza zajmuj¡cych si¦ teori¡ i metodologi¡ j¦zyka. Violetta Koseska-Toszewa Roman Roszko Semantyka a konfrontacja j¦zykowa, 4 SOW, Warszawa 2008 ELBIETA HAJNICZ Instytut Podstaw Informatyki PAN Warszawa OD TEKSTU DO ZNACZENIA: PRZYCZYNKI DO AUTOMATYCZNEGO TWORZENIA SOWNIKA SEMANTYCZNEGO CZASOWNIKÓW POLSKICH 1. Wprowadzenie Jest truizmem stwierdzenie, »e w procesie ksztaªtowania si¦ j¦zyka zestaw poj¦¢ zawsze wyprzedza opisuj¡ce je formy j¦zykowe. Proces ten trwa do dzisiaj, czego sztandarowym przykªadem jest powstawanie rozmaitych slangów grupowych (zawodowych i ±rodowiskowych), i ich przenikanie do j¦zyka ogólnego. Patrz¡c jednak na przyswajanie j¦zyka z punktu widzenia jednostki, proces poznawania ±wiata przebiega równolegle wraz z uczeniem si¦ jego opisu. (Patrz, kochanie, kaczka. Kaczka pªynie do nas. Daj kaczce chlebka.), np. [Gleitman, 1990]. Nie znaczy to co prawda, »e mózg przechowuje wiedz¦ o ±wiecie i wiedz¦ o j¦zyku w tym samym miejscu i w ten sam sposób, ale niew¡tpliwie informacje te s¡ ±ci±le ze sob¡ powi¡zane. Istnienie j¦zyka daje nam jednak inn¡ wspaniaª¡ mo»liwo±¢: tak przekaz ustny jak pisany pozwala nam dowiadywa¢ si¦ wielu rzeczy, z którymi nie zetkn¦li±my si¦ i by¢ mo»e nigdy nie zetkniemy w naszym osobistym do±wiadczeniu. Potramy wi¦c wyrobi¢ sobie jaki± pogl¡d na rzeczywisto±¢ wyª¡cznie w oparciu o opis j¦zykowy, oczywi±cie jedynie dzi¦ki odwoªaniom do naszego do±wiadczenia i wiedzy o ±wiecie. Im bardziej odlegªe s¡ te rzeczywisto±ci, tym powstaªe wyobra»enie bywa bardziej myl¡ce; st¡d wielkie powodzenie rycin, ilustracji, a wspóªcze±nie fotograi. Z oczywistych wzgl¦dów technicznych proces akwizycji wiedzy przez komputery nie mo»e przebiega¢ w sposób analogiczny do ludzkiego. Istniej¡ co 10 El»bieta Hajnicz prawda skomplikowane systemy rozpoznawania obrazu (identykacji obiektów); istniej¡ roboty wyposa»one w dwie kamery w celu uzyskania obrazu stereogracznego, wyposa»one w czujniki dotykowe. Jednak integracja tych technologii z rozwi¡zaniami z zakresu Przetwarzania j¦zyka naturalnego (ang. Natural Language Processing ; NLP ) jest obecnie czyst¡ fantazj¡. Niezale»nie od tego jednak, czy mamy do czynienia z komunikacj¡ ustn¡ czy za po±rednictwem tekstu pisanego, w odbiorze komunikatu najwa»niejszy jest proces interpretacji przekazu j¦zykowego. Niejednokrotnie przyjmuje si¦, »e proces ten przebiega od formy (pisanej b¡d¹ ustnej)1 , poprzez interpretacj¦ jej struktury (morfoskªadniowej i skªadniowej) do reprezentacji poj¦ciowej. Efektywne przetwarzanie informacji j¦zykowej (tekstowej) przez komputery wymaga przeprowadzenia analogicznego procesu, a uzyskanie adekwatnej reprezentacji poj¦ciowej (semantycznej) jest immanentnym skªadnikiem tego procesu, bez którego termin Przetwarzanie j¦zyka naturalnego mo»na nieomal»e uzna¢ za nadu»ycie. NLP jest dziedzin¡ rozwijaj¡c¡ si¦ ju» od lat. Obecnie istniej¡ rozbudowane techniki i zasoby i sªu»¡ce do analizy morfoskªadniowej [Hajnicz i Kup±¢, 2001; Woli«ski, 2006] i skªadniowej, tak»e dla j¦zyka polskiego [Obr¦bski, 2002; Woli«ski, 2004]. Z drugiej strony istniej¡ te» zªo»one formalizmy, gªównie logiczne, przeznaczone do reprezentacji semantyki tekstów. W±ród nich nale»y wyró»ni¢ podej±cia uwzgl¦dniaj¡ce tematyk¦ czasu i aspektu, takie jak Event Semantics [Davidson, 1967; Landman, 2000; Persons, 1990], DRT [Kamp i Reyle, 1993]. Jednak mo»liwo±¢ ich praktycznego wykorzystania wci¡» jest ograniczona ze wzgl¦du na luk¦ spowodowan¡ przez brak zasobów komputerowych z zakresu semantyki leksykalnej, opisuj¡cych poszczególne sªowa i zale»no±ci mi¦dzy nimi. Oczywi±cie tematyka ta tak»e caªy czas jest rozwijana. Na ±wiecie powstaje wiele zasobów takich jak WordNet (Fellbaum, 1998; Miller i in., 1990; Vossen, 1998). Od jakiego± czasu podejmowane s¡ te» próby tworzenia zasobów zawieraj¡cych bardziej zªo»on¡ informacj¦ reprezentuj¡c¡ zale»no±ci semantyczne pomi¦dzy poj¦ciami i reprezentuj¡cymi je jednostkami leksykalnymi (poszczególnymi frazami wyst¦puj¡cymi w zdaniu) dla mo»liwie szerokiego podzbioru j¦zyka, wspólnego dla ró»nych sfer »ycia. Chodzi tu o struktur¦ predykatywno-argumentow¡ wyrazów, przede wszystkim czasowników, wzbogacon¡ o informacj¦ semantyczn¡, co jest tematem niniejszego opracowania. W wi¦kszo±ci przypadków zasoby te s¡ tworzone r¦cznie, przy zaanga»owaniu du»ej ilo±ci siª ludzkich, czasu i ±rodków. Najbardziej znane 1 Ignorujemy tu poziom odkodowania sygnaªu d¹wi¦kowego czy pisma. Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 11 z nich to FrameNet [Baker i in., 1998; 2003; Fillmore i in., 2001; 2002; 2003], VerbNet [Dang i in., 1998; 2000; Kipper i in., 2000; 2004] i PropBank [Kingsbury i Palmer, 2002; Kingsbury i in., 2002]. R¦czne tworzenie takich zasobów umo»liwia nie tylko du»¡ precyzj¦, ale i stwarza szans¦ uwzgl¦dnienia dodatkowych informacji, np. wiedzy o ±wiecie, nie mniej jednak stanowi barier¦ ilo±ciow¡. Dlatego coraz cz¦±ciej próbuje si¦ realizowa¢ zadania z zakresu semantyki leksykalnej póªautomatycznie i automatycznie [Lapata i Brew, 2004; McCarthy, 2000; Merlo i Stevenson, 2001; Schulte im Walde, 2003], nie tylko ze wzgl¦du na ograniczenie anga»owanych siª i ±rodków, ale i wi¦ksz¡ elastyczno±¢: metody automatyczne mo»na zastosowa¢ do ró»nych rodzajów tekstów, uzyskuj¡c wyniki adekwatne dla pojedynczych zastosowa«; zmniejsza to tak»e wra»liwo±¢ na upªyw czasu (ªatwiej jest modykuj¡c posiadane ju» zasoby). Prace takie s¡ prowadzone tak»e dla j¦zyka polskiego. Podej±cie, którego ide¦ zamierzamy zaprezentowa¢ w niniejszym opracowaniu, wpisuje si¦ w ten nurt. Na czym to jednak, najogólniej rzecz ujmuj¡c, ma polega¢? Otó» determinuj¡c znaczenie wyrazu (w szczególno±ci w wypadku wyst¡pienia wieloznaczno±ci b¡d¹ homonimii) nale»y uwzgl¦dni¢ dwa czynniki: struktur¦ wypowiedzenia, w którym wyraz ten si¦ znajduje, oraz znaczenie innych wyrazów w kontek±cie. Rzecz jasna sama struktura skªadniowa jest niewystarczaj¡ca: sformuªowanie poprawnie skonstruowanego acz pozbawionego tre±ci zdania nie jest trudne (por. Kot rozpuszcza si¦ w bªyskawicy o skorupie ponad uprzejmo±¢ z Cukier rozpuszcza si¦ w wodzie o temperaturze ponad 10◦ C ). Z drugiej strony nieustrukturalizowany ci¡g caªkiem poprawnie zgrupowanych wyrazów te» jest trudny, a cz¦sto wr¦cz niemo»liwy do interpretacji, to struktura bowiem wskazuje nam ª¡cz¡ce wyrazy zale»no±ci (por. Skrzydªa w lot macha¢ ptak z Ptak macha w locie skrzydªami ). W wypadku przetwarzania komputerowego nakªada si¦ na to element masy. Mo»emy bowiem sprawdzi¢, jak cz¦sto pojawia si¦ dany schemat (np. skªadniowy), jakie wyrazy i jak cz¦sto w nim wyst¦puj¡. Komputery nie s¡ bowiem równie elastyczne jak ludzkie mózgi, jednak bez trudu precyzyjnie przetworz¡, przelicz¡ i zapami¦taj¡ du»e zbiory danych. Zreszt¡ czªowiek tak»e potra si¦ uczy¢ w ten sposób. Czytaj¡c tekst w obcym j¦zyku, potramy poj¡¢ nieznane nam sªowo, je±li tylko wystarczaj¡co cz¦sto pojawi si¦ w wystarczaj¡co zró»nicowanym kontek±cie [Gillette i in., 1999; Wittek, 2002]. Celem tego opracowania nie jest jednak omówienie metod statystycznego uczenia si¦ semantyki leksykalnej. Raczej chcemy pokaza¢ zjawiska, jakie mo»na w ten sposób wykrywa¢. Skupimy si¦ przy tym na najbardziej zªo»onym i chyba najciekawszym z nich, zjawisku alternacji. 12 El»bieta Hajnicz 2. ródªa danych do tworzenia sªownika semantycznego Jak ju» wspominali±my, naszym celem jest automatyczne tworzenie sªownika semantycznej subkategoryzacji czasowników polskich. Podstawowym zaªo»eniem, na jakim opieramy swoje plany, jest przekonanie, »e wiedz¦ semantyczn¡ ukryt¡ wewn¡trz struktury syntaktycznej tekstu da si¦ wydoby¢ poprzez wykrycie regularnych (tzn. dostatecznie cz¦stych) zale»no±ci pomi¦dzy tworz¡cymi j¡ wyrazami. Aby móc to uczyni¢, musimy wpierw mie¢ dost¦p do takiej wiedzy o tek±cie. 2.1. Korpus IPI PAN Podstawowym zasobem maj¡cym umo»liwi¢ nam realizacj¦ tego zadania jest tworzony w Zespole In»ynierii Lingwistycznej IPI PAN Korpus IPI PAN (dalej Kipi) najwi¦kszy dost¦pny publicznie zbiór tekstów w j¦zyku polskim, ujednolicony pod wzgl¦dem kodu (utf-8) i formatu (pliki XML, a dokªadniej XCES, czyli xml-owej wersji Corpus Encoding Standard opracowanego w ramach TEI Text Encoding Initiative ). Co wa»ne, powstaªy w ramach grantu KBN 7 T11C043 20 [Przepiórkowski, 2004; Przepiórkowski i in., 2003] Kipi jest anotowany morfosyntaktycznie (za pomoc¡ analizatora morfologicznego Morfeusz, [Woli«ski, 2006]). Dane leksykograczne dla Morfeusza byªy wprowadzane r¦cznie, lecz ju» proces dezambiguacji (ujednoznaczniania) anotacji byª dokonywany automatycznie, za pomoc¡ tagera wytrenowanego na tzw. próbce ucz¡cej [D¦bowski, 2004; Piasecki, 2006; 2007]. Obecnie korpus ten stanowi podstaw¦ do tworzenia dwóch kolejnych zasobów: sªownika walencyjnego2 j¦zyka polskiego (opracowywanego w ramach grantu 3 T11C 00328 kierowanego przez dra A. Przepiórkowskiego: [D¦bowski i Woli«ski, 2007; Fast i Przepiórkowski, 2005; Przepiórkowski i Fast, 2005; Przepiórkowski, 2006a; 2007a]) oraz polskiej wersji wordnetu (patrz poni»ej), które to zasoby powstaj¡ na bazie informacji wyst¦puj¡cych w korpusie. Prowadzone s¡ te» prace nad oznaczeniem granic fraz w zdaniach skªadaj¡cych si¦ na teksty korpusu [Przepiórkowski, 2006b; 2007b, Przepiórkowski i Buczy«ski, 2007]. 2.2. Sªowosie¢, czyli polski wordnet Sªowosie¢ dla j¦zyka polskiego (ang. plWordNet ) jest to sie¢ relacji semantycznych (np. synonimii, hiperonimii i meronimii) dla wybranych najcz¦stszych jednostek leksykalnych (jedno- lub wielowyrazowych). Sie¢ ta stanowi¢ ma tezaurus elektroniczny o strukturze zbli»onej do tezaurusa WordNet dla j¦zyka angielskiego oraz tezaurusów EuroWordNet skonstruowanych dla innych j¦zyków [Derwojedowa i in., 2007, 2008]. Jest ona tworzona w ra2 Sªownik walencyjny jest to sªownik zawieraj¡cy informacje o wymaganiach skªadniowych czasowników, czyli opisuj¡cy jakie frazy mog¡ by¢ ich argumentami na poszczególnych pozycjach skªadniowych. Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 13 mach grantu 3 T11C 01829 pt. Automatyczne metody konstrukcji sieci semantycznej leksemów polskich na potrzeby przetwarzania j¦zyka naturalnego kierowanego przez dra M. Piaseckiego z Instytutu Informatyki Stosowanej Politechniki Wrocªawskiej. W ramach prac nad Sªowosieci¡ dr Magdalena Zawisªawska stworzyªa wst¦pn¡ klasykacj¦ na grupy znaczeniowe (oparte na klasykacji oryginalnej), zwane dalej kategoriami semantycznymi. Gwoli ciekawo±ci warto zaznaczy¢, »e cz¦±¢ skªadaj¡cych si¦ na Sªowosie¢ zale»no±ci tak»e ma by¢ wydobywana automatycznie (na bazie tekstów zgromadzonych w Kipi). W pracach nad automatycznym tworzeniem sªownika subkategoryzacji semantycznej czasowników zamierzamy wykorzysta¢ informacje zgromadzone w Sªowosieci w sposób jak najbardziej precyzyjny, lecz pocz¡tkowo zamierzamy ograniczy¢ si¦ do wspomnianych kategorii semantycznych. 2.3. Sªownik syntaktyczno-semantyczny Jak wspomnieli±my powy»ej, sªownik walencyjny dopiero powstaje. W szczególno±ci, nie jest znany format, w jakim sªownik ten ma by¢ przechowywany. Jednak na u»ytek niniejszych rozwa»a« wystarczy wiedzie¢, »e ka»demu czasownikowi przypisany b¦dzie zbiór schematów (wzorców) walencyjnych, stanowi¡cych list¦ wymaga« skªadniowych danego czasownika, tzn. informacji o typie frazy (rzeczownikowa, przyimkowa, bezokolicznikowa itp.) i narzucanych na ni¡ ograniczeniach (np. przypadek dla fraz rzeczownikowych i przyimkowych). Taka struktura rozbudowana zostaje nast¦pnie o informacj¦ semantyczn¡ dotycz¡c¡ poszczególnych argumentów, czyli pochodz¡ce ze Sªowosieci kategorie semantyczne wyrazów (rzeczowników, czasowników, przysªówków) b¦d¡cych realizacjami tych argumentów w tek±cie. Oznacza to, »e schematy walencyjne zostan¡ rozbite na drobniejsze. Na przykªad zdania Piotr przejechaª maªego psa samochodem oraz Piotr przejechaª caªy kraj samochodem maj¡ identyczn¡ struktur¦ syntaktyczn¡, lecz ró»ne znaczenie. Jeste±my w stanie to wykry¢, gdy» pies ma kategori¦ semantyczn¡ zwierz¦, za± kraj ma kategori¦ miejsce. W rezultacie otrzymujemy posta¢ po±redni¡ sªownika, która w przybli»eniu wygl¡da nast¦puj¡co: • ka»demu czasownikowi przypisany jest zestaw schematów skªadniowo-semantycznych; • ka»demu schematowi przypisana jest (ponumerowana) lista argumentów; • ka»dy argument posiada sw¡ charakterystyk¦ syntaktyczn¡ (identyczn¡ jak w schemacie czysto skªadniowym) wraz z informacj¡, czy jest 14 El»bieta Hajnicz to argument wymagany czy opcjonalny. Przypisany mu te» jest zbiór (pochodz¡cych ze Sªowosieci) kategorii semantycznych. Przypisanie argumentowi caªego zbioru kategorii semantycznych w miejsce pojedynczego elementu wynika z faktu, »e zmiana kategorii semantycznej argumentu nie musi koniecznie oznacza¢ zmiany znaczenia czasownika. Na przykªad znaczenie czasownika kupi¢ nie zale»y od faktu, czy kupujemy krzesªo, psa czy ziemi¦. W ostatecznej postaci sªownika cz¦±¢ syntaktyczna i semantyczna b¦d¡ rozdzielone. W cz¦±ci semantycznej wymienione b¦d¡ wszystkie potencjalne argumenty czasownika wraz z kategoriami semantycznymi. Syntaktyczny sªownik walencyjny rozbudowany b¦dzie o odno±niki do realizowanych przez dany schemat skªadniowy wzorców semantycznych z wyszczególnieniem powi¡za« mi¦dzy argumentami. 3. Alternacje Funkcjonuje do±¢ powszechnie przyjmowany pogl¡d, »e istnieje zale»no±¢ pomi¦dzy leksykalnie semantyczn¡ reprezentacj¡ czasownika a syntaktyczn¡ realizacj¡ jego argumentów, wyra»ony w postaci Hipotezy ogólnego wyrównania (ang. Universal Alignment Hypothesis ) [Perlmutter, 1978; Perlmutter i Postal, 1984]. Hipoteza ta pozwala na przyj¦cie bardziej rygorystycznego zaªo»enia, »e czasowniki charakteryzuj¡ce si¦ analogicznymi wymaganiami skªadniowymi tworz¡ spójne semantycznie klasy [Levin, 1993; Levin i Rappaport Hovav, 2005]. Aby móc mówi¢ o analogicznych wymaganiach skªadniowych czasowników nie wystarczy jednak rozwa»a¢ ka»d¡ ich walencj¦ osobno. Okre±leniu, jakie wzorce syntaktyczne s¡ realizacjami jakich schematów znaczeniowych sªu»y wykrywanie zjawiska zwanego alternacj¡ b¡d¹ nieco w¦ziej diatez¡. W literaturze angloj¦zycznej deniuje si¦ alternacj¦ jako regularn¡ wariantywno±¢ w syntaktycznym uzewn¦trznieniu argumentów czasownikowych [McCarthy i Korhonen, 1998]. Dwa zdania tworz¡ alternacj¦, je±li: • ich znaczenie jest zbli»one (najlepiej identyczne): taka sama liczba argumentów; • znaczenie jednego jest uszczegóªowieniem znaczenia drugiego: ró»na liczba argumentów. W literaturze polskoj¦zycznej [Szupryczy«ska, 1973] mówi si¦ o zjawisku: • alternacji, gdy zmianie ulega jedynie posta¢ syntaktyczna poszczególnych argumentów; • transformacji, gdy zmianie ulega struktura zdania. Poni»ej wykorzystamy wygodne rozró»nienie na alternacje i transformacje stosowane w literaturze polskiej. Poniewa» jednak nie istnieje wyczerpu- Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 15 j¡ca semantyczna klasykacja omawianego zjawiska w j¦zyku polskim, b¦dziemy posªugiwa¢ si¦ terminologi¡ angielsk¡. W poni»szym omówieniu zamierzamy powi¡za¢ zjawisko alternacji i transformacji struktury syntaktycznej wypowiedze« (argumentów czasowników) z ich semantyczn¡ charakterystyk¡. Jak zobaczymy, nie jest to powi¡zanie jednoznaczne. Nale»y tak»e pami¦ta¢, »e naszym dalekosi¦»nym celem jest automatyczne wykrywanie omawianego zjawiska. Dlatego w przykªadach prezentowanych w dalszej cz¦±ci tekstu b¦dziemy prezentowa¢ wyª¡cznie takie czasowniki, których frekwencja w korpusie daje szans¦ wykrycia poszukiwanych zale»no±ci metodami statystycznymi (cho¢ bynajmniej nie gwarantuje tego ze wzgl¦du na nierównomiern¡ dystrybucj¦ alternuj¡cych wariantów). 3.1. Alternacje pojedynczego argumentu W wi¦kszo±ci wypadków zjawisko alternacji zachodzi dla pojedynczego argumentu czasownika. • alternacja biernikdopeªniacz broni¢: dodawa¢: kupi¢: dziecko/dziecka, kobiet¦/kobiety (ale: *racj¦/racji) olej/oleju, pomidory/pomidorów chleb/chleba, ogórki/ogórków, cukier/cukru (ale: samochód/*samochodu, pralk¦/*pralki) • alternacja bierniknarz¦dnik rzuca¢: kamie«/kamieniem, piªk¦/piªk¡ • alternacja biernikfraza przyimkowa dochodzi¢: przechodzi¢: granicy / do granicy, celu / do celu, prawdy / do prawdy (ale: *przystanku / do przystanku) ulic¦ / przez ulic¦ • alternacja dopeªniaczfraza przyimkowa: ba¢ si¦ burzy / z powodu burzy, nauczyciela / przez nauczyciela • alternacja pomi¦dzy wyra»eniami przyimkowymi: zapa±¢ si¦ w ±nieg / w ±niegu Jak wida¢, w wypadku niektórych czasowników alternacja zachodzi jedynie dla wybranych argumentów. Zazwyczaj warunkowane to jest ich charakterystyk¡ semantyczn¡. Warunkiem mo»e by¢ partytywno±¢ argumentu (chleb dla czasownika kupi¢ ). Innym warunkiem jest »ywotno±¢ argumentu (kobieta dla czasownika broni¢ ). Mo»e to te» by¢ jego abstrakcyjno±¢ (cel dla dochodzi¢ ). Warto zauwa»y¢, »e dla cz¦±ci czasowników zachodzenie alternacji zale»y od ich aspektu: ukroi¢ tort /tortu ale kroi¢ tort /*tortu, lizn¡¢ krem /kremu ale liza¢ krem /*kremu. Niestety, nie s¡ to czasowniki dostatecznie cz¦ste 16 El»bieta Hajnicz w korpusie, by mogªy zosta¢ wybrane do automatycznej analizy, nie mniej jednak warto o tym fakcie pami¦ta¢ na przyszªo±¢. Powy»sze alternacje, cho¢ do pewnego stopnia ró»nicowaªy kategorie argumentów, nie posiadaªy gª¦bszego znaczenia semantycznego. Jednak poni»sze dwie alternacje, datywna i benefaktywna, s¡ bardzo cz¦sto wspominane w literaturze przedmiotu [Levin i Rappaport Hovav, 2005], tak»e w zakresie analizy automatycznej [Joanis i Stevenson, 2003, Lapata i Brew, 2004]. Zauwa»my przy okazji, »e w tym wypadku alternacja dotyczy drugiego wymagania czasownika (pierwsze, biernikowe, nie ulega zmianie). • alternacja celownikfraza przyimkowa: do + D (alternacja datywna) Jan posªaª /odniósª ksi¡»k¦ Piotrowi / do Piotra Jan zgªaszaª uwagi dyrektorowi / do dyrektora Jan zgªaszaª uwagi zarz¡dowi / do zarz¡du Problem Fabryka wysªaªa szaf¦ klientowi / do klienta Fabryka wysªaªa szaf¦ rmie / do rmy Piotra Fabryka wysªaªa szaf¦ do magazynu / *magazynowi Problem Jan daª ksi¡»k¦ Piotrowi / *do Piotra Jan daª ksi¡»k¦ do introligatora / (−)introligatorowi Jan daª ksi¡»k¦ do introligatora / introligatorowi do oprawy dla + D (alternacja benefaktywna) Piotr zostawiª /przekazaª wiadomo±¢ Annie / dla Anny Maria kupiªa zabawki dziecku / dla dziecka Piotr zrobiª dziecku zabawk¦ / zabawk¦ dla dziecka Autor przygotowaª scenariusz re»yserowi / dla re»ysera Problem Jan posªaª ksi¡»k¦ dla Piotra (przez jego siostr¦) Jan posªaª /daª ksi¡»k¦ Piotrowi dla Marii Na pocz¡tek nale»y zauwa»y¢, »e jeden ze schematów walencyjnych uczestnicz¡cych w obu tych zjawiskach wymaga na pozycji dopeªnienia frazy rzeczownikowej w celowniku. Jednak wymaganiem alternatywnym jest raz fraza przyimkowa do, a za drugim razem dla. Ró»nica ta ma powa»ne konsekwencje semantyczne: w pierwszym wypadku argument peªni rol¦ semantyczn¡ odbiorcy, a w drugiej benecjenta. Tym wa»niejsza jest obserwacja, »e wykrycie, która z tych dwóch alternacji zachodzi dla danego czasownika wcale nie jest proste. Stwierdzenie, »e odbiorc¡ akcji datywnych mo»e by¢ wyª¡cznie czªowiek, zwierz¦ lub grupa ludzi (w tym instytucja) jest do±¢ oczywiste3 . 3 W wypadku czasowników benefaktywnych w ogóle nie da si¦ u»y¢ innego typu rze- Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 17 Pierwszy problem stanowi czasownik da¢ zdaj¡cy si¦ sztandarowym czasownikiem datywnym, a jego dopeªnieniem jest odbiorca. Jednak (w przeciwie«stwie do angielskiego give ) podleganie tego czasownika alternacji datywnej jest w¡tpliwe. Przede wszystkim, typowy o»ywiony odbiorca akcji mo»e by¢ wyra»ony wyª¡cznie w (bardziej zapewne naturalnym) schemacie celownikowym. W tym znaczeniu da¢ jest bliskoznaczne z oarowa¢ : sugeruje, »e odbiorca jest odbiorc¡ docelowym, ostatecznym. Podmiana tych czasowników w zdaniach dotycz¡cych introligatora uwidacznia ró»nic¦ znacze«4 : Jan oarowaª ksi¡»k¦ introligatorowi *do oprawy. Mo»na co± oarowa¢ introligatorowi jak ka»demu, jednak nie mo»na oarowa¢ tego w jakim± celu. Czasownik da¢ ma wi¦c dwa znaczenia: jedno w schemacie celownikowym, drugie w schemacie przyimkowym. Zachodz¡ca tu alternacja jest wi¦c jedynie pozorna. Jednak automatyczne wykrycie tego faktu wymaga subtelnego podej±cia. Podej±cie oparte na opisanych w rozdziale 2.2 kategoriach semantycznych wykryje jedynie dysproporcj¦ w wyst¦powaniu czasownika da¢ w obu schematach. Nie jest to jednak dostateczny sygnaª do odrzucenia takiej informacji, gdy» rozkªad realizacji podlegaj¡cym alternacji schematów skªadniowych czasownika w korpusie wcale nie musi by¢ równomierny [Merlo i Stevenson, 2001]. Zale»y on od typu alternacji, wi¦c istotne mo»e by¢ porównanie zachowania caªego zbioru czasowników potencjalnie podlegajacych alternacji danego typu. Najwa»niejszym jednak problemem jest fakt, »e czasowniki podlegaj¡ce alternacji datywnej mog¡ wyst¦powa¢ równie» z fraz¡ przyimkow¡ dla. Co wi¦cej, na tej pozycji mog¡ znajdowa¢ si¦ analogiczne argumenty jak w wypadku fraz celownikowej i do (ª¡cznie z instytucjami). Tak»e w tym wypadku wyst¦powanie alternacji jest iluzoryczne: fraza dla zawsze wyznacza benecjenta. Jedyn¡ sugesti¡ (poza oczywist¡, bardzo siln¡ dysproporcj¡ wyst¡pie«) jest istnienie dla tych czasowników schematu, który zawiera dwa wymagania: fraza rzeczownikowa w celowniku (lub przyimkowa do) oraz przyimkowa dla. Poza tym mo»na arbitralnie narzuci¢ wy»szy priorytet alternacji datywnej ni» benefaktywnej. Specycznym i do±¢ rzadkim przykªadem alternacji celownikfraza przyimkowa jest: • mi¦dzy + D Mikoªaj rozdaª prezenty dzieciom / mi¦dzy dzieci W tym wypadku odbiorca (benecjent?) musi stanowi¢ zbiorowo±¢. czowników; por. Piotr zostawiª /przekazaª krzesªo *magazynowi / *dla magazynu. 4 Oarowa¢ w ogóle nie posiada schematu z do. 18 El»bieta Hajnicz 3.2. Alternacje dwóch argumentów Istniej¡ jednak sytuacje, w których mamy do czynienia z równoczesn¡ alternacj¡ dwóch argumentów czasownika. Co wa»niejsze, nie s¡ to zjawiska niezale»ne, lecz warunkuj¡ce si¦ nawzajem. Podstawowym przykªadem takiego zjawiska jest alternacja lokatywna: • alternacja hbiernik, narz¦dniki hfraza przyimkowa, bierniki Piotr (za )ªadowaª wóz /worek ziemniakami Piotr (za )ªadowaª ziemniaki na wóz / do worka • alternacja hbiernik, fraza przyimkowai hfraza przyimkowa, bierniki Piotr posprz¡taª baªagan w pokoju Piotr posprz¡taª pokój z baªaganu Maria wytarªa (kurz) (z póªki / na póªce) Maria wytarªa póªk¦ (z kurzu) • transformacja hpodmiot, dopeªnienie (narz¦dnik)i hfraza przyimkowa, podmioti Ogród /Pole pachnie kwiatami (od kwiatów ) Kwiaty pachn¡ w ogrodzie / na polu (W ogrodzie / Na polu pachnie kwiatami / od kwiatów ) Warto zwróci¢ uwag¦, »e w ostatnim wypadku mamy do czynienia z transformacj¡ struktury zdania, gdy» za takow¡ nale»y uzna¢ przesuni¦cie dopeªnienia na pozycj¦ podmiotu (i vice versa ). Ponadto dla czasownika zaªadowa¢ i innych podobnych konstrukcji narz¦dnikowych mamy do czynienia jedynie z przybli»on¡ parafraz¡, gdy» oznacza on zapeªnienie wozu /worka, gdy tymczasem posta¢ zdania z fraz¡ przyimkow¡ takiego wymagania nie stawia. Peªna parafraza pojawia si¦ jedynie dla czasownika niedokonanego (ªadowa¢ ). Zauwa»my, »e we wszystkich powy»szych przykªadach przyimek determinuj¡cy miejsce (na wóz / do worka, na polu / w ogrodzie ) zale»y od rzeczownika, nie od czasownika. Ponadto musi to by¢ przyimek okre±laj¡cy to miejsce, a nie poªo»enie wzgl¦dem niego: u»ycie fraz pod wóz, koªo worka, za ogrodem, przy polu, obok pokoju w powy»szych zdaniach nie prowadziªoby do powstania parafrazy wzgl¦dem zda« zawieraj¡cych odpowiednie rzeczowniki na pozycji podmiotu, a wi¦c nie mieliby±my do czynienia z alternacj¡. Niestety, »aden z czasowników podlegaj¡cych alternacji lokatywnej nie jest dostatecznie cz¦sty w Kipi, by móc bra¢ pod uwag¦ jej automatyczne wykrywanie przy wykorzystaniu obecnie dost¦pnych zasobów. 3.3. Transformacja zwrotna Chocia» powy»ej uznali±my alternacj¦ lokatywn¡ za przypadek transforma- Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 19 cji, klasyczne poj¦cie transformacji ma zwi¡zek ze zmian¡ strony czasownika. Typowym przykªadem transformacji jest wi¦c transformacja bierna. Poniewa» jednak jest to przeksztaªcenie o charakterze standardowym, zachodz¡ce dla w s z y s t k i c h czasowników przechodnich, nie zamierzamy si¦ nim w niniejszym omówieniu zajmowa¢. Skupimy si¦ na znacznie ciekawszym zjawisku transformacji zwrotnej, zwi¡zanej z przej±ciem czasownika ze strony czynnej do strony zwrotnej. Z transformacj¡ zwrotn¡ mamy do czynienia w nast¦puj¡cych przypadkach: 1. Nie zachodz¡ zmiany skªadniowe: a. si¦ zwrotne broni¢ »ony (przed atakiem) zapisa¢ dziecko do szkoªy − − broni¢ si¦ (przed atakiem) zapisa¢ si¦ do szkoªy Konstrukcje takie charakteryzuje mo»liwo±¢ zamiany partykuªy si¦ na zaimek zwrotny siebie. b. si¦ dostawione5 pyta¢ o drog¦ − pyta¢ si¦ o drog¦ 2. Czasownik zwrotny zmienia struktur¦ poª¡czenia (wymaganie skªadniowe dopeªnienia): a. zmienia przypadek rzeczownika: • transformacja biernik → dopeªniacz dzieli¢ wra»enia podj¡¢ prac¦ trzyma¢ por¦cz − − − wykaza¢ odwag¦ wymieni¢ adresy − − dzieli¢ si¦ wra»eniami podj¡¢ si¦ pracy trzyma¢ si¦ por¦czy • transformacja biernik → narz¦dnik wykaza¢ si¦ odwag¡ wymieni¢ si¦ adresami b. biernik przechodzi w wyra»enie przyimkowe: • transformacja B → do+D (na+B) przygotowywa¢ wyst¡pienie organizowa¢ akcj¦ − − • transformacja B → w+Msc kocha¢ dziewczyn¦ ¢wiczy¢ biegi poprawia¢ wyniki 5 − − − przygotowywa¢ si¦ do wyst¡pienia organizowa¢ si¦ do akcji (na akcj¦) kocha¢ si¦ w dziewczynie ¢wiczy¢ si¦ w biegach poprawia¢ si¦ w wynikach W wypadku czasownika prosi¢ dostawienie si¦ zmienia znaczenie wypowiedzenia na pejoratywne. W rezultacie s¡ one u»ywane w nieco innych kontekstach, np. prosi¢ o pomoc i prosi¢ si¦ o kªopoty. Jednak rozró»nienie tych kontekstów w ramach analizy automatycznej wymaga dokªadnych danych ze Sªowosieci. 20 El»bieta Hajnicz • transformacja B → z+N kry¢ swoje naªogi deklarowa¢ pomoc narzuca¢ swoje towarzystwo spotka¢ znajomego bawi¢ dziecko − − − − − kry¢ si¦ ze swoimi naªogami deklarowa¢ si¦ z pomoc¡ narzuca¢ si¦ ze swoim towarzystwem spotka¢ si¦ ze znajomym bawi¢ si¦ z dzieckiem Warto zauwa»y¢, »e ostatnia transformacja ma charakter dwojaki. W pocz¡tkowych trzech zdaniach mamy si¦ zwrotne, w kolejnych dwóch si¦ wzajemne (recyprokalne ), wyst¦puj¡ce wyª¡cznie w liczbie mnogiej. Ró»nica ta objawia si¦ tak»e »ywotno±ci¡ dopeªnienia. Czasowniki z si¦ recyprokalnym charakteryzuje potencjalna ª¡czliwo±¢ z partykuª¡ nawzajem ew. z fraz¡ ze sob¡. Przyjrzyjmy si¦ innym bardziej konkretnym przykªadom ilustruj¡cym to zjawisko: Jan spotyka Piotra Jan spotyka si¦ z Piotrem Jan i Piotr spotykaj¡ si¦ (ze sob¡) Jan lubi Piotra Jan lubi si¦ z Piotrem Jan z Piotrem lubi¡ si¦ (nawzajem /ze sob¡) Jan i Piotr lubi¡ si¦ (nawzajem /ze sob¡) Zjawisko to tak»e mo»e dotyczy¢ czasowników z si¦ morfologicznym: Jan ró»ni si¦ od Piotra Jan z Piotrem ró»ni¡ si¦ (mi¦dzy sob¡) Jan i Piotr ró»ni¡ si¦ (mi¦dzy sob¡) We wszystkich tych przypadkach (poza ostatnim) parafraza jest do±¢ ograniczona, gdy» wypowiedzenie w stronie czynnej sugeruje bierno±¢ Piotra, która jest obiektem (a dokªadniej mówi¡c kontragensem), a nie agensem akcji. Pokazuj¡ to nast¦puj¡ce przykªady: Jan pocaªowaª zdj¦cie Marii *Jan i zdj¦cie Marii pocaªowali si¦ Samochód zderzyª si¦ z ci¦»arówk¡ Samochód i ci¦»arówka zderzyªy si¦ Samochód zderzyª si¦ ze sªupem *Samochód i sªup zderzyªy si¦ Oczywiste jest, »e zdj¦cie i sªup nie mog¡ peªni¢ roli agensa, cho¢ doskonale mieszcz¡ si¦ w roli obiektu. Istniej¡ tak»e przypadki transformacji zwrotnej tego typu, gdy dochodzi do modykacji znaczenia wypowiedzenia. Doskonaªym przykªadem takiego zjawiska jest: Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 21 • transformacja B → od+D / przed+N (po )wstrzyma¢ rozlew krwi − wstrzyma¢ dalsz¡ prac¦ − (po )wstrzyma¢ si¦ od rozlewu krwi / / przed rozlewem krwi powstrzyma¢ si¦ od dalszej pracy W wypadku konstrukcji czynnej mamy do czynienia z niejawnym kontragensem akcji, gdy tymczasem w konstrukcji zwrotnej jest nim sam agens, co sugeruje wªa±nie obecno±¢ partykuªy si¦. Z jednej strony wi¦c przypomina to sytuacj¦ z punktu 1, tyle »e tam nie zachodziªa zmiana struktury skªadniowej, gdy» w konstrukcji czynnej obiekt wyst¦powaª jawnie. Mo»liwa jest wszak tak»e konstrukcja powstrzyma¢ kogo± przed rozlewem krwi. Z drugiej strony przypomina to omówion¡ poni»ej alternacj¦ kauzatywn¡, w wypadku której tak»e nast¦puje zmniejszenie liczby wyst¦puj¡cych jawnie argumentów. Sposoby automatycznego wykrywania takich alternacji tak»e powinny wi¦c by¢ podobne. 3. Czasownik zwrotny zmienia struktur¦ zdania: a. podmiot czynny =⇒ narz¦dnik lub wyra»enie przyimkowe dopeªnienie (biernikowe) =⇒ • Oba podmioty »ywotne Pracownicy interesuj¡ szefa Córka martwi matk¦ Konduktor informuje Piotra Dyrektor zatrudnia pracownika Kancelista zapisuje interesantów podmiot zwrotny ⇔ ⇔ ⇔ ⇔ ⇔ Szef interesuje si¦ pracownikami Matka martwi si¦ o/przez córk¦ Piotr informuje si¦ u konduktora Pracownik zatrudnia si¦ u dyrektora Interesanci zapisuj¡ si¦ u kancelisty Sukces cieszy ucznia ⇔ Firma zatrudnia pracownika Kancelaria zapisuje interesantów ⇔ ⇔ Nó» zraniª Jana Ciekawo±¢ charakteryzuje ludzi ⇔ ⇔ Ucze« cieszy si¦ sukcesem / z powodu sukcesu Pracownik zatrudnia si¦ w rmie Interesanci zapisuj¡ si¦ w kancelarii Jan zraniª si¦ no»em Ludzie charakteryzuj¡ si¦ ciekawo±ci¡ • »ywotny podmiot zwrotny Jak ªatwo zauwa»y¢, w powy»szych dwóch klasach du»a cz¦±¢ czasowników powtarza si¦. Wyró»niaj¡ si¦ w±ród nich dwie wyra¹ne grupy. Dla czasowników z grupy emocji mamy do czynienia z o»ywion¡ b¡d¹ nie przyczyn¡. Co charakterystyczne, wszystkie te czasowniki dopuszczaj¡ wymian¦ na frazy przyimkowe przez/z powodu. Nie zmienia to faktu, »e jedne czasowniki mog¡ preferowa¢ podmiot czynny »ywotny lub nie. Na przykªad dla czasownika stresowa¢ preferowany jest podmiot nie»ywotny (Problem /Pracownik stresuje szefa ). Warto ponadto zauwa»y¢, »e zmiana strony nie zmienia agensa, zawsze jest nim podmiot konstrukcji zwrotnej. 22 El»bieta Hajnicz W drugiej grupie czasowników podmiot czynny stanowi¡ ludzie oraz zatrudniaj¡ce ich instytucje. Charakteryzuj¡ si¦ wymian¡ na fraz¦ przyimkow¡ u+D dla podmiotu »ywotnego oraz na/w+MSc dla podmiotu nie»ywotnego.6 Zmiana agensa jest wyra¹na (dla obu argumentów »ywotnych, w wypadku podmiotu nie»ywotnego mo»emy mie¢ do czynienia z przyczyn¡ (nó» )). • »ywotny podmiot czynny Publiczno±¢ wypeªniªa teatr Ludzie przyj¦li zwyczaj ⇔ ⇔ Spoªeczno±¢ przyj¦ªa zwyczaj Robotnicy rozpocz¦li strajk (w fabryce) ⇔ ⇔ • Oba podmioty nie»ywotne Nauki biologiczne przyj¦ªy teori¦ ewolucji Woda wypeªniªa szklank¦ Owacje zako«czyª przedstawienie Wiatr otwiera drzwi b. podmiot czynny dopeªnienie (biernikowe) Teatr wypeªniª si¦ publiczno±ci¡ Zwyczaj przyj¡ª si¦ w±ród ludzi / mi¦dzy lud¹mi Zwyczaj przyj¡ª si¦ w spoªeczno±ci Strajk rozpocz¡ª si¦ (w fabryce) ⇔ Teoria ewolucji przyj¦ªa si¦ w naukach biologicznych Szklanka wypeªniªa si¦ wod¡ Przedstawienie zako«czyªo si¦ owacjami Drzwi otwieraj¡ si¦ od wiatru =⇒ =⇒ celownik lub wyra»enie przyimkowe podmiot zwrotny ⇔ ⇔ ⇔ Syn urodziª si¦ hrabinie / u hrabiny Oczy zamkn¦ªy si¦ Piotrowi Usta otworzyªy si¦ Piotrowi (ze zdziwienia) ⇔ ⇔ ⇔ Hrabina urodziªa syna Piotr zamkn¡ª oczy Piotr otworzyª usta (ze zdziwienia) Tak»e w tym wypadku strona zwrotna u»ywana jest w znaczeniu biernym. c. alternacja kauzatywna podmiot czynny =⇒ znika (ew. wyr. przyimkowe) dopeªnienie (biernikowe) =⇒ podmiot zwrotny Prezes zako«czyª spotkanie Piotr otworzyª drzwi (kluczem) ⇔ ⇔ Spotkanie zako«czyªo si¦ Drzwi otworzyªy si¦ Alternacja kauzatywna jest najcz¦±ciej w literaturze omawianym przypadkiem alternacji [McCarthy, 2000; Merlo i Stevenson, 2001; Rappaport i Hoav, 2005], warto wi¦c chyba po±wi¦ci¢ jej troch¦ wi¦cej uwagi. Niestety, klasyczne przykªady omawiane w literaturze dotycz¡ czasowników, które nie wyst¦puj¡ w Kipi zbyt cz¦sto. Co prawda niektóre ze wcze±niej omawianych 6 Takie zró»nicowanie wyst¦puje tak»e dla innych czasowników niepodlegaj¡cych transformacji czynnej, np. kupowa¢ chleb u /od piekarza / w piekarni, zaªatwia¢ sprawy u urz¦dnika / w urz¦dzie, zamówi¢ lustro u szklarza / w zakªadzie szklarskim. Jednak kwestie te wykraczaj¡ poza zakres bie»¡cej analizy. Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 23 przykªadów mo»na uzna¢ za przypadki alternacji kauzatywnej, np. Nó» zraniª Jana czy Wiatr otwiera drzwi, jednak na pewno nie s¡ to przykªady standardowe. Dlatego pozwolimy sobie omówi¢ kilka przykªadów, mimo »e w ich wypadku nie mo»emy liczy¢ na automatyczne wykrywanie tej alternacji. Piotr zbiª szyb¦ (piªk¡) Piªka zbiªa szyb¦ Szyba zbiªa si¦ Kelner stªukª caª¡ tac¦ szklanek Caªa taca szklanek stªukªa si¦ (kelnerowi) Kucharz stopiª masªo (w garnku / na ogniu / ?ogniem) Ogie« /*Garnek stopiª masªo Masªo stopiªo si¦ Ciotka upiekªa ciasto (w piekarniku) Ciasto upiekªo si¦ (ciotce) (w piekarniku) Kelner napeªnia kieliszki (winem) Kieliszki napeªniaj¡ si¦ (winem) (Wino napeªnia kieliszki ) Powy»sze przykªady alternacji kauzatywnej dotyczyªy czasowników, dla których w schemacie nieprzechodnim podmiot stanowi obiekt akcji. Alternacja taka zachodzi tak»e dla czasowników, dla których w schemacie nieprzechodnim podmiot stanowi agens akcji (odbiorca w schemacie przechodnim czasownika): Je¹dziec pop¦dziª /pognaª konia (przez las) Ko« pop¦dziª /pognaª (przez las) Piotr powlókª Mari¦ do kina Maria powlokªa si¦ (z Piotrem) do kina Nadzorca zaharowaª /zam¦czyª niewolników (na ±mier¢) Niewolnicy zaharowali /zam¦czyli si¦ (na ±mier¢) Alternacja kauzatywna cz¦sto zachodzi nie dla wszystkich wyst¡pie« czasownika (o tej samej walencji), co zazwyczaj wskazuje na ró»nice znaczeniowe mi¦dzy tymi wyst¡pieniami: Jan zbiª psa (kijem) *Kij zbiª psa *Pies zbiª si¦ Co ciekawsze, w obu wypadkach argumenty czasownika zbi¢ peªni¡ tak¡ sam¡ rol¦ semantyczn¡: agensa, obiektu i narz¦dzia. Z drugiej strony mo»emy mie¢ do czynienia z pozorn¡ alternacj¡, jak w przykªadzie: Matka myje dziecko (g¡bk¡) Dziecko myje si¦ (g¡bk¡) *G¡bka myje dziecko 24 El»bieta Hajnicz Tym razem nie mamy do czynienia z alternacj¡ kauzatywn¡, gdy» w jej przypadku to narz¦dzie, a nie obiekt, ma preferencj¦ do realizacji na pozycji podmiotu. Wydaje si¦ ponadto, »e alternacja taka nie powinna by¢ dopuszczalna, gdy obiekt nale»y do tej samej klasy semantycznej co agens (wyznaczonej dla tego czasownika), tzn. mo»e wyst¡pi¢ na pozycji podmiotu w zdaniu bardziej szczegóªowym (Dziecko myje siostrzyczk¦ ). Jednak tej obserwacji przecz¡ wspomniane powy»ej (rzadkie co prawda) przypadki czasowników powlec, zaharowa¢, zam¦czy¢. Do zupeªnej konsternacji prowadzi jeszcze kolejny przypadek: Piotr zraniª Jana (no»em) Jan zraniª si¦ (no»em) Nó» zraniª Jana W tym wypadku, podobnie jak dla czasownika my¢, pierwsze dwa zdania nie stanowi¡ przypadku alternacji, mimo »e narz¦dzie (nó» ) mo»e przesun¡¢ si¦ na pozycj¦ podmiotu... Klasykacja tych przypadków i znalezienie kryteriów umo»liwiaj¡cych ich rozró»nienie, zwªaszcza metodami automatycznymi, to zadanie do dalszych bada«. 4. Podsumowanie W niniejszym omówieniu zaprezentowali±my przegl¡d czasowników podlegaj¡cych zjawisku alternacji wymaga« skªadniowych b¡d¹ transformacji struktury skªadniowej. Naszym dalekosi¦»nym celem jest automatyczne wykrywanie tych zjawisk. Dlatego skupili±my si¦ na czasownikach, które wyst¦puj¡ w Kipi na tyle cz¦sto, by automatyczna analiza miaªa szans¦ powodzenia. Prezentacja ta pokazuje jednak, jak trudne to b¦dzie zadanie. Przede wszystkim, ró»ne przypadki alternacji, a zwªaszcza transformacji, wykazuj¡ odmienne zachowania, przede wszystkim pod wzgl¦dem dystrybucji argumentów pomi¦dzy alternuj¡ce wypowiedzenia. Zró»nicowanie zbiorów tych argumentów (i ich kategorii semantycznych) mo»e by¢ wynikiem zarówno niejednoznaczno±ci czasownika (przejecha¢ most / przez most vs. przejecha¢ psa / *przez psa ) jak i ró»nic w znaczeniu samego argumentu (da¢ ksi¡»k¦ do introligatora / introligatorowi do oprawy / Piotrowi / *do Piotra ). Alternacje mog¡ mie¢ te» pewne priorytety zachodzenia, np. alternacja datywna nad benefaktywn¡. Mo»e wi¦c okaza¢ si¦, »e nie da si¦ uzyska¢ jednolitej metody automatycznego wykrywania ró»nych typów alternacji/transformacji, i konieczne b¦dzie przyj¦cie zaªo»e« wªa±ciwych dla poszczególnych zjawisk. Niniejsze opracowanie wskazuje nam, na jakie puªapki nale»y zwraca¢ uwag¦. Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 25 Bibliograa Baker, C. F., Fillmore, C. J. i Lowe, J. B. (1998) The Berkeley FrameNet Project, Proceedings of COLING-ACL'98 Conference, Montreal, Canada: 86 90. Baker, C. F., Fillmore, C. J. i Cronin, B. (2003) The structure of the Framenet database, International Journal of Lexicography 16 3 : 281296. Dang, H.T., Kipper, K. i Palmer, M. (2000) Integrating compositional semantics into a verb lexicon, Proceedings of the 18th International Conference on Computational Linguistics (COLING-2000), Saarbrücken, Germany. Dang, H.T., Kipper, K., Palmer, M. i Rosenzweig, J. (1998) Investigating regular sense extensions based on intersective Levin classes, Proceedings of COLING-ACL'98 Conference, Montreal, Canada: 293299. Davidson, D. (1967) The logical form of action sentences, w W. N. Rescher (red.) The logic of decisions and actions, University of Pittsburgh Press, Pittsburgh, PA: 81120. Derwojedowa, M., Piasecki, M., Szpakowicz, St. i Zawisªawska, M. (2007) Polish WordNet on a Shoestring, Data Structures for Linguistic Resources and Applications: Proceedings of the GLDV 2007 Biannual Conference of the Society for Computational Linguistics and Language Technology, Universität Tübingen. Derwojedowa, M. Zawisªawska, M., Bili«ska J. i Gª¡bska M. (2008) Nouns in the WordNet for Polish, Études Cognitives 8, SOW, Warszawa, Poland: 211222. D¦bowski, . (2004) Trigram morphosyntactic tagger for Polish, Proceedings of the IIS:IIPWM'04 Conference, Intelligent Information Processing and Web Mining, Springer: 409413. D¦bowski, . i Woli«ski, M.(2007) Argument co-occurrence matrix as a de- scription of verb valence, Proceedings of the 3rd Language & Technology Conference, Pozna«, Poland. Fast, J. Przepiórkowski, A. (2005) Automatic Extraction of Polish Verb Sub- categorization: An Evaluation of Common Statistics, Proceedings of the 2nd Language & Technology Conference, Pozna«, Poland: 191-195. Fellbaum, C., red. (1998) WordNet an electronic lexical database, MIT Press, Cambridge, MA. Fillmore, C. J., Baker, C. F. i Sato, H. (2002) The FrameNet database and software tools, Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC), Las Palmas, Spain: 11571160. Fillmore, C. J., Johnson, C. R. i Petruck, M. R. L. (2003) Background to FrameNet, International Journal of Lexicography 16 3 : 235250. 26 El»bieta Hajnicz Gillette, J., Gleitman, H., Gleitman, L. i Lederer, A. (1999) Human simulation of vocabulary learning, Cognition 73: 135176. Gleitman, L. (1990) The structural sources of verb meanings, Language Acquisition: A Journal of Developmental Linguistics 1 (1) : 355. Hajnicz, E. i Kup±¢, A. (2001) Przegl¡d analizatorów morfologicznych dla j¦zyka polskiego, Prace IPI PAN 937, Warszawa. Joanis, E. i Stevenson, S. (2003) A general feature space for automatic verb classication, Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL-2003), Budapest, Hungary: 163170. Kamp, H. i Reyle, U. (1993) From discourse to logic, Kluwer, Dordrecht. Kingsbury P. i Palmer, M. (2002) From TreeBank to PropBank Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC), Las Palmas, Spain: 19891993. Kingsbury P. Palmer, M., i Marcus, M. (2002) Adding semantic annotation to the Penn TreeBank, Proceedings of the Human Language Technology Conference, San Diego, CA: 252256. Kipper, K., Dang, H. T. i Palmer, M. (2000) Class-based construction of a verb lexicon, Proceedings of the 17th National Conference on Articial Intelligence AAAI-2000 : 691696. Kipper, K., Snyder, B. i Palmer, M. (2004) Using prepositions to extend a verb lexicon, Proceedings of the HLT/NAACL Workshop on Computational Lexical Semantics, Boston, MA: 2329. Landman, F. (2000) Events and plurality, Kluwer, Dordrecht, Holland. Lapata, M. i Brew, C. (2004) Verb class disambiguation using informative priors, Computational Linguistics 30 (1),: 4573. Levin, B. (1993) English verb classes and alternation: a preliminary investigation, University of Chicago Press. Levin, B. i Rappaport Hovav, M. (2005) Argument Realisation, Cambridge University Press. McCarthy, D. (2000) Using semantic preferences to identify verbal participa- tion in role switching alternations, Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2000), Seattle WA: 256263. McCarthy, D. i Korhonen, A. (1998) Detecting verbal participation in diathesis alternations, Proceedings of the COLING-ACL'98 Conference, Montreal, Canada: 14931495. Od tekstu do znaczenia: przyczynki do automatycznego tworzenia sªownika. . . 27 Merlo, P. i Stevenson, S. (2001) Automatic verb classication based on statistical distributions of argument structure, Computational Linguistics 27 (3) : 373408. Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D. i Miller, K. (1990) Introduction to WordNet: an on-line lexical database, International Journal of Lexicography 3 (4) : 235244. Obr¦bski, T. (2002) Automatyczna analiza skªadniowa j¦zyka polskiego z wykorzystaniem gramatyki zale»no±ciowej, praca doktorska, IPI PAN, Warszawa. Parsons, T. (1990) Events in the semantics of English, MIT Press, Cambridge, MA. Perlmutter, D.M. (1978) Impersonal passives and the unaccusative hypothesis, Proceedings of the 4th Annual Meeting of the Berkeley Linguistics Society, Berkelay Linguistics Society, Berkelay, CA: 157189. Perlmutter, D.M. i Postal, P.M. (1984) The 1-advancement exlusiveness law, w D.M. Perlmutter i C. Rosen (red.) Studies in Relational Grammar 2, University of Chicago Press, Chicago, IL: 81125. Piasecki, M. (2006) Hand-written and Automatically Extracted Rules for Polish Tagger, w Petr Sojka, Ivan Kopecek i Karel Oliva (red.), Brno 2006 Proceedings of Text, Speech and Dialog, LNCS, Springer, Berlin. Piasecki, M. i Godlewski, G. (2006) Eective Architecture of the Polish Tagger, w Petr Sojka, Ivan Kopecek i Karel Oliva (red.), Brno 2006 Proceedings of Text, Speech and Dialog, LNCS, Springer, Berlin. Przepiórkowski, A. (2004) Korpus IPI PAN. Wersja wst¦pna, Instytut Podstaw Informatyki PAN, Warszawa. Przepiórkowski, A. (2006a) What to acquire from corpora in automatic valence acquisition, w Violetta Koseska-Toszewa and Roman Roszko, (red.) Semantyka i konfrontacja j¦zykowa, 3. Przepiórkowski, A. (2006b) On Heads and Coordination in a Partial Treebank, Proceedings of the TLT 2006 : 163-174. Przepiórkowski, A. (2007a) On Heads and Coordination in Valence Acquisi- tion, Proceedings of the Computational Linguistics and Intelligent Text Processing (CICLing 2007), Springer Verlag, LNCS series: 50-61. Przepiórkowski, A. (2007b) A Preliminary Formalism for Simultaneous Rule- Based Tagging and Partial Parsing, Data Structures for Linguistic Resources and Applications: Proceedings of the GLDV 2007 Biannual Conference of the Society for Computational Linguistics and Language Technology, Universität Tübingen, Gunter Narr Verlag: 81-90. Przepiórkowski, A., Ba«ski, P., D¦bowski, ., Hajnicz, E. i Woli«ski, M. (2003) Konstrukcja korpusu IPI PAN, Polonica XXIIXXII: 3338. 28 El»bieta Hajnicz Przepiórkowski, A. i Buczy«ski, A. (2007) Shallow Parsing and Disambiguation Engine, Proceedings of the 3rd Language & Technology Conference, Pozna«, Poland. Przepiórkowski, A. i Fast, J. (2005) Baseline Experiments in the Extraction of Polish Valence Frames, Proceedings of the IIS:IIPWM'05 Conference, New Trends in Intelligent Information Processing and Web Mining, Springer: 511520. Schulte im Walde, S. (2000) Clustering verb semantically according to their alternation behaviour, Proceedings of the 18th International Conference on Computational Linguistics (COLING-2000), Saarbrücken, Germany: 747 753. Vossen, P., red. (1998) EuroWordNet: a multilingual database with lexical semantic network, Kluwer Academic Publishers, Dordrecht, Holland. Wittek, A. (2002) Learning the meaning of change-of-state verbs: a case study of german child language, Mouton de Gruyter, Berlin, New York. Woli«ski, M. (2004) Komputerowa werykacja gramatyki widzi«skiego, praca doktorska, IPI PAN, Warszawa. Woli«ski, M. (2006) Morfeusz a Practical Tool for the Morphological Ana- lysis of Polish, Proceedings of the IIS:IIPWM'06 Conference, Intelligent Information Processing and Web Mining, Springer: 503512.