akademia górniczo-hutnicza
Transkrypt
akademia górniczo-hutnicza
AKADEMIA GÓRNICZO-HUTNICZA Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki KATEDRA INFORMATYKI Reprezentacja wiedzy - typowa i nietypowa rekcja w wyraŜeniach przyimkowych Wersja 0.1-46 z dnia 02.06.2007 Grupa (projekt): Kierunek, rok studiów: Informatyka, IV rok Przedmiot: Reprezentacja wiedzy Prowadzący zajęcia: Rok akad: mgr inŜ. Michał Korzycki Semestr: Zespół autorski: Mirosław Jedynak [email protected] Kraków, czerwiec 2007 2006/2007 letni Mirosław Jedynak Niniejsze opracowanie powstało w trakcie i jako rezultat zajęć dydaktycznych z przedmiotu wymienionego na stronie tytułowej, prowadzonych w Akademii Górniczo-Hutniczej w Krakowie (AGH) przez osobę (osoby) wymienioną (wymienione) po słowach "Prowadzący zajęcia" i nie moŜe być wykorzystywane w jakikolwiek sposób i do jakichkolwiek celów, w całości lub części, w szczególności publikowane w jakikolwiek sposób i w jakiejkolwiek formie, bez uzyskania uprzedniej, pisemnej zgody tej osoby (tych osób) lub odpowiednich władz AGH. Copyright © 2007 Akademia Górniczo-Hutnicza (AGH) w Krakowie Spis treści 1. Opis problemu ______________________________________________________________________ 3 2. Implementacja ______________________________________________________________________ 3 2.1. Tokenizacja ___________________________________________________________________3 2.2. Tagowanie tokenów ____________________________________________________________4 2.3. Analiza _______________________________________________________________________5 2.4. Podsumowanie ogólnych zasad ___________________________________________________5 3. Wnioski ____________________________________________________________________________ 6 3.1. ZałoŜenia początkowe___________________________________________________________6 3.2. Obserwacje ___________________________________________________________________6 3.2.1. Błędy językowe _______________________________________________________________7 3.2.2. Biblioteka CLP _______________________________________________________________7 3.3. Wyniki _______________________________________________________________________7 3.3.1. Przyimek „dla” _______________________________________________________________7 3.3.2. Przyimek „do” _______________________________________________________________8 3.3.3. Przyimek „na” _______________________________________________________________8 3.3.4. Przyimek „od” _______________________________________________________________8 3.3.5. Przyimek „po” _______________________________________________________________9 3.3.6. Przyimek „przed” _____________________________________________________________9 3.3.7. Przyimek „przy” ______________________________________________________________9 3.3.8. Przyimek „w” ________________________________________________________________9 4. Podusumowanie ____________________________________________________________________ 10 Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 2 Mirosław Jedynak 1. Opis problemu Za Kopalińskim: rekcja – składnia rządu, powiązanie dwu członów wypowiedzi, w którym człon nadrzędny wyznacza określoną formę podrzędnego. W językach fleksyjnych (takich jak np. język polski) istnieje silny związek pomiędzy syntaksą a fleksją. Najbardziej klasycznym takim związkiem jest wiązanie przypadku rzeczownika z przyimkiem (dla wyraŜenia “w lesie”- przyimek “w” narzuca tu wyrazowi “las” miejscownik). Typowa rekcja w wyraŜeniach przyimkowych to pary przyimek oraz przypadek, z którym najczęściej występują. Nietypowa rekcja w wyraŜeniach przyimkowych ma miejsce, kiedy przyimek łączy się z rzeczownikiem w danym przypadku tylko dla niewielkiej grupy wyrazów. Przykładem nietypowej rekcji jest zwrot „poszły ogary w las” – tutaj przyimek w łączy się z rzeczownikiem w bierniku. RozróŜnienie czy dana rekcja jest typowa czy nietypowa moŜe mieć miejsce tylko na podstawie statystycznej ilości wystąpień danego powiązania przyimek-przypadek. 2. Implementacja W czasie implementacji proces analizy został podzielony na 3 fazy: • tokenizacja tekstu – podziała na wyrazy oraz zdania • tagowanie - wstępne wczytanie i określenie części mowy dla danego słowa, a dla rzeczowników równieŜ przypadku. • 2.1. analiza występowania danych par przyimek-rzeczownik Tokenizacja W czasie tokenizacji wykorzystano model pull-parser tzn. następny moduł (tagger) pytał się tokenizatora o podanie kolejnego zdania. Model tokenizatora zakładał pewne uproszczenia – zdanie kończy się kropką a wyrazy rozdzielane są znakami białymi i niealfanumerycznymi. Wynikiem działania parsera były ciągi tokenów, które zostały zaklasyfikowane jako słowo (word) lub separator (separator). Zbudowanie „Ulepszonego parsera” było innym projektem, dlatego w tej części skupiłem się na funkcjonalności koniecznej do realizacji zadania związanego z rekcją. Przykładowo niektóre słowa zostały inaczej traktowanie w czasie procesu tokenizacji: na stale zostały określone skróty, które nie kończą zdania (np. „ok.”) a maja formę taką jak niektóre rzeczownik (od „oko”), niemoŜliwą do rozróŜnienia bez dokładnej analizy zdania, co wykracza poza zakres projektu. Rozpoznawane przyimki to: • dla Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 3 Mirosław Jedynak • do • na • od • po • przed • przy • w 2.2. Tagowanie tokenów W etapie tagowania tokenów wybierane były pary słów w których pierwszy z nich był przyimkiem a drugi rzeczownikiem. Określenie części mowy dla danego słowa odbywało się z wykorzystaniem biblioteki CLP. W przypadku, kiedy słowo posiadało kilka znaczeń (wordId) słowo było pomijane – niepoprawne zaklasyfikowanie słowa o wielu znaczeniach negatywnie wpływa na ogólną wnioski, które mogą prowadzić do błędnego zaklasyfikowania wyraŜenia jako nietypowej rekcji. Przykładem takiego słowa jest „list”. MoŜe być mianownikiem dla rzeczownika „list” lub dopełniaczem liczby mnogiej rzeczownika „lista”. Nie jest moŜliwe rozstrzygnięcie bez odwołania do kontekstu, którego słowa wystąpienie zostało znalezione w tekście, dlatego bezcelowa wydaje się próba opierania analizy na słowa o wielu znaczeniach. Dla kaŜdej znalezionej pary tworzona była struktura, która umoŜliwiała późniejszą analizę wystąpień. Struktura przedstawiona została poniŜej. przyimek Rzeczownik + ilość wystapień na wołacz Lesie(32) miejscownik Drzewie(15) przy przypadki Taka struktura umoŜliwiała zachowanie informacji przyimkach wraz z sąsiadującymi rzeczownikami. Aby umoŜliwić określenie, czy w danym wyraŜeniu mamy do czynienia z typową czy nietypową rekcją Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 4 Mirosław Jedynak zapisywana jest ilość jego wystąpień. Ponadto moŜliwe jest, Ŝe dana forma rzeczownika występuje w kilku przypadkach – ta niejednoznaczność będzie eliminowana w następnej fazie – analizie. 2.3. Analiza W fazie analizy wykorzystywane są informacje zgromadzone w strukturach opisanych powyŜej. PowyŜsze dane zapisywane są w strukturze umoŜliwiającej wygodne wyświetlenie wyników analizy: Przykładowe wystąpienia przypadki miejscownik wołacz w mianownik ... 15 17 lesie …. las 18 …. ... Przed właściwą analizą struktura, która została utworzona w czasie tagowania została posortowana rosnąco według ilości przypadków dla danego rzeczownika (ilość przypadków, dla których danych rzeczownik występuje w podanej formie). Takie ułoŜenie rzeczowników powoduje, Ŝe w pierwszej kolejności analizowane są rzeczowniki, których forma jednoznacznie określa przypadek, a więc tych, które z punktu widzenia celu projektu są najbardziej wiarygodne. PowyŜsza struktura zwiera informacje dla kaŜdego przyimka: listę zbiorów przypadków z którym się łączy, ilość wystąpień oraz przykładowe wystąpienia. Lista zbiorów przypadków ma za zadanie wyeliminować dwuznaczność form. Przykładowo, gdy rozpatrujemy przyimek w, dla rzeczownika w formie lesie lista przypadków to miejscownik oraz wołacz – zostaje utworzony zbiór składający się z dwóch elementów. Gdy następną parą będzie w las zostanie utworzony nowy zbiór poniewaŜ przecięcie zbioru składającego się z elementu mianownik jest puste dla kaŜdego dodanego zbioru. Gdy w następnej parze będzie występował rzeczownik, dla którego zbiór przypadków przecięty ze zbiorem przypadków dla wyrazu lesie będzie jednoelementowy zostanie wyeliminowana dwuznaczność- ustalony zostanie związek przyimka w z rzeczownikiem w miejscowniku. 2.4. • Podsumowanie ogólnych zasad Niektóre wyrazy, wymienione jako skróty nie były traktowane jako koniec zdania i nie była dla nich sprawdzana forma podstawowa (były pomijane). Przykładem takiego zachowania jest skrót „ok.”, który Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 5 Mirosław Jedynak bez takiego załoŜenia byłby dopełniaczem liczby mnogiej dla rzeczownika „oko” a zwrot „w ok. 1984” zostałby nieprawidłowo zaklasyfikowany jako wyraŜenie przyimkowe (patrz 2.1). • Słowa muszą w CLP występować zgodnie z odczytaną wielkością liter (nie są zmniejszane litery w słowie), z wyjątkiem sytuacji, kiedy słowo znajduje się na początku zdania. Bezwarunkowe zmniejszanie liter spowodowałoby niewłaściwe zaklasyfikowani nazw własnych. Przykładowo „w Salt Lake City” (salt -> dopełniacz liczby mnogiej „salto”) • Występujący na końcu linii myślnik powodował zawsze sklejenie dwóch słów co w przypadku analizy wyraŜeń przyimkowych nie powoduje błędów (np. „na ul- \n icy” „na ulicy”), jednak w bardziej ogólnych rozwaŜaniach moŜe być niepoprawny („angielsko polski” „angielskopolski”). • Słowa, które w czasie analizy miały wiele form podstawowych (np. „list”), były pomijane (patrz 2.1). PowyŜsze stwierdzenie nie dotyczy słów, które miały tylko jedną formę podstawową, ale forma wyrazy, która występowała w tekście nie określała jednoznacznie przypadku („radio”) – takie słowa były analizowane • Przed przystąpieniem do analizy rzeczowniki sortowane są według ilości przypadków dla danej formy rzeczownika. Z punktu widzenia analizy rekcji przyimkowej więcej informacji dostarcza słowo „władz” (dopełniacz) niŜ „bólu”(dopełniacz, miejscownik i wołacz). • W czasie na podstawie pary słów, w której przynajmniej jedna forma występuje w dwóch przypadkach poprzez wykonanie przecięcia zbioru przypadków moŜna ograniczyć liczbę przypadków występujących z danym przyimkiem. Przykładowo z wyraŜeń „w momencie” (miejscownik, wołacz) i „w Warszawie” (celownik, miejscownik) moŜna wywnioskować ze przyimek „w” moŜe łączyć się z miejscownikiem. • W przypadku, kiedy dwa zbiory są rozłączne, naleŜy wprowadzić nowy przypadek, który moŜe występować z danym przyimkiem. Przykładowo z „w gazetach” (miejscownik) i „w ropę” (biernik) wynika, Ŝe „w” moŜe łączyć się z miejscownikiem i biernikiem. 3. Wnioski 3.1. ZałoŜenia początkowe Badanym tekstem były notatki prasowe dostępne na serwerze wierzba w pliku pap-all.not 3.2. Obserwacje Analiza przebiegła poprawnie i znalezione związki pomiędzy przyimkami a przypadkami rzeczownika były zgodne z oczekiwaniami. Wyniki zostały częściowo zaburzone z dwóch powodów: błędów występujących w źródłowym tekście oraz ograniczonej liczbie wyrazów rozpoznawanych przez bibliotekę CLP. Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 6 Mirosław Jedynak 3.2.1. Błędy językowe Błędy występujące w tekście źródłowym powodowały powstanie nieprawidłowych związków, które jednak moŜna stosunkowo łatwo wykryć porównując liczbę wystąpień danego przypadku z danym przyimkiem. W przypadku wystąpienia błędu językowego dla tekstu „pap-all.not” liczba wystąpień nie przekraczała 10, gdzie dla poprawnej odmiany występowała w ilości o 3 rzędy większej (kilka tysięcy). Przyładowo: (linia 174025) Wpływ na nadciśnienie ma teŜ środowisko - badania na tej samej grupie osób w zanieczyszczonych Piekarach Śląskich i czystym Oleśnie wykazały,Ŝe w liczba osób z nadciśnieniem w Piekarach była dwukrotnie wyŜsza. (linia 38530) Czterech lat pozbawienia wolności zaŜądał w prokurator dla Eugeniusza K., byłego komendanta StraŜy Miejskiej w Krakowie, oskarŜonego o łapownictwo, płatną protekcję i przekroczenie uprawnień. spowodowało zaklasyfikowania wyraŜenia „w” -> mianownik. 3.2.2. Biblioteka CLP Ograniczona liczba słów, która rozpoznaje bibliotek CLP równieŜ utrudniała analizę rekcji przyimkowej. Pierwszym problemem było nierozpoznanie słowa, które powodowało, Ŝe występujące w tekście informacja nie została wykorzystana. Przykładem takiego faktu jest wyraŜenie „w Minnesocie”, gdzie z powodu niepoznania słowa „Minnesocie” nie została wykorzystania informacja, Ŝe przyimek „w” łączy się z miejscownikiem. Drugim i zdecydowanie bardziej utrudniającym analizę przypadkiem był przypadek zaklasyfikowania danego słowa do form podstawowych. Przykładowo w wyraŜeniu „w sumo” CLP określiło formę wyrazu „sumo” tylko jako wołacz dla „suma” pomijając znaczenie sumo w kontekście wschodnich sztuk walk. Takie zachowanie spowodowało zaklasyfikowanie wystąpienia przyimka „w” z wołaczem. Stosunkowo łatwo moŜna jednak wykryć takie zachowanie porównując liczbę wystąpień (analogicznie jak w przypadku błędów językowych). 3.3. 3.3.1. Wyniki Przyimek „dla” Wyst. Przypadki Przykłady Uwagi 845 Dopełniacz firm, ofiar, osób Typowa rekcja 7 Mianownik dyrektor, minister, wiceminister Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 7 Mirosław Jedynak 1 Biernik kampanię Błąd językowy (patrz 3.2.1) 1 Miejscownik społeczeństwach Błąd językowy (patrz 3.2.1) 1 Narzędnik przypomnieniem Błąd językowy (patrz 3.2.1) 1 Celownik ofiarom Błąd językowy (patrz 3.2.1) 3.3.2. Przyimek „do” Wyst. Przypadki Przykłady Uwagi 6785 Dopełniacz wyboru, wyborów, władz Typowa rekcja 36 Mianownik dyrektor, minister, wiceminister 6 Miejscownik dochodach, powiększeniu, rozpadzie Błąd językowy (patrz 3.2.1) 3.3.3. Przyimek „na” Wyst. Przypadki Przykłady Uwagi 5559 Miejscownik cywilach, obywatelach, usługach Typowa rekcja 2899 Biernik ankietę, energię, salę Typowa rekcja 8 Narzędnik impotencją, rozpracowaniem, rywalami Błąd językowy (patrz 3.2.1) 2 Mianownik handel, wiceprezes Błąd językowy (patrz 3.2.1) 2 Dopełniacz bosaka, wpadek 1 Wołacz lewo 3.3.4. Nietypowa rekcja, Błąd językowy (patrz 3.2.1) Przyimek „od” Wyst. Przypadki Przykłady Uwagi 1710 Dopełniacz czasu, końca, marca Typowa rekcja 2 Celownik wszczęciu, zakończeniu Błąd językowy (patrz 3.2.1) 2 Biernik niedzielę, zgodę Błąd językowy (patrz 3.2.1) 2 Mianownik minister, sekretarz Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 8 Mirosław Jedynak 3.3.5. Przyimek „po” Wyst. Przypadki 4025 Miejscownik Przykłady Uwagi rozstrzygnięciach, witrynach, Typowa rekcja zwycięstwie 13 Biernik prasę, redukcję, resztę 3 Narzędnik adresem, rygorem, zarzutem Błąd językowy (patrz 3.2.1) 2 Mianownik poseł, prezes Błąd językowy (patrz 3.2.1) 1 Dopełniacz źródeł Błąd językowy (patrz 3.2.1) 3.3.6. Przyimek „przed” Wyst. Przypadki Przykłady Uwagi 2260 Narzednik armią, ogłoszeniem, wyborami Typowa rekcja 5 Mianownik ambasadę, komisję, siedzibę 3 Mianownik kamera, siedziba Błąd językowy (patrz 3.2.1) 1 Celownik ambasadom Błąd językowy (patrz 3.2.1) Przypadki Przykłady Uwagi Miejscownik dziewczętach, wejściach, świetle Typowa rekcja 3.3.7. Wyst. 968 1 3.3.8. Przyimek „przy” Mianownik, Biernik, Wołacz molo Przyimek „w” Wyst. Przypadki Przykłady Uwagi 6712 Miejscownik okolicach, rozmowach, wąwozach Typowa rekcja 4608 Biernik niedzielę, sobotę, środę Typowa rekcja Dopełniacz zamian, kompetencji, zespołu Nietypowa rekcja, Błąd 13 Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 9 Mirosław Jedynak językowy (patrz 3.2.1) 13 Narzędnik udziałem, wydawcą, świadkiem Błąd językowy (patrz 3.2.1) 9 Mianownik liczba, prokurator, rzecznik Błąd językowy (patrz 3.2.1) 1 Celownik przyjacielowi Błąd językowy (patrz 3.2.1) 1 Wołacz sumo Błąd CLP (patrz 3.2.2) 4. Podusumowanie Przedstawione wnioski dowiodły, Ŝe zastosowana metoda analizy wyraŜeń przyimkowych jest skuteczna dla analizowanego tekstu znalazła poprawne pary przyimek-rzeczownik. Dodatkowo powyŜsza analiza umoŜliwiła wykrycie błędów gramatycznych, które przy zastosowaniu tradycyjnego sprawdzania poprawności opartej o słownik zostałyby pominięte. Niestety występujące błędy w tekście źródłowym spowodowały, Ŝe do rozstrzygnięcia czy mamy do czynienia z nietypową rekcją czy błędem gramatycznym potrzebny jest człowiek. Nie ma moŜliwości takiej klasyfikacji tylko na podstawie analizy tekstu – konieczne staje się wykorzystanie poprawnego tekstu uczącego, dzięki któremu wykrywane byłyby przypadki nietypowej rekcji i rozróŜniane od błędów gramatycznych. Plik: Dokumentacja.doc Wersja: 0.1-46 z dnia 02.06.2007 Copyright © 2007 Akademia Górniczo-Hutnicza Stron: 10 Długość: 307 kB Prowadzenie zajęć: mgr inŜ. Michał Korzycki 10