akademia górniczo-hutnicza

Transkrypt

akademia górniczo-hutnicza
AKADEMIA GÓRNICZO-HUTNICZA
Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
KATEDRA INFORMATYKI
Reprezentacja wiedzy - typowa i nietypowa rekcja w
wyraŜeniach przyimkowych
Wersja 0.1-46 z dnia 02.06.2007
Grupa (projekt):
Kierunek, rok studiów:
Informatyka, IV rok
Przedmiot:
Reprezentacja wiedzy
Prowadzący zajęcia:
Rok akad:
mgr inŜ. Michał Korzycki
Semestr:
Zespół autorski:
Mirosław Jedynak
[email protected]
Kraków, czerwiec 2007
2006/2007
letni
Mirosław Jedynak
Niniejsze opracowanie powstało w trakcie i jako rezultat zajęć dydaktycznych z przedmiotu wymienionego na stronie tytułowej, prowadzonych w Akademii Górniczo-Hutniczej w Krakowie (AGH) przez osobę
(osoby) wymienioną (wymienione) po słowach "Prowadzący zajęcia" i
nie moŜe być wykorzystywane w jakikolwiek sposób i do jakichkolwiek
celów, w całości lub części, w szczególności publikowane w jakikolwiek sposób i w jakiejkolwiek formie, bez uzyskania uprzedniej, pisemnej zgody tej osoby (tych osób) lub odpowiednich władz AGH.
Copyright © 2007 Akademia Górniczo-Hutnicza (AGH) w Krakowie
Spis treści
1.
Opis problemu ______________________________________________________________________ 3
2.
Implementacja ______________________________________________________________________ 3
2.1.
Tokenizacja ___________________________________________________________________3
2.2.
Tagowanie tokenów ____________________________________________________________4
2.3.
Analiza _______________________________________________________________________5
2.4.
Podsumowanie ogólnych zasad ___________________________________________________5
3.
Wnioski ____________________________________________________________________________ 6
3.1.
ZałoŜenia początkowe___________________________________________________________6
3.2.
Obserwacje ___________________________________________________________________6
3.2.1.
Błędy językowe _______________________________________________________________7
3.2.2.
Biblioteka CLP _______________________________________________________________7
3.3.
Wyniki _______________________________________________________________________7
3.3.1.
Przyimek „dla” _______________________________________________________________7
3.3.2.
Przyimek „do” _______________________________________________________________8
3.3.3.
Przyimek „na” _______________________________________________________________8
3.3.4.
Przyimek „od” _______________________________________________________________8
3.3.5.
Przyimek „po” _______________________________________________________________9
3.3.6.
Przyimek „przed” _____________________________________________________________9
3.3.7.
Przyimek „przy” ______________________________________________________________9
3.3.8.
Przyimek „w” ________________________________________________________________9
4.
Podusumowanie ____________________________________________________________________ 10
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
2
Mirosław Jedynak
1. Opis problemu
Za Kopalińskim: rekcja – składnia rządu, powiązanie dwu członów wypowiedzi, w którym człon nadrzędny
wyznacza określoną formę podrzędnego. W językach fleksyjnych (takich jak np. język polski) istnieje silny
związek pomiędzy syntaksą a fleksją. Najbardziej klasycznym takim związkiem jest wiązanie przypadku
rzeczownika z przyimkiem (dla wyraŜenia “w lesie”- przyimek “w” narzuca tu wyrazowi “las”
miejscownik). Typowa rekcja w wyraŜeniach przyimkowych to pary przyimek oraz przypadek, z którym
najczęściej występują.
Nietypowa rekcja w wyraŜeniach przyimkowych ma miejsce, kiedy przyimek łączy się z rzeczownikiem w
danym przypadku tylko dla niewielkiej grupy wyrazów. Przykładem nietypowej rekcji jest zwrot „poszły
ogary w las” – tutaj przyimek w łączy się z rzeczownikiem w bierniku. RozróŜnienie czy dana rekcja jest
typowa czy nietypowa moŜe mieć miejsce tylko na podstawie statystycznej ilości wystąpień danego
powiązania przyimek-przypadek.
2. Implementacja
W czasie implementacji proces analizy został podzielony na 3 fazy:
•
tokenizacja tekstu – podziała na wyrazy oraz zdania
•
tagowanie - wstępne wczytanie i określenie części mowy dla danego słowa, a dla rzeczowników
równieŜ przypadku.
•
2.1.
analiza występowania danych par przyimek-rzeczownik
Tokenizacja
W czasie tokenizacji wykorzystano model pull-parser tzn. następny moduł (tagger) pytał się tokenizatora o
podanie kolejnego zdania. Model tokenizatora zakładał pewne uproszczenia – zdanie kończy się kropką a
wyrazy rozdzielane są znakami białymi i niealfanumerycznymi. Wynikiem działania parsera były ciągi
tokenów, które zostały zaklasyfikowane jako słowo (word) lub separator (separator).
Zbudowanie „Ulepszonego parsera” było innym projektem, dlatego w tej części skupiłem się na
funkcjonalności koniecznej do realizacji zadania związanego z rekcją. Przykładowo niektóre słowa zostały
inaczej traktowanie w czasie procesu tokenizacji: na stale zostały określone skróty, które nie kończą zdania
(np. „ok.”) a maja formę taką jak niektóre rzeczownik (od „oko”), niemoŜliwą do rozróŜnienia bez dokładnej
analizy zdania, co wykracza poza zakres projektu.
Rozpoznawane przyimki to:
•
dla
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
3
Mirosław Jedynak
•
do
•
na
•
od
•
po
•
przed
•
przy
•
w
2.2.
Tagowanie tokenów
W etapie tagowania tokenów wybierane były pary słów w których pierwszy z nich był przyimkiem a drugi
rzeczownikiem. Określenie części mowy dla danego słowa odbywało się z wykorzystaniem biblioteki CLP.
W przypadku, kiedy słowo posiadało kilka znaczeń (wordId) słowo było pomijane – niepoprawne
zaklasyfikowanie słowa o wielu znaczeniach negatywnie wpływa na ogólną wnioski, które mogą prowadzić
do błędnego zaklasyfikowania wyraŜenia jako nietypowej rekcji. Przykładem takiego słowa jest „list”. MoŜe
być mianownikiem dla rzeczownika „list” lub dopełniaczem liczby mnogiej rzeczownika „lista”. Nie jest
moŜliwe rozstrzygnięcie bez odwołania do kontekstu, którego słowa wystąpienie zostało znalezione w
tekście, dlatego bezcelowa wydaje się próba opierania analizy na słowa o wielu znaczeniach.
Dla kaŜdej znalezionej pary tworzona była struktura, która umoŜliwiała późniejszą analizę wystąpień.
Struktura przedstawiona została poniŜej.
przyimek
Rzeczownik +
ilość
wystapień
na
wołacz
Lesie(32)
miejscownik
Drzewie(15)
przy
przypadki
Taka struktura umoŜliwiała zachowanie informacji przyimkach wraz z sąsiadującymi rzeczownikami. Aby
umoŜliwić określenie, czy w danym wyraŜeniu mamy do czynienia z typową czy nietypową rekcją
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
4
Mirosław Jedynak
zapisywana jest ilość jego wystąpień. Ponadto moŜliwe jest, Ŝe dana forma rzeczownika występuje w kilku
przypadkach – ta niejednoznaczność będzie eliminowana w następnej fazie – analizie.
2.3.
Analiza
W fazie analizy wykorzystywane są informacje zgromadzone w strukturach opisanych powyŜej. PowyŜsze
dane zapisywane są w strukturze umoŜliwiającej wygodne wyświetlenie wyników analizy:
Przykładowe
wystąpienia
przypadki
miejscownik
wołacz
w
mianownik
...
15
17
lesie
….
las
18
….
...
Przed właściwą analizą struktura, która została utworzona w czasie tagowania została posortowana rosnąco
według ilości przypadków dla danego rzeczownika (ilość przypadków, dla których danych rzeczownik
występuje w podanej formie). Takie ułoŜenie rzeczowników powoduje, Ŝe w pierwszej kolejności
analizowane są rzeczowniki, których forma jednoznacznie określa przypadek, a więc tych, które z punktu
widzenia celu projektu są najbardziej wiarygodne.
PowyŜsza struktura zwiera informacje dla kaŜdego przyimka: listę zbiorów przypadków z którym się łączy,
ilość wystąpień oraz przykładowe wystąpienia. Lista zbiorów przypadków ma za zadanie wyeliminować
dwuznaczność form.
Przykładowo, gdy rozpatrujemy przyimek w, dla rzeczownika w formie lesie lista przypadków to
miejscownik oraz wołacz – zostaje utworzony zbiór składający się z dwóch elementów. Gdy następną parą
będzie w las zostanie utworzony nowy zbiór poniewaŜ przecięcie zbioru składającego się z elementu
mianownik jest puste dla kaŜdego dodanego zbioru. Gdy w następnej parze będzie występował rzeczownik,
dla którego zbiór przypadków przecięty ze zbiorem przypadków dla wyrazu lesie będzie jednoelementowy
zostanie wyeliminowana dwuznaczność-
ustalony zostanie związek przyimka w z rzeczownikiem w
miejscowniku.
2.4.
•
Podsumowanie ogólnych zasad
Niektóre wyrazy, wymienione jako skróty nie były traktowane jako koniec zdania i nie była dla nich
sprawdzana forma podstawowa (były pomijane). Przykładem takiego zachowania jest skrót „ok.”, który
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
5
Mirosław Jedynak
bez takiego załoŜenia byłby dopełniaczem liczby mnogiej dla rzeczownika „oko” a zwrot „w ok. 1984”
zostałby nieprawidłowo zaklasyfikowany jako wyraŜenie przyimkowe (patrz 2.1).
•
Słowa muszą w CLP występować zgodnie z odczytaną wielkością liter (nie są zmniejszane litery w
słowie), z wyjątkiem sytuacji, kiedy słowo znajduje się na początku zdania. Bezwarunkowe
zmniejszanie liter spowodowałoby niewłaściwe zaklasyfikowani nazw własnych. Przykładowo „w Salt
Lake City” (salt -> dopełniacz liczby mnogiej „salto”)
•
Występujący na końcu linii myślnik powodował zawsze sklejenie dwóch słów co w przypadku analizy
wyraŜeń przyimkowych nie powoduje błędów (np. „na ul- \n icy” „na ulicy”), jednak w bardziej
ogólnych rozwaŜaniach moŜe być niepoprawny („angielsko polski” „angielskopolski”).
•
Słowa, które w czasie analizy miały wiele form podstawowych (np. „list”), były pomijane (patrz 2.1).
PowyŜsze stwierdzenie nie dotyczy słów, które miały tylko jedną formę podstawową, ale forma wyrazy,
która występowała w tekście nie określała jednoznacznie przypadku („radio”) – takie słowa były
analizowane
•
Przed przystąpieniem do analizy rzeczowniki sortowane są według ilości przypadków dla danej formy
rzeczownika. Z punktu widzenia analizy rekcji przyimkowej więcej informacji dostarcza słowo „władz”
(dopełniacz) niŜ „bólu”(dopełniacz, miejscownik i wołacz).
•
W czasie na podstawie pary słów, w której przynajmniej jedna forma występuje w dwóch przypadkach
poprzez wykonanie przecięcia zbioru przypadków moŜna ograniczyć liczbę przypadków występujących
z danym przyimkiem. Przykładowo z wyraŜeń „w momencie” (miejscownik, wołacz) i „w Warszawie”
(celownik, miejscownik) moŜna wywnioskować ze przyimek „w” moŜe łączyć się z miejscownikiem.
•
W przypadku, kiedy dwa zbiory są rozłączne, naleŜy wprowadzić nowy przypadek, który moŜe
występować z danym przyimkiem. Przykładowo z „w gazetach” (miejscownik) i „w ropę” (biernik)
wynika, Ŝe „w” moŜe łączyć się z miejscownikiem i biernikiem.
3. Wnioski
3.1.
ZałoŜenia początkowe
Badanym tekstem były notatki prasowe dostępne na serwerze wierzba w pliku pap-all.not
3.2.
Obserwacje
Analiza przebiegła poprawnie i znalezione związki pomiędzy przyimkami a przypadkami rzeczownika były
zgodne z oczekiwaniami.
Wyniki zostały częściowo zaburzone z dwóch powodów: błędów występujących w źródłowym tekście oraz
ograniczonej liczbie wyrazów rozpoznawanych przez bibliotekę CLP.
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
6
Mirosław Jedynak
3.2.1.
Błędy językowe
Błędy występujące w tekście źródłowym powodowały powstanie nieprawidłowych związków, które jednak
moŜna stosunkowo łatwo wykryć porównując liczbę wystąpień danego przypadku z danym przyimkiem. W
przypadku wystąpienia błędu językowego dla tekstu „pap-all.not” liczba wystąpień nie przekraczała 10,
gdzie dla poprawnej odmiany występowała w ilości o 3 rzędy większej (kilka tysięcy).
Przyładowo:
(linia 174025) Wpływ na nadciśnienie ma teŜ środowisko - badania na tej samej grupie osób w
zanieczyszczonych Piekarach Śląskich i czystym Oleśnie wykazały,Ŝe w liczba osób z nadciśnieniem w
Piekarach była dwukrotnie wyŜsza.
(linia 38530) Czterech lat pozbawienia wolności zaŜądał w prokurator dla Eugeniusza K., byłego
komendanta StraŜy Miejskiej w Krakowie, oskarŜonego o łapownictwo, płatną protekcję i przekroczenie
uprawnień.
spowodowało zaklasyfikowania wyraŜenia „w” -> mianownik.
3.2.2.
Biblioteka CLP
Ograniczona liczba słów, która rozpoznaje bibliotek CLP równieŜ utrudniała analizę rekcji przyimkowej.
Pierwszym problemem było nierozpoznanie słowa, które powodowało, Ŝe występujące w tekście informacja
nie została wykorzystana. Przykładem takiego faktu jest wyraŜenie „w Minnesocie”, gdzie z powodu
niepoznania słowa „Minnesocie” nie została wykorzystania informacja, Ŝe przyimek „w” łączy się z
miejscownikiem.
Drugim i zdecydowanie bardziej utrudniającym analizę przypadkiem był przypadek zaklasyfikowania
danego słowa do form podstawowych. Przykładowo w wyraŜeniu „w sumo” CLP określiło formę wyrazu
„sumo” tylko jako wołacz dla „suma” pomijając znaczenie sumo w kontekście wschodnich sztuk walk.
Takie zachowanie spowodowało zaklasyfikowanie wystąpienia przyimka „w” z wołaczem. Stosunkowo
łatwo moŜna jednak wykryć takie zachowanie porównując liczbę wystąpień (analogicznie jak w przypadku
błędów językowych).
3.3.
3.3.1.
Wyniki
Przyimek „dla”
Wyst.
Przypadki
Przykłady
Uwagi
845
Dopełniacz
firm, ofiar, osób
Typowa rekcja
7
Mianownik
dyrektor, minister, wiceminister
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
7
Mirosław Jedynak
1
Biernik
kampanię
Błąd językowy (patrz 3.2.1)
1
Miejscownik
społeczeństwach
Błąd językowy (patrz 3.2.1)
1
Narzędnik
przypomnieniem
Błąd językowy (patrz 3.2.1)
1
Celownik
ofiarom
Błąd językowy (patrz 3.2.1)
3.3.2.
Przyimek „do”
Wyst.
Przypadki
Przykłady
Uwagi
6785
Dopełniacz
wyboru, wyborów, władz
Typowa rekcja
36
Mianownik
dyrektor, minister, wiceminister
6
Miejscownik
dochodach, powiększeniu, rozpadzie
Błąd językowy (patrz 3.2.1)
3.3.3.
Przyimek „na”
Wyst.
Przypadki
Przykłady
Uwagi
5559
Miejscownik
cywilach, obywatelach, usługach
Typowa rekcja
2899
Biernik
ankietę, energię, salę
Typowa rekcja
8
Narzędnik
impotencją, rozpracowaniem, rywalami
Błąd językowy (patrz 3.2.1)
2
Mianownik
handel, wiceprezes
Błąd językowy (patrz 3.2.1)
2
Dopełniacz
bosaka, wpadek
1
Wołacz
lewo
3.3.4.
Nietypowa rekcja, Błąd
językowy (patrz 3.2.1)
Przyimek „od”
Wyst.
Przypadki
Przykłady
Uwagi
1710
Dopełniacz
czasu, końca, marca
Typowa rekcja
2
Celownik
wszczęciu, zakończeniu
Błąd językowy (patrz 3.2.1)
2
Biernik
niedzielę, zgodę
Błąd językowy (patrz 3.2.1)
2
Mianownik
minister, sekretarz
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
8
Mirosław Jedynak
3.3.5.
Przyimek „po”
Wyst.
Przypadki
4025
Miejscownik
Przykłady
Uwagi
rozstrzygnięciach, witrynach,
Typowa rekcja
zwycięstwie
13
Biernik
prasę, redukcję, resztę
3
Narzędnik
adresem, rygorem, zarzutem
Błąd językowy (patrz 3.2.1)
2
Mianownik
poseł, prezes
Błąd językowy (patrz 3.2.1)
1
Dopełniacz
źródeł
Błąd językowy (patrz 3.2.1)
3.3.6.
Przyimek „przed”
Wyst.
Przypadki
Przykłady
Uwagi
2260
Narzednik
armią, ogłoszeniem, wyborami
Typowa rekcja
5
Mianownik
ambasadę, komisję, siedzibę
3
Mianownik
kamera, siedziba
Błąd językowy (patrz 3.2.1)
1
Celownik
ambasadom
Błąd językowy (patrz 3.2.1)
Przypadki
Przykłady
Uwagi
Miejscownik
dziewczętach, wejściach, świetle
Typowa rekcja
3.3.7.
Wyst.
968
1
3.3.8.
Przyimek „przy”
Mianownik, Biernik,
Wołacz
molo
Przyimek „w”
Wyst.
Przypadki
Przykłady
Uwagi
6712
Miejscownik
okolicach, rozmowach, wąwozach
Typowa rekcja
4608
Biernik
niedzielę, sobotę, środę
Typowa rekcja
Dopełniacz
zamian, kompetencji, zespołu
Nietypowa rekcja, Błąd
13
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
9
Mirosław Jedynak
językowy (patrz 3.2.1)
13
Narzędnik
udziałem, wydawcą, świadkiem
Błąd językowy (patrz 3.2.1)
9
Mianownik
liczba, prokurator, rzecznik
Błąd językowy (patrz 3.2.1)
1
Celownik
przyjacielowi
Błąd językowy (patrz 3.2.1)
1
Wołacz
sumo
Błąd CLP (patrz 3.2.2)
4. Podusumowanie
Przedstawione wnioski dowiodły, Ŝe zastosowana metoda analizy wyraŜeń przyimkowych jest skuteczna dla analizowanego tekstu znalazła poprawne pary przyimek-rzeczownik.
Dodatkowo powyŜsza analiza umoŜliwiła wykrycie błędów gramatycznych, które przy zastosowaniu
tradycyjnego sprawdzania poprawności opartej o słownik zostałyby pominięte.
Niestety występujące błędy w tekście źródłowym spowodowały, Ŝe do rozstrzygnięcia czy mamy do
czynienia z nietypową rekcją czy błędem gramatycznym potrzebny jest człowiek. Nie ma moŜliwości takiej
klasyfikacji tylko na podstawie analizy tekstu – konieczne staje się wykorzystanie poprawnego tekstu
uczącego, dzięki któremu wykrywane byłyby przypadki nietypowej rekcji i rozróŜniane od błędów
gramatycznych.
Plik: Dokumentacja.doc
Wersja: 0.1-46 z dnia 02.06.2007
Copyright © 2007 Akademia Górniczo-Hutnicza
Stron: 10 Długość: 307 kB
Prowadzenie zajęć: mgr inŜ. Michał Korzycki
10