Th062 - Thetos

Transkrypt

Th062 - Thetos
przetwarzanie języka naturalnego,
analiza i projektowanie obiektowe, modele analityczne, identyfikacja pojęć,
automatyczna analiza składniowa, interpretacja semantyczna
Nina SUSZCZAŃSKA *
IDENTYFIKACJA KLAS I OBIEKTÓW
W TEKSTACH W JĘZYKU POLSKIM
Modelowanie logiczne systemu informatycznego przy podejściu obiektowym oparte jest na identyfikacji kluczowych abstrakcji dziedziny problemu. Proces identyfikowania zwykle jest pracoi czasochłonny. Do pewnego stopnia czynność tę można zautomatyzować, co jednak wymaga oparcia
się na dobrym analizatorze języka zasobów tekstowych, w naszych badaniach – polskiego. W artykule jest opisana metoda wydzielenia z tekstu pojęć, które mogą odgrywać rolę klas i obiektów w modelowanym systemie. W badaniach został wykorzystany program analizy składniowej opracowany
przez autorkę. Badania potwierdziły wstępną tezę, że poszukiwanym pojęciom odpowiadają pewne
typy grup składniowych. Na przykład, role klas, obiektów i atrybutów najczęściej odgrywają grupy
rzeczowników. Celem prac opisywanych w niniejszym artykule jest zbadanie semantycznych własności grup rzeczownikowych w celu odnalezienia odwzorowania konstrukcji składniowych na pewne byty dziedziny problemu. Celem praktycznym opisywanych badań jest rozwój systemu wspomagania lingwistycznego analityka obiektowego Liana.
1. WSTĘP
Jednym z problemów modelowania projektu informatycznego jest identyfikacja
jednostek modelu, przede wszystkim obiektów i ich klas [2]. Charakter tych jednostek
jest ściśle powiązany z dziedziną problemu, której poznanie jest niezbędne dla zgromadzenia zbioru pojęć podstawowych. Źródłem poznania dziedziny, a co za tym idzie
– podstawą do identyfikacji – może być zbiór dokumentów tekstowych, czyli opisów,
specyfikacji itp. Sporządzenie listy słów, które identyfikują lub mogą identyfikować
kluczowe pojęcia, wymaga od analityka dużego nakładu pracy polegającej na przeczytaniu i przeanalizowaniu dokumentów. Celem opisywanych badań jest poszukiwanie
możliwości zautomatyzowania tej żmudnej pracy. Mając do dyspozycji wstępny zbiór
__________
*
Instytut Informatyki Politechniki Śląskiej, [email protected]
pojęć otrzymany automatycznie, analityk więcej czasu może poświęcić analizie roli
każdego elementu zbioru jako abstrakcji budowanego modelu. Ponadto w przypadku
gdy zajdą zmiany w zbiorze dokumentów, nie sprawia trudności powtórne uzyskanie
wymaganego zbioru pojęć.
Najczęściej opisy istnieją w postaci elektronicznej, co umożliwia stosowanie do ich
przetwarzania technologii inżynierii wiedzy. Teza ta dotyczy przede wszystkim metod
i narzędzi automatycznej analizy tekstu. W prezentowanych badaniach stosowana jest
metoda bazująca na wynikach wcześniejszych prac autorki dotyczących automatycznej analizy składniowej zdań w języku polskim [5]. Zakres badań obejmował opracowanie metody zastosowania analizy lingwistycznej dla celów zautomatyzowanej identyfikacji pojęć z tekstu, a także prowadzenie eksperymentów komputerowych. Celem
„bliższym” badań była kontynuacja opracowywania oprogramowania wspomagającego analityka obiektowego przy użyciu metod lingwistyki komputerowej [9].
W szczególności interesowało autorkę wydzielenie kandydatów na obiekty lub klasy.
Celem „dalszym” było wykonanie kolejnego kroku w budowaniu informatycznego
modelu języka polskiego. Przed rozpoczęciem prac 1 przyjęto kilka założeń, z których
głównym było to, że badanie konkretnego tekstu przeprowadza się tylko wtedy, gdy
wyniki jego analizy składniowej są prawidłowe.
Niniejszy artykuł przedstawia opis stosowanej metody oraz analizę wyników wykonanych eksperymentów. Eksperymenty zostały wykonane przy użyciu serwera
LAS-2 (serwer analizy lingwistycznej) opracowanego w Zakładzie Oprogramowania
Instytutu Informatyki (http://las.aei.polsl.pl/las2). Częścią składową LAS-2 jest analizator Polsyn, którego zadaniem jest podział zdania na grupy składniowe oraz określenie relacji syntaktycznych między grupami. Analiza składniowa opiera się na gramatyce SGGP (Syntactical Groups Grammar for Polish) [5]. W SGGP występują cztery
poziomy grup składniowych, na każdym poziomie rozróżnia się od kilku do kilkunastu typów grup. Struktura grup jest złożona, a relacje występujące między nimi są
różnorodne. Użycie tak złożonego formalizmu powoduje, że semantyczność grup jest
wysoka, co ułatwia proces semantycznej interpretacji wyników analizy składniowej.
Studia semantycznych własności grup zaowocowały powstaniem metody wydzielania
pojęć dziedziny problemu. Badania te potwierdziły tezę, że role pojęć są odgrywane
przez pewne szczególne typy grup składniowych. Na przykład, role klas, obiektów i
atrybutów najczęściej (ale nie zawsze) odgrywają grupy rzeczowników.
__________
1
Opracowanie wykonano w ramach badań statutowych BK-2006
2. ZASTOSOWANIE ANALIZY MORFOLOGICZNEJ DLA CELÓW
ZAUTOMATYZOWANEJ IDENTYFIKACJI POJĘĆ
Przebieg badań można określić następująco: Na wstępie została odrzucona metoda
stosowana dla języka angielskiego – wydzielenie pojęć na podstawie częstotliwości
występowania wyrazów. Fleksyjność języka polskiego wymaga lematyzacji i analizy
morfologicznej do odkrycia formy podstawowej i części mowy dla każdego wyrazu
tekstu [10]. Obliczenia częstotliwości występowania wyrazów w tekście zastąpiono
obliczaniem częstotliwości występowania leksemów. Jak wykazały eksperymenty,
metoda ta nie jest wystarczająca do identyfikacji, co, ściśle biorąc, nie jest wnioskiem
oryginalnym, lecz potwierdzeniem na materiale języka polskiego wyników analogicznych badań dla języka angielskiego [4, 11]. Jednak nabyte doświadczenie było ważne
dla dalszych eksperymentów, a podejście bazujące na analizie morfologicznej stało się
częścią składową podejścia bazującego na analizie składniowej. Jednym z punktów
wyjściowych było ustalenie liczby wystąpień wyrazów, która pozwala na wprowadzenie wyrazu na listę kandydatów na pojęcia w dziedzinie problemu. I tak, na listę zaakceptowanych wyrazów są wpisywane lematy wyrazów, które wystąpiły w tekście co
najmniej dwa razy. Wychodziliśmy z założenia, że po przeglądnięciu tej listy analityk
przypisze tym słowom odpowiednie role w modelu analitycznym. Rysunki 1-5 reprezentują wyniki eksperymentów, w których analizie był poddany opis systemu sterowania windami (wyniki eksperymentów z opisami innych projektów są zbliżone do
zademonstrowanych niżej). Na rys. 1 podano fragment listy wyrazów zaakceptowanych na podstawie analizy morfologicznej, na rys. 2 podano listę pojęć, które nie zostały zaakceptowane przez program, ponieważ wystąpiły w tekście tylko jeden raz.
Łatwo zauważyć, że do listy wyrazów zaakceptowanych trafiły także wyrazy nienależące do dziedziny problemowej (jeż, taka, jak, jaka). Co gorzej, nie zostały zaakceptowane niektóre wyrazy, które należą do pojęć dziedziny problemu. To oznacza, że
analityk nie może ufać wynikom automatycznej identyfikacji i jest zmuszony do przeglądnięcia także listy pojęć niezaakceptowanych. Ponadto na rys. 2 widać, że niektóre
słowa mogą występować zarówno w roli klasy lub obiektu, jak i zdarzenia czy usługi.
Wybór roli należy do analityka, a to znaczy, że do procesu wydzielania podstawowych abstrakcji wkracza subiektywizm, który przy automatyzacji powinien być
w idealnym przypadku zminimalizowany.
Skąd biorą się pojęcia irrelewantne, czyli nienależące do danej dziedziny? Istnieją
co najmniej dwa powody ich istnienia. Specyfikacja niesformalizowana jest zwykłym
tekstem w języku naturalnym i nie zawsze jest opisem ścisłym. Ponadto tekst opisuje
przyszły system z różnych punktów odniesienia, nie oddzielając specjalnie opisu
funkcjonowania od opisu używania. W naszym eksperymencie zdania dotyczące opisu
szczególnych przypadków użycia windy stały się źródłem wyrazu zaakceptowanego
pasażer i nie zaakceptowanego człowiek. Po drugie, duża liczba słów irrelewantnych
dostarcza automatyczna analiza morfologiczna tworząca wyniki homonimiczne. Na
przykład jeż został umieszczony na liście na tej podstawie, że dla słowa jeżeli analizator Morf wygenerował dwa wyniki dla odmiennych od siebie form podstawowych:
jeżeli jako spójnik i jeż jako rzeczownik rodzaju męskiego w liczbie mnogiej z końcówką –li charakterystyczną dla języka polskiego. Ten fakt zademonstrowano na
rys. 3, który przedstawia fragment wyników analizy morfologicznej. Dokładny opis
analizatora Morf i wyników, jakie dostarcza, umieszczono w [10].
Leksem
winda
przycisk
piętro
przerwanie
komputer
pasażer
program
rejestr
tablica
przywołanie
numer
pamięć
przełącznik
przeznaczenie
ruch
czujnik
sygnał
drzwi
jeż
taka
Liczba
wystąpień
54
44
42
23
16
16
16
16
14
13
10
9
9
8
8
7
7
6
6
6
Liczba
wystąpień
dół
5
polecenie
5
schemat
5
bit
4
góra
4
łączenie
4
łączeń
4
mechanizm 4
sterowanie 4
sterownik
4
bycie
3
indykator
3
informacja 3
jak
3
jaka
3
naciśnięcie 3
obsługa
3
otrzymanie 3
parter
3
system
3
Leksem
Leksem
cal
kierunek
kontroler
naciskanie
por
pora
poruszanie
poziom
producent
przykład
przypadek
przywoływanie
rozkład
silnik
słowo
stop
układanie
warunek
wejście
żarówka
Liczba
wystąpień
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Rys. 1. Lista rzeczowników — pojęć akceptowanych (sortowana według liczby wystąpień)
Fig. 1. The list of accepted nouns (sorted by number of occurrence)
Leksem
blokowanie
brak
czas
człowiek
gmach
jazda
kontrola
kółko
liczba
Liczba
wystąpień
1
1
1
1
1
1
1
1
1
Leksem
ładowanie
model
odłączenie
odsyłanie
praktyka
przeciążenie
przekazanie
przepełnienie
przewóz
Liczba
wystąpień
1
1
1
1
1
1
1
1
1
Leksem
przyciskanie
punkt
umieszczenie
wid
zabezpieczenie
załadowanie
zatrzymanie
zbiór
zgaszenie
Rys. 2. Lista rzeczowników — pojęć nie akceptowanych
Fig. 2. The list of non-accepted nouns
Liczba
wystąpień
1
1
1
1
1
1
1
1
1
Wyraz
+Jeżeli
Jeżeli
+podczas
+wykonania
+rozkazu
Lemat
jeżeli
jeż
podczas
wykonanie
rozkaz
Klasa
8
1
7
1
1
Cechy morfologiczne
112172
321312342372
121
Końcówka
*li
Rys. 3. Fragment wyników analizy morfologicznej
Fig. 3. A fragment of morphological analysis results
Podsumowując wyniki eksperymentów, można stwierdzić, że wynikowa lista pojęć
jest olbrzymia; pojedyncze słowa nie przemawiają do wyobraźni analityka i nie ułatwiają pracy, wręcz przeciwnie: wymuszają przeszukanie w dokumentacji miejsca,
gdzie dane słowo zostało użyte; na listę nie trafiają słowa rzadko używane w tekście,
mimo że są ważne dla modelu; niejednoznaczność analizy morfologicznej powoduje
wniesienie do listy słów irrelewantnych. To oznacza, że sama analiza morfologiczna
nie wystarcza, aby na podstawie jej wyników stwierdzić, czy dany wyraz może odgrywać rolę jakiejś abstrakcji w dziedzinie problemu. Nasuwa się więc wniosek o
potrzebie opracowania metody wydzielania z tekstu nie wyrazów, a pojęć.
3. IDENTYFIKACJA POJĘĆ NA PODSTAWIE ANALIZY SKŁADNIOWEJ
Proponowana metoda wydzielenia pojęć z tekstu jest oparta na automatycznej analizie składniowej traktowanej jako narzędzie do grupowania, czyli do wyodrębnienia
konstrukcji syntaktycznych, które w zdaniu opisują poszukiwane pojęcia. Takimi konstrukcjami są grupy składniowe, które są podstawą stosowanej w opisywanych badaniach analizy syntaktycznej. W tym opracowaniu odwołujemy się do intuicyjnego
rozumienia grupy składniowej. Upraszczając, można powiedzieć, że na grupy składniowe składają się wyrazy, grupowane wokół wyrazu bazowego określanego przez
gramatykę [5] w trakcie analizy. Przy wykonaniu produkcji gramatyki określane są
cechy morfologiczno-syntaktyczne grupy w całości i jej składowych, a także relacje
powstające między składowymi grupy. Została postawiona hipoteza, że grupy rzeczownika i przyimka określają kontekst semantyczny pewnego pojęcia, a wyraz reprezentujący grupę bazową może być naszym poszukiwanym pojęciem. Dalsze prace
polegały na przeprowadzeniu analizy składniowej tekstu i badaniu semantycznych
własności grup. Odnalezienie roli grupy w modelu projektu (klasa, obiekt itp.) nie
było bezpośrednim celem opisywanej pracy, jednak w trakcie analizy relacji składniowych występujących między grupami udało się uzyskać niektóre sugestie co do
wspomnianych ról [8]. Lista grup uzyskana po analizie składniowej jest bardziej reprezentatywna niż po analizie morfologicznej, ponadto z treści grup już można wnioskować, co może być klasą, obiektem lub atrybutem. Poza tym lektura listy grup może
być pomocna w skojarzeniu pojęć z takimi, które nie zostały użyte w tekście, ale są
potrzebne przy konstruowaniu modelu systemu informatycznego. Przy prowadzeniu
eksperymentów przyjęto, że na listę wynikową wpisują się wszystkie grupy poziomu
drugiego i wyżej [5]. Na rys. 4 przedstawiono fragment listy fraz uzyskanych po analizie składniowej, rys. 5 prezentuje różnicę występującą w listach pojęć.
Grupa składniowa
8-bitowy rejestr wejściowy
awaryjny sygnał dźwiękowy
czerwony przycisk
do przewozu ludzi
kierunku swojego ruchu
nieoświetlonego przycisku
numerem piętra
obsługa przerwań
po otrzymaniu takiego przerwania
pewien złośliwy pasażer
pierwsze bity każdego rejestru
program układania rozkładu jazdy
przepełniona winda
przycisk piętra przeznaczenia
przyciski czwartego, piątego oraz
dwudziestego piętra
schemat łączenia
sygnały świetlne
tego samego przycisku
zgaszenia przycisku
Wyraz
bazowy
rejestr
sygnał
przycisk
przewóz
kierunek
przycisk
numer
obsługa
otrzymanie
pasażer
bit
program
winda
przycisk
Określenie 1
Określenie 2
Określenie 3
człowiek
ruch
piętro
przerwanie
przerwanie
rejestr
układanie
rozkład
piętro
przeznaczenie
przycisk
piętro
schemat
sygnał
przycisk
zgaszenie
łączenie
jazda
przycisk
Rys. 4. Fragment listy grup składniowych
Fig. 4. The list of syntactical groups
Lista pojęć po analizie morfologicznej
rejestr
sygnał
przycisk
piętro
Lista pojęć po analizie składniowej
8-bitowy rejestr wejściowy
awaryjny sygnał dźwiękowy
przyciski czwartego, piątego oraz dwudziestego piętra
piętro przeznaczenia
Rys. 5. Porównanie wyników
Fig. 5. The comparison of results
Mimo ewidentnego polepszenia wyników, zadanie identyfikacji pojęć z tekstów
jest dalekie od rozwiązania. Przede wszystkim lista nadal zawiera bardzo dużo pozycji, z których wiele powtarza się na skutek występowania parafraz. Grupy rzadko występują w tekście w tej samej postaci: frazy opisujące to samo pojęcie mogą mieć odmienną strukturę; do określenia tego samego pojęcia mogą być użyte inne słowa (np.
drukarka, urządzenie komputerowe itp.). Redukcję listy można byłoby uzyskać obli-
czając częstotliwości występowania poszczególnych grup składniowych, ale problem
polega na znalezieniu miary bliskości treści grup. Dotąd nie udało się nam jeszcze
opracować zadowalających algorytmów obliczenia częstotliwości wystąpienia grup
w tekście; na razie zostało przyjęte następujące podejście: Do listy kandydatów na
poszukiwane abstrakcje są wpisywane te grupy, które zawierają wyrazy najczęściej
występujące w tekście (rys. 1), przy tym nie bierze się pod uwagę ról składniowych
tych wyrazów: bazowej czy podrzędnej. W tym przypadku z tablicy na rys. 4 do listy
zaakceptowanych pojęć zostały wniesione wszystkie grupy za wyjątkiem do przewozu
ludzi, ponieważ żadna ze składowych tej grupy nie została zaakceptowana (rys. 2).
Lepszym rozwiązaniem jest interpretacja semantyczna grupy przy użyciu tezaurusa
zawierającego terminy dziedziny problemu, w tym nie tylko pojedyncze słowa, lecz
także frazy uzyskane za pomocą analizatora Polsyn. W tym kierunku zrobiono pierwsze kroki, mianowicie opracowano słownik hierarchii informatycznych terminów –
bazę danych z towarzyszącym oprogramowaniem Term. W chwili obecnej jest opracowywana nowa, rozszerzona i ulepszona wersja aplikacji Term-2, w której uwzględniono nie tylko możliwość gromadzenia danych i ich edytowania, ale także wyszukiwania i wnioskowania na podstawie danych zawartych w bazie.
Pomocnym byłoby także opracowanie bardziej zaawansowanych kryteriów identyfikacji, procedur dedukcji itp. Przede wszystkim teza ta dotyczy algorytmu wydzielenia w grupie słowa, które określa znaczenie grupy. Wymienione na rys. 4 wyrazy bazowe występują jako główne elementy składowe odpowiednich grup, ale jedynie na
poziomie składniowym, a nie na semantycznym. Jako przykład mogą służyć następujące grupy: kierunek ruchu, numer piętra, piętro przeznaczenia, schemat łączności.
Rozwiązanie tego problemu polega na interpretacji semantycznej relacji składniowej,
jaka zachodzi między składowymi grupy (z uwzględnieniem interpretacji tych składowych), a – ewentualnie – analizy całego otoczenia (kontekstu) grupy. Interpretacja
semantyczna jednak wymaga dodatkowych wysiłków, w tym opracowania klasyfikacji semantycznej odpowiadającej zagadnieniu i ułożenia słowników semantycznych
dla każdej klasy wyrazów, a przede wszystkim dla rzeczowników. Prace w tym kierunku zostały rozpoczęte; opisano je częściowo i z przyjęciem nieco innej perspektywy w [1].
Podczas analizy dokumentacji występują tak złożone problemy, jak analiza niekompletnej struktury zdania bądź grupy, czyli problem anafor i elips. Przykładem tego
może być grupa z rys.4 kierunku swojego ruchu. Problem zamiany zaimka anaforycznego na antecedent (w tym przykładzie swojego na winda) proponujemy rozwiązać za
pomocą metody stopniowego modelowania analizowanego tekstu i powtórnej jego
analizy [3, 6]. Kolejnym problemem jest kwestia wyboru pojęć najbardziej istotnych
dla analizowanego tekstu. Tu pomocnym mogą być metody opracowane dla streszczania tekstu [7]. Oba wymienione wyżej problemy są związane z analizą składniową nie
zdań, lecz tekstu, i w związku z ograniczoną objętością artykułu nie są tu omawiane.
4. ZAKOŃCZENIE
W artykule przedstawiono prace ukierunkowane na lingwistyczne wspomaganie
analityka obiektowego. Głównym celem studiów było opracowanie metody identyfikacji kluczowych abstrakcji dziedziny problemu i ułożenia ich w pewien system. Pomimo tego, że wyniki eksperymentów potwierdziły większość naszych tez, do rozwiązania problemu identyfikacji abstrakcji jest jeszcze daleko. Lista zaakceptowanych
pojęć nie jest precyzyjna, a także wciąż zawiera pojęcia irrelewantne w stosunku do
modelu. Dla bardziej precyzyjnego określenia abstrakcji potrzebna jest analiza semantyczna tekstu, co najmniej semantyczna interpretacja grup składniowych, a także relacji składniowych między pojęciami – składowymi grupy.
Problem odnalezienia odwzorowania konstrukcji językowych na byt jest jednym
z nierozwiązanych do tej pory problemów semantyki. Dlatego, żeby zmniejszyć komplikacje, a także w celach porównania wyników uzyskanych automatycznie z wynikami otrzymanymi przez człowieka, zdecydowano się na ograniczenie zakresu analizowanych tekstów do kilku tematów opracowanych w ramach zajęć laboratoryjnych
z przedmiotów Inżynieria Programowania i Projektowanie Obiektowe.
Jest oczywiste, że obecnie nie jest możliwe opracowanie programu, który zastąpiłby człowieka przy tworzeniu modeli analitycznych. Automatyczna identyfikacja pojęć
ma służyć jedynie wspomaganiu dekompozycji systemu informatycznego, ostateczna
decyzja jednak powinna należeć do analityka. Ponadto wspomniane wspomaganie ma
polegać nie tylko na wydzieleniu abstrakcji z tekstu, a także na udostępnieniu analitykowi narzędzi programistycznych ułatwiających podejmowanie decyzji dotyczących
określenia roli każdego pojęcia w modelu analitycznym. W celu stworzenia takiego
narzędzia jest opracowywany system Liana (Linguistically based Information Analysis) wspomagania analityka obiektowego [9]; realizacja projektu biegnie w ramach
kilku prac dyplomowych na kierunku Informatyka.
LITERATURA
[1] BACH M., ROMANIUK J., SUSZCZAŃSKA N., Semantyczna interpretacja grup przysłówkowych i przyimkowych w analizie konstrukcji szeregu, Materiały VI Krajowej Konferencji IWiSE, 2006
[2] FLASIŃSKI M., Wstęp do analitycznych metod projektowania systemów informatycznych, Warszawa,
WNT, 1997
[3] KULIKÓW S., ROMANIUK J., SUSZCZAŃSKA N., A syntactical analysis of anaphora
in the Polsyn parser, Proceedings of the International IIS:IIPWM'04 Conference, Zakopane, Poland, 2004, 444-448
[4] NIJSSEN G.M., HALPIN T.A. Conceptual Schema and Relational Database Design: A Fact Oriented Approach, Prentice Hall, 1989
[5] SUSZCZAŃSKA N., GS-gramatyka języka polskiego, W: Speech Analysis, Synthesis and
Recognition in Technology, Liguistics and Medicine, G. Demenko, A. Izworski,
M. Michałek (red), Kraków, AGH, Uczelniane Wydawnictwa Naukowo-Dydaktyczne,
2005, 58 - 61
[6] SUSZCZAŃSKA N., SZMAL P, KULIKÓW S., Continuous Text Translation using Text
Modeling in the Thetos System. International Journal of Computational Intelligence, vol. 1,
no. 4, 2004 ISSN 1304-4508 (http://www.enformatika.org/journals/1304-2386/v1/v1-454.pdf), 338-341
[7] SUSZCZAŃSKA N., KULIKÓW S., A Polish Document Summarizer, 21st IASTED International Conference AI2003, Innsbruck, 2003, 369-374
[8] SUSZCZAŃSKA N., Automatyczna identyfikacja relacji między abstrakcjami dziedziny
problemu dla potrzeb analizy obiektowej. W: Inżynieria Wiedzy i Systemy Ekspertowe,
Z. Bubnicki, A. Grzech (red), Wrocław, Oficyna Wydawnicza Politechniki Wrocławskiej,
2003, 319 –326
[9] SUSZCZAŃSKA N., Wspomaganie lingwistyczne analityka obiektowego, Raport z realizacji Badań
Własnych, symbol pracy BW-444/RAu-2/2001, Gliwice, 2001
[10] SUSZCZAŃSKA N., FORCZEK M.,, MIGAS A., Multi-stage Morphological Analyser
for Polish, W: Speech and Language Technology, ed: W. Jassem, C. Basztura,
G. Demenko, K. Jassem, vol. 4, Poznań 2000, 155-165
[11] YOURDON E., ARGILA C. Case Studies in Object-Oriented Analysis and Design, Prentice Hall/Yourdon Press, 1996
IDENTIFYING CLASSES AND OBJECTS IN POLISH TEXTS
In the object-oriented approach, logical modelling of a software system is based on identifying key
abstractions of the problem domain. The identification process is usually labour and time consuming. It
can be automated to a certain degree, but such an automation requires a good analyser of natural language; in our research – of Polish. The paper describes a method for extracting the concepts that might
become classes and objects in the modelled system from texts. A parser of Polish, developed by the
author, was employed for the purposes of the research. The research confirmed the assumption that some
types of syntactical groups correspond to the requested concepts, e.g. noun groups usually correspond to
classes, objects, and attributes. The work aims at examining the semantic properties of noun groups in
order to find a correspondence between syntactical structures and entities of the problem domain. The
practical aim of the research is improving the Liana system for linguistically based information analysis.

Podobne dokumenty