Th062 - Thetos
Transkrypt
Th062 - Thetos
przetwarzanie języka naturalnego, analiza i projektowanie obiektowe, modele analityczne, identyfikacja pojęć, automatyczna analiza składniowa, interpretacja semantyczna Nina SUSZCZAŃSKA * IDENTYFIKACJA KLAS I OBIEKTÓW W TEKSTACH W JĘZYKU POLSKIM Modelowanie logiczne systemu informatycznego przy podejściu obiektowym oparte jest na identyfikacji kluczowych abstrakcji dziedziny problemu. Proces identyfikowania zwykle jest pracoi czasochłonny. Do pewnego stopnia czynność tę można zautomatyzować, co jednak wymaga oparcia się na dobrym analizatorze języka zasobów tekstowych, w naszych badaniach – polskiego. W artykule jest opisana metoda wydzielenia z tekstu pojęć, które mogą odgrywać rolę klas i obiektów w modelowanym systemie. W badaniach został wykorzystany program analizy składniowej opracowany przez autorkę. Badania potwierdziły wstępną tezę, że poszukiwanym pojęciom odpowiadają pewne typy grup składniowych. Na przykład, role klas, obiektów i atrybutów najczęściej odgrywają grupy rzeczowników. Celem prac opisywanych w niniejszym artykule jest zbadanie semantycznych własności grup rzeczownikowych w celu odnalezienia odwzorowania konstrukcji składniowych na pewne byty dziedziny problemu. Celem praktycznym opisywanych badań jest rozwój systemu wspomagania lingwistycznego analityka obiektowego Liana. 1. WSTĘP Jednym z problemów modelowania projektu informatycznego jest identyfikacja jednostek modelu, przede wszystkim obiektów i ich klas [2]. Charakter tych jednostek jest ściśle powiązany z dziedziną problemu, której poznanie jest niezbędne dla zgromadzenia zbioru pojęć podstawowych. Źródłem poznania dziedziny, a co za tym idzie – podstawą do identyfikacji – może być zbiór dokumentów tekstowych, czyli opisów, specyfikacji itp. Sporządzenie listy słów, które identyfikują lub mogą identyfikować kluczowe pojęcia, wymaga od analityka dużego nakładu pracy polegającej na przeczytaniu i przeanalizowaniu dokumentów. Celem opisywanych badań jest poszukiwanie możliwości zautomatyzowania tej żmudnej pracy. Mając do dyspozycji wstępny zbiór __________ * Instytut Informatyki Politechniki Śląskiej, [email protected] pojęć otrzymany automatycznie, analityk więcej czasu może poświęcić analizie roli każdego elementu zbioru jako abstrakcji budowanego modelu. Ponadto w przypadku gdy zajdą zmiany w zbiorze dokumentów, nie sprawia trudności powtórne uzyskanie wymaganego zbioru pojęć. Najczęściej opisy istnieją w postaci elektronicznej, co umożliwia stosowanie do ich przetwarzania technologii inżynierii wiedzy. Teza ta dotyczy przede wszystkim metod i narzędzi automatycznej analizy tekstu. W prezentowanych badaniach stosowana jest metoda bazująca na wynikach wcześniejszych prac autorki dotyczących automatycznej analizy składniowej zdań w języku polskim [5]. Zakres badań obejmował opracowanie metody zastosowania analizy lingwistycznej dla celów zautomatyzowanej identyfikacji pojęć z tekstu, a także prowadzenie eksperymentów komputerowych. Celem „bliższym” badań była kontynuacja opracowywania oprogramowania wspomagającego analityka obiektowego przy użyciu metod lingwistyki komputerowej [9]. W szczególności interesowało autorkę wydzielenie kandydatów na obiekty lub klasy. Celem „dalszym” było wykonanie kolejnego kroku w budowaniu informatycznego modelu języka polskiego. Przed rozpoczęciem prac 1 przyjęto kilka założeń, z których głównym było to, że badanie konkretnego tekstu przeprowadza się tylko wtedy, gdy wyniki jego analizy składniowej są prawidłowe. Niniejszy artykuł przedstawia opis stosowanej metody oraz analizę wyników wykonanych eksperymentów. Eksperymenty zostały wykonane przy użyciu serwera LAS-2 (serwer analizy lingwistycznej) opracowanego w Zakładzie Oprogramowania Instytutu Informatyki (http://las.aei.polsl.pl/las2). Częścią składową LAS-2 jest analizator Polsyn, którego zadaniem jest podział zdania na grupy składniowe oraz określenie relacji syntaktycznych między grupami. Analiza składniowa opiera się na gramatyce SGGP (Syntactical Groups Grammar for Polish) [5]. W SGGP występują cztery poziomy grup składniowych, na każdym poziomie rozróżnia się od kilku do kilkunastu typów grup. Struktura grup jest złożona, a relacje występujące między nimi są różnorodne. Użycie tak złożonego formalizmu powoduje, że semantyczność grup jest wysoka, co ułatwia proces semantycznej interpretacji wyników analizy składniowej. Studia semantycznych własności grup zaowocowały powstaniem metody wydzielania pojęć dziedziny problemu. Badania te potwierdziły tezę, że role pojęć są odgrywane przez pewne szczególne typy grup składniowych. Na przykład, role klas, obiektów i atrybutów najczęściej (ale nie zawsze) odgrywają grupy rzeczowników. __________ 1 Opracowanie wykonano w ramach badań statutowych BK-2006 2. ZASTOSOWANIE ANALIZY MORFOLOGICZNEJ DLA CELÓW ZAUTOMATYZOWANEJ IDENTYFIKACJI POJĘĆ Przebieg badań można określić następująco: Na wstępie została odrzucona metoda stosowana dla języka angielskiego – wydzielenie pojęć na podstawie częstotliwości występowania wyrazów. Fleksyjność języka polskiego wymaga lematyzacji i analizy morfologicznej do odkrycia formy podstawowej i części mowy dla każdego wyrazu tekstu [10]. Obliczenia częstotliwości występowania wyrazów w tekście zastąpiono obliczaniem częstotliwości występowania leksemów. Jak wykazały eksperymenty, metoda ta nie jest wystarczająca do identyfikacji, co, ściśle biorąc, nie jest wnioskiem oryginalnym, lecz potwierdzeniem na materiale języka polskiego wyników analogicznych badań dla języka angielskiego [4, 11]. Jednak nabyte doświadczenie było ważne dla dalszych eksperymentów, a podejście bazujące na analizie morfologicznej stało się częścią składową podejścia bazującego na analizie składniowej. Jednym z punktów wyjściowych było ustalenie liczby wystąpień wyrazów, która pozwala na wprowadzenie wyrazu na listę kandydatów na pojęcia w dziedzinie problemu. I tak, na listę zaakceptowanych wyrazów są wpisywane lematy wyrazów, które wystąpiły w tekście co najmniej dwa razy. Wychodziliśmy z założenia, że po przeglądnięciu tej listy analityk przypisze tym słowom odpowiednie role w modelu analitycznym. Rysunki 1-5 reprezentują wyniki eksperymentów, w których analizie był poddany opis systemu sterowania windami (wyniki eksperymentów z opisami innych projektów są zbliżone do zademonstrowanych niżej). Na rys. 1 podano fragment listy wyrazów zaakceptowanych na podstawie analizy morfologicznej, na rys. 2 podano listę pojęć, które nie zostały zaakceptowane przez program, ponieważ wystąpiły w tekście tylko jeden raz. Łatwo zauważyć, że do listy wyrazów zaakceptowanych trafiły także wyrazy nienależące do dziedziny problemowej (jeż, taka, jak, jaka). Co gorzej, nie zostały zaakceptowane niektóre wyrazy, które należą do pojęć dziedziny problemu. To oznacza, że analityk nie może ufać wynikom automatycznej identyfikacji i jest zmuszony do przeglądnięcia także listy pojęć niezaakceptowanych. Ponadto na rys. 2 widać, że niektóre słowa mogą występować zarówno w roli klasy lub obiektu, jak i zdarzenia czy usługi. Wybór roli należy do analityka, a to znaczy, że do procesu wydzielania podstawowych abstrakcji wkracza subiektywizm, który przy automatyzacji powinien być w idealnym przypadku zminimalizowany. Skąd biorą się pojęcia irrelewantne, czyli nienależące do danej dziedziny? Istnieją co najmniej dwa powody ich istnienia. Specyfikacja niesformalizowana jest zwykłym tekstem w języku naturalnym i nie zawsze jest opisem ścisłym. Ponadto tekst opisuje przyszły system z różnych punktów odniesienia, nie oddzielając specjalnie opisu funkcjonowania od opisu używania. W naszym eksperymencie zdania dotyczące opisu szczególnych przypadków użycia windy stały się źródłem wyrazu zaakceptowanego pasażer i nie zaakceptowanego człowiek. Po drugie, duża liczba słów irrelewantnych dostarcza automatyczna analiza morfologiczna tworząca wyniki homonimiczne. Na przykład jeż został umieszczony na liście na tej podstawie, że dla słowa jeżeli analizator Morf wygenerował dwa wyniki dla odmiennych od siebie form podstawowych: jeżeli jako spójnik i jeż jako rzeczownik rodzaju męskiego w liczbie mnogiej z końcówką –li charakterystyczną dla języka polskiego. Ten fakt zademonstrowano na rys. 3, który przedstawia fragment wyników analizy morfologicznej. Dokładny opis analizatora Morf i wyników, jakie dostarcza, umieszczono w [10]. Leksem winda przycisk piętro przerwanie komputer pasażer program rejestr tablica przywołanie numer pamięć przełącznik przeznaczenie ruch czujnik sygnał drzwi jeż taka Liczba wystąpień 54 44 42 23 16 16 16 16 14 13 10 9 9 8 8 7 7 6 6 6 Liczba wystąpień dół 5 polecenie 5 schemat 5 bit 4 góra 4 łączenie 4 łączeń 4 mechanizm 4 sterowanie 4 sterownik 4 bycie 3 indykator 3 informacja 3 jak 3 jaka 3 naciśnięcie 3 obsługa 3 otrzymanie 3 parter 3 system 3 Leksem Leksem cal kierunek kontroler naciskanie por pora poruszanie poziom producent przykład przypadek przywoływanie rozkład silnik słowo stop układanie warunek wejście żarówka Liczba wystąpień 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Rys. 1. Lista rzeczowników — pojęć akceptowanych (sortowana według liczby wystąpień) Fig. 1. The list of accepted nouns (sorted by number of occurrence) Leksem blokowanie brak czas człowiek gmach jazda kontrola kółko liczba Liczba wystąpień 1 1 1 1 1 1 1 1 1 Leksem ładowanie model odłączenie odsyłanie praktyka przeciążenie przekazanie przepełnienie przewóz Liczba wystąpień 1 1 1 1 1 1 1 1 1 Leksem przyciskanie punkt umieszczenie wid zabezpieczenie załadowanie zatrzymanie zbiór zgaszenie Rys. 2. Lista rzeczowników — pojęć nie akceptowanych Fig. 2. The list of non-accepted nouns Liczba wystąpień 1 1 1 1 1 1 1 1 1 Wyraz +Jeżeli Jeżeli +podczas +wykonania +rozkazu Lemat jeżeli jeż podczas wykonanie rozkaz Klasa 8 1 7 1 1 Cechy morfologiczne 112172 321312342372 121 Końcówka *li Rys. 3. Fragment wyników analizy morfologicznej Fig. 3. A fragment of morphological analysis results Podsumowując wyniki eksperymentów, można stwierdzić, że wynikowa lista pojęć jest olbrzymia; pojedyncze słowa nie przemawiają do wyobraźni analityka i nie ułatwiają pracy, wręcz przeciwnie: wymuszają przeszukanie w dokumentacji miejsca, gdzie dane słowo zostało użyte; na listę nie trafiają słowa rzadko używane w tekście, mimo że są ważne dla modelu; niejednoznaczność analizy morfologicznej powoduje wniesienie do listy słów irrelewantnych. To oznacza, że sama analiza morfologiczna nie wystarcza, aby na podstawie jej wyników stwierdzić, czy dany wyraz może odgrywać rolę jakiejś abstrakcji w dziedzinie problemu. Nasuwa się więc wniosek o potrzebie opracowania metody wydzielania z tekstu nie wyrazów, a pojęć. 3. IDENTYFIKACJA POJĘĆ NA PODSTAWIE ANALIZY SKŁADNIOWEJ Proponowana metoda wydzielenia pojęć z tekstu jest oparta na automatycznej analizie składniowej traktowanej jako narzędzie do grupowania, czyli do wyodrębnienia konstrukcji syntaktycznych, które w zdaniu opisują poszukiwane pojęcia. Takimi konstrukcjami są grupy składniowe, które są podstawą stosowanej w opisywanych badaniach analizy syntaktycznej. W tym opracowaniu odwołujemy się do intuicyjnego rozumienia grupy składniowej. Upraszczając, można powiedzieć, że na grupy składniowe składają się wyrazy, grupowane wokół wyrazu bazowego określanego przez gramatykę [5] w trakcie analizy. Przy wykonaniu produkcji gramatyki określane są cechy morfologiczno-syntaktyczne grupy w całości i jej składowych, a także relacje powstające między składowymi grupy. Została postawiona hipoteza, że grupy rzeczownika i przyimka określają kontekst semantyczny pewnego pojęcia, a wyraz reprezentujący grupę bazową może być naszym poszukiwanym pojęciem. Dalsze prace polegały na przeprowadzeniu analizy składniowej tekstu i badaniu semantycznych własności grup. Odnalezienie roli grupy w modelu projektu (klasa, obiekt itp.) nie było bezpośrednim celem opisywanej pracy, jednak w trakcie analizy relacji składniowych występujących między grupami udało się uzyskać niektóre sugestie co do wspomnianych ról [8]. Lista grup uzyskana po analizie składniowej jest bardziej reprezentatywna niż po analizie morfologicznej, ponadto z treści grup już można wnioskować, co może być klasą, obiektem lub atrybutem. Poza tym lektura listy grup może być pomocna w skojarzeniu pojęć z takimi, które nie zostały użyte w tekście, ale są potrzebne przy konstruowaniu modelu systemu informatycznego. Przy prowadzeniu eksperymentów przyjęto, że na listę wynikową wpisują się wszystkie grupy poziomu drugiego i wyżej [5]. Na rys. 4 przedstawiono fragment listy fraz uzyskanych po analizie składniowej, rys. 5 prezentuje różnicę występującą w listach pojęć. Grupa składniowa 8-bitowy rejestr wejściowy awaryjny sygnał dźwiękowy czerwony przycisk do przewozu ludzi kierunku swojego ruchu nieoświetlonego przycisku numerem piętra obsługa przerwań po otrzymaniu takiego przerwania pewien złośliwy pasażer pierwsze bity każdego rejestru program układania rozkładu jazdy przepełniona winda przycisk piętra przeznaczenia przyciski czwartego, piątego oraz dwudziestego piętra schemat łączenia sygnały świetlne tego samego przycisku zgaszenia przycisku Wyraz bazowy rejestr sygnał przycisk przewóz kierunek przycisk numer obsługa otrzymanie pasażer bit program winda przycisk Określenie 1 Określenie 2 Określenie 3 człowiek ruch piętro przerwanie przerwanie rejestr układanie rozkład piętro przeznaczenie przycisk piętro schemat sygnał przycisk zgaszenie łączenie jazda przycisk Rys. 4. Fragment listy grup składniowych Fig. 4. The list of syntactical groups Lista pojęć po analizie morfologicznej rejestr sygnał przycisk piętro Lista pojęć po analizie składniowej 8-bitowy rejestr wejściowy awaryjny sygnał dźwiękowy przyciski czwartego, piątego oraz dwudziestego piętra piętro przeznaczenia Rys. 5. Porównanie wyników Fig. 5. The comparison of results Mimo ewidentnego polepszenia wyników, zadanie identyfikacji pojęć z tekstów jest dalekie od rozwiązania. Przede wszystkim lista nadal zawiera bardzo dużo pozycji, z których wiele powtarza się na skutek występowania parafraz. Grupy rzadko występują w tekście w tej samej postaci: frazy opisujące to samo pojęcie mogą mieć odmienną strukturę; do określenia tego samego pojęcia mogą być użyte inne słowa (np. drukarka, urządzenie komputerowe itp.). Redukcję listy można byłoby uzyskać obli- czając częstotliwości występowania poszczególnych grup składniowych, ale problem polega na znalezieniu miary bliskości treści grup. Dotąd nie udało się nam jeszcze opracować zadowalających algorytmów obliczenia częstotliwości wystąpienia grup w tekście; na razie zostało przyjęte następujące podejście: Do listy kandydatów na poszukiwane abstrakcje są wpisywane te grupy, które zawierają wyrazy najczęściej występujące w tekście (rys. 1), przy tym nie bierze się pod uwagę ról składniowych tych wyrazów: bazowej czy podrzędnej. W tym przypadku z tablicy na rys. 4 do listy zaakceptowanych pojęć zostały wniesione wszystkie grupy za wyjątkiem do przewozu ludzi, ponieważ żadna ze składowych tej grupy nie została zaakceptowana (rys. 2). Lepszym rozwiązaniem jest interpretacja semantyczna grupy przy użyciu tezaurusa zawierającego terminy dziedziny problemu, w tym nie tylko pojedyncze słowa, lecz także frazy uzyskane za pomocą analizatora Polsyn. W tym kierunku zrobiono pierwsze kroki, mianowicie opracowano słownik hierarchii informatycznych terminów – bazę danych z towarzyszącym oprogramowaniem Term. W chwili obecnej jest opracowywana nowa, rozszerzona i ulepszona wersja aplikacji Term-2, w której uwzględniono nie tylko możliwość gromadzenia danych i ich edytowania, ale także wyszukiwania i wnioskowania na podstawie danych zawartych w bazie. Pomocnym byłoby także opracowanie bardziej zaawansowanych kryteriów identyfikacji, procedur dedukcji itp. Przede wszystkim teza ta dotyczy algorytmu wydzielenia w grupie słowa, które określa znaczenie grupy. Wymienione na rys. 4 wyrazy bazowe występują jako główne elementy składowe odpowiednich grup, ale jedynie na poziomie składniowym, a nie na semantycznym. Jako przykład mogą służyć następujące grupy: kierunek ruchu, numer piętra, piętro przeznaczenia, schemat łączności. Rozwiązanie tego problemu polega na interpretacji semantycznej relacji składniowej, jaka zachodzi między składowymi grupy (z uwzględnieniem interpretacji tych składowych), a – ewentualnie – analizy całego otoczenia (kontekstu) grupy. Interpretacja semantyczna jednak wymaga dodatkowych wysiłków, w tym opracowania klasyfikacji semantycznej odpowiadającej zagadnieniu i ułożenia słowników semantycznych dla każdej klasy wyrazów, a przede wszystkim dla rzeczowników. Prace w tym kierunku zostały rozpoczęte; opisano je częściowo i z przyjęciem nieco innej perspektywy w [1]. Podczas analizy dokumentacji występują tak złożone problemy, jak analiza niekompletnej struktury zdania bądź grupy, czyli problem anafor i elips. Przykładem tego może być grupa z rys.4 kierunku swojego ruchu. Problem zamiany zaimka anaforycznego na antecedent (w tym przykładzie swojego na winda) proponujemy rozwiązać za pomocą metody stopniowego modelowania analizowanego tekstu i powtórnej jego analizy [3, 6]. Kolejnym problemem jest kwestia wyboru pojęć najbardziej istotnych dla analizowanego tekstu. Tu pomocnym mogą być metody opracowane dla streszczania tekstu [7]. Oba wymienione wyżej problemy są związane z analizą składniową nie zdań, lecz tekstu, i w związku z ograniczoną objętością artykułu nie są tu omawiane. 4. ZAKOŃCZENIE W artykule przedstawiono prace ukierunkowane na lingwistyczne wspomaganie analityka obiektowego. Głównym celem studiów było opracowanie metody identyfikacji kluczowych abstrakcji dziedziny problemu i ułożenia ich w pewien system. Pomimo tego, że wyniki eksperymentów potwierdziły większość naszych tez, do rozwiązania problemu identyfikacji abstrakcji jest jeszcze daleko. Lista zaakceptowanych pojęć nie jest precyzyjna, a także wciąż zawiera pojęcia irrelewantne w stosunku do modelu. Dla bardziej precyzyjnego określenia abstrakcji potrzebna jest analiza semantyczna tekstu, co najmniej semantyczna interpretacja grup składniowych, a także relacji składniowych między pojęciami – składowymi grupy. Problem odnalezienia odwzorowania konstrukcji językowych na byt jest jednym z nierozwiązanych do tej pory problemów semantyki. Dlatego, żeby zmniejszyć komplikacje, a także w celach porównania wyników uzyskanych automatycznie z wynikami otrzymanymi przez człowieka, zdecydowano się na ograniczenie zakresu analizowanych tekstów do kilku tematów opracowanych w ramach zajęć laboratoryjnych z przedmiotów Inżynieria Programowania i Projektowanie Obiektowe. Jest oczywiste, że obecnie nie jest możliwe opracowanie programu, który zastąpiłby człowieka przy tworzeniu modeli analitycznych. Automatyczna identyfikacja pojęć ma służyć jedynie wspomaganiu dekompozycji systemu informatycznego, ostateczna decyzja jednak powinna należeć do analityka. Ponadto wspomniane wspomaganie ma polegać nie tylko na wydzieleniu abstrakcji z tekstu, a także na udostępnieniu analitykowi narzędzi programistycznych ułatwiających podejmowanie decyzji dotyczących określenia roli każdego pojęcia w modelu analitycznym. W celu stworzenia takiego narzędzia jest opracowywany system Liana (Linguistically based Information Analysis) wspomagania analityka obiektowego [9]; realizacja projektu biegnie w ramach kilku prac dyplomowych na kierunku Informatyka. LITERATURA [1] BACH M., ROMANIUK J., SUSZCZAŃSKA N., Semantyczna interpretacja grup przysłówkowych i przyimkowych w analizie konstrukcji szeregu, Materiały VI Krajowej Konferencji IWiSE, 2006 [2] FLASIŃSKI M., Wstęp do analitycznych metod projektowania systemów informatycznych, Warszawa, WNT, 1997 [3] KULIKÓW S., ROMANIUK J., SUSZCZAŃSKA N., A syntactical analysis of anaphora in the Polsyn parser, Proceedings of the International IIS:IIPWM'04 Conference, Zakopane, Poland, 2004, 444-448 [4] NIJSSEN G.M., HALPIN T.A. Conceptual Schema and Relational Database Design: A Fact Oriented Approach, Prentice Hall, 1989 [5] SUSZCZAŃSKA N., GS-gramatyka języka polskiego, W: Speech Analysis, Synthesis and Recognition in Technology, Liguistics and Medicine, G. Demenko, A. Izworski, M. Michałek (red), Kraków, AGH, Uczelniane Wydawnictwa Naukowo-Dydaktyczne, 2005, 58 - 61 [6] SUSZCZAŃSKA N., SZMAL P, KULIKÓW S., Continuous Text Translation using Text Modeling in the Thetos System. International Journal of Computational Intelligence, vol. 1, no. 4, 2004 ISSN 1304-4508 (http://www.enformatika.org/journals/1304-2386/v1/v1-454.pdf), 338-341 [7] SUSZCZAŃSKA N., KULIKÓW S., A Polish Document Summarizer, 21st IASTED International Conference AI2003, Innsbruck, 2003, 369-374 [8] SUSZCZAŃSKA N., Automatyczna identyfikacja relacji między abstrakcjami dziedziny problemu dla potrzeb analizy obiektowej. W: Inżynieria Wiedzy i Systemy Ekspertowe, Z. Bubnicki, A. Grzech (red), Wrocław, Oficyna Wydawnicza Politechniki Wrocławskiej, 2003, 319 –326 [9] SUSZCZAŃSKA N., Wspomaganie lingwistyczne analityka obiektowego, Raport z realizacji Badań Własnych, symbol pracy BW-444/RAu-2/2001, Gliwice, 2001 [10] SUSZCZAŃSKA N., FORCZEK M.,, MIGAS A., Multi-stage Morphological Analyser for Polish, W: Speech and Language Technology, ed: W. Jassem, C. Basztura, G. Demenko, K. Jassem, vol. 4, Poznań 2000, 155-165 [11] YOURDON E., ARGILA C. Case Studies in Object-Oriented Analysis and Design, Prentice Hall/Yourdon Press, 1996 IDENTIFYING CLASSES AND OBJECTS IN POLISH TEXTS In the object-oriented approach, logical modelling of a software system is based on identifying key abstractions of the problem domain. The identification process is usually labour and time consuming. It can be automated to a certain degree, but such an automation requires a good analyser of natural language; in our research – of Polish. The paper describes a method for extracting the concepts that might become classes and objects in the modelled system from texts. A parser of Polish, developed by the author, was employed for the purposes of the research. The research confirmed the assumption that some types of syntactical groups correspond to the requested concepts, e.g. noun groups usually correspond to classes, objects, and attributes. The work aims at examining the semantic properties of noun groups in order to find a correspondence between syntactical structures and entities of the problem domain. The practical aim of the research is improving the Liana system for linguistically based information analysis.