pobierz plik referatu - BDAS

Transkrypt

pobierz plik referatu - BDAS
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Rozdział 8
w
Inteligentna lingwistyczna baza danych w analizie
zdań złożonych
w
1 Wstęp
da
.b
w
Streszczenie. W pracy przedstawiono zasady budowy algorytmów
przeznaczonych do analizy zdań złożonych na podstawie reguł gramatyki
strukturalnej i komunikacyjnej z elementami modelu logicznego języka.
Przedstawiono również algorytm przetwarzania w inteligentnym
lingwistycznym systemie bazy danych, który na podstawie przekazanego
zdania złożonego jest w stanie dokonać rozkładu językowego pod względem
gramatyki komunikacyjnej. Lingwistyczny system baz danych został
zaimplementowany z wykorzystaniem SZBD SQL Server 2000, serwera
WWW Apache oraz technologii PHP. Artykuł dotyczy etapu prac
w odniesieniu do poprzedniej pracy przedstawionej na konferencji
BDAS’2006 [2]
pl
s.
Przedstawiony system lingwistycznej bazy danych został rozbudowany o moduł związany
z analizą zdań złożonych. Wykorzystano w nim słownik komputerowy operatorów
przedstawiony w artykule [1]. Dodatkowo do realizacji aplikacji wykorzystano System
Zarządzania Baz Danych MS SQL Server 2000. W celu stworzenia aplikacji internetowej
wykorzystano także serwer WWW Apache i współpracujący z nim moduł do obsługi
języka skryptowego PHP. Starano się, by sposób działania aplikacji był realizowany za
pomocą procedur z wykorzystaniem języka Transact-SQL, które są przechowywane
w SZBD jako obiekty bazy danych.
W niniejszym artykule autorzy przedstawili zasady budowy algorytmów oraz
możliwości ich zastosowania do analizy tekstu na podstawie reguł gramatyki strukturalnej
i komunikacyjnej z elementami modelu logicznego języka.
Sławomir Wiak, Paweł Drzymała, Henryk Welfle
Politechnika Łódzka, Instytut Mechatroniki i Systemów Informatycznych,
ul. Stefanowskiego 18/22, 90-924 Łódź, Polska
email: {wiakslaw, pdrzymal, henryk.welfle}@p.lodz.pl
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
S. Wiak, P. Drzymała, H. Welfle
2 Budowa słownika komputerowego operatorów lingwistycznych
w
Zasady budowy inteligentnego lingwistycznego systemu baz danych, opierają się na
algorytmach, które dla przekazanego tekstu (zdania, lub całego ciągu zdań) są w stanie
wyszukać i jednoznacznie określić wyrazy pod względem gramatyki komunikatywnej.
Należy zaznaczyć, że system inteligentnej lingwistycznej bazy danych form językowych
był projektowany i powstawał w środowisku rozproszonym, tzn. algorytmy
implementowane były w systemie z równoległym wprowadzaniem słowników funkcji
językowych przez wiele osób. Do realizacji tego celu zaistniała potrzeba wykorzystania
globalnego medium transmisji informacji i sieci komunikacyjnych - Internetu. Autorzy
musieli zatem zadbać o bezpieczeństwo architektury na wielu płaszczyznach dostępu do
projektu.
Do realizacji wymienionego celu budowy procedur przetwarzania zadań
lingwistycznych wykorzystano:
− kompletne rozwiązanie bazodanowe i analityczne – SQL Server 2000 Developer
Edition, przeznaczone do szybkiego tworzenia nowej generacji aplikacji
ukierunkowanych dla Internetu,
− środowisko serwera aplikacji internetowych Apache 2.0, w tym implementację
protokołu kryptografii transmisji danych SSL przeznaczonego do zadań
komercyjnych w tzw. e-businessie tzn. zadań, dla których stawia się najwyższe
wymagania co do bezpieczeństwa,
− dynamicznie rozwijający się obecnie język PHP.
da
.b
w
w
Analiza zdań złożonych oparta jest na funkcjach, których zasada działania wykorzystuje
rozbudowane bloki wyszukiwania podmiotu - na zasadzie śledzenia składni budowy
zdania, a dokładniej określonego rzeczownika w stosunku do wyznaczonego
metapredykatu.
Komputerowy słownik operatorów wykonany został na platformie SQL Server 2000
i zawiera kilka tysięcy elementów funkcji językowych zgromadzonych w postaci
tabelarycznej.
Zawartość analizowanych, przykładowych danych przedstawiono w tabelach 1, 2, 3, 4.
sg
dawał
V
praet
praet
3
sg
dawała
V
praet
praet
3
dawało
V
praet
praet
dają
V
praes
praes
P-PRIM
o
P-PRIM
m
o
P-PRIM
sg
f
o
P-PRIM
3
sg
n
o
P-PRIM
3
pl
P-PRIM
a3
liczba
3
a2a
osoba
praes
a1
ti
praes
funkcja
tg
C
V
tryb gram.
Inf.
V
daje
rodzaj
kat. gram.
dawać
pl
s.
V
Tabela 1. Wybrane atrybuty wykorzystywane do określenia czasownika
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
N-HUM(nom)
N-RES(acc)
N-HUM(dat)
82
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Inteligentna lingwistyczna baza danych w analizie zdań złożonych
Tabela 2. Wybrane atrybuty wykorzystywane do określenia rzeczownika
przypadek
liczba
kategoria
artysta
nom
sg
N-HUM
artysty
gen
sg
N-HUM
artyście
dat
sg
N-HUM
artystę
acc
sg
N-HUM
artystą
instr
sg
N-HUM
artyście
loc
sg
N-HUM
artyści
nom
pl
N-HUM
artystów
gen
pl
N-HUM
artystom
dat
pl
N-HUM
artystów
acc
pl
N-HUM
artystami
instr
pl
N-HUM
loc
pl
N-HUM
N
w
w
w
artystach
Tabela 3. Wybrane atrybuty wykorzystywane do określenia przymiotnika
da
.b
Adj
przypadek
liczba
rodzaj
funkcja
a1
amerykańscy
nom
pl
m
P-SEC-N
N-HUM-MASC
amerykańska
nom
sg
f
P-SEC-N
amerykańska
acc
sg
f
P-SEC-N
amerykańską
instr
sg
f
P-SEC-N
amerykański
nom
sg
m
P-SEC-N
amerykański
acc
sg
m
P-SEC-N
amerykańskich
gen
pl
m
P-SEC-N
Tabela 4. Wybrane atrybuty wykorzystywane do określenia przyimków
pl
s.
Funkcja
przyimek
imię
przypadek
Funkcja2
P-PRIM
na
N
acc
zareagować na wiadomości
N-ABSTR
o
N-PRED
loc
wiadomości o przybyciu
P-PRIM
w
N-PRED
acc
wchodzić w skład
P-PRIM
w
N-PRED
loc
pomóc w tropieniu
P-PRIM
w
N-LOC
loc
siedzieć w domu
Algorytm programu analizuje składnię zdania i na podstawie funkcji predykatowych
(np. właściwości atrybutu) określa rzeczownik w mianowniku lub rzeczownik
w dopełniaczu jako dalszy argument funkcji.
83
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
S. Wiak, P. Drzymała, H. Welfle
3 Schemat budowy operacji rozkładu zdań złożonych
w
W analizie semantycznej zdania nie można rozpatrywać wyrazów jako pojedynczych
elementów. Stanowią one, a w zasadzie ich układ względem siebie (w tym ich formy
gramatyczne i formy semantycznie dopuszczalne), znaczeniową rolę zdania. Analiza
układu wyrazów w zdaniu pod względem znaczeniowym możliwy jest do zrealizowania
jedynie z wykorzystaniem wydajnego systemu baz danych. Poprawne przetwarzanie
informacji wymaga, by baza danych zawierała wszystkie podstawowe fragmenty zdania
w różnych formach. Zasady „Gramatyki komunikacyjnej” – opracowane przez prof. A.
Awdiejewa narzucają różne formy, niezbędne we wskazanym algorytmie przetwarzania
danych. Każdy wyraz, jako część znaczeniowa, jest przechowywany w bazie danych jako
element z odpowiednimi parametrami, pełniąc określoną funkcję w zdaniu.
Zasady budowy inteligentnego lingwistycznego systemu baz danych opierają się na
algorytmach, które na podstawie przekazanego tekstu (zdania, lub całego ciągu zdań) są
w stanie wyszukać i jednoznacznie określić wyrazy pod względem gramatyki
komunikacyjnej.
Schematy semantyczne przedstawiono na rysunkach 1, 2, 3, 4, 5. Badanie dotyczy zdań,
które zawierają co najmniej jeden czasownik w formie osobowej.
Wyszukujemy wszystkie predykaty zawarte w danym zdaniu.
V1(OS), V2(OS) ... VK(OS)
K – liczba czasowników w formie osobowej i∈{1,...k}
Vi(OS) – i-ty czasownik w formie osobowej
Dla każdego i∈{1,...k–1} badamy układ zaczynający się Vi(OS) do wyrazu bezpośrednio
leżącego (łącznie) przed Vi+1(OS).
Jeśli i = k, badamy Vk(OS) do końca zdania.
Następnym krokiem postępowania jest wyznaczenie początku i końca grupy w zdaniu
złożonym. Procedurę tą można przedstawić następująco:
Pierwsza grupa – od początku do drugiego V(os) (czasownik w formie osobowej)
pozwala wyznaczyć zarówno schemat semantyczny jak i początek następnej grupy. Każda
następna grupa rozpoczyna się od miejsca wyznaczonego przez poprzednią sekwencję
i wyznacza początek następnej sekwencji.
Sposób badania kolejnego fragmentu dla i∈{1,...k} definiuje poniższy algorytm.
Dla algorytmu przedstawionego na rys. 1, 2, 3, 3a, 4, 5 wszystkie bloki w tym bloki
warunkowe przedstawione są w formie prostokątów.
pl
s.
da
.b
w
w
84
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Inteligentna lingwistyczna baza danych w analizie zdań złożonych
w
w
pl
s.
da
.b
w
Rys. 1. Procedura badająca fragment zdania zawierający tylko jeden czasownik w formie
osobowej lub bezokolicznikowej (ciąg dalszy algorytmu przedstawiono na rys. 2, 3, 3a, 4, 5
zgodnie z numeracją punktów A, B)
Rys. 2. Procedura badająca fragment zdania w przypadku niewystąpienia negacji „nie”
przed formą osobową
85
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
S. Wiak, P. Drzymała, H. Welfle
w
w
w
Rys. 3. Procedura badająca kolejny fragment zdania z rys. 2
pl
s.
da
.b
Rys. 3a. Procedura badająca kolejny fragment zdania z rys. 2
Na rys. 3a przedstawiono element procedury dotyczący fragmentu zdania zaczynającego
się od czasownika w formie osobowej i zawierającego jeden czasownik w formie osobowej
oraz czasownik w bezokoliczniku.
Wynikiem procedury (B) będą wszystkie układy wśród, których znajdą się predykaty
analityczne zbudowane przy pomocy metapredykatów.
86
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Inteligentna lingwistyczna baza danych w analizie zdań złożonych
w
da
.b
w
w
Rys. 4. Procedura badająca fragment zdania w przypadku wystąpienia negacji „nie” przed
formą osobową
pl
s.
Rys. 5. Procedura badająca kolejny fragment zdania z Rys.4
Wybrane przykłady przetwarzania tekstu dla wykonanej aplikacji przedstawiono na
rysunkach od 6 do 11.
87
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
S. Wiak, P. Drzymała, H. Welfle
w
Rys. 6. Rozkład zdania „On chce być
artystą” na metapredykaty i jego
argumenty
Rys. 7. Rozkład zdania „Chłopiec został
artystą” na metapredykaty i jego
argumenty
da
.b
w
w
Rys. 9. Rozkład zdania „Chłopiec dawał
książkę” na metapredykaty i jego
argumenty
Rys. 10. Rozkład zdania „Ona chce
dawać książkę” na metapredykaty i jego
argumenty
Rys. 11. Rozkład zdania „Chce
malować ścianę” na metapredykaty i
jego argumenty
4 Podsumowanie
pl
s.
Rys. 8. Rozkład zdania „Chłopcy zostali
artystami” na metapredykaty i jego
argumenty
Opierając się na uzyskanych wynikach, należy stwierdzić, iż możliwe jest opracowanie
zasad budowy inteligentnego lingwistycznego systemu baz danych, który na podstawie
przekazanego zdania złożonego jest w stanie dokonać rozkładu językowego pod względem
gramatyki komunikatywnej. Dodatkowo można stwierdzić, iż rozwiązanie oparte o podany
wybór algorytmów zapewnia bardzo ważną elastyczność w programowaniu utworzonej
aplikacji mogącej współpracować z istniejącymi systemami oraz zapewnia możliwość
88
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Inteligentna lingwistyczna baza danych w analizie zdań złożonych
w
szybkiego dostosowania produktu – inteligentnej lingwistycznej bazy danych do
zmieniających się wymagań.
Należy zaznaczyć, że system inteligentnej lingwistycznej bazy danych form językowych
powinien zostać zaprojektowany w środowisku rozproszonym, tzn. algorytmy
zaimplementowane powinny być w systemie z równoległym wprowadzaniem słowników
funkcji językowych przez wiele osób. Analiza zdań złożonych oparta jest o funkcje,
których zasada działania wykorzystuje rozbudowane bloki wyszukiwania podmiotu - na
zasadzie śledzenia składni budowy zdania, a dokładniej określonego rzeczownika
w stosunku do wyznaczonego metapredykatu.
Zaproponowana w niniejszym artykule struktura przetwarzania informacji została
zmodyfikowana i rozbudowana w stosunku do zaproponowanej w artykułach [1], [2]
analizy zdań prostych.
w
Słowa podziękowania:
w
Autorzy dziękują Komitetowi Badań Naukowych (KBN) za finansowanie grantu
naukowego (GRANT 5H01D01320)
1.
2.
3.
4.
5.
da
.b
Literatura
Drzymała P., Welfle H.,Wiak S., Habrajska G., Łazarow E., Awdiejew A.: “Intelligent
Linguistic Database Systems”- FCCS’2005 Bronisławowo.
Wiak S., Drzymała P., Welfle H., Dems M.: Środowisko Oracle Application Server w
Internetowej Aplikacji Inteligentnego Systemu Lingwistycznego. BDAS 2006 – Ustroń.
Aleksy A.: Gramatyka komunikacyjna. Wydawnictwo Naukowe PWN, Warszawa 1999, ISBN
8301127821
Habrajska G.: Presupozycja - kondensacja – implikatura. Język w komunikacji, t.1, Łódź 2001,
s.30–37
Habrajska G.: Kondensacja i skrótowość w komunikacji przez komputer. Słowo
w tekście, przekładzie i słowniku, ed. Peter Lang, Europäischer Verlag der Wissenchaften,
Sonderdruck 2002, s. 121–129.
pl
s.
89
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
w
pl
s.
da
.b
w
w
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007