pobierz plik referatu - BDAS
Transkrypt
pobierz plik referatu - BDAS
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Rozdział 8 w Inteligentna lingwistyczna baza danych w analizie zdań złożonych w 1 Wstęp da .b w Streszczenie. W pracy przedstawiono zasady budowy algorytmów przeznaczonych do analizy zdań złożonych na podstawie reguł gramatyki strukturalnej i komunikacyjnej z elementami modelu logicznego języka. Przedstawiono również algorytm przetwarzania w inteligentnym lingwistycznym systemie bazy danych, który na podstawie przekazanego zdania złożonego jest w stanie dokonać rozkładu językowego pod względem gramatyki komunikacyjnej. Lingwistyczny system baz danych został zaimplementowany z wykorzystaniem SZBD SQL Server 2000, serwera WWW Apache oraz technologii PHP. Artykuł dotyczy etapu prac w odniesieniu do poprzedniej pracy przedstawionej na konferencji BDAS’2006 [2] pl s. Przedstawiony system lingwistycznej bazy danych został rozbudowany o moduł związany z analizą zdań złożonych. Wykorzystano w nim słownik komputerowy operatorów przedstawiony w artykule [1]. Dodatkowo do realizacji aplikacji wykorzystano System Zarządzania Baz Danych MS SQL Server 2000. W celu stworzenia aplikacji internetowej wykorzystano także serwer WWW Apache i współpracujący z nim moduł do obsługi języka skryptowego PHP. Starano się, by sposób działania aplikacji był realizowany za pomocą procedur z wykorzystaniem języka Transact-SQL, które są przechowywane w SZBD jako obiekty bazy danych. W niniejszym artykule autorzy przedstawili zasady budowy algorytmów oraz możliwości ich zastosowania do analizy tekstu na podstawie reguł gramatyki strukturalnej i komunikacyjnej z elementami modelu logicznego języka. Sławomir Wiak, Paweł Drzymała, Henryk Welfle Politechnika Łódzka, Instytut Mechatroniki i Systemów Informatycznych, ul. Stefanowskiego 18/22, 90-924 Łódź, Polska email: {wiakslaw, pdrzymal, henryk.welfle}@p.lodz.pl (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 S. Wiak, P. Drzymała, H. Welfle 2 Budowa słownika komputerowego operatorów lingwistycznych w Zasady budowy inteligentnego lingwistycznego systemu baz danych, opierają się na algorytmach, które dla przekazanego tekstu (zdania, lub całego ciągu zdań) są w stanie wyszukać i jednoznacznie określić wyrazy pod względem gramatyki komunikatywnej. Należy zaznaczyć, że system inteligentnej lingwistycznej bazy danych form językowych był projektowany i powstawał w środowisku rozproszonym, tzn. algorytmy implementowane były w systemie z równoległym wprowadzaniem słowników funkcji językowych przez wiele osób. Do realizacji tego celu zaistniała potrzeba wykorzystania globalnego medium transmisji informacji i sieci komunikacyjnych - Internetu. Autorzy musieli zatem zadbać o bezpieczeństwo architektury na wielu płaszczyznach dostępu do projektu. Do realizacji wymienionego celu budowy procedur przetwarzania zadań lingwistycznych wykorzystano: − kompletne rozwiązanie bazodanowe i analityczne – SQL Server 2000 Developer Edition, przeznaczone do szybkiego tworzenia nowej generacji aplikacji ukierunkowanych dla Internetu, − środowisko serwera aplikacji internetowych Apache 2.0, w tym implementację protokołu kryptografii transmisji danych SSL przeznaczonego do zadań komercyjnych w tzw. e-businessie tzn. zadań, dla których stawia się najwyższe wymagania co do bezpieczeństwa, − dynamicznie rozwijający się obecnie język PHP. da .b w w Analiza zdań złożonych oparta jest na funkcjach, których zasada działania wykorzystuje rozbudowane bloki wyszukiwania podmiotu - na zasadzie śledzenia składni budowy zdania, a dokładniej określonego rzeczownika w stosunku do wyznaczonego metapredykatu. Komputerowy słownik operatorów wykonany został na platformie SQL Server 2000 i zawiera kilka tysięcy elementów funkcji językowych zgromadzonych w postaci tabelarycznej. Zawartość analizowanych, przykładowych danych przedstawiono w tabelach 1, 2, 3, 4. sg dawał V praet praet 3 sg dawała V praet praet 3 dawało V praet praet dają V praes praes P-PRIM o P-PRIM m o P-PRIM sg f o P-PRIM 3 sg n o P-PRIM 3 pl P-PRIM a3 liczba 3 a2a osoba praes a1 ti praes funkcja tg C V tryb gram. Inf. V daje rodzaj kat. gram. dawać pl s. V Tabela 1. Wybrane atrybuty wykorzystywane do określenia czasownika N-HUM(nom) N-RES(acc) N-HUM(dat) N-HUM(nom) N-RES(acc) N-HUM(dat) N-HUM(nom) N-RES(acc) N-HUM(dat) N-HUM(nom) N-RES(acc) N-HUM(dat) N-HUM(nom) N-RES(acc) N-HUM(dat) N-HUM(nom) N-RES(acc) N-HUM(dat) 82 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Inteligentna lingwistyczna baza danych w analizie zdań złożonych Tabela 2. Wybrane atrybuty wykorzystywane do określenia rzeczownika przypadek liczba kategoria artysta nom sg N-HUM artysty gen sg N-HUM artyście dat sg N-HUM artystę acc sg N-HUM artystą instr sg N-HUM artyście loc sg N-HUM artyści nom pl N-HUM artystów gen pl N-HUM artystom dat pl N-HUM artystów acc pl N-HUM artystami instr pl N-HUM loc pl N-HUM N w w w artystach Tabela 3. Wybrane atrybuty wykorzystywane do określenia przymiotnika da .b Adj przypadek liczba rodzaj funkcja a1 amerykańscy nom pl m P-SEC-N N-HUM-MASC amerykańska nom sg f P-SEC-N amerykańska acc sg f P-SEC-N amerykańską instr sg f P-SEC-N amerykański nom sg m P-SEC-N amerykański acc sg m P-SEC-N amerykańskich gen pl m P-SEC-N Tabela 4. Wybrane atrybuty wykorzystywane do określenia przyimków pl s. Funkcja przyimek imię przypadek Funkcja2 P-PRIM na N acc zareagować na wiadomości N-ABSTR o N-PRED loc wiadomości o przybyciu P-PRIM w N-PRED acc wchodzić w skład P-PRIM w N-PRED loc pomóc w tropieniu P-PRIM w N-LOC loc siedzieć w domu Algorytm programu analizuje składnię zdania i na podstawie funkcji predykatowych (np. właściwości atrybutu) określa rzeczownik w mianowniku lub rzeczownik w dopełniaczu jako dalszy argument funkcji. 83 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 S. Wiak, P. Drzymała, H. Welfle 3 Schemat budowy operacji rozkładu zdań złożonych w W analizie semantycznej zdania nie można rozpatrywać wyrazów jako pojedynczych elementów. Stanowią one, a w zasadzie ich układ względem siebie (w tym ich formy gramatyczne i formy semantycznie dopuszczalne), znaczeniową rolę zdania. Analiza układu wyrazów w zdaniu pod względem znaczeniowym możliwy jest do zrealizowania jedynie z wykorzystaniem wydajnego systemu baz danych. Poprawne przetwarzanie informacji wymaga, by baza danych zawierała wszystkie podstawowe fragmenty zdania w różnych formach. Zasady „Gramatyki komunikacyjnej” – opracowane przez prof. A. Awdiejewa narzucają różne formy, niezbędne we wskazanym algorytmie przetwarzania danych. Każdy wyraz, jako część znaczeniowa, jest przechowywany w bazie danych jako element z odpowiednimi parametrami, pełniąc określoną funkcję w zdaniu. Zasady budowy inteligentnego lingwistycznego systemu baz danych opierają się na algorytmach, które na podstawie przekazanego tekstu (zdania, lub całego ciągu zdań) są w stanie wyszukać i jednoznacznie określić wyrazy pod względem gramatyki komunikacyjnej. Schematy semantyczne przedstawiono na rysunkach 1, 2, 3, 4, 5. Badanie dotyczy zdań, które zawierają co najmniej jeden czasownik w formie osobowej. Wyszukujemy wszystkie predykaty zawarte w danym zdaniu. V1(OS), V2(OS) ... VK(OS) K – liczba czasowników w formie osobowej i∈{1,...k} Vi(OS) – i-ty czasownik w formie osobowej Dla każdego i∈{1,...k–1} badamy układ zaczynający się Vi(OS) do wyrazu bezpośrednio leżącego (łącznie) przed Vi+1(OS). Jeśli i = k, badamy Vk(OS) do końca zdania. Następnym krokiem postępowania jest wyznaczenie początku i końca grupy w zdaniu złożonym. Procedurę tą można przedstawić następująco: Pierwsza grupa – od początku do drugiego V(os) (czasownik w formie osobowej) pozwala wyznaczyć zarówno schemat semantyczny jak i początek następnej grupy. Każda następna grupa rozpoczyna się od miejsca wyznaczonego przez poprzednią sekwencję i wyznacza początek następnej sekwencji. Sposób badania kolejnego fragmentu dla i∈{1,...k} definiuje poniższy algorytm. Dla algorytmu przedstawionego na rys. 1, 2, 3, 3a, 4, 5 wszystkie bloki w tym bloki warunkowe przedstawione są w formie prostokątów. pl s. da .b w w 84 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Inteligentna lingwistyczna baza danych w analizie zdań złożonych w w pl s. da .b w Rys. 1. Procedura badająca fragment zdania zawierający tylko jeden czasownik w formie osobowej lub bezokolicznikowej (ciąg dalszy algorytmu przedstawiono na rys. 2, 3, 3a, 4, 5 zgodnie z numeracją punktów A, B) Rys. 2. Procedura badająca fragment zdania w przypadku niewystąpienia negacji „nie” przed formą osobową 85 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 S. Wiak, P. Drzymała, H. Welfle w w w Rys. 3. Procedura badająca kolejny fragment zdania z rys. 2 pl s. da .b Rys. 3a. Procedura badająca kolejny fragment zdania z rys. 2 Na rys. 3a przedstawiono element procedury dotyczący fragmentu zdania zaczynającego się od czasownika w formie osobowej i zawierającego jeden czasownik w formie osobowej oraz czasownik w bezokoliczniku. Wynikiem procedury (B) będą wszystkie układy wśród, których znajdą się predykaty analityczne zbudowane przy pomocy metapredykatów. 86 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Inteligentna lingwistyczna baza danych w analizie zdań złożonych w da .b w w Rys. 4. Procedura badająca fragment zdania w przypadku wystąpienia negacji „nie” przed formą osobową pl s. Rys. 5. Procedura badająca kolejny fragment zdania z Rys.4 Wybrane przykłady przetwarzania tekstu dla wykonanej aplikacji przedstawiono na rysunkach od 6 do 11. 87 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 S. Wiak, P. Drzymała, H. Welfle w Rys. 6. Rozkład zdania „On chce być artystą” na metapredykaty i jego argumenty Rys. 7. Rozkład zdania „Chłopiec został artystą” na metapredykaty i jego argumenty da .b w w Rys. 9. Rozkład zdania „Chłopiec dawał książkę” na metapredykaty i jego argumenty Rys. 10. Rozkład zdania „Ona chce dawać książkę” na metapredykaty i jego argumenty Rys. 11. Rozkład zdania „Chce malować ścianę” na metapredykaty i jego argumenty 4 Podsumowanie pl s. Rys. 8. Rozkład zdania „Chłopcy zostali artystami” na metapredykaty i jego argumenty Opierając się na uzyskanych wynikach, należy stwierdzić, iż możliwe jest opracowanie zasad budowy inteligentnego lingwistycznego systemu baz danych, który na podstawie przekazanego zdania złożonego jest w stanie dokonać rozkładu językowego pod względem gramatyki komunikatywnej. Dodatkowo można stwierdzić, iż rozwiązanie oparte o podany wybór algorytmów zapewnia bardzo ważną elastyczność w programowaniu utworzonej aplikacji mogącej współpracować z istniejącymi systemami oraz zapewnia możliwość 88 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Inteligentna lingwistyczna baza danych w analizie zdań złożonych w szybkiego dostosowania produktu – inteligentnej lingwistycznej bazy danych do zmieniających się wymagań. Należy zaznaczyć, że system inteligentnej lingwistycznej bazy danych form językowych powinien zostać zaprojektowany w środowisku rozproszonym, tzn. algorytmy zaimplementowane powinny być w systemie z równoległym wprowadzaniem słowników funkcji językowych przez wiele osób. Analiza zdań złożonych oparta jest o funkcje, których zasada działania wykorzystuje rozbudowane bloki wyszukiwania podmiotu - na zasadzie śledzenia składni budowy zdania, a dokładniej określonego rzeczownika w stosunku do wyznaczonego metapredykatu. Zaproponowana w niniejszym artykule struktura przetwarzania informacji została zmodyfikowana i rozbudowana w stosunku do zaproponowanej w artykułach [1], [2] analizy zdań prostych. w Słowa podziękowania: w Autorzy dziękują Komitetowi Badań Naukowych (KBN) za finansowanie grantu naukowego (GRANT 5H01D01320) 1. 2. 3. 4. 5. da .b Literatura Drzymała P., Welfle H.,Wiak S., Habrajska G., Łazarow E., Awdiejew A.: “Intelligent Linguistic Database Systems”- FCCS’2005 Bronisławowo. Wiak S., Drzymała P., Welfle H., Dems M.: Środowisko Oracle Application Server w Internetowej Aplikacji Inteligentnego Systemu Lingwistycznego. BDAS 2006 – Ustroń. Aleksy A.: Gramatyka komunikacyjna. Wydawnictwo Naukowe PWN, Warszawa 1999, ISBN 8301127821 Habrajska G.: Presupozycja - kondensacja – implikatura. Język w komunikacji, t.1, Łódź 2001, s.30–37 Habrajska G.: Kondensacja i skrótowość w komunikacji przez komputer. Słowo w tekście, przekładzie i słowniku, ed. Peter Lang, Europäischer Verlag der Wissenchaften, Sonderdruck 2002, s. 121–129. pl s. 89 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 w pl s. da .b w w (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007