Automatyczne tworzenie podsumowań tekstów metodami

Transkrypt

Automatyczne tworzenie podsumowań tekstów metodami
Automatyczne tworzenie podsumowań
tekstów metodami algebraicznymi
Jarosław Gramacki, Artur Gramacki
Streszczenie: Duża liczba zwracanych (na przykład przez
różnego rodzaju wyszukiwarki internetowe) dokumentów
oznacza, że często zmuszeni jesteśmy do czasochłonnego
ich przeglądania, celem weryfikacji trafności zwracanych
wyników. Gdy dokumenty są długie, czas ich przeglądania
znacznie się wydłuża. Można by go wydatnie skrócić,
gdyby istniała możliwość automatycznego generowania
sensownych podsumowań (streszczeń). W artykule omawiamy wybrane algebraiczne metody służące automatycznemu wydobywaniu z tekstu jego najistotniejszych słów
kluczowych oraz najistotniejszych zdań.
Słowa kluczowe: automatyczne podsumowywanie, ukryta
semantyka dokumentów, przekształcenie SVD.
dynczego dokumentu, choć znane są również prace dotyczące tworzenia podsumowań zbioru dokumentów [2,11]1.
2. SFORMUŁOWANIE ZADANIA
Z danego dokumentu tekstowego należy wybrać pewną
liczbę wchodzących w jego skład zdań, które najlepiej (w
sensie użytej metody) opisują jego zawartość merytoryczną. Na rysunku 1 pokazano wizualizację wyniku działania
systemu automatycznego tworzenia podsumowań. Tekst
pogrubiony to poszukiwane podsumowanie. W przykładzie
podsumowanie to stanowi ok 20% całości tekstu (parametr
ten ustala użytkownik).
1. WPROWADZENIE
Praca dotyczy wybranych technik automatycznego
tworzenia podsumowań dokumentów tekstowych (ang.
automatic text summarization), które mogą być pomocne
m.in. do szybkiego zapoznania się ze zwracanymi przez
wyszukiwarki wynikami (czytamy streszczenia a nie całe
dokumenty). Zadanie takie w literaturze nazywa się ekstrakcją zawartości (ang. extract of contents) i często oparte
jest na statystycznej analizie treści dokumentu (np. badanie
częstości występowania i współwystępowania takich elementów tekstu jak słowa, zdania, akapity, itp.). Inny rodzaj
podsumowania, zwany w literaturze streszczeniem (ang.
abstract of contents), polega na podsumowaniu zawartości
dokumentu przy użyciu słów i zwrotów niekoniecznie
występujących w podsumowywanym tekście [2,8,9]. W
podejściu tym chodzi o automatyczne stworzenie logicznego tekstu skorelowanego z głównymi treściami dokumentu. Używane w tym podejściu techniki wywodzą się
często z metod sztucznej inteligencji oraz metod przetwarzania języka naturalnego (ang. natural language processing, NLP). Wydaje się jednak, że na obecnym etapie rozwoju nauki, mimo podejmowanych w tym kierunku wysiłków, to podejście nie daje jak na razie zadawalających
wyników.
W pracy pokazujemy, w jaki sposób, korzystając z
modeli algebraicznych, dokonać można ekstrakcji zawartości dokumentu. Pokazujemy, że pozornie trudne zadanie
budowy sensowych podsumowań, jest możliwe do wykonania stosunkowo prostymi metodami algebraicznymi.
Zajmujemy się generowaniem podsumowania dla poje-
Rys. 1. Wizualizacja systemu automatycznie generującego podsumowanie dokumentu
3. STRUKTURA DANYCH
W dziedzinie nauki zwanej wyszukiwaniem informacji (ang. information retrieval, IR), powszechne jest stosownie wektorowych struktur danych w postaci tzw. macierzy term-dokument (ang. term-document matrix, TDM).
Załóżmy, że analizujemy zbiór n dokumentów, w których znajduje się w sumie m różnych (unikalnych) słów.
Możemy więc umieścić w wierszach macierzy TDM słowa
a w kolumnach dokumenty oraz zapisać w komórkach tej
macierzy informacje o częstości występowania poszczególnych słów (ang. term frequency, TF) w poszczególnych
dokumentach. Uzyskujemy więc macierz, nazwijmy ją A, o
wymiarze m x n. Jej kolumny zwane są wektorami dokumentów, a wiersze wektorami słów [1,7].
1
Najczęściej tego typu zadanie ma sens (i w ogóle jest wykonalne) dla
jednolitego tematycznie zbioru dokumentów.
Aby wartości [aij] macierzy A poprawnie odzwierciedlały specyficzność każdego słowa odnośnie całego zbioru
dokumentów, modyfikujemy je według tzw. schematu
odwrotnej częstością termów (ang. Inverse Document
Frequency, IDF). Przekształcenie to ma on na celu poprawne wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów. Otrzymane wielkości na końcu są jeszcze często dodatkowo
normalizowane. Jest to zabieg konieczny, gdy indeksujemy
dokumenty o istotnie różnych długościach. Wtedy nie są
faworyzowane dokumenty długie.
Tak utworzona struktura danych nadaje się już do typowych zadań związanych z wyszukiwaniem informacji
[1,7], czyli na przykład odszukiwania w zaindeksowanym
zbiorze dokumentów tych z nich, które maksymalnie pasują do zadanego przez użytkownika zapytania. W największym skrócie, i w najprostszej wersji, odbywa się to na
zasadzie poszukiwania tych dokumentów, które są najbliższe (w sensie np. miary kosinusowej) wektorowi zapytania
Q zadanego przez użytkownika. Ilustruje to poglądowo
rysunek 2.
Rys. 2. Ilustracja miary podobieństwa wektora zapytania
Q do wektorów dokumentów d1-d4
Na potrzeby zadania automatycznego tworzenia podsumowania danego dokumentu, korzystać będziemy z analogicznej do macierzy TDM struktury. Obecnie w kolumnach, zamiast dokumentów, występować będą zdania analizowanego dokumentu. Macierz taką nazywać będziemy
macierzą term-zdanie (ang. term- sentence matrix, TSM).
Macierze TDM lub TSM w praktyce są macierzami
bardzo rzadkimi (ang. sparse), chyba, że indeksujemy
naprawdę bardzo krótkie, kilkuzdaniowe dokumenty. Dokumenty, które składają się z dużej liczy zdań, zawierają w
każdym zdaniu jedynie bardzo niewielki procent wszystkich słów występujących w dokumencie. Stąd też wiele
komórek w macierzy pozostaje pustych. W praktyce stopień wypełnienia macierzy niezerowymi wartościami jest
rzędu procenta. Ilustruje to rysunek 3, na którym pokazano
stopień wypełnienia macierzy otrzymanej w przykładzie 1
(patrz rozdział 4.4). Macierz TSM zawiera jedyni 1,32%
niezerowych elementów!
Rys. 3. Wizualizacja stopnia wypełnienia macierzy TSM
z przykładu 1
3.1. WSTĘPNE PRZETWARZANIE DANYCH
Zakładamy, że wcześniej, na etapie wstępnego przetwarzania danych, usunęliśmy z podsumowywanego dokumentu słowa semantycznie nieistotne (na przykład dla
języka polskiego będą to takie słowa, jak przykładowo:
ale, lub, który, że, oraz itp.; tworzą one tzw. stop-listę).
Dokonaliśmy również wyodrębnienia z pozostałych słów
ich tzw. rdzenia znaczeniowego. W zależności od specyfiki języka, przekształcenie to może być realizowane za
pomocą reguł (zadanie proste obliczeniowo) lub przy wykorzystaniu słowników (zadanie złożone obliczeniowo).
Pierwsza metoda używana jest na przykład dla języka
angielskiego, druga dla języka polskiego. To, co pozostało
po wyodrębnieniu ze słów ich rdzenia znaczeniowego
zwykło się dla rozróżnienia nazywać termami (ang. terms)
Dokonaliśmy również poprawnego wydzielenia z dokumentu jego zdań, co nie jest wbrew pozorom zadaniem
łatwym
3.1.1. WYDOBYWANIE RDZENIA ZNACZENIOWEGO
Wydobywanie rdzenia znaczeniowego ze słów (ang.
stemming) jest bardzo ciekawym zagadnieniem, dlatego
poniżej pokazano przykład jego działania dla języka angielskiego. Zastosowano klasyczny algorytm Portera [11].
Obróbce poddano tekst z tabeli 5 użytej w przykładzie 2
(patrz rozdział 4.5).
Tabela 1.
Przykład użycia algorytmu Portera dla wybranego rzeczywistego fragmentu tekstu z przykładu 2
first releas in 1995 and purchas by sun in 2008, mysql ha rapidli
graduat from the realm of hobbyist to the world of busi, becom the
lead open sourc databas for mani web applic and an integr part of
the lamp (linux, apach, mysql, php) web applic stack. almost a
year after oracl’s acquisit of sun, mysql plai an even bigger role in
enterpris of all size worldwid, includ the bank of finland, clickabl,
and gorilla nation media. discov the secret to their success.
Zauważmy, że typową cechą stemmera regułowego (a
takim jest stemmer Portera) jest częste otrzymywanie jako
końcowego wyniku nieistniejącego w rzeczywistości słowa. Nie jest to jednak wada, gdyż zadaniem stemmera jest
jedynie sprowadzenie słowa do jakiejś formy, która byłaby
identyczna dla wszystkich jego form fleksyjnych
3.2. ANALIZA LSA I PRZEKSZTAŁCENIE SVD
W praktyce okazuje się, że oparcie zadania wyszukiwania informacji (a jak okaże się później i zadania generowania podsumowań) na oryginalnej postaci macierzy
TDM (TSM) jest nieefektywne. Istotną wadą analiz opartych na strukturach wektorowych jest fakt równego traktowania każdego termu, czyli nieuwzględnienie żadnej semantycznej zależności pomiędzy poszczególnymi słowami.
W każdym języku istnieją jednak synonimy (np. akcja,
papier wartościowy, walor) oraz polisemy (np. zamek (w
drzwiach) i zamek (obronny)). Wskutek tego trudno będzie
na przykład odnaleźć w zbiorze dokumentów zaindeksowanych podstawową strukturą TDM pozycji dobrze pasujących do wydanego zapytania (ang. relevant documents),
ale niezawierających w sobie jawnie fraz użytych
w zapytaniu. Rozwiązaniem tego problemu jest odpowiednie przekształcenie macierzy TDM do postaci, która uwidacznia tzw. ukryte znaczenie semantyczne (ang. latent
semantics). Analiza przeprowadzana na tak zmodyfikowanej strukturze danych zwana jest w literaturze analizą LSA
(ang. latent sematic analysis) lub indeksowaniem LSI
(ang. latent semantic indexing) [1,3,7].
Analiza LSA oparta jest na algebraicznym przekształceniu (dekompozycji) SVD (ang. singular value
decomposition). Przekształcenie SVD jest operacją, która
wykonana na macierzy TDM, między innymi istotnie poprawia semantyczną jakość wyników zwracanych przez
wyszukiwarki oparte o taki model wektorowy. Istota pomysłu sprowadza się do wydobywania relacji leksykalnych
(tu w znaczeniu podobieństwa semantycznego) pomiędzy
słowami występującymi w analizowanym tekście [3].
Pierwszym krokiem w analizie LSA jest oczywiście zbudowanie odpowiedniej macierzy TDM, co zostało opisane
w poprzednich rozdziałach. Następnym krokiem jest obliczenie stosownej aproksymacji tej macierzy. Uzyskujemy
to poprzez zastosowanie przekształcenia SVD macierzy
TDM.
Przekształcenie SVD jest najistotniejszym elementem
analizy LSA2. Polega ono na obliczeniu rozkładu macierzy
A o wymiarach m x n (gdzie bez straty ogólności możemy
założyć np. m >=n) w postaci iloczynu trzech macierzy:
A=U ΣVT
A ≅ Ak = U k Σ kVk T
(1)
(2)
Am× n , U m× k , Σ k × k , VkT× n
Przekształcenie SVD jest powszechnie znane [1,7],
stąd ograniczymy się jedynie do jego graficznego (rysunek
4) przedstawienia oraz interpretacji jego elementów w
kontekście rozwiązywanego zadania.
Rys. 4. Przekształcenie SVD przyciętej do stopnia k=2
(ang. rank-k approximation). Rząd macierzy oznaczono
symbolem r
W kontekście analizy LSA, zastosowane przekształcenie SVD umożliwia efektywna analizę relacji występujących pomiędzy zbiorem indeksowanych dokumentów a
występującymi w nich termami w zredukowanej tzw. przestrzeni konceptów (ang. concept space) 3. Działanie w tak
określonej nowej przestrzeni umożliwia „odkrywanie”
semantycznych zależności niewidocznych w pierwotnej
reprezentacji. Jako przykład, załóżmy, że w macierzy
TDM indeksujemy 3 dokumenty, w których znajdują się w
sumie 4 termy. Wykonując przekształcenie SVD rzędu 2
na tej macierzy możliwe staje się np. przedstawienie wzajemnego położenia dokumentów4 na 2-wymiarowej przestrzeni konceptów – rodzaju sztucznie „scalonych” termów. Dla rzeczywistych (czyli bardzo dużych) macierzy
TDM okazuje się, że takie zrzutowanie danych istotnie, co
wspomniano wcześniej, polepsza semantyczne właściwości
zbioru danych!
Tabela 2.
Interpretacja komponentów przekształcenia SVD w kontekście metody LSA zastosowanej do macierzy TSM
A
Ak
U
Σ
VT
m
n
k
r
Wejściowa macierz TSM o wymiarach m x n
Najlepsza aproksymacja rzędu k macierzy A
Macierz wektorów termów
Macierz wartości singularnych
Macierz wektorów zdań
Liczba termów
Liczba zdań
Liczba czynników
Rząd macierzy A
4. TWORZENIE PODSUMOWAŃ
W dalszej części pracy pokazano zastosowanie struktury TSM, poddanej przekształceniu SVD, do wykonania
tytułowego zadania. Podsumowany zostanie jeden dokumenty w języku polskim oraz jeden w języku angielskim.
Użyte zostaną dwie metody różniące się miedzy sobą sposobem wykorzystania aproksymacji SVD macierzy TSM.
4.1. METODA 1
Jedną z możliwości rozwiązania postawionego zadania może być następujące podejście [5]: załóżmy, że a)
waga danego zdania powinna być tym wyższa, im zawiera
ono więcej ważnych termów, oraz b) waga danego termu
powinna być tym wyższa, im pojawia się ono w zdaniach o
wysokiej wadze. Te pozornie dwa sprzeczne zadania rozwiązać można stosując dekompozycję SVD macierzy
TSM.
Oznaczmy wagę termu i przez ui a wagę zdania j
przez vj. Zgodnie z uwagami podanymi powyżej waga
termu i jest proporcjonalna do sumy wag zdań, w którym
się on pojawia. Współczynnikiem tej proporcjonalności są
elementy macierzy TSM.
n
ui ∝
∑ a v , i = 1,2,K, m
ij j
(3)
j =1
Podobnie waga zdania j jest proporcjonalna do sumy
wag termów w tym zdaniu:
nm
vj ∝
∑ a u , j = 1,2,K, n
ij i
(4)
i =1
2
Inne, w pewnym sensie analogiczne, ale o innych właściwościach,
często używane w analizie LSA przekształcenia to non-negative matrix
factorization (NMF) oraz semidiscrete matric decomposition (SDD).
3
Inna używana nazwa to przestrzeń ukryta (ang. latent space) bardziej
tożsama z nazwą metody LSA.
Grupując następnie te elementy w wektory o wymiarach odpowiednio m i n otrzymujemy:
4
Analogicznie można rzutować w przestrzeni konceptów termy.
β u u = Av
T
βvv = A u
(5)
gdzie β u , β v są stałymi proporcjonalności. Podstawiając jedno równanie do drugiego otrzymujemy
βuu =
βvv =
1
βv
1
βu
AAT u
(6)
T
A Av
Następnie, ze związku wiążącego wartości własne
macierzy z jej wartościami osobliwymi wnioskujemy, że
wektory u oraz v są wektorami osobliwymi macierzy A.
Wykonując więc przycięte do rzędu k=1 przekształcenie
SVD macierzy A i wybierając p największych elementów
z wektorów u i v wyznaczymy p najistotniejszych słów
kluczowych dokumentu oraz p najistotniejszych zdań dokumentu. W ten sposób wybraliśmy termy i zdania o opisanych wcześniej największych wagach.
4.2. METODA 2
Wykonajmy, tak jak poprzednio, dekompozycję SVD
macierzy TSM. Użyjemy macierzy VT do wybory najistotniejszych zdań [4]. Jej kolumny reprezentują zdania,
wiersze reprezentują wspomniane koncepty. Najważniejszy koncept analizowanego tekstu znajduje się w pierwszym wierszu, drugi w drugim itd. Wartości elementów
macierzy VT dostarczają więc informacji o tym, jak bardzo dane zdanie wiąże się z danym konceptem.
Można więc wykreślić przebiegi wartości kolejnych
konceptów w funkcji numerów zdań i wybrać do podsumowania te zdania z kolejnych konceptów, które najbardziej się z nimi wiążą.
4.3. UWAGI
Należy być świadomym tego, że maszynowo generowane podsumowania jeszcze długo nie będą jakością dorównywać podsumowaniom tworzonym przez człowieka.
Przedstawione wyżej dwie metody generowania podsumowań w pewnym sensie oparte są na naszym założeniu
(hipotezie), że tak a nie inaczej wybierane zdania najlepiej
opisują koncepty. Z kolei koncepty te w „skomasowany”
sposób opisują merytoryczną zawartość dokumentu – taka
jest główna idea analizy LSA!
Oczywiście w praktyce podsumowywany tekst powinien dotyczyć jednolitego zagadnienia. Nie liczmy, że w
maszynowy sposób wygenerujemy sensowne podsumowanie np. całej książki! Często również ilustracje, wykresy,
równania, itp. niosą ze sobą tyle treści, że maszynowe
podsumowywanie takich tekstów jest co najmniej dyskusyjne.
4.4. PRZYKŁAD 1
Stosując metodę 1 zostanie automatycznie wygenerowane podsumowanie zeszłorocznej pracy [5] autorów
obecnego artykułu5.
5
Tekst analizowanego artykułu z numeracją kolejnych jego zdań dostępny jest u autorów pracy.
Wynikowa macierz TSM ma wymiary 896 x 108. W
trakcie wstępnej obróbki danych usunięto 96 słów na podstawie stop listy. Stopień wypełnienia wynikowej macierzy
TSM jest równy 1,32%. Z uwagi na trudności związane z
uwzględnieniem stemmingu dla języka polskiego nie zastosowano redukcji słów do ich rdzenia znaczeniowego.
Celem otrzymania 5-zdaniowego podsumowania, obliczono przekształcenie SVD rzędu 1 macierzy TSM.
W tabeli 3 zamieszczono oryginalne streszczenie analizowanej pracy oraz streszczenie w postaci automatycznie
wybranych 5. najistotniejszych zdań. Algrytm wybrał następujące zdania w kolejności ich ważności: 56, 4, 98, 106,
55. Jak widać nie są to kolejne zdania, ale takie zachowanie się algorytmu jest do przewidzenia.
Tabela 3.
Streszczenie oryginalne oraz otrzymane automatycznie z
użyciem metody 1
Streszczenie: W pracy zaprezentowano składniki systemu bazodanowego SQL Server 2008 firmy Microsoft tworzące kompletną
platformę do świadczenia tzw. usług biznesowych. Pokazano
przykład jej zastosowania, wykorzystując dane pobrane z rzeczywistego systemu klasy ERP. Praca jest efektem 3 miesięcznego
stażu, jaki pierwszy autor artykułu odbył w firmie LUMEL S.A. w
Zielonej Górze. Staż ten był częścią unijnego projektu „Zróbmy
coś razem”.
Automatyczny ekstrakt: Jednym ze zrealizowanych zadań było
rozpoznanie możliwości wykonania hurtowni danych bazujących
na działającym w firmie systemie klasy ERP oraz wykonanie
systemu demonstrującego możliwości, jakie niosą ze sobą systemy
klasy BI.
Pokazano przykład jej zastosowania, wykorzystując dane pobrane
z rzeczywistego systemu klasy ERP.
Podkreślmy w tym miejscu, że hurtownia, której model pokazano
na rysunku 4 zawiera dane skopiowane ze źródłowego systemu
MFG/PRO i dane te są zeskładowane w bazie SQL Server 2008, w
modelu składowania MOLAP obsługiwanym przez moduł SSAS.
W pracy w wielkim skrócie przedstawiono możliwości, jakie daje
SQL Server 2008 firmy Microsoft w obszarze tworzenia systemów
klasy BI.
Jako przykład praktycznego wykorzystania omawianego wyżej
rozwiązania klasy BI pokazano fragment pracy wykonanej przez
pierwszego autora artykułu w ramach stażu, jaki odbył on w firmie
LUMEL S.A. w Zielonej Górze .
Ocena uzyskanego wyniku jest oczywiście w dużym
stopniu subiektywna. Z pewnością do wydania ostatecznego osądu, co do trafności wykonanego podsumowania,
należałoby w pierwszej kolejności zapoznać się z analizowanym tekstem i dopiero po jego lekturze ocenić jakość
wykonanego zadania.
W tabeli 4 zamieszczono 10 słów uznanych przez algorytm za słowa kluczowe analizowanego tekstu. Słowa
kluczowe wybierane są ze zbioru pojedynczych słów.
Rzeczywiste słowa kluczowe są często składającymi się z
kilku słów frazami, stąd trudno oceniać jakość algorytmu.
Te wygenerowane automatycznie są jednak najistotniejsze
w sensie ich miary w przestrzeni konceptów.
Tabela 4.
Słowa kluczowe oryginalne oraz otrzymane automatycznie z użyciem metody 1
Słowa kluczowe: SQL Server 2008, Business Intelligence,
hurtownia danych, system klasy ERP, projekt unijny „Zróbmy
coś razem”
Automatycznie wybrane słowa kluczowe: serwer, klasy ERP,
dane, systemu, hurtownia, bazy, hurtowni, firmy, systemy,
przykład
Na rysunku 5 zamieszczono wykresy rozkładu ważności zdań (elementy wektora u) oraz ważności termów
(elementy wektora v). Wyraźnie widać na nim, że pewne
zdania oraz termy istotnie wyróżniają się wartościami
indeksów na tle innych. Te mniej wyróżniające się możemy potraktować jako szum informacyjny. Pamiętajmy
również, że dla tekstu w języku polskim nie użyto stemmingu. Gdyby go zastosować, prawdopodobnie otrzymane
wyniki byłyby lepsze6.
LAMP (Linux, Apache, MySQL, PHP) Web application stack.
Almost a year after Oracle’s acquisition of Sun, MySQL plays
an even bigger role in enterprises of all sizes worldwide, including the Bank of Finland, Clickability, and Gorilla Nation Media. Discover the secrets to their success.
Automatyczny ekstrakt: We’re also seeing a lot of companies
using MySQL for reporting databases, databases for departmental servers, and databases for business-critical systems.
In fact, he often sees organizations using a combination of
database solutions, such as MySQL and Oracle Database.
In fact, the simulator has been so successful that it has been
used by more than 50 central banks worldwide, plus other
financial and research institutions for risk analysis, as well as
development and research related to payment and settlement
systems.
That’s one of the reasons the Bank of Finland chose MySQL as
the basis for a versatile Microsoft Windows–based payment and
settlement simulator application it developed for use by central
bankers and economic experts.
First released in 1995 and purchased by Sun in 2008, MySQL
has quickly graduated from the realm of hobbyists to the world
of business, becoming the leading open source database for
many Web applications and an integral part of the LAMP
(Linux, Apache, MySQL, PHP) Web application stack.
Na rysunku 6 pokazano wykresy wartości wektorów
zdań w przestrzeniach kolejnych konceptów. Są to oczywiście kolejne wektory kolumnowe macierzy VT. Zdanie o
maksymalnej wartości indeksu z każdego wykresu bierzemy jako kolejne najistotniejsze zdanie tworzonego podsumowania.
Rys. 5. Wykresy ważności zdań i termów
4.5. PRZYKŁAD 2
Stosując metodę 2 automatycznie wygenerowane zostanie podsumowanie wybranego artykułu z pisma Oracle
Magazine [6]. Dotyczy on spojrzenia przez firme Oracle
na zakupiony przez siebie produkt, jakim jest znana, darmowa baza danych MySQL.
Wynikowa macierz TSM ma wymiary 428 x 85. W
trakcie wstępnej obróbki danych usunięto 138 słów na
podstawie stop listy. Przeprowadzono również stemmig
tekstu, który zmniejszył ilość termów o kolejne 75 pozycji.
Stopień wypełnienia wynikowej macierzy TSM jest równy
2,63%.
Celem otrzymania 5-zdaniowego podsumowania obliczono przekształcenie SVD rzędu 5 macierzy TSM. Kolejne wektory macierzy VT użyte zostaną do wyboru kolejno 5 najistotniejszych zdań analizowanego tekstu.
W tabeli 5 zamieszczono oryginalne streszczenie analizowanego tekstu oraz streszczenie w postaci automatycznie wybranych 6. najistotniejszych zdań. Algorytm wybrał
następujące zdania w kolejności ich ważności: 10, 63, 44,
21, 61.
Tabela 5.
Streszczenie oryginalne oraz otrzymane automatycznie z
użyciem metody 2
Streszczenie: First released in 1995 and purchased by Sun in
2008, MySQL has rapidly graduated from the realm of hobbyists to the world of business, becoming the leading open source
database for many Web applications and an integral part of the
6
Jednym z dostępnych stemmerów dla języka polskiego jest [12].
Zwraca on jednak wiele powtórzeń oraz nie przetwarza wielu słów, co
bardzo utrudnia skorzystanie z niego w przykładach.
Rys. 6. Wykresy wartości wektorów zdań w przestrzeniach kolejnych konceptów
Na rysunku 7 pokazano w inny sposób istotę działania użytej metody. Przedstawiono na nim rzutowanie
wszystkich zdań dokumentu w przestrzeni kolejno 1. i 2.
konceptu (zmiennej ukrytej) oraz 2. i 3. koncepu (zmiennej
ukrytej). Analogicznych wykresów dla kolejnych trzech
par nie pokazano. Na każdym rysunku zdanie najbardziej
oddalone od zagęszczenia innych zdań jest kolejnym najistotniejszym zdaniem podsumowania. Większą czcionką
zaznaczono zdania o numerach 10 i 63. Uzasadnienie jest
następujące: zdania istotne to te, które istotnie różni się od
„szumu informacyjnego”, który reprezentowany jest przez
widoczne zagęszczenia innych zdań.
[7] Manning C.D., Raghavan P, Schütze H., Introduction to Information Retrieval, Cambridge University
Press, 2008
[8] McCargar V., Statistical Approaches to Automatic
Text Summarization, Bulletin of the American Society for Information Science and Technology Volume
30, Issue 4, pages 21–25
[9] Steinberger J., Jezek K., Text Summarization: An Old
Challenge and New Approaches. Foundations of
Computational Intelligence (6) 2009: 127-149
[10] Zha H., Generic summarization and keyphrase extraction using mutual reinforcement principle and
sentence clustering, SIGIR '02 Proceedings of the
25th annual international ACM SIGIR conference on
Research and development in information retrieval,
2002
[11] http://tartarus.org/~martin/PorterStemmer
/index.html
[12] http://www.cs.put.poznan.pl/dweiss/xml/projects/
lametyzator/index.xml
Rys. 7. Rzutowanie zdań w 2. wymiarowych przestrzeniach kolejnych konceptów.
5. PODSUMOWANIE
W artykule przedstawiono wybrane algebraiczne metody analizy danych tekstowych na potrzeby automatycznego tworzenia ich podsumowań. Pokazano istotę modelowania danych w zredukowanej przestrzeni wektorowej.
Otrzymane wyniki, jakkolwiek bardzo subiektywne w
ocenie, zdaniem autorów mogą zostać przyjęte jako merytorycznie poprawne streszczenia tekstów.
LITERATURA
[1] Berry M.W., Dumais S.T., O'Brien G.W., Using
linear Algebra for Intelligent Information Retrieval,
SIAM Rev. 37 (1995) pages 573–595
[2] Das D., Martins A.F.T., A Survey on Automatic Text
Summarization, Literature Survey for the Language
and Statistics II course at CMU, November, 2007
[3] Furnas G.W., Deerwester S., Dumais S.T, et. al.,
Information Retrieval Using a Singular Value Decomposition Model of Latent Semantic Structure,
SIGIR '88 Proceedings of the 11th annual international ACM SIGIR conference on Research and development in information retrieval, 1988
[4] Gong Y., Liu X., Generic Text Summarization Using
Relevance Measure and Latent Semantic Analysis,
SIGIR '01 Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001
[5] Gramacki A., Gramacki J.: Usługi biznesowe w SQL
Server 2008. Omówienie oraz przykład zastosowania
w przemyśle, Informatyka - sztuka czy rzemiosło.
KNWS' 2010: materiały 7. konferencji naukowej.
Świnoujście, 2010, s. 101-104
[6] Kelly D.A.: Open for Business, Oracle Magazine,
January/ February 2011
dr inż. Artur Gramacki
Uniwersytet Zielonogórski
Wydział Elektrotechniki, Informatyki
i Telekomunikacji
Instytut Informatyki i Elektroniki
ul. Podgórna 50
65-246 Zielona Góra
e-mail: [email protected]
dr inż. Jarosław Gramacki
Uniwersytet Zielonogórski
Wydział Elektrotechniki, Informatyki
i Telekomunikacji
Instytut Informatyki i Elektroniki
ul. Podgórna 50
65-246 Zielona Góra
e-mail: [email protected]

Podobne dokumenty