Automatyczne tworzenie podsumowań tekstów metodami
Transkrypt
Automatyczne tworzenie podsumowań tekstów metodami
Automatyczne tworzenie podsumowań tekstów metodami algebraicznymi Jarosław Gramacki, Artur Gramacki Streszczenie: Duża liczba zwracanych (na przykład przez różnego rodzaju wyszukiwarki internetowe) dokumentów oznacza, że często zmuszeni jesteśmy do czasochłonnego ich przeglądania, celem weryfikacji trafności zwracanych wyników. Gdy dokumenty są długie, czas ich przeglądania znacznie się wydłuża. Można by go wydatnie skrócić, gdyby istniała możliwość automatycznego generowania sensownych podsumowań (streszczeń). W artykule omawiamy wybrane algebraiczne metody służące automatycznemu wydobywaniu z tekstu jego najistotniejszych słów kluczowych oraz najistotniejszych zdań. Słowa kluczowe: automatyczne podsumowywanie, ukryta semantyka dokumentów, przekształcenie SVD. dynczego dokumentu, choć znane są również prace dotyczące tworzenia podsumowań zbioru dokumentów [2,11]1. 2. SFORMUŁOWANIE ZADANIA Z danego dokumentu tekstowego należy wybrać pewną liczbę wchodzących w jego skład zdań, które najlepiej (w sensie użytej metody) opisują jego zawartość merytoryczną. Na rysunku 1 pokazano wizualizację wyniku działania systemu automatycznego tworzenia podsumowań. Tekst pogrubiony to poszukiwane podsumowanie. W przykładzie podsumowanie to stanowi ok 20% całości tekstu (parametr ten ustala użytkownik). 1. WPROWADZENIE Praca dotyczy wybranych technik automatycznego tworzenia podsumowań dokumentów tekstowych (ang. automatic text summarization), które mogą być pomocne m.in. do szybkiego zapoznania się ze zwracanymi przez wyszukiwarki wynikami (czytamy streszczenia a nie całe dokumenty). Zadanie takie w literaturze nazywa się ekstrakcją zawartości (ang. extract of contents) i często oparte jest na statystycznej analizie treści dokumentu (np. badanie częstości występowania i współwystępowania takich elementów tekstu jak słowa, zdania, akapity, itp.). Inny rodzaj podsumowania, zwany w literaturze streszczeniem (ang. abstract of contents), polega na podsumowaniu zawartości dokumentu przy użyciu słów i zwrotów niekoniecznie występujących w podsumowywanym tekście [2,8,9]. W podejściu tym chodzi o automatyczne stworzenie logicznego tekstu skorelowanego z głównymi treściami dokumentu. Używane w tym podejściu techniki wywodzą się często z metod sztucznej inteligencji oraz metod przetwarzania języka naturalnego (ang. natural language processing, NLP). Wydaje się jednak, że na obecnym etapie rozwoju nauki, mimo podejmowanych w tym kierunku wysiłków, to podejście nie daje jak na razie zadawalających wyników. W pracy pokazujemy, w jaki sposób, korzystając z modeli algebraicznych, dokonać można ekstrakcji zawartości dokumentu. Pokazujemy, że pozornie trudne zadanie budowy sensowych podsumowań, jest możliwe do wykonania stosunkowo prostymi metodami algebraicznymi. Zajmujemy się generowaniem podsumowania dla poje- Rys. 1. Wizualizacja systemu automatycznie generującego podsumowanie dokumentu 3. STRUKTURA DANYCH W dziedzinie nauki zwanej wyszukiwaniem informacji (ang. information retrieval, IR), powszechne jest stosownie wektorowych struktur danych w postaci tzw. macierzy term-dokument (ang. term-document matrix, TDM). Załóżmy, że analizujemy zbiór n dokumentów, w których znajduje się w sumie m różnych (unikalnych) słów. Możemy więc umieścić w wierszach macierzy TDM słowa a w kolumnach dokumenty oraz zapisać w komórkach tej macierzy informacje o częstości występowania poszczególnych słów (ang. term frequency, TF) w poszczególnych dokumentach. Uzyskujemy więc macierz, nazwijmy ją A, o wymiarze m x n. Jej kolumny zwane są wektorami dokumentów, a wiersze wektorami słów [1,7]. 1 Najczęściej tego typu zadanie ma sens (i w ogóle jest wykonalne) dla jednolitego tematycznie zbioru dokumentów. Aby wartości [aij] macierzy A poprawnie odzwierciedlały specyficzność każdego słowa odnośnie całego zbioru dokumentów, modyfikujemy je według tzw. schematu odwrotnej częstością termów (ang. Inverse Document Frequency, IDF). Przekształcenie to ma on na celu poprawne wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów. Otrzymane wielkości na końcu są jeszcze często dodatkowo normalizowane. Jest to zabieg konieczny, gdy indeksujemy dokumenty o istotnie różnych długościach. Wtedy nie są faworyzowane dokumenty długie. Tak utworzona struktura danych nadaje się już do typowych zadań związanych z wyszukiwaniem informacji [1,7], czyli na przykład odszukiwania w zaindeksowanym zbiorze dokumentów tych z nich, które maksymalnie pasują do zadanego przez użytkownika zapytania. W największym skrócie, i w najprostszej wersji, odbywa się to na zasadzie poszukiwania tych dokumentów, które są najbliższe (w sensie np. miary kosinusowej) wektorowi zapytania Q zadanego przez użytkownika. Ilustruje to poglądowo rysunek 2. Rys. 2. Ilustracja miary podobieństwa wektora zapytania Q do wektorów dokumentów d1-d4 Na potrzeby zadania automatycznego tworzenia podsumowania danego dokumentu, korzystać będziemy z analogicznej do macierzy TDM struktury. Obecnie w kolumnach, zamiast dokumentów, występować będą zdania analizowanego dokumentu. Macierz taką nazywać będziemy macierzą term-zdanie (ang. term- sentence matrix, TSM). Macierze TDM lub TSM w praktyce są macierzami bardzo rzadkimi (ang. sparse), chyba, że indeksujemy naprawdę bardzo krótkie, kilkuzdaniowe dokumenty. Dokumenty, które składają się z dużej liczy zdań, zawierają w każdym zdaniu jedynie bardzo niewielki procent wszystkich słów występujących w dokumencie. Stąd też wiele komórek w macierzy pozostaje pustych. W praktyce stopień wypełnienia macierzy niezerowymi wartościami jest rzędu procenta. Ilustruje to rysunek 3, na którym pokazano stopień wypełnienia macierzy otrzymanej w przykładzie 1 (patrz rozdział 4.4). Macierz TSM zawiera jedyni 1,32% niezerowych elementów! Rys. 3. Wizualizacja stopnia wypełnienia macierzy TSM z przykładu 1 3.1. WSTĘPNE PRZETWARZANIE DANYCH Zakładamy, że wcześniej, na etapie wstępnego przetwarzania danych, usunęliśmy z podsumowywanego dokumentu słowa semantycznie nieistotne (na przykład dla języka polskiego będą to takie słowa, jak przykładowo: ale, lub, który, że, oraz itp.; tworzą one tzw. stop-listę). Dokonaliśmy również wyodrębnienia z pozostałych słów ich tzw. rdzenia znaczeniowego. W zależności od specyfiki języka, przekształcenie to może być realizowane za pomocą reguł (zadanie proste obliczeniowo) lub przy wykorzystaniu słowników (zadanie złożone obliczeniowo). Pierwsza metoda używana jest na przykład dla języka angielskiego, druga dla języka polskiego. To, co pozostało po wyodrębnieniu ze słów ich rdzenia znaczeniowego zwykło się dla rozróżnienia nazywać termami (ang. terms) Dokonaliśmy również poprawnego wydzielenia z dokumentu jego zdań, co nie jest wbrew pozorom zadaniem łatwym 3.1.1. WYDOBYWANIE RDZENIA ZNACZENIOWEGO Wydobywanie rdzenia znaczeniowego ze słów (ang. stemming) jest bardzo ciekawym zagadnieniem, dlatego poniżej pokazano przykład jego działania dla języka angielskiego. Zastosowano klasyczny algorytm Portera [11]. Obróbce poddano tekst z tabeli 5 użytej w przykładzie 2 (patrz rozdział 4.5). Tabela 1. Przykład użycia algorytmu Portera dla wybranego rzeczywistego fragmentu tekstu z przykładu 2 first releas in 1995 and purchas by sun in 2008, mysql ha rapidli graduat from the realm of hobbyist to the world of busi, becom the lead open sourc databas for mani web applic and an integr part of the lamp (linux, apach, mysql, php) web applic stack. almost a year after oracl’s acquisit of sun, mysql plai an even bigger role in enterpris of all size worldwid, includ the bank of finland, clickabl, and gorilla nation media. discov the secret to their success. Zauważmy, że typową cechą stemmera regułowego (a takim jest stemmer Portera) jest częste otrzymywanie jako końcowego wyniku nieistniejącego w rzeczywistości słowa. Nie jest to jednak wada, gdyż zadaniem stemmera jest jedynie sprowadzenie słowa do jakiejś formy, która byłaby identyczna dla wszystkich jego form fleksyjnych 3.2. ANALIZA LSA I PRZEKSZTAŁCENIE SVD W praktyce okazuje się, że oparcie zadania wyszukiwania informacji (a jak okaże się później i zadania generowania podsumowań) na oryginalnej postaci macierzy TDM (TSM) jest nieefektywne. Istotną wadą analiz opartych na strukturach wektorowych jest fakt równego traktowania każdego termu, czyli nieuwzględnienie żadnej semantycznej zależności pomiędzy poszczególnymi słowami. W każdym języku istnieją jednak synonimy (np. akcja, papier wartościowy, walor) oraz polisemy (np. zamek (w drzwiach) i zamek (obronny)). Wskutek tego trudno będzie na przykład odnaleźć w zbiorze dokumentów zaindeksowanych podstawową strukturą TDM pozycji dobrze pasujących do wydanego zapytania (ang. relevant documents), ale niezawierających w sobie jawnie fraz użytych w zapytaniu. Rozwiązaniem tego problemu jest odpowiednie przekształcenie macierzy TDM do postaci, która uwidacznia tzw. ukryte znaczenie semantyczne (ang. latent semantics). Analiza przeprowadzana na tak zmodyfikowanej strukturze danych zwana jest w literaturze analizą LSA (ang. latent sematic analysis) lub indeksowaniem LSI (ang. latent semantic indexing) [1,3,7]. Analiza LSA oparta jest na algebraicznym przekształceniu (dekompozycji) SVD (ang. singular value decomposition). Przekształcenie SVD jest operacją, która wykonana na macierzy TDM, między innymi istotnie poprawia semantyczną jakość wyników zwracanych przez wyszukiwarki oparte o taki model wektorowy. Istota pomysłu sprowadza się do wydobywania relacji leksykalnych (tu w znaczeniu podobieństwa semantycznego) pomiędzy słowami występującymi w analizowanym tekście [3]. Pierwszym krokiem w analizie LSA jest oczywiście zbudowanie odpowiedniej macierzy TDM, co zostało opisane w poprzednich rozdziałach. Następnym krokiem jest obliczenie stosownej aproksymacji tej macierzy. Uzyskujemy to poprzez zastosowanie przekształcenia SVD macierzy TDM. Przekształcenie SVD jest najistotniejszym elementem analizy LSA2. Polega ono na obliczeniu rozkładu macierzy A o wymiarach m x n (gdzie bez straty ogólności możemy założyć np. m >=n) w postaci iloczynu trzech macierzy: A=U ΣVT A ≅ Ak = U k Σ kVk T (1) (2) Am× n , U m× k , Σ k × k , VkT× n Przekształcenie SVD jest powszechnie znane [1,7], stąd ograniczymy się jedynie do jego graficznego (rysunek 4) przedstawienia oraz interpretacji jego elementów w kontekście rozwiązywanego zadania. Rys. 4. Przekształcenie SVD przyciętej do stopnia k=2 (ang. rank-k approximation). Rząd macierzy oznaczono symbolem r W kontekście analizy LSA, zastosowane przekształcenie SVD umożliwia efektywna analizę relacji występujących pomiędzy zbiorem indeksowanych dokumentów a występującymi w nich termami w zredukowanej tzw. przestrzeni konceptów (ang. concept space) 3. Działanie w tak określonej nowej przestrzeni umożliwia „odkrywanie” semantycznych zależności niewidocznych w pierwotnej reprezentacji. Jako przykład, załóżmy, że w macierzy TDM indeksujemy 3 dokumenty, w których znajdują się w sumie 4 termy. Wykonując przekształcenie SVD rzędu 2 na tej macierzy możliwe staje się np. przedstawienie wzajemnego położenia dokumentów4 na 2-wymiarowej przestrzeni konceptów – rodzaju sztucznie „scalonych” termów. Dla rzeczywistych (czyli bardzo dużych) macierzy TDM okazuje się, że takie zrzutowanie danych istotnie, co wspomniano wcześniej, polepsza semantyczne właściwości zbioru danych! Tabela 2. Interpretacja komponentów przekształcenia SVD w kontekście metody LSA zastosowanej do macierzy TSM A Ak U Σ VT m n k r Wejściowa macierz TSM o wymiarach m x n Najlepsza aproksymacja rzędu k macierzy A Macierz wektorów termów Macierz wartości singularnych Macierz wektorów zdań Liczba termów Liczba zdań Liczba czynników Rząd macierzy A 4. TWORZENIE PODSUMOWAŃ W dalszej części pracy pokazano zastosowanie struktury TSM, poddanej przekształceniu SVD, do wykonania tytułowego zadania. Podsumowany zostanie jeden dokumenty w języku polskim oraz jeden w języku angielskim. Użyte zostaną dwie metody różniące się miedzy sobą sposobem wykorzystania aproksymacji SVD macierzy TSM. 4.1. METODA 1 Jedną z możliwości rozwiązania postawionego zadania może być następujące podejście [5]: załóżmy, że a) waga danego zdania powinna być tym wyższa, im zawiera ono więcej ważnych termów, oraz b) waga danego termu powinna być tym wyższa, im pojawia się ono w zdaniach o wysokiej wadze. Te pozornie dwa sprzeczne zadania rozwiązać można stosując dekompozycję SVD macierzy TSM. Oznaczmy wagę termu i przez ui a wagę zdania j przez vj. Zgodnie z uwagami podanymi powyżej waga termu i jest proporcjonalna do sumy wag zdań, w którym się on pojawia. Współczynnikiem tej proporcjonalności są elementy macierzy TSM. n ui ∝ ∑ a v , i = 1,2,K, m ij j (3) j =1 Podobnie waga zdania j jest proporcjonalna do sumy wag termów w tym zdaniu: nm vj ∝ ∑ a u , j = 1,2,K, n ij i (4) i =1 2 Inne, w pewnym sensie analogiczne, ale o innych właściwościach, często używane w analizie LSA przekształcenia to non-negative matrix factorization (NMF) oraz semidiscrete matric decomposition (SDD). 3 Inna używana nazwa to przestrzeń ukryta (ang. latent space) bardziej tożsama z nazwą metody LSA. Grupując następnie te elementy w wektory o wymiarach odpowiednio m i n otrzymujemy: 4 Analogicznie można rzutować w przestrzeni konceptów termy. β u u = Av T βvv = A u (5) gdzie β u , β v są stałymi proporcjonalności. Podstawiając jedno równanie do drugiego otrzymujemy βuu = βvv = 1 βv 1 βu AAT u (6) T A Av Następnie, ze związku wiążącego wartości własne macierzy z jej wartościami osobliwymi wnioskujemy, że wektory u oraz v są wektorami osobliwymi macierzy A. Wykonując więc przycięte do rzędu k=1 przekształcenie SVD macierzy A i wybierając p największych elementów z wektorów u i v wyznaczymy p najistotniejszych słów kluczowych dokumentu oraz p najistotniejszych zdań dokumentu. W ten sposób wybraliśmy termy i zdania o opisanych wcześniej największych wagach. 4.2. METODA 2 Wykonajmy, tak jak poprzednio, dekompozycję SVD macierzy TSM. Użyjemy macierzy VT do wybory najistotniejszych zdań [4]. Jej kolumny reprezentują zdania, wiersze reprezentują wspomniane koncepty. Najważniejszy koncept analizowanego tekstu znajduje się w pierwszym wierszu, drugi w drugim itd. Wartości elementów macierzy VT dostarczają więc informacji o tym, jak bardzo dane zdanie wiąże się z danym konceptem. Można więc wykreślić przebiegi wartości kolejnych konceptów w funkcji numerów zdań i wybrać do podsumowania te zdania z kolejnych konceptów, które najbardziej się z nimi wiążą. 4.3. UWAGI Należy być świadomym tego, że maszynowo generowane podsumowania jeszcze długo nie będą jakością dorównywać podsumowaniom tworzonym przez człowieka. Przedstawione wyżej dwie metody generowania podsumowań w pewnym sensie oparte są na naszym założeniu (hipotezie), że tak a nie inaczej wybierane zdania najlepiej opisują koncepty. Z kolei koncepty te w „skomasowany” sposób opisują merytoryczną zawartość dokumentu – taka jest główna idea analizy LSA! Oczywiście w praktyce podsumowywany tekst powinien dotyczyć jednolitego zagadnienia. Nie liczmy, że w maszynowy sposób wygenerujemy sensowne podsumowanie np. całej książki! Często również ilustracje, wykresy, równania, itp. niosą ze sobą tyle treści, że maszynowe podsumowywanie takich tekstów jest co najmniej dyskusyjne. 4.4. PRZYKŁAD 1 Stosując metodę 1 zostanie automatycznie wygenerowane podsumowanie zeszłorocznej pracy [5] autorów obecnego artykułu5. 5 Tekst analizowanego artykułu z numeracją kolejnych jego zdań dostępny jest u autorów pracy. Wynikowa macierz TSM ma wymiary 896 x 108. W trakcie wstępnej obróbki danych usunięto 96 słów na podstawie stop listy. Stopień wypełnienia wynikowej macierzy TSM jest równy 1,32%. Z uwagi na trudności związane z uwzględnieniem stemmingu dla języka polskiego nie zastosowano redukcji słów do ich rdzenia znaczeniowego. Celem otrzymania 5-zdaniowego podsumowania, obliczono przekształcenie SVD rzędu 1 macierzy TSM. W tabeli 3 zamieszczono oryginalne streszczenie analizowanej pracy oraz streszczenie w postaci automatycznie wybranych 5. najistotniejszych zdań. Algrytm wybrał następujące zdania w kolejności ich ważności: 56, 4, 98, 106, 55. Jak widać nie są to kolejne zdania, ale takie zachowanie się algorytmu jest do przewidzenia. Tabela 3. Streszczenie oryginalne oraz otrzymane automatycznie z użyciem metody 1 Streszczenie: W pracy zaprezentowano składniki systemu bazodanowego SQL Server 2008 firmy Microsoft tworzące kompletną platformę do świadczenia tzw. usług biznesowych. Pokazano przykład jej zastosowania, wykorzystując dane pobrane z rzeczywistego systemu klasy ERP. Praca jest efektem 3 miesięcznego stażu, jaki pierwszy autor artykułu odbył w firmie LUMEL S.A. w Zielonej Górze. Staż ten był częścią unijnego projektu „Zróbmy coś razem”. Automatyczny ekstrakt: Jednym ze zrealizowanych zadań było rozpoznanie możliwości wykonania hurtowni danych bazujących na działającym w firmie systemie klasy ERP oraz wykonanie systemu demonstrującego możliwości, jakie niosą ze sobą systemy klasy BI. Pokazano przykład jej zastosowania, wykorzystując dane pobrane z rzeczywistego systemu klasy ERP. Podkreślmy w tym miejscu, że hurtownia, której model pokazano na rysunku 4 zawiera dane skopiowane ze źródłowego systemu MFG/PRO i dane te są zeskładowane w bazie SQL Server 2008, w modelu składowania MOLAP obsługiwanym przez moduł SSAS. W pracy w wielkim skrócie przedstawiono możliwości, jakie daje SQL Server 2008 firmy Microsoft w obszarze tworzenia systemów klasy BI. Jako przykład praktycznego wykorzystania omawianego wyżej rozwiązania klasy BI pokazano fragment pracy wykonanej przez pierwszego autora artykułu w ramach stażu, jaki odbył on w firmie LUMEL S.A. w Zielonej Górze . Ocena uzyskanego wyniku jest oczywiście w dużym stopniu subiektywna. Z pewnością do wydania ostatecznego osądu, co do trafności wykonanego podsumowania, należałoby w pierwszej kolejności zapoznać się z analizowanym tekstem i dopiero po jego lekturze ocenić jakość wykonanego zadania. W tabeli 4 zamieszczono 10 słów uznanych przez algorytm za słowa kluczowe analizowanego tekstu. Słowa kluczowe wybierane są ze zbioru pojedynczych słów. Rzeczywiste słowa kluczowe są często składającymi się z kilku słów frazami, stąd trudno oceniać jakość algorytmu. Te wygenerowane automatycznie są jednak najistotniejsze w sensie ich miary w przestrzeni konceptów. Tabela 4. Słowa kluczowe oryginalne oraz otrzymane automatycznie z użyciem metody 1 Słowa kluczowe: SQL Server 2008, Business Intelligence, hurtownia danych, system klasy ERP, projekt unijny „Zróbmy coś razem” Automatycznie wybrane słowa kluczowe: serwer, klasy ERP, dane, systemu, hurtownia, bazy, hurtowni, firmy, systemy, przykład Na rysunku 5 zamieszczono wykresy rozkładu ważności zdań (elementy wektora u) oraz ważności termów (elementy wektora v). Wyraźnie widać na nim, że pewne zdania oraz termy istotnie wyróżniają się wartościami indeksów na tle innych. Te mniej wyróżniające się możemy potraktować jako szum informacyjny. Pamiętajmy również, że dla tekstu w języku polskim nie użyto stemmingu. Gdyby go zastosować, prawdopodobnie otrzymane wyniki byłyby lepsze6. LAMP (Linux, Apache, MySQL, PHP) Web application stack. Almost a year after Oracle’s acquisition of Sun, MySQL plays an even bigger role in enterprises of all sizes worldwide, including the Bank of Finland, Clickability, and Gorilla Nation Media. Discover the secrets to their success. Automatyczny ekstrakt: We’re also seeing a lot of companies using MySQL for reporting databases, databases for departmental servers, and databases for business-critical systems. In fact, he often sees organizations using a combination of database solutions, such as MySQL and Oracle Database. In fact, the simulator has been so successful that it has been used by more than 50 central banks worldwide, plus other financial and research institutions for risk analysis, as well as development and research related to payment and settlement systems. That’s one of the reasons the Bank of Finland chose MySQL as the basis for a versatile Microsoft Windows–based payment and settlement simulator application it developed for use by central bankers and economic experts. First released in 1995 and purchased by Sun in 2008, MySQL has quickly graduated from the realm of hobbyists to the world of business, becoming the leading open source database for many Web applications and an integral part of the LAMP (Linux, Apache, MySQL, PHP) Web application stack. Na rysunku 6 pokazano wykresy wartości wektorów zdań w przestrzeniach kolejnych konceptów. Są to oczywiście kolejne wektory kolumnowe macierzy VT. Zdanie o maksymalnej wartości indeksu z każdego wykresu bierzemy jako kolejne najistotniejsze zdanie tworzonego podsumowania. Rys. 5. Wykresy ważności zdań i termów 4.5. PRZYKŁAD 2 Stosując metodę 2 automatycznie wygenerowane zostanie podsumowanie wybranego artykułu z pisma Oracle Magazine [6]. Dotyczy on spojrzenia przez firme Oracle na zakupiony przez siebie produkt, jakim jest znana, darmowa baza danych MySQL. Wynikowa macierz TSM ma wymiary 428 x 85. W trakcie wstępnej obróbki danych usunięto 138 słów na podstawie stop listy. Przeprowadzono również stemmig tekstu, który zmniejszył ilość termów o kolejne 75 pozycji. Stopień wypełnienia wynikowej macierzy TSM jest równy 2,63%. Celem otrzymania 5-zdaniowego podsumowania obliczono przekształcenie SVD rzędu 5 macierzy TSM. Kolejne wektory macierzy VT użyte zostaną do wyboru kolejno 5 najistotniejszych zdań analizowanego tekstu. W tabeli 5 zamieszczono oryginalne streszczenie analizowanego tekstu oraz streszczenie w postaci automatycznie wybranych 6. najistotniejszych zdań. Algorytm wybrał następujące zdania w kolejności ich ważności: 10, 63, 44, 21, 61. Tabela 5. Streszczenie oryginalne oraz otrzymane automatycznie z użyciem metody 2 Streszczenie: First released in 1995 and purchased by Sun in 2008, MySQL has rapidly graduated from the realm of hobbyists to the world of business, becoming the leading open source database for many Web applications and an integral part of the 6 Jednym z dostępnych stemmerów dla języka polskiego jest [12]. Zwraca on jednak wiele powtórzeń oraz nie przetwarza wielu słów, co bardzo utrudnia skorzystanie z niego w przykładach. Rys. 6. Wykresy wartości wektorów zdań w przestrzeniach kolejnych konceptów Na rysunku 7 pokazano w inny sposób istotę działania użytej metody. Przedstawiono na nim rzutowanie wszystkich zdań dokumentu w przestrzeni kolejno 1. i 2. konceptu (zmiennej ukrytej) oraz 2. i 3. koncepu (zmiennej ukrytej). Analogicznych wykresów dla kolejnych trzech par nie pokazano. Na każdym rysunku zdanie najbardziej oddalone od zagęszczenia innych zdań jest kolejnym najistotniejszym zdaniem podsumowania. Większą czcionką zaznaczono zdania o numerach 10 i 63. Uzasadnienie jest następujące: zdania istotne to te, które istotnie różni się od „szumu informacyjnego”, który reprezentowany jest przez widoczne zagęszczenia innych zdań. [7] Manning C.D., Raghavan P, Schütze H., Introduction to Information Retrieval, Cambridge University Press, 2008 [8] McCargar V., Statistical Approaches to Automatic Text Summarization, Bulletin of the American Society for Information Science and Technology Volume 30, Issue 4, pages 21–25 [9] Steinberger J., Jezek K., Text Summarization: An Old Challenge and New Approaches. Foundations of Computational Intelligence (6) 2009: 127-149 [10] Zha H., Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence clustering, SIGIR '02 Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, 2002 [11] http://tartarus.org/~martin/PorterStemmer /index.html [12] http://www.cs.put.poznan.pl/dweiss/xml/projects/ lametyzator/index.xml Rys. 7. Rzutowanie zdań w 2. wymiarowych przestrzeniach kolejnych konceptów. 5. PODSUMOWANIE W artykule przedstawiono wybrane algebraiczne metody analizy danych tekstowych na potrzeby automatycznego tworzenia ich podsumowań. Pokazano istotę modelowania danych w zredukowanej przestrzeni wektorowej. Otrzymane wyniki, jakkolwiek bardzo subiektywne w ocenie, zdaniem autorów mogą zostać przyjęte jako merytorycznie poprawne streszczenia tekstów. LITERATURA [1] Berry M.W., Dumais S.T., O'Brien G.W., Using linear Algebra for Intelligent Information Retrieval, SIAM Rev. 37 (1995) pages 573–595 [2] Das D., Martins A.F.T., A Survey on Automatic Text Summarization, Literature Survey for the Language and Statistics II course at CMU, November, 2007 [3] Furnas G.W., Deerwester S., Dumais S.T, et. al., Information Retrieval Using a Singular Value Decomposition Model of Latent Semantic Structure, SIGIR '88 Proceedings of the 11th annual international ACM SIGIR conference on Research and development in information retrieval, 1988 [4] Gong Y., Liu X., Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis, SIGIR '01 Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001 [5] Gramacki A., Gramacki J.: Usługi biznesowe w SQL Server 2008. Omówienie oraz przykład zastosowania w przemyśle, Informatyka - sztuka czy rzemiosło. KNWS' 2010: materiały 7. konferencji naukowej. Świnoujście, 2010, s. 101-104 [6] Kelly D.A.: Open for Business, Oracle Magazine, January/ February 2011 dr inż. Artur Gramacki Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki ul. Podgórna 50 65-246 Zielona Góra e-mail: [email protected] dr inż. Jarosław Gramacki Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki ul. Podgórna 50 65-246 Zielona Góra e-mail: [email protected]