Eksploracja danych tekstowych (Text Mining) w

Transkrypt

Eksploracja danych tekstowych (Text Mining) w
EKSPLORACJA DANYCH TEKSTOWYCH (TEXT MINING) W PRZEDSIĉBIORSTWIE
KAROLINA KULIGOWSKA,
MIROSŁAWA LASEK
Uniwersytet Warszawski
Streszczenie
Metody eksploracji danych tekstowych Text Mining łączą w sobie techniki Data
Mining z analizowaniem treĞci róĪnorodnych dokumentów tekstowych. DziĊki tym
metodom z nieustrukturyzowanych danych o charakterze tekstowym moĪna odnaleĨü
nieznane wczeĞniej informacje oraz dotrzeü do sporej wartoĞci wiedzy dotyczącej
przedsiĊbiorstwa. Pozyskane w ten sposób, usystematyzowane informacje są coraz
czĊĞciej wykorzystywane do podejmowania decyzji biznesowych.
Słowa kluczowe: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining
1. Wprowadzenie
Od pocztku bada w dziedzinie sztucznej inteligencji próbowano skonstruowa oprogramowanie pozwalajce efektywnie analizowa dane tekstowe w inteligentny sposób. W miar jak rozwijano technologi i konstruowano komputery o coraz wikszej mocy obliczeniowej, moliwe było
przeprowadzanie coraz bardziej zaawansowanych analiz danych. Dziki aplikacjom analitycznym
programy zaczły przetwarza obszerne bazy danych cyfrowych o wiele efektywniej i szybciej ni
człowiek. Pomimo to maszyny wci nie radziły sobie z podstawow umiejtnoci ludzk: rozumieniem i przetwarzaniem komunikatów w jzyku naturalnym.
Dalsze badania naukowe prowadzone w zakresie lingwistyki obliczeniowej (ang. computational
linguistics) okazały si na tyle owocne, e zaczto wytwarza oprogramowanie do analiz tekstu,
tzw. Text Mining. Narzdzia Text Miningu stanowi połczenie metod Data Miningu zastosowanych do przetwarzania jzyka naturalnego. Narzdzia te umoliwiaj wyłuskiwanie cennych informacji z bardzo wielu, rónorodnych dokumentów tekstowych, a co za tym idzie – odkrywanie
nieznanych wczeniej współzalenoci midzy danymi oraz powiza pomidzy dokumentami
(Gaizauskas, 2004). Badania nad Text Miningowymi metodami eksploracji danych wydaj si by
bardzo obiecujce, gdy pozwalaj na zaoszczdzenie czasu i pienidzy, które musiałyby zosta
przeznaczone na przeczytanie i ewentualne eksplorowanie przez człowieka ogromnego repozytorium dokumentów tekstowych. Text Mining jest ju stosowany w przedsibiorstwach, a niektóre
z zastosowa zostan omówione w niniejszym artykule.
2. Metody eksploracji danych tekstowych
Podczas uywania narzdzi bazujcych na Data Miningu informacje zostaj wyłuskiwane
z ustrukturyzowanych baz danych. W procesie Text Miningu natomiast dane s wydobywane z
nieustrukturyzowanych treci dokumentów tekstowych zapisanych w jzyku naturalnym.
W celu przeprowadzenia analizy tekstu dokument powinien by na samym pocztku przekształcony w odpowiedni form. Etap ten nazywa si wstpn obróbk pliku tekstowego (ang.
POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ
Seria: Studia i Materiały, nr 13, 2008
127
preprocessing), podczas którego dane tekstowe zapisane w rónorodnych formatach zostaj zaimportowane do pojedynczego zbioru, łatwego do póniejszego odczytywania.
Kiedy „surowe” dokumenty s ju przekształcone w jednolity format kodowania, tekst jest
przeszukiwany i nastpnie poddawany rozbiorowi. Jest to kolejny krok w procesie analizy kolekcji
dokumentów. Podczas rozbioru struktury dokumentu (ang. parsing) z dalszej analizy wyłczone
zostaj wyrazy o niskiej wartoci informacyjnej. Rodzajniki, spójniki, przyimki i inne nieistotne
semantycznie czci mowy zgromadzone s na osobnej licie, tzw. stop licie (ang. stop list), za
pomoc której mona kontrolowa pomijane wyrazy. W etapie tym zostaj równie wyodrbnione
terminy, które maj istotne znaczenie i które naley włczy do analizy; mog to by pojedyncze
wyrazy, wyraenia, nazwy oraz numery.
Podczas przeszukiwania dokumentu nastpuje take automatyczne znajdowanie podstawy fleksyjnej (ang. stemming), czyli sprowadzenie wszystkich odmian i form danego wyrazu do jego
formy podstawowej. Czynno ta ułatwia analiz terminów bardziej abstrakcyjnych, cho oczywicie istniej terminy majce identyczne znaczenie kontekstowe, lecz oparte na innych podstawach
fleksyjnych. W takim przypadku niezbdna jest lista synonimów, które maj takie samo znaczenie,
cho nie wywodz si bezporednio z tych samych form podstawowych (Wcel, 2005).
Efektem przeszukiwania dokumentu jest wygenerowanie liczbowej reprezentacji danego dokumentu. Moe ona by oparta na prostych metodach statystycznych bazujcych na czstoci
i współwystpowaniu wyrazów. W celu analizy liczby wyrazów w zbiorze dokumentów najczciej
tworzona jest macierz czstoci wystpowania wyrazów w dokumencie. Wagi uywane do mierzenia czstoci wystpowania słów zale od czstoci wystpowania danego wyrazu w dokumencie
oraz w kolekcji dokumentów jako całoci. Po zmierzeniu czstoci mona nastpnie stosowa
filtrowanie tekstu i ekstrakcja faktów.
Celem stosowania eksploracji danych tekstowych jest przeszukanie dokumentów zawierajcych
nieustrukturyzowany tekst, wydobycie z niego wartociowych dla analizy słów, do których nastpnie stosuje si róne algorytmy Data Miningu. Wydobyte informacje mog by uyte do sporzdzania streszcze dokumentów, okrelenia podobiestw pomidzy wieloma dokumentami, znalezienia zalenoci pomidzy jednostkami tekstu lub tworzenia rankingów dokumentów (Filipowska,
2004). Wida wic, e metody Text Miningu s potnym narzdziem przekształcajcym bezładny
tekst w liczby, które s łatwiejsze do analitycznej obróbki i mog by nastpnie włczone do analiz, takich jak modelowanie Data Miningowe, predykcja lub biznesowe zastosowania klasteryzacji
i klasyfikacji.
3. Text Mining w przedsiĊbiorstwie
Głównym zadaniem metod eksploracji tekstu jest wyłuskiwanie istotnych danych i uycie ich
do sporzdzania prognoz i podejmowania decyzji biznesowych. Do osignicia tego celu analitycy
wykorzystuj klasteryzacj dokumentów oraz ich klasyfikowanie.
Klasteryzacja kolekcji dokumentów umoliwia sporzdzenie ich streszcze bez koniecznoci
czytania przez człowieka kadego dokumentu z osobna. Klaster zawierajcy kilka tysicy dokumentów moe pomóc w ujawnieniu wanych zagadnie i kluczowych idei zwizanych z funkcjonowaniem przedsibiorstwa, a zawartych w zgromadzonych w firmie dokumentach. Klasteryzacj
dokumentów stosuje si w analizie danych ankietowych, analizie opinii klientów lub zbiorów wiadomoci e-mail do odkrycia wczeniej nieznanej wiedzy. Klasteryzacja daje równie wskazówki
128
Karolina Kuligowska, Mirosława Lasek
Eksploracja danych tekstowych (Text Mining) w przedsiĊbiorstwie
jakie wyrazy maj tendencj do bycia uywanymi łcznie lub jakie kategorie słownictwa wystpuj
w kolekcji dokumentów.
Klasyfikowanie dokumentów polega na ich rozdzieleniu pomidzy wczeniej zdefiniowane kategorie. Mona powiedzie, e klasyfikowanie jest w zasadzie form predykcji. Jest ona czsto
uywana do inteligentnego filtrowania wiadomoci e-mail lub automatycznego wykrywania spamu.
Najbardziej spektakularne i obiecujce zastosowania Text Miningu dotycz sporzdzania prognoz w takich dziedzinach, jak: giełda i kursy walut, ocena satysfakcji klienta oraz przewidywanie
zachowa i preferencji klienta (Weiss, 2005). Inne typowe obszary zastosowa eksploracji danych
tekstowych:
• zmiany cen akcji na giełdzie przewidziane na podstawie prasowych informacji
o kondycjach finansowych firm;
• koszty usług prognozowane na podstawie opisu problemu;
• identyfikacja konkretnych słów i wyrae dla procesu filtrowania wiadomoci e-mail
w celu wykrycia spamu;
• satysfakcja konsumenta przewidziana na podstawie analiz danych ankietowych oraz
komentarzy klientów wpisanych na stronie internetowej;
• zbadanie próbek artykułów napisanych przez jedn osob moe by podstaw do
udowodnienia jej autorstwa innego fragmentu tekstu, który ma kilku potencjalnych autorów.
• Inne zastosowania Text Miningu mog dotyczy analiz ankiet złoonych z pyta
otwartych, automatycznego przetwarzania wiadomoci, analiz roszcze ubezpieczeniowych oraz analiz rónorodnych diagnoz (Hearst, 1999).
4. Eksploracja danych zawartych w internecie (Web Mining) na potrzeby przedsiĊbiorstw
Internet w bardzo intensywny sposób oddziałuje na współczesne społeczestwo, zmieniajc
sposoby wymiany informacji oraz zbierania danych. To Internet jest uwaany za najobszerniejsze
ródło informacji na całej planecie. Mona go okreli jako niewiarygodnie wielki magazyn wszelakich nieuporzdkowanych danych. Nic wic dziwnego, e równie w internecie zaczto stosowa
techniki Text Minigu do danych zawartych w internecie, czyli po prostu Web Miningu.
Narzdzia eksploracji danych internetowych umoliwiaj przeszukiwanie danych rozproszonych w całej wiatowej sieci internetowej. Rozrónia si trzy rodzaje Web Miningowych analiz
danych, mianowicie: eksploracja zawartoci stron internetowych (ang. Web content mining), eksploracja struktur internetowych (ang. Web structure mining) oraz eksploracja uytkowania internetu (ang. Web usage mining). Pierwsza metoda skupia si na wyszukiwaniu uytecznych informacji
bezporednio z zawartoci stron internetowych i dokumentów zamieszczonych w internecie. Druga
metoda umoliwia odkrywanie modeli struktur hiperłczy. Trzecie podejcie odnosi si do technik
przewidywania zachowania uytkowników na podstawie ich wczeniej zaobserwowanych wzorców
zachowa (Wang, 2000).
Internauci powszechnie ju uywaj w codziennej pracy narzdzi, takich jak wyszukiwarki,
gdy zaley im na szybkim i precyzyjnym odnalezieniu wanych informacji. Z drugiej strony dostawcy internetu staraj si przewidzie zachowania uytkowników oraz wzorce ich nawigacji w
sieci w celu zredukowania przecienia w ładowaniu stron oraz w celu personalizacji dostarczanych informacji. Analitycy w firmie szczególnie ceni sobie zrozumienie i moliwoci predykcji
preferencji i oczekiwa uytkownika. Wszystkie wyej wymienione grupy chciałyby uywa od-
POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ
Seria: Studia i Materiały, nr 13, 2008
129
powiednich narzdzi Web Miningowych, które pomogłyby im rozwiza problemy dotyczce
ogromnej iloci danych zawartych w internecie.
Metody Web Miningu przyczyniaj si do sprawniejszego wykonywania zada wewntrz
przedsibiorstwa poprzez efektywn eksploracj portali internetowych. Narzdzia te umoliwiaj
dokładne personalizowanie serwisów internetowych poprzez ledzenie wzorców nawigacji uytkowników oraz na tej podstawie odpowiedni indywidualizacj zawartoci stron. Wykorzystanie
wiedzy dotyczcej klientów oraz ich preferencji jest bardzo wanym aspektem wykorzystywanym
przy podejmowania decyzji rynkowych w przedsibiorstwie. Dziki Web Miningowi satysfakcja
klienta moe by mierzona i analizowana ju choby na bazie wypełnianych on-line kwestionariuszy (Night, 1999).
Przyspieszony wzrost ródeł informacji dostpnych w internecie oraz zainteresowanie handlem
elektronicznym sprawia, e globalna sie stała si bardzo atrakcyjnym miejscem wymiany dowiadcze naukowców i praktyków biznesu dziki moliwoci sprawnego przeszukiwania informacji oraz metodom sztucznej inteligencji, a szczególnie przetwarzania jzyka naturalnego.
5. NarzĊdzia wykorzystywane do Text Miningu
Pomidzy wieloma dostpnymi programami uywanymi do Text Miningu najczciej uywanymi s: Text Miner (SAS), Text Miner (StatSoft), Text Analyst (Megaputer Intelligence) oraz
Text Mining Solutions (NetOwl). Narzdzia te potrafi zanalizowa tekst znajdujcy si w kolekcji
dokumentów, a nastpnie dokona na tej podstawie predykcji lub dalszej eksploracji tekstu. Powysze oprogramowanie ułatwia take nawigacj w bardzo złoonych bazach danych oraz umoliwia sporzdzenie streszcze bez koniecznoci zapoznawania si z całymi dokumentami. Dodatkowe opcje, w jakie wyposaone s te programy to klasteryzacja dokumentów, automatyczne rozpoznawanie złoonych wyrae oraz znajdywanie grup słów o podobnym znaczeniu lub znajdywanie grup podobnych treciowo dokumentów.
Uywajc modułu SAS Text Miner mona take analizowa powizania pomidzy terminami.
Przykładow graficzn prezentacj słów wystpujcych najczciej razem w tekcie mona obejrze na rysunku poniej.
130
Karolina Kuligowska, Mirosława Lasek
Eksploracja danych tekstowych (Text Mining) w przedsiĊbiorstwie
Rys. 1. Słowa najczĊĞciej wystĊpujące z wyrazem „hurtownia”
ħródło: opracowanie własne na podstawie programu SAS Text Miner
Bibliografia
1. Filipowska A., Jak zaoszczdzi na czytaniu? Automatyczne tworzenie abstraktów
z dokumentów, Gazeta IT, nr 3 (22), 2004, 1-6.
2. Gaizauskas R., Saggion H., Multi-Document Summarization by Cluster/Profile Relevance and
Redundancy Removal, Proceedings of the HLT/NAACL Document Understanding Workshop,
Boston 2004, 1-8.
3. Hearst M., A., Untangling Text Data Mining, Proceedings of ACL, 37th Annual Meeting of
the ACL, New Jersey 1999, 3-10.
4. Night K., Mining Online Text, Communications of the ACM 42(11), ACM Press, New York
1999, 58–61.
5. Wang Y., Web Mining and Knowledge Discovery of Usage Patterns, CS 748T Project 2000,
1-25
6. Weiss S. (red.), Text Mining: Predictive Methods for Analyzing Unstructured Information,
Springer Science and Business Media, New York 2005.
7. Wcel K., SAS, rejestry pastwowe i text mining, Gazeta IT, nr 9 (39), 2005, 1-4
POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ
Seria: Studia i Materiały, nr 13, 2008
TEXT MINING METHODS AND APPLICATIONS IN THE ENTERPRISE
Summary
Text Mining methods consist of Data Mining algorithms applied to unstructured
textual data. Those methods allow to explore quickly thousands of documents and to
extract previously unktnown patterns and correlations used in business decision
making and other managerial activities in the enterprise.
Keywords: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining
Karolina Kuligowska
[email protected]
Mirosława Lasek
[email protected]
Katedra Informatyki Gospodarczej i Analiz Ekonomicznych, Uniwersytet Warszawski
ul. Długa 44/50, 00-241 Warszawa
131