Eksploracja danych tekstowych (Text Mining) w
Transkrypt
Eksploracja danych tekstowych (Text Mining) w
EKSPLORACJA DANYCH TEKSTOWYCH (TEXT MINING) W PRZEDSIĉBIORSTWIE KAROLINA KULIGOWSKA, MIROSŁAWA LASEK Uniwersytet Warszawski Streszczenie Metody eksploracji danych tekstowych Text Mining łączą w sobie techniki Data Mining z analizowaniem treĞci róĪnorodnych dokumentów tekstowych. DziĊki tym metodom z nieustrukturyzowanych danych o charakterze tekstowym moĪna odnaleĨü nieznane wczeĞniej informacje oraz dotrzeü do sporej wartoĞci wiedzy dotyczącej przedsiĊbiorstwa. Pozyskane w ten sposób, usystematyzowane informacje są coraz czĊĞciej wykorzystywane do podejmowania decyzji biznesowych. Słowa kluczowe: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining 1. Wprowadzenie Od pocztku bada w dziedzinie sztucznej inteligencji próbowano skonstruowa oprogramowanie pozwalajce efektywnie analizowa dane tekstowe w inteligentny sposób. W miar jak rozwijano technologi i konstruowano komputery o coraz wikszej mocy obliczeniowej, moliwe było przeprowadzanie coraz bardziej zaawansowanych analiz danych. Dziki aplikacjom analitycznym programy zaczły przetwarza obszerne bazy danych cyfrowych o wiele efektywniej i szybciej ni człowiek. Pomimo to maszyny wci nie radziły sobie z podstawow umiejtnoci ludzk: rozumieniem i przetwarzaniem komunikatów w jzyku naturalnym. Dalsze badania naukowe prowadzone w zakresie lingwistyki obliczeniowej (ang. computational linguistics) okazały si na tyle owocne, e zaczto wytwarza oprogramowanie do analiz tekstu, tzw. Text Mining. Narzdzia Text Miningu stanowi połczenie metod Data Miningu zastosowanych do przetwarzania jzyka naturalnego. Narzdzia te umoliwiaj wyłuskiwanie cennych informacji z bardzo wielu, rónorodnych dokumentów tekstowych, a co za tym idzie – odkrywanie nieznanych wczeniej współzalenoci midzy danymi oraz powiza pomidzy dokumentami (Gaizauskas, 2004). Badania nad Text Miningowymi metodami eksploracji danych wydaj si by bardzo obiecujce, gdy pozwalaj na zaoszczdzenie czasu i pienidzy, które musiałyby zosta przeznaczone na przeczytanie i ewentualne eksplorowanie przez człowieka ogromnego repozytorium dokumentów tekstowych. Text Mining jest ju stosowany w przedsibiorstwach, a niektóre z zastosowa zostan omówione w niniejszym artykule. 2. Metody eksploracji danych tekstowych Podczas uywania narzdzi bazujcych na Data Miningu informacje zostaj wyłuskiwane z ustrukturyzowanych baz danych. W procesie Text Miningu natomiast dane s wydobywane z nieustrukturyzowanych treci dokumentów tekstowych zapisanych w jzyku naturalnym. W celu przeprowadzenia analizy tekstu dokument powinien by na samym pocztku przekształcony w odpowiedni form. Etap ten nazywa si wstpn obróbk pliku tekstowego (ang. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 13, 2008 127 preprocessing), podczas którego dane tekstowe zapisane w rónorodnych formatach zostaj zaimportowane do pojedynczego zbioru, łatwego do póniejszego odczytywania. Kiedy „surowe” dokumenty s ju przekształcone w jednolity format kodowania, tekst jest przeszukiwany i nastpnie poddawany rozbiorowi. Jest to kolejny krok w procesie analizy kolekcji dokumentów. Podczas rozbioru struktury dokumentu (ang. parsing) z dalszej analizy wyłczone zostaj wyrazy o niskiej wartoci informacyjnej. Rodzajniki, spójniki, przyimki i inne nieistotne semantycznie czci mowy zgromadzone s na osobnej licie, tzw. stop licie (ang. stop list), za pomoc której mona kontrolowa pomijane wyrazy. W etapie tym zostaj równie wyodrbnione terminy, które maj istotne znaczenie i które naley włczy do analizy; mog to by pojedyncze wyrazy, wyraenia, nazwy oraz numery. Podczas przeszukiwania dokumentu nastpuje take automatyczne znajdowanie podstawy fleksyjnej (ang. stemming), czyli sprowadzenie wszystkich odmian i form danego wyrazu do jego formy podstawowej. Czynno ta ułatwia analiz terminów bardziej abstrakcyjnych, cho oczywicie istniej terminy majce identyczne znaczenie kontekstowe, lecz oparte na innych podstawach fleksyjnych. W takim przypadku niezbdna jest lista synonimów, które maj takie samo znaczenie, cho nie wywodz si bezporednio z tych samych form podstawowych (Wcel, 2005). Efektem przeszukiwania dokumentu jest wygenerowanie liczbowej reprezentacji danego dokumentu. Moe ona by oparta na prostych metodach statystycznych bazujcych na czstoci i współwystpowaniu wyrazów. W celu analizy liczby wyrazów w zbiorze dokumentów najczciej tworzona jest macierz czstoci wystpowania wyrazów w dokumencie. Wagi uywane do mierzenia czstoci wystpowania słów zale od czstoci wystpowania danego wyrazu w dokumencie oraz w kolekcji dokumentów jako całoci. Po zmierzeniu czstoci mona nastpnie stosowa filtrowanie tekstu i ekstrakcja faktów. Celem stosowania eksploracji danych tekstowych jest przeszukanie dokumentów zawierajcych nieustrukturyzowany tekst, wydobycie z niego wartociowych dla analizy słów, do których nastpnie stosuje si róne algorytmy Data Miningu. Wydobyte informacje mog by uyte do sporzdzania streszcze dokumentów, okrelenia podobiestw pomidzy wieloma dokumentami, znalezienia zalenoci pomidzy jednostkami tekstu lub tworzenia rankingów dokumentów (Filipowska, 2004). Wida wic, e metody Text Miningu s potnym narzdziem przekształcajcym bezładny tekst w liczby, które s łatwiejsze do analitycznej obróbki i mog by nastpnie włczone do analiz, takich jak modelowanie Data Miningowe, predykcja lub biznesowe zastosowania klasteryzacji i klasyfikacji. 3. Text Mining w przedsiĊbiorstwie Głównym zadaniem metod eksploracji tekstu jest wyłuskiwanie istotnych danych i uycie ich do sporzdzania prognoz i podejmowania decyzji biznesowych. Do osignicia tego celu analitycy wykorzystuj klasteryzacj dokumentów oraz ich klasyfikowanie. Klasteryzacja kolekcji dokumentów umoliwia sporzdzenie ich streszcze bez koniecznoci czytania przez człowieka kadego dokumentu z osobna. Klaster zawierajcy kilka tysicy dokumentów moe pomóc w ujawnieniu wanych zagadnie i kluczowych idei zwizanych z funkcjonowaniem przedsibiorstwa, a zawartych w zgromadzonych w firmie dokumentach. Klasteryzacj dokumentów stosuje si w analizie danych ankietowych, analizie opinii klientów lub zbiorów wiadomoci e-mail do odkrycia wczeniej nieznanej wiedzy. Klasteryzacja daje równie wskazówki 128 Karolina Kuligowska, Mirosława Lasek Eksploracja danych tekstowych (Text Mining) w przedsiĊbiorstwie jakie wyrazy maj tendencj do bycia uywanymi łcznie lub jakie kategorie słownictwa wystpuj w kolekcji dokumentów. Klasyfikowanie dokumentów polega na ich rozdzieleniu pomidzy wczeniej zdefiniowane kategorie. Mona powiedzie, e klasyfikowanie jest w zasadzie form predykcji. Jest ona czsto uywana do inteligentnego filtrowania wiadomoci e-mail lub automatycznego wykrywania spamu. Najbardziej spektakularne i obiecujce zastosowania Text Miningu dotycz sporzdzania prognoz w takich dziedzinach, jak: giełda i kursy walut, ocena satysfakcji klienta oraz przewidywanie zachowa i preferencji klienta (Weiss, 2005). Inne typowe obszary zastosowa eksploracji danych tekstowych: • zmiany cen akcji na giełdzie przewidziane na podstawie prasowych informacji o kondycjach finansowych firm; • koszty usług prognozowane na podstawie opisu problemu; • identyfikacja konkretnych słów i wyrae dla procesu filtrowania wiadomoci e-mail w celu wykrycia spamu; • satysfakcja konsumenta przewidziana na podstawie analiz danych ankietowych oraz komentarzy klientów wpisanych na stronie internetowej; • zbadanie próbek artykułów napisanych przez jedn osob moe by podstaw do udowodnienia jej autorstwa innego fragmentu tekstu, który ma kilku potencjalnych autorów. • Inne zastosowania Text Miningu mog dotyczy analiz ankiet złoonych z pyta otwartych, automatycznego przetwarzania wiadomoci, analiz roszcze ubezpieczeniowych oraz analiz rónorodnych diagnoz (Hearst, 1999). 4. Eksploracja danych zawartych w internecie (Web Mining) na potrzeby przedsiĊbiorstw Internet w bardzo intensywny sposób oddziałuje na współczesne społeczestwo, zmieniajc sposoby wymiany informacji oraz zbierania danych. To Internet jest uwaany za najobszerniejsze ródło informacji na całej planecie. Mona go okreli jako niewiarygodnie wielki magazyn wszelakich nieuporzdkowanych danych. Nic wic dziwnego, e równie w internecie zaczto stosowa techniki Text Minigu do danych zawartych w internecie, czyli po prostu Web Miningu. Narzdzia eksploracji danych internetowych umoliwiaj przeszukiwanie danych rozproszonych w całej wiatowej sieci internetowej. Rozrónia si trzy rodzaje Web Miningowych analiz danych, mianowicie: eksploracja zawartoci stron internetowych (ang. Web content mining), eksploracja struktur internetowych (ang. Web structure mining) oraz eksploracja uytkowania internetu (ang. Web usage mining). Pierwsza metoda skupia si na wyszukiwaniu uytecznych informacji bezporednio z zawartoci stron internetowych i dokumentów zamieszczonych w internecie. Druga metoda umoliwia odkrywanie modeli struktur hiperłczy. Trzecie podejcie odnosi si do technik przewidywania zachowania uytkowników na podstawie ich wczeniej zaobserwowanych wzorców zachowa (Wang, 2000). Internauci powszechnie ju uywaj w codziennej pracy narzdzi, takich jak wyszukiwarki, gdy zaley im na szybkim i precyzyjnym odnalezieniu wanych informacji. Z drugiej strony dostawcy internetu staraj si przewidzie zachowania uytkowników oraz wzorce ich nawigacji w sieci w celu zredukowania przecienia w ładowaniu stron oraz w celu personalizacji dostarczanych informacji. Analitycy w firmie szczególnie ceni sobie zrozumienie i moliwoci predykcji preferencji i oczekiwa uytkownika. Wszystkie wyej wymienione grupy chciałyby uywa od- POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 13, 2008 129 powiednich narzdzi Web Miningowych, które pomogłyby im rozwiza problemy dotyczce ogromnej iloci danych zawartych w internecie. Metody Web Miningu przyczyniaj si do sprawniejszego wykonywania zada wewntrz przedsibiorstwa poprzez efektywn eksploracj portali internetowych. Narzdzia te umoliwiaj dokładne personalizowanie serwisów internetowych poprzez ledzenie wzorców nawigacji uytkowników oraz na tej podstawie odpowiedni indywidualizacj zawartoci stron. Wykorzystanie wiedzy dotyczcej klientów oraz ich preferencji jest bardzo wanym aspektem wykorzystywanym przy podejmowania decyzji rynkowych w przedsibiorstwie. Dziki Web Miningowi satysfakcja klienta moe by mierzona i analizowana ju choby na bazie wypełnianych on-line kwestionariuszy (Night, 1999). Przyspieszony wzrost ródeł informacji dostpnych w internecie oraz zainteresowanie handlem elektronicznym sprawia, e globalna sie stała si bardzo atrakcyjnym miejscem wymiany dowiadcze naukowców i praktyków biznesu dziki moliwoci sprawnego przeszukiwania informacji oraz metodom sztucznej inteligencji, a szczególnie przetwarzania jzyka naturalnego. 5. NarzĊdzia wykorzystywane do Text Miningu Pomidzy wieloma dostpnymi programami uywanymi do Text Miningu najczciej uywanymi s: Text Miner (SAS), Text Miner (StatSoft), Text Analyst (Megaputer Intelligence) oraz Text Mining Solutions (NetOwl). Narzdzia te potrafi zanalizowa tekst znajdujcy si w kolekcji dokumentów, a nastpnie dokona na tej podstawie predykcji lub dalszej eksploracji tekstu. Powysze oprogramowanie ułatwia take nawigacj w bardzo złoonych bazach danych oraz umoliwia sporzdzenie streszcze bez koniecznoci zapoznawania si z całymi dokumentami. Dodatkowe opcje, w jakie wyposaone s te programy to klasteryzacja dokumentów, automatyczne rozpoznawanie złoonych wyrae oraz znajdywanie grup słów o podobnym znaczeniu lub znajdywanie grup podobnych treciowo dokumentów. Uywajc modułu SAS Text Miner mona take analizowa powizania pomidzy terminami. Przykładow graficzn prezentacj słów wystpujcych najczciej razem w tekcie mona obejrze na rysunku poniej. 130 Karolina Kuligowska, Mirosława Lasek Eksploracja danych tekstowych (Text Mining) w przedsiĊbiorstwie Rys. 1. Słowa najczĊĞciej wystĊpujące z wyrazem „hurtownia” ħródło: opracowanie własne na podstawie programu SAS Text Miner Bibliografia 1. Filipowska A., Jak zaoszczdzi na czytaniu? Automatyczne tworzenie abstraktów z dokumentów, Gazeta IT, nr 3 (22), 2004, 1-6. 2. Gaizauskas R., Saggion H., Multi-Document Summarization by Cluster/Profile Relevance and Redundancy Removal, Proceedings of the HLT/NAACL Document Understanding Workshop, Boston 2004, 1-8. 3. Hearst M., A., Untangling Text Data Mining, Proceedings of ACL, 37th Annual Meeting of the ACL, New Jersey 1999, 3-10. 4. Night K., Mining Online Text, Communications of the ACM 42(11), ACM Press, New York 1999, 58–61. 5. Wang Y., Web Mining and Knowledge Discovery of Usage Patterns, CS 748T Project 2000, 1-25 6. Weiss S. (red.), Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer Science and Business Media, New York 2005. 7. Wcel K., SAS, rejestry pastwowe i text mining, Gazeta IT, nr 9 (39), 2005, 1-4 POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 13, 2008 TEXT MINING METHODS AND APPLICATIONS IN THE ENTERPRISE Summary Text Mining methods consist of Data Mining algorithms applied to unstructured textual data. Those methods allow to explore quickly thousands of documents and to extract previously unktnown patterns and correlations used in business decision making and other managerial activities in the enterprise. Keywords: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining Karolina Kuligowska [email protected] Mirosława Lasek [email protected] Katedra Informatyki Gospodarczej i Analiz Ekonomicznych, Uniwersytet Warszawski ul. Długa 44/50, 00-241 Warszawa 131