Text Mining - Computerworld

Transkrypt

Text Mining - Computerworld
Text Mining
a codzienna rzeczywistość
Mariusz Dzieciątko
Otaczający nas świat zmienia się ostatnio
w niesamowitym tempie. Rozwój komputerów,
sieci Internet, poczty elektronicznej, a ostatnio również serwisów społecznościowych to
czynniki, które przemodelowały utrwalone
przez wieki standardy komunikacji międzyludzkiej. Nie tylko dostęp do informacji stał się
powszechny, ale powszechne stało się również
tworzenie treści publikowanych z wykorzystaniem różnorodnych kanałów informacyjnych.
Każdy użytkownik Internetu może w sposób
nieskrępowany wyrażać swoje poglądy i opinie
w sieci web, do której dostęp mają ludzie na
całym świecie. Według różnych szacunków
podaje się, iż ilość danych przechowywanych
w postaci nieustrukturyzowanej, czyli w postaci
luźnego tekstu lub plików audio oraz wideo,
stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast
zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania
jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza
to, że zakres informacji uwzględnianych przy
podejmowaniu strategicznych decyzji jest
stosunkowo niewielki. W związku z tym faktem
nasuwają się pytania:
•
•
•
czy stać nas na ignorowanie tak dużej
ilości istniejących danych?
jak można skutecznie wykorzystać
informacje dostępne w postaci luźnego
tekstu?
w jakich obszarach zastosowań możemy
wykorzystać dane nieustrukturyzowane?
Obszary zastosowań.
Odpowiedzią na tego typu zagadnienia są
technologie Text Mining. Analiz Text Mining
można użyć np. do wydobywania z dokumentów kluczowych informacji (tworzenie podsumowań, streszczeń). Narzędzia te umożliwiają
również zdobywanie wiedzy o trendach, relacjach, jakie wiążą ludzi, organizacje lub miejsca
poprzez automatyczne zbieranie i porównywanie informacji z dokumentów określonego
typu (przychodzących maili, listów od klientów
itp.) Ponadto możemy je wykorzystywać do
klasyfikowania i organizowania dokumentów
ze względu na ich zawartość (np. automatyczna preselekcja dokumentów z określonymi
rodzajami tematów i przydzielanie ich do
odpowiedniego folderu czy też do przeczytania
dla odpowiedniej osoby).
Inne zastosowania to organizowanie repozytoriów z informacjami dotyczącymi dokumentów,
które pozwolą na skuteczne wyszukiwanie treści, przeprowadzanie analiz sentymentu lub
inaczej mówiąc eksploracji opinii, aby poznać
nastawienie naszych klientów do oferowanych
produktów lub usług - czy jest pozytywne
czy negatywne i jak zmienia się w czasie lub
w trakcie prowadzonych działań marketingowych. W marketingu możemy dostosować
treść komunikacji do sposobu, w jaki mówią,
myślą i spędzają czas nasi klienci. Działy PR
mogą wykorzystać pozytywne opinie w prasie lub łagodzić negatywne skutki sytuacji
kryzysowych.
Działy obsługi klienta mogą słuchać klientów
i współpracować z nimi z wykorzystaniem
zupełnie nowych kanałów. W badaniach rynku
analizy Text Mining pozwalają lepiej zrozumieć
postrzeganie pozycji naszych produktów
i usług w stosunku do konkurencji. Możemy
zidentyfikować miejsca i zdarzenia, w których
nasza reklama lub promocja może być pozytywnie odbierana. I wreszcie korzystając z wypowiedzi konsumentów możemy odkrywać ich
konkretne potrzeby i określić cechy produktów,
które użytkownicy lubią, lub o których maja
negatywne opinie.
Źródła danych nieustrukturyzowanych.
Dane do analiz Text Mining mogą pochodzić
z różnych źródeł. Mogą to być zarówno dane
zewnętrzne, jak i wewnętrzne. Wśród zewnętrznych bardzo cennym źródłem informacji
są media społecznościowe, czyli wszystkie
miejsca w sieci Web, gdzie użytkownicy
Internetu mogą zamieszczać własne wpisy,
komentarze, opinie itp. Źródłami wewnętrznymi mogą być notatki pracowników Call Center
dotyczące rozmów z klientami korespondencja przesyłana pocztą elektroniczną, wszelkie
dokumenty firmowe, takie jak umowy, oferty,
zbiory publikacji, transkrypcje rozmów Call
Center, opisy szkód ubezpieczeniowych,
notatki policjantów, pytania otwarte z badań
ankietowych itd.
Proces analiz Text Mining
Text Mining to technika, która bazując na metodach Data Mining oraz metodach NLP (ang.
Natural Language Processing) umożliwia analizowanie kolekcji tekstowych. Zapewnia ona
dużo szerszy zakres funkcjonalności niż tylko
wyszukiwanie informacji poprzez przetwarzanie
tekstu, wydobycie wiedzy i rozumienie pojedynczych dokumentów. Aplikacje Text Mining
działają na cyfrowej formie danych tekstowych,
dzięki czemu umożliwiają również identyfikację
zależności i wzorców oraz wizualizację tych
zależności i wzorców.
Pierwszym krokiem w procesie analizy Text Mining jest zwykle tokenizacja, za pomocą której
identyfikowane są podstawowe frazy tekstowe,
które nie będą podlegać dalszej dekompozycji.
Nieprzetworzony tekst jest reprezentowany
przez sekwencję znaków, z których komputer
musi wyodrębnić owe frazy.
Po tokenizacji zazwyczaj przeprowadza się
proces leksykalny, który może składać się
z oznaczania części mowy, stemmingu- czyli
automatycznego odnajdywania rdzeni lub pni
wyrazów, przypisywania słowom ich bazowej
formy (na przykład dać jest bazową formą dla
słów dały, dam, daliśmy etc.). Działania te mają
na celu uproszczenie całego procesu.
W dalszym etapie do zidentyfikowanych fraz
przypisuje się wagi, które w zależności od
wybranej metody ważenia, podkreślają istotność
ich rozkładu w ramach kolekcji dokumentów tekstowych. W tym miejscu uzyskujemy
numeryczną reprezentację danych tekstowych
i możemy użyć standardowych metod Data
Mining w celu dalszej eksploracji.
Oferta SAS w dziedzinie Text Mining
SAS oferuje szereg narzędzi umożliwiających
efektywne wdrożenie analiz Text Mining. W portfolio produktów firmy znajduja się one w grupie
o nazwie Text Analytics. Są tam wyspecjalizowane narzędzia do automatycznego pobierania
dokumentów z sieci Internet oraz Intranet, kategoryzacji treści, analizy sentymentu, budowania
ontologii, tworzenia automatycznych streszczeń,
a także powiązania analiz Text Mining z analizami Data Mining.
Kategoryzacja możliwa jest poprzez automatyczne grupowanie dokumentów według treści
lub poprzez przypisanie do ustalonej struktury
drzewiastej tzw. taksonomii. Informacje, dokumenty lub witryny sieci Web organizowane są
przy użyciu intuicyjnego katalogu hierarchicznego, według którego mogą być one przeglądane.
Dokumenty klasyfikowane są automatycznie
przy użyciu łatwo modyfikowalnych reguł umożliwiających dokładną kategoryzację, zapewniając skojarzenie nowego materiału z istniejącymi
źródłami w czasie rzeczywistym.
To zapewnia szybkość, skuteczną organizację
informacji, dostępność, możliwość odnajdywania i udostępniania wiedzy, przy jednoczesnym
zmniejszeniu obciążenia związanego z procesem kategoryzacji treści, takich jak ręczne
oznaczanie i retrospektywne indeksowanie.
Analiza sentymentu może pomóc organizacjom
w precyzyjnym monitorowaniu opinii konsumentów poprzez unikatową technologię, która
stosuje zarówno sztukę, jak i naukę do oceny
witryn sieci Web, wewnętrznych danych Call
Center, wiadomości e-mail i innych danych
tekstowych. Poprzez zastosowanie modeli
i reguł językowych, które mogą być definiowane przez ekspertów biznesowych, można
zdefiniować pozytywne, negatywne i neutralne
uczucia skojarzone z wyrazami użytymi do opisu
produktów, usług, itp. W rezultacie można użyć
opinii konsumenta do rozwijania i utrzymywania
bardziej skutecznych produktów i strategii.
Korzyści
Powyższe rodzaje analiz mogą być wzbogacone
poprzez bogaty zestaw narzędzi lingwistycznych
oraz modelowania analitycznego służących do
odkrycia, ekstrakcji i przewidywania wiedzy
z wielu dokumentów tekstowych. Po przekształceniu tekstu, dzięki czemu może on być użyty
w narzędziach Data Mining, tematy i kompozy-
cje są identyfikowane jako wyraźne związki. Tak
opisane dokumenty można łączyć w stosowne
grupy gotowe do analiz eksploracyjnych lub
modelowania.
Interaktywna eksploracja pozwala na odnajdywanie wcześniej nieznanych wzorców
w zbiorach dokumentów i zastosowanie ich
bezpośrednio w modelach predykcyjnych,
zaprezentowanie ich w ramach korporacyjnej
taksonomii lub firmowych pulpitów nawigacyjnych – maksymalizując wartość zdobytej wiedzy
ze wszystkich źródeł informacji.
Rozwiązanie to pozwala na oszczędności
finansowe i ograniczenie zasobów, dzięki automatyzacji czasochłonnych zadań związanych
z czytaniem i rozumieniem tekstów. Konsolidując dane strukturalne oraz źródła informacji tekstowych, użytkownik uzyskuje bardziej dokładny
i kompletny widok organizacji.
dr inż. Mariusz Dzieciątko
Od 20 lat zajmuje się technologiami informatycznymi, w SAS Institute od 10 lat, obecnie
w dziale Strategii Technologii. Na co dzień
zajmuje się wsparciem i rozwojem rozwiązań
analitycznych. Jego główne zainteresowania
to Text Mining oraz metody optymalizacji.
Jest wykładowcą w Szkole Głównej Handlowej w Kolegium Analiz Ekonomicznych oraz
propagatorem edukacji domowej.
Zasilanie repozytorium dokumentów źródłowych
może pochodzić ze stron WWW, systemu RSS,
a także lokalnego lub zdalnego systemu plików,
blogów, forów, portali społecznościowych takich
jak Facebook, Twiter i wielu innych źródeł. SAS
Web Crawler pozwala na pobieranie treści stron
internetowych ze zidentyfikowanych źródeł
lub realizację wyszukiwania stron w Internecie
spełniających zadane kryteria w zakresie treści
i słów kluczowych. Rozwiązanie to pozwala na
bardzo wydajne pobieranie treści stron internetowych, nawet do 1000 wątków jednocześnie,
dzięki czemu zasilanie repozytorium treści internetowych będzie odbywało się bardzo wydajnie.
Rys. 1. Analiza sentymentu w mediach społecznościowych z użyciem produktu SAS® Social Media Analytics
SAS Institute Polska Więcej informacji na stronie: +48 22 560 46 00
www.sas.com/poland
SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA
and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies.
Copyright © 2012, SAS Institute Inc. All rights reserved. 000000_S00000_0012

Podobne dokumenty