Gromadzenie i analiza Big Data na przykładzie monitorowania

Transkrypt

Gromadzenie i analiza Big Data na przykładzie monitorowania
Gromadzenie i analiza Big Data
na przykładzie monitorowania źródeł
internetowych
Jacek Małyszko, Bartosz Perkowski,
Agata Filipowska, Witold Abramowicz
Zarys problemu
• Podejmowanie decyzji i wykonywanie
czynności na podstawie informacji
publikowanych w źródłach internetowych
• Monitorowanie źródeł internetowych na
przykładzie projektu:
Semantyczny Monitoring Cyberprzestrzeni
Zarys problemu
Wyzwania
• Pozyskiwanie treści ze źródeł internetowych
• Generowanie reprezentacji pozyskanych treści,
umożliwiających przeprowadzanie
odpowiednich wnioskowań
• Przetwarzanie pozyskanych danych
• Wolumen danych
Pozyskiwanie treści z Sieci
• Wykorzystanie crawlera do pobierania danych z
predefiniowanych źródeł internetowych
• Mechanizm inteligentnego ustalania kolejki
stron dla crawlera dla zapewnienia jak
najszybszego pozyskania pojawiających się
nowych treści
Ekstrakcja treści (XSLT)
Reprezentacja dokumentów w bazie
• Konieczność przekształcenia danych do postaci
umożliwiającej efektywne przetwarzanie
informacji
Reprezentacja dokumentów w bazie
• Konieczność przekształcenia danych do postaci
umożliwiającej efektywne przetwarzanie
informacji
Przetwarzanie pozyskanych treści
• Moduł generowania reprezentacji
dokumentów
– wymagające wydajnościowo przetwarzanie języka
naturalnego
• Moduł do klasyfikacji i rankingowania
pobranych dokumentów
– konieczne przeszukiwanie i przetwarzanie dużych
kolekcji danych
• Agregacja danych na potrzeby automatycznie
generowanych raportów
Prezentacja wyników przetwarzania
• Aplikacja webowa umożliwiająca
– przeglądanie ofert
– wyszukiwanie ofert po zadanych kryteriach
– tagowanie ofert
– generowanie raportów
– graficzną prezentację statystyk
Inne możliwe zastosowania
• Monitorowanie ofert
• Identyfikacja negatywnych wypowiedzi
dotyczących określonego zagadnienia
• Wyszukiwanie spersonalizowanych informacji,
wiadomości
Podsumowanie
• Podejmowanie decyzji i wykonywanie
czynności na podstawie informacji zawartych w
źródłach internetowych
• Konieczność zapewnienia szybkiego
reagowania na nowe treści pojawiające się w
Sieci
– Pozyskiwanie treści z monitorowanych źródeł
– Przetwarzanie dużych wolumenów pozyskanych
danych
Dziękuję za uwagę!

Podobne dokumenty