Gromadzenie i analiza Big Data na przykładzie monitorowania
Transkrypt
Gromadzenie i analiza Big Data na przykładzie monitorowania
Gromadzenie i analiza Big Data na przykładzie monitorowania źródeł internetowych Jacek Małyszko, Bartosz Perkowski, Agata Filipowska, Witold Abramowicz Zarys problemu • Podejmowanie decyzji i wykonywanie czynności na podstawie informacji publikowanych w źródłach internetowych • Monitorowanie źródeł internetowych na przykładzie projektu: Semantyczny Monitoring Cyberprzestrzeni Zarys problemu Wyzwania • Pozyskiwanie treści ze źródeł internetowych • Generowanie reprezentacji pozyskanych treści, umożliwiających przeprowadzanie odpowiednich wnioskowań • Przetwarzanie pozyskanych danych • Wolumen danych Pozyskiwanie treści z Sieci • Wykorzystanie crawlera do pobierania danych z predefiniowanych źródeł internetowych • Mechanizm inteligentnego ustalania kolejki stron dla crawlera dla zapewnienia jak najszybszego pozyskania pojawiających się nowych treści Ekstrakcja treści (XSLT) Reprezentacja dokumentów w bazie • Konieczność przekształcenia danych do postaci umożliwiającej efektywne przetwarzanie informacji Reprezentacja dokumentów w bazie • Konieczność przekształcenia danych do postaci umożliwiającej efektywne przetwarzanie informacji Przetwarzanie pozyskanych treści • Moduł generowania reprezentacji dokumentów – wymagające wydajnościowo przetwarzanie języka naturalnego • Moduł do klasyfikacji i rankingowania pobranych dokumentów – konieczne przeszukiwanie i przetwarzanie dużych kolekcji danych • Agregacja danych na potrzeby automatycznie generowanych raportów Prezentacja wyników przetwarzania • Aplikacja webowa umożliwiająca – przeglądanie ofert – wyszukiwanie ofert po zadanych kryteriach – tagowanie ofert – generowanie raportów – graficzną prezentację statystyk Inne możliwe zastosowania • Monitorowanie ofert • Identyfikacja negatywnych wypowiedzi dotyczących określonego zagadnienia • Wyszukiwanie spersonalizowanych informacji, wiadomości Podsumowanie • Podejmowanie decyzji i wykonywanie czynności na podstawie informacji zawartych w źródłach internetowych • Konieczność zapewnienia szybkiego reagowania na nowe treści pojawiające się w Sieci – Pozyskiwanie treści z monitorowanych źródeł – Przetwarzanie dużych wolumenów pozyskanych danych Dziękuję za uwagę!