Analiza i wizualizacja danych z mediów społecznościowych dzięki

Transkrypt

Analiza i wizualizacja danych z mediów społecznościowych dzięki
ApoTwitterBoard Proof of Concept
Liczba danych na świecie rośnie w niesamowitym tempie. Ponadto, pochodzą one z wielu
różnych źródeł. Jednym z nich są media społecznościowe. Analizowanie informacji
generowanych przez użytkowników takich portali jak Twitter czy Facebook może przynieść
wartość dodaną dla firmy. W Apollogic widzimy korzyści wynikające z analizowania treści z
Social Media. Dlatego też nasz zespół stworzył Proof of Concept narzędzia, które potrafi
analizować tweety w czasie rzeczywistym – ApoTwitterBoard.
Narzędzie to umożliwia użytkownikom obserwowanie bieżących tweetów zawierających
ustalone przez nich słowa kluczowe i wyświetlanie statystyk związanych z najpopularniejszymi
hashtagami z nimi związanymi. Udało się nam już wdrożyć takie statystyki jak wyświetlanie
hashtagów zyskujących popularność i mierzenie całościowej aktywności w czasie.
ApoTwitterBoard wyróżnia również tweety pochodzące od najpopularniejszych osób i
trendsetterów. Aplikacja pokazuje też ranking najczęściej tweetujących użytkowników dla
analizowanych w danym momencie słów kluczowych. Przykładowo, podczas szczytu NATO
organizowanego w Warszawie 8-9 lipca bieżącego roku wśród najbardziej aktywnych
użytkowników znalazły się między innymi TVP Info i PISM (Polski Instytut Spraw
Międzynarodowych). Takie informacje mogą pokazać, których tweetujących warto
obserwować w Social Media. Bardzo użyteczną funkcjonalnością są również zamieszczone w
rozwiązaniu wizualizacje. Poza paskiem pokazującym aktywność w danym temacie na osi
czasu można znaleźć również wykresy kołowe z najpopularniejszymi hahstagami lub
lokalizacjami
aktywnych
użytkowników.
Istnieje
również
możliwość
wizualizacji
streamowanych tweetów na mapie. Elementy wchodzące w skład wizualizacji mogą być
zmieniane i dostosowywane przez użytkownika wedle jego potrzeb co zapewnia wartościową
personalizację.
ApoTwitterBoard okazuje się bardzo użytecznym narzędziem do monitorowania reakcji
osób odwiedzających dane wydarzenia lub odczuć dotyczących produktu i/lub danej firmy.
Pozwala na odkrycie trendów i przydatnych opinii odpowiednio wcześnie. Dlatego umożliwia
też adekwatną reakcję na nie. W Apollogic używamy tego narzędzia w trakcie wydarzeń, w
których uczestniczymy. Efektywny interfejs może przykładowo wyświetlać tweety powiązane z
nazwą lub hashtagiem eventu, w którym bierzemy udział. Ponadto, ApoTwitteBoard jest
używany przez Dział Marketingu do rozpoznawania bieżących trendów i monitorowania
mediów społecznościowych podczas interesujących wydarzeń do wyciągnięcia z nich
określonych wniosków.
Na pierwszym zrzucie ekranu zostały umieszczone Tweety z pierwszego dnia Olimpiady
dotyczące hashtagu #Rio2016. Najbardziej popularnym hashtagiem związanym z tym eventem
okazał się #openingceremony. Po tym jak Michael Phelps wygrał swój 20. i 21. złoty medal
olimpijski wśród najpopularniejszych hashtagów znalazł się #phelps.
ApoTwitterBoard został oparty o technologię Spark Streaming. Jest to rozszerzenie API
Sparka, które umożliwia skalowalne, wysokowydajne, odporne na błędy przetwarzanie
strumienia danych w czasie rzeczywistym. Może on pochodzić z wielu różnych źródeł, takich
jak Kafka, Flume, a nawet Twitter. Użycie tej technologii z API, które zapewnia, okazało się
bardzo wygodne. Kod przetwarzający tweety w czasie rzeczywistym (właściwie w miniwsadach,
ang. microbatches, w naszym przypadku o długości 1 sekundy), został napisany w Scali i
stanowił dobre przeszkolenie dla zespołu w Apache Spark i języku Scala. Wykonanie takiego
przetwarzania danych jest możliwe również z użyciem innych narzędzi, takich jak Apache
Storm lub Apache Flink. Apache Spark okazuje się jednak tym najpopularniejszym i w naszej
opinii również tym najbardziej kompleksowym. Uważamy, że Apache Spark to standard dla
wielu zadań z zakresu analiz Big Data i dlatego zdecydowaliśmy się na użycie tego narzędzia do
Proof of Concept ApoTwitterBoard. Nasz klaster Spark został umieszczony na lokalnych
serwerach.
Narzędziem, którego użyliśmy do przechowywania tweetów był Elasticsearch. Jest to
część open-sourcowego środowiska Elastic Stack z Kibaną, Logstash i Beats. Ten zestaw
narzędzi służy pobieraniu danych z dowolnego źródła i w dowolnym formacie w celu
wyszukiwania,
analizy
i
wizualizacji
danych
w
czasie
rzeczywistym.
Wizualizacje
zaimplementowane w ApoTwitterBoard zostały stworzone przy użyciu Kibany. Przy użyciu
tego narzędzia można łatwo tworzyć wizualizacje i dashboardy oparte na danych znajdujących
się w klastrze Elasticsearch. Elastic Stack jest często używany do przechowywania strumienia
logów i ich wizualizacji.
ApoTwitterBoard w swojej początkowej fazie to wartościowe narzędzie, które może być
bardzo przydatne do analizowania danych w mediach społecznościowych w czasie
rzeczywistym. Okazuje się to szczególnie interesujące w trakcie trwania bieżących wydarzeń,
zarówno na lokalnych konferencjach, jak i globalnych eventach. Zestaw statystyk zapewniany
przez ApoTwitterBoard daje swojemu użytkownikowi wartościowy insight analityczny oparty o
media społecznościowe.

Podobne dokumenty