Analiza i wizualizacja danych z mediów społecznościowych dzięki
Transkrypt
Analiza i wizualizacja danych z mediów społecznościowych dzięki
ApoTwitterBoard Proof of Concept Liczba danych na świecie rośnie w niesamowitym tempie. Ponadto, pochodzą one z wielu różnych źródeł. Jednym z nich są media społecznościowe. Analizowanie informacji generowanych przez użytkowników takich portali jak Twitter czy Facebook może przynieść wartość dodaną dla firmy. W Apollogic widzimy korzyści wynikające z analizowania treści z Social Media. Dlatego też nasz zespół stworzył Proof of Concept narzędzia, które potrafi analizować tweety w czasie rzeczywistym – ApoTwitterBoard. Narzędzie to umożliwia użytkownikom obserwowanie bieżących tweetów zawierających ustalone przez nich słowa kluczowe i wyświetlanie statystyk związanych z najpopularniejszymi hashtagami z nimi związanymi. Udało się nam już wdrożyć takie statystyki jak wyświetlanie hashtagów zyskujących popularność i mierzenie całościowej aktywności w czasie. ApoTwitterBoard wyróżnia również tweety pochodzące od najpopularniejszych osób i trendsetterów. Aplikacja pokazuje też ranking najczęściej tweetujących użytkowników dla analizowanych w danym momencie słów kluczowych. Przykładowo, podczas szczytu NATO organizowanego w Warszawie 8-9 lipca bieżącego roku wśród najbardziej aktywnych użytkowników znalazły się między innymi TVP Info i PISM (Polski Instytut Spraw Międzynarodowych). Takie informacje mogą pokazać, których tweetujących warto obserwować w Social Media. Bardzo użyteczną funkcjonalnością są również zamieszczone w rozwiązaniu wizualizacje. Poza paskiem pokazującym aktywność w danym temacie na osi czasu można znaleźć również wykresy kołowe z najpopularniejszymi hahstagami lub lokalizacjami aktywnych użytkowników. Istnieje również możliwość wizualizacji streamowanych tweetów na mapie. Elementy wchodzące w skład wizualizacji mogą być zmieniane i dostosowywane przez użytkownika wedle jego potrzeb co zapewnia wartościową personalizację. ApoTwitterBoard okazuje się bardzo użytecznym narzędziem do monitorowania reakcji osób odwiedzających dane wydarzenia lub odczuć dotyczących produktu i/lub danej firmy. Pozwala na odkrycie trendów i przydatnych opinii odpowiednio wcześnie. Dlatego umożliwia też adekwatną reakcję na nie. W Apollogic używamy tego narzędzia w trakcie wydarzeń, w których uczestniczymy. Efektywny interfejs może przykładowo wyświetlać tweety powiązane z nazwą lub hashtagiem eventu, w którym bierzemy udział. Ponadto, ApoTwitteBoard jest używany przez Dział Marketingu do rozpoznawania bieżących trendów i monitorowania mediów społecznościowych podczas interesujących wydarzeń do wyciągnięcia z nich określonych wniosków. Na pierwszym zrzucie ekranu zostały umieszczone Tweety z pierwszego dnia Olimpiady dotyczące hashtagu #Rio2016. Najbardziej popularnym hashtagiem związanym z tym eventem okazał się #openingceremony. Po tym jak Michael Phelps wygrał swój 20. i 21. złoty medal olimpijski wśród najpopularniejszych hashtagów znalazł się #phelps. ApoTwitterBoard został oparty o technologię Spark Streaming. Jest to rozszerzenie API Sparka, które umożliwia skalowalne, wysokowydajne, odporne na błędy przetwarzanie strumienia danych w czasie rzeczywistym. Może on pochodzić z wielu różnych źródeł, takich jak Kafka, Flume, a nawet Twitter. Użycie tej technologii z API, które zapewnia, okazało się bardzo wygodne. Kod przetwarzający tweety w czasie rzeczywistym (właściwie w miniwsadach, ang. microbatches, w naszym przypadku o długości 1 sekundy), został napisany w Scali i stanowił dobre przeszkolenie dla zespołu w Apache Spark i języku Scala. Wykonanie takiego przetwarzania danych jest możliwe również z użyciem innych narzędzi, takich jak Apache Storm lub Apache Flink. Apache Spark okazuje się jednak tym najpopularniejszym i w naszej opinii również tym najbardziej kompleksowym. Uważamy, że Apache Spark to standard dla wielu zadań z zakresu analiz Big Data i dlatego zdecydowaliśmy się na użycie tego narzędzia do Proof of Concept ApoTwitterBoard. Nasz klaster Spark został umieszczony na lokalnych serwerach. Narzędziem, którego użyliśmy do przechowywania tweetów był Elasticsearch. Jest to część open-sourcowego środowiska Elastic Stack z Kibaną, Logstash i Beats. Ten zestaw narzędzi służy pobieraniu danych z dowolnego źródła i w dowolnym formacie w celu wyszukiwania, analizy i wizualizacji danych w czasie rzeczywistym. Wizualizacje zaimplementowane w ApoTwitterBoard zostały stworzone przy użyciu Kibany. Przy użyciu tego narzędzia można łatwo tworzyć wizualizacje i dashboardy oparte na danych znajdujących się w klastrze Elasticsearch. Elastic Stack jest często używany do przechowywania strumienia logów i ich wizualizacji. ApoTwitterBoard w swojej początkowej fazie to wartościowe narzędzie, które może być bardzo przydatne do analizowania danych w mediach społecznościowych w czasie rzeczywistym. Okazuje się to szczególnie interesujące w trakcie trwania bieżących wydarzeń, zarówno na lokalnych konferencjach, jak i globalnych eventach. Zestaw statystyk zapewniany przez ApoTwitterBoard daje swojemu użytkownikowi wartościowy insight analityczny oparty o media społecznościowe.