Eksploracja danych
Transkrypt
Eksploracja danych
Eksploracja danych twitter Mateusz Magdoń Krzysztof Rudek Agenda ● ● ● ● ● ● Cele dzialan Opis wydarzenia Sposob realizacji Struktura bazy danych Podstawowe statystyki Podsumowanie Cele działań ● Zebranie danych dotyczących wyborów w USA w 2014r z serwisu twitter ● Analiza zebranch danych Opis wydarzenia ● wybory uzupełniające do senatu (36/100) ● wybory do izby reprezentantów ● wybory gubernatorskie Wybory uzupełniające do senatu ● zwycięstwo republikanów ● republikanie - 54 (+9) demokraci - 44 (-9) niezależni - 2 ● ● Wybory do izby reprezentantów ● zwycięstwo republikanów ● republikanie - 247 (+13) demokraci - 188 (-13) ● Wybory gubernatorskie ● zwycięstwo republikanów ● republikanie - 31 (+2) demokraci - 18 (-3) niezależni - 1 (+1) ● ● Sposób realizacji Crawler pobierał tweety w czasie rzeczywistym, nieprzerwanie przez okres 18 dni Struktura bazy danych Podstawowe statystyki ● pobranych ○ tweetów: 498948 ○ hashtagów: 28024 ○ użytkowników: 239047 ● średnia liczba tweetów per użytkownik: 2,08 Ilość tweetów na dzień Najczęstsze lokacje ● ● ● ● ● ● ● ● ● ● New York 3905 Waszyngton, DC 3629 Chicago 2500 Los Angeles 1958 USA 1726 Texas 1221 California 838 Florida 806 London 667 Boston 653 Retweety ● połączenia o wadze 10 i większej ● Najważniejsze węzły (in-deegree) ○ FoxNews ○ AP ○ EspuelasVox Wspomnienia o użytkownikach ● połączenia o wadze 10 i większej ● Najważniejsze węzły (in-deegree) ○ AP ○ EspuelasVox ○ FoxNews Komentarze ● połączenia o wadze 2 i większej ● Najważniejsze węzły (in-deegree) ○ TheElectionNews ○ BravehartCamp ○ WilleMoses_ Podsumowanie ● Research - znalezienie “modnego” tematu ● Projekt struktury oraz implementacja bazy danych ● Implementacja crawlera do pobierania danych z Twittera z kluczem #Election2014 oraz #Elections2014 ● Zebranie danych z Twittera Podsumowanie ● Wykonanie podstawowych statystyk ● Utworzenie sieci połączeń między tweetami na trzech poziomach ○ retweety ○ komentarze ○ wspomnienia o użytkowniach Podsumowanie ● Analiza pobranych danych przy uzyciu ○ Gephi ○ CFinder ● Sporzadzenie dokumentacji projektu z opisem metod oraz wynikow analizy danych Podsumowanie ● Dalsza analiza #Election2014 oraz #Elections2014 nie ma sensu ● Analiza najczesciej tweetujacych, komentujących oraz wspominanych uzytkownikow pod katem ich poparcia dla parti oraz konkretnego kandydata ● Wnioskowanie zmieniajacych sie trendow w polityce w USA Podsumowanie ● Zebranie dodatkowych danych pozwalających określić wpływ podmiotów trzecich na propagandowy charakter wiadomosci ● śledzenie czy uzytkownicy Tweetera częściej będą wykorzystywali geolokalizacje, co pozwoli na dodanie nowego wymiaru analizowanym danym