Eksploracja danych

Transkrypt

Eksploracja danych
Eksploracja danych
twitter
Mateusz Magdoń
Krzysztof Rudek
Agenda
●
●
●
●
●
●
Cele dzialan
Opis wydarzenia
Sposob realizacji
Struktura bazy danych
Podstawowe statystyki
Podsumowanie
Cele działań
● Zebranie danych dotyczących wyborów w
USA w 2014r z serwisu twitter
● Analiza zebranch danych
Opis wydarzenia
● wybory uzupełniające do senatu (36/100)
● wybory do izby reprezentantów
● wybory gubernatorskie
Wybory uzupełniające do senatu
●
zwycięstwo
republikanów
●
republikanie - 54
(+9)
demokraci - 44 (-9)
niezależni - 2
●
●
Wybory do izby reprezentantów
●
zwycięstwo
republikanów
●
republikanie - 247
(+13)
demokraci - 188
(-13)
●
Wybory gubernatorskie
●
zwycięstwo
republikanów
●
republikanie - 31
(+2)
demokraci - 18 (-3)
niezależni - 1 (+1)
●
●
Sposób realizacji
Crawler pobierał tweety w czasie rzeczywistym,
nieprzerwanie przez okres 18 dni
Struktura
bazy danych
Podstawowe statystyki
● pobranych
○ tweetów: 498948
○ hashtagów: 28024
○ użytkowników: 239047
● średnia liczba tweetów per użytkownik:
2,08
Ilość tweetów na dzień
Najczęstsze lokacje
●
●
●
●
●
●
●
●
●
●
New York 3905
Waszyngton, DC 3629
Chicago 2500
Los Angeles 1958
USA 1726
Texas 1221
California 838
Florida 806
London 667
Boston 653
Retweety
● połączenia o wadze 10
i większej
● Najważniejsze węzły
(in-deegree)
○ FoxNews
○ AP
○ EspuelasVox
Wspomnienia o użytkownikach
● połączenia o wadze 10
i większej
● Najważniejsze węzły
(in-deegree)
○ AP
○ EspuelasVox
○ FoxNews
Komentarze
● połączenia o wadze 2 i
większej
● Najważniejsze węzły
(in-deegree)
○ TheElectionNews
○ BravehartCamp
○ WilleMoses_
Podsumowanie
● Research - znalezienie “modnego” tematu
● Projekt struktury oraz implementacja bazy
danych
● Implementacja crawlera do pobierania
danych z Twittera z kluczem #Election2014
oraz #Elections2014
● Zebranie danych z Twittera
Podsumowanie
● Wykonanie podstawowych statystyk
● Utworzenie sieci połączeń między tweetami
na trzech poziomach
○ retweety
○ komentarze
○ wspomnienia o użytkowniach
Podsumowanie
● Analiza pobranych danych przy uzyciu
○ Gephi
○ CFinder
● Sporzadzenie dokumentacji projektu z
opisem metod oraz wynikow analizy danych
Podsumowanie
● Dalsza analiza #Election2014 oraz
#Elections2014 nie ma sensu
● Analiza najczesciej tweetujacych,
komentujących oraz wspominanych
uzytkownikow pod katem ich poparcia dla
parti oraz konkretnego kandydata
● Wnioskowanie zmieniajacych sie trendow w
polityce w USA
Podsumowanie
● Zebranie dodatkowych danych
pozwalających określić wpływ podmiotów
trzecich na propagandowy charakter
wiadomosci
● śledzenie czy uzytkownicy Tweetera
częściej będą wykorzystywali
geolokalizacje, co pozwoli na dodanie
nowego wymiaru analizowanym danym

Podobne dokumenty