Krzysztof Kiewicz kk337182 Projekt aplikacji zaliczeniowej ”Bot or

Transkrypt

Krzysztof Kiewicz kk337182 Projekt aplikacji zaliczeniowej ”Bot or
Krzysztof Kiewicz
kk337182
Projekt aplikacji zaliczeniowej ”Bot or Not?” na Bazy Danych
Rodzaj strategii:
Weryfikacja tożsamości internetowej, ostatni z listy proponowanych.
Opis:
Znaczna liczba kont zarejestrowanych na Twitterze to tweetomaty; w tym projekcie chodziłoby o identyfikowanie na podstawie postów, czy mamy do czynienia z tweetomatem, czy z żywą osobą. W ramach projektu muszą zostać sformułowane
i zaprogramowane kryteria klasyfikowania ludzi i tweetomatów, a także musi zostać stworzona baza osobowości twitterowych, która będzie użyta do zweryfikowania skuteczności algorytmu klasyfikującego.
Schemat działania:
Aplikacja ”Bot or not?” tworzyłaby bazę postów wybranej przez użytkownika osoby i na podstawie zaimplementowanych
różnych kryteriów odróżniania ludzi od botów stwierdzała czy konto prowadzone jest przez człowieka, czy automat. Użytkownik mógłby wybrać czy chce, aby wynikiem byłaby tylko prosta odpowiedź ’bot’ lub ’człowiek’, czy woli dokładniejszą
analizę pod względem zaimplementowanych kryteriów, czy też odpowiedź niejednoznaczną, ale mówiącą, jaka jest szansa,
że konto prowadzi bot.
Zastosowania:
Program służyłby głównie do celów informacyjno-analitycznych. Możnaby dzięki niemu analizować np. strukturę followerów danego profilu - ile procent z nich to rzeczywiści ludzie, a ile wirtualne tweetomaty albo zweryfikować czy interesujący
nas profil jest rzeczywiście prowadzony przez ciekawą osobę, czy też głupi automat. Program mógłby służyć w celach
czysto rozrywkowych - np. porównywania ludzi między sobą po tym, jak prowadzą swój profil na tweeterze.
Pomysły na rozróżnianie bota od człowieka:
- duża regularność w tweetach: np. konto tweetujące dzień w dzień o 18:52 ma dużą szansę na bycie botem
- analiza błędów ortograficznych w wypowiedziach - częściej takowe popełniają ludzie, niż zaprogramowane automat.
- sprawdzanie prędkości, z jaką użytkownik odpowiada na posty - jak zawsze jest on bardzo krótki, to zwiększa szansę
konta na bycie botem
- duża liczba retweetów zwiększa szansę na to, że użytkownik pisze coś oryginalnego, od siebie, a nie jest zaprogramowanym
botem
- sprawdzanie podstawowych ustawień konta, np. brak zdjęcia, najpopularniejszych danych o sobie zwiększa szanse na
bycie botem
Kryteria oczywiście mogą ulegać drobnym modyfikacjom lub być dodawane w trakcie rozwoju projektu, tak aby zwiększać
efektywność programu.
1