Krzysztof Kiewicz kk337182 Projekt aplikacji zaliczeniowej ”Bot or
Transkrypt
Krzysztof Kiewicz kk337182 Projekt aplikacji zaliczeniowej ”Bot or
Krzysztof Kiewicz kk337182 Projekt aplikacji zaliczeniowej ”Bot or Not?” na Bazy Danych Rodzaj strategii: Weryfikacja tożsamości internetowej, ostatni z listy proponowanych. Opis: Znaczna liczba kont zarejestrowanych na Twitterze to tweetomaty; w tym projekcie chodziłoby o identyfikowanie na podstawie postów, czy mamy do czynienia z tweetomatem, czy z żywą osobą. W ramach projektu muszą zostać sformułowane i zaprogramowane kryteria klasyfikowania ludzi i tweetomatów, a także musi zostać stworzona baza osobowości twitterowych, która będzie użyta do zweryfikowania skuteczności algorytmu klasyfikującego. Schemat działania: Aplikacja ”Bot or not?” tworzyłaby bazę postów wybranej przez użytkownika osoby i na podstawie zaimplementowanych różnych kryteriów odróżniania ludzi od botów stwierdzała czy konto prowadzone jest przez człowieka, czy automat. Użytkownik mógłby wybrać czy chce, aby wynikiem byłaby tylko prosta odpowiedź ’bot’ lub ’człowiek’, czy woli dokładniejszą analizę pod względem zaimplementowanych kryteriów, czy też odpowiedź niejednoznaczną, ale mówiącą, jaka jest szansa, że konto prowadzi bot. Zastosowania: Program służyłby głównie do celów informacyjno-analitycznych. Możnaby dzięki niemu analizować np. strukturę followerów danego profilu - ile procent z nich to rzeczywiści ludzie, a ile wirtualne tweetomaty albo zweryfikować czy interesujący nas profil jest rzeczywiście prowadzony przez ciekawą osobę, czy też głupi automat. Program mógłby służyć w celach czysto rozrywkowych - np. porównywania ludzi między sobą po tym, jak prowadzą swój profil na tweeterze. Pomysły na rozróżnianie bota od człowieka: - duża regularność w tweetach: np. konto tweetujące dzień w dzień o 18:52 ma dużą szansę na bycie botem - analiza błędów ortograficznych w wypowiedziach - częściej takowe popełniają ludzie, niż zaprogramowane automat. - sprawdzanie prędkości, z jaką użytkownik odpowiada na posty - jak zawsze jest on bardzo krótki, to zwiększa szansę konta na bycie botem - duża liczba retweetów zwiększa szansę na to, że użytkownik pisze coś oryginalnego, od siebie, a nie jest zaprogramowanym botem - sprawdzanie podstawowych ustawień konta, np. brak zdjęcia, najpopularniejszych danych o sobie zwiększa szanse na bycie botem Kryteria oczywiście mogą ulegać drobnym modyfikacjom lub być dodawane w trakcie rozwoju projektu, tak aby zwiększać efektywność programu. 1