P2PDocTagger: Content management through automated P2P
Transkrypt
P2PDocTagger: Content management through automated P2P
P2PDocTagger: Content management through automated P2P collaborative tagging Hock Hee Ang Vivekanand Gopalkrishnan Wee Keong Ng Steven C.H. Hoi Nanyang Technological University, Singapore Patrycja Suchomska 1 Opis problemu ● dokumenty ● dokumenty ● … jeszcze więcej dokumentów 2 Dostępne rozwiązania ● Windows Search, Google Desktop ● ręczna organizacja ● tagi 3 Tagi Plusy: ● intuicyjna organizacja Rozwiązanie: ● collaborative tagging Minusy: ● żmudne 4 Collaborative tagging ● Data mining, metody statystyczne ● Rozwiązania zwykle scentralizowane ● Skalowalność? ● Przerwy w działaniu serwera? ● Prywatność? ● Bezpieczeństwo? 5 P2PDocTagger ● Automatyzacja ● Rozproszenie ● Współpraca ● Ochrona prywatności ● Wydajność ● Skalowalność 6 P2PDocTagger 7 Document preprocessing ● a, for, and, not, itp ● normalizacja słów ● ● T dokument d = {w1, … ,wm} NIE przechowujemy informacji o kolejności słów 8 Automated P2P collaborative tagging ● ● ● ● Nauka z nauczycielem – SVM (Support Vector Machine) Potrzebna duża ilość otagowanych dokumentów Sieci P2P zawierają dużą ilość użytkowników p1, …, pN Zamiast D mamy D1, …, DN 9 Automated P2P collaborative tagging ● Powszechne w opracowaniach: problem klasyfikacji Single-label ● Stan faktyczny: multi-label ● -> wiele problemów single-label 10 P2P classification ● Sieci neuronowe (kaskadowy SVM) ● Peer → super peer ● Prywatność i bezpieczeństwo 11 W praktyce P2P Data Mining Simulation Toolkit ● ● ● Testy na danych z delicious.com 20% pobranych dokumentów – próbka ucząca Pozostałe 80% - próbka testowa 12 Dziękuję za uwagę 13