P2PDocTagger: Content management through automated P2P

Transkrypt

P2PDocTagger: Content management through automated P2P
P2PDocTagger: Content management through
automated
P2P collaborative tagging
Hock Hee Ang
Vivekanand Gopalkrishnan
Wee Keong Ng
Steven C.H. Hoi
Nanyang Technological University, Singapore
Patrycja Suchomska
1
Opis problemu
●
dokumenty
●
dokumenty
●
… jeszcze więcej dokumentów
2
Dostępne rozwiązania
●
Windows Search, Google Desktop
●
ręczna organizacja
●
tagi
3
Tagi
Plusy:
●
intuicyjna
organizacja
Rozwiązanie:
●
collaborative tagging
Minusy:
●
żmudne
4
Collaborative tagging
●
Data mining, metody statystyczne
●
Rozwiązania zwykle scentralizowane
●
Skalowalność?
●
Przerwy w działaniu serwera?
●
Prywatność?
●
Bezpieczeństwo?
5
P2PDocTagger
●
Automatyzacja
●
Rozproszenie
●
Współpraca
●
Ochrona prywatności
●
Wydajność
●
Skalowalność
6
P2PDocTagger
7
Document preprocessing
●
a, for, and, not, itp
●
normalizacja słów
●
●
T
dokument d = {w1, … ,wm}
NIE przechowujemy informacji o
kolejności słów
8
Automated P2P collaborative
tagging
●
●
●
●
Nauka z nauczycielem – SVM (Support
Vector Machine)
Potrzebna duża ilość otagowanych
dokumentów
Sieci P2P zawierają dużą ilość
użytkowników p1, …, pN
Zamiast D mamy D1, …, DN
9
Automated P2P collaborative
tagging
●
Powszechne w opracowaniach: problem
klasyfikacji Single-label
●
Stan faktyczny: multi-label
●
-> wiele problemów single-label
10
P2P classification
●
Sieci neuronowe (kaskadowy SVM)
●
Peer → super peer
●
Prywatność i bezpieczeństwo
11
W praktyce
P2P Data Mining Simulation Toolkit
●
●
●
Testy na danych z delicious.com
20% pobranych dokumentów – próbka
ucząca
Pozostałe 80% - próbka testowa
12
Dziękuję za uwagę
13