Semantyczne podobieństwo stron internetowych

Transkrypt

Semantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika
Wydział Matematyki i Informatyki
Marcin Lamparski
Nr albumu: 184198
Praca magisterska
na kierunku Informatyka
Semantyczne podobieństwo stron
internetowych
Praca wykonana pod kierunkiem
prof. dra hab. Włodzisława Ducha
w Katedrze Informatyki Stosowanej
TORUŃ 2008
Spis treści
1 Wprowadzenie
1.1 Motywacja . . . . . . . .
1.2 Cel i zakres pracy . . . .
1.3 Struktura . . . . . . . .
1.4 Konwencje typograficzne
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Znajdowanie informacji w sieci
2.1 Wyszukiwarki internetowe . . . . . . .
2.1.1 Robot internetowy . . . . . . .
2.1.2 Indeksowanie . . . . . . . . . .
2.1.3 Ranking . . . . . . . . . . . . .
2.1.4 Wizualizacja wyników . . . . .
2.2 Serwisy społecznościowe . . . . . . . .
2.2.1 Grupy wspólnych zainteresowań
2.3 Eksperymentalne rozwiazania . . . . .
2.3.1 Carrot2 . . . . . . . . . . . . .
2.3.2 Clusty . . . . . . . . . . . . . .
2.3.3 Kartoo . . . . . . . . . . . . . .
2.3.4 Mooter . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Klasteryzacja danych
3.1 Klasteryzacja dokumentów tekstowych . .
3.1.1 Model przestrzeni wektorowej . . .
3.2 Automatyczne przetwarzanie dokumentów
3.2.1 Analiza leksykalna . . . . . . . . .
3.2.2 Stoplista . . . . . . . . . . . . . . .
3.2.3 Stemming . . . . . . . . . . . . . .
3.2.4 Wykrywanie fraz . . . . . . . . . .
3.3 Przegląd metod klasteryzacji . . . . . . . .
4 Semantyczny internet
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
3
3
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
4
4
4
4
4
4
4
4
4
4
.
.
.
.
.
.
.
.
5
5
5
5
5
6
6
6
6
7
1
5 Implementacja
8
Rozdział 1
Wprowadzenie
Tu będzie wstęp. Internet semantyczny jest martwy!
1.1
Motywacja
1.2
Cel i zakres pracy
1.3
Struktura
1.4
Konwencje typograficzne
3
Rozdział 2
Znajdowanie informacji w sieci
2.1
Wyszukiwarki internetowe
2.1.1
Robot internetowy
2.1.2
Indeksowanie
2.1.3
Ranking
2.1.4
Wizualizacja wyników
2.2
2.2.1
2.3
Serwisy społecznościowe
Grupy wspólnych zainteresowań
Eksperymentalne rozwiazania
2.3.1
Carrot2
2.3.2
Clusty
2.3.3
Kartoo
2.3.4
Mooter
4
Rozdział 3
Klasteryzacja danych
Klasteryzacja danych (grupowanie, analiza skupień) jest to...
3.1
3.1.1
3.2
Klasteryzacja dokumentów tekstowych
Model przestrzeni wektorowej
Automatyczne przetwarzanie dokumentów
Wstępne przetwarzanie dokumentów jest bardzo ważnym etapem w procesie wydobywania informacji. Od jego przebiegu zależy nie tylko ilość zredukowanych cech (termów), ale również celność wybranych terminów. Niektóre z przedstawionych w tym rozdziale technik takich jak analiza leksykalna
są koniecznością, natomiast inne, takie jak stemming, są opcjonalne i służą głównie poprawie jakości procesu wyszukiwania. Warto zwrócić uwagę,
iż proces wstępnego przetwarzania jest jedyną częścią, w której znaczenie
odgrywa język przetwarzanego dokumentu.
3.2.1
Analiza leksykalna
Analiza leksykalna jest procesem polegającym na zamianie ciągu znaków
na ciąg tokenów (bloków tekstu). Jakość dokonanej analizy znacząco wpływa na efektywność później zastosowanych algorytmów. Teoretycznie, zadanie
sprowadza się głównie do rozdzielenia tekstu zgodnie z występującymi w nim
znakami białymi i interpunkcyjnymi. Znaki takie jak liczby czy znaki specjalne (przykładowo \, * itp.) z reguły nie wnoszą żadnego znaczenia i mogą zostać usunięte, co więcej, mogą posłużyć jako dodatkowe separatory wyrazów.
5
ROZDZIAŁ 3. KLASTERYZACJA DANYCH
6
Niestety, w praktyce często potrzebujemy dużo bardziej wyrafinowanych metod, gdzie znaki interpunkcyjne pozwolą na rozróżnienie przynależności słów
do konkretnych zdań, a liczby pozostaną ważnymi częściami akronimów (np.
D2H21 ). Techniki używane podczas przetwarzania powinny zostać dobrane
pod kątem rodzaju rozpatrywanego dokumentu.
W przypadku analizy dokumentów sieci World Wide Web, wyrażanych
najczęściej za pomocą języka HTML2 należy zwrócić szczególną uwagę na
konstrukcję dokumentu gdyż jego drzewiasta struktura pozwala na wyróżnienie bardziej reprezentatywnych słów. Wyrazy znajdujące się w tytule strony
oraz tagach <META/> nierzadko są cenniejsze niż te występujące w głównej
części dokumentu - tagu <BODY>[1, Riboni, 2002]. Znaki specjalne HTML
takie jak &nbsp powinny zostać zamienione na ich słowne odpowiedniki i
poddane kolejnym etapom przetwarzania. Ostatecznie wszystkie tagi HTML
muszą zostać usunięte, gdyż nie niosą ze sobą żadnego znaczenia.
3.2.2
Stoplista
3.2.3
Stemming
3.2.4
Wykrywanie fraz
3.3
1
2
Przegląd metod klasteryzacji
Distributed Diagnosis and Home Healthcare
HyperText Markup Language
Rozdział 4
Semantyczny internet
7
Rozdział 5
Implementacja
8
Bibliografia
[1] Daniele Riboni. Feature selection for web page classification, 2002.
9