Semantyczne podobieństwo stron internetowych
Transkrypt
Semantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana pod kierunkiem prof. dra hab. Włodzisława Ducha w Katedrze Informatyki Stosowanej TORUŃ 2008 Spis treści 1 Wprowadzenie 1.1 Motywacja . . . . . . . . 1.2 Cel i zakres pracy . . . . 1.3 Struktura . . . . . . . . 1.4 Konwencje typograficzne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Znajdowanie informacji w sieci 2.1 Wyszukiwarki internetowe . . . . . . . 2.1.1 Robot internetowy . . . . . . . 2.1.2 Indeksowanie . . . . . . . . . . 2.1.3 Ranking . . . . . . . . . . . . . 2.1.4 Wizualizacja wyników . . . . . 2.2 Serwisy społecznościowe . . . . . . . . 2.2.1 Grupy wspólnych zainteresowań 2.3 Eksperymentalne rozwiazania . . . . . 2.3.1 Carrot2 . . . . . . . . . . . . . 2.3.2 Clusty . . . . . . . . . . . . . . 2.3.3 Kartoo . . . . . . . . . . . . . . 2.3.4 Mooter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Klasteryzacja danych 3.1 Klasteryzacja dokumentów tekstowych . . 3.1.1 Model przestrzeni wektorowej . . . 3.2 Automatyczne przetwarzanie dokumentów 3.2.1 Analiza leksykalna . . . . . . . . . 3.2.2 Stoplista . . . . . . . . . . . . . . . 3.2.3 Stemming . . . . . . . . . . . . . . 3.2.4 Wykrywanie fraz . . . . . . . . . . 3.3 Przegląd metod klasteryzacji . . . . . . . . 4 Semantyczny internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 3 3 . . . . . . . . . . . . 4 4 4 4 4 4 4 4 4 4 4 4 4 . . . . . . . . 5 5 5 5 5 6 6 6 6 7 1 5 Implementacja 8 Rozdział 1 Wprowadzenie Tu będzie wstęp. Internet semantyczny jest martwy! 1.1 Motywacja 1.2 Cel i zakres pracy 1.3 Struktura 1.4 Konwencje typograficzne 3 Rozdział 2 Znajdowanie informacji w sieci 2.1 Wyszukiwarki internetowe 2.1.1 Robot internetowy 2.1.2 Indeksowanie 2.1.3 Ranking 2.1.4 Wizualizacja wyników 2.2 2.2.1 2.3 Serwisy społecznościowe Grupy wspólnych zainteresowań Eksperymentalne rozwiazania 2.3.1 Carrot2 2.3.2 Clusty 2.3.3 Kartoo 2.3.4 Mooter 4 Rozdział 3 Klasteryzacja danych Klasteryzacja danych (grupowanie, analiza skupień) jest to... 3.1 3.1.1 3.2 Klasteryzacja dokumentów tekstowych Model przestrzeni wektorowej Automatyczne przetwarzanie dokumentów Wstępne przetwarzanie dokumentów jest bardzo ważnym etapem w procesie wydobywania informacji. Od jego przebiegu zależy nie tylko ilość zredukowanych cech (termów), ale również celność wybranych terminów. Niektóre z przedstawionych w tym rozdziale technik takich jak analiza leksykalna są koniecznością, natomiast inne, takie jak stemming, są opcjonalne i służą głównie poprawie jakości procesu wyszukiwania. Warto zwrócić uwagę, iż proces wstępnego przetwarzania jest jedyną częścią, w której znaczenie odgrywa język przetwarzanego dokumentu. 3.2.1 Analiza leksykalna Analiza leksykalna jest procesem polegającym na zamianie ciągu znaków na ciąg tokenów (bloków tekstu). Jakość dokonanej analizy znacząco wpływa na efektywność później zastosowanych algorytmów. Teoretycznie, zadanie sprowadza się głównie do rozdzielenia tekstu zgodnie z występującymi w nim znakami białymi i interpunkcyjnymi. Znaki takie jak liczby czy znaki specjalne (przykładowo \, * itp.) z reguły nie wnoszą żadnego znaczenia i mogą zostać usunięte, co więcej, mogą posłużyć jako dodatkowe separatory wyrazów. 5 ROZDZIAŁ 3. KLASTERYZACJA DANYCH 6 Niestety, w praktyce często potrzebujemy dużo bardziej wyrafinowanych metod, gdzie znaki interpunkcyjne pozwolą na rozróżnienie przynależności słów do konkretnych zdań, a liczby pozostaną ważnymi częściami akronimów (np. D2H21 ). Techniki używane podczas przetwarzania powinny zostać dobrane pod kątem rodzaju rozpatrywanego dokumentu. W przypadku analizy dokumentów sieci World Wide Web, wyrażanych najczęściej za pomocą języka HTML2 należy zwrócić szczególną uwagę na konstrukcję dokumentu gdyż jego drzewiasta struktura pozwala na wyróżnienie bardziej reprezentatywnych słów. Wyrazy znajdujące się w tytule strony oraz tagach <META/> nierzadko są cenniejsze niż te występujące w głównej części dokumentu - tagu <BODY>[1, Riboni, 2002]. Znaki specjalne HTML takie jak   powinny zostać zamienione na ich słowne odpowiedniki i poddane kolejnym etapom przetwarzania. Ostatecznie wszystkie tagi HTML muszą zostać usunięte, gdyż nie niosą ze sobą żadnego znaczenia. 3.2.2 Stoplista 3.2.3 Stemming 3.2.4 Wykrywanie fraz 3.3 1 2 Przegląd metod klasteryzacji Distributed Diagnosis and Home Healthcare HyperText Markup Language Rozdział 4 Semantyczny internet 7 Rozdział 5 Implementacja 8 Bibliografia [1] Daniele Riboni. Feature selection for web page classification, 2002. 9