Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)

Transkrypt

Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)
Wyszukiwanie strukturalne
Wprowadzenie
Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne
Każdy dokument jest opatrzony w opis strukturalny dokumentu (właściwości
indeksu / właściwości pliku / właściwości dokumentu), które są określane
podczas wprowadzania i indeksowania dokumentów.
Przy użyciu funkcji wyszukiwania, dokumenty są wyszukiwane są według danych
indeksowych.
Ponadto, możliwe jest wyszukiwanie dokumentów według całego tekstu.
Poprzez połączenie odpowiednich pozycji wyszukiwania możliwe jest
wyszukiwanie złożone według całego tekstu i danych indeksowych
dokumentu.
Podobieństwo strukturalne
Elementem charakterystycznym dokumentów hipertekstowych,
odróżniającym go od innych rodzajów dokumentów są odsyłacze.
Tworzą one strukturę systemu hipertekstowego.
Łącząc dokumenty, równocześnie niosą ze sobą informacje o związkach
semantycznych pomiędzy dokumentami.
Zakładając, że odsyłacze niosą ze sobą informację o powiązaniach
semantycznych między dokumentami, możemy wykorzystać elementy
struktury do wyznaczenia podobieństwa pomiędzy dokumentami
hipertekstowymi.
Przy wyszukiwaniu informacji w sieci wykorzystać można funkcje
podobieństwa strukturalnego.
Rola odsyłaczy


Odsyłacze pełnią w systemie
hipertekstowym dwie podstawowe role:
reprezentacyjną (ujmując i prezentując
relacje między porcjami informacji w
tekście) oraz nawigacyjną (obejmując
ścieżki poruszania się użytkownika po
systemie).
Nierzadko te dwie role przenikają się
nawzajem, czasem są rozdzielone.
Główne typy odsyłaczy



Semantyczne (znaczeniowe), czyli bazujące na treści,
mające za zadanie wiązać dokumenty mieszczące się
w tej samej lub pokrewnej tematyce.
Organizacyjne, czyli odsyłające, których głównym
celem jest lepsza (szybsza, łatwiejsza) nawigacja po
systemie. W związku z tym, bywają one także
nazywane nawigacyjnymi.
Badania wskazują, że dla hipertekstowego środowiska
WWW z dużym prawdopodobieństwem (ponad 80%)
można automatycznie rozróżnić odsyłacze nawigacyjne
od semantycznych.
Założenia funkcji podobieństwa
strukturalnego




Traktując odsyłacze jako główne źródło informacji o
podobieństwie dokumentów, można opracować funkcję
podobieństwa strukturalnego (odsyłacze tworzą strukturę
systemu hipertekstowego).
Założenia przy wyznaczaniu funkcji podobieństwa
strukturalnego. W funkcji tej będą uwzględniane:
a) Liczba odsyłaczy łączących oba dokumenty (odsyłacze
bezpośrednie).
b) Liczba wszystkich odsyłaczy, które wychodzą z obu
dokumentów. Pozwala to na ważenie odsyłaczy łączących
dokumenty. Waga jest większa wtedy, gdy są to jedyne
odsyłacze występujące w tych dokumentach; mniejsza - gdy są
one jednymi z wielu.



c) Liczba i rodzaj bezpośrednich wspólnych
potomków i przodków (w ramach kolekcji i poza nią).
d) Rodzaj odsyłaczy według podziału na semantyczne
i nawigacyjne przyjmując, że odsyłacze semantyczne
lepiej niż nawigacyjne odzwierciedlają podobieństwo
tematyczne między dokumentami.
Załóżmy także, że zbiorem wartości funkcji
podobieństwa jest przedział [0,1].
Wyszukiwanie strukturalne w
sieci
Sieć i ogrom zawartych w niej informacji stwarza nowe wyzwanie dla
sposobów wyszukiwania informacji.
Wyszukiwanie z użyciem słów kluczowych zapewniło do nich dostęp.
Hiperłącza tworzone przez autorów stron www przedstawiają relacje
pomiędzy źródłowymi a docelowymi stronami co dowodzi istnienia
struktury hiperłączy pomiędzy stronami w Internecie.
Silniki wyszukujące w sieci szukają nie tylko słów kluczowych na stronach
lecz także struktury hiperłączy pomiędzy nimi.
Rezultaty wyszukiwania z użyciem tej struktury wypadają korzystnie w
porównaniu z wyszukiwaniem z użyciem baz słów kluczowych.
Pojęcie




Wyszukiwanie strukturalne w sieci - jest procesem przeszukiwania
sieci w poszukiwaniu specyficznej struktury hiperłączy i połączone z
tekstową analizą zawartości strony.
Niekiedy do odnalezienia dużej ilości potencjalnie relewantnych
stron nie wystarczają jedynie metody działające w oparciu o czysty
tekst.
Ludzie chętnie surfują po sieci używając jej graficznej struktury.
Aktualnie silniki wyszukujące mogą być używane w celu szukania
niektórych słów kluczowych lub ich kombinacji bez narzucania
jakiejkolwiek struktury łącz pomiędzy stronami.

Innymi słowy wyniki uzyskane przez poszczególne silniki mogą być
liczbą trafień z których każde zawiera jedną stronę.





W odniesieniu do wyników wyszukiwania strukturalnego silnik jest
liczbą diagramów hiperłączy gdzie każdy węzeł reprezentuje stronę
zawierającą słowa kluczowe a krawędzie - hiperłącza pomiędzy
stronami.
Silnik zapewnia że te strukturalne trafienia pasują do strukturalnych
zapytań użytkownika.
Przykład:
Rysunek 1 pokazuje proste zapytanie strukturalne w którym
użytkownik szuka strony o temacie ”informatyka” wskazującej na
stronę o temacie „osiągnięcia naukowe”.
Wynik wyszukiwania strukturalnego dla takiego zapytania mógłby
być tym samym grafem lub strukturą hiperłączy którą użytkownik
wprowadził jako dane wejściowe z wyjątkiem tego, że to już zawiera
strony które odpowiadają nie tylko czystemu wyszukiwaniu po
słowach kluczowych w silnikach opartych na tekście ale także
strukturze hiperłączy pomiędzy nimi.
Przykład zapytania
strukturalnego
Informatyka
Osiągnięcia naukowe
Klasteryzacja (clustering)
Związana jest z pojęciem wyszukiwania strukturalnego.
Jest to wyznaczanie podobieństw w zbiorze obiektów.
Znajduje ono zastosowanie w wyszukiwaniu informacji w Internecie.
Silniki wyszukujące oparte o wyszukiwanie słów kluczowych
zwracają tysiące linków lecz bez wyjaśnienia tych rezultatów.
Pojawia się potrzeba jakiegoś usystematyzowania tych wyników.
Search Results Clustering ( SRC )– to efektywna identyfikacja
znaczących, tematycznych grup dokumentów w wynikach wyszukiwania
oraz ich zwięzła prezentacja.
Przykład
Przebieg działania SRC
Dane wejściowe:
N linków do dokumentów ( wyniki wyszukiwania ) (0<N<~400),
każdy zestawiony z URL, opcjonalnym tytułem i fragmentem.
Założenia:
Istnieje logiczna struktura tematyczna w zestawie wyników.
Dane wyjściowe:
Zbiór klastrów ( grup, skupień ) reprezentujących tematy
zorganizowanych w hierarchiczną strukturę, częściowo zachodzącą
na siebie.
Algorytm:
Istnieje kilka algorytmów, np. STC (Suffix Tree Clustering), SHOC
(Semantic, hierarchical, online clustering), oraz komercyjne
Vivisimo, Infonetware i Excavio.
Carrot

Projekt, którego celem jest implementacja i weryfikacja
przydatności STC do języka polskiego.
Carrot - wnioski



STC słabo radzi sobie z polskimi tekstami.
Szczególnie trudno zdefiniować wartości
progowe.
Wciąż jednak rezultaty systemu są
obiecujące.
Model przestrzeni wektorowej w
wyszukiwaniu informacji







Model przestrzeni wektorowej oparty jest o założenia
algebry liniowej i przedstawia dokumenty i zapytania
jako wektory liczb zawierające wartości odpowiadające
wystąpieniom słów ( zwanych termami ) w
poszczególnych dokumentach.
Niech t będzie wielkością zbioru termów a n – wielkością
zbioru dokumentów.
Zarówno zapytanie Q jak i wszystkie dokumenty Di, i =
1..n można przedstawić jako t – wymiarowe wektory.
Di = [ai1, ai2, ..., ait] Q = [aq1, aq2, ..., aqt] gdzie
współczynniki aik i aqk reprezentują wartości termu k w
dokumencie Di lub odpowiednio zapytania Q.
Zatem zarówno dokumenty i termy tworzą macierz termdokument A(n×t).
Wiersze macierzy reprezentują dokumenty a kolumny –
także zwane termami wektory.
Załóżmy że pozycja aik jest zbiór równy 1, gdy term k
pojawia się w dokumencie i 0 gdy nie pojawia się w
nim.
Przykład:

Dla zbioru dokumentów odpowiadający zapytaniu "king" możemy
stworzyć macierz term-dokument matrix
 Zbiór dokumentów:
.






D1: The King University College
D2: King College Site Contents
D3: University of King College
D4: King County Bar Association
D5: King County Government Seattle Washington
D6: Martin Luther King

Zbiór termów:
The, King, University, College, Site, Contents, of, County,
Bar, Association, Government, Seattle, Washington, Martin,
Luther

Łatwo zauważyć że dokumenty odpowiadające podobnym tematom
powinny mieć podobne wartości na tych samych pozycjach
wektorów.
Słabe i mocne strony modelu:

Zalety:

Po przekształceniu dokumentów na wektory można łatwo
przeprowadzić operacje matematyczne na nich używając metod
algebry liniowej.
Proste, wydajne struktury danych mogą być używane do ich
gromadzenia.


Wady:

Brak informacji zawartych w strukturze dokumentów.
Pokrewne prace badawcze


Wiele badań podąża w kierunku wyszukiwania opartego o bazy słów
kluczowych a strukturze hiperłączy poświęca się stosunkowo
niewiele uwagi. Podczas gdy wiele engine'ów wyszukujących
wykorzystuje ją do pozycjonowania stron to sama w sobie nie jest
przedmiotem badań. Przykładem może być engin wyszukujący
Google. Page Rank jest dobrym sposobem porządkowania wyników
wyszukiwania opartego o słowa kluczowe.
Oprócz PageRank Google posiada kilka innych możliwości.
1. Posiada informacje o miejscu dla wszystkich trafień co tworzy szerokie
pole zastosowania w wyszukiwaniu bliskości dokumentów.
2. Ponadto, Google pamięta ścieżki niektórych wizualnych szczegółów
prezentacji tj. rozmiar czcionki słów.
3. Pełny otwarty HTML stron jest dostępny w repozytorium.




Kolejnym podejściem zastosowania struktury hiperłączy
do pozycjonowania stron jest identyfikacja
wiarygodnych stron.
Celem jest zebranie listy źródeł w sieci uznawanych za
najbardziej wiarygodne i dobrze oddające tematykę.
Najpierw takie listy były tworzone ręcznie lub poprzez
prace zarówno automatu jak i człowieka.
Obecnie ARC Computer Science Scholarships system
automatycznie zestawia listę wiarygodnych sieciowych
źródeł na każdy odpowiednio szeroki temat. Ta technika
jest zawarta w enginie wyszukującym Clever
znajdującym węzły oraz strony wiarygodne.
Dobry węzeł zawiera wiele hiperłączy do wartościowych
stron podczas gdy dobra wiarygodność posiada wiele
linków z dobrych stron-węzłów.
WebSUBDUE




Oglądanie struktury hiperłączy pod postacią grafów jest dobrym
sposobem do poprawienia wyników wyszukiwania enginów
wyszukujących.
Połączenie słów kluczowych i struktury hiperłączy stało się główną
ideą ostatnich badań nad wyszukiwaniem w sieci tj. WebSUBDUE.
WebSUBDUE jest narzędziem, które wyszukuje miejsca
korespondujące ze strukturą ukształtowana jako zapytania
użytkownika oparte na grafie.
WebSUBDUE jest umocniony przez system odnajdywania wiedzy
zwany SUBDUE, który m.in. odnajduje wzorce w danych
strukturalnych.
Autorzy projektu: Nitish Manocha, Diane J. Cook, Lawrence
B. Holder - University of Texas at Arlington
[email protected]
http://www-cse.uta.edu/~cook




Odnajduje wzorce strukturalne w grafie
wejściowym.
Substruktura jest połączona z subgrafem.
Wystąpienie substruktury jest subgrafem
izomorficznym z opisem substruktury.
Wejściowa baza
danych
Substructura S1
(graf)
T1
shape
C1
S1
triangle
Skompresowana baza danych
object
R1
on
T2
T3
T4
S2
S3
S4
shape
object
square
C1
S1
R1
S1
S1
S1
SUBDUE - algorytm
•
•
•
•
•
Zacznij z pojedynczego wierzchołka.
Zatrzymaj w zapytaniu jedynie najlepsze substruktury.
Rozwiń substrukturę dodając krawędź/wierzchołek.
Skompresuj graf i powtórz generowanie hierarchicznego opisu.
Opcjonalnie wykorzystuj dalsza wiedzę.
Reprezentacja sieci za pomocą grafu

Określ zakres domen do wygenerowania grafu

Węzły reprezentują strony / dokumenty

Krawędzie reprezentują hiperłącza

Dodatkowe węzły reprezentują słowa kluczowe dokumentów
subdu
e
texas
university
word
projects
word
work
hyperlink
page
page
parallel
group
learning
robotics
planning
Wyszukiwanie strukturalne w sieci
WebSUBDUE


Sformułuj zapytanie jako graf
Użyj opcji predefiniowanej substruktury Subdue aby
wyszukać wystąpienia zapytania.
Instructor
http
Teaching
Robotics
http
Research
Robotics
Postscript
| PDF
Publicatio
n
Robotics
Zapytanie: Znajdź wszystkie strony posiadające link
do strony zawierającej termin ‘Subdue’
Subdue
word
page
hyperlink
page
Wierzchołki subgrafu:
1 page
URL: http://cygnus.uta.edu
7 page
URL: http://cygnus.uta.edu/projects.html
7 Subdue
[1->7] hyperlink
[7->8] word
/* Vertex ID Label */
/* Edge Vertex 1 Vertex 2 Label */
s
v 1 page
v 2 page
v 3 Subdue
d 1 2 hyperlink
d 2 3 word
Wyszukiwanie stron prezentujących określoną treść


AltaVista
zapytanie “host:www-cse.uta.edu AND image:next_motif.gif AND
image:up_motif.gif AND image:previous_motif.gif.”
page
hyperlink
hyperlink
hyperlink
page
page
hyperlink
page
hyperlink
Wyszukiwanie stron z odnośnikami


Znajdź strony zawierające przynajmniej 35 linków

WebSubdue znalazł 5 stron na www-cse
AltaVista nie może przeprowadzić tego typu wyszukiwania
page
hyperlink
hyperlink
hyperlink
page
page
…
page
Wyszukiwanie stron o ‘zawodach w informatyce'



Nieprecyzyjny odpowiednik: zezwalaj na jeden poziom synonimów
WebSubdue znalazł 33 odpowiedniki

Słowa uwzględnione zatrudnienie, praca, zawód, problem,
zadanie
AltaVista znalazła 2 odpowiedniki
page
word
jobs
word
word
computer
science
Wyszukiwanie wiarygodnych stron i wiarygodnych węzłów


WebSubdue znalazł 3 węzły ( oraz 3 wiarygodne) strony
AltaVista nie może przeprowadzić tego typu wyszukiwania
Węzły
page
page
page
page
page
page
hyperlink
Wiarygodne źródła
word
word
algorithms
algorithms
word
algorithms
Structural Web Search Engine
(SWSE)




Kolejnym engine'm opartym na wyszukiwaniu strukturalnym jest
Structural Web Search Engine (SWSE) w którym aby wyszukać i
znaleźć hierarchiczną strukturę przedstawiona przez użytkownika,
nie jest potrzebne narzędzie typu data mining.
Nie ma wiec potrzeby przygotowywania danych. SWSE korzysta z
faktu że sieć jest przeglądana ( crawled ) przez potężny szperacz
sieciowy ( web crawler ) oparty na engin'ie wyszukującym słowa
kluczowe takim jak Google.
SWSE wyszukuje jedynie strony które wymagają przejrzenia przez
crawler, to jest strony które posiadają już słowa kluczowe
interesujące użytkownika. Wyszukuje on strukturę hiperłączy
podaną przez użytkownika pomiędzy poszukiwanymi stronami..
Strony te nie musza być jakąkolwiek specyficzna domeną. SWSE
używa podejścia klient-server i może być używany online jak każdy
inny engin oparty o słowa kluczowe.
Structural Web Search - interfejs
SWSE jest zaimplementowany w Javie i wykonywany jako aplikacja
klient-serwer w sieci SWSE jest dostępny pod adresem URL:
http://ailab.uta.edu:8080/SWSE/Interface.html.
SWSE - działanie
Edytor jest apletem Javy działającym na maszynie klienta.
Całe zapytanie przedstawione jako graf na maszynie klienta jest
przesyłane do serwera jako obiekt.
Program Java nasłuchuje zapytań użytkownika na serwerze i odpowiada z
powrotem do klienta z wynikiem wyszukiwania.
Wyniki te mają te samą strukturę hiperłączy jak zapytanie przedstawione
przez użytkownika z wyjątkiem tego że zawiera strony
odpowiadające nie tylko słowom kluczowym wyszukiwanym w
każdym węźle ale także strukturze hiperłączy pomiędzy tymi
stronami.
SWSE – algorytm serwera





W momencie kiedy serwer uzyska graf, dla każdego
węzła w grafie wysyła właściwy ciąg zapytań zawierający
słowa kluczowe w węźle do engine'u wyszukującego.
W odpowiedzi otrzymuje strony HTML zawierające
trafienia zwrócone przez engine wyszukujący bazujący na
słowach kluczowych jak np. Google.
Program analizuje syntaktykę stron HTML i wynajduje
wszelkie trafienia.
Następnie w każdym węźle mamy liczbę adresów URL z
których każdy zawiera słowa kluczowe wyszczególnione
w węźle.
Serwer próbuje znaleźć te adresy URL, które
odpowiadają strukturze narzuconej w zapytaniu.
Prezentacja zapytania
W celu zaprojektowania strukturalnego engine'u wyszukującego w sieci
potrzebujemy zapytania w formie grafu, zatem pożądana struktura
hiperłączy może być narzucona przez użytkownika.
Węzły grafu wskazują strony a krawędzie pomiędzy węzłami są linkami
pomiędzy nimi.
Rozwijany jest prototyp interfejsu gdzie użytkownik może nakreślić
swoją pożądana strukturę opartą na grafie w przyjaznym edytorze i
wyszczególnić słowa kluczowe dla każdej strony poprzez wstawienie
każdego słowa kluczowego do węzłów grafu.
Zakłada się ze linki są pomiędzy dwoma różnymi węzłami ( brak linków
do samych siebie ). Redukuje to złożoność algorytmu – eliminuje
linki nawigacyjne stron.
Wydobywanie trafień słów kluczowych
Każdy engine wyszukujący w sieci oparty na tekście może być
wykorzystany do przeczesywania sieci pod katem słów kluczowych i
wyciągać te pasujące.
SWSE korzysta z Google z powodu adekwatności jego rezultatów.
Po to aby uzyskać strony zawierające słowa kluczowe jest konieczna
analiza syntaktyczna stron zwrócona przez Google.
Dostosowany do potrzeb użytkownika engin wyszukujący Google był
przydatny aby ułatwić fazę analizy syntaktycznej, lecz brak sposobu
aby bezpośrednio wysłać ciąg zapytania na serwer i otrzymać rezultat
z powrotem. Konieczny jest proces automatyzacji wydobywania
trafień.
Wersja Yahoo enginu Google udostępnia taką funkcję.
Słowa kluczowe zagnieżdżone w węzłach zapytania są automatycznie
wysyłane na bazujący na tekście engine Google poprzez odpowiedni
ciąg zapytań, i wynikowa strona jest podawana analizie syntaktycznej
aby wydobyć strony zawierające słowa kluczowe.
W oparciu o to podejście użytkownik może wstawić jakiekolwiek słowo
kluczowe akceptowalne przez Google search engine.
To podejście ogranicza wynik liczby trafień które możemy uzyskać z
wersji Yahoo enginu Google, który to jest zwykle mniejszy niż
wszystkie trafienia które może znaleźć engine Google.
Ta liczba trafień jest zadowalająca ponieważ użytkownicy zwykle surfują
po najbardziej początkowych trafieniach zwróconych przez engine,
lecz dokonuje się analizy syntaktycznej i wybiera tak wiele trafień ile
dostarczy Google search engine.
Z takim podejściem możemy zakładać że jeśli użytkownik nie może
znaleźć żadnego wyniku zwróconego przez SWSE, to jest więcej niż
prawdopodobne, że nie może znaleźć żadnego trafienia lub
relewantnego trafienia używając engine’u opartego na słowach
kluczowych jak Google, nawet jeśli surfuje przez wszystkie
zwrócone trafienia.
Wyszukiwanie struktury hiperłączy
Następnie potrzebujemy odnaleźć specyficzna strukturę
narzucona przez użytkownika pomiędzy stronami
wyciągniętymi z wyszukiwania opartego o słowa
kluczowe.
Przykład: w zapytaniu link z węzła posiada ”Informatyka”
jako słowo kluczowe do innego węzła posiadającego
”Osiągnięcia naukowe” .
Musimy wyciągnąć wszystkie linki w trafieniach
wyszukanych z pierwszego, aby zobaczyć czy jest takie
hiperłącze do wyszukanego trafienia z drugiego węzła.
Przebiega to zgodnie z przedstawionym wcześniej
algorytmem.
Ranking wyników
W obecnej wersji aplikacji wszystkie wyniki są traktowane tak samo –
oznacza to że nie ma wprowadzonego rankingu.
Powodem jest to ze strony zwracane przez Google search engine maja
słowa kluczowe których szuka użytkownik oraz struktura powinna
ściśle pasować do struktury zapytania; z drugiej strony to nie jest
właściwym trafieniem naszego wyszukiwania.
Innym powodem jest to, że użytkownik już wyznaczył węzły przez
wstawienie w nie niektórych słów i nie możemy założyć żadnych
kryteriów sortowania.
Jeden zasięg mógłby spowodować nieścisłość z grafem zapytania, który
mógłby wymagać użycia algorytmu izomorficznego. Poziom
zgodności może być użyty do pozycjonowania rezultatów.
Rozszerzeniem tej aplikacji może być wykorzystanie WordNet,
elektronicznej bazy danych – leksykonu. Wówczas możemy ustalić
ranking wyników oparty o kryteria podobieństwa dla słów
kluczowych pasujących do zapytania.
Wyniki empiryczne
Od wprowadzenia wyszukiwania strukturalnego nie można porównać
wyników SWSE z podobnym enginem wyszukującym.
Aby ocenić możliwości SWSE, porównuje się wyniki zapytania SWSE z
rezultatami wyszukiwania wygenerowanymi z użyciem trzech
popularnych bazujących na słowach kluczowych enginów: Google,
Altavista i Infoseek.
Zaawansowane wyszukiwanie Google wykorzystuje użycie struktury
linków sieci aby ocenić ranking jakości dla każdej strony w sieci i
wykorzystać je do usprawnienia wyników wyszukiwania.
To zapewnia cenny punkt odniesienia dla rezultatów odnalezionych przez
SWSE.
Zapytanie przykładowe: szukamy konkretnej informacji o “Alfredzie
Noblu”. Kładł on nacisk na rozwój wynalazków chemicznych,
surowców tj. sztuczny kauczuk, sztuczna skóra, sztuczny jedwab.
Został bogaty i zakupił posiadłość przy alei Malakoff. Utrzymywał
kontakty z Victorem Hugo i innymi pisarzami. W międzyczasie jego
bracia przystąpili do poszukiwania złóż ropy na Morzu Kaspijskim.
Zapytanie może wyglądać następująco:



Naszym celem jest znalezienie grupy adresów URL związanych z ludźmi i
miejscami opisanymi wyżej. Podajemy SWSE zapytanie w postaci rysunku
z poprzedniego slajdu.
Strzałka w obydwu kierunkach wskazuje ograniczenie tych linków
istniejące w obu kierunkach.
Wyniki przedstawia poniższa tabela:
Pierwsza kolumna tabeli przedstawia słowo kluczowe wstawione w
każdym węźle.
Po uruchomieniu SWSE na przedstawionym zapytaniu adresy URL stron
w sieci które odpowiadają słowom kluczowym i strukturze hiperłączy
przedstawionego zapytania są przedstawione w drugiej kolumnie
tabeli.
Wprowadzamy słowa kluczowe w zapytaniu(“Alfred
Nobel Sztuczny jedwab Victor Hugo Złoża ropy na Morzu kaspijskim”)
do wszystkich trzech engine’ów opartych o słowa kluczowe i nie
otrzymujemy żadnych rezultatów.
W niektórych przypadkach nawet gdy usuniemy niektóre słowa kluczowe
np. złoża, wciąż nie uzyskamy żadnych wyników albo uzyskamy
wyniki nierelewantne do zadanego tematu.
Przykładowo kiedy postawimy inne zapytanie ( te same słowa kluczowe
bez “Malakoff” i “Złoża ropy”) do engine’u Google otrzymamy 35
trafień, lecz żadne z nich nie zawiera któregokolwiek z URL
odpowiadających zapytaniu strukturalnemu.
Inne doświadczenie przeprowadzono w celu
wyszukania wyników wyszukiwania
opartego o bazujący na słowach
kluczowych engine dla słów kluczowych w
każdym węźle oddzielnie.
Wyniki tego przedstawia tabela pod
kolumnami “Google”, “Altavista” i
“Infoseek”.
Liczba reprezentuje pozycję URL z drugiej
kolumny w zwróconych trafieniach przez
engine wyszukujący (N/A oznacza że URL
nie był na zwróconej liście).

Wynik tego eksperymentu wskazuje
możliwość strukturalnych engine’ów
wyszukujących szybszego odnajdywania
trafień posiadających poszukiwane relacje
pomiędzy interesującymi tematami.
Podsumowanie



Internauci czują się zagubieni w cyberprzestrzeni
gdy utrącą kontekst w którym szukają informacji
i nie są pewni jak postępować aby odnaleźć
odpowiednie strony. Strukturalne wyszukiwanie
w sieci uwzględnia ten problem.
Rozwijany jest engine w którym użytkownik
może wpaść na trop danej informacji w
odpowiedzi na pojedyncze zapytanie
SWSE poprawia efektywność surfowania po sieci
- sprawia że jest bardziej precyzyjne niż engin’y
oparte na słowach kluczowych i ręcznej
nawigacji stron internetowych.
Większość metod wyszukiwania skupia się w jakimś stopniu
na użyciu danych z hiperłączy aby usprawnić
wyszukiwanie w sieci.
Pomimo, że te systemy używają struktury hiperłączy do
tworzenia rankingu wyszukanych nie wykonują
wyszukiwania strukturalnego.
W odróżnieniu SWSE prowadzi wyszukiwanie aby odnaleźć
zapytania strukturalne połączone z kontekstem
tekstowym.
Wyniki empiryczne ukazują przewagę takiego podejścia nad
tradycyjnym bazującym na słowach kluczowych enginie
wyszukującym, kiedy użytkownik jest zainteresowany
zarówno strukturą hiperłączy strony internetowej jak i
słowami kluczowymi zagnieżdżonymi w tych stronach.
Zaprezentowane wyniki wskazują kilka kierunków badań na
polu poszukiwań struktury hiperłączy z użyciem struktury
grafu.
Zamierzeniem na przyszłość jest zezwolenie użytkownikowi
na dodawanie słów kluczowych do krawędzi grafu w celu
ograniczenia tekstu zakotwiczonego w hiperłączu oraz
przez użycie nieprecyzyjnego grafu do odnajdywania
bliskich odpowiedników i tworzenia rankingu
odpowiedników na podstawie stopnia bliskości.

Podobne dokumenty