efekt docelowy - Katedra Informatyki > Home

Transkrypt

Joanna Papińska-Kacperek
Katedra Informatyki UŁ
Wyszukiwanie
informacji w Internecie
Materiały
dydaktyczne
dla studentów I roku
Łódź 2012
Wyszukiwanie informacji w Internecie
Najczęściej wymienianą usługą internetową, z której korzystają internauci
jest zwykle WWW czyli World Wide Web, stworzone przez Timothy BernersaLee w 1990 roku na potrzeby badaczy CERN. Dzięki niemu, uŜytkownikami
Internetu są dziś nie tylko naukowcy i studenci, jak było w pierwszym okresie
działalności ARPANETu, ale takŜe zwykli ludzie, i dlatego tworzeniem stron
internetowych zainteresował się biznes i administracja.
W Internecie jest wiele cennych i potrzebnych informacji, ale z powodu
ogromnej liczby stron WWW nie sposób jest znaleźć czegokolwiek bez uŜycia
wyszukiwarki lub katalogu. Pojawiło się zatem zapotrzebowanie na wymienione
narzędzia oraz na budowanie strategii pozycjonowania stron, szczególnie
komercyjnych, czyli zapewnienia wysokiej pozycji w wynikach wyszukiwarek
i katalogów. Ostatnio jednak nawet uŜywanie takich narzędzi nie przyspiesza
procesu efektywnego wyszukiwania w tak istotny sposób jak kiedyś. Dzieje się
to z powodu istnienia oprócz wartościowych, takŜe niezbyt polecanych stron,
stworzonych np. przez lub dla zwolenników zabronionych poglądów jak
faszyzm, wyznawców sekt, czy aprobujących groźne dla zdrowia choroby jak
anoreksja, a takŜe z powodu istnienia stron tworzonych nie dla ludzi, a dla
robotów wyszukiwarek internetowych (czyli tworzonych tylko i wyłącznie w
celu promocji innej strony w wyszukiwarce). Według badań Bluerank w 2008
roku aŜ 30% respondentów nie było w pełni usatysfakcjonowanych wynikami
wyszukiwania najpopularniejszej wyszukiwarki Google. Coraz częściej zatem to
nie tylko chęć zaoszczędzenia czasu skłania nas do uŜycia Google lub innego
serwisu, ale w ogóle konieczność szukania informacji np. o produktach
i usługach. Wtedy waŜna jest takŜe moŜliwość zobaczenia w wyszukiwarce
zdjęć produktów, czy budynku firmy, moŜliwość znalezienia drogi dojazdu itp.
UŜytkownicy musza się jednak liczyć z tym, Ŝe prawdopodobnie spędzą na
wyszukiwaniu trochę czasu - bo nie wszystkie pokazane w wynikach odnośniki
poprowadzą na stronę, która w wyczerpujący sposób spełni ich oczekiwania,
czyli znajdą na niej odpowiedź na swoje zapytanie. Z tego powodu w wielu
Opracowanie dr inŜ. Joanna Papińska-Kacperek
2
biznesowych przedsięwzięciach zatrudniani są profesjonalni brokerzy informacji
czyli infobrokerzy, którzy na zlecenie wyszukują potrzebne dane. Powstała takŜe
koncepcja budowania inteligentnych agentów do wyszukiwania informacji w
Internecie, a twórca WWW Tim Berners Lee zaproponował przebudowę
istniejącego chaosu informacyjnego w sieć semantyczną nazywaną teŜ Web 3.0.
Wyszukiwanie przed epoką Web 3.0
Przyjmuje się, Ŝe obecnie Internet składa się z milionów komputerów
(według CIA World Factbook 2009 było ok. 575 mln). Trudno jest ustalić ile jest
w sieci witryn, portali i stron – bowiem codziennie powstaje i znika ogromna ich
liczba, a nie wszystkie są zaindeksowane przez wyszukiwarki. Łatwiej określić
jest katalogowaną przez ICANN liczbę domen i serwerów, ale i ich liczba moŜe
dość szybko ulegać zmianie.
Według badań NEC Research Institute w 1999 roku istniało 800 milionów
stron WWW. W 2002 roku wyszukiwarka Google przechowywała w swoich
bazach danych ponad 2 miliardy odnośników1, a w 2005 roku było ich juŜ 8
miliardów2. Według Antonio Gulli i Allesio Signorini w 2005 roku
wyszukiwarki indeksowały ponad 11,5 mld stron, z czego około 9,36 mld
przypadało na największe wtedy Google, Yahoo, MSN i Ask.
Oprócz wyszukiwarek w Internecie działają inne serwisy ułatwiające
poszukiwanie informacji. Stosowane były i są nadal takŜe katalogi stron
internetowych i metawyszukiwarki (multiwyszukiwarki).
Katalogi stron internetowych
Katalogi stron internetowych to serwisy moderowane ręcznie, których
celem jest grupowanie tematyczne zbioru adresów internetowych. Autorzy lub
właściciele stron zgłaszają swoje strony do katalogów, zazwyczaj z krótkim
opisem, po czym, zwykle po przejrzeniu, strona zostaje wpisana na listę pod
danym hasłem. Katalog stron jest strukturą drzewiastą: witryny przypisane są, ze
1
A. Łamek Ukryty Internet, Magazyn Internet 7/2002
2
Wyszukiwarka Google w portalu Interia.pl http://gospodarka.gazeta.pl/gospodarka/1,33181,2498171.html
[dostęp 20 VIII 2012]
3
względu na swoją zawartość do poszczególnych kategorii, które dzielą się na
kategorie podrzędne.
Najpopularniejszy to Yahoo, a w Polsce katalogi portali Wirtualna Polska
i Onet. Najbardziej istotnym jest katalog Open Directory Project DMOZ
http://www.dmoz.org,
utworzony w 1998 roku jako directory.mozilla.org,
moderowany w 2010 roku przez 75 tysięcy redaktorów. Dostęp do katalogu oraz
zgłoszenia stron są w nim bezpłatne, ale z powodu wysokich wymagań jedynie
naprawdę wartościowe strony mają szansę zaistnieć w DMOZ.
W 1992 roku z inicjatywy Rafała Maszkowskiego powstał pierwszy
katalog stron znajdujących się w polskim internecie, późniejsze "Polskie Zasoby
Sieciowe". Dane przedstawione były wówczas w postaci czystego ASCII. Rok
później w związku z rozprzestrzenieniem się standardu HTML katalog
obsługiwał juŜ linki hipertekstowe. "Polskie Zasoby Sieciowe" zakończyły swoją
działalność w roku 1997.
Wadą katalogów jest mała liczba zawartych w nich stron w porównaniu
z innymi narzędziami oraz długi czas aktualizacji. Powodem są ograniczone
ludzkie moŜliwości. Strony internetowe powstają, znikają i zmieniają się,
a weryfikacja ich zawartości czy obecności wymaga ponownego odwiedzenia
ich przez redaktora. Kolejną wadą jest róŜna interpretacja kategorii: tę samą
stronę dwie osoby mogą umieścić w róŜnych kategoriach, co moŜe prowadzić do
nieporozumień. Na przykład strona poświęcona grze w szachy moŜe zostać
umieszczona przez redaktora katalogu w kategorii sport, natomiast szukający tej
strony będzie poszukiwał informacji na ten temat w kategorii gry.
Wyszukiwarki
Pierwszą funkcjonalną wyszukiwarką zawartości stron internetowych,
posiadającą zaimplementowane funkcjonalności robota śledzącego (nazwanego
tu World Wide Web Wanderer - 4W) i indeksującego strony oraz wyposaŜonego
w zdolność przeszukiwania utworzonych indeksów, był uruchomiony w 1993
roku Wandex. Napisał go Matthew Gray, wówczas pracownik MIT, obecnie
Google. Wyszukiwarki to aplikacje tworzące automatycznie bazy danych
4
o witrynach, w ich skład wchodzą programy nazywane m.in. crawlerami,
robotami,
pająkami
lub
botami
czyli
roboty
internetowe
pobierające
i przeglądające dokumenty z sieci. Inny moduł wyszukiwarki odczytuje
zapytanie uŜytkownika i zwykle przeszukuje swoje bazy nazwane indeksami,
które co jakiś czas są aktualizowane - po kolejnej turze pracy robotów.
Roboty standardowych wyszukiwarek odwiedzają tylko te strony, do
których prowadzą odnośniki z innych witryn oraz te, które zostały zgłoszone do
nich przez swoich autorów lub właścicieli.
NajwaŜniejszymi algorytmami stosowanymi w wyszukiwarkach są
algorytmy oceny relewancji3 dokumentu względem szukanej frazy oraz
algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela
wyszukiwarki, przesądzającą o jej skuteczności. Wiadomo o stosowaniu
algorytmów: binarnych, waŜenia częstością słów TF, PageRank, In-degree,
metody Robertsona i Sparcka-Jonesa (1997), metody Robertsona (1994), modelu
Markova, metody bazowej B, liczby wizyt (klikohit) i wielu innych.
Poprawę relewancji wyników wyszukiwania moŜna uzyskać poprzez
grupowanie (clustering), personalizację, weryfikację pisowni, tzw. stop-words –
czyli stop listy oraz tezaurus, czyli podpowiedzi.
Google to najpopularniejsza wyszukiwarka na świecie. Została stworzona
przez Larry’ego Page'a oraz Sergeya Brina w 1996 roku, w ramach ich projektu
studenckiego na Uniwersytecie Stanford. W 1998 roku załoŜyli firmę Google
Inc. Słowo "googol" to liczba 10100. Pierwszy uŜył tego terminu amerykański
matematyk, Edward Kasner, zainspirowany dźwiękami wydawanymi przez jego
bratanka Miltona Sirotta. Wyszukiwarka Google jako pierwsza wprowadziła
moŜliwość przeszukiwania nie tylko stron HTML, ale takŜe dokumentów
zapisanych w formacie PDF, a później DOC, arkuszy Excel, prezentacji
PowerPoint, plików RTF i postscriptowych (.PS). Dziś moŜna równieŜ
przeszukiwać grafiki (JPG, GIF), filmy, grupy dyskusyjne oraz katalogi.
3
Relewancja- związek, zwłaszcza logiczny, z rzeczą, o którą chodzi, relewantny - pozostający w
(log.) związku z, odnoszący się do, stosujący się do; dostarczający dowodu słuszności; istotny
dla.
5
Wybrane graficzne źródła pokazywane są obecnie od razu razem z wynikami
SERP (search engine results page - strona z wynikami wyszukiwania).
Wraz z rozwojem firmy, Google zaczęło poszerzać listę swoich usług,
dołączyło pocztę elektroniczną, albumy zdjęć, aplikacje biurowe Google Docs,
narzędzia Google Analytics i wiele innych. Jedną z ostatnich nowości jest
Google Instant, czyli domyślanie się o co chce zapytać uŜytkownik – poprzez
pokazywanie listy propozycji ciągu dalszego wpisywanego zapytania.
Dziś Google to finansowy gigant. W 2005 roku przychody firmy sięgnęły
6,1 mld USD, a zysk wyniósł 2 mld. Google odnotował w pierwszym kwartale
2006 roku 79% wzrost przychodów w porównaniu z pierwszym kwartałem 2005
roku. Po latach kryzysu, w pierwszym kwartale 2010 roku przychody firmy
wzrosły o 37% i wyniosły 1,96 miliarda dolarów.
Polska
strona
http://www.ranking.pl/
ocenia
popularność
m.in.
wyszukiwarek. Ranking obliczany jest na podstawie procentowej liczby wizyt na
polskich witrynach dokonanych z wyszukiwarek uczestniczących w badaniu
GemiusTraffic. W Tabeli 1 podano trzy najpopularniejsze wyszukiwarki w
grudniu 2010 roku.
Tabela 1. Najpopularniejsze wyszukiwarki wśród polskich internautów
lp
Wyszukiwarki-silniki
29.XI.2010 - 5.XII.2010
22.XI.2010 - 28.XI.2010
1
2
3
Google
NetSprint
MSN
97,20%
1,39%
0,72%
97,57%
1,14%
0,72%
15.XI.2010 21.XI.2010
97,74%
1,17%
0,72%
Źródło http://www.ranking.pl/pl/rankings/search-engines.html [9 XII 2010]
W 2006 roku, w podobnym okresie, pierwsze było Google, potem Morfeo
i NetSprint, MSN, Szukacz, Yahoo i Altavista. Jak widać konkurencyjne
wyszukiwarki nie zagraŜają pozycji Google, co zauwaŜa się nie tylko w Polsce.
Nie mniej ciągle na rynku powstają nowe, jedną z nich była europejska
inicjatywa ograniczenia dominacji USA w Internecie Quaero (łac. szukam) czyli
projekt europejskiej wyszukiwarki internetowej prowadzony przez firmy
Thomson, France Telecom, Siemens AG, Thales, Bertin Technologies, Exalead,
Jouve, LTU, Vecsys, Empolis, a wspomagany przez instytuty naukowe Inria,
Inra, CNRS, Clips Imag, RWTH Aachen, Uniwersytet Karlsruhe.
6
Mimo wciąŜ dołączanych funkcjonalności, zapytania do baz danych są
nadal poza zasięgiem wyszukiwarek. Google i kaŜda inna wyszukiwarka
znajdzie tylko stronę główną np. z rozkładem jazdy, ale nie da sobie rady
z wypełnieniem formularza i zadaniem pytania o konkretne połączenie.
To zadanie mogą wykonać przyszłe wyszukiwarki semantyczne lub
inteligentne agenty.
Metawyszukiwarki i metabazy
Metawyszukiwarki (Meta-Search Engines) to serwisy internetowe, które nie
posiadają własnej bazy danych, ale potrafią wysłać zadane zapytanie do kilku lub
kilkunastu samodzielnych wyszukiwarek, odebrać od nich wyniki i przedstawić
je w przejrzystej formie. Wadą metawyszukiwarek jest brak dostępu do
specyficznych zapytań złoŜonych jakie dają zwykłe wyszukiwarki. Zaletą zaś
jest to, Ŝe moŜna zadać jedno pytanie do kilku serwisów przy odwiedzeniu tylko
jednego. Zaoszczędza to czas i daje moŜliwość przeszukania większej części
zasobów Internetu. Niektóre metawyszukiwarki opracowują otrzymaną listę
wyników: usuwają powtarzające się adresy i te, które juŜ nie istnieją, a są jeszcze
zapisane w bazie wyszukiwarek. Dodatkowo mogą sortować na róŜne sposoby
wyświetloną listę.
Przykładami matawyszukiwarek są (istniejące w 2010 roku):
Ixquick http://www.ixquick.com (w wielu wersjach językowych równieŜ w
polskiej),
Metacrawler http://www.metacrawler.com ,
Yippy http://www.yippy.com (dawniej Clusty),
Dogpile http://www.dogpile.com,
Pandia Metasearch http://www.pandia.com/metasearch/index.html,
Copernic http://find.copernic.com.
Niektóre
ujawniają
z
jakich
zwykłych
wyszukiwarek
korzystają
w pierwszej kolejności, np. Pandia z Yahoo!, MSN, AlltheWeb, Ask.com,
Wisenut, Dogpile wyszukuje z Google, Yahoo, Bing i Ask, a Yippy z Ask, Open
Directory (DMOZ), Gigablast i innych.
7
W dotarciu do mało znanych lub głębiej schowanych zasobów sieci
pomagają specjalistyczne serwisy jak metabazy czyli zbiory wydobytych z sieci
baz danych dotyczących róŜnych obszarów wiedzy, albo teŜ serwisy
przeszukujące określony obszar sieci, koncentrujące się na jednej tylko
dziedzinie.
Complet Planet http://www.completeplanet.com to metabaza, która daje
dostęp do 70 tysięcy baz danych i serwisów wyszukiwawczych. MoŜna do nich
dotrzeć poprzez katalog tematyczny albo na skróty - po słowie kluczowym. Inny
serwis
to
Infomine
http://infomine.ucr.edu
adresowany do
środowiska
akademickiego, powstał z inicjatywy pracowników kilku amerykańskich uczelni
i bibliotek uniwersyteckich (m.in. University of California i University of
Detroit). Gromadzi w swoim katalogu wartościowe materiały przydatne
naukowcom i studentom. Są to bazy danych, elektroniczne biuletyny, ksiąŜki,
artykuły, archiwa list elektronicznych, dotyczące poszczególnych nauk, np.
medycyny,
nauk
humanistycznych,
matematycznych
itp.
Bubl
Link
http://bubl.ac.uk/ to z kolei brytyjski katalog rzeczowy, indeksujący zasoby
o charakterze akademickim, jak ksiąŜki i czasopisma elektroniczne, repozytoria
tematyczne, katalogi biblioteczne online. MoŜna tu wyszukiwać według tematu
bądź rodzaju źródła.
Invisible Web
DuŜa część materiałów znajdujących się w Internecie była kiedyś
niedostępna bo "niewidzialna" dla wyszukiwarek z powodu np. formatu pliku.
Pierwotnie nawet Google wyszukiwało informacje tyko ze stron HTML,
z czasem jednak ulepszano algorytmy i obecnie znajdowane są dokumenty DOC,
PDF i
inne dokumenty tekstowe.
Według NEC Research Institute w 1999 roku wyszukiwarki indeksowały
tylko 16% wszystkich stron WWW. Powstały zatem terminy „ukryta sieć” (ang
Invisible Web) lub głęboka sieć (ang Deep Web) odnoszące się do zasobów
Internetu, do których nie docierają standardowe wyszukiwarki.
8
Według Chrisa Shermana i Gary Price'a Invisible Web to dostępne w sieci
strony, pliki czy inne informacje, których z przyczyn technicznych bądź innych
ograniczeń, nie indeksują wyszukiwarki. W innej definicji Michaela Bergmana
Deep Web to strony internetowe tworzone dynamicznie jako wynik
specjalistycznych wyszukiwań w bazach danych.
Zatem
niewidzialnymi
zasobami,
oprócz
nieindeksowanych
stron
i dokumentów tekstowych w innych formatach niŜ HTML, były teŜ dokumenty
graficzne, muzyczne, strony Flash, arkusze kalkulacyjne, bazy danych
(publicznie dostępne - bazy danych komercyjne powinny być z załoŜenia
elementem ukrytej sieci), strony generowane dynamicznie (PHP, ASP),
większość stron instytucjonalnych lub płatnych, które wymagały wcześniejszej
rejestracji, strony do których nie prowadzą odsyłacze, strony wyłączone z
procesu indeksacji przez twórców (poprzez umieszczenie w kodzie strony metatagu robots lub poprzez utworzenie pliku robots.txt w określonym katalogu
serwera WWW).
Powstawać zaczęły wyszukiwarki zaprojektowane do przeszukiwania
ukrytych zasobów sieci, np. Incywincy http://www.incywincy.com przeglądająca
strony internetowe, jak teŜ wykorzystująca wyszukiwarki, metawyszukiwarki,
formularze i katalogi.
Co pewien czas publikowane były szacunki porównujące oba obszary
sieci: widzianej przez wyszukiwarki (Surface Web) i sieci ukrytej. Większość
z materiałów cytuje badania Michaela Bergmana z 2001 roku, według których
sieć niewidzialna była wtedy nawet ok. 400-550 razy większa niŜ zasoby Surface
Web i liczyła ok. 550 mld dokumentów. AŜ 95% zasobów ukrytych było
dostępnych bezpłatnie, ponad połowę stanowiły tematyczne bazy danych.
Szacunki te podwaŜył w 2005 roku Dirk Lewandowski.
Dane te i tak z pewnością do dziś uległy zmianie, wyszukiwarki bowiem
zaczęły wkraczać w niewidzialną część sieci, wzbogacały się o moŜliwości
przeszukiwania tekstów zapisanych w róŜnych formatach i dziś znajdują juŜ pliki
PDF, DOC, a nawet pliki graficzne, filmy i podcasty. MoŜna zatem
9
skonstatować, Ŝe za sprawą ulepszonych algorytmów tzw. głęboki Internet
wypłynął na wierzch i juŜ jest widziany w wynikach wyszukiwarek.
Wyszukiwanie w czasach zbyt mocnej promocji strony
Dlaczego, mimo ciągłego ulepszania algorytmów, wyszukiwanie nie daje
często dobrych wyników? Przyczyną jest nieetyczne pozycjonowanie, czyli
działania nie zgodne z wytycznymi IAB lub regulaminami wyszukiwarek. Ich
właściciele chcieliby, aby klienci, czyli uŜytkownicy Internetu poszukujący
informacji, uzyskiwali dobre wyniki, czyli odpowiadające na ich zapytania i tym
samym byli zadowoleni z serwisu.
Większość współczesnych wyszukiwarek wyszukuje informacje za
pomocą słów kluczowych. Po wprowadzeniu szukanej frazy wyszukiwarka
wyświetla listę linków do stron, które dane wyraŜenie zawierają. To zaś, która
strona znajdzie się najwyŜej zaleŜy od liczby słów kluczowych w tekście, ich
miejsca na stronie, a takŜe od tego czy słowa zawierają odnośniki do stron
z dodatkowymi informacjami. W rezultacie bardzo często na szczycie SERP
pojawiają się linki do witryn, które nie spełniają oczekiwań szukającego, ale są
dobrze wypozycjonowane przez ich twórców, którzy w celu polepszenia pozycji
strony w wynikach wyszukiwarek wstawiają np. ukryty tekst.
Gdy zorientowano się, Ŝe wyszukiwarki indeksują strony linkowane,
zaczęły powstawać tw. farmy linków, czyli strony zawierające tylko odnośniki
do innych stron. Algorytmy wyszukiwarek zaczęły jednak identyfikować tego
typu serwisy. Pojawiły się wtedy strony z unikalnym, ale nie zawsze
merytorycznie poprawnym tekstem, generowane tylko i wyłącznie w celu
linkowania. To tzw. zaplecze pozycjonerskie, tworzone najczęściej w sposób
zupełnie przypadkowy lub automatycznie przez programy, czasami poprzez
powielanie swoich lub cudzych tekstów, rzadziej tworzone przez wynajętych
pracowników - ale nawet wtedy nie są pielęgnowane i tracące często swoją
aktualność. Jest to zatem tylko i wyłącznie mnoŜenie liczby stron (bytów)
nieuŜytecznych dla uŜytkowników sieci szukających informacji, zatem jest to
SPAM. Nie ma badań oceniających liczbę takich stron, są jednak źródła
10
wskazujące, Ŝe do pozycjonowania jednej strony tworzonych jest co najmniej
kilkadziesiąt innych, zatem mogą stanowić duŜy procent wszystkich i
prawdopodobieństwo, Ŝe uŜytkownik wyszukiwarki trafi na jedną z nich jest
dość duŜe. Gorzej jeśli nie uzna jej za mało wartościową i skorzysta z zawartych
w niej informacji. Twórcy lub zarządcy zaplecza pozycjonerskiego, manipulują
zatem wynikami wyszukiwania, stąd tego typu działania są tępione przez
właścicieli wyszukiwarek. Google w 2007 roku ogłosiło, Ŝe strony zaplecza będą
zwalczane, i zastrzegło sobie moŜliwość ograniczenia mocy odnośników
umieszczonych na stronach, w przypadku wykrycia, iŜ funkcjonują one jedynie
w celu pozycjonowania.
Firmy lub osoby zajmujące się pozycjonowaniem tworzą takŜe katalogi,
które znacznie odbiegają od idei katalogu Yahoo czy DEMOZ. Są to strony
zbudowane z gotowych skryptów np. QlWeb, mające na celu linkowanie, często
odpłatnie dla wszystkich zgłaszających swoje strony - bez weryfikacji co
zawierają. Od pewnego czasu takie katalogi mają jednak znikomą wartość
bowiem programy wyszukiwarek wzbogacono o algorytmy wykrywające
i ignorujące katalogi oparte o QlWeb, Freeglobes, Mini, Scuttle i innych
popularnych skryptach. W ich miejsce zaczęły pojawiać się katalogi typu presell
pages róŜniące się od poprzednich tym, iŜ przypominają blog lub CMS. Starają
się naśladować sytuację linkowania naturalnego, kiedy osoba (np. blogger)
opisuje w swoim wpisie np. firmę, produkt bądź zjawisko, umieszczając w
tekście linki prowadzące do stron powiązanych z poruszanym tematem.
Wzrastającą liczbę serwisów typu presell pages zauwaŜyło Google,
i w komunikatach publikowanych w 2007 roku zasygnalizowało, Ŝe skoro mają
one na celu jedynie przekazywanie mocy w postaci linków wychodzących, nie
słuŜą w Ŝaden sposób internautom. Nie jest to zatem forma promocji
akceptowana przez wyszukiwarki, bo jej efektem jest równieŜ manipulacja
uŜytkowników wyszukiwarek.
11
Wyszukiwanie w sieci semantycznej
Pod koniec XX wieku rozpoczęto prace nad projektem Tima Bernersa Lee:
Semantic Web (sieć semantyczna nazywana teŜ Web 3.0), który ma przyczynić
się do utworzenia i rozpowszechnienia standardów opisywania treści
w Internecie w sposób, który umoŜliwiłby maszynom i programom (np. robotom
wyszukiwarek, autonomicznym agentom) przetwarzanie informacji w sposób
odpowiedni do ich znaczenia. Czas sieci semantycznej według prognoz Nova
Spivaka miał się zacząć w 2010 roku. Czy tak się stało? Istnieją juŜ strony
stosujące standardy RDF (ang. Resource Description Framework) czy OWL
(ang. Ontology Web Language), ale Web 3.0 rzeczywiście zaistnieje, gdy
wszystkie strony dostosują się do nowych norm, bowiem wtedy budowane
obecnie aplikacje jak np. wyszukiwarki semantyczne, będą działać tak, jak tego
oczekują zwolennicy nowej struktury sieci WWW.
Idea sieci semantycznej polega na wykorzystaniu juŜ istniejącego
protokołu do takiego sposobu przetwarzania informacji, który umoŜliwi
powiązanie znaczeń między wyrazami, a nie tylko wykorzystanie słów
kluczowych. Chodzi więc o semantykę, którą sieć moŜe zrozumieć analizując
strukturę stron. Obecnie strony są przygotowywane dla ludzi, a mało zrozumiałe
dla programów. Spójrzmy na fragment strony przychodni rehabilitacyjnej:
<h1>Cenrtum rehabilitacyjne/<h1>
Witamy na stronie centrum rehabilitacyjnego.
Nasi pracownicy to dyplomowani rehabilitanci: Jan Kowalski i Adam Nowak oraz dyplomowana
pielęgniarka Krystyna Wiśniewska.
Odczuwasz ból? Przyjdź koniecznie.
<h2> Godziny przyjęć:</h2>
Pon 11.00– 19.00 <br>
Wt 11.00– 19.00 <br>
Śr 11.00– 19.00 <br>
Czw 11.00– 19.00 <br>
Pt 11.00– 19.00 <br>
Rysunek 1 Kod strony w HTML
Informacje podane na tak zdefiniowanej stronie będą wystarczające dla
człowieka, ale program nie będzie potrafił np. zidentyfikować, kto jest
12
rehabilitantem, a kto pielęgniarką. Zaproponujmy zatem reprezentację wiedzy
bardziej dogodną dla komputera.
<firma>
<oferowaneleczenie >rehabilitacja</oferowaneleczenie>
<nazwafirmy>centrum rehabilitacji</nazwafirmy>
<personel>
<rehabilitant> Jan Kowalski</rehabilitant>
<rehabilitant> Adam Nowak</rehabilitant>
<pielegniarka> Krystyna Wiśniewska</pielegniarka>
<personel>
</firma>
Rysunek 2 Kod strony z metadanymi
Informacje przekazywane w ramach sieci wymagają nie tylko danych, ale
takŜe informacji o nich tzw. metadanych, czego przykład widać powyŜej. Zapis
metadanych składa się ze zbioru atrybutów niezbędnych do opisu zasobu.
Istotną rolę w tworzeniu semantycznego Internetu, a szczególnie
reprezentacji wiedzy, odgrywają ontologie. Ontologia stanowi wspólny zbiór
twierdzeń sformułowanych przy pomocy istniejących standardów np. w XML
czy/i RDF, który opisuje i definiuje relacje między pojęciami i wyznacza reguły
wnioskowania. To właśnie dzięki ontologiom komputery są w stanie zrozumieć
semantyczną zawartość dokumentów w sieci. Ontologie są tworzone przy
pomocy specjalizowanych języków, takich jak: OWL, SHOE, OIL, DAML.
Ontologie zwiększają moŜliwości sieci pod wieloma względami. Najprostszy
sposób ich wykorzystania to precyzyjniejsze przeszukiwanie sieci np.
wyszukiwarka wybierze tylko te strony, na których występuje dane pojęcie, ale
w ściśle zdefiniowanym znaczeniu, a nie słowo kluczowe, które jest przecieŜ
często wieloznaczne.
Wprowadzanie metaopisów do kodu stron internetowych wydaje się
odległą przyszłością, np. z powodu niechęci webmasterów i braku widocznych
korzyści wynikających z dodawania metadanych. Dopóki nie ma wielu aplikacji
Web 3.0 nie wszyscy rozumieją, Ŝe ułatwi to przetwarzanie informacji. Kiedy
wszystkie dane w Internecie opatrzone zostaną metadanymi, czyli zaczną
rozumieć je algorytmy, uŜytkownicy sieci będą masowo korzystać z usług
13
osobistych agentów, które mogą poszukiwać informacji i na ich Ŝyczenie
podejmować decyzje: wybierać połączenia komunikacyjne, rezerwować hotele,
a nawet negocjować ceny.
Sieć semantyczna staje się rzeczywistością dzięki aplikacjom, które ją
wykorzystują i wspierają - takim jak np. wyszukiwarki semantyczne. Zalicza się
do nich wyszukiwarki analizujące znaczenie indeksowanych dokumentów
(Hakia, Bing - dawniej Powerset, Google Squared) oraz wyszukiwarki
przeszukujące zasoby sieci semantycznej czyli zawartość plików RDF oraz
modeli interpretacji danych, czyli ontologii zapisanej w OWL (np. Swoogle,
Sindice, Falcons, Watson)- obie działają inaczej i pełnią inną rolę
w poszukiwaniu informacji.
Wyszukiwarki analizujące znaczenie
Wyszukiwarki tego typu przeszukują zawartość znaczeniową stron WWW
w oparciu o semantyczną i gramatyczną analizę języka dokumentu. Niezwykle
trudne jest przełoŜenie języka naturalnego na język zrozumiały dla algorytmu.
W tym celu stosują metody sztucznej inteligencji - NLP (Natural Language
Processing) oraz algorytmy heurystyczne. DuŜym problemem są tu trudności
związane z analizą wyraŜeń języka naturalnego, ich wieloznaczność, specyfika
języka itp. nie tylko w treści dokumentów, ale takŜe w zapytaniach, gdyŜ wiele
wyszukiwarek akceptuje zapytania w języku naturalnym. To właśnie ma być
elementem nowego modelu przeszukiwania i wykorzystywania zasobów
Internetu.
Wyszukiwarki analizujące znaczenie przeszukując strony WWW tworzą
własną bazę ontologii. Dzięki temu dostarczane będą bardziej relewantne
wyniki, przedstawione w bardziej odpowiadającej zapytaniu hierarchii.
Nie ma jeszcze w pełni funkcjonalnych przykładów wyszukiwarek tego
typu, najbardziej doceniana jest uruchomiona w 2009 roku Wolfram Alpha,
która nie wyświetla w odpowiedzi adresów stron powiązanych z zapytaniem,
lecz udostępnia konkretne dane. MoŜna je zapisać w formacie PDF. Jedną, która
wcześniej wniosła duŜo w rozwój semantycznych wyszukiwarek był Powerset,
14
kupiony w 2008 roku przez Microsoft i rozwijany od 2009 roku jako Bing. W
2004 roku powstała Hakia, która podaje jako wyniki posegregowane linki w
grupach Web, News, Blogs, Credible Sources, Video oraz Images. Kategoryzacji
wyników dokonuje takŜe wyszukiwarka Yebol.com, akceptująca równieŜ
zapytania w języku naturalnym. Google Sqared pokazuje wyniki w postaci
danych zawartych w tabelach, które moŜna wyeksportować do formatu CSV lub
arkusza kalkulacyjnego Google. Wskazując komórki tabeli zobaczyć moŜna
źródła zdobytych danych - na razie bardzo często jest to róŜnie oceniana, jeśli
chodzi o wiarygodność, Wikipedia. TakŜe głównie na niej opierają się wyniki
innej wyszukiwarki semantyczne Bing (Powerset).
Wszystkie projekty są potencjalnymi konkurentami tradycyjnego Google,
bardo często ich premiery reklamowane były w taki sposób np. Bing Microsoft
w maju 2009 roku.
Pojawiły się takŜe polskie przykłady, np. juŜ nie istniejący Szuku.pl,
Hippisek.pl, który bazę wiedzy buduje głównie w oparciu o serwisy tvn24 oraz
pudelek.pl, oraz aktywny KtoCo http://www.ktoco.pl (od 2009 roku). Celem jego
działania, jest nie tylko odnajdywanie linków, lecz udzielenie precyzyjnych
odpowiedzi. Pytania do niego moŜna formułować w języku naturalnym, równieŜ
w takiej formie podawane są odpowiedzi: są to cytaty pochodzące ze stron
internetowych.
KtoCo korzysta ze zbudowanej przez jego wydawcę bazy ontologii,
zawierającej w momencie uruchomienia serwisu w 2009 roku ponad 800 tysięcy
faktów i uwzględniającej powiązania semantyczne istniejące pomiędzy nimi4.
Wyszukiwarki przeszukujące zawartość sieci semantycznej
Wyszukiwarki przeszukujące zawartość sieci semantycznej nie analizują
znaczenia stron WWW, lecz przeszukują opisy dokonane przez twórców
dokumentów i odwołania do ontologii wskazanych w nagłówkach plików RDF.
Oglądają zatem reprezentację semantyczną dokumentu, nie dokonują zaś
4
Zwiastun Web 3.0? Pierwsza polska wyszukiwarka semantyczna, http://webinside.pl/news-5831-zwiastunweb-3-0--pierwsza-polska-wyszukiwarka-semantyczna.html [dostęp 10.12.2010]
15
przekładu jego treści. Pozwolą zatem lepiej wyselekcjonować dokumenty
zawierające podane terminy w określonej kategorii, dzięki czemu na liście
wyników uŜytkownik nie dostanie odnośników do dokumentów, które będą
zupełnie bezwartościowe. Obecnie jedną z przyczyn niezbyt poprawnego
działania wyszukiwarek przeszukujących sieć semantyczną jest mała liczba stron
opisanych metadanymi. Najlepiej działającymi były lub są: Swoogle (utworzony
w 2004 roku w projekcie Uniwersytetu Baltimore, 10 tys. ontologii), Sindice,
Falcon, SWSE oraz Watson. Wyniki jakie z nich uzyskamy są mało czytelne dla
ludzi, bo zawierają linki do dokumentów RDF lub OWL i dedykowane są dla
algorytmów np. agentów.
Wszystkie wyszukiwarki semantyczne są w fazie testów, w wersji beta lub
jako prototypy aplikacji. Niestety nie działają jeszcze poprawnie.
Formułowanie zapytań do wyszukiwarek Web 1.0
Wyszukiwarki dysponują róŜnymi rodzajami zapytań, jednak pewne
zasady są wspólne dla wszystkich narzędzi wyszukujących. Ich znajomość
przyspieszy
wyszukiwanie
właściwych
treści.
Przedstawione
zapytania
niejednokrotnie moŜna ze sobą łączyć co daje jeszcze lepsze efekty.
Wyszukiwanie według słów kluczowych
Najprostszym sposobem zadawania pytania jest wpisanie poszukiwanego
wyrazu
lub
wyrazów
określających
poŜądaną
przez
nas
informację.
Wyszukiwarka lub katalog wyświetli nam listę stron, które zawierają
poszukiwane słowo lub słowa, np słowo programista. MoŜe to jednak
spowodować wyświetlenie listy zawierającej ponad 1000 adresów, której
przejrzenie moŜe stać się czasochłonne.
MoŜna uŜywać wielu słów kluczowych, ale nie naleŜy przesadzać z ich
liczbą i podać je w dobrej kolejności. Wyniki wyszukiwania programowanie
komputerów, będą inne niŜ komputerów programowanie. Niektóre narzędzia
i tak nie „czytają” długich zapytań, np. Google bierze pod uwagę tylko 10 słów
i ignoruje pewne typowe wyrazy (na przykład angielskie „the” i „and”), a takŜe
16
niektóre pojedyncze cyfry i litery, poniewaŜ spowalniają one wyszukiwanie, nie
zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych
często uŜywanych wyrazach na stronie wyników pod polem wyszukiwania.
Wyszukiwanie frazy
Wpisanie do wyszukiwarki dwóch słów np. program nauczania spowoduje
wyświetlenie stron zawierających słowo program i witryn zawierających wyraz
nauczania oraz tych, które zawierają oba słowa. Gdy oba wyrazy umieścimy
w cudzysłowie, otrzymamy listę zawierającą adresy stron, które w swoim tekście
posiadają dwa słowa obok siebie i to w poŜądanej kolejności.
Wyszukiwanie rozmyte
Wyszukiwanie rozmyte polega na uwzględnieniu róŜnych form danego
wyrazu. W pytaniu podajemy początek wyrazu, a pozostałą część zastępujemy
znakiem ? lub *. Znak ? zastępuje tylko jedną literę, zaś * zastępuje większą
liczbę znaków, np. poczt*. Jak widać w podanym przykładzie szukamy ogólnie
stron na temat poczty. Gdy wpiszemy słowo poczta to wyszukiwarka pominie
strony zawierające wyrazy poczty, pocztowy itp.
W Google znak „~” oznacza synonim, czyli np. wpisując ~program
znajdziemy w wynikach równieŜ słowo software.
Konieczność występowania wyrazu lub nie
Inną moŜliwość dają nam dwa znaki + i – koniecznie ze spacją przed
znakiem. Pierwszy wymusza wyświetlenie stron, które muszą zawierać wyraz
poprzedzony +. Drugi zaś wyklucza strony zawierające dane słowo. Czasem
przydaje się, gdy słowo ma kilka znaczeń. Np. gdy szukamy informacji
o protokołach sieciowych moŜemy podać zapytanie: protokół –dyplomacja.
A zapytanie Wojna Światowa +I zapewni nam informacje o I Wojnie.
Operatory zaawansowane
Zastosowanie ich ogranicza wyniki wyszukiwania do stron z określonych
krajów lub domen. Domenę moŜna określić dodając do wyszukiwanego hasła
17
operator ,,site” Operator ten działa w przypadku domen sieciowych i domen
najwyŜszego poziomu.
Przykłady:
•
music site:pl,
•
lemur site:org,
•
rekrutacja site:edu.pl,
•
ranking site:google.com
MoŜemy jeszcze ograniczać:
•
miejsce,
gdzie
mają
się
znajdować
wyszukiwane
hasła
– np. w tytule: intitle:"Podstawy informatyki", allintitle:Podstawy informatyki,
lub w adresie URL inurl: algorytmy struktury, allinurl: algorytmy struktury
•
typ pliku
•
link wewnątrz dokumentu
filetype:pdf OR filetype:ppt "boolean searching"
link: ki.uni.lodz.pl
18
Bibliografia
[1]
Alesso H. P., Smith C. Thinking on the Web: Berners-Lee, Gödel, and Turing,
Wiley-Interscience, 2008.
[2]
Antoniou G., Van Harmelen F. A semantic Web primer, The MIT Press, 2008
[3]
Bergman M. K., The Deep Web: Surfacing Hidden Value, "Journal of Electronic
Publishing", Volume 7, Issue 1, 08.2001.
[4]
Berners-Lee T., Hendler J., Lassila O., The Semantic Web: A new form of Web
content that is meaningful to computers will unleash a revolution of new
possibilities, "Scientific American" 05/2001.
[5]
Breitman K., Casanova M., Truszkowski W., Semantic Web: concepts,
technologies and applications, Springer 2007.
[6]
Gontar B., Papińska-Kacperek J. Semantyczne wyszukiwarki internetowe, w:
ACTA UNIVERSITATIS LODZIENSIS. FOLIA OECONOMICA, Uniwersytet
Łódzki, 2011 http://dspace.uni.lodz.pl:8080/xmlui/bitstream/handle/123456789/803/165179.pdf?sequence=1.
[7]
Gulli A. Signorini A. The indexable web is more than 11.5 billion pages,
Proceeding WWW 2005.
[8]
Kashyap V., Bussler C., Moran M. The Semantic Web: semantics for data and
services on the Web, Springer, 2008.
[9]
Lewandowski D. Web searching, search engines and Information Retrieval,
Information Services & Use 25(2005)3.
[10] Lewandowski D. Mayr P. Exploring the Academic Invisible Web, Library Hi
Tech, 24 (2006) 4. ss. 529-539.
[11] Papińska-Kacperek J. Wyszukiwanie informacji w internecie, materiały dla
studentów, 2006 http://www.ki.uni.lodz.pl/~jpapkac/podstawy/wyszukiwanie.pdf
[12] Papińska-Kacperek J. Gontar B. Wyszukiwarki semantyczne, w: Wiedza i
komunikacja w innowacyjnych organizacjach, Katowice, red. M. Pańkowska,
Wydawnictwo UE, Katowice, 2011, ss. 134-149.
[13] Sherman C., Price G. The invisible Web: uncovering information sources search
engines can't see Information Today, Inc, 2001.
[14] Spivak N. (2007), How the WebOS Evolves?,
http://novaspivack.typepad.com/nova_spivacks_weblog/2007/02/steps_towards_a
.html [dostęp 10.12.11]
[15] Społeczeństwo informacyjne, red. Papińska-Kacperek J., PWN 2008.
[16] Wyniki wyszukiwania Google a satysfakcja uŜytkowników, raport
http://www.bluerank.pl/pdfs/Raport%20%20wyniki%20wyszukiwania%20Google%20a%20satysfakcja%20uzytkownikow.pdf
2008.
19
Spis treści
Wyszukiwanie przed epoką Web 3.0.............................................................................................. 3
Katalogi stron internetowych...................................................................................................... 3
Wyszukiwarki ............................................................................................................................. 4
Metawyszukiwarki i metabazy ................................................................................................... 7
Invisible Web.............................................................................................................................. 8
Wyszukiwanie w czasach zbyt mocnej promocji strony............................................................... 10
Wyszukiwanie w sieci semantycznej............................................................................................ 12
Wyszukiwarki analizujące znaczenie........................................................................................ 14
Wyszukiwarki przeszukujące zawartość sieci semantycznej.................................................... 15
Formułowanie zapytań do wyszukiwarek Web 1.0 ...................................................................... 16
Wyszukiwanie według słów kluczowych ................................................................................. 16
Wyszukiwanie frazy ................................................................................................................. 17
Wyszukiwanie rozmyte............................................................................................................. 17
Konieczność występowania wyrazu lub nie ............................................................................. 17
Operatory zaawansowane ......................................................................................................... 17
Bibliografia................................................................................................................................... 19
Spis treści...................................................................................................................................... 20
20

efekt docelowy - Katedra Informatyki > Home

Transkrypt

Podobne dokumenty

Wyszukiwanie informacji w internecie

Wirtualna etnografia

nowe mo liwości eksploracji zasobów edukacyjnych