Oglądaj/Otwórz

Transkrypt

Oglądaj/Otwórz

Jedna z najlepszych uczelni w Polsce –
wyróżniana przez pracodawców, studentów
i media. Od początku swojej działalności
zajmuje czołowe miejsce w prestiżowych
rankingach uczelni wyższych – wielokrotnie
zdobywała pierwsze miejsce w rankingach
tygodników „Polityka”, „Wprost” i „Newsweek”
oraz Perspektyw/Rzeczpospolitej w kategoriach
uczelni technicznych, jak i niepublicznych.
PJWSTK jest uczelnią akademicką – Wydział
Informatyki posiada uprawnienia do nadawania
stopnia doktora oraz doktora habilitowanego
w dziedzinie nauk technicznych.
Uczelnia prowadzi studia na kierunkach:
Architektura Wnętrz – Wydział Sztuki Nowych
Mediów
studia I stopnia
Grafika – Wydział Sztuki Nowych Mediów
studia I i II stopnia oraz magisterskie jednolite
Informatyka – Wydział Informatyki
studia I, II i III stopnia oraz studia podyplomowe
Kulturoznawstwo – Wydział Kultury Japonii studia I i II stopnia
Główna siedziba znajduje się w samym centrum
Warszawy:
ul. Koszykowa 86
02–008 Warszawa
tel.: 22 584 45 00
www.pjwstk.edu.pl
e-mail: [email protected]
Ośrodki w Bytomiu i w Gdańsku dopełniają
oferty edukacyjnej:
Wydział Zamiejscowy Informatyki w Bytomiu
Aleja Legionów 2
41–902 Bytom
tel.: 32 387 16 60
www.bytom.pjwstk.edu.pl
kierunki: informatyka, grafika
Wydział Zamiejscowy Informatyki w Gdańsku
Wydział Zamiejscowy Sztuki Nowych Mediów
w Gdańsku
ul. Brzegi 55
80–045 Gdańsk
tel.: 58 683 59 75
www.gdansk.pjwstk.edu.pl
Zarządzanie – Wydział Zarządzania Informacją
studia I stopnia
Przy PJWSTK działają także:
Akademickie Centrum Szkoleniowe
Akademickie Liceum Ogólnokształcące
Niepubliczne Liceum Plastyczne
Publikacja współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
02–008 Warszawa, ul. Koszykowa 86
tel.: 22 58 44 526, fax: 22 58 44 503
www.wydawnictwo.pjwstk.edu.pl
ISBN 978–83–63103–30–9
Egzemplarz bezpłatny
Podreczniki akademickie, tom 67
Krzysztof Dobosz
Eksploracja
Internetu
skrypt dla uczestników kursu
Notka biograficzna
Dr inż. Krzysztof Dobosz pracuje na stanowisku adiunkta na Wydziale Zamiejscowym Informatyki Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych
w Bytomiu oraz na Wydziale Automatyki, Elektroniki i Informatyki Politechniki
Śląskiej w Gliwicach. Jego zainteresowania naukowe koncentrują się wokół zagadnień związanych z tworzeniem aplikacji dla sieci Internet i urządzeń mobilnych,
a także inżynierią oprogramowania. Jest autorem wielu publikacji z tej dziedziny.
Streszczenie
Książka poświęcona jest wprowadzeniu do tematyki eksploracji sieci Internet.
Zapoznaje ona Czytelnika z różnymi aspektami dostępu do zasobów Internetu,
zwracając uwagę na istotną rolę przeglądarek internetowych i obsługiwanych przez
nie technologii. Opisano funkcjonalności oprogramowania wyszukującego wyspecjalizowanego w odnajdywaniu pożądanych informacji. Zwrócono też uwagę na
mechanizm pozycjonowania stron internetowych na listach wyników wyszukiwania. Książka obejmuje również podstawowe zagadnienia związane z sieciami semantycznymi. Opracowanie przeznaczone jest dla osób interesujących się przeszukiwaniem zasobów Internetu. Mogą z niego również skorzystać słuchacze informatycznych studiów podyplomowych i uczestnicy kursów dokształcających
w dziedzinie wykorzystania sieci Internet.
c Copyright by Wydawnictwo PJWSTK
Warszawa 2012
Wszystkie nazwy produktów są zastrzeżonymi nazwami handlowymi lub znakami
towarowymi odpowiednich firm.
Książki w całości lub w części nie wolno powielać ani przekazywać w żaden sposób,
nawet za pomocą nośników mechanicznych i elektronicznych (np. zapis magnetyczny) bez uzyskania pisemnej zgody Wydawnictwa.
Edytor
prof. zw. dr hab. Leonard Bolc
Kierownik projektu
prof. dr hab. inż. Konrad Wojciechowski
Redaktor techniczny
Aneta Ługowska
Korekta
Anna Bittner
Komputerowy skład tekstu
Grażyna Domańska-Żurek
Projekt okładki
Rafał Masłyk
Wydawnictwo
Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych
ul. Koszykowa 86, 02-008 Warszawa
tel. +48 22 58–44–526, fax +48 22 58–44–503
Oprawa miękka
ISBN 978-83-63103-30-9
nakład: 50 egz.
Wersja elektroniczna
ISBN 978-83-63103-65-1
Projekt „Uczelnia bliżej biznesu – absolwent bliżej pracy” realizowany w Polsko-Japońskiej
Wyższej Szkole Technik Komputerowych współfinansowany ze środków Unii Europejskiej,
w ramach Europejskiego Funduszu Społecznego. Poddziałanie 4.1.1 „Wzmocnienie potencjału
dydaktycznego uczelni” Programu Operacyjnego Kapitał Ludzki.
Ta książka powinna byc cytowana jako:
Dobosz, K., 2012. Eksploracja Internetu. Warszawa: Wydawnictwo PJWSTK.
Spis tre±ci
1
2
3
Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1
Internet jako ¹ródªo informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Przewodnik po tre±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Przegl¡danie zasobów Internetu . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1
Przegl¡darki internetowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2
Obsªugiwane technologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.3
Podstawowe funkcjonalno±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.4
Konkurencja w±ród przegl¡darek . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Wyszukiwanie w sieci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1
Oprogramowanie wyszukuj¡ce . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.2
Wyszukiwanie informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.2.1
Podstawy wyszukiwania . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.2.2
Wyszukiwanie zaawansowane . . . . . . . . . . . . . . . . . . . . . . .
13
3.2.3
Wyszukiwanie dynamiczne . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.2.4
Ustawienia wyszukiwania . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.2.5
Filtrowanie tre±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2.6
3.3
3.4
Usuwanie witryny z wyników wyszukiwania . . . . . . . . . . .
20
Wyszukiwanie specjalizowane . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3.1
Wyszukiwanie graki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3.2
Wyszukiwanie lmów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.3.3
Google Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.3.4
Google Book Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.3.5
Google Scholar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.3.6
Pozostaªe specjalizowane wyszukiwarki Google . . . . . . . .
28
Narz¦dzia pomocnicze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
VI
Spis tre±ci
3.5
4
5
3.4.1
Czytnik Google . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.4.2
Usªuga Google Translate . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4.3
Usªuga Google AdSense . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
ledzenie aktywno±ci u»ytkownika . . . . . . . . . . . . . . . . . . . . . . . . .
32
Pozycjonowanie witryn internetowych . . . . . . . . . . . . . . . . . . . . . 35
4.1
Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.2
Parametry pozycjonowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.3
Indeksacja stron internetowych . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.4
Sªowa kluczowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.5
Reklama w wyszukiwarkach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
4.6
Kryteria oceny strony internetowej . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.7
Najcz¦stsze bª¦dy pozycjonowania . . . . . . . . . . . . . . . . . . . . . . . . .
44
Wprowadzenie do sieci semantycznych . . . . . . . . . . . . . . . . . . . . . 49
5.1
Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
5.2
Tworzenie sieci semantycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
5.3
Budowa sieci semantycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
5.4
Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.5
Wyszukiwanie semantyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.5.1
Hakia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.6
Powerset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.6.1
57
Przeszukiwanie sieci semantycznej . . . . . . . . . . . . . . . . . . .
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1
Wst¦p
1.1 Internet jako ¹ródªo informacji
Internet to ogólno±wiatowa sie¢ komputerowa. Internet dziaªa w oparciu o istniej¡c¡ ju» infrastruktur¦ telekomunikacyjn¡ oraz specjalistyczny sprz¦t sieciowy pozwalaj¡cy na zyczn¡ komunikacj¦ pomi¦dzy komputerami. Komputery
poª¡czone sieci¡ Internet adresowane s¡ z wykorzystaniem protokoªu komunikacyjnego IP (ang. Internet Protocol ). W oparciu o ten protokóª powstaª zbiór
protokoªów komunikacyjnych. Ka»dy protokóª komunikacyjny jest logicznie
podzielony na warstwy: warstwa ni»sza zapewnia funkcjonalno±¢ wymagan¡
przez najbli»sz¡ warstw¦ wy»sz¡, dodaj¡c jednocze±nie wªasne dane pomocnicze i kontrolne. Protokoªy komunikacyjne s¡ wykorzystywane przez ró»norodne usªugi internetowe. Przykªadem mo»e by¢ np. usªuga WWW (ang. World
Wide Web ) wykorzystuj¡ca protokóª HTTP (ang. Hypertext Transfer Protocol ), dziaªaj¡cy w warstwie wy»szej, na bazie warstwy protokoªu IP. Protokóª
HTTP okre±lany jest te» mianem protokoªu warstwy aplikacji¹ tego wzgl¦du,
»e stanowi on z kolei warstw¦ no±n¡ dla danych tworzonych przez oprogramowanie u»ytkowe, zwane aplikacjami.
Innego rodzaju podstawowe usªugi w sieci Internet to np.:
•
poczta elektroniczna,
•
udost¦pnianie plików,
•
zdalne logowanie,
•
grupy dyskusyjne,
•
listy dyskusyjne,
•
pogaw¦dki IRC (ang. Internet Relay Chat ),
•
telefonia internetowa,
•
wyszukiwanie informacji.
2
1 Wst¦p
Obecnie skoncentrujmy si¦ na usªudze wyszukiwania informacji jako pod-
stawowej usªudze pozwalaj¡cej na eksploracj¦ zasobów sieci Internet. Wspóªczesny czªowiek, gdy potrzebuje szybko odnale¹¢ odpowied¹ na nurtuj¡ce go
pytanie zazwyczaj wª¡cza komputer z dost¦pem do sieci Internet, otwiera swoj¡ ulubion¡ wyszukiwark¦ internetow¡ i wpisuje jakie± pytanie, czy fraz¦ w odpowiednie pole, oczekuj¡c wyników, które pomog¡ mu znale¹¢ odpowied¹ i zaspokoi¢ jego wiedz¦. Zgromadzone w niniejszej publikacji materiaªy pozwol¡
na poznanie podstawowych zagadnie« zwi¡zanych z przegl¡daniem zasobów
sieci Internet, wyszukiwaniem interesuj¡cych informacji oraz skutecznym ich
udost¦pnianiem uªatwiaj¡cym ich odnajdywanie.
1.2 Przewodnik po tre±ci
Prezentowana ksi¡»ka zostaªa podzielona na pi¦¢ rozdziaªów. Rozdziaª pierwszy Wst¦p zawiera wprowadzenie do zagadnie« zwi¡zanych z sieci¡ Internet
oraz niniejszy przewodnik po tre±ci ksi¡»ki.
Rozdziaª drugi pt. Przegl¡danie zasobów Internetu wprowadza czytelnika
w zagadnienia zwi¡zane z przegl¡darkami internetowymi, ich histori¡, a tak»e
ide¡ dziaªania, wykorzystywanymi technologiami, najwa»niejszymi funkcjonalno±ciami.
Rozdziaª trzeci pt. Wyszukiwanie w sieci obejmuje omówienie caªo±ci zagadnie« wyszukiwania pocz¡wszy od podstaw wyszukiwania, poprzez budowanie zaawansowanych wyra»e« i wyszukiwanie dynamiczne. Omówione zostan¡ sposoby konguracji usªugi wyszukiwania, ltrowanie znajdywanych tre±ci
oraz wpªyw na modykowanie wyników wyszukiwania. Rozdziaª ten przybli»a
te» narz¦dzia do wyszukiwania ró»nych typów zasobów: graki, ksi¡»ek, artykuªów, lokacji, wpisów w blogach, czy fragmentów ¹ródeª programów komputerowych. Wskazane zostan¡ tez narz¦dzia pomocne w przetwarzaniu odszukanych zasobów internetowych, a pozwalaj¡ce na ich przetªumaczenie na dowolny j¦zyk b¡d¹ ±ledzenie aktualizacji. Rozdziaª zawiera te» przykªady praktycznych ¢wicze« do wykonania.
Kolejny rozdziaª pt. Pozycjonowanie witryn internetowych przybli»a najwa»niejsze aspekty obsªugi wyszukiwarek internetowych, pocz¡wszy od sposobów indeksacji stron internetowych, poprzez metody ich deniowania wykorzystuj¡ce rol¦ sªów kluczowych i ª¡czy internetowych, a» po mechanizmy
reklamowe pozwalaj¡ce na uzyskiwanie wysokich pozycji w rankingu wyszukiwania. Na ko«cu rozdziaªu znajduj¡ si¦ przykªady ¢wicze« do wykonania.
Rozdziaª czwarty pt. Wprowadzenie do sieci semantycznych zawiera informacje wprowadzaj¡ce do zagadnie« zwi¡zanych z wprowadzaniem technologii
Web 3.0. Najpierw przedstawione zostan¡ podstawowe idee i poj¦cia dotycz¡ce
sieci semantycznych oraz wybrane aspekty wyszukiwania semantycznego.
2
Przegl¡danie zasobów Internetu
2.1 Przegl¡darki internetowe
Przegl¡darka internetowa lub przegl¡darka lub inaczej przegl¡darka WWW,
to program komputerowy sªu»¡cy do pobierania oraz wy±wietlania stron internetowych udost¦pnianych przez serwery WWW. Program ten przy u»yciu ró»nych rozszerze« zwanych wtyczkami, pozwala te» cz¦sto na uruchamianie pobranych zasobów, je±li s¡ to np. zasoby multimedialne takie jak muzyka, lmy,
prezentacje itp. Przegl¡darki internetowe komunikuj¡ si¦ z serwerami zazwyczaj za pomoc¡ protokoªu HTTP lub HTTPS. Cz¦sto wraz z przegl¡darkami
dostarczane s¡ komponenty, które umo»liwiaj¡ korzystanie z serwerów grup
dyskusyjnych, poczty elektronicznej oraz serwerów plików.
Ogromne zainteresowanie Internetem w ci¡gu wszystkich lat jego istnienia,
doprowadziªo do powstania bardzo wielu przegl¡darek serwisów WWW. Niektóre z nich znacz¡co wpªyn¦ªy na kierunek rozwoju tego typu oprogramowania
stanowi¡c swoiste kamienie milowe. Oto ich lista:
•
WorldWideWeb - pierwsza przegl¡darka twóry WWW, Tima BernersaLee, przygotowana w grudniu 1990 roku dla platformy NextStep. Program
zostaª rozesªany do grupy osób w instytucie CERN w marcu 1991 roku.
•
Samba - pierwsza przegl¡darka internetowa dla komputerów Macintosh
uko«czona pod koniec 1992 roku.
•
Mosaic - pierwsza przegl¡darka graczna. Pierwotna wersja zostaªa opracowana dla platformy gracznej X Window System dla ±rodowisk uniksowych w lutym 1993 r. Kilka miesi¦cy pó¹niej pojawiªa si¦ wersja dla komputerów Macintosh. Przegl¡darka ta interpretowaªa grak¦, d¹wi¦k, klipy
wideo i formularze. Zawieraªa te» zakªadki i plik historii. Mosaic staª si¦
m.in. pierwowzorem przegl¡darki Internet Explorer.
•
Lynx - przegl¡darka wywodz¡ca si¦ z University of Kansas. Pomimo, i»
przeznaczona jest do pracy na terminalach tekstowych, to jest rozwijana
do dzisiaj.
4
•
2 Przegl¡danie zasobów Internetu
Opera - przegl¡darka, któr¡ opracowali w 1994 r. pracownicy zespoªu badawczego z rmy telekomunikacyjnej Telenor w Oslo. Pod koniec 2000 roku
program w wersji 5 zostaª udost¦pniony jako darmowy. Pocz¡wszy od wersji 8.50 (rok 2005) program jest pozbawiony wszelkich reklam.
•
Netscape Navigator - program powstaª w 1994 r. w rmie Netscape Communications Corporation jako pierwsza komercyjna przegl¡darka na rynku. Pocz¡tkowo byª oparty na przegl¡darce Mosaic. Ostatnie wersje 8 i 9
bazowaªy na kodzie przegl¡darki Mozilla Firefox.
•
Internet Explorer - przegl¡darka udost¦pniona w 1995 roku wraz z systemem operacyjnym Windows 95. Dzi¦ki tej integracji, po roku aplikacja
ta zdobyªa 1/3 rynku, za± po kolejnych trzech latach staªa si¦ liderem.
Wykorzystuje silnik Trident.
•
Mozilla Suite - nazwa Mozilla byªa pocz¡tkowo nazw¡ kodow¡ przegl¡darki Netscape Navigator. W 1998 roku rma Netscape Communications Corporation upubliczniªa kod ¹ródªowy swojej przegl¡darki, co daªo
pocz¡tek przegl¡darce Mozilla Suite. Pocz¡tkowo miaªa ona jedynie sªu»y¢
jako platforma testowa nowych rozwi¡za« opartych o silnik Gecko. Przez
pewien okres funkcjonowaªa równolegle z przegl¡dark¡ Netscape Navigator. Po Netscape'a uruchomiono kilka projektów bazuj¡cych na Mozillli,
z których najpopularniejszym jest obecnie Firefox.
•
Safari - pierwsza przegl¡darka korzystaj¡ca z opartego na KHTML silnika
WebKit opracowana w 2003 r.
•
Google Chrome - to przegl¡darka opracowana przez rm¦ Google w roku
2008. Bazuje cz¦±ciowo na innych przegl¡darkach m.in. Mozilli oraz silniku
WebKit.
W opisach niektórych wymienionych tu przegl¡darek pojawiªo si¦ poj¦cie
silnika przegl¡darki internetowej (np. Trident, Gecko, WebKit). Jest to mechanizm odpowiadaj¡cy za przetwarzanie zawarto±ci stron internetowych oraz
ich elementów formatuj¡cych, a nast¦pnie wy±wietlenie rezultatu. Poszczególne silniki wykorzystywane przez przegl¡darki internetowe ró»ni¡ si¦ od siebie,
co mo»e czasem doprowadzi¢ do sytuacji, gdy ta sama strona internetowa
wygl¡da inaczej w ró»nych przegl¡darkach.
2.2 Obsªugiwane technologie
Trwaj¡ca na rynku konkurencja w±ród twórców przegl¡darek powoduje, »e oprogramowanie do przegl¡dania stron WWW caªy czas ewoluuje w stron¦ wi¦kszej ergonomii, u»yteczno±ci i wygody u»ytkownika. Nowoczesne przegl¡darki
speªniaj¡ szereg wymaga« i wykorzystuj¡ wiele nowoczesnych technologii:
•
•
protokoªy komunikacyjne HTTP i HTTPS,
j¦zyki znaczników HTML, XML i XHTML,
2.3 Podstawowe funkcjonalno±ci
•
•
•
•
•
•
•
•
5
obiektowy model dokumentu DOM,
skrypty JavaScript,
format graki rastrowej GIF, JPEG, PNG,
format graki wektorowej SVG,
kaskadowe arkusze stylów CSS,
komponenty Adobe Flash,
komponenty Java Applets,
mechanizm ciasteczek.
2.3 Podstawowe funkcjonalno±ci
Ci¡gªy rozwój przegl¡darek internetowych oraz walka o u»ytkowników powoduj¡, »e ich producenci oprócz nowoczesnych technologii wprowadzaj¡ do swoich produktów coraz to nowe u»yteczne funkcjonalno±ci. Mo»na tu wymieni¢
m.in.:
•
•
karty pozwalaj¡ce otwiera¢ nowe strony internetowe w tym samym oknie,
zarz¡dców pobierania plików, pozwalaj¡cych m.in. na automatyczny ponowny transfer w przypadku kªopotów z poª¡czeniem,
•
przechowywanie plików w pami¦ci podr¦cznej, dzi¦ki czemu przyspieszeniu
ulega operacja przeªadowywania strony internetowej,
•
•
mo»liwo±¢ dostosowania interfejsu do preferencji i potrzeb u»ytkownika,
zakªadki pozwalaj¡ce na zapami¦tywanie adresów odwiedzanych witryn internetowych,
•
zapami¦tywanie haseª do cz¦sto odwiedzanych serwisów wymagaj¡cych logowania,
•
skróty klawiaturowe i deniowalne u»ycia myszki pozwalaj¡ce na szybsze
wykonywanie niektórych operacji,
•
automatyczne blokowanie wyskakuj¡cych okienek, które mog¡ by¢ generowane przez zªo±liwe oprogramowanie zamieszczane w niektórych witrynach
internetowych,
•
zarz¡dzanie danymi prywatnymi, takimi jak: historia odwiedzin, dane formularzy,
•
sprawdzanie poprawno±ci pisowni w formularzach np. podczas dost¦pu do
poczty elektronicznej poprzez przegl¡dark¦,
•
•
•
•
powi¦kszanie tekstu, grak lub caªej zawarto±ci strony,
czytniki kanaªów RSS i Atom,
funkcje szybkiego wybierania stron,
obsªuga wszelkich rozszerze« (wtyczek) doª¡czanie niestandardowych funkcjonalno±ci, np. pasek z prognoz¡ pogody itp.
6
2 Przegl¡danie zasobów Internetu
2.4 Konkurencja w±ród przegl¡darek
Sytuacja na rynku przegl¡darek internetowych jest do±¢ specyczna i w znacznej mierze uzale»niona od systemów operacyjnych wykorzystywanych przez
u»ytkowników Internetu. Firma Microsoft wprowadzaj¡c na rynek system operacyjny MS Windows oferuje wraz z nim przegl¡dark¦ Internet Explorer i ka»dy u»ytkownik tego systemu chc¡c, czy nie, ma j¡ zainstalowan¡. Ta monopolistyczna pozycja przegl¡darki Internet Explorer przez dªugi okres uniemo»liwiaªa zaistnienie na rynku innym przegl¡darkom, które z biegiem czasu zacz¦ªy j¡ przewy»sza¢ swoimi mo»liwo±ciami.
Obecnie konkurencja pomi¦dzy przegl¡darkami toczy si¦ w obszarze obsªugi nowoczesnych standardów W3C (ang. World Wide Web Consortium ). Na
korzy±¢ przegl¡darki Microsoftu dziaªa obecnie silna pozycja rynkowa i fakt, »e
wi¦kszo±¢ stron wy±wietla si¦ w niej poprawnie. Pomimo wszystko coraz wi¦cej
u»ytkowników rezygnuje z niej na rzecz innych przegl¡darek, a twórcy witryn
internetowych zaczynaj¡ tworzy¢ coraz wi¦cej stron zgodnych z najnowszymi
standardami. Powstaªy nawet zrzeszenia informuj¡ce wªa±cicieli stron, »e ich
witryna nie jest dobrze wy±wietlana w ró»nych przegl¡darkach, jak równie»
propaguj¡ce przegl¡darki inne ni» Internet Explorer.
Cz¦ste aktualizacje wersji przegl¡darek przez producentów powoduj¡, »e
niektóre z nich zyskuj¡ na popularno±ci, a inne trac¡. Dane publikowane w serwisie gemiusRanking
1 pochodz¡ z projektu dostarczaj¡cego informacji o za-
chowaniu internautów na witrynach internetowych oraz stosowanych przez
nich rozwi¡zaniach technicznych. Dane gromadzone s¡ dzi¦ki skryptom zliczaj¡cym, umieszczonym w kodzie stron podª¡czonych do badania. Udziaª poszczególnych przegl¡darek u»ywanych przez internautów ª¡cz¡cych si¦ z obszaru
Rysunek 2.1.
1
Porównanie popularno±ci przegl¡darek
http://www.ranking.pl/pl/rankings/web-browsers-groups.html
2.4 Konkurencja w±ród przegl¡darek
7
Polski z polskimi witrynami przedstawia si¦ tak jak na rys. 2.1., gdzie kolor
pomara«czowy oznacza Mozilla Firefox, niebieski - Microsoft Internet Explorer, za± zielony - Google Chrome. Przegl¡darki Opera i Safari zajmuj¡ zwykle
miejsca czwarte i pi¡te w obecnie prowadzonych rankingach.
Na dzie« dzisiejszy poza terenem Polski przegl¡darka Firefox nie dominuje
tak bardzo nad Internet Explorerem, za± na terenie Stanów Zjednoczonych
przewa»a w rankingach.
3
Wyszukiwanie w sieci
3.1 Oprogramowanie wyszukuj¡ce
Wyszukiwarka internetowa to serwis wyposa»ony w stron¦ internetow¡, którego zadaniem jest uªatwienie u»ytkownikom znalezienia informacji w sieci. Okre±lenie to stosujemy najcz¦±ciej do:
•
stron internetowych serwisów sªu»¡cych do wyszukiwania informacji, czyli
do oprogramowania wyszukuj¡cego zainstalowanego na serwerach rmowych producenta, a dziaªaj¡cego z interfejsem WWW ogólnodost¦pnym
dla internautów,
•
oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w sieci Internet.
Wyszukiwarki pozwalaj¡ na automatyczne gromadzenie informacji o wszel-
kich plikach zgromadzonych w obszarze sieci, na którym ona dziaªa. Ogromne
zainteresowanie automatyzacj¡ wyszukiwania informacji w sieci Internet doprowadziªo do powstania wielu wyszukiwarek. Oto ich lista tych, których popularno±¢ byªa znacz¡ca od momentu powstania sieci Internet:
•
Archie1 - mechanizm wyszukiwawczy dla usªugi FTP, pozwalaj¡cy przeszukiwa¢ zasoby plików na serwerach FTP. Najwcze±niejsza wersja Archie
(rok 1990) polegaªa na pobieraniu z serwerów FTP list plików (±rednio raz
w miesi¡cu). Listy te mo»na byªo przeszukiwa¢ za pomoc¡ polecenia grep
pochodz¡cego z systemu operacyjnego Unix. Potem opracowano bardziej
zaawansowane mechanizmy oraz interfejs, a lokalny pocz¡tkowo system
zacz¡ª si¦ upowszechnia¢ w sieci, staj¡c si¦ jedn¡ z najpowszechniej u»ywanych usªug w Internecie. Serwery Archie byªy dost¦pne na wiele sposobów,
za pomoc¡ lokalnych klientów (archie i xarchie ), poprzez Telnet, zapytania
za po±rednictwem poczty elektronicznej, wreszcie poprzez strony WWW.
1
http://archie.icm.edu.pl/
10
•
3 Wyszukiwanie w sieci
Altavista2 - to wyszukiwarka internetowa opracowana w 1995 r., której
twórcy opracowali uprzednio nowatorsk¡ metod¦ gromadzenia ka»dego
wyrazu w szybkim, przeszukiwalnym indeksie, co byªo podstaw¡ zbudowania wyszukiwarki sieciowej. Byªa ona te» pierwsz¡ wieloj¦zyczn¡ wyszukiwark¡ i obsªugiwaªa j¦zyki oparte na nieªaci«skich alfabetach, jak japo«ski
czy chi«ski. Posiadaªa narz¦dzia do automatycznej translacji stron oraz
wyszukiwania fraz i multimediów.
•
Yahoo!3 - twórcami jej byli studenci zafascynowani porz¡dkowaniem dokumentów wyszukanych poprzez narz¦dzie Altavista. Pocz¡tkowo strona
z wyszukiwark¡ nazywaªa si¦ Jerry and David's Guide to the World Wide
Web. Strona internetowa stawaªa si¦ coraz bardziej popularna, dlatego te»
nazwa zostaªa zmieniona na Yahoo!, które w 1996 roku zadebiutowaªo na
gieªdzie.
•
Google4 - jako wyszukiwarka internetowa Google zostaªo zaªo»one w ramach projektu studenckiego na Uniwersytecie Stanforda w 1996 roku. Istota jej dziaªania oparªa si¦ na matematycznej analizie zale»no±ci pomi¦dzy
stronami internetowymi. Zamiast na metodach zwykªego segregowania wyników, oparªa si¦ na cz¦stotliwo±ci wyst¦powania wyszukiwanej frazy. Obecnie jest najpopularniejsz¡ wyszukiwark¡ na ±wiecie.
•
Bing5 - przodkiem przegl¡darki Bing byª produkt rmy Microsoft: MSN
Search, który zostaª wprowadzony ocjalnie w 2005 roku. Byª to opracowany od podstaw projekt, przyst¦pny w 10 wersjach j¦zykowych, indeksuj¡cy
w chwili ocjalnej inauguracji co najmniej 5 mld stron. Stopniowo projekt
przeradzaª si¦ w usªug¦ Windows Live, której nalna wersja w 2006 r. ocjalnie zast¡piªa MSN Search. Przegl¡darka Bing pojawiªa si¦ w roku 2009,
jednocze±nie jej poprzednik - Windows Live Search znikn¡ª z sieci.
Serwis gemiusRanking zajmuj¡cy si¦ ró»nymi rankingami zwi¡zanymi z polskim Internetem dostarcza nam równie» informacji o wyszukiwarkach (a wªa±ciwie ich silnikach), z których internauci ª¡cz¡cy si¦ z terenu Polski traaj¡ na
polskie witryny. Przedstawia je rys. 3.1.
Jak mo»na zauwa»y¢, dominuj¡c¡ rol¦ w±ród Polaków peªni wyszukiwarka
Google, za± daleko w tyle, na granicy 1% popularno±ci balansuj¡ przegl¡darki rmy Microsoft aktualnie reprezentowane przez Bing. Pewn¡ zauwa»aln¡
popularno±¢, cho¢ niewidoczn¡ na wykresie, zdobywa równie» wyszukiwarka
6
NetSprint .
Przegl¡darki w celu gromadzenia informacji z sieci Internet mog¡ posªugiwa¢ si¦ ró»nymi metodami. Niektóre z nich to:
2
3
4
5
6
http://www.altavista.com/
http://pl.yahoo.com/
http://www.google.pl/
http://www.bing.com/
http://www.netsprint.pl/
3.1 Oprogramowanie wyszukuj¡ce
Rysunek 3.1.
•
11
Ranking silników wyszukiwarek
analiza tre±ci strony - mechanizm ten bezkrytycznie przeszukuje Internet, analizuj¡c zawarto±¢ stron. Jest bardzo podatny na nadu»ycia, przez
co u»ytkownik zamiast u»ytecznych informacji, dostaje ª¡cza (ang. link ) do
stron niemaj¡cych nic wspólnego z jego zapytaniem.
•
analiza topologii sieci - »eby przeciwdziaªa¢ traktowaniu jako wynik wyszukiwania wyª¡cznie stron zawieraj¡cych wskazane sªowa kluczowe, wyszukiwarki zacz¦ªy stosowa¢ analiz¦ topologii sieci. Otó» odnaleziona strona zostanie uznana za zgodn¡ z tematem, gdy wiele innych stron posiada
do niej swoje ª¡cza. Pierwsz¡ wyszukiwark¡, która zastosowaªa zaawansowane algorytmy analizy topologii sieci byª Google. Wyszukiwarki oparte na
analizie topologicznej s¡ cz¦sto uwa»ane za bardzo odporne na nadu»ycia.
W rzeczywisto±ci stosunkowo cz¦stym atakiem s¡ systemy automatycznej
wymiany ª¡czy. Inn¡ form¡ ataku jest stworzenie du»ej liczby stron ze spor¡ liczb¡ ª¡czy, przy czym wszystkie kieruj¡ na u»ytkownika pod ten sam
adres.
•
aukcja miejsc - pomysª ten polega na wprowadzeniu opªat za ka»de klikni¦cie w ª¡cze, przy czym miejsca na li±cie rezultatów wyszukiwania s¡ licytowane. Metoda ta jest korzystna dla wªa±cicieli stron - pªac¡ oni tylko za
wej±cia, nie za wy±wietlenia. Twórcy twierdz¡, »e jest on równie» korzystny
dla u»ytkownika, bowiem tylko strony, które oferuj¡ co± u»ytecznego z danej dziedziny mog¡ sobie pozwoli¢ na tak¡ reklam¦. Jednak z drugiej strony
wiele u»ytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki b¦d¡ cz¦sto nieoptymalne - np. na tak¡ reklam¦ nie mog¡ sobie pozwoli¢ strony, które maj¡ niskie mar»e i oferuj¡ produkty po niskich cenach, tylko te, które maj¡ wysokie mar»e i oferuj¡ produkty dro»ej.
12
Wspóªczesne oprogramowanie wyszukiwarek jest wysoce skomplikowanym
systemem rozproszonym uruchamianym zwykle w wielu oddzielnych etapach
na tysi¡cach oddzielnych komputerów - zarówno ze wzgl¦du na rozmiar i skal¦
przeszukiwanej sieci, jak te» ze wzgl¦dów na poprawienie dost¦pno±ci usªugi
w wypadku awarii poszczególnych komponentów. Wyszukiwarka jest to wªa±ciwie zestaw programów, z których ka»dy ma oddzielne zadanie. Mo»na tu wymieni¢:
•
roboty sieciowe, które zbieraj¡ informacje zarówno o nowych, jak i o ostatnio modykowanych stronach. Kiedy robot znajduje nowo utworzon¡
stron¦, odczytuje j¡ i przemieszcza si¦ po ª¡czach do innych stron w serwisie WWW. Robot pozostawia po sobie ±lady w dzienniku serwera. Sprawdzaj¡c je, mo»emy uzyska¢ informacje kiedy dany robot odwiedziª stron¦.
Analiza taka dostarcza wielu informacji, na temat dziaªania wyszukiwarek
internetowych;
•
moduªy analizuj¡ce i oceniaj¡ce strony WWW, a nast¦pnie gromadz¡ce
dane o wyst¦puj¡cych w dokumentach wyrazach i innych tre±ciach, które
umieszcza si¦ w wydajnych bazach danych umo»liwiaj¡cych pó¹niejsze szybkie wyszukiwanie wyrazów i fraz bez konieczno±ci ponownego analizowania i przeszukiwania ¹ródªowych dokumentów. Dzi¦ki indeksowaniu wyszukiwarka internetowa mo»e poda¢ wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie;
•
moduª analizuj¡cy przesyªane do wyszukiwarki pytania i wyszukuj¡cy na
nie odpowiedzi,
•
moduªy: prezentacji wyników, konwersji dokumentów, archiwizuj¡ce baz¦
danych o stronach WWW, administracyjne, analizy i wykrywania technik
niepo»¡danych.
3.2 Wyszukiwanie informacji
3.2.1 Podstawy wyszukiwania
W celu wyszukania informacji w wyszukiwarce Google (Rys. 3.2) wystarczy
wprowadzi¢ jedno lub wi¦cej sªów jak najlepiej reprezentuj¡cych wyszukiwane informacje w polu wyszukiwania, a nast¦pnie nacisn¡¢ klawisz Enter albo
7
klikn¡¢ przycisk z symbolem szkªa powi¦kszaj¡cego .
Rysunek 3.2.
7
Podstawowa forma wyszukiwarki Google
http://www.google.pl/intl/pl/help/basics.html.
13
Wyszukiwarka utworzy wtedy stron¦ z wynikami wyszukiwania, czyli list¦
stron internetowych zwi¡zanych z wyszukiwanymi sªowami. Lista ta zostanie
uporz¡dkowana w taki sposób, »e najtrafniejsze wyniki znajduj¡ si¦ na jej
pocz¡tku. Oczywi±cie, podstawowe znaczenie w skutecznym wyszukiwaniu informacji ma dobór wªa±ciwych sªów reprezentuj¡cych poszukiwane informacje.
Wyszukiwarki zwykle nie rozró»niaj¡ wielko±ci liter i wszystkie wprowadzone
przez u»ytkownika b¦d¡ traktowane jako litery maªe. Dlatego te» wyszukiwanie dla dwóch identycznych sªów, z których jedno jest zapisane maªymi, a drugie du»ymi literami, da te same wyniki.
Wyszukiwarka Google zwraca domy±lnie tylko takie strony, które zawieraj¡
wszystkie wyszukiwane wyrazy, przy czym na wyniki wyszukiwania ma wpªyw
kolejno±¢, w jakiej zostaªy podane. Wyszukuj¡c informacje, mo»emy zapisa¢
w oknie wyszukiwarki zapytanie caªym zdaniem, jednak»e wyszukiwarka b¦dzie ignorowa¢ cz¦sto u»ywane sªowa, a w szczególno±ci: spójniki, przyimki,
pojedyncze litery i cyfry. Takie sªowa nie powoduj¡ wyszukania lepszych wyników, a spowalniaj¡ tylko caª¡ operacj¦. Jednak»e w sytuacji, gdy cz¦sto u»ywane sªowo jest po»¡dane w wyszukiwaniu, nale»y postawi¢ przed nim opera-
tor +. Od tej reguªy s¡ wyj¡tki, przykªadowo znak $, jako wykorzystywany
cz¦sto do podawania cen, nie b¦dzie pomini¦ty. Symbole wyst¦puj¡ce w popularnych hasªach o konkretnym znaczeniu, takich jak C++ lub C# (nazwy
j¦zyków programowania), te» nie b¦d¡ ignorowane. Dotyczy to równie» znaku
podkre±lenia _, który nie b¦dzie ignorowany, je±li ª¡czy dwa wyrazy.
W przypadku wyszukiwania caªych fraz, nale»y je po prostu uj¡¢ w znaki
cudzysªowu. Jest to szczególnie wa»ne, gdy poszukiwane s¡ nazwy wªasne takie jak tytuªy lmów, ksi¡»ek czy piosenek.
W przypadku, gdy u»ytkownik zdaje sobie spraw¦, »e wyszukiwane sªowo
ma dwa lub wi¦cej znacze«, to mo»e zaw¦zi¢ obszar wyszukiwania przez wstawienie znaku - przed wyrazami, których w wynikach chce unikn¡¢, a które
równie» mog¡ kojarzy¢ si¦ z poszukiwanym hasªem.
W wyszukiwarce Google znajdowaª si¦ równie» przycisk Szcz¦±liwy traf,
który po wprowadzeniu poszukiwanego wyrazu lub wyrazów, przenosi automatycznie do witryny wskazanej przez wyszukiwark¦ na pierwszym miejscu listy, bez jej wy±wietlania na stronie z wynikami wyszukiwania.
3.2.2 Wyszukiwanie zaawansowane
Wyszukiwarki Google pozwala tak»e na precyzyjniejsze wprowadzanie danych
o poszukiwanych informacjach1, co pozwala na uzyskiwanie bardziej przydatnych odpowiedzi. Sªu»y do tego okno szukania zaawansowanego przedstawione
na rys. 3.3.
Stosuj¡c wyszukiwanie zaawansowane, po wpisaniu poszukiwanego wyrazu, wyrazów, b¡d¹ fraz, mo»liwe jest odnajdywanie stron internetowych które:
•
zostaªy zaktualizowane we wskazanym okresie,
14
Rysunek 3.3.
•
•
•
•
•
•
Okno wyszukiwania zaawansowanego
zawieraj¡ co najmniej jeden z wpisanych wyrazów,
zawieraj¡ wszystkie wpisane wyszukiwane hasªa,
nie zawieraj¡ »adnego z wpisanych wyrazów,
maj¡ okre±lony format pliku,
s¡ napisane w okre±lonym j¦zyku,
znajduj¡ si¦ w okre±lonej domenie lub witrynie.
Wyszukiwanie mo»na tak»e usprawni¢, dodaj¡c operatory do haseª w polu
wyszukiwania lub wybieraj¡c je na stronie Zaawansowane szukanie. Do mechanizmów usprawniaj¡cych mo»emy zaliczy¢:
•
operator + - pozwala m.in. na doª¡czenie do wyszukiwanych fraz kluczowych takich wyrazów, które wyszukiwarka zwykle ignoruje (ª¡czniki,
zaimki itp.); niektóre wyrazy w pierwotnym zapytaniu mog¡ zosta¢ zast¡pione synonimami; dodanie operatora + przed wyrazem skutkuje pomini¦ciem synonimów;
•
operator - - wskazuje, »e w wynikach wyszukiwania nie mog¡ wyst¦powa¢
strony zawieraj¡ce ten wyraz; znak ten mo»e równie» sªu»y¢ do wyª¡czania innych elementów, np. umieszczony przed operatorem ,site: umo»liwi
wyª¡czenie okre±lonej witryny z wyników wyszukiwania;
•
operator fraz
15
- pozwala na umieszczenie wewn¡trz znaków cudzysªowu
grupy wyrazów, która ma zosta¢ wyszukana w komplecie, w podanej kolejno±ci i bez wprowadzania »adnych zmian;
•
operator wypeªniania luk * - umieszczony w zapytaniu zast¦puje w ca-
ªo±ci wszelkie nieznane wyrazy, nie zast¦puje za± ich fragmentów;
•
operator OR - pozwala wyszuka¢ strony zawieraj¡ce jeden z dwóch wyszukiwanych wyrazów; operator OR nale»y zapisywa¢ wielkimi literami,
natomiast operator AND jest stosowany domy±lnie, dlatego nie trzeba go
nigdy zapisywa¢;
•
operator site: - wskazuje na wyszukiwanie informacji tylko w okre±lonej
witrynie; po wprowadzeniu wyszukiwanych wyrazów nale»y poda¢ modykator site z dwukropkiem oraz nazw¦ domeny;
•
operator allintitle: - pozwala na ograniczenie wyników do stron zawieraj¡cych wszystkie wyrazy zapytania w tytule;
•
operator intitle: - umo»liwia ograniczenie wyników wyszukiwania do dokumentów zawieraj¡cych dany wyraz w tytule; umieszczenie tego operatora przed ka»dym wyrazem zapytania da takie same wyniki jak umieszczenie
przed caªym zapytaniem operatora allintitle:
•
operator allinurl: - powoduje ograniczenie wyników do stron zawieraj¡cych wszystkie wyrazy zapytania w adresie URL strony internetowej; operator ten dziaªa na wyrazach, a nie skªadnikach adresów URL, a wi¦c
ignorowana jest interpunkcja;
•
operator inurl: - ogranicza wyniki wyszukiwania do dokumentów zawieraj¡cych dany wyraz w adresie URL; umieszczenie operatora inurl: przed
ka»dym wyrazem zapytania da takie same wyniki jak umieszczenie przed
caªym zapytaniem operatora allinurl:.
Wyszukiwanie zaawansowane pozwala równie» na ograniczenie wyszukiwanych
stron wedªug zgodno±ci ze wskazanym j¦zykiem narodowym, do okre±lonego
okresu czasu, do okre±lonego regionu ±wiata, b¡d¹ okre±lonej witryny internetowej.
3.2.3 Wyszukiwanie dynamiczne
Wyszukiwanie dynamiczne to dodatek do funkcjonalno±ci wyszukiwania daj¡cy mo»liwo±¢ wy±wietlania wyników podczas pisania. Mechanizm ten uªatwia
u»ytkownikom szybsze uzyskiwanie trafnych wyników wyszukiwania. Wyniki
analiz technicznych potwierdzaj¡, »e ludzie powoli pisz¡, ale szybko czytaj¡.
Naci±ni¦cie kolejnego klawisza trwa z reguªy 300 milisekund, natomiast spojrzenie na inn¡ cz¦±¢ strony - okoªo dziesi¦¢ razy krócej, bo zaledwie 30 milisekund. Oznacza to, »e podczas pisania mo»liwe jest przegl¡danie wyników
wyszukiwania ukazuj¡cych si¦ na bie»¡co. Dzi¦ki temu u»ytkownik jest w stanie znacznie szybciej dotrze¢ do wªa±ciwych tre±ci, bowiem z reguªy nie musi
16
wpisywa¢ caªego wyszukiwanego zestawu wyrazów, ani nawet klika¢ przycisku
Szukaj. W wyniku eksperymentów ustalono, »e szybsze wyszukiwanie dzi¦ki
przewidywaniu zapytania i wy±wietlaniu wyników przed zako«czeniem pisania
pozwala zaoszcz¦dzi¢ kilka sekund przy ka»dym wyszukiwaniu.
Inn¡ zalet¡ stosowania dynamicznego wyszukiwania jest lepsze formuªowanie zapyta«, poniewa» ju» w trakcie ich zapisywania widoczne s¡ efekty. Mo»na
dzi¦ki temu na bie»¡co dostosowywa¢ wyszukiwane hasªo, a» do uzyskania po»¡danych wyników. Warto te» zwróci¢ uwag¦ na fakt, »e pomoc¡ w precyzowaniu zapyta« jest funkcja ich przewidywania. Najtrafniejsze przewidywane hasªo wy±wietlane jest szar¡ czcionk¡ bezpo±rednio w polu wyszukiwania, dzi¦ki
czemu mo»na przesta¢ pisa¢, gdy tylko pojawi si¦ to, czego oczekuje u»ytkownik.
Funkcja wyszukiwania dynamicznego powoduje automatyczne wy±wietlenie wyników popularnych zapyta« rozpoczynaj¡cych si¦ wpisanym ci¡giem,
gdy tylko u»ytkownik rozpoczyna wpisywanie wyszukiwanych wyrazów, a wi¦c
ju» od pierwszego wprowadzonego znaku. Algorytm wyszukiwania dynamicznego podejmuje prób¦ przewidzenia pozostaªej cz¦±ci zapytania na podstawie
popularnych wyszukiwa« wykonywanych przez innych u»ytkowników. Wy±wietlone natychmiast wyniki dotycz¡ pierwszego przewidywanego zapytania,
które jest zapisane jasnoszar¡ czcionk¡ w polu wyszukiwania.
Je±li podczas wpisywania wyrazów w polu wyszukiwania nie b¦d¡ si¦ wy±wietlaªy wyniki, wtedy mo»emy mie¢ do czynienia z jedn¡ z nast¦puj¡cych sytuacji:
•
wyszukiwanie dynamiczne nie zostaªo wª¡czone w ustawieniach wyszukiwarki,
•
u»ytkownik korzysta z domeny lub j¦zyka interfejsu Google, w którym nie
udost¦pniono jeszcze wyszukiwania dynamicznego,
•
wyszukiwanie odbywa si¦ na innej stronie ni» strona gªówna Google i strona wyników wyszukiwania,
•
wyszukiwanie odbywa si¦ na stronie iGoogle zamiast na klasycznej stronie
gªównej,
•
•
wyszukiwanie odbywa si¦ przy u»yciu protokoªu SSL Google,
wykorzystywana przegl¡darka internetowa nie obsªuguje dynamicznego
wy±wietlania wyników, czyli jest inna ni»: Firefox 3 i nowsze, Safari 5 dla
komputerów Mac i nowsze, Internet Explorer 8, a tak»e Google Chrome 5
i nowsze,
•
•
funkcja autouzupeªniania zostaªa wcze±niej wyª¡czona,
gdy poª¡czenie internetowe jest szczególnie wolne, dynamicznie otrzymywane wyniki nie s¡ wy±wietlane, by wyszukiwanie i prezentacja ko«cowych
wyników mogªo odbywa¢ si¦ szybciej,
•
pewne typy zapyta«, które mog¡ by¢ nieodpowiednie, nie powoduj¡ automatycznego wy±wietlania wyników - w takim przypadku pojawi si¦ na ek-
17
ranie komunikat z pro±b¡ o naci±ni¦cie klawisza Enter w celu wykonania
wyszukiwania.
Wyszukiwanie dynamiczne poª¡czone z autouzupeªnianiem niesie przede
wszystkim nast¦puj¡ce zalety:
•
oszcz¦dno±¢ czasu - trafne wyniki wyszukiwania otrzymywane s¡ cz¦sto ju»
podczas pisania, dzi¦ki czemu na wyszukiwanie po±wi¦ca si¦ mniej czasu
i mo»esz przej±¢ bezpo±rednio do odnalezionej strony internetowej,
•
mniej pisania - dynamicznie generowane wyniki umo»liwiaj¡ przerwanie
pisania natychmiast po wy±wietleniu potrzebnych informacji,
•
inteligentne wyszukiwanie - automatyczne odpowiadanie na bie»¡co wpisywane wyrazy w polu wyszukiwania jest pewnego rodzaju dialogiem u»ytkownika z wyszukiwark¡, który od razu stwierdza, czy dane wyszukiwane
wyrazy zwracaj¡ wyniki odpowiedniego typu.
Elementem podnosz¡cym szybko±¢ wyszukiwania s¡ równie» specjalne kla-
wisze klawiatury i skróty klawiszowe. S¡ one o tyle przydatne, »e podczas wpisywania wyrazów w polu wyszukiwania zwykle u»ytkownik trzyma obie dªonie
na klawiaturze, a wi¦c si¦ganie po myszk¦ i naprowadzanie jej kursora na cel
do klikni¦cia zabiera stosunkowo du»o czasu.
W polu wyszukiwania dost¦pne s¡ w trakcie pisania nast¦puj¡ce klawisze
specjalne:
•
Enter - powoduje wyszukanie dokªadnie takiego hasªa, jakie wpisano w po-
lu wyszukiwania,
•
Tab powoduje zaktualizowanie wpisanego hasªa, tak aby odpowiadaªo ono
pierwszemu z przewidywanych zapyta«,
•
strzaªka w dóª - powoduje pod±wietlenie nast¦pnego przewidywanego za-
•
strzaªka w gór¦ - klawisz strzaªki w gór¦, a nast¦pnie klawisz Enter spo-
pytania i pokazanie nowych wyników.
woduj¡ wyszukanie pod±wietlonego przewidywanego zapytania i wyró»nienie pierwszego wyniku wyszukiwania na stronie,
•
strzaªka w dóª , nast¦pnie za± strzaªka w prawo powoduj¡ przej±cie do
strony internetowej wymienionej w pierwszym wyniku, podobnie te» mo»na to zrobi¢ za pomoc¡ ª¡cza Szcz¦±liwy traf .
Po wy±wietleniu wyników klawisze specjalne równie» s¡ dost¦pne dla u»y-
tkownika. Mo»emy tu wymieni¢:
•
klawisz Tab, klawisz Enter, a nast¦pnie klawisz strzaªka w dóª' ' umo»liwiaj¡ wybranie wyniku, zaczynaj¡c od pierwszego na li±cie. Obok wyró»nionego wyniku uwidoczniona jest maªa strzaªka. Nast¦pnie, aby otworzy¢
pierwsz¡ stron¦ internetow¡ mo»na naci±ni¦¢ klawisz Enter, lub klawisz
strzaªka w dóª , aby wybra¢ nast¦pny wynik;
18
•
Tab umo»liwia pod±wietlenie ró»nych ª¡czy i funkcji dost¦pnych w ramach
wybranego wyniku;
•
klawisz strzaªka w prawo powoduje otwarcie podgl¡du wybranego wyniku; za pomoc¡ klawiszy strzaªka w gór¦ oraz strzaªka w dóª mo»liwe
jest przechodzenie mi¦dzy wynikami przy wª¡czonym podgl¡dzie; strzaªka
w lewo lub Esc powoduje zako«czenie trybu podgl¡du.
3.2.4 Ustawienia wyszukiwania
Aby sposób wyszukiwania w sieci Internet odpowiadaª oczekiwaniom u»ytko-
8
wników, mo»liwe jest skongurowanie pewnych jego opcji wyszukiwania , które w dowolnej chwili mo»na zmieni¢. ¡cze, b¡d¹ graka z ª¡czem do ustawie«
znajduje si¦ zazwyczaj w prawym górnym rogu gªównej strony wyszukiwarki.
Ustawienia te zapisane s¡ na komputerze u»ytkownika w niewielkich plikach
pomocniczych tworzonych przez przegl¡dark¦, zwanych ciasteczkami (ang. cookies ). Aby byªo to mo»liwe, obsªuga ciasteczek musi by¢ w przegl¡darce wª¡-
czona.
Skongurowa¢ mo»na:
•
j¦zyk interfejsu - jest to j¦zyk gªównej strony wyszukiwarki Google;
ustawienie to powoduje, »e podpowiedzi, komunikaty i przyciski w witrynie
Google.com
b¦d¡ wy±wietlane w wybranym j¦zyku narodowym,
a dodatkowo w wynikach wyszukiwania automatycznie preferowane b¦d¡
strony internetowe napisane w tym samym j¦zyku;
•
j¦zyk wyszukiwania - podczas wyszukiwania automatycznie b¦d¡ preferowane strony napisane w wybranym j¦zyku interfejsu, mo»na to jednak
zmieni¢ wskazuj¡c inne j¦zyki narodowe;
•
lokalizacja - pozwala na okre±lenie wªasnej lokalizacji, która b¦dzie uwzgl¦dniana podczas dostosowywania wyników w wyszukiwarce Google oraz
innych usªugach i aplikacjach tej rmy; pomimo nieustawienia tej opcji,
lokalizacja b¦dzie dla wyszukiwarki cz¦±ciowo znana dzi¦ki widoczno±ci
numeru IP komputera, którym posªuguje si¦ u»ytkownik;
•
wyszukiwanie dynamiczne - wª¡cza usªug¦ wyszukiwania dynamicznego w trakcie wpisywania wyrazów do wyszukania;
•
ltr rodzinny - ltr pozwalaj¡cy tak skongurowa¢ przegl¡dark¦, by tre±ci dla dorosªych nie pojawiaªy si¦ w wynikach wyszukiwania; szerzej zostaªo
opisane w kolejnym rozdziale;
•
liczba wyników - domy±lnie jednej stronie b¦dzie wy±wietlanych 10
wyników; w przypadku, gdy wyszukiwanie dynamiczne nie jest wª¡czone,
mo»na zwi¦kszy¢ t¦ warto±¢ do 20, 30, 50 lub 100;
8
http://www.google.pl/preferences
•
19
okno wyników - pozwala na otwierane w osobnym oknie (lub na osobnej karcie w niektórych przegl¡darkach) klikni¦tego wyniku wyszukiwania;
domy±lnie wczytanie danej strony nast¦puje w tym samym oknie lub na
tej samej karcie, co u»yte do wyszukiwania;
•
przewidywane zapytania - podczas wpisywania wyrazów w polu wyszukiwania, poni»ej wy±wietlana jest lista przewidywanych zapyta« podobnych do wªa±nie wprowadzanego;
•
wyszukiwanie dynamiczne - zezwala na dynamiczne wy±wietlanie wyników podczas wpisywania wyrazów do wyszukiwania;
•
zablokowane witryny - zalogowani u»ytkownicy serwisu Google mog¡
blokowa¢ pojawianie si¦ wybranych witryn w wynikach wyszukiwania.
3.2.5 Filtrowanie tre±ci
W wielu domach z tego samego komputera co doro±li, korzystaj¡ dzieci i osoby
niepeªnoletnie. Z tego powodu wielu u»ytkowników nie »yczy sobie, aby w wynikach wyszukiwania byªy uwzgl¦dniane tre±ci dla dorosªych. Filtr rodzinny
Google SafeSearch pozwala tak skongurowa¢ przegl¡dark¦, by tre±ci dla doro-
sªych nie pojawiaªy si¦ w wynikach wyszukiwania. Wyszukiwarka stosuje metody identykowania tre±ci budz¡cej zastrze»enia bazuj¡ce na algorytmach
uwzgl¦dniaj¡cych liczne czynniki, w tym sªowa kluczowe, linki i graki. Pomimo tego, »e »aden ltr nie gwarantuje 100% skuteczno±ci, to udaje si¦ wykrywa¢ i blokowa¢ wi¦kszo±¢ materiaªów o charakterze jednoznacznie seksualnym.
Filtr rodzinny mo»na wª¡czy¢ na stronie internetowej z ustawieniami wy-
9
szukiwarki Google . W sekcji Filtr rodzinny (ang. SafeSearch ) mo»na wybra¢
poziom dziaªania ltru, który ma by¢ u»yty:
•
ltrowanie ±cisªe - powoduje usuni¦cie lmów i grak o charakterze jednoznacznie seksualnym ze stron wyników wyszukiwania, a tak»e wyników,
które mog¡ zawiera¢ ª¡cza do tre±ci dla dorosªych.
•
ltrowanie umiarkowane (ustawienie domy±lne) - powoduje usuni¦cie
lmów i grak o charakterze jednoznacznie seksualnym ze stron wyników
wyszukiwania, ale nie wyklucza wyników, które mog¡ zawiera¢ linki do
tre±ci dla dorosªych;
•
brak ltrowania - caªkowicie wyª¡cza ltr rodzinny.
Oczywi±cie mo»e zdarzy¢ si¦, »e kto± zmieni ustawienie ±cisªego ltrowania
bez wiedzy gªównego u»ytkownika komputera. Dlatego dla u»ytkowników zalogowanych do serwisu Google udost¦pniono mo»liwo±¢ blokady ustawienia
ltru przy u»yciu hasªa. Po zablokowaniu ltru strona wyników wyszukiwania
10 , aby wskaza¢, »e ltr
Google jest wy±wietlana inaczej (przykªad na rys. 3.4)
rodzinny zostaª zablokowany.
9
10
http://www.google.pl/preferences
http://www.google.pl/familysafety/tools.html
20
Rysunek 3.4.
Symbol blokady ltru rodzinnego
Autorzy przegl¡darki Google, apeluj¡ o zgªaszanie sytuacji, kiedy pomimo
ustawie« ltrowania umiarkowanego, b¡d¹ ±cisªego, niektóre tre±ci budz¡ce zastrze»enia przedostaj¡ si¦ do wyników wyszukiwania. Jednocze±nie ka»dy u»ytkownik powinien pami¦ta¢, »e ltr udost¦pniany przez przegl¡dark¦ nie zast¡pi czujnego oka rodzica dbaj¡cego o bezpiecze«stwo rodziny podczas wyszukiwania w sieci Internet.
Filtr rodzinny jest uzale»niony od wª¡czonej obsªugi ciasteczek. Usuni¦cie
tych plików mo»e spowodowa¢ zresetowanie ustawie« ltru rodzinnego.
3.2.6 Usuwanie witryny z wyników wyszukiwania
W±ród pocz¡tkuj¡cych internautów kr¡»¡ opinie, »e to wªa±ciciele przegl¡darek decyduj¡ o tym, co i w jakiej kolejno±ci uwidaczniane jest na li±cie wyników
wyszukiwania. Tymczasem, w rzeczywisto±ci witryny pojawiaj¡ce si¦ w wynikach wyszukiwania Google s¡ kontrolowane przez osoby, które nimi zarz¡dzaj¡.
Ka»dy wªa±ciciel witryny ma m.in. kilka mo»liwo±ci usuni¦cia tre±ci (w tym
fragmentu, tytuªu i zawarto±ci strony, a tak»e adresu URL oraz caªej witryny)
z wyników wyszukiwania. Wªa±ciciel mo»e usun¡¢ odpowiednie informacje ze
strony, caªkowicie usun¡¢ stron¦ z sieci lub okre±li¢ ustawienia informuj¡ce
wyszukiwark¦ Google, »e nie powinna pobiera¢ ani indeksowa¢ strony. W zale»no±ci od typu tre±ci, która ma zosta¢ usuni¦ta, nale»y speªni¢ ró»ne wymagania. Po wprowadzeniu tych zmian i ponownym zaindeksowaniu witryny
przez Google tre±¢ powinna zosta¢ automatycznie usuni¦ta z indeksu Google.
Je»eli jednak zaistnieje konieczno±¢ (przykªadowo w sytuacji, gdy zawieraj¡ dane poufne) szybkiego usuni¦cia witryny z wyników wyszukiwania, mo»na
przyspieszy¢ ten proces, u»ywaj¡c odpowiedniego narz¦dzia Google do usuwa-
11 . Narz¦dzie do usuwania adresów URL umo»liwia pilne usuni¦cie
nia tre±ci
adresów URL, pod którymi na przykªad znajduj¡ si¦ przypadkowo ujawnione
11
http://www.google.com/support/bin/static.py?page=ts.cs&ts=1114905
3.3 Wyszukiwanie specjalizowane
21
poufne dane. Je±li w witrynie wprowadzono niedawno zmiany, roboty Google
wykryj¡ to podczas ponownego indeksowania adresów URL i wszelkie nieaktualne strony zostan¡ po pewnym czasie automatycznie usuni¦te z wyników
wyszukiwania. Nie ma potrzeby zgªaszania pro±by o pilne usuni¦cie. Aby móc
u»y¢ narz¦dzia, nale»y speªni¢ okre±lone wymagania. Je±li witryna nale»y do
autora zgªoszenia, mo»liwe jest zgªoszenie pro±by o usuni¦cie problematycznej
strony z wyników wyszukiwania Google, korzystaj¡c z programu do usuwania
adresów URL znajduj¡cego si¦ w narz¦dziach dla webmasterów udost¦pnia-
12 . Je±li natomiast witryna nie nale»y do autora zgªo-
nych przez rm¦ Google
szenia, to w pierwszej kolejno±ci nale»y skontaktowa¢ si¦ z jej webmasterem
i poprosi¢ o usuni¦cie tre±ci. Po wprowadzeniu zmian, mo»na zgªosi¢ pro±b¦
o usuni¦cie tre±ci pojawiaj¡cej si¦ w kopii strony znajduj¡cej si¦ w pami¦ci
podr¦cznej albo we fragmencie strony w wynikach wyszukiwania Google, u»ywaj¡c publicznego narz¦dzia do usuwania adresów URL. Wówczas wªa±ciciel
witryny zobaczy tak¡ pro±b¦ o usuni¦cie na swoim koncie narz¦dzi dla webmasterów.
3.3.1 Wyszukiwanie graki
Firma Google udost¦pnia nowy sposób wyszukiwania - wyszukiwanie za pomoc¡ obrazów (rys. 3.5)
13 . Wskazuj¡c odpowiednie zdj¦cie, mo»na znale¹¢ w sieci
Internet ró»ne informacje na jego temat.
Mo»emy wskaza¢ trzy sposoby wyszukiwania obrazem:
•
przeci¡gni¦cie i upuszczenie - obraz znaleziony w sieci lub na komputerze
mo»na przeci¡gn¡¢ na pole wyszukiwania,
•
wklejenie adresu URL obrazu - na znalezionej w sieci grace wystarczy klikn¡¢ prawym przyciskiem myszki i skopiowa¢ adres URL, który na stronie
wyszukiwarki graki wklejamy po klikni¦ciu na ikon¦ aparatu fotogracznego, nast¦pnie wybieramy opcj¦ Wklej adres obrazu .
•
przesªanie z komputera - klikni¦cie na ikon¦ aparatu fotogracznego na
stronie wyszukiwania obrazów i wybranie opcji Prze±lij obraz , a nast¦pnie wybranie obrazu lub zdj¦cia, które ma zosta¢ u»yte do wyszukiwania.
Oprócz wymienionych sposobów wyszukiwania obrazem, mo»na oczywi±cie
wyszukiwa¢ obrazy zwi¡zane z odpowiednim wyrazem lub wyrazami. Mo»liwe
jest równie» wybranie zaawansowanego trybu wyszukiwania graki w celu zaw¦»enia wyników wyszukiwania (rys. 3.6). Mo»na wtedy poda¢ jego:
12
13
http://www.google.com/support/webmasters/bin/topic.py?topic=8464
http://www.google.pl/imghp?hl=pl&tab=wi
22
Rysunek 3.5.
Rysunek 3.6.
Gªówna strona wyszukiwarki graki
Okno zaawansowanego wyszukiwania graki
•
•
23
rozmiar o okre±lonej b¡d¹ przybli»onej rozdzielczo±ci,
wspóªczynnik proporcji (np. obrazy prostok¡tne, obrazy panoramiczne, obrazy kwadratowe),
•
•
•
typ (np. twarz, zdj¦cie, obiekt clip art, graka wektorowa),
¹ródªo (konkretna witryna, b¡d¹ domena internetowa),
kolor (biaªo-czarne, kolorowe, w okre±lonym kolorze).
Przyspieszenie wyszukiwania za pomoc¡ obrazu, mo»na równie» uzyska¢
pobieraj¡c odpowiednie rozszerzenie dla Google Chrome lub Mozilla Firefox.
Wystarczy wówczas po prostu klikn¡¢ na dowoln¡ grak¦ ulokowan¡ na stronie
WWW, a wyszukiwarka Google znajdzie o niej informacje.
3.3.2 Wyszukiwanie lmów
Najpopularniejszym serwisem sªu»¡cym do wyszukiwania lmów bez w¡tpie-
14 . Jest to serwis internetowy dziaªaj¡cy od roku 2005, który
nia jest YouTube
umo»liwia bezpªatne umieszczanie i ogl¡danie lmów (rys. 3.7). Pozwala on
na wy±wietlanie szerokiej gamy lmów zamieszczonych przez u»ytkowników.
Mog¡ to by¢ zwiastuny lmowe lub telewizyjne, teledyski oraz dzieªa zupeªnie
amatorskie, np. krótkie lmy nakr¦cone telefonem komórkowym. Wi¦kszo±¢
materiaªów zostaªa zaªadowana na YouTube przez prywatne osoby, ale wiele
rm wykorzystuje mo»liwo±ci serwisu jako reklam¦ swoich usªug, b¡d¹ produktów.
Rysunek 3.7.
Gªówny panel serwisu YouTube
Niezarejestrowani u»ytkownicy mog¡ w serwisie ogl¡da¢ lmy, podczas gdy
zarejestrowani maj¡ mo»liwo±¢ umieszczenia ich w nieograniczonej ilo±ci. Filmy, które zostan¡ uznane za zawieraj¡ce tre±ci nieodpowiednie s¡ dost¦pne tylko dla zarejestrowanych w wieku co najmniej 18 lat. Na stronach serwisu wy±wietlane s¡ reklamy. Wedªug Google b¦d¡cej wªa±cicielem serwisu, dziennie
na YouTube umieszczanych jest okoªo 100 tys. ró»nych. lmów, zajmuj¡cych
ok. 2.5 TB pami¦ci.
14
http://www.youtube.com/
24
3.3.3 Google Maps
Wyszukiwarka Google Maps
15 pozwala nam obejrze¢ mapy oraz zdj¦cia sateli-
tarne okolicy, która nas otacza. Mo»liwe jest tak»e przegl¡danie mapy w wersji
mieszanej, na którym obejrzymy wtedy zdj¦cie satelitarne z naniesionym gracznym planem ulic wraz z ich nazwami b¡d¹ oznaczeniami.
Chc¡c odnale¹¢ jak¡± lokacj¦, na stronie gªównej wyszukiwarki wpisujemy
przykªadowo: aleja legionów 2 bytom polska i po naci±ni¦ciu na symbol szkªa
powi¦kszaj¡cego, na umieszczonej obok mapie otrzymujemy wynik wyszukiwania (rys. 3.8).
Rysunek 3.8.
Przykªadowy widok mapy
Zdj¦cie lub plan miasta mo»na powi¦kszy¢ albo sprawdzi¢ poªo»enie miasta zmniejszaj¡c skal¦. Dodatkowe funkcje serwisu pozwalaj¡ na odnalezienie
informacji o:
•
korkach,
•
pogodzie,
•
dost¦pnych zdj¦ciach miejsc widocznych na mapie,
•
dost¦pnych kamerach internetowych.
15
http://maps.google.com
25
Po wyszukaniu »¡danej lokacji mo»liwe jest odnalezienie interesuj¡cych nas
miejsc znajduj¡cych si¦ w pobli»u wyszukanego (rys. 3.9).
Rysunek 3.9.
Okno wyszukiwania miejsc znajduj¡cych si¦ w pobli»u
Serwis pozwala tak»e na wyszukanie trasy dojazdu do odnalezionej lokacji
z innego miejsca wskazanego przez u»ytkownika (rys. 3.10).
Rysunek 3.10.
Okno wyszukiwania trasy dojazdu
Chocia» jako±¢ tej usªugi znacznie odbiega od mo»liwo±ci oferowanej przez
profesjonalne systemy nawigacyjne, to jednak uruchomiona na urz¡dzeniu mobilnym wyposa»onym w odbiornik GPS pozwala w podobny sposób dotrze¢
do celu.
26
3.3.4 Google Book Search
Wyszukiwarka Google Book Search
16 jest znakomit¡ pomoc¡ przy wyszukiwa-
niu ró»nych pozycji literaturowych. Wyszukiwanie w niej ksi¡»ek jest równie
proste, jak wyszukiwanie stron w zwykªej wyszukiwarce internetowej Google
- wystarczy wpisa¢ poszukiwane sªowo lub fraz¦ w polu wyszukiwania. Znajdowane s¡ wszystkie ksi¡»ki, których tre±¢ odpowiada wyszukiwanym hasªom.
Po klikni¦ciu tytuªu ksi¡»ki wy±wietlone zostan¡ podstawowe informacje jej
dotycz¡ce, takie jak w katalogu bibliotecznym. Mo»na zobaczy¢ te» kilka fragmentów ksi¡»ki pozwalaj¡cych zobaczy¢ wyszukiwane hasªo w kontek±cie. Je±li
wydawca lub autor ksi¡»ki udzieliª nam odpowiedniego zezwolenia, mo»liwe
b¦dzie wy±wietlanie caªych stron i przegl¡danie ksi¡»ki w celu obejrzenia innych stron. Je±li ksi¡»ka nie jest chroniona prawami autorskimi, wy±wietlana
b¦dzie caªa strona i mo»liwe b¦dzie przegl¡danie ksi¡»ki w caªo±ci. Klikni¦cie
przycisku Wyszukaj w tej ksi¡»ce pozwala na wyszukiwanie dalszych haseª
wewn¡trz wybranej ksi¡»ki. Klikni¦cie któregokolwiek z linków Kup t¦ ksi¡»k¦ spowoduje przej±cie bezpo±rednio do ksi¦garni internetowych, w których
mo»na kupi¢ dan¡ ksi¡»k¦. W wielu przypadkach mo»na równie» skorzysta¢
z ª¡cza Znajd¹ t¦ ksi¡»k¦ w bibliotece w celu zlokalizowania miejscowej biblioteki, z której mo»na wypo»yczy¢ ksi¡»k¦.
Wyszukiwarka w przypadku polskiej literatury odsyªa nas cz¦sto do strony
NUKAT
17 (rys. 3.11), na której znajduje si¦ centralna przeszukiwarka zaso-
bów bibliotecznych polskich uniwersytetów, która równie» mo»e by¢ bardzo
pomocna w wyszukiwaniu ksi¡»ek.
Rysunek 3.11.
Okno wyszukiwarki NUKAT
NUKAT jest katalogiem centralnym zbiorów polskich bibliotek naukowych
i akademickich. Od lipca 2002 roku biblioteki te wprowadzaj¡ do NUKAT-u
dane o swoich bie»¡cych i starszych nabytkach. Na ko«cu ka»dego opisu dokumentu wyszukanego w bazie NUKAT znajduje si¦ lista nazw bibliotek udos16
17
http://books.google.com/
http://www.nukat.edu.pl
27
t¦pniaj¡cych ten dokument, a klikni¦cie na nazw¦ biblioteki pozwala sprawdzi¢
dost¦pno±¢ publikacji w danej bibliotece.
W pomocy znajduj¡ si¦ wskazówki pozwalaj¡ce na efektywne korzystanie
z katalogu NUKAT. Administratorzy zalecaj¡ wyszukiwanie w nast¦puj¡cej
kolejno±ci:
•
•
katalog NUKAT,
wyszukiwarka w katalogu rozproszonym, je±li nie znaleziono informacji
w bazie NUKAT,
•
katalog online wybranej biblioteki, je±li nie znaleziono informacji w katalogu rozproszonym,
•
zeskanowany katalog biblioteki (dost¦pny na jej stronie
www)
lub katalog
kartkowy (dost¦pny bezpo±rednio w bibliotece), je±li nie znaleziono informacji w katalogu online biblioteki,
•
zagraniczne katalogi centralne i katalogi poszczególnych bibliotek zagranicznych, je±li nie znaleziono informacji w katalogach polskich.
3.3.5 Google Scholar
W wyszukiwarce Google Scholar
18 mo»emy znale¹¢ recenzowane przez eksper-
tów dokumenty, tezy, ksi¡»ki, streszczenia i inn¡ literatur¦ naukow¡ z wszelkich dziedzin (rys. 3.12). Dost¦pne s¡ te» prace wielu wydawców akademickich
i towarzystw naukowych, a tak»e artykuªy naukowe publikowane w Internecie.
Program Google Scholar mo»e tak»e zawiera¢ kilka wersji jednej pracy, które
mog¡ by¢ dost¦pne.
Rysunek 3.12.
Okno zaawansowanego wyszukiwania dokumentów
Google Scholar uªatwia wyszukiwanie tekstów naukowych. W jednym miej-
scu mo»na wyszukiwa¢ materiaªy z wielu dziedzin i ¹ródeª: artykuªy recenzo18
http://scholar.google.pl/
28
wane, prace naukowe, ksi¡»ki, streszczenia oraz artykuªy pochodz¡ce z wydawnictw naukowych, towarzystw naukowych, repozytoriów materiaªów zgªoszonych do publikacji, uniwersytetów i innych organizacji akademickich.
Wyszukiwarka Google Scholar sortuje prace w sposób taki, jak robi¡ to badacze, nadaj¡c wag¦ caªemu tekstowi pracy, autorowi, publikacji zawieraj¡cej
prac¦ i cz¦sto±ci cytowania dzieªa w innej literaturze naukowej. Najtrafniejsze
wyniki s¡ zawsze wy±wietlane na pierwszej stronie.
W usªudze Google Scholar oferowane jest rozwi¡zanie uªatwiaj¡ce osobom
odwiedzaj¡cym bibliotek¦ znalezienie literatury w zasobach elektronicznych
oraz drukowanych. Pierwszym z nich jest program linków bibliotecznych. Je±li
istniej¡ biblioteki udost¦pniaj¡ce swoje zasoby przy u»yciu narz¦dzia rozpoznawania, to dla nich wyszukiwarka oferuje mo»liwo±¢ umieszczania ª¡czy do
tych zasobów na stronie z wªasnymi wynikami wyszukiwania.
Wszystkim u»ytkownikom wyszukiwarki Google Scholar tu» przy wynikach
wyszukiwania ksi¡»ek wy±wietlane jest równie» ª¡cze do wyszukiwarki bibliotek WorldCat
19 , w której mo»na znale¹¢ list¦ pobliskich bibliotek dysponuj¡-
cych poszukiwan¡ ksi¡»k¡.
3.3.6 Pozostaªe specjalizowane wyszukiwarki Google
•
Google Finance
20 - prezentuje i wyszukuje informacje nansowe, na przy-
kªad informacje gieªdowe aktualno±ci o spóªkach akcyjnych, ich wyniki nansowe, podstawowe informacje o dziaªalno±ci, histori¦ notowa« itp. S¡
one na bie»¡co aktualizowane. W przeszukiwanych zasobach znajduj¡ si¦
informacje o gieªdach z caªego ±wiata, tak»e Polski, cho¢ caªy interfejs wyszukiwarki dost¦pny jest jedynie w j¦zyku angielskim.
•
Google Blog Search
21 - poszukuje zadan¡ przez nas fraz¦ lub termin w blo-
gach. Oczywi±cie wyszukiwanie mo»emy ograniczy¢ do blogów w okre±lonej domenie, a nast¦pnie stosowa¢ ró»ne operatory wyszukiwania zaawansowanego. Mo»emy tak»e ograniczy¢ poszukiwania do artykuªów publikowanych w okre±lonym przedziale czasowym. Warto pami¦ta¢ o tej funkcji
wyszukiwania, poniewa» informacje i opinie, które mo»emy znale¹¢ na blogach, mog¡ by¢ naprawd¦ pomocne. Wyszukiwarka nie jest dost¦pna w j¦zyku polskim, ale przeszukuje tak»e polskie blogi.
•
Google Product Search
22 - jest wyszukiwark¡ produktów zarejestrowanych
w sklepach internetowych rmy Google. Pozwala segregowa¢ wyniki wzgl¦dem ceny, kataloguje je wzgl¦dem funkcji itp. Nie ma lokalizacji w j¦zyku
polskim, najbli»sza nam geogracznie jest wersja niemiecka. Wyszukiwarka
ta jest kontynuacj¡ narz¦dzia Froogle.
19
20
21
22
http://www.worldcat.org/
http://www.google.com/finance
http://www.google.com/blogsearch
http://www.google.com/prdhp
•
Google Code Search
29
23 - to jeden z najnowszych projektów. Jest to wyszuki-
warka przeznaczona gªównie dla programistów. Uªatwia ona znalezienie
potrzebnego fragmentu kodu lub denicji funkcji. Aby rezultat poszukiwa« byª jak najbardziej dokªadny, w zapytaniach mo»na u»ywa¢ wyra»e«
regularnych zgodnych ze standardem POSIX. Dodatkowo mo»na zaw¦»a¢
poszukiwania do konkretnego j¦zyka, a nawet pakietu, z którego ma pochodzi¢ kod. Wyszukiwarka ta indeksuje dost¦pne publicznie kody ¹ródªowe,
ª¡cznie z tymi umieszczonymi w skompresowanych archiwach i repozytoriach. Jako ciekawostk¦ warto doda¢, »e dla ka»dego znalezionego programu
Google Code Search próbuje automatycznie wykry¢ typ licencji, na jakiej
jest on rozpowszechniany, by nast¦pnie wy±wietli¢ t¦ informacj¦.
•
Google Patents Search
24 - przeszukuje baz¦ danych patentów (licz¡c¡ ok.
7 mln. pozycji) w poszukiwaniu wpisanego hasªa. Wyszukiwarka obejmuje
patenty zarejestrowane w ameryka«skim urz¦dzie patentowym. Wyniki
prezentuje w przejrzystej formie gracznej i tekstowej. Wyszukiwania mog¡
by¢ prowadzone w ograniczeniu do okre±lonego przedziaªu czasowego (rejestracji lub ko«ca ochrony patentowej), wedªug numeru patentu, klasykacji do okre±lonej kategorii itp. Wykorzystywane mog¡ by¢ tak»e matematyczne operatory wyszukiwania zaawansowanego.
•
Google Special Searches
25 - to kilka ró»nych wyszukiwarek tematycznych,
których obszar wyszukiwania jest ograniczony do stron zwi¡zanych z okre±lonym tematem. Aktualnie do naszej dyspozycji jest pi¦¢ wyszukiwarek
tematycznych:
◦
◦
◦
◦
◦
◦
26 ,
wyszukiwarka ograniczona do stron zwi¡zanych z Apple Macintosh
27
wyszukiwarka ograniczona do stron dotycz¡cych systemu Linux ,
28
wyszukiwarka ograniczona do stron dotycz¡cych rmy Microsoft ,
29
wyszukiwarka ograniczona do stron dotycz¡cych systemu BSD ,
30
wyszukiwarka ograniczona do stron dotycz¡cych rz¡du USA ,
31 .
wyszukiwarka zwi¡zana ze szkoªami wy»szymi
Istnieje równie» interesuj¡cy projekt Google, zwi¡zany ze specjalizacj¡ wyszukiwarek pozwalaj¡cy na utworzenie wªasnej wyszukiwarki przeznaczonej
32 . O ile twórca specja-
dla wªasnej witryny internetowej czy te» specjalizacji
23
24
25
26
27
28
29
30
31
32
http://google.com/codesearch
http://www.google.com/patents
http://www.googleguide.com/special_searches.html
http://www.google.com/mac
http://www.google.com/linux
http://www.google.com/microsoft
http://www.google.com/bsd
http://www.google.com/unclesam
http://www.google.com/options/universities.html
http://www.google.com/cse/
30
lizacji dopu±ci tak¡ opcj¦, to opracowane przez kogo± wyszukiwarki mo»e rozwija¢ ka»dy u»ytkownik.
3.4 Narz¦dzia pomocnicze
3.4.1 Czytnik Google
Ciekawym pomysªem jest opracowanie narz¦dzi automatyzuj¡cych sprawdzanie aktualizacji pojawiaj¡cych si¦ informacji w interesuj¡cych dla u»ytkownika witrynach internetowych. Pocz¡tkowo byªo to mo»liwe wyª¡cznie w oparciu
o kanaªy informacyjne niezwi¡zane z j¦zykiem opisu stron internetowych, jakimi s¡ RSS i ATOM. Popularno±¢ kanaªów RSS i ATOM sprawiªa, »e wielu
u»ytkowników w ogóle przestaªo bezpo±rednio odwiedza¢ swoje ulubione strony WWW. Problem polegaª na tym, »e niektóre witryny nie oferuj¡ takich kanaªów aktualizacji. Niektóre witryny ±wiadomie rezygnuj¡ z kanaªów RSS, bowiem uwa»aj¡, »e ograniczaj¡ wpªywy z reklam. Oczywi±cie internauci ju» od
dawna maj¡ do dyspozycji wiele wyspecjalizowanych aplikacji tworz¡cych kanaªy RSS na »yczenie. Wiele z nich nie dziaªa jednak prawidªowo.
Wiele rm znalazªo sposób na obej±cie tego ograniczenia. Równie» rma
Google wprowadziªa narz¦dzie (rys. 3.9) umo»liwiaj¡ce ±ledzenie tre±ci serwisów, które nie obsªuguj¡ tego standardu RSS. W praktyce internauta jest
w stanie poda¢ dowolny link - aplikacja poinformuje o ka»dej modykacji pod
docelowym adresem. Taka funkcja przydaje si¦ chocia»by miªo±nikom zakupów w sieciowych sklepach czy na aukcjach internetowych. ledzenie konkretnego wyniku wyszukiwania lub kategorii produktów staje si¦ przez to du»o
ªatwiejsze.
Aby stworzy¢ wªasny kanaª, wystarczy wklei¢ dowolny adres WWW w pole
tekstowe sªu»¡ce do dodawania subskrypcji. Warto pami¦ta¢ o tym, »e aplikacja rozpoznaje wyª¡cznie angloj¦zyczne serwisy. Nie radzi sobie z tre±ciami
umieszczonymi w ramkach ani podstronami, do których dost¦p wymaga rejestracji i logowania.
W sieci Internet mo»na oczywi±cie znale¹¢ wiele innych rozwi¡za« pozwalaj¡cych na rejestrowanie aktualizacji i zmian na stronach internetowych. Przy-
33 , który w przypadku wykrycia nowych
kªadem mo»e by¢ WebSite-Watcher
elementów na stronie, zapisuje jej dwie ostatnie wersje na twardym dysku oraz
pod±wietla wszystkie zmiany w tek±cie. Aplikacja mo»e sprawdza¢ nieograniczon¡ ilo±¢ witryn z pr¦dko±ci¡ do 100 na minut¦.
Innym rozwi¡zaniem mo»e by¢ zainstalowanie odpowiedniej wtyczki do
ulubionej przegl¡darki. Mo»e za tak¡ uchodzi¢ np. Update Scanner
34 . Rozsze-
rzenie to pozwala na monitorowanie zmian na stronach internetowych. Jest
33
34
http://www.aignes.com/
https://addons.mozilla.org/pl/firefox/addon/update-scanner/
3.4 Narz¦dzia pomocnicze
31
bardzo u»yteczne do sprawdzania witryn, które nie posiadaj¡ kanaªów Atom
lub RSS.
3.4.2 Usªuga Google Translate
Po±rednio z poszukiwaniami informacji zwi¡zany jest Google Translate
35 . Jest
to bezpªatna usªuga tªumaczenia, w ramach której wykonywane s¡ natychmiastowe tªumaczenia w 57 j¦zykach. Umo»liwia ona tªumaczenie wyrazów, zda«
i stron internetowych w dowolnych kombinacjach obsªugiwanych j¦zyków. Gªówne okno serwisu (rys. 3.13) pozwala na wprowadzenie b¡d¹ wskazanie tekstu
¹ródªowego oraz jego j¦zyka narodowego i j¦zyka, na który materiaª ma zosta¢
przetªumaczony. Usªuga ta przyczynia si¦ do zwi¦kszenia ogólnej dost¦pno±ci
i przydatno±ci informacji niezale»nie od j¦zyka, w którym je zapisano.
Rysunek 3.13.
Okno usªugi translacji tekstów
Podczas generowania tªumaczenia w narz¦dziu Google Translate wyszukiwane s¡ wzorce w setkach milionów dokumentów w celu okre±lenia najlepszego
tªumaczenia. Wykrywanie wzorców w dokumentach przetªumaczonych przez
ludzi, pozwala na inteligentne dostosowanie odpowiedniej wersji tªumaczenia
automatycznego. Proces wyszukiwania wzorców w du»ej ilo±ci tekstu nazywany jest statystycznym tªumaczeniem maszynowym. Tªumaczenia s¡ generowane przez komputer, wi¦c nie wszystkie s¡ doskonaªe. Im wi¦cej przetªumaczonych przez ludzi dokumentów w okre±lonym j¦zyku mo»e przeanalizowa¢
Tªumacz Google, tym wy»sza jest jako±¢ tªumaczenia. Z tego powodu dokªadno±¢ tªumaczenia czasami mo»e by¢ ró»na w zale»no±ci od j¦zyka.
W usªudze tªumaczenia w dalszym ci¡gu testowana jest obsªuga kolejnych
j¦zyków. Jako±¢ tªumaczenia w nowo wprowadzanych j¦zykach zwykle jest ni»sza, ni» w przypadku pozostaªych obsªugiwanych j¦zyków.
35
http://translate.google.pl/
32
3.4.3 Usªuga Google AdSense
AdSense
36 dla wyszukiwania to bezpªatny produkt umo»liwiaj¡cy umieszcze-
nie w wyszukiwarki we wªasnej witrynie, pozwalaj¡cej u»ytkownikom przeszukiwa¢ Internet. Produkt ten pozwala te» uzyskiwa¢ zarobki z trafnych reklam
na stronie wyników wyszukiwania. Oferuje nast¦puj¡ce funkcje:
•
wybór tre±ci wyszukiwanych przez u»ytkowników: tylko wªasna witryna,
wybrany przez u»ytkownika zbiór witryn lub caªa sie¢; mo»liwe jest tak»e
okre±lenie priorytetów i ograniczenie wyszukiwania do okre±lonych sekcji
witryny;
•
dostosowywanie wygl¡du oraz stylu: wybór kolorów, rozmieszczenia reklam
i mo»liwo±¢ wy±wietlania wyników w swojej witrynie lub na serwerach Google;
•
generowanie przychodu na stronach wyników wyszukiwania dzi¦ki kierowanym reklamom.
Wy±wietlanie wyników AdSense dla wyszukiwania we wªasnej witrynie oz-
nacza, »e wyniki wyszukiwania przeprowadzonego przez u»ytkownika za pomoc¡ pola wyszukiwania AdSense dla wyszukiwania b¦d¡ wy±wietlane w ramce na wªasnej stronie. U»ytkownicy nie b¦d¡ zatem przechodzi¢ do Google pozostan¡ w bie»¡cej witrynie, nadal maj¡c dost¦p do przydatnych informacji
dostarczanych przez wyszukiwark¦ Google.
3.5 ledzenie aktywno±ci u»ytkownika
ledzenie jest terminem, który oznacza ró»ne metody stosowane przez strony
internetowe, reklamodawców i inne podmioty, aby pozna¢ zachowanie u»ytkownika w Internecie, wª¡czaj¡c w to informacje o witrynach, które odwiedziª,
rzeczach, które lubi, nie lubi lub o produktach, które chce kupi¢. Zebrane informacje cz¦sto s¡ wykorzystywane, by wy±wietli¢ reklamy, produkty lub usªugi
skierowane do konkretnego u»ytkownika.
Wiele du»ych portali ±ledzi zachowanie swoich u»ytkowników i sprzedaje
b¡d¹ te» dostarcza te informacje innym rmom lub reklamodawcom. Przegl¡darka Firefox ma funkcj¦ Nie b¡d¹ ±ledzony, która umo»liwia u»ytkownikowi poinformowanie witryn, »e nie chce, by jego zachowania byªy ±ledzone.
Wª¡czenie funkcji Nie b¡d¹ ±ledzony oznacza, »e Firefox poinformuje ka»d¡
odwiedzan¡ stron¦ (jak równie» reklamodawców i innych dostawców tre±ci),
»e u»ytkownik nie chce by¢ ±ledzony. Honorowanie tego ustawienia jest dobrowolne - poszczególne strony nie s¡ zobowi¡zane do przestrzegania go. Witryny, które honoruj¡ to ustawienie, powinny automatycznie przesta¢ rejestrowa¢ zachowanie u»ytkownika, bez »adnych dodatkowych dziaªa« z jego strony.
36
http://www.google.com/AdSense/
3.5 ledzenie aktywno±ci u»ytkownika
33
Funkcja Nie b¡d¹ ±ledzony jest domy±lnie wyª¡czona. Aby j¡ wª¡czy¢ nale»y w oknie przegl¡darki wybra¢ pozycj¦ Opcje (rys.3.14).
Rysunek 3.14.
Okno z ustawieniem opcji ±ledzenia
Wª¡czenie funkcji Nie b¡d¹ ±ledzony nie wpªywa na mo»liwo±¢ logowania
si¦ do serwisów, ani nie spowoduje, »e Firefox usunie osobiste informacje, takie
jak zawarto±¢ koszyków sklepowych, informacje o pozycji lub informacje logowania.
Uwaga: Wª¡czenie funkcji Nie b¡d¹ ±ledzony mo»e sprawi¢, »e reklamy
na stronach internetowych b¦d¡ mniej trafne.
WICZENIA
Przykªadowe ¢wiczenia z zakresu wyszukiwania informacji w sieci Internet:
•
Porówna¢ wy±wietlanie wybranych stron internetowych we wskazanych przegl¡darkach WWW.
•
Porówna¢ funkcjonalno±¢ wybranych przegl¡darek internetowych.
34
•
Skongurowa¢ przegl¡dark¦ Mozilla Firefox m.in. pod k¡tem otwierania stron internetowych w nowych kartach, wykorzystywania ciasteczek, ustawiania ltru rodzinnego i jego blokady, opcji ±ledzenia dziaªa« w sieci.
•
•
•
•
•
Odnale¹¢ i przeanalizowa¢ budow¦ ciasteczek.
Doda¢ kilkana±cie zakªadek i pogrupowa¢ je w kategorie tematyczne.
Wyszuka¢ ogólne informacji na zadany temat.
Porówna¢ efekty wyszukiwania w ró»nych wyszukiwarkach.
Sprecyzowa¢ zapytania z wykorzystaniem zaawansowanych opcji przegl¡darki Google.
•
•
Obserwowa¢ list¦ wyników podczas wyszukiwania dynamicznego.
Wyszuka¢ zdj¦cia zwi¡zane z zadanym tematem najwierniej oddaj¡ce
jego specyk¦.
•
Wyszuka¢ informacje o wskazanym zdj¦ciu znajduj¡cym si¦ w pliku
na dysku lokalnym lub sieci Internet na stronie WWW.
•
Wyszuka¢ map¦ zadanej lokacji w serwisie GoogleMaps, odnale¹¢ naj-
•
•
•
•
Wyszuka¢ publikacje z zadanej kategorii.
bli»szy hotel i wyznaczy¢ tras¦ dojazdu.
Wyszuka¢ ksi¡»ki z zadanej kategorii.
Odnale¹¢ patenty zwi¡zane ze wskazanym produktem.
Dokona¢ tªumaczenia odnalezionej strony obcoj¦zycznej za pomoc¡
narz¦dzia Google Translate.
4
Pozycjonowanie witryn internetowych
4.1 Wst¦p
Pozycjonowanie stron internetowych, to nieodª¡czny element sukcesu komer-
37 . Wi¦kszo±¢ wej±¢ na strony internetowe pochodzi
cyjnego w sieci Internet
z wyszukiwarek. Ilo±¢ stron internetowych jest naprawd¦ spora, co powoduje,
»e »eby zaistnie¢ trzeba si¦ wyró»nia¢. SEO (ang. Search Engine Optimization )
zrodziªo si¦ wraz z wyszukiwarkami, które zacz¦ªy ukªada¢ wyniki wyszukiwania wedªug znanych tylko sobie algorytmów.
Z czasem brane pod uwag¦ czynniki si¦ zmieniaªy, a dziaªo si¦ to w wyniku
wykrywania masowych oszustw, których dopuszczali si¦ webmasterzy manipuluj¡c wynikami. Pierwsze wyszukiwarki analizowaªy jedynie sªowa kluczowe zapisane w specjalnym metaznaczniku umieszczanym w stronach internetowych, co dawaªo mo»liwo±¢ nadu»ywania tego niewidocznego dla u»ytkowników czynnika do wstawiania atrakcyjniejszych sªów kluczowych, niekoniecznie
zgodnych z tre±ci¡ strony.
Z upªywem czasu algorytmy wyszukiwarek, a dokªadniej robotów przeszukuj¡cych sie¢, zacz¦ªy przykªada¢ wi¦ksz¡ wag¦ do tre±ci, któr¡ u»ytkownik
mo»e znale¹¢ na stronie. Dotyczyªo to równie» wska¹nika reprezentuj¡cego liczb¦ i jako±¢ stron polecaj¡cych dany materiaª w sieci, wychodz¡c z zaªo»enia,
»e materiaªy warto±ciowsze s¡ cz¦±ciej wspominane na innych stronach, wi¦c
prowadzi do nich wi¦cej odwoªa« z innych stron.
Pozycjonowanie jest dziaªaniem, maj¡cym na celu podniesienie pozycji
strony internetowej na korzystne dla niego frazy kluczowe, które potencjalni
klienci b¦d¡ wpisywa¢ w wyszukiwarkach. Znaczna cz¦±¢ tych dziaªa« odnosi
si¦ do zdobywania nowych ª¡czy polecaj¡cych nasz serwis oraz innych dziaªa«
poza naszym serwisem. Innym elementem niezb¦dnych do wykonania prac jest
optymalizacja witryny pod k¡tem wyszukiwarek. Optymalizacja zapewni to,
37
http://poradnik-seo.pl/podstawy/wprowadzenie.html
36
4 Pozycjonowanie witryn internetowych
»e mechanizmy przeszukuj¡ce sie¢ i u»ytkownicy b¦d¡ lepiej postrzega¢ nasz¡
stron¦ internetow¡ poprzez wyeksponowanie na niej odpowiednich tre±ci. Do
podstawowych zasad nale»y wi¦c:
•
eksponowa¢ przydatne frazy kluczowe poprzez specjalne znaczniki j¦zyka
•
•
tworzy¢ map¦ witryny, która usprawni indeksacj¦,
(x)HTML,
tworzy¢ lepsze adresy URL, które uªatwi¡ ich zapami¦tywanie oraz b¦d¡
zawiera¢ sªowa kluczowe,
•
pozna¢ informacje przydatne do tworzenia przydatnych i funkcjonalnych
stron informuj¡cych o bª¦dach.
Dziaªania optymalizacyjne maj¡ na celu tak naprawd¦ wyj±cie naprzeciw
u»ytkownikowi, usprawnienie procesu dostarczania mu poszukiwanych przez
niego informacji. Dzi¦ki temu, »e na stronie zastosowane s¡ techniki optymalizacji i pozycjonowania na odpowiednie frazy kluczowe, mo»liwe jest sprawniejsze przekazywanie u»ytkownikom sieci informacji dost¦pnych na stronach
internetowych.
To, »e strona internetowa jest dost¦pna dla ka»dego, nie oznacza, »e ktokolwiek na ni¡ wejdzie lub tego, »e ktokolwiek si¦ ni¡ zainteresuje. Internet jest
peªen stron o du»ej renomie, poczytnych i cz¦sto odwiedzanych, lecz nie brakuje takich, które przegl¡dn¦ªa tylko nasza rodzina i znajomi, przymuszeni poczuciem grzeczno±ci, czy przyjacielskiego obowi¡zku.
Zaªo»eniem, chyba ka»dego, kto chce umie±ci¢ stron¦ w Internecie jest to by
odniosªa sukces, odwiedziªo j¡ jak najwi¦cej unikalnych go±ci oraz by zebraªa
rzesze staªych bywalców, którzy b¦d¡ j¡ nie tylko cz¦sto odwiedza¢, ale tak»e
promowa¢ innym. Wynika to z natury Internetu, który powstaª po to wªa±nie
by móc innym pokaza¢ to, co sami publikujemy - móc dzieli¢ si¦ z innymi na
tematy, na których znamy si¦ z zaªo»enia najlepiej lub piszemy o nich z wielk¡
pasj¡.
4.2 Parametry pozycjonowania
Pozycjonowanie stron WWW w wyszukiwarce najªatwiej rozpatrywa¢ zgodnie
z koncepcj¡ podziaªu parametrów strony WWW na trzy podstawowe grupy,
które brane s¡ pod uwag¦ przy tworzeniu rankingu wyszukiwania
•
•
•
38
38 . S¡ to:
teksty strony WWW,
architektura strony WWW,
popularno±¢ strony WWW.
http://www.darmowepozycjonowanie.pl/2010/03/parametry-strony-www/
4.2 Parametry pozycjonowania
37
Zale»nie od udziaªu poszczególnej grupy parametrów w sumarycznej warto±ci strony WWW wzgl¦dem wyszukiwarki, mo»na rozpatrywa¢ kilka przypadków stron wysoko klasykowanych w rankingach wyszukiwania, a mianowicie:
•
strony WWW z wysok¡ jako±ci¡ wszystkich grup parametrów, które zawsze uzyskuj¡ wysokie pozycje,
•
strony WWW zawieraj¡ce wysoki poziom nasycenia sªowami kluczowymi
przy jednocze±nie znacz¡cej jako±ci pozostaªych grup parametrów.
•
strony WWW, które osi¡gaj¡ tak du»¡ popularno±¢ »e pomimo sªabych
tekstów oraz architektury strony WWW, osi¡gaj¡ wysokie wyniki w rankingach.
Wymienione przypadki zilustrowano na rys. 4.1.
Rysunek 4.1.
Porównanie pod wzgl¦dem wybranych parametrów39
Teksty strony WWW identykuj¡ sªowa kluczowe, które umieszczone s¡
w newralgicznych dla pozycjonowania elementach strony WWW, takich jak:
•
teksty z sekcji BODY - materiaªy tekstowe, nazwy odno±ników na stronie
WWW, alternatywne opisy obrazków, tytuªy odno±ników oraz obrazków,
nazwy plików,
•
•
teksty w metaznacznikach - tytuª strony WWW, opis strony WWW,
adresy URL.
Architektura strony WWW - to przede wszystkim wªa±ciwa skªadnia kodu
HTML i odpowiednia struktura wszystkich odno±ników wewn¦trznych strony
WWW. Do architektury strony WWW zalicza si¦ mi¦dzy innymi konstrukcje
adresów URL, czy wag¦ strony WWW.
39
ródªo: S. Thurow "Pozycjonowanie stron w wyszukiwarkach internetowych".
38
Popularno±¢ strony WWW skªada si¦ z:
•
•
liczby oraz jako±ci odno±ników prowadz¡cych do strony WWW,
odwiedzalno±ci strony WWW mierzonej na podstawie wej±¢ z wyszukiwarki oraz mierzonej przez inne narz¦dzia udost¦pniane przez wyszukiwarki.
Podstawow¡ rol¦ przy ocenie popularno±ci strony WWW w przypadku wy-
szukiwarki Google odgrywaj¡ algorytmy wyszukiwarki funkcjonuj¡ce pod nazw¡ PageRank, których dziaªanie koncentruje si¦ na badaniu caªej struktury
odno±ników powi¡zanych z pozycjonowan¡ stron¡ WWW.
4.3 Indeksacja stron internetowych
Indeksowanie witryny odbywa si¦ podczas wizyty automatycznych mechanizmów zwanych robotami wyszukiwarek na danej stronie. Robot odwiedzaj¡c
stron¦ analizuje ró»ne tre±ci na stronie, a tak»e skªadni¦ znaczników, którymi
ten tekst jest obj¦ty. Roboty sieciowe kªad¡ szczególny nacisk na tre±ci wyró»nione semantycznie, dlatego warto uwzgl¦dni¢ ich u»ywanie w najwa»niejszych miejscach strony. Robot jest specjalnym programem, który rma prowadz¡ca wyszukiwark¦ uruchamia i nakierowuje na stron¦ o du»ej zawarto±ci
zewn¦trznych linków. Najcz¦±ciej jest to katalog stron faworyzowany przez dan¡ wyszukiwark¦. Tak samo jest cz¦sto w przypadku wstawiania opisu strony
w wynikach wyszukiwania.
Indeksowanie witryny powoduje zapisanie w bazie wyszukiwarki naszej witryny pod przeanalizowanymi frazami. Ustalana jest pozycja w wynikach organicznych. Warto te» wiedzie¢, »e pozycjonowanie ma na celu poruszanie si¦
wzwy» po drabinie wyników organicznych. ¡cza sponsorowane mog¡ zosta¢
wykupione na dane frazy w specjalnych programach, w przypadku Google jest
to program AdWords.
4.4 Sªowa kluczowe
Pozycjonowanie nale»y rozpocz¡¢ od analizy tekstów strony WWW umieszczonych w sekcji body. Na jej podstawie nale»y te» wytypowa¢ sªowa kluczowe,
które b¦d¡ wykorzystane do pozycjonowania. Przy wyborze sªów kluczowych
decyduj¡c¡ rol¦ powinna odgrywa¢ tematyka tekstów na stronie WWW oraz
popularno±¢ sªów kluczowych, która przekªada si¦ równocze±nie na konkurencyjno±¢ i trudno±¢ w pozycjonowaniu. Do wyboru sªów kluczowych mo»na wykorzysta¢ narz¦dzia udost¦pniane przez Google.
Narz¦dzie propozycji sªów kluczowych wyszukiwarki Google umo»liwia porównanie popularno±ci i konkurencji na zaproponowane przez wyszukiwark¦
4.4 Sªowa kluczowe
39
Google wyra»enia zwi¡zane z dan¡ tematyk¡ lub b¦d¡cych synonimami od podanego sªowa kluczowego. Jest to narz¦dzie, w którym te» mo»na sprawdzi¢
mi¦dzy innymi ogóln¡ miesi¦czn¡ liczb¦ wyszukiwa« danego sªowa kluczowego
w wyszukiwarce Google lub jego konkurencyjno±¢ w przypadku reklam Google
Adwords. Zrzuty ekranu interfejsu narz¦dzia Google Keywords Tool
48 prezen-
tuje rys. 4.2.
Rysunek 4.2.
Narz¦dzie propozycji sªów kluczowych
Kolejnym ogromnie u»ytecznym narz¦dziem jest Google Statystyki wyszukiwarki
49 przedstawione na rys 4.3. Umo»liwia ono porównanie trendów liczby
wyszukiwa« w okre±lonych regionach, kategoriach, przedziaªach czasowych czy
stronach WWW.
Rysunek 4.3.
Okno wyszukiwania statystyk dla okre±lonych haseª
Liczby na przykªadowym wykresie z wynikami (rys. 4.4) wskazuj¡, ile wyszukiwa« przeprowadzono na podstawie okre±lonego hasªa w porównaniu do
48
49
https://adwords.google.pl/select/KeywordToolExternal
http://www.google.com/insights/search/
40
Rysunek 4.4.
Wynik ze statystykami popularnych wyszukiwa«
ª¡cznej liczby wyszukiwa« przeprowadzonych w Google w tym czasie. Warto±ci te nie odzwierciedlaj¡ bezwzgl¦dnej liczby wyszukiwa«, poniewa» dane te
s¡ znormalizowane i przedstawione na skali od 0 do 100. Ka»dy punkt na wykresie jest dzielony przez warto±¢ najwy»szego punktu albo przez 100. Je»eli
ilo±¢ danych jest za maªa, podawana jest warto±¢ 0. Liczby wy±wietlane nad
wykresem obok wyszukiwanych haseª stanowi¡ podsumowania lub warto±ci
ª¡czne.
Rysunek 4.5.
Porównanie popularno±ci haseª
4.5 Reklama w wyszukiwarkach
41
Popularno±¢ sªów kluczowych mo»na okre±li¢ za pomoc¡ narz¦dzia Google
Trends
50 , w którym istnieje mo»liwo±¢ porównania liczby zapyta« na wybrane
sªowa kluczowe w okre±lonym przedziale czasu. Przykªadowe porównanie sªów
kluczowych: pozycjonowanie i pozycjonowanie stron wykonane z pomoc¡
tego narz¦dzia prezentuje rys. 4.5.
4.5 Reklama w wyszukiwarkach
Podstawowym faktem, z którego nale»y sobie zda¢ spraw¦, jest to, »e reklama
w Internecie jest najdynamiczniej rozwijaj¡cym si¦ segmentem rynku reklamowego w Polsce. Natomiast drugim czynnikiem pod wzgl¦dem udziaªu w caªo±ciowych wydatkach na reklam¦ internetow¡ jest marketing w wyszukiwarkach.
Marketing w wyszukiwarkach potocznie nazywany SEM (ang. Search Engine
Marketing ) caªy czas zwi¦ksza swój udziaª w sektorze reklamy internetowej, co
potwierdzaj¡ mi¦dzy innymi raporty IAB Polska. Na rys. 4.6. zaprezentowano
aktualn¡ sytuacj¦ odno±nie przychodów brutto ró»nych typów reklamy internetowej.
Rysunek 4.6.
Udziaª w wydatkach na reklam¦. ródªo: IAB Polska
Rozpatruj¡c udziaªy podstawowych typów reklam internetowych w 2010 r.,
najwa»niejszym kanaªem jest nadal reklama graczna z 45% udziaªem w rynku
51 . Na drugim miejscu uplasowaª si¦ marketing w wyszukiwarkach -
(rys. 4.6)
SEM (30%), którego udziaª w rynku wzrósª o 4 punkty procentowe. Ogªoszenia
równie» zanotowaªy wzrost i w 2010 roku osi¡gn¦ªy 17% udziaª w rynku. Reklama e-mail utrzymuje si¦ na tym samym poziomie (6% rynku). Istotn¡ informacj¡ dla bran»y jest tak»e ponad dwukrotny wzrost udziaªów reklamy wideo
50
51
http://www.google.com/trends
http://www.iabpolska.pl/20110307528/wartosc-rynku-reklamyinternetowej-w-2010-roku-wyniosla-prawie-16-mld-zlotych.html
42
z 1% do 2,2%. Wzrost udziaªów 'wideo' w reklamie display jest jeszcze bardziej
wyra¹ny - z 2 do 5%. Wydatki na reklam¦ behawioraln¡ balansuj¡ w granicach
1% (ten typ reklamy internetowej jest raportowany w badaniu IAB AdEx od
2010 roku). Reklama efektywno±ciowa (model CPA) miaªa w 2010 roku ponad
9% udziaªu w rynku.
Marketing w wyszukiwarkach potocznie nazywany SEM (ang. Search Engine Marketing ) dzieli si¦ na reklam¦ kontekstow¡, dopasowan¡ do tre±ci stro-
ny WWW, rozliczan¡ na podstawie klikni¦¢ PPC (ang. Pay Per Click ) oraz
promocj¦ strony WWW, polegaj¡c¡ na poprawie jej pozycji na wybrane sªowa
kluczowe w organicznych wynikach wyszukiwania, czyli tzw. pozycjonowanie
stron WWW.
Wedªug Polskich Bada« Internetu prowadzonych przez rm¦ Gemius, opublikowanych na stronie
www.ranking.pl
w marcu 2010 roku wynika, »e pra-
wie 98% polskiego rynku wyszukiwarek, bior¡c pod uwag¦ silniki wyszukiwarek internetowych jest w posiadaniu Google. Silnik wyszukiwarki internetowej
jest to technologia wyszukiwania konkretnej wyszukiwarki internetowej, która mo»e by¢ zaimplementowana na ró»nych stronach WWW. Przykªadem jest
Onet.pl, czy Interia.pl, które korzystaj¡ z silnika wyszukiwarki Google.
Podziaª marketingu w wyszukiwarce Google na dwa typy reklamy internetowej, czyli pozycjonowanie (SEO) a tak»e linki sponsorowane (reklama typu
PPC - w przypadku wyszukiwarki Google jest to Google AdWords ), przedstawia rys. 4.7.
Rysunek 4.7.
Podziaª obszaru okna wyników wyszukiwania
4.6 Kryteria oceny strony internetowej
43
4.6 Kryteria oceny strony internetowej
Wska¹nik PageRank jest stosowany do wyznaczania warto±ci¡ liczbow¡ od 0
do 10, jako±ci strony. Nazwa samego algorytmu nie jest pochodn¡ od angielskiego page (pol. strona ), lecz od nazwiska jednego ze wspóªtwórców owego algorytmu. Algorytm tego wska¹nika bazuje w uproszczeniu na zaªo»eniu, »e jako±¢ strony mo»na okre±li¢ licz¡c nie tylko liczb¦, ale te» i jako±¢ ª¡czy, które
do niej prowadz¡. Im wi¦cej ª¡czy prowadz¡cych do naszej strony (konkretnych podstron) oraz im wy»sza ich jako±¢ (czyli ich warto±¢ PR) tym dla oceny
naszej strony lepiej. Innymi sªowy PageRank polega na wa»eniu jako±ci linków
wskazuj¡cych na rozpatrywan¡ stron¦ WWW ich wªasn¡ warto±ci¡ PageRank.
Oznacza to, »e je±li na dan¡ stron¦ WWW powoªuje si¦ (kieruje do niej link)
inna strona WWW, która sama ma wysok¡ ocen¦, to ma to wi¦ksze znaczenie,
ni» gdy na t¡ sam¡ stron¦ WWW powoªuje si¦ maªo popularna strona. Do
obliczenia warto±ci PageRank stosuje si¦ wzór opracowany przez zaªo»ycieli
wyszukiwarki Google
52 :
P R(A) = (1 − d) + d ∗
n
∑
P R(Ti )
i=1
C(Ti )
A - strona WWW, dla której oblicza si¦ PageRank ; n - liczba ª¡czy do
A, i - indeks (numer strony zawieraj¡cej ª¡cze do strony A), przyjmuje
warto±ci 1 . . . n; Ti - strona WWW posiadaj¡ca ª¡cze do strony A; P R(Ti ) warto±¢ PageRank dla strony Ti ; C(Ti ) - jest to suma wszystkich linków umieszczonych na stronie Ti ; d - tzw. czynnik tªumienia, który mo»e przyjmowa¢
gdzie:
strony
warto±¢ od 0 do 1.
We wzorze, za warto±¢
d zazwyczaj przyjmowana jest liczba 0,85. Wzór ten
jest jedynie przyj¦tym wzorcowym schematem obliczania PageRank. Szczegóªy
algorytmu s¡ pilnie strze»one przez rm¦ Google.
Nale»y pami¦ta¢, »e wska¹nik dotyczy i jest wyznaczany dla ka»dej podstrony osobno. Wiele osób chwali si¦ wy»szym wska¹nikiem pokazuj¡c wynik,
jaki zwraca strona gªówna - ma ona najwy»sz¡ warto±¢, ze wzgl¦du na skupienie na niej najwi¦kszej liczby linków zwrotnych. Szukaj¡c katalogów, nie
mo»na si¦ jednak ªudzi¢ hasªami o wysokim PageRank. Wpisy w katalogu najcz¦±ciej nie s¡ widoczne na stronie gªównej, lecz na podstronach, które nie maj¡ przypisanego PR lub jest on zerowy.
Google otworzyªo tym samym w Internecie rodzaj gªosowania, w którym
ka»de ª¡cze wstawione na danej stronie jest gªosem na ni¡ oddanym. Sama
ogólnodost¦pna warto±¢ PageRank nie jest uaktualniana na bie»¡co. Update
PR, bo tak nazywa si¦ proces aktualizacji tego wska¹nika, odbywa si¦ w odst¦pach od miesi¡ca do nawet kilku. Dawniej byª uaktualniany o wiele cz¦±ciej
ni» w dzisiejszych czasach.
52
http://www.darmowepozycjonowanie.pl/category/darmowe-pozycjonowanie/
44
Wska¹nik, który jest dost¦pny dla u»ytkowników, to tPR (ang. Toolbar Pa-
geRank ). Niestety jest to tylko przelicznik w skali od 0-10 warto±ci z rPR (ang.
Real Page Rank ), który nie jest udost¦pniany na zewn¡trz.
Aktualn¡ warto±¢ PR mo»na ±ledzi¢ dzi¦ki narz¦dziu Google ToolBar (zob.
rys. 4.8), udost¦pnionemu dla wyszukiwarki Mozzilla Firefox oraz Internet
Explorer lub z witryn internetowych, na których po wpisaniu adresu mo»na
zbada¢ wska¹nik danej strony.
Rysunek 4.8.
Okno przegl¡darki z paskiem Google
Toolbar
4.7 Najcz¦stsze bª¦dy pozycjonowania
Nieuwa»ni projektanci oraz administratorzy serwisów WWW popeªniaj¡ cz¦sto wiele bª¦dów wpªywaj¡cych negatywnie na pozycjonowanie wªasnych stron
53 . Wymie«my je kolejno:
internetowych
•
rozpoczynanie pozycjonowania serwisu bez zoptymalizowania go pod k¡tem indeksowania przez wyszukiwarki:
◦
◦
kod strony skªadaj¡cy si¦ ze zb¦dnych i niepotrzebnych elementów,
wprowadzanie szablonów nie opartych na stylach CSS, lecz na zwykªych
tabelach,
◦
trzymanie zb¦dnych i nie wnosz¡cych nic istotnego do strony elementów
gracznych,
◦
53
brak przyjaznych ª¡czy dla wyszukiwarek,
http://www.ittechnology.us/24-najczesciej-popelnianych-bledow-przyprobach-pozycjonowania-witryny-internetowej-czesc-1/
http://www.ittechnology.us/24-najczesciej-popelnianych-bledow-przyprobach-pozycjonowania-witryny-internetowej-czesc-2/
◦
•
45
niesprawdzenie poprawno±ci kodu i jego zgodno±¢ ze standardami.
wybieranie zbyt ogólnych i konkurencyjnych fraz - im bardziej konkurencyjna jest fraza, tym trudniej pod ni¡ pozycjonowa¢; dlatego zamiast wybiera¢ kilka trudnych do pozycjonowania fraz, nale»y stara¢ si¦ skupi¢ na
mniejszej liczbie mniej konkurencyjnych, na które mo»na pozycjonowa¢
poszczególne podstrony serwisu;
•
bardzo szybkie tworzenie ª¡czy do nowej domeny - wyszukiwarki bardzo
nieufnie traktuj¡ nowe domeny, które szybko zyskuj¡ wiele ª¡czy. W sytuacji, kiedy silnik wyszukiwarki uzna, »e wªa±ciciel strony sztucznie próbuje
wpªyn¡¢ na rankingi w wyszukiwaniach, nakªada ltry na dane sªowa kluczowe, co spowoduje znaczne obni»enie jej pozycji na li±cie wyników; dobry
efekt uzyskuje si¦, gdy na pocz¡tku dodajemy do witryny tylko kilka lub
kilkana±cie silnych ª¡czy, które pozwol¡ dobrze zaindeksowa¢ stron¦; wyszukiwarki s¡ w stanie sprawdzi¢ wiek domeny
•
54 ;
dªugi okres bez nowych ª¡czy - dodawanie ª¡czy powinno by¢ rozªo»one
w czasie i najlepiej gdyby ich liczba i jako±¢ narastaªa z ka»dym miesi¡cem;
•
tworzenie strony na podstawie tre±ci skopiowanych z innych stron - taka
praktyka jest bardzo szybko wykrywana przez wyszukiwarki, które wyrzucaj¡ j¡ z indeksu;
•
stosowanie niewidocznego tekstu w kolorze tªa lub z atrybutem okre±laj¡cym widoczno±¢, ustawionym na ukryty - techniki te nie przynosz¡ zbyt
wielu korzy±ci, a wychwycone przez konkurencj¦ gwarantuj¡ w krótszej lub
dªu»szej perspektywie czasowej wyrzucenie z indeksu;
•
nadmierna liczba sªów kluczowych w znacznikach - dziaªa niestety wprost
przeciwnie do zamierze«, to znaczy powoduje obni»enie pozycji w rankingu
przez wyszukiwarki;
•
kupowanie domeny z du»¡ liczb¡ sªów kluczowych w nazwie - w niektórych
przypadkach wybieranie domeny pod k¡tem zawarto±ci w niej sªów kluczowych jest uzasadnione; niemniej jednak sama nazwa domeny ma znikomy
wpªyw na warto±¢ wyników wyszukiwania;
•
wybieranie ª¡czy do wymiany i kupna tylko w oparciu o ranking PR - cho¢
ma to du»e znaczenie dla ª¡czy wychodz¡cych z danej strony, wa»niejsza
jest jednak ich jako±¢, tzn.:
◦
◦
◦
◦
czy pochodz¡ one ze strony tematycznie zwi¡zanej z dan¡ stron¡,
ile jest ª¡czy zewn¦trznych z tej strony,
gdzie b¦dzie umieszczone ª¡cze (w tre±ci, w stopce itp.),
czy strona, na której jest ª¡cze, zawiera interesuj¡ce nas sªowa kluczowe,
◦
czy wska¹nik PR tej strony jest stabilny, czy te» jest efektem agresywnego i ryzykownego pozycjonowania,
54
http://dns.pl/cgi-bin/whois.pl
46
◦
czy strona, z której chcemy mie¢ ª¡cze, nie posiada ª¡czy do niebezpiecznych stron, przez co grozi zmian¡ warto±ci wska¹nika PR,
•
dwustronna wymiana ª¡czy - ma niezbyt du»¡ warto±¢, w szczególno±ci,
gdy ª¡czami wymieniaj¡ si¦ strony nale»¡ce do tej samej domeny; lepszym
rozwi¡zaniem wydaje si¦ by¢ ªa«cuszek ª¡czy;
•
stosowanie znaków podkre±lenia zamiast minusów w tytuªach stron - wyszukiwarki traktuj¡ napis A_B jako sªowo kluczowe: A_B, podczas
gdy tytuª: A-B pozycjonuje si¦ pod sªowa kluczowe:A, B i A-B;
•
kupno wygasªej domeny, do której prowadziªy jakie± ª¡cza zwrotne w nadziei na wysok¡ siª¦ tych ª¡czy - niestety wyszukiwarki uznaj¡, »e stare ª¡cza, które kiedy± prowadziªy do domeny aktualnie aktywowanej, obecnie
nie maj¡ nic wspólnego z tera¹niejszym wykorzystaniem wi¦c ignoruj¡ ich
warto±¢;
•
tworzenia zaplecza na jednym i tym samym serwerze - olbrzymi wpªyw na
pozycj¦ serwisu internetowego w wynikach wyszukiwania ma liczba i jako±¢
ª¡czy kieruj¡cych do tego serwisu. Nale»y jednak pami¦ta¢ o tym, aby nie
wstawia¢ wszystkich swoich stron na ten sam serwer, do którego przypisany
jest ten sam adres IP. Wyszukiwarki sprawdzaj¡c jako±¢, kontroluj¡ z ilu
unikalnych adresów IP prowadz¡ ª¡cza.
•
tworzenie wielu subdomen ze sªowami kluczowymi - maj¡ znikomy wpªyw
na wyniki wyszukiwania, je±li same nie nios¡ za sob¡ warto±ciowej i unikalnej tre±ci;
•
dodawanie ª¡czy na adres strony z www i bez www - dla wielu wyszukiwarek takie adresy oznaczaj¡ dwie ró»ne strony. Dlatego te» w sytuacji,
kiedy wyszukiwarka zaindeksuje dokumenty z obu adresów (z www i bez
niego), mo»e uzna¢ jedno z nich za zawieraj¡cy zduplikowan¡ zawarto±¢
i wyrzuci¢ z indeksu. Aby unikn¡¢ tych problemów, nale»y spójnie dodawa¢
ª¡cza (np. z fraz¡ www).
•
zdobywanie ª¡czy na podejrzanych serwisach - niestety, nie ka»de zdobyte
ª¡cze przydaje si¦ do pozycjonowania serwisu. Co prawda ª¡cza kieruj¡ce
do serwisu z zewn¡trz nie mog¡ w zbyt du»ym stopniu zaszkodzi¢ witrynie (mogªoby to zosta¢ wykorzystywane przez konkurencj¦ do zniszczenia
pozycji strony), jednak»e ª¡cza z podejrzanych serwisów (np. masowo
rozsyªaj¡cych spam) wzbudzaj¡ podejrzliwo±¢ wyszukiwarek i w dªu»szej
perspektywie czasowej mog¡ mie¢ znaczenie negatywne dla pozycji serwisu;
•
osªabianie siªy witryny gªównej - bardzo cz¦sto witryny dodaj¡ ª¡cza na
www.serwis.pl, je±li jednak
www.serwis.pl/cos/cos.html, to
gªówny adres np.
gªówna strona witryny ma
inny adres
w ten sposób bardzo osªa-
biamy siª¦ ª¡czy wychodz¡cych ze strony gªównej, poniewa» nagle si¦ okazuje, »e
www.serwis.pl
ma np. PR=5, przy czym strona gªówna (która
teoretycznie powinna mie¢ siª¦ domeny) ma PR=3 (dodatkowo mo»e doj±¢
wspomniany ju» problem podejrzenia duplikacji zawarto±ci);
•
47
niewªa±ciwe ª¡cza wewn¦trzne - wielokrotnie si¦ zdarza, »e serwis internetowy ma na stronie gªównej ª¡cze do niej samej (zupeªnie niepotrzebnie), np.
www.serwis.pl/index.html, a pó¹niej w gª¦bi serwisu do strony
www.serwis.pl/index2.html - tutaj równie»
gªównej prowadzi odno±nik
mo»e zaj±¢ podejrzenie powielania zawarto±ci;
•
umieszczanie tre±ci strony bardzo nisko w ¹ródle strony - dla wyszukiwarki
im wy»ej jest tre±¢ umieszczona w tre±ci strony, tym jest ona wa»niejsza,
bª¦dem jest wi¦c umieszczanie caªego kodu zwi¡zanego z widokiem tre±ci
caªkowicie ponad tekstem strony;
•
zamykanie dost¦pu do caªej tre±ci serwisu - wyszukiwarka teoretycznie nie
powinna indeksowa¢ tre±ci chronionej hasªem, jednak»e nie b¦dzie indeksowa¢ serwisów bez unikalnej tre±ci, dlatego w serwisach wymagaj¡cych logowania nale»y zawsze umieszcza¢ cz¦±¢ stron jako publicznie dost¦pnych;
•
oszcz¦dzanie na hostingu - niektóre wyszukiwarki przy okre±laniu pozycji
w wynikach bior¡ pod uwag¦ równie» szybko±¢ wczytywania strony oraz to,
jak cz¦sto strona nie jest dost¦pna z powodu kiepskiego serwera, na którym
si¦ znajduje.
WICZENIA
Przykªadowe ¢wiczenia z zakresu pozycjonowania stron internetowych:
•
Przeanalizowa¢ budow¦ prostej strony internetowej. Pozna¢ rol¦ podstawowych znaczników i meta znaczników HTML.
•
Stworzy¢ stron¦ HTML zawieraj¡ca odno±niki do wybranych serwisów.
•
Przeanalizowa¢ jako±¢ ª¡czy w wybranym serwisie internetowym pod
k¡tem przydatno±ci dla robotów sieciowych.
•
•
•
Udro»ni¢ system nawigacyjny wskazanej witryny internetowej.
Sprawdzi¢ PageRank wybranych portali.
Sprawdzi¢ statystyki wyst¦powania sªów kluczowych wybranych dla
serwisu zwi¡zanego ze wskazan¡ dziedzin¡.
•
•
•
•
Sprawdzi¢ wiek wybranych domen.
Odnale¹¢ i przeanalizowa¢ budow¦ pliku robots.txt.
Zapozna¢ si¦ z systemem wymiany ª¡czy
e-WebLink.com.
Zapozna¢ si¦ z systemem statystyk Stat24.
5
Wprowadzenie do sieci semantycznych
5.1 Wst¦p
Internet zawiera pot¦»ne zasoby informacji. Ich prezentacja w wi¦kszo±ci przypadków zostaªa zaprojektowana w sposób czytelny dla innych ludzi. U»ytkownik sieci mo»e ªatwo zrozumie¢ informacje umieszczone na danej stronie i powi¡za¢ je z innymi danymi w Internecie. Komputery ci¡gle tego nie potra¡.
To najwi¦ksza ró»nica pomi¦dzy nami i jednocze±nie najwi¦ksza trudno±¢ dla
algorytmów próbuj¡cych wyªuska¢ sensowne informacje z Internetu. Dlatego
te» wspóªczesne silniki wyszukiwarek przedstawiaj¡ nam jedynie posegregowan¡ list¦ poszukiwanych fraz uzyskan¡ za pomoc¡ metod statystycznych.
Niestety, to jeszcze nie jest rezultat, którego oczekujemy. eby bowiem zdoby¢ oczekiwane informacje nale»y zwykle pracochªonnie otwiera¢ kolejne strony z listy prezentowanych wyników, z których wi¦kszo±¢ w ogóle nie zawiera
potrzebnych danych. Ma to miejsce, poniewa» tym, czego potrzebujemy, jest
wyszukiwanie oparte nie na sªowach kluczowych, lecz na ich jednostkach znaczeniowych. Nazywamy to semantyk¡. Semantyk¦ za±, system mo»e zrozumie¢,
bazuj¡c na modelu przechowywania stron wykorzystuj¡cym ich struktur¦.
Istnieje te» inna przeszkoda w rozumieniu i przetwarzaniu zapyta«. Otó»:
informacje w Internecie przechowywane s¡ dzi± w tak wielu formach, »e bezpo±rednie ich porównywanie okazuje si¦ prawie niemo»liwe. W konsekwencji
trudno jest je skondensowa¢ i zaprezentowa¢ w ujednoliconej, strawnej dla maszyn postaci, aby zamiast jednoznacznej odpowiedzi na nasze pytanie nie otrzyma¢ jedynie zbioru prawdopodobnych wyników. Niestety dotyczy to nawet
prostych zapyta«, które zamiast zadawa¢ tak jak w j¦zyku naturalnym, musimy przeksztaªca¢ do postaci daj¡cej si¦ przeanalizowa¢ przez wyszukiwark¦.
Czyli zamiast Ile lat ma pomnik Piªsudskiego? musimy zapyta¢ np. tak: pomnik Piªsudzkiego data budowy i poszpera¢ w wynikach. Zamiast u»ytkownika mo»e jednak to robi¢ automatycznie jaki± mechanizm.
Rozwi¡zaniem jest sie¢ semantyczna. Jest ona okre±lana jako idea takiego
gromadzenia informacji w Internecie, aby komputery mogªy je przetwarza¢ ze
50
5 Wprowadzenie do sieci semantycznych
zrozumieniem. Aby byªo to mo»liwe, oprócz samych danych sie¢ semantyczna
musi zawiera¢ tak»e dodatkowe informacje o relacjach pomi¦dzy nimi. Umieszcza si¦ je w formie tekstowej, jako tzw. metadane.
Organizacja W3C, ustanawiaj¡ca standardy pisania stron WWW, opracowaªa ju» szereg otwartych schematów zapisu metadanych. J¦zyki znaczników,
takie jak XML, RDF (Schemat), OWL i SPARQL, uzupeªniaj¡c si¦ wzajemnie, odgrywaj¡ tu bardzo istotn¡ rol¦. Umo»liwiaj¡ bowiem zapis informacji
o ontologii i taksonomii danych uporz¡dkowanej semantycznie. Przykªadowo
dzi¦ki SPARQL mamy w peªni rozwini¦ty j¦zyk zapyta« do uzyskiwania wyników z ontologii RDF.
5.2 Tworzenie sieci semantycznej
Zadanie zamiany sieci bazuj¡cej na ró»nych dokumentach w sie¢ rozumiej¡c¡
swoj¡ zawarto±¢ nie jest zagadnieniem trywialnym. Pierwszym krokiem w tym
kierunku jest zapewnienie gromadzenia informacji w Internecie w usystematyzowanych strukturach. Pomimo, i» ze strony technicznej nie wydaje si¦ to
trudne, bo istnieje wiele niezale»nych dyscyplin, w których wiedza jest gromadzona w sposób uporz¡dkowany od pocz¡tku ich istnienia, pozostaje pytanie
co zrobi¢ z rozlegªymi zasobami informacji, które obecnie opieraj¡ si¦ na ró»norakich dokumentach.
Mo»emy tutaj wskaza¢ trzy podej±cia:
•
wykorzystanie sztucznej inteligencji oraz lingwistyki komputerowej zajmuj¡cej si¦ przetwarzaniem j¦zyka naturalnego, która obejmuje m.in. metody
rozbioru wypowiadanych tekstów, tak jak czyni to czªowiek: analizowane
frazy s¡ zwykle rozkªadane na pojedyncze zdania. Je±li zastosuje si¦ wiedz¦
o strukturze zdania (podmiot - predykat - obiekt), semantyczny podziaª
tre±ci wydaje si¦ ªatwy. Dzi¦ki temu te» w procesie przeszukiwania mo»na
identykowa¢ osoby, obiekty oraz zdarzenia i tworzy¢ powi¡zania pomi¦dzy
nimi, co znacznie zredukuje liczb¦ bª¦dnych rezultatów na li±cie wyników;
•
manualnego rozszerzania istniej¡cych stron opartych na
(X)HTML o specja-
lne elementy Microformats, które uczyni¡ owe strony czytelnymi dla komputerów. Przykªadem mo»e by¢ stosowanie jednakowych oraz uniwersalnych schematów do przechowywania informacji o kontaktach, planach i zakªadkach na ró»nych platformach systemowych;
•
rozwijanie specykacji RDF (ang. Resource Description Framework ) pozwalaj¡ca na tworzenie ogólnych struktur, które mog¡ zosta¢ wykorzystane
do integracji metadanych. Niestety, to podej±cie wymaga wi¦kszych nakªadów pracy podczas tworzenia aplikacji. Z drugiej strony RDF jest bardziej
ogólny i elastyczny, przez co w dalszej perspektywie mo»e wyprze¢ rozwi¡zanie Microformats.
5.3 Budowa sieci semantycznej
51
5.3 Budowa sieci semantycznej
Sieci semantyczne powinny by¢ zbudowane na bazie ju» istniej¡cych, wykorzystywanych i sprawdzonych standardów internetowych, nadbudowanych przez
kilka kolejnych standardów. Poniewa» ka»dy kolejny standard nakªada si¦ na
kolejny, dotycz¡c innego poziomu abstrakcji, tote» ochrzczone zostaªy one mianem 'warstwowego placka' (ang. layer cake ). Inne popularne ich okre±lenie to
'semantyczny stos' (ang. semantic stack ) pokazany na rys. 5.1.
Rysunek 5.1.
Stos standardów sieci semantycznej
Kolejne warstwy stosu, rozpatruj¡c je od doªu, reprezentuj¡:
•
Unicode - standard pozwalaj¡cy na wyra»enie w j¦zyku maszyn dowolnego znaku pisanego, dowolnego j¦zyka znanego na Ziemi. Standard ten rozwi¡zuje problem niewygód zwi¡zanych z prymatem w ±wiecie komputerów
podstawowego alfabetu ªaci«skiego;
•
URI - standard zapewniaj¡cy unikalno±¢ adresów zasobów internetowych.
Poniewa» wszystkie dane przesyªane w ramach sieci semantycznych b¦d¡
zasobami internetowymi, b¦d¡ one wymagaªy te» okre±lenia dla nich identykatora. Identykator b¦dzie mógª skªada¢ si¦ wªa±nie z zestawu znaków
Unicode.
•
XML i XML Schema - XML jest standardem pozwalaj¡cym w ogólno±ci
na zapis danych. Schematy XML wprowadzaj¡ ograniczenia dotycz¡ce typu i struktury danych. Zachowanie typu i struktury daje gwarancj¦, »e dane XML s¡ poprawne w sensie syntaktycznym (np. w polu, w którym oczekujemy warto±ci liczbowej, warto±¢ taka si¦ pojawi);
•
RDF i RDF Schema - RDF jest standardem, który pozwala na zapis danych w postaci grafu skierowanego. W grae tym dane zawarte s¡ w wierzchoªkach, a relacje pomi¦dzy nimi i wªasno±ci tych»e znajduj¡ si¦ w kraw¦dziach. Struktura metadanych w RDF ma dokªadniej opisywa¢ i deniowa¢
dane, a opiera¢ si¦ na gracznym modelu danych. Skªada si¦ on z elementów zbudowanych wedªug schematu: temat, obiekt i predykat (rys. 5.2).
52
Rysunek 5.2.
Graczny schemat modelu danych
Podmiot stanowi opisywany zasób, np. czªowiek, lub osoba. Predykat okre±la wªasno±¢ tego zasobu. W przypadku osoby mo»e to by¢ wªasno±¢ posiadania. Obiekt za± to warto±¢ tej wªasno±ci. W naszym przykªadzie mo»e to by¢
np. matka. W takim przypadku nasze zdanie wygl¡daªoby tak: Osoba (podmiot) ma (predykat) matk¦ (obiekt). Ponadto RDF daje mo»liwo±¢ ª¡czenia
ze sob¡ tego typu trójek, a w efekcie daje agentowi mo»liwo±¢ wnioskowania.
Schematy RDF wprowadzaj¡ do grafów takie poj¦cia jak klasy i podklasy, pozwalaj¡ce na wspólne grupowanie danych maj¡cych cechy wspólne. Dowolna
dana mo»e znajdowa¢ si¦ w wielu klasach;
•
OWL - standard pozwalaj¡cy na deniowanie klas na podstawie wªasno±ci
danych oraz na deniowanie logicznych charakterystyk relacji. OWL jest
wi¦c standardem formalnie zapisuj¡cym ontologi¦. Maj¡c dan¡ klas¦ 'Czªowiek', a tak»e posiadaj¡c w jej zbiorze relacj¦ 'jest m¦»em', chcieliby±my
okre±li¢ klas¦ 'Maª»onek' (dla czytelno±ci przykªadu, uznajemy denicj¦
m¦»a zgodn¡ z polskim stanem prawnym). Otó» maª»onkiem jest zarówno
dana, której podmiotem jest relacja 'jest m¦»em', jak i dana, której przedmiotem jest dana relacja (w j¦zyku grafów: maª»onkiem jest wierzchoªek
grafu, z którego wychodzi kraw¦d¹ 'jest m¦»em', jak i wierzchoªek, do którego taka kraw¦d¹ wchodzi). Relacj¦ 'jest m¦»em' mo»emy te» do±¢ dokªadnie okre±li¢. Jest to relacja funkcjonalna (tzn. »e ka»dy podmiot, którego
dotyczy ta relacja, ma co najwy»ej jeden przedmiot). Jest ona te» odwrotnie funkcjonalna (przedmiot tej relacji ma co najwy»ej jeden podmiot). Nie
jest ona przechodnia (tzn. nie ma takiej wªasno±ci, »e je±li A jest m¦»em B
a B jest m¦»em C to A jest m¦»em C), posiada natomiast relacj¦ odwrotn¡.
T¡ relacj¡ jest 'jest »on¡' (ka»dy A, który jest m¦»em B b¦dzie speªnia¢
nast¦puj¡c¡ relacj¦: B jest »on¡ A);
•
mechanizmy wnioskowania - j¦zyk OWL pozwala na deniowanie zale»no±ci mi¦dzy danymi, dzi¦ki czemu mo»na przeprowadza¢ wnioskowanie. Jednak»e osobn¡ spraw¡ jest przygotowanie odpowiednich mechanizmów, które takie wnioskowanie przeprowadz¡ poprawnie, a jednocze±nie
w odpowiednio szybkim czasie. Program, przeprowadzaj¡cy wnioskowanie
nosi miano wnioskuj¡cego. W chwili obecnej zaawansowanie techniczne
wnioskuj¡cych jest wci¡» ograniczone i przeprowadzanie wnioskowa« nawet na nieskomplikowanych ontologiach trwa zbyt dªugo jak na uwarunkowania Internetu;
5.4 Ontologie
•
53
mechanizmy certykacji i zaufania - istniej¡ w tej chwili w sferze rozwa»a« teoretycznych. Mechanizmy te pozwoliªyby na zestandaryzowanie
i rozwi¡zanie problemów autoryzacji u»ytkowników, identykacji ich zasobów, a tak»e okre±lenia praw, na jakich te zasoby s¡ przesyªane i mog¡ by¢
udost¦pniane.
Sie¢ semantyczna dostarcza zestaw rozwi¡za«, umo»liwiaj¡cych efektywne
wyszukiwanie informacji oraz zintegrowanie wyników pochodz¡cych z ró»nych
¹ródeª. Utworzone ju» zostaªy standardy opisu danych. Istniej¡ tak»e metody,
które pozwalaj¡ na korzystanie z tak precyzyjnych ¹ródeª wiedzy. Cho¢ stron
WWW ze strukturalnie opisan¡ zawarto±ci¡ jest ci¡gle za maªo, semantyczna
analiza ju» istniej¡cych zasobów i rozszerzenie ich tre±ci o metadane w standardzie RDFa pokazuj¡, »e stworzenie inteligentnej sieci przyszªo±ci jest mo»liwe - proces ju» si¦ rozpocz¡ª. Pierwszym krokiem byªo przetworzenie zawarto±ci pochodz¡cej z baz danych, takich jak Wikipedia czy MusicBrainz.
Nale»y jednak pami¦ta¢, »e sie¢ semantyczna mo»e dziaªa¢ tylko, je±li zapewniony b¦dzie dost¦p do bardzo zró»nicowanych tre±ci. Co wi¦cej, zawarto±¢
stron WWW musi by¢ ªatwa do znalezienia i poª¡czenia, za± relacje pomi¦dzy danymi lepiej opisane. Mo»na jednak zaªo»y¢, »e rewolucja polegaj¡ca na
przej±ciu od szukania fraz w wyszukiwarkach do odpowiedzi na pytania zadane
w j¦zyku naturalnym dokona si¦ w najbli»szych latach.
5.4 Ontologie
Ontologia jest poj¦ciem pochodz¡cym z lozoi, oznacza analiz¦ poj¦¢ i idei
w celu ustalenia tego, co istnieje oraz zwi¡zków pomi¦dzy istniej¡cymi elementami. Deniuje ona poj¦cia u»ywane do opisania i reprezentacji gaª¦zi wiedzy.
Ontologie s¡ u»ywane przez ludzi, bazy danych i aplikacje, które potrzebuj¡ informacji pochodz¡cych z danej dziedziny. Dziedzina jest rozumiana jako specyczna gaª¡¹ wiedzy taka, jak np. medycyna, handel nieruchomo±ciami, wytwarzanie narz¦dzi, naprawa samochodów, zarz¡dzanie nansami itp. Ontologie
zawieraj¡ denicje poj¦¢ z danej dziedziny oraz relacji zachodz¡cych pomi¦dzy
tymi poj¦ciami, które s¡ czytelne dla komputera. Denicje te nie musz¡ by¢
±cisªe w sensie rozumianym przez logik¦, ale raczej powinny by¢ zrozumiaªe dla
aplikacji. Ontologie klasykuj¡ wiedz¦ w postaci gaª¦zi wiedzy, czyni¡c j¡ dost¦pn¡ dla czªowieka i aplikacji.
Innymi sªowy ontologia jest to sªownik, który zwi¡zuje zbiór poj¦¢ pochodz¡cych z pewnej dziedziny wiedzy i relacje zachodz¡ce pomi¦dzy nimi, z opisami tekstowymi czytelnymi dla czªowieka, a tak»e reguªami poprawnego u»ycia tych poj¦¢ czytelnymi dla inteligentnej aplikacji. Konceptualizacja z kolei, jest uproszczonym obrazem ±wiata, jaki ma inteligentna aplikacja. Mo»e
ona by¢ uto»samiana z wiedz¡ o zbiorze poj¦¢ dotycz¡cych pewnej dziedziny
wiedzy i sposobie ich u»ycia.
54
5.5 Wyszukiwanie semantyczne
Wyszukiwarki semantyczne dzieli si¦ na dwie kategorie: wyszukiwarki analizuj¡ce znaczenie indeksowanych dokumentów i wyszukiwarki przeszukuj¡ce za-
56 . Te dwa rodzaje wyszukiwarek semantycznych dzia-
soby sieci semantycznej
ªaj¡ inaczej i inn¡ maj¡ te» peªni¢ rol¦ w poszukiwaniu informacji. Do miana
wyszukiwarki semantycznej aspiruj¡ np. Hakia
57 , Powerset wykorzystywany
59
KtoCo .
58
przez wyszukiwark¦ Bing , czy tez polskie rozwi¡zanie, jakim jest
5.5.1 Hakia
Hakia, w przeciwie«stwie do wyszukiwarek typu Google (która te» zaczyna wy-
szukiwa¢ semantycznie), ma dostarczy¢ maksymalnie dopasowany do zapytania zestaw ª¡czy do stron internetowych, dzi¦ki zaawansowanym technologicznie procedurom mechanicznego przetwarzania j¦zyka naturalnego, a nie metodom statystycznym. Hakia przeszukiwa¢ ma nie tyle strony internetowe,
co zawarto±¢ znaczeniow¡ tych stron. Zawarto±¢ znaczeniow¡ dokumentów
za± otrzymuje, stosuj¡c odpowiednie metody analizy tekstu dokumentu. Hakia dostarcza¢ ma tak»e bezpo±rednich odpowiedzi na postawione zapytanie
w oparciu o tre±¢ wysoko ocenianych witryn internetowych (tzn. je±li w oknie
zapytania wpiszemy zdanie ze znakiem pytaj¡cym, Hakia ma szuka¢ odpowiedzi na pytanie). Wyszukiwanie oparte na analizie znaczeniowej dokumentów
miaªoby tak¡ zalet¦, »e:
•
eliminowaªoby dokumenty zawieraj¡ce terminy wyszukiwane, ale rozpoznane jako posiadaj¡ce w danym kontek±cie odmienne znaczenie,
•
wprowadzaªoby do zbioru wyszukanych dokumentów strony internetowe
zawieraj¡ce wyra»enia o formie odmiennej od u»ytych w zapytaniu, ale
semantycznie zbie»ne.
W zwi¡zku z tak sformuªowanym zadaniem pojawiaj¡ si¦ jednak trudno±ci
dwojakiego rodzaju: po pierwsze, wchodz¡ tu w gr¦ dokªadnie wszystkie problemy zwi¡zane z semantyczn¡ analiz¡ j¦zyka naturalnego, po drugie za±, rodzi
si¦ pytanie o algorytm ustalania hierarchii wybranych dokumentów.
Mo»na powiedzie¢, »e Hakia rozpoznaje znaczenie u»ytego w zapytaniu
wyra»enia i rozpoznaje to samo znaczenie w indeksowanych dokumentach. Hakia interpretuje wyra»enia j¦zyka naturalnego w ustalonych modelach - ma-
pach poj¦¢ odpowiadaj¡cych poszczególnym terminom. Oczywi±cie do dyspozycji mamy wi¦cej ni» proste poj¦cia stanowi¡ce znaczenia prostych terminów:
56
57
58
59
http://www.infopoint.pl/wordpress/2008/10/12/co-to-jest-semantycznawyszukiwarka/
http://www.hakia.com/
http://www.bing.com/
http://www.ktoco.pl/
5.5 Wyszukiwanie semantyczne
55
do poj¦¢ doª¡czone s¡ ró»nego rodzaju syntaktyczne i semantyczne warunki
okre±laj¡ce mo»liwe relacje pomi¦dzy poj¦ciami. Konieczne b¦dzie tak»e ustalenie zasad wyboru jednego z wielu mo»liwych znacze« terminów wieloznacznych. Hakia przeprowadza analiz¦ semantyczn¡ wyra»e« w sposób na pierwszy
rzut oka caªkiem satysfakcjonuj¡cy. Ustalamy po prostu statystyczne prawdopodobie«stwo wspóªwyst¦powania znacze« sªów skªadaj¡cych si¦ na zdanie.
Znaczenia (poj¦cia) s¡ ustalone w sªowniku, z którego Hakia korzysta. Niektóre konstelacje s¡ szybko eliminowane na podstawie oceny mo»liwych kategorialnych dopeªnie« okre±lonego poj¦cia, niektóre za± s¡ oceniane jako mniej
lub bardziej prawdopodobne statystycznie.
To rozwi¡zanie, ma jednak wady. Przykªadowo caªa konstrukcja opiera si¦
na jednym centralnym i wzgl¦dnie staªym sªowniku podaj¡cym zasady interpretacji poszczególnych terminów. Dlaczego jest to wada? Dlatego »e sªownik
b¦d¡cy podstaw¡ interpretacji semantycznej jest modelem, który zawiera pewn¡ wiedz¦: np. pozwala wnioskowa¢ z informacji o przedmiocie lub zdarzeniu
A o innym przedmiocie lub zjawisku. Wydaje si¦, »e przynajmniej w naukach
±cisªych, np. w medycynie, nie ma w tym nic zªego, o ile model b¦dzie oparty na
dobrych ¹ródªach i o ile zaªo»ymy wzgl¦dn¡ staªo±¢ wiedzy medycznej czy nauk
±cisªych. Jednak mamy tu do czynienia z j¦zykiem technicznym, który jest
du»o prostszy ni» j¦zyk naturalny. Ambicj¡ Hakii jest rozumienie wyra»e«
j¦zyka naturalnego - ewentualnie pyta« w j¦zyku naturalnym zawieraj¡cym
terminy techniczne. Semantyka j¦zyków naturalnych nie jest za± zestawem
wzgl¦dnie staªych poj¦¢-znacze« przyporz¡dkowanych elementom leksykonów
tych j¦zyków.
Zreszt¡, o ile podanie prostych informacji dotycz¡cych jednego terminu technicznego nie sprawia Hakii problemów, o tyle realizacja drugiego zadania odpowiedzi na pytanie postawione w j¦zyku naturalnym, ale dotycz¡cym medycyny - pozostawia sporo do »yczenia. Wyniki za± nie wydaj¡ si¦ jako±ciowo odbiega¢ od efektów wyszukiwania w Google, które tak»e radzi sobie ju»
caªkiem swobodnie z odmianami gramatycznymi wyszukiwanych sªów.
Abstrahuj¡c od trudno±ci zwi¡zanych z analiz¡ semantyczn¡ wyra»e« j¦zyka natualnego, mo»na jednak postawi¢ pytanie: czy taka wyszukiwarka semantyczna mo»e naprawd¦ dostarczy¢ informacje zamiast listy odno±ników? Wst¦pnie mówimy tylko tyle, »e Hakia potraªaby skuteczniej wybra¢
relewantne do zapytania o dokumenty. To nie ma jeszcze nic wspólnego z ich
uporz¡dkowaniem, podobnie jak prawidªa algebry Boole'a nie maj¡ jeszcze nic
wspólnego z ustaleniem hierarchii dokumentów w tradycyjnych wyszukiwarkach. Aby móc ustali¢ hierarchi¦ dokumentów zwi¡zan¡ z ich znaczeniem, Hakia musiaªaby jednak dodatkowo ocenia¢ zawarto±¢ peªnych dokumentów i ich
zwi¡zek z zapytaniem - dopiero wtedy mogªaby uzna¢ wy»szo±¢ jednego dokumentu nad innym. Algorytm ustalania hierarchii dokumentów mógªby oczywi±cie polega¢ na dowolnej metodzie oceny warto±ci dokumentu, cho¢by takiej
jak w Google. To jednak, przynajmniej na poziomie deklaracji, nie jest celem
Hakii. Mo»emy znale¹¢ jednak sugesti¦, »e statystyczne metody ustalania hie-
56
rarchii dokumentów nie b¦d¡ satysfakcjonowaªy Hakii. Nie wiadomo jednak
na jakiej podstawie b¦dzie ustalana ich hierarchia. Zgodnie z wpisem na blogu
Hakii, metody statystyczne oparte na przykªad na ocenie ª¡czy do strony nie
mog¡ by¢ podstaw¡ oceny prawidªowo±ci wyniku wyszukiwania, poniewa» zawarto±¢ strony niesie o wiele wi¦cej informacji. Tyle tylko, »e ustalenie, czy
odpowied¹ jest odpowiednia do zapytania nie jest prosta. To tak»e problem
zró»nicowania wagi caªkiem sporej liczby dokumentów i jest to najpowa»niejsza trudno±¢ w dziaªaniu wyszukiwarek. Wymagaªoby to analizy semantycznej
du»o bardziej zªo»onej, ni» tworzenie map poj¦¢ dla leksykonów i zwi¡zków
frazeologicznych.
Autorzy Hakii deklaruj¡, »e wyniki maj¡ si¦ poprawi¢ nie tylko dzi¦ki
uwzgl¦dnieniu semantycznej zgodno±ci dokumentu z zapytaniem, ale tak»e
dzi¦ki podniesieniu jako±ci warto±ciowania dokumentów. Rzeczywisto±¢ tego
nie potwierdza, poniewa» u»yteczno±¢ tej wyszukiwarki jest bardzo niska. eby
si¦ o tym przekona¢, wystarczy wpisa¢ kilka próbnych pyta«, nie tylko z zakresu medycyny, ale np. bardzo »ywej dziedziny, jak¡ jest »ycie polityczne.
5.6 Powerset
Powerset dziaªa na zbli»onych do Hakii zasadach. Opieraj¡c si¦ na opisanej
w schemacie RDF wiedzy pochodz¡cej z Wikipedii, Powerset b¦dzie mógª
dokonywa¢ wyboru sªów kluczowych z dokumentów internetowych i interpretowa¢ je zgodnie z wiedz¡ tam zawart¡. Aktualnie Powerset jest ograniczony
do przeszukiwania Wikipedii, której przekªad na formuªy w schemacie RDF
nie jest tak skomplikowany, jak próba stworzenia narz¦dzi do przeksztaªcenia
dowolnej strony w HTML na zapis o strukturze RDF. Zawarto±¢ Wikipedii
stanowi dla Powerset baz¦ wiedzy, na podstawie której b¦dzie tworzony model
interpretacji semantycznej - daje to nadziej¦ na nieco lepsze rezultaty ni»
w przypadku Hakii. Jednak zasadnicze zadanie wydaje si¦ nadal bardzo karkoªomne: trzeba ustali¢ zasad¦ przekªadu otwartego tekstu dowolnego, strukturalnie bardzo swobodnie uporz¡dkowanego, dokumentu na ustalon¡ reprezentacj¦. Drugim zadaniem jest znowu ustalenie hierarchii dokumentów.
Powerset aktualnie wydaje si¦ lepiej radzi¢ sobie z drugim zadaniem, przy-
najmniej w przypadku pyta« zadanych jako sªowa kluczowe, poniewa» u»ytkownik widzi mo»liwe kategorie z ró»nych rodzajów powi¡zane z okre±lonym sªowem kluczowym i mo»e dokona¢ samodzielnego wyboru interesuj¡cej go dziedziny. Powerset tak»e du»o lepiej radzi sobie z wyborem listy wyników.
Niezale»nie od aktualnego stanu rozwoju wyszukiwarek opartych na analizie semantycznej j¦zyków naturalnych, mo»emy przyj¡¢, »e istnieje taki rodzaj
wyszukiwarek, które list¦ wyników buduj¡ na podstawie porównania znaczenia
pytania i tre±ci dokumentu (niezale»nie od tego, jaka jest struktura tego dokumentu). Celem budowy takich wyszukiwarek ma by¢ poprawienie jako±ci prze-
5.6 Powerset
57
szukiwania sieci. Dostarczane maj¡ by¢ bardziej pasuj¡ce do zapytania wyniki
i przedstawione w hierarchii bardziej odpowiadaj¡cej zapytaniu.
5.6.1 Przeszukiwanie sieci semantycznej
Drugi typ wyszukiwania semantycznego jest zwi¡zany z rozwojem sieci semantycznej, zwanej te» Web 3.0. Do wyszukiwarek w tym trendzie zaliczyliby±my
wyszukiwarki przeszukuj¡ce zawarto±¢ sieci semantycznej, tzn. zawarto±¢ ró»nego typu plików RDF oraz modeli interpretacji danych, czyli ontologii zapi-
60 ,
sanej w OWL (np. Swoogle
61 ,
Sindice
FalconS, Watson
62 ).
Co przeszukuj¡ tego rodzaju wyszukiwarki semantyczne? Przeszukuj¡ sie¢
semantyczn¡ - w gruncie rzeczy, przeszukuj¡ zawarto±¢ indeksowanych plików
RDF. Pliki RDF stanowi¡ metaopis zawarto±ci dokumentów internetowych.
Ka»dy wiersz pliku RDF (poza deklaracj¡ modeli interpretacji) ma struktur¦
trójczªonow¡: podmiot-predykat-warto±¢. Podmiotem jest URI; podmiot ten
ma okre±lon¡ cech¦ (jedna z kategorii pochodz¡cych ze wskazanych w nagªówku pliku RDF ontologii) o pewnej warto±ci. Wyszukiwarki semantyczne mog¡
np. poszukiwa¢ terminów lub fraz z dowolnej wskazanej cz¦±ci wierszy plików
RDF.
Wymienione powy»ej wyszukiwarki pozwalaj¡ nie tylko odszuka¢ terminy
w plikach RDF, ale te» umo»liwiaj¡ przeltrowanie danych np. wzgl¦dem ich
typu (typu, czyli kategorii, której warto±ci¡ w ró»nych plikach RDF jest wyszukany termin lub fraza).
Wyszukiwarki semantyczne tego rodzaju nie dokonuj¡ interpretacji semantycznej zawarto±ci dowolnych stron internetowych w oparciu o semantyczn¡
analiz¦ j¦zyka dokumentu, lecz bazuj¡ na opisie dokonanym przez twórców/
wªa±cicieli dokumentu oraz odwoªaniach do wybranych ontologii wskazanych
w nagªówkach plików RDF. W przeciwie«stwie do Hakii i Powerset, wyszukiwarki tego typu przeszukuj¡ sam¡ reprezentacj¦ semantyczn¡ dokumentu, nie
dokonuj¡ za± przekªadu tre±ci dokumentu na t¡ reprezentacj¦. T¡ drug¡ cz¦±¢
zadania zrealizowa¢ ma administrator strony.
Jak¡ rol¦ maj¡ odgrywa¢ wyszukiwarki semantyczne omawianego typu?
Z pewno±ci¡ pomog¡ nam odszuka¢ ontologi¦ do opisu zawarto±ci naszej witryny. Je±li za± chodzi o poszukiwanie informacji, pozwol¡ nam ªatwiej wyselekcjonowa¢ dokumenty zawieraj¡ce interesuj¡cy nas termin w okre±lonej kategorii. Dzi¦ki temu nie dostaniemy w li±cie wyników ª¡czy do dokumentów,
które z naszego punktu widzenia b¦d¡ zupeªnie bezwarto±ciowe.
Popularyzacja wprowadzania metaopisów do portali internetowych wydaje
si¦ odlegª¡ przyszªo±ci¡ z dwóch powodów: po pierwsze, ze wzgl¦du na niech¦¢
webmasterów do takich nowinek, a przede wszystkim z powodu braku wido60
61
62
http://swoogle.umbc.edu/
http://sindice.com/
http://watson.kmi.open.ac.uk/WatsonWUI/
58
cznych korzy±ci pªyn¡cych z dodawania takiego metaopisu. Brak korzy±ci z pewno±ci¡ znikn¡ªby z pola widzenia u»ytkowników sieci, gdyby Google zacz¡ª
indeksowa¢ zawarto±¢ stron, indeksuj¡c tak»e zawarto±¢ plików RDF.
Korzystaj¡c obecnie z wyszukiwarek tego rodzaju nie mo»na liczy¢ na zbyt
wiele, ze wzgl¦du na ubóstwo zawarto±ci sieci semantycznej i maª¡ popularno±¢
stosowania semantycznych metaopisów stron internetowych. Funkcjonalno±¢
tych wyszukiwarek semantycznych b¦dzie jednak post¦powaªa wraz z rozwojem sieci semantycznej. Ich problemem nie b¦d¡ »adne ograniczenia zwi¡zane
z analiz¡ semantyczn¡ j¦zyków naturalnych, poniewa» do ich zada« nie nale»y
interpretacja wyra»e« j¦zykowych - to za± stanowi¢ mo»e jedno z powa»niejszych ogranicze« Hakii i Powerset.
Literatura
1. Wyszukiwarki internetowe - dodatkowe funkcje wyszukiwarek. Witryna:
http://www.infopoint.pl/pliki/Dodatkowe_funkcje_wyszukiwarek.pdf
2. Eksploracja zasobów internetowych. Analiza struktury, zawarto±ci i u»ytkowania
sieci WWW, Zdravko Markov, Daniel T. Larose, PWN, Warszawa, 2009
3. Inteligentne wyszukiwarki Internetowe, Mieczysªaw Kªopotek, Akademicka Ocyna Wydawnicza, Warszawa, 2001
4. Automatic Text Processing: The Transformation Analysis and Retrieval of Information by Computer, Gerard Salton, Addison-Wesley, 1989
5. Web Intelligence, Ning Zhong, Jiming Liu, Yiyu Yao (Eds.) , Springer, 2003
6. B. Danowski, M. Makaruk. Pozycjonowanie I optymalizacja stron WWW. Helion
2009.
7. R. Lieb. Pozycjonowanie w wyszukiwarkach internetowych. Helion 2010.
8. Semantyczna Sie¢: Boty ucz¡ si¦ kojarzy¢. Witryna:
http://www.chip.pl/artykuly/porady/2009/06/semantyczna-siec-botyucza-sie-kojarzyc
Jedna z najlepszych uczelni w Polsce –
wyróżniana przez pracodawców, studentów
i media. Od początku swojej działalności
zajmuje czołowe miejsce w prestiżowych
rankingach uczelni wyższych – wielokrotnie
zdobywała pierwsze miejsce w rankingach
tygodników „Polityka”, „Wprost” i „Newsweek”
oraz Perspektyw/Rzeczpospolitej w kategoriach
uczelni technicznych, jak i niepublicznych.
PJWSTK jest uczelnią akademicką – Wydział
Informatyki posiada uprawnienia do nadawania
stopnia doktora oraz doktora habilitowanego
w dziedzinie nauk technicznych.
Uczelnia prowadzi studia na kierunkach:
Architektura Wnętrz – Wydział Sztuki Nowych
Mediów
studia I stopnia
Grafika – Wydział Sztuki Nowych Mediów
studia I i II stopnia oraz magisterskie jednolite
Informatyka – Wydział Informatyki
studia I, II i III stopnia oraz studia podyplomowe
Kulturoznawstwo – Wydział Kultury Japonii studia I i II stopnia
Główna siedziba znajduje się w samym centrum
Warszawy:
ul. Koszykowa 86
02–008 Warszawa
tel.: 22 584 45 00
www.pjwstk.edu.pl
Ośrodki w Bytomiu i w Gdańsku dopełniają
oferty edukacyjnej:
Wydział Zamiejscowy Informatyki w Bytomiu
Aleja Legionów 2
41–902 Bytom
tel.: 32 387 16 60
www.bytom.pjwstk.edu.pl
Wydział Zamiejscowy Informatyki w Gdańsku
Wydział Zamiejscowy Sztuki Nowych Mediów
w Gdańsku
ul. Brzegi 55
80–045 Gdańsk
tel.: 58 683 59 75
www.gdansk.pjwstk.edu.pl
Zarządzanie – Wydział Zarządzania Informacją
studia I stopnia
Przy PJWSTK działają także:
Akademickie Centrum Szkoleniowe
Akademickie Liceum Ogólnokształcące
Niepubliczne Liceum Plastyczne
Publikacja współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
02–008 Warszawa, ul. Koszykowa 86
tel.: 22 58 44 526, fax: 22 58 44 503
www.wydawnictwo.pjwstk.edu.pl
ISBN 978–83–63103–30–9
Egzemplarz bezpłatny
Podreczniki akademickie, tom 67
Krzysztof Dobosz
Eksploracja
Internetu
skrypt dla uczestników kursu

Oglądaj/Otwórz

Transkrypt

Podobne dokumenty

Google Maps, czyli jak znaleźć w internecie zdjęcie satelitarne