Oglądaj/Otwórz
Transkrypt
Oglądaj/Otwórz
Jedna z najlepszych uczelni w Polsce – wyróżniana przez pracodawców, studentów i media. Od początku swojej działalności zajmuje czołowe miejsce w prestiżowych rankingach uczelni wyższych – wielokrotnie zdobywała pierwsze miejsce w rankingach tygodników „Polityka”, „Wprost” i „Newsweek” oraz Perspektyw/Rzeczpospolitej w kategoriach uczelni technicznych, jak i niepublicznych. PJWSTK jest uczelnią akademicką – Wydział Informatyki posiada uprawnienia do nadawania stopnia doktora oraz doktora habilitowanego w dziedzinie nauk technicznych. Uczelnia prowadzi studia na kierunkach: Architektura Wnętrz – Wydział Sztuki Nowych Mediów studia I stopnia Grafika – Wydział Sztuki Nowych Mediów studia I i II stopnia oraz magisterskie jednolite Informatyka – Wydział Informatyki studia I, II i III stopnia oraz studia podyplomowe Kulturoznawstwo – Wydział Kultury Japonii studia I i II stopnia Główna siedziba znajduje się w samym centrum Warszawy: ul. Koszykowa 86 02–008 Warszawa tel.: 22 584 45 00 www.pjwstk.edu.pl e-mail: [email protected] Ośrodki w Bytomiu i w Gdańsku dopełniają oferty edukacyjnej: Wydział Zamiejscowy Informatyki w Bytomiu Aleja Legionów 2 41–902 Bytom tel.: 32 387 16 60 www.bytom.pjwstk.edu.pl e-mail: [email protected] kierunki: informatyka, grafika Wydział Zamiejscowy Informatyki w Gdańsku Wydział Zamiejscowy Sztuki Nowych Mediów w Gdańsku ul. Brzegi 55 80–045 Gdańsk tel.: 58 683 59 75 www.gdansk.pjwstk.edu.pl e-mail: [email protected] kierunki: informatyka, grafika Zarządzanie – Wydział Zarządzania Informacją studia I stopnia Przy PJWSTK działają także: Akademickie Centrum Szkoleniowe Akademickie Liceum Ogólnokształcące Niepubliczne Liceum Plastyczne Publikacja współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego. 02–008 Warszawa, ul. Koszykowa 86 tel.: 22 58 44 526, fax: 22 58 44 503 e-mail: [email protected] www.wydawnictwo.pjwstk.edu.pl ISBN 978–83–63103–30–9 Egzemplarz bezpłatny Podreczniki akademickie, tom 67 Krzysztof Dobosz Eksploracja Internetu skrypt dla uczestników kursu Notka biograficzna Dr inż. Krzysztof Dobosz pracuje na stanowisku adiunkta na Wydziale Zamiejscowym Informatyki Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych w Bytomiu oraz na Wydziale Automatyki, Elektroniki i Informatyki Politechniki Śląskiej w Gliwicach. Jego zainteresowania naukowe koncentrują się wokół zagadnień związanych z tworzeniem aplikacji dla sieci Internet i urządzeń mobilnych, a także inżynierią oprogramowania. Jest autorem wielu publikacji z tej dziedziny. Streszczenie Książka poświęcona jest wprowadzeniu do tematyki eksploracji sieci Internet. Zapoznaje ona Czytelnika z różnymi aspektami dostępu do zasobów Internetu, zwracając uwagę na istotną rolę przeglądarek internetowych i obsługiwanych przez nie technologii. Opisano funkcjonalności oprogramowania wyszukującego wyspecjalizowanego w odnajdywaniu pożądanych informacji. Zwrócono też uwagę na mechanizm pozycjonowania stron internetowych na listach wyników wyszukiwania. Książka obejmuje również podstawowe zagadnienia związane z sieciami semantycznymi. Opracowanie przeznaczone jest dla osób interesujących się przeszukiwaniem zasobów Internetu. Mogą z niego również skorzystać słuchacze informatycznych studiów podyplomowych i uczestnicy kursów dokształcających w dziedzinie wykorzystania sieci Internet. c Copyright by Wydawnictwo PJWSTK Warszawa 2012 Wszystkie nazwy produktów są zastrzeżonymi nazwami handlowymi lub znakami towarowymi odpowiednich firm. Książki w całości lub w części nie wolno powielać ani przekazywać w żaden sposób, nawet za pomocą nośników mechanicznych i elektronicznych (np. zapis magnetyczny) bez uzyskania pisemnej zgody Wydawnictwa. Edytor prof. zw. dr hab. Leonard Bolc Kierownik projektu prof. dr hab. inż. Konrad Wojciechowski Redaktor techniczny Aneta Ługowska Korekta Anna Bittner Komputerowy skład tekstu Grażyna Domańska-Żurek Projekt okładki Rafał Masłyk Wydawnictwo Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych ul. Koszykowa 86, 02-008 Warszawa tel. +48 22 58–44–526, fax +48 22 58–44–503 e-mail: [email protected] Oprawa miękka ISBN 978-83-63103-30-9 nakład: 50 egz. Wersja elektroniczna ISBN 978-83-63103-65-1 Projekt „Uczelnia bliżej biznesu – absolwent bliżej pracy” realizowany w Polsko-Japońskiej Wyższej Szkole Technik Komputerowych współfinansowany ze środków Unii Europejskiej, w ramach Europejskiego Funduszu Społecznego. Poddziałanie 4.1.1 „Wzmocnienie potencjału dydaktycznego uczelni” Programu Operacyjnego Kapitał Ludzki. Ta książka powinna byc cytowana jako: Dobosz, K., 2012. Eksploracja Internetu. Warszawa: Wydawnictwo PJWSTK. Spis tre±ci 1 2 3 Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Internet jako ¹ródªo informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Przewodnik po tre±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Przegl¡danie zasobów Internetu . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 Przegl¡darki internetowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Obsªugiwane technologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Podstawowe funkcjonalno±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Konkurencja w±ród przegl¡darek . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Wyszukiwanie w sieci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1 Oprogramowanie wyszukuj¡ce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 Wyszukiwanie informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2.1 Podstawy wyszukiwania . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2.2 Wyszukiwanie zaawansowane . . . . . . . . . . . . . . . . . . . . . . . 13 3.2.3 Wyszukiwanie dynamiczne . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.4 Ustawienia wyszukiwania . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.5 Filtrowanie tre±ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2.6 3.3 3.4 Usuwanie witryny z wyników wyszukiwania . . . . . . . . . . . 20 Wyszukiwanie specjalizowane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1 Wyszukiwanie graki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.2 Wyszukiwanie lmów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3.3 Google Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.4 Google Book Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.5 Google Scholar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.6 Pozostaªe specjalizowane wyszukiwarki Google . . . . . . . . 28 Narz¦dzia pomocnicze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 VI Spis tre±ci 3.5 4 5 3.4.1 Czytnik Google . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4.2 Usªuga Google Translate . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.4.3 Usªuga Google AdSense . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 ledzenie aktywno±ci u»ytkownika . . . . . . . . . . . . . . . . . . . . . . . . . 32 Pozycjonowanie witryn internetowych . . . . . . . . . . . . . . . . . . . . . 35 4.1 Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2 Parametry pozycjonowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3 Indeksacja stron internetowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.4 Sªowa kluczowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.5 Reklama w wyszukiwarkach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.6 Kryteria oceny strony internetowej . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.7 Najcz¦stsze bª¦dy pozycjonowania . . . . . . . . . . . . . . . . . . . . . . . . . 44 Wprowadzenie do sieci semantycznych . . . . . . . . . . . . . . . . . . . . . 49 5.1 Wst¦p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.2 Tworzenie sieci semantycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.3 Budowa sieci semantycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.4 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.5 Wyszukiwanie semantyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.5.1 Hakia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.6 Powerset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.6.1 57 Przeszukiwanie sieci semantycznej . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 1 Wst¦p 1.1 Internet jako ¹ródªo informacji Internet to ogólno±wiatowa sie¢ komputerowa. Internet dziaªa w oparciu o istniej¡c¡ ju» infrastruktur¦ telekomunikacyjn¡ oraz specjalistyczny sprz¦t sieciowy pozwalaj¡cy na zyczn¡ komunikacj¦ pomi¦dzy komputerami. Komputery poª¡czone sieci¡ Internet adresowane s¡ z wykorzystaniem protokoªu komunikacyjnego IP (ang. Internet Protocol ). W oparciu o ten protokóª powstaª zbiór protokoªów komunikacyjnych. Ka»dy protokóª komunikacyjny jest logicznie podzielony na warstwy: warstwa ni»sza zapewnia funkcjonalno±¢ wymagan¡ przez najbli»sz¡ warstw¦ wy»sz¡, dodaj¡c jednocze±nie wªasne dane pomocnicze i kontrolne. Protokoªy komunikacyjne s¡ wykorzystywane przez ró»norodne usªugi internetowe. Przykªadem mo»e by¢ np. usªuga WWW (ang. World Wide Web ) wykorzystuj¡ca protokóª HTTP (ang. Hypertext Transfer Protocol ), dziaªaj¡cy w warstwie wy»szej, na bazie warstwy protokoªu IP. Protokóª HTTP okre±lany jest te» mianem protokoªu warstwy aplikacji¹ tego wzgl¦du, »e stanowi on z kolei warstw¦ no±n¡ dla danych tworzonych przez oprogramowanie u»ytkowe, zwane aplikacjami. Innego rodzaju podstawowe usªugi w sieci Internet to np.: • poczta elektroniczna, • udost¦pnianie plików, • zdalne logowanie, • grupy dyskusyjne, • listy dyskusyjne, • pogaw¦dki IRC (ang. Internet Relay Chat ), • telefonia internetowa, • wyszukiwanie informacji. 2 1 Wst¦p Obecnie skoncentrujmy si¦ na usªudze wyszukiwania informacji jako pod- stawowej usªudze pozwalaj¡cej na eksploracj¦ zasobów sieci Internet. Wspóªczesny czªowiek, gdy potrzebuje szybko odnale¹¢ odpowied¹ na nurtuj¡ce go pytanie zazwyczaj wª¡cza komputer z dost¦pem do sieci Internet, otwiera swoj¡ ulubion¡ wyszukiwark¦ internetow¡ i wpisuje jakie± pytanie, czy fraz¦ w odpowiednie pole, oczekuj¡c wyników, które pomog¡ mu znale¹¢ odpowied¹ i zaspokoi¢ jego wiedz¦. Zgromadzone w niniejszej publikacji materiaªy pozwol¡ na poznanie podstawowych zagadnie« zwi¡zanych z przegl¡daniem zasobów sieci Internet, wyszukiwaniem interesuj¡cych informacji oraz skutecznym ich udost¦pnianiem uªatwiaj¡cym ich odnajdywanie. 1.2 Przewodnik po tre±ci Prezentowana ksi¡»ka zostaªa podzielona na pi¦¢ rozdziaªów. Rozdziaª pierwszy Wst¦p zawiera wprowadzenie do zagadnie« zwi¡zanych z sieci¡ Internet oraz niniejszy przewodnik po tre±ci ksi¡»ki. Rozdziaª drugi pt. Przegl¡danie zasobów Internetu wprowadza czytelnika w zagadnienia zwi¡zane z przegl¡darkami internetowymi, ich histori¡, a tak»e ide¡ dziaªania, wykorzystywanymi technologiami, najwa»niejszymi funkcjonalno±ciami. Rozdziaª trzeci pt. Wyszukiwanie w sieci obejmuje omówienie caªo±ci zagadnie« wyszukiwania pocz¡wszy od podstaw wyszukiwania, poprzez budowanie zaawansowanych wyra»e« i wyszukiwanie dynamiczne. Omówione zostan¡ sposoby konguracji usªugi wyszukiwania, ltrowanie znajdywanych tre±ci oraz wpªyw na modykowanie wyników wyszukiwania. Rozdziaª ten przybli»a te» narz¦dzia do wyszukiwania ró»nych typów zasobów: graki, ksi¡»ek, artykuªów, lokacji, wpisów w blogach, czy fragmentów ¹ródeª programów komputerowych. Wskazane zostan¡ tez narz¦dzia pomocne w przetwarzaniu odszukanych zasobów internetowych, a pozwalaj¡ce na ich przetªumaczenie na dowolny j¦zyk b¡d¹ ±ledzenie aktualizacji. Rozdziaª zawiera te» przykªady praktycznych ¢wicze« do wykonania. Kolejny rozdziaª pt. Pozycjonowanie witryn internetowych przybli»a najwa»niejsze aspekty obsªugi wyszukiwarek internetowych, pocz¡wszy od sposobów indeksacji stron internetowych, poprzez metody ich deniowania wykorzystuj¡ce rol¦ sªów kluczowych i ª¡czy internetowych, a» po mechanizmy reklamowe pozwalaj¡ce na uzyskiwanie wysokich pozycji w rankingu wyszukiwania. Na ko«cu rozdziaªu znajduj¡ si¦ przykªady ¢wicze« do wykonania. Rozdziaª czwarty pt. Wprowadzenie do sieci semantycznych zawiera informacje wprowadzaj¡ce do zagadnie« zwi¡zanych z wprowadzaniem technologii Web 3.0. Najpierw przedstawione zostan¡ podstawowe idee i poj¦cia dotycz¡ce sieci semantycznych oraz wybrane aspekty wyszukiwania semantycznego. 2 Przegl¡danie zasobów Internetu 2.1 Przegl¡darki internetowe Przegl¡darka internetowa lub przegl¡darka lub inaczej przegl¡darka WWW, to program komputerowy sªu»¡cy do pobierania oraz wy±wietlania stron internetowych udost¦pnianych przez serwery WWW. Program ten przy u»yciu ró»nych rozszerze« zwanych wtyczkami, pozwala te» cz¦sto na uruchamianie pobranych zasobów, je±li s¡ to np. zasoby multimedialne takie jak muzyka, lmy, prezentacje itp. Przegl¡darki internetowe komunikuj¡ si¦ z serwerami zazwyczaj za pomoc¡ protokoªu HTTP lub HTTPS. Cz¦sto wraz z przegl¡darkami dostarczane s¡ komponenty, które umo»liwiaj¡ korzystanie z serwerów grup dyskusyjnych, poczty elektronicznej oraz serwerów plików. Ogromne zainteresowanie Internetem w ci¡gu wszystkich lat jego istnienia, doprowadziªo do powstania bardzo wielu przegl¡darek serwisów WWW. Niektóre z nich znacz¡co wpªyn¦ªy na kierunek rozwoju tego typu oprogramowania stanowi¡c swoiste kamienie milowe. Oto ich lista: • WorldWideWeb - pierwsza przegl¡darka twóry WWW, Tima BernersaLee, przygotowana w grudniu 1990 roku dla platformy NextStep. Program zostaª rozesªany do grupy osób w instytucie CERN w marcu 1991 roku. • Samba - pierwsza przegl¡darka internetowa dla komputerów Macintosh uko«czona pod koniec 1992 roku. • Mosaic - pierwsza przegl¡darka graczna. Pierwotna wersja zostaªa opracowana dla platformy gracznej X Window System dla ±rodowisk uniksowych w lutym 1993 r. Kilka miesi¦cy pó¹niej pojawiªa si¦ wersja dla komputerów Macintosh. Przegl¡darka ta interpretowaªa grak¦, d¹wi¦k, klipy wideo i formularze. Zawieraªa te» zakªadki i plik historii. Mosaic staª si¦ m.in. pierwowzorem przegl¡darki Internet Explorer. • Lynx - przegl¡darka wywodz¡ca si¦ z University of Kansas. Pomimo, i» przeznaczona jest do pracy na terminalach tekstowych, to jest rozwijana do dzisiaj. 4 • 2 Przegl¡danie zasobów Internetu Opera - przegl¡darka, któr¡ opracowali w 1994 r. pracownicy zespoªu badawczego z rmy telekomunikacyjnej Telenor w Oslo. Pod koniec 2000 roku program w wersji 5 zostaª udost¦pniony jako darmowy. Pocz¡wszy od wersji 8.50 (rok 2005) program jest pozbawiony wszelkich reklam. • Netscape Navigator - program powstaª w 1994 r. w rmie Netscape Communications Corporation jako pierwsza komercyjna przegl¡darka na rynku. Pocz¡tkowo byª oparty na przegl¡darce Mosaic. Ostatnie wersje 8 i 9 bazowaªy na kodzie przegl¡darki Mozilla Firefox. • Internet Explorer - przegl¡darka udost¦pniona w 1995 roku wraz z systemem operacyjnym Windows 95. Dzi¦ki tej integracji, po roku aplikacja ta zdobyªa 1/3 rynku, za± po kolejnych trzech latach staªa si¦ liderem. Wykorzystuje silnik Trident. • Mozilla Suite - nazwa Mozilla byªa pocz¡tkowo nazw¡ kodow¡ przegl¡darki Netscape Navigator. W 1998 roku rma Netscape Communications Corporation upubliczniªa kod ¹ródªowy swojej przegl¡darki, co daªo pocz¡tek przegl¡darce Mozilla Suite. Pocz¡tkowo miaªa ona jedynie sªu»y¢ jako platforma testowa nowych rozwi¡za« opartych o silnik Gecko. Przez pewien okres funkcjonowaªa równolegle z przegl¡dark¡ Netscape Navigator. Po Netscape'a uruchomiono kilka projektów bazuj¡cych na Mozillli, z których najpopularniejszym jest obecnie Firefox. • Safari - pierwsza przegl¡darka korzystaj¡ca z opartego na KHTML silnika WebKit opracowana w 2003 r. • Google Chrome - to przegl¡darka opracowana przez rm¦ Google w roku 2008. Bazuje cz¦±ciowo na innych przegl¡darkach m.in. Mozilli oraz silniku WebKit. W opisach niektórych wymienionych tu przegl¡darek pojawiªo si¦ poj¦cie silnika przegl¡darki internetowej (np. Trident, Gecko, WebKit). Jest to mechanizm odpowiadaj¡cy za przetwarzanie zawarto±ci stron internetowych oraz ich elementów formatuj¡cych, a nast¦pnie wy±wietlenie rezultatu. Poszczególne silniki wykorzystywane przez przegl¡darki internetowe ró»ni¡ si¦ od siebie, co mo»e czasem doprowadzi¢ do sytuacji, gdy ta sama strona internetowa wygl¡da inaczej w ró»nych przegl¡darkach. 2.2 Obsªugiwane technologie Trwaj¡ca na rynku konkurencja w±ród twórców przegl¡darek powoduje, »e oprogramowanie do przegl¡dania stron WWW caªy czas ewoluuje w stron¦ wi¦kszej ergonomii, u»yteczno±ci i wygody u»ytkownika. Nowoczesne przegl¡darki speªniaj¡ szereg wymaga« i wykorzystuj¡ wiele nowoczesnych technologii: • • protokoªy komunikacyjne HTTP i HTTPS, j¦zyki znaczników HTML, XML i XHTML, 2.3 Podstawowe funkcjonalno±ci • • • • • • • • 5 obiektowy model dokumentu DOM, skrypty JavaScript, format graki rastrowej GIF, JPEG, PNG, format graki wektorowej SVG, kaskadowe arkusze stylów CSS, komponenty Adobe Flash, komponenty Java Applets, mechanizm ciasteczek. 2.3 Podstawowe funkcjonalno±ci Ci¡gªy rozwój przegl¡darek internetowych oraz walka o u»ytkowników powoduj¡, »e ich producenci oprócz nowoczesnych technologii wprowadzaj¡ do swoich produktów coraz to nowe u»yteczne funkcjonalno±ci. Mo»na tu wymieni¢ m.in.: • • karty pozwalaj¡ce otwiera¢ nowe strony internetowe w tym samym oknie, zarz¡dców pobierania plików, pozwalaj¡cych m.in. na automatyczny ponowny transfer w przypadku kªopotów z poª¡czeniem, • przechowywanie plików w pami¦ci podr¦cznej, dzi¦ki czemu przyspieszeniu ulega operacja przeªadowywania strony internetowej, • • mo»liwo±¢ dostosowania interfejsu do preferencji i potrzeb u»ytkownika, zakªadki pozwalaj¡ce na zapami¦tywanie adresów odwiedzanych witryn internetowych, • zapami¦tywanie haseª do cz¦sto odwiedzanych serwisów wymagaj¡cych logowania, • skróty klawiaturowe i deniowalne u»ycia myszki pozwalaj¡ce na szybsze wykonywanie niektórych operacji, • automatyczne blokowanie wyskakuj¡cych okienek, które mog¡ by¢ generowane przez zªo±liwe oprogramowanie zamieszczane w niektórych witrynach internetowych, • zarz¡dzanie danymi prywatnymi, takimi jak: historia odwiedzin, dane formularzy, • sprawdzanie poprawno±ci pisowni w formularzach np. podczas dost¦pu do poczty elektronicznej poprzez przegl¡dark¦, • • • • powi¦kszanie tekstu, grak lub caªej zawarto±ci strony, czytniki kanaªów RSS i Atom, funkcje szybkiego wybierania stron, obsªuga wszelkich rozszerze« (wtyczek) doª¡czanie niestandardowych funkcjonalno±ci, np. pasek z prognoz¡ pogody itp. 6 2 Przegl¡danie zasobów Internetu 2.4 Konkurencja w±ród przegl¡darek Sytuacja na rynku przegl¡darek internetowych jest do±¢ specyczna i w znacznej mierze uzale»niona od systemów operacyjnych wykorzystywanych przez u»ytkowników Internetu. Firma Microsoft wprowadzaj¡c na rynek system operacyjny MS Windows oferuje wraz z nim przegl¡dark¦ Internet Explorer i ka»dy u»ytkownik tego systemu chc¡c, czy nie, ma j¡ zainstalowan¡. Ta monopolistyczna pozycja przegl¡darki Internet Explorer przez dªugi okres uniemo»liwiaªa zaistnienie na rynku innym przegl¡darkom, które z biegiem czasu zacz¦ªy j¡ przewy»sza¢ swoimi mo»liwo±ciami. Obecnie konkurencja pomi¦dzy przegl¡darkami toczy si¦ w obszarze obsªugi nowoczesnych standardów W3C (ang. World Wide Web Consortium ). Na korzy±¢ przegl¡darki Microsoftu dziaªa obecnie silna pozycja rynkowa i fakt, »e wi¦kszo±¢ stron wy±wietla si¦ w niej poprawnie. Pomimo wszystko coraz wi¦cej u»ytkowników rezygnuje z niej na rzecz innych przegl¡darek, a twórcy witryn internetowych zaczynaj¡ tworzy¢ coraz wi¦cej stron zgodnych z najnowszymi standardami. Powstaªy nawet zrzeszenia informuj¡ce wªa±cicieli stron, »e ich witryna nie jest dobrze wy±wietlana w ró»nych przegl¡darkach, jak równie» propaguj¡ce przegl¡darki inne ni» Internet Explorer. Cz¦ste aktualizacje wersji przegl¡darek przez producentów powoduj¡, »e niektóre z nich zyskuj¡ na popularno±ci, a inne trac¡. Dane publikowane w serwisie gemiusRanking 1 pochodz¡ z projektu dostarczaj¡cego informacji o za- chowaniu internautów na witrynach internetowych oraz stosowanych przez nich rozwi¡zaniach technicznych. Dane gromadzone s¡ dzi¦ki skryptom zliczaj¡cym, umieszczonym w kodzie stron podª¡czonych do badania. Udziaª poszczególnych przegl¡darek u»ywanych przez internautów ª¡cz¡cych si¦ z obszaru Rysunek 2.1. 1 Porównanie popularno±ci przegl¡darek http://www.ranking.pl/pl/rankings/web-browsers-groups.html 2.4 Konkurencja w±ród przegl¡darek 7 Polski z polskimi witrynami przedstawia si¦ tak jak na rys. 2.1., gdzie kolor pomara«czowy oznacza Mozilla Firefox, niebieski - Microsoft Internet Explorer, za± zielony - Google Chrome. Przegl¡darki Opera i Safari zajmuj¡ zwykle miejsca czwarte i pi¡te w obecnie prowadzonych rankingach. Na dzie« dzisiejszy poza terenem Polski przegl¡darka Firefox nie dominuje tak bardzo nad Internet Explorerem, za± na terenie Stanów Zjednoczonych przewa»a w rankingach. 3 Wyszukiwanie w sieci 3.1 Oprogramowanie wyszukuj¡ce Wyszukiwarka internetowa to serwis wyposa»ony w stron¦ internetow¡, którego zadaniem jest uªatwienie u»ytkownikom znalezienia informacji w sieci. Okre±lenie to stosujemy najcz¦±ciej do: • stron internetowych serwisów sªu»¡cych do wyszukiwania informacji, czyli do oprogramowania wyszukuj¡cego zainstalowanego na serwerach rmowych producenta, a dziaªaj¡cego z interfejsem WWW ogólnodost¦pnym dla internautów, • oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w sieci Internet. Wyszukiwarki pozwalaj¡ na automatyczne gromadzenie informacji o wszel- kich plikach zgromadzonych w obszarze sieci, na którym ona dziaªa. Ogromne zainteresowanie automatyzacj¡ wyszukiwania informacji w sieci Internet doprowadziªo do powstania wielu wyszukiwarek. Oto ich lista tych, których popularno±¢ byªa znacz¡ca od momentu powstania sieci Internet: • Archie1 - mechanizm wyszukiwawczy dla usªugi FTP, pozwalaj¡cy przeszukiwa¢ zasoby plików na serwerach FTP. Najwcze±niejsza wersja Archie (rok 1990) polegaªa na pobieraniu z serwerów FTP list plików (±rednio raz w miesi¡cu). Listy te mo»na byªo przeszukiwa¢ za pomoc¡ polecenia grep pochodz¡cego z systemu operacyjnego Unix. Potem opracowano bardziej zaawansowane mechanizmy oraz interfejs, a lokalny pocz¡tkowo system zacz¡ª si¦ upowszechnia¢ w sieci, staj¡c si¦ jedn¡ z najpowszechniej u»ywanych usªug w Internecie. Serwery Archie byªy dost¦pne na wiele sposobów, za pomoc¡ lokalnych klientów (archie i xarchie ), poprzez Telnet, zapytania za po±rednictwem poczty elektronicznej, wreszcie poprzez strony WWW. 1 http://archie.icm.edu.pl/ 10 • 3 Wyszukiwanie w sieci Altavista2 - to wyszukiwarka internetowa opracowana w 1995 r., której twórcy opracowali uprzednio nowatorsk¡ metod¦ gromadzenia ka»dego wyrazu w szybkim, przeszukiwalnym indeksie, co byªo podstaw¡ zbudowania wyszukiwarki sieciowej. Byªa ona te» pierwsz¡ wieloj¦zyczn¡ wyszukiwark¡ i obsªugiwaªa j¦zyki oparte na nieªaci«skich alfabetach, jak japo«ski czy chi«ski. Posiadaªa narz¦dzia do automatycznej translacji stron oraz wyszukiwania fraz i multimediów. • Yahoo!3 - twórcami jej byli studenci zafascynowani porz¡dkowaniem dokumentów wyszukanych poprzez narz¦dzie Altavista. Pocz¡tkowo strona z wyszukiwark¡ nazywaªa si¦ Jerry and David's Guide to the World Wide Web. Strona internetowa stawaªa si¦ coraz bardziej popularna, dlatego te» nazwa zostaªa zmieniona na Yahoo!, które w 1996 roku zadebiutowaªo na gieªdzie. • Google4 - jako wyszukiwarka internetowa Google zostaªo zaªo»one w ramach projektu studenckiego na Uniwersytecie Stanforda w 1996 roku. Istota jej dziaªania oparªa si¦ na matematycznej analizie zale»no±ci pomi¦dzy stronami internetowymi. Zamiast na metodach zwykªego segregowania wyników, oparªa si¦ na cz¦stotliwo±ci wyst¦powania wyszukiwanej frazy. Obecnie jest najpopularniejsz¡ wyszukiwark¡ na ±wiecie. • Bing5 - przodkiem przegl¡darki Bing byª produkt rmy Microsoft: MSN Search, który zostaª wprowadzony ocjalnie w 2005 roku. Byª to opracowany od podstaw projekt, przyst¦pny w 10 wersjach j¦zykowych, indeksuj¡cy w chwili ocjalnej inauguracji co najmniej 5 mld stron. Stopniowo projekt przeradzaª si¦ w usªug¦ Windows Live, której nalna wersja w 2006 r. ocjalnie zast¡piªa MSN Search. Przegl¡darka Bing pojawiªa si¦ w roku 2009, jednocze±nie jej poprzednik - Windows Live Search znikn¡ª z sieci. Serwis gemiusRanking zajmuj¡cy si¦ ró»nymi rankingami zwi¡zanymi z polskim Internetem dostarcza nam równie» informacji o wyszukiwarkach (a wªa±ciwie ich silnikach), z których internauci ª¡cz¡cy si¦ z terenu Polski traaj¡ na polskie witryny. Przedstawia je rys. 3.1. Jak mo»na zauwa»y¢, dominuj¡c¡ rol¦ w±ród Polaków peªni wyszukiwarka Google, za± daleko w tyle, na granicy 1% popularno±ci balansuj¡ przegl¡darki rmy Microsoft aktualnie reprezentowane przez Bing. Pewn¡ zauwa»aln¡ popularno±¢, cho¢ niewidoczn¡ na wykresie, zdobywa równie» wyszukiwarka 6 NetSprint . Przegl¡darki w celu gromadzenia informacji z sieci Internet mog¡ posªugiwa¢ si¦ ró»nymi metodami. Niektóre z nich to: 2 3 4 5 6 http://www.altavista.com/ http://pl.yahoo.com/ http://www.google.pl/ http://www.bing.com/ http://www.netsprint.pl/ 3.1 Oprogramowanie wyszukuj¡ce Rysunek 3.1. • 11 Ranking silników wyszukiwarek analiza tre±ci strony - mechanizm ten bezkrytycznie przeszukuje Internet, analizuj¡c zawarto±¢ stron. Jest bardzo podatny na nadu»ycia, przez co u»ytkownik zamiast u»ytecznych informacji, dostaje ª¡cza (ang. link ) do stron niemaj¡cych nic wspólnego z jego zapytaniem. • analiza topologii sieci - »eby przeciwdziaªa¢ traktowaniu jako wynik wyszukiwania wyª¡cznie stron zawieraj¡cych wskazane sªowa kluczowe, wyszukiwarki zacz¦ªy stosowa¢ analiz¦ topologii sieci. Otó» odnaleziona strona zostanie uznana za zgodn¡ z tematem, gdy wiele innych stron posiada do niej swoje ª¡cza. Pierwsz¡ wyszukiwark¡, która zastosowaªa zaawansowane algorytmy analizy topologii sieci byª Google. Wyszukiwarki oparte na analizie topologicznej s¡ cz¦sto uwa»ane za bardzo odporne na nadu»ycia. W rzeczywisto±ci stosunkowo cz¦stym atakiem s¡ systemy automatycznej wymiany ª¡czy. Inn¡ form¡ ataku jest stworzenie du»ej liczby stron ze spor¡ liczb¡ ª¡czy, przy czym wszystkie kieruj¡ na u»ytkownika pod ten sam adres. • aukcja miejsc - pomysª ten polega na wprowadzeniu opªat za ka»de klikni¦cie w ª¡cze, przy czym miejsca na li±cie rezultatów wyszukiwania s¡ licytowane. Metoda ta jest korzystna dla wªa±cicieli stron - pªac¡ oni tylko za wej±cia, nie za wy±wietlenia. Twórcy twierdz¡, »e jest on równie» korzystny dla u»ytkownika, bowiem tylko strony, które oferuj¡ co± u»ytecznego z danej dziedziny mog¡ sobie pozwoli¢ na tak¡ reklam¦. Jednak z drugiej strony wiele u»ytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki b¦d¡ cz¦sto nieoptymalne - np. na tak¡ reklam¦ nie mog¡ sobie pozwoli¢ strony, które maj¡ niskie mar»e i oferuj¡ produkty po niskich cenach, tylko te, które maj¡ wysokie mar»e i oferuj¡ produkty dro»ej. 12 3 Wyszukiwanie w sieci Wspóªczesne oprogramowanie wyszukiwarek jest wysoce skomplikowanym systemem rozproszonym uruchamianym zwykle w wielu oddzielnych etapach na tysi¡cach oddzielnych komputerów - zarówno ze wzgl¦du na rozmiar i skal¦ przeszukiwanej sieci, jak te» ze wzgl¦dów na poprawienie dost¦pno±ci usªugi w wypadku awarii poszczególnych komponentów. Wyszukiwarka jest to wªa±ciwie zestaw programów, z których ka»dy ma oddzielne zadanie. Mo»na tu wymieni¢: • roboty sieciowe, które zbieraj¡ informacje zarówno o nowych, jak i o ostatnio modykowanych stronach. Kiedy robot znajduje nowo utworzon¡ stron¦, odczytuje j¡ i przemieszcza si¦ po ª¡czach do innych stron w serwisie WWW. Robot pozostawia po sobie ±lady w dzienniku serwera. Sprawdzaj¡c je, mo»emy uzyska¢ informacje kiedy dany robot odwiedziª stron¦. Analiza taka dostarcza wielu informacji, na temat dziaªania wyszukiwarek internetowych; • moduªy analizuj¡ce i oceniaj¡ce strony WWW, a nast¦pnie gromadz¡ce dane o wyst¦puj¡cych w dokumentach wyrazach i innych tre±ciach, które umieszcza si¦ w wydajnych bazach danych umo»liwiaj¡cych pó¹niejsze szybkie wyszukiwanie wyrazów i fraz bez konieczno±ci ponownego analizowania i przeszukiwania ¹ródªowych dokumentów. Dzi¦ki indeksowaniu wyszukiwarka internetowa mo»e poda¢ wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie; • moduª analizuj¡cy przesyªane do wyszukiwarki pytania i wyszukuj¡cy na nie odpowiedzi, • moduªy: prezentacji wyników, konwersji dokumentów, archiwizuj¡ce baz¦ danych o stronach WWW, administracyjne, analizy i wykrywania technik niepo»¡danych. 3.2 Wyszukiwanie informacji 3.2.1 Podstawy wyszukiwania W celu wyszukania informacji w wyszukiwarce Google (Rys. 3.2) wystarczy wprowadzi¢ jedno lub wi¦cej sªów jak najlepiej reprezentuj¡cych wyszukiwane informacje w polu wyszukiwania, a nast¦pnie nacisn¡¢ klawisz Enter albo 7 klikn¡¢ przycisk z symbolem szkªa powi¦kszaj¡cego . Rysunek 3.2. 7 Podstawowa forma wyszukiwarki Google http://www.google.pl/intl/pl/help/basics.html. 3.2 Wyszukiwanie informacji 13 Wyszukiwarka utworzy wtedy stron¦ z wynikami wyszukiwania, czyli list¦ stron internetowych zwi¡zanych z wyszukiwanymi sªowami. Lista ta zostanie uporz¡dkowana w taki sposób, »e najtrafniejsze wyniki znajduj¡ si¦ na jej pocz¡tku. Oczywi±cie, podstawowe znaczenie w skutecznym wyszukiwaniu informacji ma dobór wªa±ciwych sªów reprezentuj¡cych poszukiwane informacje. Wyszukiwarki zwykle nie rozró»niaj¡ wielko±ci liter i wszystkie wprowadzone przez u»ytkownika b¦d¡ traktowane jako litery maªe. Dlatego te» wyszukiwanie dla dwóch identycznych sªów, z których jedno jest zapisane maªymi, a drugie du»ymi literami, da te same wyniki. Wyszukiwarka Google zwraca domy±lnie tylko takie strony, które zawieraj¡ wszystkie wyszukiwane wyrazy, przy czym na wyniki wyszukiwania ma wpªyw kolejno±¢, w jakiej zostaªy podane. Wyszukuj¡c informacje, mo»emy zapisa¢ w oknie wyszukiwarki zapytanie caªym zdaniem, jednak»e wyszukiwarka b¦dzie ignorowa¢ cz¦sto u»ywane sªowa, a w szczególno±ci: spójniki, przyimki, pojedyncze litery i cyfry. Takie sªowa nie powoduj¡ wyszukania lepszych wyników, a spowalniaj¡ tylko caª¡ operacj¦. Jednak»e w sytuacji, gdy cz¦sto u»ywane sªowo jest po»¡dane w wyszukiwaniu, nale»y postawi¢ przed nim opera- tor +. Od tej reguªy s¡ wyj¡tki, przykªadowo znak $, jako wykorzystywany cz¦sto do podawania cen, nie b¦dzie pomini¦ty. Symbole wyst¦puj¡ce w popularnych hasªach o konkretnym znaczeniu, takich jak C++ lub C# (nazwy j¦zyków programowania), te» nie b¦d¡ ignorowane. Dotyczy to równie» znaku podkre±lenia _, który nie b¦dzie ignorowany, je±li ª¡czy dwa wyrazy. W przypadku wyszukiwania caªych fraz, nale»y je po prostu uj¡¢ w znaki cudzysªowu. Jest to szczególnie wa»ne, gdy poszukiwane s¡ nazwy wªasne takie jak tytuªy lmów, ksi¡»ek czy piosenek. W przypadku, gdy u»ytkownik zdaje sobie spraw¦, »e wyszukiwane sªowo ma dwa lub wi¦cej znacze«, to mo»e zaw¦zi¢ obszar wyszukiwania przez wstawienie znaku - przed wyrazami, których w wynikach chce unikn¡¢, a które równie» mog¡ kojarzy¢ si¦ z poszukiwanym hasªem. W wyszukiwarce Google znajdowaª si¦ równie» przycisk Szcz¦±liwy traf, który po wprowadzeniu poszukiwanego wyrazu lub wyrazów, przenosi automatycznie do witryny wskazanej przez wyszukiwark¦ na pierwszym miejscu listy, bez jej wy±wietlania na stronie z wynikami wyszukiwania. 3.2.2 Wyszukiwanie zaawansowane Wyszukiwarki Google pozwala tak»e na precyzyjniejsze wprowadzanie danych o poszukiwanych informacjach1, co pozwala na uzyskiwanie bardziej przydatnych odpowiedzi. Sªu»y do tego okno szukania zaawansowanego przedstawione na rys. 3.3. Stosuj¡c wyszukiwanie zaawansowane, po wpisaniu poszukiwanego wyrazu, wyrazów, b¡d¹ fraz, mo»liwe jest odnajdywanie stron internetowych które: • zostaªy zaktualizowane we wskazanym okresie, 14 3 Wyszukiwanie w sieci Rysunek 3.3. • • • • • • Okno wyszukiwania zaawansowanego zawieraj¡ co najmniej jeden z wpisanych wyrazów, zawieraj¡ wszystkie wpisane wyszukiwane hasªa, nie zawieraj¡ »adnego z wpisanych wyrazów, maj¡ okre±lony format pliku, s¡ napisane w okre±lonym j¦zyku, znajduj¡ si¦ w okre±lonej domenie lub witrynie. Wyszukiwanie mo»na tak»e usprawni¢, dodaj¡c operatory do haseª w polu wyszukiwania lub wybieraj¡c je na stronie Zaawansowane szukanie. Do mechanizmów usprawniaj¡cych mo»emy zaliczy¢: • operator + - pozwala m.in. na doª¡czenie do wyszukiwanych fraz kluczowych takich wyrazów, które wyszukiwarka zwykle ignoruje (ª¡czniki, zaimki itp.); niektóre wyrazy w pierwotnym zapytaniu mog¡ zosta¢ zast¡pione synonimami; dodanie operatora + przed wyrazem skutkuje pomini¦ciem synonimów; • operator - - wskazuje, »e w wynikach wyszukiwania nie mog¡ wyst¦powa¢ strony zawieraj¡ce ten wyraz; znak ten mo»e równie» sªu»y¢ do wyª¡czania innych elementów, np. umieszczony przed operatorem ,site: umo»liwi wyª¡czenie okre±lonej witryny z wyników wyszukiwania; 3.2 Wyszukiwanie informacji • operator fraz 15 - pozwala na umieszczenie wewn¡trz znaków cudzysªowu grupy wyrazów, która ma zosta¢ wyszukana w komplecie, w podanej kolejno±ci i bez wprowadzania »adnych zmian; • operator wypeªniania luk * - umieszczony w zapytaniu zast¦puje w ca- ªo±ci wszelkie nieznane wyrazy, nie zast¦puje za± ich fragmentów; • operator OR - pozwala wyszuka¢ strony zawieraj¡ce jeden z dwóch wyszukiwanych wyrazów; operator OR nale»y zapisywa¢ wielkimi literami, natomiast operator AND jest stosowany domy±lnie, dlatego nie trzeba go nigdy zapisywa¢; • operator site: - wskazuje na wyszukiwanie informacji tylko w okre±lonej witrynie; po wprowadzeniu wyszukiwanych wyrazów nale»y poda¢ modykator site z dwukropkiem oraz nazw¦ domeny; • operator allintitle: - pozwala na ograniczenie wyników do stron zawieraj¡cych wszystkie wyrazy zapytania w tytule; • operator intitle: - umo»liwia ograniczenie wyników wyszukiwania do dokumentów zawieraj¡cych dany wyraz w tytule; umieszczenie tego operatora przed ka»dym wyrazem zapytania da takie same wyniki jak umieszczenie przed caªym zapytaniem operatora allintitle: • operator allinurl: - powoduje ograniczenie wyników do stron zawieraj¡cych wszystkie wyrazy zapytania w adresie URL strony internetowej; operator ten dziaªa na wyrazach, a nie skªadnikach adresów URL, a wi¦c ignorowana jest interpunkcja; • operator inurl: - ogranicza wyniki wyszukiwania do dokumentów zawieraj¡cych dany wyraz w adresie URL; umieszczenie operatora inurl: przed ka»dym wyrazem zapytania da takie same wyniki jak umieszczenie przed caªym zapytaniem operatora allinurl:. Wyszukiwanie zaawansowane pozwala równie» na ograniczenie wyszukiwanych stron wedªug zgodno±ci ze wskazanym j¦zykiem narodowym, do okre±lonego okresu czasu, do okre±lonego regionu ±wiata, b¡d¹ okre±lonej witryny internetowej. 3.2.3 Wyszukiwanie dynamiczne Wyszukiwanie dynamiczne to dodatek do funkcjonalno±ci wyszukiwania daj¡cy mo»liwo±¢ wy±wietlania wyników podczas pisania. Mechanizm ten uªatwia u»ytkownikom szybsze uzyskiwanie trafnych wyników wyszukiwania. Wyniki analiz technicznych potwierdzaj¡, »e ludzie powoli pisz¡, ale szybko czytaj¡. Naci±ni¦cie kolejnego klawisza trwa z reguªy 300 milisekund, natomiast spojrzenie na inn¡ cz¦±¢ strony - okoªo dziesi¦¢ razy krócej, bo zaledwie 30 milisekund. Oznacza to, »e podczas pisania mo»liwe jest przegl¡danie wyników wyszukiwania ukazuj¡cych si¦ na bie»¡co. Dzi¦ki temu u»ytkownik jest w stanie znacznie szybciej dotrze¢ do wªa±ciwych tre±ci, bowiem z reguªy nie musi 16 3 Wyszukiwanie w sieci wpisywa¢ caªego wyszukiwanego zestawu wyrazów, ani nawet klika¢ przycisku Szukaj. W wyniku eksperymentów ustalono, »e szybsze wyszukiwanie dzi¦ki przewidywaniu zapytania i wy±wietlaniu wyników przed zako«czeniem pisania pozwala zaoszcz¦dzi¢ kilka sekund przy ka»dym wyszukiwaniu. Inn¡ zalet¡ stosowania dynamicznego wyszukiwania jest lepsze formuªowanie zapyta«, poniewa» ju» w trakcie ich zapisywania widoczne s¡ efekty. Mo»na dzi¦ki temu na bie»¡co dostosowywa¢ wyszukiwane hasªo, a» do uzyskania po»¡danych wyników. Warto te» zwróci¢ uwag¦ na fakt, »e pomoc¡ w precyzowaniu zapyta« jest funkcja ich przewidywania. Najtrafniejsze przewidywane hasªo wy±wietlane jest szar¡ czcionk¡ bezpo±rednio w polu wyszukiwania, dzi¦ki czemu mo»na przesta¢ pisa¢, gdy tylko pojawi si¦ to, czego oczekuje u»ytkownik. Funkcja wyszukiwania dynamicznego powoduje automatyczne wy±wietlenie wyników popularnych zapyta« rozpoczynaj¡cych si¦ wpisanym ci¡giem, gdy tylko u»ytkownik rozpoczyna wpisywanie wyszukiwanych wyrazów, a wi¦c ju» od pierwszego wprowadzonego znaku. Algorytm wyszukiwania dynamicznego podejmuje prób¦ przewidzenia pozostaªej cz¦±ci zapytania na podstawie popularnych wyszukiwa« wykonywanych przez innych u»ytkowników. Wy±wietlone natychmiast wyniki dotycz¡ pierwszego przewidywanego zapytania, które jest zapisane jasnoszar¡ czcionk¡ w polu wyszukiwania. Je±li podczas wpisywania wyrazów w polu wyszukiwania nie b¦d¡ si¦ wy±wietlaªy wyniki, wtedy mo»emy mie¢ do czynienia z jedn¡ z nast¦puj¡cych sytuacji: • wyszukiwanie dynamiczne nie zostaªo wª¡czone w ustawieniach wyszukiwarki, • u»ytkownik korzysta z domeny lub j¦zyka interfejsu Google, w którym nie udost¦pniono jeszcze wyszukiwania dynamicznego, • wyszukiwanie odbywa si¦ na innej stronie ni» strona gªówna Google i strona wyników wyszukiwania, • wyszukiwanie odbywa si¦ na stronie iGoogle zamiast na klasycznej stronie gªównej, • • wyszukiwanie odbywa si¦ przy u»yciu protokoªu SSL Google, wykorzystywana przegl¡darka internetowa nie obsªuguje dynamicznego wy±wietlania wyników, czyli jest inna ni»: Firefox 3 i nowsze, Safari 5 dla komputerów Mac i nowsze, Internet Explorer 8, a tak»e Google Chrome 5 i nowsze, • • funkcja autouzupeªniania zostaªa wcze±niej wyª¡czona, gdy poª¡czenie internetowe jest szczególnie wolne, dynamicznie otrzymywane wyniki nie s¡ wy±wietlane, by wyszukiwanie i prezentacja ko«cowych wyników mogªo odbywa¢ si¦ szybciej, • pewne typy zapyta«, które mog¡ by¢ nieodpowiednie, nie powoduj¡ automatycznego wy±wietlania wyników - w takim przypadku pojawi si¦ na ek- 3.2 Wyszukiwanie informacji 17 ranie komunikat z pro±b¡ o naci±ni¦cie klawisza Enter w celu wykonania wyszukiwania. Wyszukiwanie dynamiczne poª¡czone z autouzupeªnianiem niesie przede wszystkim nast¦puj¡ce zalety: • oszcz¦dno±¢ czasu - trafne wyniki wyszukiwania otrzymywane s¡ cz¦sto ju» podczas pisania, dzi¦ki czemu na wyszukiwanie po±wi¦ca si¦ mniej czasu i mo»esz przej±¢ bezpo±rednio do odnalezionej strony internetowej, • mniej pisania - dynamicznie generowane wyniki umo»liwiaj¡ przerwanie pisania natychmiast po wy±wietleniu potrzebnych informacji, • inteligentne wyszukiwanie - automatyczne odpowiadanie na bie»¡co wpisywane wyrazy w polu wyszukiwania jest pewnego rodzaju dialogiem u»ytkownika z wyszukiwark¡, który od razu stwierdza, czy dane wyszukiwane wyrazy zwracaj¡ wyniki odpowiedniego typu. Elementem podnosz¡cym szybko±¢ wyszukiwania s¡ równie» specjalne kla- wisze klawiatury i skróty klawiszowe. S¡ one o tyle przydatne, »e podczas wpisywania wyrazów w polu wyszukiwania zwykle u»ytkownik trzyma obie dªonie na klawiaturze, a wi¦c si¦ganie po myszk¦ i naprowadzanie jej kursora na cel do klikni¦cia zabiera stosunkowo du»o czasu. W polu wyszukiwania dost¦pne s¡ w trakcie pisania nast¦puj¡ce klawisze specjalne: • Enter - powoduje wyszukanie dokªadnie takiego hasªa, jakie wpisano w po- lu wyszukiwania, • Tab powoduje zaktualizowanie wpisanego hasªa, tak aby odpowiadaªo ono pierwszemu z przewidywanych zapyta«, • strzaªka w dóª - powoduje pod±wietlenie nast¦pnego przewidywanego za- • strzaªka w gór¦ - klawisz strzaªki w gór¦, a nast¦pnie klawisz Enter spo- pytania i pokazanie nowych wyników. woduj¡ wyszukanie pod±wietlonego przewidywanego zapytania i wyró»nienie pierwszego wyniku wyszukiwania na stronie, • strzaªka w dóª , nast¦pnie za± strzaªka w prawo powoduj¡ przej±cie do strony internetowej wymienionej w pierwszym wyniku, podobnie te» mo»na to zrobi¢ za pomoc¡ ª¡cza Szcz¦±liwy traf . Po wy±wietleniu wyników klawisze specjalne równie» s¡ dost¦pne dla u»y- tkownika. Mo»emy tu wymieni¢: • klawisz Tab, klawisz Enter, a nast¦pnie klawisz strzaªka w dóª' ' umo»liwiaj¡ wybranie wyniku, zaczynaj¡c od pierwszego na li±cie. Obok wyró»nionego wyniku uwidoczniona jest maªa strzaªka. Nast¦pnie, aby otworzy¢ pierwsz¡ stron¦ internetow¡ mo»na naci±ni¦¢ klawisz Enter, lub klawisz strzaªka w dóª , aby wybra¢ nast¦pny wynik; 18 • 3 Wyszukiwanie w sieci Tab umo»liwia pod±wietlenie ró»nych ª¡czy i funkcji dost¦pnych w ramach wybranego wyniku; • klawisz strzaªka w prawo powoduje otwarcie podgl¡du wybranego wyniku; za pomoc¡ klawiszy strzaªka w gór¦ oraz strzaªka w dóª mo»liwe jest przechodzenie mi¦dzy wynikami przy wª¡czonym podgl¡dzie; strzaªka w lewo lub Esc powoduje zako«czenie trybu podgl¡du. 3.2.4 Ustawienia wyszukiwania Aby sposób wyszukiwania w sieci Internet odpowiadaª oczekiwaniom u»ytko- 8 wników, mo»liwe jest skongurowanie pewnych jego opcji wyszukiwania , które w dowolnej chwili mo»na zmieni¢. ¡cze, b¡d¹ graka z ª¡czem do ustawie« znajduje si¦ zazwyczaj w prawym górnym rogu gªównej strony wyszukiwarki. Ustawienia te zapisane s¡ na komputerze u»ytkownika w niewielkich plikach pomocniczych tworzonych przez przegl¡dark¦, zwanych ciasteczkami (ang. cookies ). Aby byªo to mo»liwe, obsªuga ciasteczek musi by¢ w przegl¡darce wª¡- czona. Skongurowa¢ mo»na: • j¦zyk interfejsu - jest to j¦zyk gªównej strony wyszukiwarki Google; ustawienie to powoduje, »e podpowiedzi, komunikaty i przyciski w witrynie Google.com b¦d¡ wy±wietlane w wybranym j¦zyku narodowym, a dodatkowo w wynikach wyszukiwania automatycznie preferowane b¦d¡ strony internetowe napisane w tym samym j¦zyku; • j¦zyk wyszukiwania - podczas wyszukiwania automatycznie b¦d¡ preferowane strony napisane w wybranym j¦zyku interfejsu, mo»na to jednak zmieni¢ wskazuj¡c inne j¦zyki narodowe; • lokalizacja - pozwala na okre±lenie wªasnej lokalizacji, która b¦dzie uwzgl¦dniana podczas dostosowywania wyników w wyszukiwarce Google oraz innych usªugach i aplikacjach tej rmy; pomimo nieustawienia tej opcji, lokalizacja b¦dzie dla wyszukiwarki cz¦±ciowo znana dzi¦ki widoczno±ci numeru IP komputera, którym posªuguje si¦ u»ytkownik; • wyszukiwanie dynamiczne - wª¡cza usªug¦ wyszukiwania dynamicznego w trakcie wpisywania wyrazów do wyszukania; • ltr rodzinny - ltr pozwalaj¡cy tak skongurowa¢ przegl¡dark¦, by tre±ci dla dorosªych nie pojawiaªy si¦ w wynikach wyszukiwania; szerzej zostaªo opisane w kolejnym rozdziale; • liczba wyników - domy±lnie jednej stronie b¦dzie wy±wietlanych 10 wyników; w przypadku, gdy wyszukiwanie dynamiczne nie jest wª¡czone, mo»na zwi¦kszy¢ t¦ warto±¢ do 20, 30, 50 lub 100; 8 http://www.google.pl/preferences 3.2 Wyszukiwanie informacji • 19 okno wyników - pozwala na otwierane w osobnym oknie (lub na osobnej karcie w niektórych przegl¡darkach) klikni¦tego wyniku wyszukiwania; domy±lnie wczytanie danej strony nast¦puje w tym samym oknie lub na tej samej karcie, co u»yte do wyszukiwania; • przewidywane zapytania - podczas wpisywania wyrazów w polu wyszukiwania, poni»ej wy±wietlana jest lista przewidywanych zapyta« podobnych do wªa±nie wprowadzanego; • wyszukiwanie dynamiczne - zezwala na dynamiczne wy±wietlanie wyników podczas wpisywania wyrazów do wyszukiwania; • zablokowane witryny - zalogowani u»ytkownicy serwisu Google mog¡ blokowa¢ pojawianie si¦ wybranych witryn w wynikach wyszukiwania. 3.2.5 Filtrowanie tre±ci W wielu domach z tego samego komputera co doro±li, korzystaj¡ dzieci i osoby niepeªnoletnie. Z tego powodu wielu u»ytkowników nie »yczy sobie, aby w wynikach wyszukiwania byªy uwzgl¦dniane tre±ci dla dorosªych. Filtr rodzinny Google SafeSearch pozwala tak skongurowa¢ przegl¡dark¦, by tre±ci dla doro- sªych nie pojawiaªy si¦ w wynikach wyszukiwania. Wyszukiwarka stosuje metody identykowania tre±ci budz¡cej zastrze»enia bazuj¡ce na algorytmach uwzgl¦dniaj¡cych liczne czynniki, w tym sªowa kluczowe, linki i graki. Pomimo tego, »e »aden ltr nie gwarantuje 100% skuteczno±ci, to udaje si¦ wykrywa¢ i blokowa¢ wi¦kszo±¢ materiaªów o charakterze jednoznacznie seksualnym. Filtr rodzinny mo»na wª¡czy¢ na stronie internetowej z ustawieniami wy- 9 szukiwarki Google . W sekcji Filtr rodzinny (ang. SafeSearch ) mo»na wybra¢ poziom dziaªania ltru, który ma by¢ u»yty: • ltrowanie ±cisªe - powoduje usuni¦cie lmów i grak o charakterze jednoznacznie seksualnym ze stron wyników wyszukiwania, a tak»e wyników, które mog¡ zawiera¢ ª¡cza do tre±ci dla dorosªych. • ltrowanie umiarkowane (ustawienie domy±lne) - powoduje usuni¦cie lmów i grak o charakterze jednoznacznie seksualnym ze stron wyników wyszukiwania, ale nie wyklucza wyników, które mog¡ zawiera¢ linki do tre±ci dla dorosªych; • brak ltrowania - caªkowicie wyª¡cza ltr rodzinny. Oczywi±cie mo»e zdarzy¢ si¦, »e kto± zmieni ustawienie ±cisªego ltrowania bez wiedzy gªównego u»ytkownika komputera. Dlatego dla u»ytkowników zalogowanych do serwisu Google udost¦pniono mo»liwo±¢ blokady ustawienia ltru przy u»yciu hasªa. Po zablokowaniu ltru strona wyników wyszukiwania 10 , aby wskaza¢, »e ltr Google jest wy±wietlana inaczej (przykªad na rys. 3.4) rodzinny zostaª zablokowany. 9 10 http://www.google.pl/preferences http://www.google.pl/familysafety/tools.html 20 3 Wyszukiwanie w sieci Rysunek 3.4. Symbol blokady ltru rodzinnego Autorzy przegl¡darki Google, apeluj¡ o zgªaszanie sytuacji, kiedy pomimo ustawie« ltrowania umiarkowanego, b¡d¹ ±cisªego, niektóre tre±ci budz¡ce zastrze»enia przedostaj¡ si¦ do wyników wyszukiwania. Jednocze±nie ka»dy u»ytkownik powinien pami¦ta¢, »e ltr udost¦pniany przez przegl¡dark¦ nie zast¡pi czujnego oka rodzica dbaj¡cego o bezpiecze«stwo rodziny podczas wyszukiwania w sieci Internet. Filtr rodzinny jest uzale»niony od wª¡czonej obsªugi ciasteczek. Usuni¦cie tych plików mo»e spowodowa¢ zresetowanie ustawie« ltru rodzinnego. 3.2.6 Usuwanie witryny z wyników wyszukiwania W±ród pocz¡tkuj¡cych internautów kr¡»¡ opinie, »e to wªa±ciciele przegl¡darek decyduj¡ o tym, co i w jakiej kolejno±ci uwidaczniane jest na li±cie wyników wyszukiwania. Tymczasem, w rzeczywisto±ci witryny pojawiaj¡ce si¦ w wynikach wyszukiwania Google s¡ kontrolowane przez osoby, które nimi zarz¡dzaj¡. Ka»dy wªa±ciciel witryny ma m.in. kilka mo»liwo±ci usuni¦cia tre±ci (w tym fragmentu, tytuªu i zawarto±ci strony, a tak»e adresu URL oraz caªej witryny) z wyników wyszukiwania. Wªa±ciciel mo»e usun¡¢ odpowiednie informacje ze strony, caªkowicie usun¡¢ stron¦ z sieci lub okre±li¢ ustawienia informuj¡ce wyszukiwark¦ Google, »e nie powinna pobiera¢ ani indeksowa¢ strony. W zale»no±ci od typu tre±ci, która ma zosta¢ usuni¦ta, nale»y speªni¢ ró»ne wymagania. Po wprowadzeniu tych zmian i ponownym zaindeksowaniu witryny przez Google tre±¢ powinna zosta¢ automatycznie usuni¦ta z indeksu Google. Je»eli jednak zaistnieje konieczno±¢ (przykªadowo w sytuacji, gdy zawieraj¡ dane poufne) szybkiego usuni¦cia witryny z wyników wyszukiwania, mo»na przyspieszy¢ ten proces, u»ywaj¡c odpowiedniego narz¦dzia Google do usuwa- 11 . Narz¦dzie do usuwania adresów URL umo»liwia pilne usuni¦cie nia tre±ci adresów URL, pod którymi na przykªad znajduj¡ si¦ przypadkowo ujawnione 11 http://www.google.com/support/bin/static.py?page=ts.cs&ts=1114905 3.3 Wyszukiwanie specjalizowane 21 poufne dane. Je±li w witrynie wprowadzono niedawno zmiany, roboty Google wykryj¡ to podczas ponownego indeksowania adresów URL i wszelkie nieaktualne strony zostan¡ po pewnym czasie automatycznie usuni¦te z wyników wyszukiwania. Nie ma potrzeby zgªaszania pro±by o pilne usuni¦cie. Aby móc u»y¢ narz¦dzia, nale»y speªni¢ okre±lone wymagania. Je±li witryna nale»y do autora zgªoszenia, mo»liwe jest zgªoszenie pro±by o usuni¦cie problematycznej strony z wyników wyszukiwania Google, korzystaj¡c z programu do usuwania adresów URL znajduj¡cego si¦ w narz¦dziach dla webmasterów udost¦pnia- 12 . Je±li natomiast witryna nie nale»y do autora zgªo- nych przez rm¦ Google szenia, to w pierwszej kolejno±ci nale»y skontaktowa¢ si¦ z jej webmasterem i poprosi¢ o usuni¦cie tre±ci. Po wprowadzeniu zmian, mo»na zgªosi¢ pro±b¦ o usuni¦cie tre±ci pojawiaj¡cej si¦ w kopii strony znajduj¡cej si¦ w pami¦ci podr¦cznej albo we fragmencie strony w wynikach wyszukiwania Google, u»ywaj¡c publicznego narz¦dzia do usuwania adresów URL. Wówczas wªa±ciciel witryny zobaczy tak¡ pro±b¦ o usuni¦cie na swoim koncie narz¦dzi dla webmasterów. 3.3 Wyszukiwanie specjalizowane 3.3.1 Wyszukiwanie graki Firma Google udost¦pnia nowy sposób wyszukiwania - wyszukiwanie za pomoc¡ obrazów (rys. 3.5) 13 . Wskazuj¡c odpowiednie zdj¦cie, mo»na znale¹¢ w sieci Internet ró»ne informacje na jego temat. Mo»emy wskaza¢ trzy sposoby wyszukiwania obrazem: • przeci¡gni¦cie i upuszczenie - obraz znaleziony w sieci lub na komputerze mo»na przeci¡gn¡¢ na pole wyszukiwania, • wklejenie adresu URL obrazu - na znalezionej w sieci grace wystarczy klikn¡¢ prawym przyciskiem myszki i skopiowa¢ adres URL, który na stronie wyszukiwarki graki wklejamy po klikni¦ciu na ikon¦ aparatu fotogracznego, nast¦pnie wybieramy opcj¦ Wklej adres obrazu . • przesªanie z komputera - klikni¦cie na ikon¦ aparatu fotogracznego na stronie wyszukiwania obrazów i wybranie opcji Prze±lij obraz , a nast¦pnie wybranie obrazu lub zdj¦cia, które ma zosta¢ u»yte do wyszukiwania. Oprócz wymienionych sposobów wyszukiwania obrazem, mo»na oczywi±cie wyszukiwa¢ obrazy zwi¡zane z odpowiednim wyrazem lub wyrazami. Mo»liwe jest równie» wybranie zaawansowanego trybu wyszukiwania graki w celu zaw¦»enia wyników wyszukiwania (rys. 3.6). Mo»na wtedy poda¢ jego: 12 13 http://www.google.com/support/webmasters/bin/topic.py?topic=8464 http://www.google.pl/imghp?hl=pl&tab=wi 22 3 Wyszukiwanie w sieci Rysunek 3.5. Rysunek 3.6. Gªówna strona wyszukiwarki graki Okno zaawansowanego wyszukiwania graki 3.3 Wyszukiwanie specjalizowane • • 23 rozmiar o okre±lonej b¡d¹ przybli»onej rozdzielczo±ci, wspóªczynnik proporcji (np. obrazy prostok¡tne, obrazy panoramiczne, obrazy kwadratowe), • • • typ (np. twarz, zdj¦cie, obiekt clip art, graka wektorowa), ¹ródªo (konkretna witryna, b¡d¹ domena internetowa), kolor (biaªo-czarne, kolorowe, w okre±lonym kolorze). Przyspieszenie wyszukiwania za pomoc¡ obrazu, mo»na równie» uzyska¢ pobieraj¡c odpowiednie rozszerzenie dla Google Chrome lub Mozilla Firefox. Wystarczy wówczas po prostu klikn¡¢ na dowoln¡ grak¦ ulokowan¡ na stronie WWW, a wyszukiwarka Google znajdzie o niej informacje. 3.3.2 Wyszukiwanie lmów Najpopularniejszym serwisem sªu»¡cym do wyszukiwania lmów bez w¡tpie- 14 . Jest to serwis internetowy dziaªaj¡cy od roku 2005, który nia jest YouTube umo»liwia bezpªatne umieszczanie i ogl¡danie lmów (rys. 3.7). Pozwala on na wy±wietlanie szerokiej gamy lmów zamieszczonych przez u»ytkowników. Mog¡ to by¢ zwiastuny lmowe lub telewizyjne, teledyski oraz dzieªa zupeªnie amatorskie, np. krótkie lmy nakr¦cone telefonem komórkowym. Wi¦kszo±¢ materiaªów zostaªa zaªadowana na YouTube przez prywatne osoby, ale wiele rm wykorzystuje mo»liwo±ci serwisu jako reklam¦ swoich usªug, b¡d¹ produktów. Rysunek 3.7. Gªówny panel serwisu YouTube Niezarejestrowani u»ytkownicy mog¡ w serwisie ogl¡da¢ lmy, podczas gdy zarejestrowani maj¡ mo»liwo±¢ umieszczenia ich w nieograniczonej ilo±ci. Filmy, które zostan¡ uznane za zawieraj¡ce tre±ci nieodpowiednie s¡ dost¦pne tylko dla zarejestrowanych w wieku co najmniej 18 lat. Na stronach serwisu wy±wietlane s¡ reklamy. Wedªug Google b¦d¡cej wªa±cicielem serwisu, dziennie na YouTube umieszczanych jest okoªo 100 tys. ró»nych. lmów, zajmuj¡cych ok. 2.5 TB pami¦ci. 14 http://www.youtube.com/ 24 3 Wyszukiwanie w sieci 3.3.3 Google Maps Wyszukiwarka Google Maps 15 pozwala nam obejrze¢ mapy oraz zdj¦cia sateli- tarne okolicy, która nas otacza. Mo»liwe jest tak»e przegl¡danie mapy w wersji mieszanej, na którym obejrzymy wtedy zdj¦cie satelitarne z naniesionym gracznym planem ulic wraz z ich nazwami b¡d¹ oznaczeniami. Chc¡c odnale¹¢ jak¡± lokacj¦, na stronie gªównej wyszukiwarki wpisujemy przykªadowo: aleja legionów 2 bytom polska i po naci±ni¦ciu na symbol szkªa powi¦kszaj¡cego, na umieszczonej obok mapie otrzymujemy wynik wyszukiwania (rys. 3.8). Rysunek 3.8. Przykªadowy widok mapy Zdj¦cie lub plan miasta mo»na powi¦kszy¢ albo sprawdzi¢ poªo»enie miasta zmniejszaj¡c skal¦. Dodatkowe funkcje serwisu pozwalaj¡ na odnalezienie informacji o: • korkach, • pogodzie, • dost¦pnych zdj¦ciach miejsc widocznych na mapie, • dost¦pnych kamerach internetowych. 15 http://maps.google.com 3.3 Wyszukiwanie specjalizowane 25 Po wyszukaniu »¡danej lokacji mo»liwe jest odnalezienie interesuj¡cych nas miejsc znajduj¡cych si¦ w pobli»u wyszukanego (rys. 3.9). Rysunek 3.9. Okno wyszukiwania miejsc znajduj¡cych si¦ w pobli»u Serwis pozwala tak»e na wyszukanie trasy dojazdu do odnalezionej lokacji z innego miejsca wskazanego przez u»ytkownika (rys. 3.10). Rysunek 3.10. Okno wyszukiwania trasy dojazdu Chocia» jako±¢ tej usªugi znacznie odbiega od mo»liwo±ci oferowanej przez profesjonalne systemy nawigacyjne, to jednak uruchomiona na urz¡dzeniu mobilnym wyposa»onym w odbiornik GPS pozwala w podobny sposób dotrze¢ do celu. 26 3 Wyszukiwanie w sieci 3.3.4 Google Book Search Wyszukiwarka Google Book Search 16 jest znakomit¡ pomoc¡ przy wyszukiwa- niu ró»nych pozycji literaturowych. Wyszukiwanie w niej ksi¡»ek jest równie proste, jak wyszukiwanie stron w zwykªej wyszukiwarce internetowej Google - wystarczy wpisa¢ poszukiwane sªowo lub fraz¦ w polu wyszukiwania. Znajdowane s¡ wszystkie ksi¡»ki, których tre±¢ odpowiada wyszukiwanym hasªom. Po klikni¦ciu tytuªu ksi¡»ki wy±wietlone zostan¡ podstawowe informacje jej dotycz¡ce, takie jak w katalogu bibliotecznym. Mo»na zobaczy¢ te» kilka fragmentów ksi¡»ki pozwalaj¡cych zobaczy¢ wyszukiwane hasªo w kontek±cie. Je±li wydawca lub autor ksi¡»ki udzieliª nam odpowiedniego zezwolenia, mo»liwe b¦dzie wy±wietlanie caªych stron i przegl¡danie ksi¡»ki w celu obejrzenia innych stron. Je±li ksi¡»ka nie jest chroniona prawami autorskimi, wy±wietlana b¦dzie caªa strona i mo»liwe b¦dzie przegl¡danie ksi¡»ki w caªo±ci. Klikni¦cie przycisku Wyszukaj w tej ksi¡»ce pozwala na wyszukiwanie dalszych haseª wewn¡trz wybranej ksi¡»ki. Klikni¦cie któregokolwiek z linków Kup t¦ ksi¡»k¦ spowoduje przej±cie bezpo±rednio do ksi¦garni internetowych, w których mo»na kupi¢ dan¡ ksi¡»k¦. W wielu przypadkach mo»na równie» skorzysta¢ z ª¡cza Znajd¹ t¦ ksi¡»k¦ w bibliotece w celu zlokalizowania miejscowej biblioteki, z której mo»na wypo»yczy¢ ksi¡»k¦. Wyszukiwarka w przypadku polskiej literatury odsyªa nas cz¦sto do strony NUKAT 17 (rys. 3.11), na której znajduje si¦ centralna przeszukiwarka zaso- bów bibliotecznych polskich uniwersytetów, która równie» mo»e by¢ bardzo pomocna w wyszukiwaniu ksi¡»ek. Rysunek 3.11. Okno wyszukiwarki NUKAT NUKAT jest katalogiem centralnym zbiorów polskich bibliotek naukowych i akademickich. Od lipca 2002 roku biblioteki te wprowadzaj¡ do NUKAT-u dane o swoich bie»¡cych i starszych nabytkach. Na ko«cu ka»dego opisu dokumentu wyszukanego w bazie NUKAT znajduje si¦ lista nazw bibliotek udos16 17 http://books.google.com/ http://www.nukat.edu.pl 3.3 Wyszukiwanie specjalizowane 27 t¦pniaj¡cych ten dokument, a klikni¦cie na nazw¦ biblioteki pozwala sprawdzi¢ dost¦pno±¢ publikacji w danej bibliotece. W pomocy znajduj¡ si¦ wskazówki pozwalaj¡ce na efektywne korzystanie z katalogu NUKAT. Administratorzy zalecaj¡ wyszukiwanie w nast¦puj¡cej kolejno±ci: • • katalog NUKAT, wyszukiwarka w katalogu rozproszonym, je±li nie znaleziono informacji w bazie NUKAT, • katalog online wybranej biblioteki, je±li nie znaleziono informacji w katalogu rozproszonym, • zeskanowany katalog biblioteki (dost¦pny na jej stronie www) lub katalog kartkowy (dost¦pny bezpo±rednio w bibliotece), je±li nie znaleziono informacji w katalogu online biblioteki, • zagraniczne katalogi centralne i katalogi poszczególnych bibliotek zagranicznych, je±li nie znaleziono informacji w katalogach polskich. 3.3.5 Google Scholar W wyszukiwarce Google Scholar 18 mo»emy znale¹¢ recenzowane przez eksper- tów dokumenty, tezy, ksi¡»ki, streszczenia i inn¡ literatur¦ naukow¡ z wszelkich dziedzin (rys. 3.12). Dost¦pne s¡ te» prace wielu wydawców akademickich i towarzystw naukowych, a tak»e artykuªy naukowe publikowane w Internecie. Program Google Scholar mo»e tak»e zawiera¢ kilka wersji jednej pracy, które mog¡ by¢ dost¦pne. Rysunek 3.12. Okno zaawansowanego wyszukiwania dokumentów Google Scholar uªatwia wyszukiwanie tekstów naukowych. W jednym miej- scu mo»na wyszukiwa¢ materiaªy z wielu dziedzin i ¹ródeª: artykuªy recenzo18 http://scholar.google.pl/ 28 3 Wyszukiwanie w sieci wane, prace naukowe, ksi¡»ki, streszczenia oraz artykuªy pochodz¡ce z wydawnictw naukowych, towarzystw naukowych, repozytoriów materiaªów zgªoszonych do publikacji, uniwersytetów i innych organizacji akademickich. Wyszukiwarka Google Scholar sortuje prace w sposób taki, jak robi¡ to badacze, nadaj¡c wag¦ caªemu tekstowi pracy, autorowi, publikacji zawieraj¡cej prac¦ i cz¦sto±ci cytowania dzieªa w innej literaturze naukowej. Najtrafniejsze wyniki s¡ zawsze wy±wietlane na pierwszej stronie. W usªudze Google Scholar oferowane jest rozwi¡zanie uªatwiaj¡ce osobom odwiedzaj¡cym bibliotek¦ znalezienie literatury w zasobach elektronicznych oraz drukowanych. Pierwszym z nich jest program linków bibliotecznych. Je±li istniej¡ biblioteki udost¦pniaj¡ce swoje zasoby przy u»yciu narz¦dzia rozpoznawania, to dla nich wyszukiwarka oferuje mo»liwo±¢ umieszczania ª¡czy do tych zasobów na stronie z wªasnymi wynikami wyszukiwania. Wszystkim u»ytkownikom wyszukiwarki Google Scholar tu» przy wynikach wyszukiwania ksi¡»ek wy±wietlane jest równie» ª¡cze do wyszukiwarki bibliotek WorldCat 19 , w której mo»na znale¹¢ list¦ pobliskich bibliotek dysponuj¡- cych poszukiwan¡ ksi¡»k¡. 3.3.6 Pozostaªe specjalizowane wyszukiwarki Google • Google Finance 20 - prezentuje i wyszukuje informacje nansowe, na przy- kªad informacje gieªdowe aktualno±ci o spóªkach akcyjnych, ich wyniki nansowe, podstawowe informacje o dziaªalno±ci, histori¦ notowa« itp. S¡ one na bie»¡co aktualizowane. W przeszukiwanych zasobach znajduj¡ si¦ informacje o gieªdach z caªego ±wiata, tak»e Polski, cho¢ caªy interfejs wyszukiwarki dost¦pny jest jedynie w j¦zyku angielskim. • Google Blog Search 21 - poszukuje zadan¡ przez nas fraz¦ lub termin w blo- gach. Oczywi±cie wyszukiwanie mo»emy ograniczy¢ do blogów w okre±lonej domenie, a nast¦pnie stosowa¢ ró»ne operatory wyszukiwania zaawansowanego. Mo»emy tak»e ograniczy¢ poszukiwania do artykuªów publikowanych w okre±lonym przedziale czasowym. Warto pami¦ta¢ o tej funkcji wyszukiwania, poniewa» informacje i opinie, które mo»emy znale¹¢ na blogach, mog¡ by¢ naprawd¦ pomocne. Wyszukiwarka nie jest dost¦pna w j¦zyku polskim, ale przeszukuje tak»e polskie blogi. • Google Product Search 22 - jest wyszukiwark¡ produktów zarejestrowanych w sklepach internetowych rmy Google. Pozwala segregowa¢ wyniki wzgl¦dem ceny, kataloguje je wzgl¦dem funkcji itp. Nie ma lokalizacji w j¦zyku polskim, najbli»sza nam geogracznie jest wersja niemiecka. Wyszukiwarka ta jest kontynuacj¡ narz¦dzia Froogle. 19 20 21 22 http://www.worldcat.org/ http://www.google.com/finance http://www.google.com/blogsearch http://www.google.com/prdhp 3.3 Wyszukiwanie specjalizowane • Google Code Search 29 23 - to jeden z najnowszych projektów. Jest to wyszuki- warka przeznaczona gªównie dla programistów. Uªatwia ona znalezienie potrzebnego fragmentu kodu lub denicji funkcji. Aby rezultat poszukiwa« byª jak najbardziej dokªadny, w zapytaniach mo»na u»ywa¢ wyra»e« regularnych zgodnych ze standardem POSIX. Dodatkowo mo»na zaw¦»a¢ poszukiwania do konkretnego j¦zyka, a nawet pakietu, z którego ma pochodzi¢ kod. Wyszukiwarka ta indeksuje dost¦pne publicznie kody ¹ródªowe, ª¡cznie z tymi umieszczonymi w skompresowanych archiwach i repozytoriach. Jako ciekawostk¦ warto doda¢, »e dla ka»dego znalezionego programu Google Code Search próbuje automatycznie wykry¢ typ licencji, na jakiej jest on rozpowszechniany, by nast¦pnie wy±wietli¢ t¦ informacj¦. • Google Patents Search 24 - przeszukuje baz¦ danych patentów (licz¡c¡ ok. 7 mln. pozycji) w poszukiwaniu wpisanego hasªa. Wyszukiwarka obejmuje patenty zarejestrowane w ameryka«skim urz¦dzie patentowym. Wyniki prezentuje w przejrzystej formie gracznej i tekstowej. Wyszukiwania mog¡ by¢ prowadzone w ograniczeniu do okre±lonego przedziaªu czasowego (rejestracji lub ko«ca ochrony patentowej), wedªug numeru patentu, klasykacji do okre±lonej kategorii itp. Wykorzystywane mog¡ by¢ tak»e matematyczne operatory wyszukiwania zaawansowanego. • Google Special Searches 25 - to kilka ró»nych wyszukiwarek tematycznych, których obszar wyszukiwania jest ograniczony do stron zwi¡zanych z okre±lonym tematem. Aktualnie do naszej dyspozycji jest pi¦¢ wyszukiwarek tematycznych: ◦ ◦ ◦ ◦ ◦ ◦ 26 , wyszukiwarka ograniczona do stron zwi¡zanych z Apple Macintosh 27 wyszukiwarka ograniczona do stron dotycz¡cych systemu Linux , 28 wyszukiwarka ograniczona do stron dotycz¡cych rmy Microsoft , 29 wyszukiwarka ograniczona do stron dotycz¡cych systemu BSD , 30 wyszukiwarka ograniczona do stron dotycz¡cych rz¡du USA , 31 . wyszukiwarka zwi¡zana ze szkoªami wy»szymi Istnieje równie» interesuj¡cy projekt Google, zwi¡zany ze specjalizacj¡ wyszukiwarek pozwalaj¡cy na utworzenie wªasnej wyszukiwarki przeznaczonej 32 . O ile twórca specja- dla wªasnej witryny internetowej czy te» specjalizacji 23 24 25 26 27 28 29 30 31 32 http://google.com/codesearch http://www.google.com/patents http://www.googleguide.com/special_searches.html http://www.google.com/mac http://www.google.com/linux http://www.google.com/microsoft http://www.google.com/bsd http://www.google.com/unclesam http://www.google.com/options/universities.html http://www.google.com/cse/ 30 3 Wyszukiwanie w sieci lizacji dopu±ci tak¡ opcj¦, to opracowane przez kogo± wyszukiwarki mo»e rozwija¢ ka»dy u»ytkownik. 3.4 Narz¦dzia pomocnicze 3.4.1 Czytnik Google Ciekawym pomysªem jest opracowanie narz¦dzi automatyzuj¡cych sprawdzanie aktualizacji pojawiaj¡cych si¦ informacji w interesuj¡cych dla u»ytkownika witrynach internetowych. Pocz¡tkowo byªo to mo»liwe wyª¡cznie w oparciu o kanaªy informacyjne niezwi¡zane z j¦zykiem opisu stron internetowych, jakimi s¡ RSS i ATOM. Popularno±¢ kanaªów RSS i ATOM sprawiªa, »e wielu u»ytkowników w ogóle przestaªo bezpo±rednio odwiedza¢ swoje ulubione strony WWW. Problem polegaª na tym, »e niektóre witryny nie oferuj¡ takich kanaªów aktualizacji. Niektóre witryny ±wiadomie rezygnuj¡ z kanaªów RSS, bowiem uwa»aj¡, »e ograniczaj¡ wpªywy z reklam. Oczywi±cie internauci ju» od dawna maj¡ do dyspozycji wiele wyspecjalizowanych aplikacji tworz¡cych kanaªy RSS na »yczenie. Wiele z nich nie dziaªa jednak prawidªowo. Wiele rm znalazªo sposób na obej±cie tego ograniczenia. Równie» rma Google wprowadziªa narz¦dzie (rys. 3.9) umo»liwiaj¡ce ±ledzenie tre±ci serwisów, które nie obsªuguj¡ tego standardu RSS. W praktyce internauta jest w stanie poda¢ dowolny link - aplikacja poinformuje o ka»dej modykacji pod docelowym adresem. Taka funkcja przydaje si¦ chocia»by miªo±nikom zakupów w sieciowych sklepach czy na aukcjach internetowych. ledzenie konkretnego wyniku wyszukiwania lub kategorii produktów staje si¦ przez to du»o ªatwiejsze. Aby stworzy¢ wªasny kanaª, wystarczy wklei¢ dowolny adres WWW w pole tekstowe sªu»¡ce do dodawania subskrypcji. Warto pami¦ta¢ o tym, »e aplikacja rozpoznaje wyª¡cznie angloj¦zyczne serwisy. Nie radzi sobie z tre±ciami umieszczonymi w ramkach ani podstronami, do których dost¦p wymaga rejestracji i logowania. W sieci Internet mo»na oczywi±cie znale¹¢ wiele innych rozwi¡za« pozwalaj¡cych na rejestrowanie aktualizacji i zmian na stronach internetowych. Przy- 33 , który w przypadku wykrycia nowych kªadem mo»e by¢ WebSite-Watcher elementów na stronie, zapisuje jej dwie ostatnie wersje na twardym dysku oraz pod±wietla wszystkie zmiany w tek±cie. Aplikacja mo»e sprawdza¢ nieograniczon¡ ilo±¢ witryn z pr¦dko±ci¡ do 100 na minut¦. Innym rozwi¡zaniem mo»e by¢ zainstalowanie odpowiedniej wtyczki do ulubionej przegl¡darki. Mo»e za tak¡ uchodzi¢ np. Update Scanner 34 . Rozsze- rzenie to pozwala na monitorowanie zmian na stronach internetowych. Jest 33 34 http://www.aignes.com/ https://addons.mozilla.org/pl/firefox/addon/update-scanner/ 3.4 Narz¦dzia pomocnicze 31 bardzo u»yteczne do sprawdzania witryn, które nie posiadaj¡ kanaªów Atom lub RSS. 3.4.2 Usªuga Google Translate Po±rednio z poszukiwaniami informacji zwi¡zany jest Google Translate 35 . Jest to bezpªatna usªuga tªumaczenia, w ramach której wykonywane s¡ natychmiastowe tªumaczenia w 57 j¦zykach. Umo»liwia ona tªumaczenie wyrazów, zda« i stron internetowych w dowolnych kombinacjach obsªugiwanych j¦zyków. Gªówne okno serwisu (rys. 3.13) pozwala na wprowadzenie b¡d¹ wskazanie tekstu ¹ródªowego oraz jego j¦zyka narodowego i j¦zyka, na który materiaª ma zosta¢ przetªumaczony. Usªuga ta przyczynia si¦ do zwi¦kszenia ogólnej dost¦pno±ci i przydatno±ci informacji niezale»nie od j¦zyka, w którym je zapisano. Rysunek 3.13. Okno usªugi translacji tekstów Podczas generowania tªumaczenia w narz¦dziu Google Translate wyszukiwane s¡ wzorce w setkach milionów dokumentów w celu okre±lenia najlepszego tªumaczenia. Wykrywanie wzorców w dokumentach przetªumaczonych przez ludzi, pozwala na inteligentne dostosowanie odpowiedniej wersji tªumaczenia automatycznego. Proces wyszukiwania wzorców w du»ej ilo±ci tekstu nazywany jest statystycznym tªumaczeniem maszynowym. Tªumaczenia s¡ generowane przez komputer, wi¦c nie wszystkie s¡ doskonaªe. Im wi¦cej przetªumaczonych przez ludzi dokumentów w okre±lonym j¦zyku mo»e przeanalizowa¢ Tªumacz Google, tym wy»sza jest jako±¢ tªumaczenia. Z tego powodu dokªadno±¢ tªumaczenia czasami mo»e by¢ ró»na w zale»no±ci od j¦zyka. W usªudze tªumaczenia w dalszym ci¡gu testowana jest obsªuga kolejnych j¦zyków. Jako±¢ tªumaczenia w nowo wprowadzanych j¦zykach zwykle jest ni»sza, ni» w przypadku pozostaªych obsªugiwanych j¦zyków. 35 http://translate.google.pl/ 32 3 Wyszukiwanie w sieci 3.4.3 Usªuga Google AdSense AdSense 36 dla wyszukiwania to bezpªatny produkt umo»liwiaj¡cy umieszcze- nie w wyszukiwarki we wªasnej witrynie, pozwalaj¡cej u»ytkownikom przeszukiwa¢ Internet. Produkt ten pozwala te» uzyskiwa¢ zarobki z trafnych reklam na stronie wyników wyszukiwania. Oferuje nast¦puj¡ce funkcje: • wybór tre±ci wyszukiwanych przez u»ytkowników: tylko wªasna witryna, wybrany przez u»ytkownika zbiór witryn lub caªa sie¢; mo»liwe jest tak»e okre±lenie priorytetów i ograniczenie wyszukiwania do okre±lonych sekcji witryny; • dostosowywanie wygl¡du oraz stylu: wybór kolorów, rozmieszczenia reklam i mo»liwo±¢ wy±wietlania wyników w swojej witrynie lub na serwerach Google; • generowanie przychodu na stronach wyników wyszukiwania dzi¦ki kierowanym reklamom. Wy±wietlanie wyników AdSense dla wyszukiwania we wªasnej witrynie oz- nacza, »e wyniki wyszukiwania przeprowadzonego przez u»ytkownika za pomoc¡ pola wyszukiwania AdSense dla wyszukiwania b¦d¡ wy±wietlane w ramce na wªasnej stronie. U»ytkownicy nie b¦d¡ zatem przechodzi¢ do Google pozostan¡ w bie»¡cej witrynie, nadal maj¡c dost¦p do przydatnych informacji dostarczanych przez wyszukiwark¦ Google. 3.5 ledzenie aktywno±ci u»ytkownika ledzenie jest terminem, który oznacza ró»ne metody stosowane przez strony internetowe, reklamodawców i inne podmioty, aby pozna¢ zachowanie u»ytkownika w Internecie, wª¡czaj¡c w to informacje o witrynach, które odwiedziª, rzeczach, które lubi, nie lubi lub o produktach, które chce kupi¢. Zebrane informacje cz¦sto s¡ wykorzystywane, by wy±wietli¢ reklamy, produkty lub usªugi skierowane do konkretnego u»ytkownika. Wiele du»ych portali ±ledzi zachowanie swoich u»ytkowników i sprzedaje b¡d¹ te» dostarcza te informacje innym rmom lub reklamodawcom. Przegl¡darka Firefox ma funkcj¦ Nie b¡d¹ ±ledzony, która umo»liwia u»ytkownikowi poinformowanie witryn, »e nie chce, by jego zachowania byªy ±ledzone. Wª¡czenie funkcji Nie b¡d¹ ±ledzony oznacza, »e Firefox poinformuje ka»d¡ odwiedzan¡ stron¦ (jak równie» reklamodawców i innych dostawców tre±ci), »e u»ytkownik nie chce by¢ ±ledzony. Honorowanie tego ustawienia jest dobrowolne - poszczególne strony nie s¡ zobowi¡zane do przestrzegania go. Witryny, które honoruj¡ to ustawienie, powinny automatycznie przesta¢ rejestrowa¢ zachowanie u»ytkownika, bez »adnych dodatkowych dziaªa« z jego strony. 36 http://www.google.com/AdSense/ 3.5 ledzenie aktywno±ci u»ytkownika 33 Funkcja Nie b¡d¹ ±ledzony jest domy±lnie wyª¡czona. Aby j¡ wª¡czy¢ nale»y w oknie przegl¡darki wybra¢ pozycj¦ Opcje (rys.3.14). Rysunek 3.14. Okno z ustawieniem opcji ±ledzenia Wª¡czenie funkcji Nie b¡d¹ ±ledzony nie wpªywa na mo»liwo±¢ logowania si¦ do serwisów, ani nie spowoduje, »e Firefox usunie osobiste informacje, takie jak zawarto±¢ koszyków sklepowych, informacje o pozycji lub informacje logowania. Uwaga: Wª¡czenie funkcji Nie b¡d¹ ±ledzony mo»e sprawi¢, »e reklamy na stronach internetowych b¦d¡ mniej trafne. WICZENIA Przykªadowe ¢wiczenia z zakresu wyszukiwania informacji w sieci Internet: • Porówna¢ wy±wietlanie wybranych stron internetowych we wskazanych przegl¡darkach WWW. • Porówna¢ funkcjonalno±¢ wybranych przegl¡darek internetowych. 34 3 Wyszukiwanie w sieci • Skongurowa¢ przegl¡dark¦ Mozilla Firefox m.in. pod k¡tem otwierania stron internetowych w nowych kartach, wykorzystywania ciasteczek, ustawiania ltru rodzinnego i jego blokady, opcji ±ledzenia dziaªa« w sieci. • • • • • Odnale¹¢ i przeanalizowa¢ budow¦ ciasteczek. Doda¢ kilkana±cie zakªadek i pogrupowa¢ je w kategorie tematyczne. Wyszuka¢ ogólne informacji na zadany temat. Porówna¢ efekty wyszukiwania w ró»nych wyszukiwarkach. Sprecyzowa¢ zapytania z wykorzystaniem zaawansowanych opcji przegl¡darki Google. • • Obserwowa¢ list¦ wyników podczas wyszukiwania dynamicznego. Wyszuka¢ zdj¦cia zwi¡zane z zadanym tematem najwierniej oddaj¡ce jego specyk¦. • Wyszuka¢ informacje o wskazanym zdj¦ciu znajduj¡cym si¦ w pliku na dysku lokalnym lub sieci Internet na stronie WWW. • Wyszuka¢ map¦ zadanej lokacji w serwisie GoogleMaps, odnale¹¢ naj- • • • • Wyszuka¢ publikacje z zadanej kategorii. bli»szy hotel i wyznaczy¢ tras¦ dojazdu. Wyszuka¢ ksi¡»ki z zadanej kategorii. Odnale¹¢ patenty zwi¡zane ze wskazanym produktem. Dokona¢ tªumaczenia odnalezionej strony obcoj¦zycznej za pomoc¡ narz¦dzia Google Translate. 4 Pozycjonowanie witryn internetowych 4.1 Wst¦p Pozycjonowanie stron internetowych, to nieodª¡czny element sukcesu komer- 37 . Wi¦kszo±¢ wej±¢ na strony internetowe pochodzi cyjnego w sieci Internet z wyszukiwarek. Ilo±¢ stron internetowych jest naprawd¦ spora, co powoduje, »e »eby zaistnie¢ trzeba si¦ wyró»nia¢. SEO (ang. Search Engine Optimization ) zrodziªo si¦ wraz z wyszukiwarkami, które zacz¦ªy ukªada¢ wyniki wyszukiwania wedªug znanych tylko sobie algorytmów. Z czasem brane pod uwag¦ czynniki si¦ zmieniaªy, a dziaªo si¦ to w wyniku wykrywania masowych oszustw, których dopuszczali si¦ webmasterzy manipuluj¡c wynikami. Pierwsze wyszukiwarki analizowaªy jedynie sªowa kluczowe zapisane w specjalnym metaznaczniku umieszczanym w stronach internetowych, co dawaªo mo»liwo±¢ nadu»ywania tego niewidocznego dla u»ytkowników czynnika do wstawiania atrakcyjniejszych sªów kluczowych, niekoniecznie zgodnych z tre±ci¡ strony. Z upªywem czasu algorytmy wyszukiwarek, a dokªadniej robotów przeszukuj¡cych sie¢, zacz¦ªy przykªada¢ wi¦ksz¡ wag¦ do tre±ci, któr¡ u»ytkownik mo»e znale¹¢ na stronie. Dotyczyªo to równie» wska¹nika reprezentuj¡cego liczb¦ i jako±¢ stron polecaj¡cych dany materiaª w sieci, wychodz¡c z zaªo»enia, »e materiaªy warto±ciowsze s¡ cz¦±ciej wspominane na innych stronach, wi¦c prowadzi do nich wi¦cej odwoªa« z innych stron. Pozycjonowanie jest dziaªaniem, maj¡cym na celu podniesienie pozycji strony internetowej na korzystne dla niego frazy kluczowe, które potencjalni klienci b¦d¡ wpisywa¢ w wyszukiwarkach. Znaczna cz¦±¢ tych dziaªa« odnosi si¦ do zdobywania nowych ª¡czy polecaj¡cych nasz serwis oraz innych dziaªa« poza naszym serwisem. Innym elementem niezb¦dnych do wykonania prac jest optymalizacja witryny pod k¡tem wyszukiwarek. Optymalizacja zapewni to, 37 http://poradnik-seo.pl/podstawy/wprowadzenie.html 36 4 Pozycjonowanie witryn internetowych »e mechanizmy przeszukuj¡ce sie¢ i u»ytkownicy b¦d¡ lepiej postrzega¢ nasz¡ stron¦ internetow¡ poprzez wyeksponowanie na niej odpowiednich tre±ci. Do podstawowych zasad nale»y wi¦c: • eksponowa¢ przydatne frazy kluczowe poprzez specjalne znaczniki j¦zyka • • tworzy¢ map¦ witryny, która usprawni indeksacj¦, (x)HTML, tworzy¢ lepsze adresy URL, które uªatwi¡ ich zapami¦tywanie oraz b¦d¡ zawiera¢ sªowa kluczowe, • pozna¢ informacje przydatne do tworzenia przydatnych i funkcjonalnych stron informuj¡cych o bª¦dach. Dziaªania optymalizacyjne maj¡ na celu tak naprawd¦ wyj±cie naprzeciw u»ytkownikowi, usprawnienie procesu dostarczania mu poszukiwanych przez niego informacji. Dzi¦ki temu, »e na stronie zastosowane s¡ techniki optymalizacji i pozycjonowania na odpowiednie frazy kluczowe, mo»liwe jest sprawniejsze przekazywanie u»ytkownikom sieci informacji dost¦pnych na stronach internetowych. To, »e strona internetowa jest dost¦pna dla ka»dego, nie oznacza, »e ktokolwiek na ni¡ wejdzie lub tego, »e ktokolwiek si¦ ni¡ zainteresuje. Internet jest peªen stron o du»ej renomie, poczytnych i cz¦sto odwiedzanych, lecz nie brakuje takich, które przegl¡dn¦ªa tylko nasza rodzina i znajomi, przymuszeni poczuciem grzeczno±ci, czy przyjacielskiego obowi¡zku. Zaªo»eniem, chyba ka»dego, kto chce umie±ci¢ stron¦ w Internecie jest to by odniosªa sukces, odwiedziªo j¡ jak najwi¦cej unikalnych go±ci oraz by zebraªa rzesze staªych bywalców, którzy b¦d¡ j¡ nie tylko cz¦sto odwiedza¢, ale tak»e promowa¢ innym. Wynika to z natury Internetu, który powstaª po to wªa±nie by móc innym pokaza¢ to, co sami publikujemy - móc dzieli¢ si¦ z innymi na tematy, na których znamy si¦ z zaªo»enia najlepiej lub piszemy o nich z wielk¡ pasj¡. 4.2 Parametry pozycjonowania Pozycjonowanie stron WWW w wyszukiwarce najªatwiej rozpatrywa¢ zgodnie z koncepcj¡ podziaªu parametrów strony WWW na trzy podstawowe grupy, które brane s¡ pod uwag¦ przy tworzeniu rankingu wyszukiwania • • • 38 38 . S¡ to: teksty strony WWW, architektura strony WWW, popularno±¢ strony WWW. http://www.darmowepozycjonowanie.pl/2010/03/parametry-strony-www/ 4.2 Parametry pozycjonowania 37 Zale»nie od udziaªu poszczególnej grupy parametrów w sumarycznej warto±ci strony WWW wzgl¦dem wyszukiwarki, mo»na rozpatrywa¢ kilka przypadków stron wysoko klasykowanych w rankingach wyszukiwania, a mianowicie: • strony WWW z wysok¡ jako±ci¡ wszystkich grup parametrów, które zawsze uzyskuj¡ wysokie pozycje, • strony WWW zawieraj¡ce wysoki poziom nasycenia sªowami kluczowymi przy jednocze±nie znacz¡cej jako±ci pozostaªych grup parametrów. • strony WWW, które osi¡gaj¡ tak du»¡ popularno±¢ »e pomimo sªabych tekstów oraz architektury strony WWW, osi¡gaj¡ wysokie wyniki w rankingach. Wymienione przypadki zilustrowano na rys. 4.1. Rysunek 4.1. Porównanie pod wzgl¦dem wybranych parametrów39 Teksty strony WWW identykuj¡ sªowa kluczowe, które umieszczone s¡ w newralgicznych dla pozycjonowania elementach strony WWW, takich jak: • teksty z sekcji BODY - materiaªy tekstowe, nazwy odno±ników na stronie WWW, alternatywne opisy obrazków, tytuªy odno±ników oraz obrazków, nazwy plików, • • teksty w metaznacznikach - tytuª strony WWW, opis strony WWW, adresy URL. Architektura strony WWW - to przede wszystkim wªa±ciwa skªadnia kodu HTML i odpowiednia struktura wszystkich odno±ników wewn¦trznych strony WWW. Do architektury strony WWW zalicza si¦ mi¦dzy innymi konstrukcje adresów URL, czy wag¦ strony WWW. 39 ródªo: S. Thurow "Pozycjonowanie stron w wyszukiwarkach internetowych". 38 4 Pozycjonowanie witryn internetowych Popularno±¢ strony WWW skªada si¦ z: • • liczby oraz jako±ci odno±ników prowadz¡cych do strony WWW, odwiedzalno±ci strony WWW mierzonej na podstawie wej±¢ z wyszukiwarki oraz mierzonej przez inne narz¦dzia udost¦pniane przez wyszukiwarki. Podstawow¡ rol¦ przy ocenie popularno±ci strony WWW w przypadku wy- szukiwarki Google odgrywaj¡ algorytmy wyszukiwarki funkcjonuj¡ce pod nazw¡ PageRank, których dziaªanie koncentruje si¦ na badaniu caªej struktury odno±ników powi¡zanych z pozycjonowan¡ stron¡ WWW. 4.3 Indeksacja stron internetowych Indeksowanie witryny odbywa si¦ podczas wizyty automatycznych mechanizmów zwanych robotami wyszukiwarek na danej stronie. Robot odwiedzaj¡c stron¦ analizuje ró»ne tre±ci na stronie, a tak»e skªadni¦ znaczników, którymi ten tekst jest obj¦ty. Roboty sieciowe kªad¡ szczególny nacisk na tre±ci wyró»nione semantycznie, dlatego warto uwzgl¦dni¢ ich u»ywanie w najwa»niejszych miejscach strony. Robot jest specjalnym programem, który rma prowadz¡ca wyszukiwark¦ uruchamia i nakierowuje na stron¦ o du»ej zawarto±ci zewn¦trznych linków. Najcz¦±ciej jest to katalog stron faworyzowany przez dan¡ wyszukiwark¦. Tak samo jest cz¦sto w przypadku wstawiania opisu strony w wynikach wyszukiwania. Indeksowanie witryny powoduje zapisanie w bazie wyszukiwarki naszej witryny pod przeanalizowanymi frazami. Ustalana jest pozycja w wynikach organicznych. Warto te» wiedzie¢, »e pozycjonowanie ma na celu poruszanie si¦ wzwy» po drabinie wyników organicznych. ¡cza sponsorowane mog¡ zosta¢ wykupione na dane frazy w specjalnych programach, w przypadku Google jest to program AdWords. 4.4 Sªowa kluczowe Pozycjonowanie nale»y rozpocz¡¢ od analizy tekstów strony WWW umieszczonych w sekcji body. Na jej podstawie nale»y te» wytypowa¢ sªowa kluczowe, które b¦d¡ wykorzystane do pozycjonowania. Przy wyborze sªów kluczowych decyduj¡c¡ rol¦ powinna odgrywa¢ tematyka tekstów na stronie WWW oraz popularno±¢ sªów kluczowych, która przekªada si¦ równocze±nie na konkurencyjno±¢ i trudno±¢ w pozycjonowaniu. Do wyboru sªów kluczowych mo»na wykorzysta¢ narz¦dzia udost¦pniane przez Google. Narz¦dzie propozycji sªów kluczowych wyszukiwarki Google umo»liwia porównanie popularno±ci i konkurencji na zaproponowane przez wyszukiwark¦ 4.4 Sªowa kluczowe 39 Google wyra»enia zwi¡zane z dan¡ tematyk¡ lub b¦d¡cych synonimami od podanego sªowa kluczowego. Jest to narz¦dzie, w którym te» mo»na sprawdzi¢ mi¦dzy innymi ogóln¡ miesi¦czn¡ liczb¦ wyszukiwa« danego sªowa kluczowego w wyszukiwarce Google lub jego konkurencyjno±¢ w przypadku reklam Google Adwords. Zrzuty ekranu interfejsu narz¦dzia Google Keywords Tool 48 prezen- tuje rys. 4.2. Rysunek 4.2. Narz¦dzie propozycji sªów kluczowych Kolejnym ogromnie u»ytecznym narz¦dziem jest Google Statystyki wyszukiwarki 49 przedstawione na rys 4.3. Umo»liwia ono porównanie trendów liczby wyszukiwa« w okre±lonych regionach, kategoriach, przedziaªach czasowych czy stronach WWW. Rysunek 4.3. Okno wyszukiwania statystyk dla okre±lonych haseª Liczby na przykªadowym wykresie z wynikami (rys. 4.4) wskazuj¡, ile wyszukiwa« przeprowadzono na podstawie okre±lonego hasªa w porównaniu do 48 49 https://adwords.google.pl/select/KeywordToolExternal http://www.google.com/insights/search/ 40 4 Pozycjonowanie witryn internetowych Rysunek 4.4. Wynik ze statystykami popularnych wyszukiwa« ª¡cznej liczby wyszukiwa« przeprowadzonych w Google w tym czasie. Warto±ci te nie odzwierciedlaj¡ bezwzgl¦dnej liczby wyszukiwa«, poniewa» dane te s¡ znormalizowane i przedstawione na skali od 0 do 100. Ka»dy punkt na wykresie jest dzielony przez warto±¢ najwy»szego punktu albo przez 100. Je»eli ilo±¢ danych jest za maªa, podawana jest warto±¢ 0. Liczby wy±wietlane nad wykresem obok wyszukiwanych haseª stanowi¡ podsumowania lub warto±ci ª¡czne. Rysunek 4.5. Porównanie popularno±ci haseª 4.5 Reklama w wyszukiwarkach 41 Popularno±¢ sªów kluczowych mo»na okre±li¢ za pomoc¡ narz¦dzia Google Trends 50 , w którym istnieje mo»liwo±¢ porównania liczby zapyta« na wybrane sªowa kluczowe w okre±lonym przedziale czasu. Przykªadowe porównanie sªów kluczowych: pozycjonowanie i pozycjonowanie stron wykonane z pomoc¡ tego narz¦dzia prezentuje rys. 4.5. 4.5 Reklama w wyszukiwarkach Podstawowym faktem, z którego nale»y sobie zda¢ spraw¦, jest to, »e reklama w Internecie jest najdynamiczniej rozwijaj¡cym si¦ segmentem rynku reklamowego w Polsce. Natomiast drugim czynnikiem pod wzgl¦dem udziaªu w caªo±ciowych wydatkach na reklam¦ internetow¡ jest marketing w wyszukiwarkach. Marketing w wyszukiwarkach potocznie nazywany SEM (ang. Search Engine Marketing ) caªy czas zwi¦ksza swój udziaª w sektorze reklamy internetowej, co potwierdzaj¡ mi¦dzy innymi raporty IAB Polska. Na rys. 4.6. zaprezentowano aktualn¡ sytuacj¦ odno±nie przychodów brutto ró»nych typów reklamy internetowej. Rysunek 4.6. Udziaª w wydatkach na reklam¦. ródªo: IAB Polska Rozpatruj¡c udziaªy podstawowych typów reklam internetowych w 2010 r., najwa»niejszym kanaªem jest nadal reklama graczna z 45% udziaªem w rynku 51 . Na drugim miejscu uplasowaª si¦ marketing w wyszukiwarkach - (rys. 4.6) SEM (30%), którego udziaª w rynku wzrósª o 4 punkty procentowe. Ogªoszenia równie» zanotowaªy wzrost i w 2010 roku osi¡gn¦ªy 17% udziaª w rynku. Reklama e-mail utrzymuje si¦ na tym samym poziomie (6% rynku). Istotn¡ informacj¡ dla bran»y jest tak»e ponad dwukrotny wzrost udziaªów reklamy wideo 50 51 http://www.google.com/trends http://www.iabpolska.pl/20110307528/wartosc-rynku-reklamyinternetowej-w-2010-roku-wyniosla-prawie-16-mld-zlotych.html 42 4 Pozycjonowanie witryn internetowych z 1% do 2,2%. Wzrost udziaªów 'wideo' w reklamie display jest jeszcze bardziej wyra¹ny - z 2 do 5%. Wydatki na reklam¦ behawioraln¡ balansuj¡ w granicach 1% (ten typ reklamy internetowej jest raportowany w badaniu IAB AdEx od 2010 roku). Reklama efektywno±ciowa (model CPA) miaªa w 2010 roku ponad 9% udziaªu w rynku. Marketing w wyszukiwarkach potocznie nazywany SEM (ang. Search Engine Marketing ) dzieli si¦ na reklam¦ kontekstow¡, dopasowan¡ do tre±ci stro- ny WWW, rozliczan¡ na podstawie klikni¦¢ PPC (ang. Pay Per Click ) oraz promocj¦ strony WWW, polegaj¡c¡ na poprawie jej pozycji na wybrane sªowa kluczowe w organicznych wynikach wyszukiwania, czyli tzw. pozycjonowanie stron WWW. Wedªug Polskich Bada« Internetu prowadzonych przez rm¦ Gemius, opublikowanych na stronie www.ranking.pl w marcu 2010 roku wynika, »e pra- wie 98% polskiego rynku wyszukiwarek, bior¡c pod uwag¦ silniki wyszukiwarek internetowych jest w posiadaniu Google. Silnik wyszukiwarki internetowej jest to technologia wyszukiwania konkretnej wyszukiwarki internetowej, która mo»e by¢ zaimplementowana na ró»nych stronach WWW. Przykªadem jest Onet.pl, czy Interia.pl, które korzystaj¡ z silnika wyszukiwarki Google. Podziaª marketingu w wyszukiwarce Google na dwa typy reklamy internetowej, czyli pozycjonowanie (SEO) a tak»e linki sponsorowane (reklama typu PPC - w przypadku wyszukiwarki Google jest to Google AdWords ), przedstawia rys. 4.7. Rysunek 4.7. Podziaª obszaru okna wyników wyszukiwania 4.6 Kryteria oceny strony internetowej 43 4.6 Kryteria oceny strony internetowej Wska¹nik PageRank jest stosowany do wyznaczania warto±ci¡ liczbow¡ od 0 do 10, jako±ci strony. Nazwa samego algorytmu nie jest pochodn¡ od angielskiego page (pol. strona ), lecz od nazwiska jednego ze wspóªtwórców owego algorytmu. Algorytm tego wska¹nika bazuje w uproszczeniu na zaªo»eniu, »e jako±¢ strony mo»na okre±li¢ licz¡c nie tylko liczb¦, ale te» i jako±¢ ª¡czy, które do niej prowadz¡. Im wi¦cej ª¡czy prowadz¡cych do naszej strony (konkretnych podstron) oraz im wy»sza ich jako±¢ (czyli ich warto±¢ PR) tym dla oceny naszej strony lepiej. Innymi sªowy PageRank polega na wa»eniu jako±ci linków wskazuj¡cych na rozpatrywan¡ stron¦ WWW ich wªasn¡ warto±ci¡ PageRank. Oznacza to, »e je±li na dan¡ stron¦ WWW powoªuje si¦ (kieruje do niej link) inna strona WWW, która sama ma wysok¡ ocen¦, to ma to wi¦ksze znaczenie, ni» gdy na t¡ sam¡ stron¦ WWW powoªuje si¦ maªo popularna strona. Do obliczenia warto±ci PageRank stosuje si¦ wzór opracowany przez zaªo»ycieli wyszukiwarki Google 52 : P R(A) = (1 − d) + d ∗ n ∑ P R(Ti ) i=1 C(Ti ) A - strona WWW, dla której oblicza si¦ PageRank ; n - liczba ª¡czy do A, i - indeks (numer strony zawieraj¡cej ª¡cze do strony A), przyjmuje warto±ci 1 . . . n; Ti - strona WWW posiadaj¡ca ª¡cze do strony A; P R(Ti ) warto±¢ PageRank dla strony Ti ; C(Ti ) - jest to suma wszystkich linków umieszczonych na stronie Ti ; d - tzw. czynnik tªumienia, który mo»e przyjmowa¢ gdzie: strony warto±¢ od 0 do 1. We wzorze, za warto±¢ d zazwyczaj przyjmowana jest liczba 0,85. Wzór ten jest jedynie przyj¦tym wzorcowym schematem obliczania PageRank. Szczegóªy algorytmu s¡ pilnie strze»one przez rm¦ Google. Nale»y pami¦ta¢, »e wska¹nik dotyczy i jest wyznaczany dla ka»dej podstrony osobno. Wiele osób chwali si¦ wy»szym wska¹nikiem pokazuj¡c wynik, jaki zwraca strona gªówna - ma ona najwy»sz¡ warto±¢, ze wzgl¦du na skupienie na niej najwi¦kszej liczby linków zwrotnych. Szukaj¡c katalogów, nie mo»na si¦ jednak ªudzi¢ hasªami o wysokim PageRank. Wpisy w katalogu najcz¦±ciej nie s¡ widoczne na stronie gªównej, lecz na podstronach, które nie maj¡ przypisanego PR lub jest on zerowy. Google otworzyªo tym samym w Internecie rodzaj gªosowania, w którym ka»de ª¡cze wstawione na danej stronie jest gªosem na ni¡ oddanym. Sama ogólnodost¦pna warto±¢ PageRank nie jest uaktualniana na bie»¡co. Update PR, bo tak nazywa si¦ proces aktualizacji tego wska¹nika, odbywa si¦ w odst¦pach od miesi¡ca do nawet kilku. Dawniej byª uaktualniany o wiele cz¦±ciej ni» w dzisiejszych czasach. 52 http://www.darmowepozycjonowanie.pl/category/darmowe-pozycjonowanie/ 44 4 Pozycjonowanie witryn internetowych Wska¹nik, który jest dost¦pny dla u»ytkowników, to tPR (ang. Toolbar Pa- geRank ). Niestety jest to tylko przelicznik w skali od 0-10 warto±ci z rPR (ang. Real Page Rank ), który nie jest udost¦pniany na zewn¡trz. Aktualn¡ warto±¢ PR mo»na ±ledzi¢ dzi¦ki narz¦dziu Google ToolBar (zob. rys. 4.8), udost¦pnionemu dla wyszukiwarki Mozzilla Firefox oraz Internet Explorer lub z witryn internetowych, na których po wpisaniu adresu mo»na zbada¢ wska¹nik danej strony. Rysunek 4.8. Okno przegl¡darki z paskiem Google Toolbar 4.7 Najcz¦stsze bª¦dy pozycjonowania Nieuwa»ni projektanci oraz administratorzy serwisów WWW popeªniaj¡ cz¦sto wiele bª¦dów wpªywaj¡cych negatywnie na pozycjonowanie wªasnych stron 53 . Wymie«my je kolejno: internetowych • rozpoczynanie pozycjonowania serwisu bez zoptymalizowania go pod k¡tem indeksowania przez wyszukiwarki: ◦ ◦ kod strony skªadaj¡cy si¦ ze zb¦dnych i niepotrzebnych elementów, wprowadzanie szablonów nie opartych na stylach CSS, lecz na zwykªych tabelach, ◦ trzymanie zb¦dnych i nie wnosz¡cych nic istotnego do strony elementów gracznych, ◦ 53 brak przyjaznych ª¡czy dla wyszukiwarek, http://www.ittechnology.us/24-najczesciej-popelnianych-bledow-przyprobach-pozycjonowania-witryny-internetowej-czesc-1/ http://www.ittechnology.us/24-najczesciej-popelnianych-bledow-przyprobach-pozycjonowania-witryny-internetowej-czesc-2/ 4.7 Najcz¦stsze bª¦dy pozycjonowania ◦ • 45 niesprawdzenie poprawno±ci kodu i jego zgodno±¢ ze standardami. wybieranie zbyt ogólnych i konkurencyjnych fraz - im bardziej konkurencyjna jest fraza, tym trudniej pod ni¡ pozycjonowa¢; dlatego zamiast wybiera¢ kilka trudnych do pozycjonowania fraz, nale»y stara¢ si¦ skupi¢ na mniejszej liczbie mniej konkurencyjnych, na które mo»na pozycjonowa¢ poszczególne podstrony serwisu; • bardzo szybkie tworzenie ª¡czy do nowej domeny - wyszukiwarki bardzo nieufnie traktuj¡ nowe domeny, które szybko zyskuj¡ wiele ª¡czy. W sytuacji, kiedy silnik wyszukiwarki uzna, »e wªa±ciciel strony sztucznie próbuje wpªyn¡¢ na rankingi w wyszukiwaniach, nakªada ltry na dane sªowa kluczowe, co spowoduje znaczne obni»enie jej pozycji na li±cie wyników; dobry efekt uzyskuje si¦, gdy na pocz¡tku dodajemy do witryny tylko kilka lub kilkana±cie silnych ª¡czy, które pozwol¡ dobrze zaindeksowa¢ stron¦; wyszukiwarki s¡ w stanie sprawdzi¢ wiek domeny • 54 ; dªugi okres bez nowych ª¡czy - dodawanie ª¡czy powinno by¢ rozªo»one w czasie i najlepiej gdyby ich liczba i jako±¢ narastaªa z ka»dym miesi¡cem; • tworzenie strony na podstawie tre±ci skopiowanych z innych stron - taka praktyka jest bardzo szybko wykrywana przez wyszukiwarki, które wyrzucaj¡ j¡ z indeksu; • stosowanie niewidocznego tekstu w kolorze tªa lub z atrybutem okre±laj¡cym widoczno±¢, ustawionym na ukryty - techniki te nie przynosz¡ zbyt wielu korzy±ci, a wychwycone przez konkurencj¦ gwarantuj¡ w krótszej lub dªu»szej perspektywie czasowej wyrzucenie z indeksu; • nadmierna liczba sªów kluczowych w znacznikach - dziaªa niestety wprost przeciwnie do zamierze«, to znaczy powoduje obni»enie pozycji w rankingu przez wyszukiwarki; • kupowanie domeny z du»¡ liczb¡ sªów kluczowych w nazwie - w niektórych przypadkach wybieranie domeny pod k¡tem zawarto±ci w niej sªów kluczowych jest uzasadnione; niemniej jednak sama nazwa domeny ma znikomy wpªyw na warto±¢ wyników wyszukiwania; • wybieranie ª¡czy do wymiany i kupna tylko w oparciu o ranking PR - cho¢ ma to du»e znaczenie dla ª¡czy wychodz¡cych z danej strony, wa»niejsza jest jednak ich jako±¢, tzn.: ◦ ◦ ◦ ◦ czy pochodz¡ one ze strony tematycznie zwi¡zanej z dan¡ stron¡, ile jest ª¡czy zewn¦trznych z tej strony, gdzie b¦dzie umieszczone ª¡cze (w tre±ci, w stopce itp.), czy strona, na której jest ª¡cze, zawiera interesuj¡ce nas sªowa kluczowe, ◦ czy wska¹nik PR tej strony jest stabilny, czy te» jest efektem agresywnego i ryzykownego pozycjonowania, 54 http://dns.pl/cgi-bin/whois.pl 46 4 Pozycjonowanie witryn internetowych ◦ czy strona, z której chcemy mie¢ ª¡cze, nie posiada ª¡czy do niebezpiecznych stron, przez co grozi zmian¡ warto±ci wska¹nika PR, • dwustronna wymiana ª¡czy - ma niezbyt du»¡ warto±¢, w szczególno±ci, gdy ª¡czami wymieniaj¡ si¦ strony nale»¡ce do tej samej domeny; lepszym rozwi¡zaniem wydaje si¦ by¢ ªa«cuszek ª¡czy; • stosowanie znaków podkre±lenia zamiast minusów w tytuªach stron - wyszukiwarki traktuj¡ napis A_B jako sªowo kluczowe: A_B, podczas gdy tytuª: A-B pozycjonuje si¦ pod sªowa kluczowe:A, B i A-B; • kupno wygasªej domeny, do której prowadziªy jakie± ª¡cza zwrotne w nadziei na wysok¡ siª¦ tych ª¡czy - niestety wyszukiwarki uznaj¡, »e stare ª¡cza, które kiedy± prowadziªy do domeny aktualnie aktywowanej, obecnie nie maj¡ nic wspólnego z tera¹niejszym wykorzystaniem wi¦c ignoruj¡ ich warto±¢; • tworzenia zaplecza na jednym i tym samym serwerze - olbrzymi wpªyw na pozycj¦ serwisu internetowego w wynikach wyszukiwania ma liczba i jako±¢ ª¡czy kieruj¡cych do tego serwisu. Nale»y jednak pami¦ta¢ o tym, aby nie wstawia¢ wszystkich swoich stron na ten sam serwer, do którego przypisany jest ten sam adres IP. Wyszukiwarki sprawdzaj¡c jako±¢, kontroluj¡ z ilu unikalnych adresów IP prowadz¡ ª¡cza. • tworzenie wielu subdomen ze sªowami kluczowymi - maj¡ znikomy wpªyw na wyniki wyszukiwania, je±li same nie nios¡ za sob¡ warto±ciowej i unikalnej tre±ci; • dodawanie ª¡czy na adres strony z www i bez www - dla wielu wyszukiwarek takie adresy oznaczaj¡ dwie ró»ne strony. Dlatego te» w sytuacji, kiedy wyszukiwarka zaindeksuje dokumenty z obu adresów (z www i bez niego), mo»e uzna¢ jedno z nich za zawieraj¡cy zduplikowan¡ zawarto±¢ i wyrzuci¢ z indeksu. Aby unikn¡¢ tych problemów, nale»y spójnie dodawa¢ ª¡cza (np. z fraz¡ www). • zdobywanie ª¡czy na podejrzanych serwisach - niestety, nie ka»de zdobyte ª¡cze przydaje si¦ do pozycjonowania serwisu. Co prawda ª¡cza kieruj¡ce do serwisu z zewn¡trz nie mog¡ w zbyt du»ym stopniu zaszkodzi¢ witrynie (mogªoby to zosta¢ wykorzystywane przez konkurencj¦ do zniszczenia pozycji strony), jednak»e ª¡cza z podejrzanych serwisów (np. masowo rozsyªaj¡cych spam) wzbudzaj¡ podejrzliwo±¢ wyszukiwarek i w dªu»szej perspektywie czasowej mog¡ mie¢ znaczenie negatywne dla pozycji serwisu; • osªabianie siªy witryny gªównej - bardzo cz¦sto witryny dodaj¡ ª¡cza na www.serwis.pl, je±li jednak www.serwis.pl/cos/cos.html, to gªówny adres np. gªówna strona witryny ma inny adres w ten sposób bardzo osªa- biamy siª¦ ª¡czy wychodz¡cych ze strony gªównej, poniewa» nagle si¦ okazuje, »e www.serwis.pl ma np. PR=5, przy czym strona gªówna (która teoretycznie powinna mie¢ siª¦ domeny) ma PR=3 (dodatkowo mo»e doj±¢ wspomniany ju» problem podejrzenia duplikacji zawarto±ci); 4.7 Najcz¦stsze bª¦dy pozycjonowania • 47 niewªa±ciwe ª¡cza wewn¦trzne - wielokrotnie si¦ zdarza, »e serwis internetowy ma na stronie gªównej ª¡cze do niej samej (zupeªnie niepotrzebnie), np. www.serwis.pl/index.html, a pó¹niej w gª¦bi serwisu do strony www.serwis.pl/index2.html - tutaj równie» gªównej prowadzi odno±nik mo»e zaj±¢ podejrzenie powielania zawarto±ci; • umieszczanie tre±ci strony bardzo nisko w ¹ródle strony - dla wyszukiwarki im wy»ej jest tre±¢ umieszczona w tre±ci strony, tym jest ona wa»niejsza, bª¦dem jest wi¦c umieszczanie caªego kodu zwi¡zanego z widokiem tre±ci caªkowicie ponad tekstem strony; • zamykanie dost¦pu do caªej tre±ci serwisu - wyszukiwarka teoretycznie nie powinna indeksowa¢ tre±ci chronionej hasªem, jednak»e nie b¦dzie indeksowa¢ serwisów bez unikalnej tre±ci, dlatego w serwisach wymagaj¡cych logowania nale»y zawsze umieszcza¢ cz¦±¢ stron jako publicznie dost¦pnych; • oszcz¦dzanie na hostingu - niektóre wyszukiwarki przy okre±laniu pozycji w wynikach bior¡ pod uwag¦ równie» szybko±¢ wczytywania strony oraz to, jak cz¦sto strona nie jest dost¦pna z powodu kiepskiego serwera, na którym si¦ znajduje. WICZENIA Przykªadowe ¢wiczenia z zakresu pozycjonowania stron internetowych: • Przeanalizowa¢ budow¦ prostej strony internetowej. Pozna¢ rol¦ podstawowych znaczników i meta znaczników HTML. • Stworzy¢ stron¦ HTML zawieraj¡ca odno±niki do wybranych serwisów. • Przeanalizowa¢ jako±¢ ª¡czy w wybranym serwisie internetowym pod k¡tem przydatno±ci dla robotów sieciowych. • • • Udro»ni¢ system nawigacyjny wskazanej witryny internetowej. Sprawdzi¢ PageRank wybranych portali. Sprawdzi¢ statystyki wyst¦powania sªów kluczowych wybranych dla serwisu zwi¡zanego ze wskazan¡ dziedzin¡. • • • • Sprawdzi¢ wiek wybranych domen. Odnale¹¢ i przeanalizowa¢ budow¦ pliku robots.txt. Zapozna¢ si¦ z systemem wymiany ª¡czy e-WebLink.com. Zapozna¢ si¦ z systemem statystyk Stat24. 5 Wprowadzenie do sieci semantycznych 5.1 Wst¦p Internet zawiera pot¦»ne zasoby informacji. Ich prezentacja w wi¦kszo±ci przypadków zostaªa zaprojektowana w sposób czytelny dla innych ludzi. U»ytkownik sieci mo»e ªatwo zrozumie¢ informacje umieszczone na danej stronie i powi¡za¢ je z innymi danymi w Internecie. Komputery ci¡gle tego nie potra¡. To najwi¦ksza ró»nica pomi¦dzy nami i jednocze±nie najwi¦ksza trudno±¢ dla algorytmów próbuj¡cych wyªuska¢ sensowne informacje z Internetu. Dlatego te» wspóªczesne silniki wyszukiwarek przedstawiaj¡ nam jedynie posegregowan¡ list¦ poszukiwanych fraz uzyskan¡ za pomoc¡ metod statystycznych. Niestety, to jeszcze nie jest rezultat, którego oczekujemy. eby bowiem zdoby¢ oczekiwane informacje nale»y zwykle pracochªonnie otwiera¢ kolejne strony z listy prezentowanych wyników, z których wi¦kszo±¢ w ogóle nie zawiera potrzebnych danych. Ma to miejsce, poniewa» tym, czego potrzebujemy, jest wyszukiwanie oparte nie na sªowach kluczowych, lecz na ich jednostkach znaczeniowych. Nazywamy to semantyk¡. Semantyk¦ za±, system mo»e zrozumie¢, bazuj¡c na modelu przechowywania stron wykorzystuj¡cym ich struktur¦. Istnieje te» inna przeszkoda w rozumieniu i przetwarzaniu zapyta«. Otó»: informacje w Internecie przechowywane s¡ dzi± w tak wielu formach, »e bezpo±rednie ich porównywanie okazuje si¦ prawie niemo»liwe. W konsekwencji trudno jest je skondensowa¢ i zaprezentowa¢ w ujednoliconej, strawnej dla maszyn postaci, aby zamiast jednoznacznej odpowiedzi na nasze pytanie nie otrzyma¢ jedynie zbioru prawdopodobnych wyników. Niestety dotyczy to nawet prostych zapyta«, które zamiast zadawa¢ tak jak w j¦zyku naturalnym, musimy przeksztaªca¢ do postaci daj¡cej si¦ przeanalizowa¢ przez wyszukiwark¦. Czyli zamiast Ile lat ma pomnik Piªsudskiego? musimy zapyta¢ np. tak: pomnik Piªsudzkiego data budowy i poszpera¢ w wynikach. Zamiast u»ytkownika mo»e jednak to robi¢ automatycznie jaki± mechanizm. Rozwi¡zaniem jest sie¢ semantyczna. Jest ona okre±lana jako idea takiego gromadzenia informacji w Internecie, aby komputery mogªy je przetwarza¢ ze 50 5 Wprowadzenie do sieci semantycznych zrozumieniem. Aby byªo to mo»liwe, oprócz samych danych sie¢ semantyczna musi zawiera¢ tak»e dodatkowe informacje o relacjach pomi¦dzy nimi. Umieszcza si¦ je w formie tekstowej, jako tzw. metadane. Organizacja W3C, ustanawiaj¡ca standardy pisania stron WWW, opracowaªa ju» szereg otwartych schematów zapisu metadanych. J¦zyki znaczników, takie jak XML, RDF (Schemat), OWL i SPARQL, uzupeªniaj¡c si¦ wzajemnie, odgrywaj¡ tu bardzo istotn¡ rol¦. Umo»liwiaj¡ bowiem zapis informacji o ontologii i taksonomii danych uporz¡dkowanej semantycznie. Przykªadowo dzi¦ki SPARQL mamy w peªni rozwini¦ty j¦zyk zapyta« do uzyskiwania wyników z ontologii RDF. 5.2 Tworzenie sieci semantycznej Zadanie zamiany sieci bazuj¡cej na ró»nych dokumentach w sie¢ rozumiej¡c¡ swoj¡ zawarto±¢ nie jest zagadnieniem trywialnym. Pierwszym krokiem w tym kierunku jest zapewnienie gromadzenia informacji w Internecie w usystematyzowanych strukturach. Pomimo, i» ze strony technicznej nie wydaje si¦ to trudne, bo istnieje wiele niezale»nych dyscyplin, w których wiedza jest gromadzona w sposób uporz¡dkowany od pocz¡tku ich istnienia, pozostaje pytanie co zrobi¢ z rozlegªymi zasobami informacji, które obecnie opieraj¡ si¦ na ró»norakich dokumentach. Mo»emy tutaj wskaza¢ trzy podej±cia: • wykorzystanie sztucznej inteligencji oraz lingwistyki komputerowej zajmuj¡cej si¦ przetwarzaniem j¦zyka naturalnego, która obejmuje m.in. metody rozbioru wypowiadanych tekstów, tak jak czyni to czªowiek: analizowane frazy s¡ zwykle rozkªadane na pojedyncze zdania. Je±li zastosuje si¦ wiedz¦ o strukturze zdania (podmiot - predykat - obiekt), semantyczny podziaª tre±ci wydaje si¦ ªatwy. Dzi¦ki temu te» w procesie przeszukiwania mo»na identykowa¢ osoby, obiekty oraz zdarzenia i tworzy¢ powi¡zania pomi¦dzy nimi, co znacznie zredukuje liczb¦ bª¦dnych rezultatów na li±cie wyników; • manualnego rozszerzania istniej¡cych stron opartych na (X)HTML o specja- lne elementy Microformats, które uczyni¡ owe strony czytelnymi dla komputerów. Przykªadem mo»e by¢ stosowanie jednakowych oraz uniwersalnych schematów do przechowywania informacji o kontaktach, planach i zakªadkach na ró»nych platformach systemowych; • rozwijanie specykacji RDF (ang. Resource Description Framework ) pozwalaj¡ca na tworzenie ogólnych struktur, które mog¡ zosta¢ wykorzystane do integracji metadanych. Niestety, to podej±cie wymaga wi¦kszych nakªadów pracy podczas tworzenia aplikacji. Z drugiej strony RDF jest bardziej ogólny i elastyczny, przez co w dalszej perspektywie mo»e wyprze¢ rozwi¡zanie Microformats. 5.3 Budowa sieci semantycznej 51 5.3 Budowa sieci semantycznej Sieci semantyczne powinny by¢ zbudowane na bazie ju» istniej¡cych, wykorzystywanych i sprawdzonych standardów internetowych, nadbudowanych przez kilka kolejnych standardów. Poniewa» ka»dy kolejny standard nakªada si¦ na kolejny, dotycz¡c innego poziomu abstrakcji, tote» ochrzczone zostaªy one mianem 'warstwowego placka' (ang. layer cake ). Inne popularne ich okre±lenie to 'semantyczny stos' (ang. semantic stack ) pokazany na rys. 5.1. Rysunek 5.1. Stos standardów sieci semantycznej Kolejne warstwy stosu, rozpatruj¡c je od doªu, reprezentuj¡: • Unicode - standard pozwalaj¡cy na wyra»enie w j¦zyku maszyn dowolnego znaku pisanego, dowolnego j¦zyka znanego na Ziemi. Standard ten rozwi¡zuje problem niewygód zwi¡zanych z prymatem w ±wiecie komputerów podstawowego alfabetu ªaci«skiego; • URI - standard zapewniaj¡cy unikalno±¢ adresów zasobów internetowych. Poniewa» wszystkie dane przesyªane w ramach sieci semantycznych b¦d¡ zasobami internetowymi, b¦d¡ one wymagaªy te» okre±lenia dla nich identykatora. Identykator b¦dzie mógª skªada¢ si¦ wªa±nie z zestawu znaków Unicode. • XML i XML Schema - XML jest standardem pozwalaj¡cym w ogólno±ci na zapis danych. Schematy XML wprowadzaj¡ ograniczenia dotycz¡ce typu i struktury danych. Zachowanie typu i struktury daje gwarancj¦, »e dane XML s¡ poprawne w sensie syntaktycznym (np. w polu, w którym oczekujemy warto±ci liczbowej, warto±¢ taka si¦ pojawi); • RDF i RDF Schema - RDF jest standardem, który pozwala na zapis danych w postaci grafu skierowanego. W grae tym dane zawarte s¡ w wierzchoªkach, a relacje pomi¦dzy nimi i wªasno±ci tych»e znajduj¡ si¦ w kraw¦dziach. Struktura metadanych w RDF ma dokªadniej opisywa¢ i deniowa¢ dane, a opiera¢ si¦ na gracznym modelu danych. Skªada si¦ on z elementów zbudowanych wedªug schematu: temat, obiekt i predykat (rys. 5.2). 52 5 Wprowadzenie do sieci semantycznych Rysunek 5.2. Graczny schemat modelu danych Podmiot stanowi opisywany zasób, np. czªowiek, lub osoba. Predykat okre±la wªasno±¢ tego zasobu. W przypadku osoby mo»e to by¢ wªasno±¢ posiadania. Obiekt za± to warto±¢ tej wªasno±ci. W naszym przykªadzie mo»e to by¢ np. matka. W takim przypadku nasze zdanie wygl¡daªoby tak: Osoba (podmiot) ma (predykat) matk¦ (obiekt). Ponadto RDF daje mo»liwo±¢ ª¡czenia ze sob¡ tego typu trójek, a w efekcie daje agentowi mo»liwo±¢ wnioskowania. Schematy RDF wprowadzaj¡ do grafów takie poj¦cia jak klasy i podklasy, pozwalaj¡ce na wspólne grupowanie danych maj¡cych cechy wspólne. Dowolna dana mo»e znajdowa¢ si¦ w wielu klasach; • OWL - standard pozwalaj¡cy na deniowanie klas na podstawie wªasno±ci danych oraz na deniowanie logicznych charakterystyk relacji. OWL jest wi¦c standardem formalnie zapisuj¡cym ontologi¦. Maj¡c dan¡ klas¦ 'Czªowiek', a tak»e posiadaj¡c w jej zbiorze relacj¦ 'jest m¦»em', chcieliby±my okre±li¢ klas¦ 'Maª»onek' (dla czytelno±ci przykªadu, uznajemy denicj¦ m¦»a zgodn¡ z polskim stanem prawnym). Otó» maª»onkiem jest zarówno dana, której podmiotem jest relacja 'jest m¦»em', jak i dana, której przedmiotem jest dana relacja (w j¦zyku grafów: maª»onkiem jest wierzchoªek grafu, z którego wychodzi kraw¦d¹ 'jest m¦»em', jak i wierzchoªek, do którego taka kraw¦d¹ wchodzi). Relacj¦ 'jest m¦»em' mo»emy te» do±¢ dokªadnie okre±li¢. Jest to relacja funkcjonalna (tzn. »e ka»dy podmiot, którego dotyczy ta relacja, ma co najwy»ej jeden przedmiot). Jest ona te» odwrotnie funkcjonalna (przedmiot tej relacji ma co najwy»ej jeden podmiot). Nie jest ona przechodnia (tzn. nie ma takiej wªasno±ci, »e je±li A jest m¦»em B a B jest m¦»em C to A jest m¦»em C), posiada natomiast relacj¦ odwrotn¡. T¡ relacj¡ jest 'jest »on¡' (ka»dy A, który jest m¦»em B b¦dzie speªnia¢ nast¦puj¡c¡ relacj¦: B jest »on¡ A); • mechanizmy wnioskowania - j¦zyk OWL pozwala na deniowanie zale»no±ci mi¦dzy danymi, dzi¦ki czemu mo»na przeprowadza¢ wnioskowanie. Jednak»e osobn¡ spraw¡ jest przygotowanie odpowiednich mechanizmów, które takie wnioskowanie przeprowadz¡ poprawnie, a jednocze±nie w odpowiednio szybkim czasie. Program, przeprowadzaj¡cy wnioskowanie nosi miano wnioskuj¡cego. W chwili obecnej zaawansowanie techniczne wnioskuj¡cych jest wci¡» ograniczone i przeprowadzanie wnioskowa« nawet na nieskomplikowanych ontologiach trwa zbyt dªugo jak na uwarunkowania Internetu; 5.4 Ontologie • 53 mechanizmy certykacji i zaufania - istniej¡ w tej chwili w sferze rozwa»a« teoretycznych. Mechanizmy te pozwoliªyby na zestandaryzowanie i rozwi¡zanie problemów autoryzacji u»ytkowników, identykacji ich zasobów, a tak»e okre±lenia praw, na jakich te zasoby s¡ przesyªane i mog¡ by¢ udost¦pniane. Sie¢ semantyczna dostarcza zestaw rozwi¡za«, umo»liwiaj¡cych efektywne wyszukiwanie informacji oraz zintegrowanie wyników pochodz¡cych z ró»nych ¹ródeª. Utworzone ju» zostaªy standardy opisu danych. Istniej¡ tak»e metody, które pozwalaj¡ na korzystanie z tak precyzyjnych ¹ródeª wiedzy. Cho¢ stron WWW ze strukturalnie opisan¡ zawarto±ci¡ jest ci¡gle za maªo, semantyczna analiza ju» istniej¡cych zasobów i rozszerzenie ich tre±ci o metadane w standardzie RDFa pokazuj¡, »e stworzenie inteligentnej sieci przyszªo±ci jest mo»liwe - proces ju» si¦ rozpocz¡ª. Pierwszym krokiem byªo przetworzenie zawarto±ci pochodz¡cej z baz danych, takich jak Wikipedia czy MusicBrainz. Nale»y jednak pami¦ta¢, »e sie¢ semantyczna mo»e dziaªa¢ tylko, je±li zapewniony b¦dzie dost¦p do bardzo zró»nicowanych tre±ci. Co wi¦cej, zawarto±¢ stron WWW musi by¢ ªatwa do znalezienia i poª¡czenia, za± relacje pomi¦dzy danymi lepiej opisane. Mo»na jednak zaªo»y¢, »e rewolucja polegaj¡ca na przej±ciu od szukania fraz w wyszukiwarkach do odpowiedzi na pytania zadane w j¦zyku naturalnym dokona si¦ w najbli»szych latach. 5.4 Ontologie Ontologia jest poj¦ciem pochodz¡cym z lozoi, oznacza analiz¦ poj¦¢ i idei w celu ustalenia tego, co istnieje oraz zwi¡zków pomi¦dzy istniej¡cymi elementami. Deniuje ona poj¦cia u»ywane do opisania i reprezentacji gaª¦zi wiedzy. Ontologie s¡ u»ywane przez ludzi, bazy danych i aplikacje, które potrzebuj¡ informacji pochodz¡cych z danej dziedziny. Dziedzina jest rozumiana jako specyczna gaª¡¹ wiedzy taka, jak np. medycyna, handel nieruchomo±ciami, wytwarzanie narz¦dzi, naprawa samochodów, zarz¡dzanie nansami itp. Ontologie zawieraj¡ denicje poj¦¢ z danej dziedziny oraz relacji zachodz¡cych pomi¦dzy tymi poj¦ciami, które s¡ czytelne dla komputera. Denicje te nie musz¡ by¢ ±cisªe w sensie rozumianym przez logik¦, ale raczej powinny by¢ zrozumiaªe dla aplikacji. Ontologie klasykuj¡ wiedz¦ w postaci gaª¦zi wiedzy, czyni¡c j¡ dost¦pn¡ dla czªowieka i aplikacji. Innymi sªowy ontologia jest to sªownik, który zwi¡zuje zbiór poj¦¢ pochodz¡cych z pewnej dziedziny wiedzy i relacje zachodz¡ce pomi¦dzy nimi, z opisami tekstowymi czytelnymi dla czªowieka, a tak»e reguªami poprawnego u»ycia tych poj¦¢ czytelnymi dla inteligentnej aplikacji. Konceptualizacja z kolei, jest uproszczonym obrazem ±wiata, jaki ma inteligentna aplikacja. Mo»e ona by¢ uto»samiana z wiedz¡ o zbiorze poj¦¢ dotycz¡cych pewnej dziedziny wiedzy i sposobie ich u»ycia. 54 5 Wprowadzenie do sieci semantycznych 5.5 Wyszukiwanie semantyczne Wyszukiwarki semantyczne dzieli si¦ na dwie kategorie: wyszukiwarki analizuj¡ce znaczenie indeksowanych dokumentów i wyszukiwarki przeszukuj¡ce za- 56 . Te dwa rodzaje wyszukiwarek semantycznych dzia- soby sieci semantycznej ªaj¡ inaczej i inn¡ maj¡ te» peªni¢ rol¦ w poszukiwaniu informacji. Do miana wyszukiwarki semantycznej aspiruj¡ np. Hakia 57 , Powerset wykorzystywany 59 KtoCo . 58 przez wyszukiwark¦ Bing , czy tez polskie rozwi¡zanie, jakim jest 5.5.1 Hakia Hakia, w przeciwie«stwie do wyszukiwarek typu Google (która te» zaczyna wy- szukiwa¢ semantycznie), ma dostarczy¢ maksymalnie dopasowany do zapytania zestaw ª¡czy do stron internetowych, dzi¦ki zaawansowanym technologicznie procedurom mechanicznego przetwarzania j¦zyka naturalnego, a nie metodom statystycznym. Hakia przeszukiwa¢ ma nie tyle strony internetowe, co zawarto±¢ znaczeniow¡ tych stron. Zawarto±¢ znaczeniow¡ dokumentów za± otrzymuje, stosuj¡c odpowiednie metody analizy tekstu dokumentu. Hakia dostarcza¢ ma tak»e bezpo±rednich odpowiedzi na postawione zapytanie w oparciu o tre±¢ wysoko ocenianych witryn internetowych (tzn. je±li w oknie zapytania wpiszemy zdanie ze znakiem pytaj¡cym, Hakia ma szuka¢ odpowiedzi na pytanie). Wyszukiwanie oparte na analizie znaczeniowej dokumentów miaªoby tak¡ zalet¦, »e: • eliminowaªoby dokumenty zawieraj¡ce terminy wyszukiwane, ale rozpoznane jako posiadaj¡ce w danym kontek±cie odmienne znaczenie, • wprowadzaªoby do zbioru wyszukanych dokumentów strony internetowe zawieraj¡ce wyra»enia o formie odmiennej od u»ytych w zapytaniu, ale semantycznie zbie»ne. W zwi¡zku z tak sformuªowanym zadaniem pojawiaj¡ si¦ jednak trudno±ci dwojakiego rodzaju: po pierwsze, wchodz¡ tu w gr¦ dokªadnie wszystkie problemy zwi¡zane z semantyczn¡ analiz¡ j¦zyka naturalnego, po drugie za±, rodzi si¦ pytanie o algorytm ustalania hierarchii wybranych dokumentów. Mo»na powiedzie¢, »e Hakia rozpoznaje znaczenie u»ytego w zapytaniu wyra»enia i rozpoznaje to samo znaczenie w indeksowanych dokumentach. Hakia interpretuje wyra»enia j¦zyka naturalnego w ustalonych modelach - ma- pach poj¦¢ odpowiadaj¡cych poszczególnym terminom. Oczywi±cie do dyspozycji mamy wi¦cej ni» proste poj¦cia stanowi¡ce znaczenia prostych terminów: 56 57 58 59 http://www.infopoint.pl/wordpress/2008/10/12/co-to-jest-semantycznawyszukiwarka/ http://www.hakia.com/ http://www.bing.com/ http://www.ktoco.pl/ 5.5 Wyszukiwanie semantyczne 55 do poj¦¢ doª¡czone s¡ ró»nego rodzaju syntaktyczne i semantyczne warunki okre±laj¡ce mo»liwe relacje pomi¦dzy poj¦ciami. Konieczne b¦dzie tak»e ustalenie zasad wyboru jednego z wielu mo»liwych znacze« terminów wieloznacznych. Hakia przeprowadza analiz¦ semantyczn¡ wyra»e« w sposób na pierwszy rzut oka caªkiem satysfakcjonuj¡cy. Ustalamy po prostu statystyczne prawdopodobie«stwo wspóªwyst¦powania znacze« sªów skªadaj¡cych si¦ na zdanie. Znaczenia (poj¦cia) s¡ ustalone w sªowniku, z którego Hakia korzysta. Niektóre konstelacje s¡ szybko eliminowane na podstawie oceny mo»liwych kategorialnych dopeªnie« okre±lonego poj¦cia, niektóre za± s¡ oceniane jako mniej lub bardziej prawdopodobne statystycznie. To rozwi¡zanie, ma jednak wady. Przykªadowo caªa konstrukcja opiera si¦ na jednym centralnym i wzgl¦dnie staªym sªowniku podaj¡cym zasady interpretacji poszczególnych terminów. Dlaczego jest to wada? Dlatego »e sªownik b¦d¡cy podstaw¡ interpretacji semantycznej jest modelem, który zawiera pewn¡ wiedz¦: np. pozwala wnioskowa¢ z informacji o przedmiocie lub zdarzeniu A o innym przedmiocie lub zjawisku. Wydaje si¦, »e przynajmniej w naukach ±cisªych, np. w medycynie, nie ma w tym nic zªego, o ile model b¦dzie oparty na dobrych ¹ródªach i o ile zaªo»ymy wzgl¦dn¡ staªo±¢ wiedzy medycznej czy nauk ±cisªych. Jednak mamy tu do czynienia z j¦zykiem technicznym, który jest du»o prostszy ni» j¦zyk naturalny. Ambicj¡ Hakii jest rozumienie wyra»e« j¦zyka naturalnego - ewentualnie pyta« w j¦zyku naturalnym zawieraj¡cym terminy techniczne. Semantyka j¦zyków naturalnych nie jest za± zestawem wzgl¦dnie staªych poj¦¢-znacze« przyporz¡dkowanych elementom leksykonów tych j¦zyków. Zreszt¡, o ile podanie prostych informacji dotycz¡cych jednego terminu technicznego nie sprawia Hakii problemów, o tyle realizacja drugiego zadania odpowiedzi na pytanie postawione w j¦zyku naturalnym, ale dotycz¡cym medycyny - pozostawia sporo do »yczenia. Wyniki za± nie wydaj¡ si¦ jako±ciowo odbiega¢ od efektów wyszukiwania w Google, które tak»e radzi sobie ju» caªkiem swobodnie z odmianami gramatycznymi wyszukiwanych sªów. Abstrahuj¡c od trudno±ci zwi¡zanych z analiz¡ semantyczn¡ wyra»e« j¦zyka natualnego, mo»na jednak postawi¢ pytanie: czy taka wyszukiwarka semantyczna mo»e naprawd¦ dostarczy¢ informacje zamiast listy odno±ników? Wst¦pnie mówimy tylko tyle, »e Hakia potraªaby skuteczniej wybra¢ relewantne do zapytania o dokumenty. To nie ma jeszcze nic wspólnego z ich uporz¡dkowaniem, podobnie jak prawidªa algebry Boole'a nie maj¡ jeszcze nic wspólnego z ustaleniem hierarchii dokumentów w tradycyjnych wyszukiwarkach. Aby móc ustali¢ hierarchi¦ dokumentów zwi¡zan¡ z ich znaczeniem, Hakia musiaªaby jednak dodatkowo ocenia¢ zawarto±¢ peªnych dokumentów i ich zwi¡zek z zapytaniem - dopiero wtedy mogªaby uzna¢ wy»szo±¢ jednego dokumentu nad innym. Algorytm ustalania hierarchii dokumentów mógªby oczywi±cie polega¢ na dowolnej metodzie oceny warto±ci dokumentu, cho¢by takiej jak w Google. To jednak, przynajmniej na poziomie deklaracji, nie jest celem Hakii. Mo»emy znale¹¢ jednak sugesti¦, »e statystyczne metody ustalania hie- 56 5 Wprowadzenie do sieci semantycznych rarchii dokumentów nie b¦d¡ satysfakcjonowaªy Hakii. Nie wiadomo jednak na jakiej podstawie b¦dzie ustalana ich hierarchia. Zgodnie z wpisem na blogu Hakii, metody statystyczne oparte na przykªad na ocenie ª¡czy do strony nie mog¡ by¢ podstaw¡ oceny prawidªowo±ci wyniku wyszukiwania, poniewa» zawarto±¢ strony niesie o wiele wi¦cej informacji. Tyle tylko, »e ustalenie, czy odpowied¹ jest odpowiednia do zapytania nie jest prosta. To tak»e problem zró»nicowania wagi caªkiem sporej liczby dokumentów i jest to najpowa»niejsza trudno±¢ w dziaªaniu wyszukiwarek. Wymagaªoby to analizy semantycznej du»o bardziej zªo»onej, ni» tworzenie map poj¦¢ dla leksykonów i zwi¡zków frazeologicznych. Autorzy Hakii deklaruj¡, »e wyniki maj¡ si¦ poprawi¢ nie tylko dzi¦ki uwzgl¦dnieniu semantycznej zgodno±ci dokumentu z zapytaniem, ale tak»e dzi¦ki podniesieniu jako±ci warto±ciowania dokumentów. Rzeczywisto±¢ tego nie potwierdza, poniewa» u»yteczno±¢ tej wyszukiwarki jest bardzo niska. eby si¦ o tym przekona¢, wystarczy wpisa¢ kilka próbnych pyta«, nie tylko z zakresu medycyny, ale np. bardzo »ywej dziedziny, jak¡ jest »ycie polityczne. 5.6 Powerset Powerset dziaªa na zbli»onych do Hakii zasadach. Opieraj¡c si¦ na opisanej w schemacie RDF wiedzy pochodz¡cej z Wikipedii, Powerset b¦dzie mógª dokonywa¢ wyboru sªów kluczowych z dokumentów internetowych i interpretowa¢ je zgodnie z wiedz¡ tam zawart¡. Aktualnie Powerset jest ograniczony do przeszukiwania Wikipedii, której przekªad na formuªy w schemacie RDF nie jest tak skomplikowany, jak próba stworzenia narz¦dzi do przeksztaªcenia dowolnej strony w HTML na zapis o strukturze RDF. Zawarto±¢ Wikipedii stanowi dla Powerset baz¦ wiedzy, na podstawie której b¦dzie tworzony model interpretacji semantycznej - daje to nadziej¦ na nieco lepsze rezultaty ni» w przypadku Hakii. Jednak zasadnicze zadanie wydaje si¦ nadal bardzo karkoªomne: trzeba ustali¢ zasad¦ przekªadu otwartego tekstu dowolnego, strukturalnie bardzo swobodnie uporz¡dkowanego, dokumentu na ustalon¡ reprezentacj¦. Drugim zadaniem jest znowu ustalenie hierarchii dokumentów. Powerset aktualnie wydaje si¦ lepiej radzi¢ sobie z drugim zadaniem, przy- najmniej w przypadku pyta« zadanych jako sªowa kluczowe, poniewa» u»ytkownik widzi mo»liwe kategorie z ró»nych rodzajów powi¡zane z okre±lonym sªowem kluczowym i mo»e dokona¢ samodzielnego wyboru interesuj¡cej go dziedziny. Powerset tak»e du»o lepiej radzi sobie z wyborem listy wyników. Niezale»nie od aktualnego stanu rozwoju wyszukiwarek opartych na analizie semantycznej j¦zyków naturalnych, mo»emy przyj¡¢, »e istnieje taki rodzaj wyszukiwarek, które list¦ wyników buduj¡ na podstawie porównania znaczenia pytania i tre±ci dokumentu (niezale»nie od tego, jaka jest struktura tego dokumentu). Celem budowy takich wyszukiwarek ma by¢ poprawienie jako±ci prze- 5.6 Powerset 57 szukiwania sieci. Dostarczane maj¡ by¢ bardziej pasuj¡ce do zapytania wyniki i przedstawione w hierarchii bardziej odpowiadaj¡cej zapytaniu. 5.6.1 Przeszukiwanie sieci semantycznej Drugi typ wyszukiwania semantycznego jest zwi¡zany z rozwojem sieci semantycznej, zwanej te» Web 3.0. Do wyszukiwarek w tym trendzie zaliczyliby±my wyszukiwarki przeszukuj¡ce zawarto±¢ sieci semantycznej, tzn. zawarto±¢ ró»nego typu plików RDF oraz modeli interpretacji danych, czyli ontologii zapi- 60 , sanej w OWL (np. Swoogle 61 , Sindice FalconS, Watson 62 ). Co przeszukuj¡ tego rodzaju wyszukiwarki semantyczne? Przeszukuj¡ sie¢ semantyczn¡ - w gruncie rzeczy, przeszukuj¡ zawarto±¢ indeksowanych plików RDF. Pliki RDF stanowi¡ metaopis zawarto±ci dokumentów internetowych. Ka»dy wiersz pliku RDF (poza deklaracj¡ modeli interpretacji) ma struktur¦ trójczªonow¡: podmiot-predykat-warto±¢. Podmiotem jest URI; podmiot ten ma okre±lon¡ cech¦ (jedna z kategorii pochodz¡cych ze wskazanych w nagªówku pliku RDF ontologii) o pewnej warto±ci. Wyszukiwarki semantyczne mog¡ np. poszukiwa¢ terminów lub fraz z dowolnej wskazanej cz¦±ci wierszy plików RDF. Wymienione powy»ej wyszukiwarki pozwalaj¡ nie tylko odszuka¢ terminy w plikach RDF, ale te» umo»liwiaj¡ przeltrowanie danych np. wzgl¦dem ich typu (typu, czyli kategorii, której warto±ci¡ w ró»nych plikach RDF jest wyszukany termin lub fraza). Wyszukiwarki semantyczne tego rodzaju nie dokonuj¡ interpretacji semantycznej zawarto±ci dowolnych stron internetowych w oparciu o semantyczn¡ analiz¦ j¦zyka dokumentu, lecz bazuj¡ na opisie dokonanym przez twórców/ wªa±cicieli dokumentu oraz odwoªaniach do wybranych ontologii wskazanych w nagªówkach plików RDF. W przeciwie«stwie do Hakii i Powerset, wyszukiwarki tego typu przeszukuj¡ sam¡ reprezentacj¦ semantyczn¡ dokumentu, nie dokonuj¡ za± przekªadu tre±ci dokumentu na t¡ reprezentacj¦. T¡ drug¡ cz¦±¢ zadania zrealizowa¢ ma administrator strony. Jak¡ rol¦ maj¡ odgrywa¢ wyszukiwarki semantyczne omawianego typu? Z pewno±ci¡ pomog¡ nam odszuka¢ ontologi¦ do opisu zawarto±ci naszej witryny. Je±li za± chodzi o poszukiwanie informacji, pozwol¡ nam ªatwiej wyselekcjonowa¢ dokumenty zawieraj¡ce interesuj¡cy nas termin w okre±lonej kategorii. Dzi¦ki temu nie dostaniemy w li±cie wyników ª¡czy do dokumentów, które z naszego punktu widzenia b¦d¡ zupeªnie bezwarto±ciowe. Popularyzacja wprowadzania metaopisów do portali internetowych wydaje si¦ odlegª¡ przyszªo±ci¡ z dwóch powodów: po pierwsze, ze wzgl¦du na niech¦¢ webmasterów do takich nowinek, a przede wszystkim z powodu braku wido60 61 62 http://swoogle.umbc.edu/ http://sindice.com/ http://watson.kmi.open.ac.uk/WatsonWUI/ 58 5 Wprowadzenie do sieci semantycznych cznych korzy±ci pªyn¡cych z dodawania takiego metaopisu. Brak korzy±ci z pewno±ci¡ znikn¡ªby z pola widzenia u»ytkowników sieci, gdyby Google zacz¡ª indeksowa¢ zawarto±¢ stron, indeksuj¡c tak»e zawarto±¢ plików RDF. Korzystaj¡c obecnie z wyszukiwarek tego rodzaju nie mo»na liczy¢ na zbyt wiele, ze wzgl¦du na ubóstwo zawarto±ci sieci semantycznej i maª¡ popularno±¢ stosowania semantycznych metaopisów stron internetowych. Funkcjonalno±¢ tych wyszukiwarek semantycznych b¦dzie jednak post¦powaªa wraz z rozwojem sieci semantycznej. Ich problemem nie b¦d¡ »adne ograniczenia zwi¡zane z analiz¡ semantyczn¡ j¦zyków naturalnych, poniewa» do ich zada« nie nale»y interpretacja wyra»e« j¦zykowych - to za± stanowi¢ mo»e jedno z powa»niejszych ogranicze« Hakii i Powerset. Literatura 1. Wyszukiwarki internetowe - dodatkowe funkcje wyszukiwarek. Witryna: http://www.infopoint.pl/pliki/Dodatkowe_funkcje_wyszukiwarek.pdf 2. Eksploracja zasobów internetowych. Analiza struktury, zawarto±ci i u»ytkowania sieci WWW, Zdravko Markov, Daniel T. Larose, PWN, Warszawa, 2009 3. Inteligentne wyszukiwarki Internetowe, Mieczysªaw Kªopotek, Akademicka Ocyna Wydawnicza, Warszawa, 2001 4. Automatic Text Processing: The Transformation Analysis and Retrieval of Information by Computer, Gerard Salton, Addison-Wesley, 1989 5. Web Intelligence, Ning Zhong, Jiming Liu, Yiyu Yao (Eds.) , Springer, 2003 6. B. Danowski, M. Makaruk. Pozycjonowanie I optymalizacja stron WWW. Helion 2009. 7. R. Lieb. Pozycjonowanie w wyszukiwarkach internetowych. Helion 2010. 8. Semantyczna Sie¢: Boty ucz¡ si¦ kojarzy¢. Witryna: http://www.chip.pl/artykuly/porady/2009/06/semantyczna-siec-botyucza-sie-kojarzyc Jedna z najlepszych uczelni w Polsce – wyróżniana przez pracodawców, studentów i media. Od początku swojej działalności zajmuje czołowe miejsce w prestiżowych rankingach uczelni wyższych – wielokrotnie zdobywała pierwsze miejsce w rankingach tygodników „Polityka”, „Wprost” i „Newsweek” oraz Perspektyw/Rzeczpospolitej w kategoriach uczelni technicznych, jak i niepublicznych. PJWSTK jest uczelnią akademicką – Wydział Informatyki posiada uprawnienia do nadawania stopnia doktora oraz doktora habilitowanego w dziedzinie nauk technicznych. Uczelnia prowadzi studia na kierunkach: Architektura Wnętrz – Wydział Sztuki Nowych Mediów studia I stopnia Grafika – Wydział Sztuki Nowych Mediów studia I i II stopnia oraz magisterskie jednolite Informatyka – Wydział Informatyki studia I, II i III stopnia oraz studia podyplomowe Kulturoznawstwo – Wydział Kultury Japonii studia I i II stopnia Główna siedziba znajduje się w samym centrum Warszawy: ul. Koszykowa 86 02–008 Warszawa tel.: 22 584 45 00 www.pjwstk.edu.pl e-mail: [email protected] Ośrodki w Bytomiu i w Gdańsku dopełniają oferty edukacyjnej: Wydział Zamiejscowy Informatyki w Bytomiu Aleja Legionów 2 41–902 Bytom tel.: 32 387 16 60 www.bytom.pjwstk.edu.pl e-mail: [email protected] kierunki: informatyka, grafika Wydział Zamiejscowy Informatyki w Gdańsku Wydział Zamiejscowy Sztuki Nowych Mediów w Gdańsku ul. Brzegi 55 80–045 Gdańsk tel.: 58 683 59 75 www.gdansk.pjwstk.edu.pl e-mail: [email protected] kierunki: informatyka, grafika Zarządzanie – Wydział Zarządzania Informacją studia I stopnia Przy PJWSTK działają także: Akademickie Centrum Szkoleniowe Akademickie Liceum Ogólnokształcące Niepubliczne Liceum Plastyczne Publikacja współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego. 02–008 Warszawa, ul. Koszykowa 86 tel.: 22 58 44 526, fax: 22 58 44 503 e-mail: [email protected] www.wydawnictwo.pjwstk.edu.pl ISBN 978–83–63103–30–9 Egzemplarz bezpłatny Podreczniki akademickie, tom 67 Krzysztof Dobosz Eksploracja Internetu skrypt dla uczestników kursu