Page Rank

Transkrypt

Page Rank
PageRank i HITS
Mikołajczyk Grzegorz
PageRank
Metoda nadawania indeksowanym stronom internetowym
określonej wartości liczbowej, oznaczającej jej jakość.
Algorytm PageRank jest wykorzystywany przez popularną
wyszukiwarkę internetową Google. Został opracowany
przez założycieli firmy Google Larry'ego Page'a i
Sergeya Brina podczas ich studiów na Uniwersytecie
Stanforda w 1998 roku. Nazwa algorytmu pochodzi nie
od angielskiego wyrazu określającego stronę (ang.
page), lecz od nazwiska twórcy, czyli Larry'ego Page'a.
Pochodzenie
PageRank jest rozwinięciem znanej od dawna
heurystyki, wedle której jakość tekstu jest
proporcjonalna do liczby tekstów na niego się
powołujących. Ulepszenie zaproponowane przez
autorów Google polegało na ważeniu jakości
odnośników wskazujących na rozpatrywany tekst
ich własną wartością PageRank. Innymi słowy: jeśli
na dany tekst powołuje się artykuł, który sam ma
wysoką ocenę, ma to większe znaczenie, niż gdy
na ten sam tekst powołuje się mało popularna
strona.
Algorytm
Szczegóły właściwego algorytmu nigdy nie zostały
upublicznione i są jednymi ze ściśle strzeżonych
tajemnic Google. Do tego są najprawdopodobniej
sukcesywnie poprawiane, aby zwiększać efektywność
mechanizmu. Wszystkie informacje dostępne jawnie
przedstawiają jedynie wzorcową wersję algorytmu
stosowanego w wyszukiwarce Google
Składowe wzoru algorytmu
●
●
●
●
PR - PageRank danej strony
d - współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla
obliczeń przyjmuje się zazwyczaj wartość 0.85
N - liczba stron internetowych
L - liczba linków do których odsyła dana strona
internetowa
Algorytm ten można interpretować jako znajdowanie
stanu ustalonego w łańcuchu Markowa, albo jako
problem diagonalizacji macierzy. Nietrywialną kwestią
techniczną pozostaje implementacja tego algorytmu,
aby nadawał się do przetwarzania danych opisujących
sieć WWW.
Przykład
Problem mamy taki jak na
rysunki czyli mamy 4 strony
które wzajemnie na siebie
linkują zgodnie z rysunkiem.
PageRank początkowe
każdej strony ustalamy na
1. A współczynnik d na 0,85
Rozwiązanie
0/10 0.15 0.9
1/10 0.9 5.4
2/10 5.4 32.4
3/10 32.4 194.4
4/10 194.4 1,166.4
5/10 1,166.4 6,998.4
6/10 6,998.4 41,990.4
7/10 41,990.4 251,942.4
8/10 251,942.4 1,511,654.4
9/10 1,511,654.4 9,069,926.4
10/10 9,069,926.4 0.85 ? N + 0.15
Google Toolbar
Istniej wiele sposobów na sprawdzanie notowania
PageRank aktualnie przeglądanej strony lub dowolnej
strony która została podana jako wynik wyszukiwania
wyszukiwarki.
Jednym z sposobów są wtyczki do przeglądarek.
Google
Toolbar
to
wtyczka
do
przeglądarek
internetowych, oferowana bezpłatnie przez Google Inc.,
instalująca dodatkowy pasek narzędziowy.
UWAGA
Należy zwrócić uwagę, iż w zamian za darmowe
oprogramowanie użytkownik zgadza się na śledzenie
jego poczynań w sieci oraz wysyłanie danych ze
swojego komputera.
open source
Istnieją też liczne wtyczki otwartego oprogramowania,
spełniające analogiczne funkcje, m.in. googlebar
dla Firefoksa.
PageRank strony sprawdzać można również w wielu
serwisach niezależnych np.:
● http://www.page-rank.pl/
● http://www.ranking.net.pl/pagerank.html
● http://www.optymalizacja.com/pagerank.php
● http://www.pageranktester.pl/sprawdzpagerank.html
● http://pagerank.kz1.pl/index.php
Serwisy niezależne
Serwisy różnią się między sobą kilkoma rzeczami np.:
● możliwością wpisywania stron z parametrami
● szybkością
● wynikami
● sposobem podawania adresu strony
● szata graficzną
● funkcjami dodatkowymi itp.
Poprawianie PageRank
Od czasu do czasu powstają i pojawiają się w internecie
kolejne techniki oszukiwania Google. Ale istnieje
również wiele stałych i sprawdzonych sposobów
podniesienia PR swojej strony np.:
●
●
●
●
Wymiana linków
Danie użytkownikom możliwość komentowania
artykułów i dzielenia się nimi poprzez serwisy
społecznościowe
Pisanie artykułów i umieszczanie pod nimi linków do
swojej strony jako źródła informacji
Tworzenie dobrze opisanych banrów
HITS
HITS - algorytm opracowany przez Jona Kleinberga
w 1998 z myślą o silniku przeszukującym pod
nazwą CLEVER, wykorzystywany do oceny
relatywności tekstu względem termu.
Algorytm HITS zakłada, że dokumenty w zbiorze są
ze sobą nawzajem połączone, tworząc pewnego
rodzaju graf skierowany. W grafie tym węzłami są
dokumenty, a krawędziami odnośniki. Krawędzie są
skierowane w taki sposób, aby wskazywały na
element cytowany, a wychodziły z elementu
cytującego. Same założenia modelu wskazują na
naturalne wykorzystanie go odnośnie dokumentów
Idee algorytmu
Algorytm HITS opiera się na dwóch ideach:
autorytetu (ang. authority) i koncentratora (ang.
hub). Dokumentem autorytatywnym (autorytetem)
jest dokument cytowany wskazywany, taki, na który
wskazuje wiele dokumentów (wiele dokumentów
cytuje ten dokument). Koncentratorem jest
dokument cytujący, który wskazuje na dokumenty
autorytarne (dokument cytuje wiele ważnych
dokumentów).
Ulepszenia
W trakcie obserwacji zauważono, że autorytatywne
strony relewantne do początkowego zapytania
powinny mieć nie tylko dużą liczbę odnośników, ale
będąc autorytetami we wspólnym temacie, powinno
istnieć znaczne pokrycie w zbiorze stron, które do
nich odsyłają. Dlatego oprócz wyszukania wysoce
autorytatywnych stron, spodziewano się znaleźć
koncentratory, czyli strony, które mają odnośniki do
wielu autorytatywnych stron. To właśnie
koncentratory trzymają razem autorytety we
wspólnym temacie i pozwalają pozbyć się
niepowiązanych stron z dużą liczbą odnośników.
Podgraf
Koncentratory i autorytety wykazują wzajemny, obopólnie
wzmacniający związek (ang. mutually reinforcing
relationship). Dobry koncentrator to strona, która
wskazuje do wielu dobrych autorytetów. Dobry
autorytet to strona, która jest wskazywana przez wiele
dobrych koncentratorów. Autor zauważył, że rezultaty
uzyskane poprzez czystą analizę struktury odsyłaczy
dają o wiele lepsze rezultaty, niż wyszukiwarki oparte
na przeszukiwaniu tekstu. W tym przypadku zastąpiono
globalną analizę całej struktury odsyłaczy w WWW
bardziej lokalną metodą analizy małego skupionego
podgrafu.
Technika konstruowania podgrafu jest zaprojektowana do
uzyskania małego zbioru stron, który
najprawdopodobniej zawiera najbardziej autorytatywne
strony dla danego tematu.
Ostatecznym wynikiem działania algorytmu jest lista
węzłów i autorytetów z największymi współczynnikami
poprawności.
KONIEC
Przydatne linki:
●
●
●
●
●
●
http://pl.wikipedia.org/wiki/%C5%81a%C5%84cuch_Markow
a
http://pl.wikipedia.org/wiki/Diagonalizacja
http://pl.wikipedia.org/wiki/Google_Toolbar
http://en.wikipedia.org/wiki/Jon_Kleinberg
http://pl.wikipedia.org/wiki/Graf_%28matematyka%29
https://addons.mozilla.org/pl/firefox/addon/googlebar/

Podobne dokumenty