Page Rank
Transkrypt
Page Rank
PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną wyszukiwarkę internetową Google. Został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku. Nazwa algorytmu pochodzi nie od angielskiego wyrazu określającego stronę (ang. page), lecz od nazwiska twórcy, czyli Larry'ego Page'a. Pochodzenie PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. Ulepszenie zaproponowane przez autorów Google polegało na ważeniu jakości odnośników wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż gdy na ten sam tekst powołuje się mało popularna strona. Algorytm Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej sukcesywnie poprawiane, aby zwiększać efektywność mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google Składowe wzoru algorytmu ● ● ● ● PR - PageRank danej strony d - współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla obliczeń przyjmuje się zazwyczaj wartość 0.85 N - liczba stron internetowych L - liczba linków do których odsyła dana strona internetowa Algorytm ten można interpretować jako znajdowanie stanu ustalonego w łańcuchu Markowa, albo jako problem diagonalizacji macierzy. Nietrywialną kwestią techniczną pozostaje implementacja tego algorytmu, aby nadawał się do przetwarzania danych opisujących sieć WWW. Przykład Problem mamy taki jak na rysunki czyli mamy 4 strony które wzajemnie na siebie linkują zgodnie z rysunkiem. PageRank początkowe każdej strony ustalamy na 1. A współczynnik d na 0,85 Rozwiązanie 0/10 0.15 0.9 1/10 0.9 5.4 2/10 5.4 32.4 3/10 32.4 194.4 4/10 194.4 1,166.4 5/10 1,166.4 6,998.4 6/10 6,998.4 41,990.4 7/10 41,990.4 251,942.4 8/10 251,942.4 1,511,654.4 9/10 1,511,654.4 9,069,926.4 10/10 9,069,926.4 0.85 ? N + 0.15 Google Toolbar Istniej wiele sposobów na sprawdzanie notowania PageRank aktualnie przeglądanej strony lub dowolnej strony która została podana jako wynik wyszukiwania wyszukiwarki. Jednym z sposobów są wtyczki do przeglądarek. Google Toolbar to wtyczka do przeglądarek internetowych, oferowana bezpłatnie przez Google Inc., instalująca dodatkowy pasek narzędziowy. UWAGA Należy zwrócić uwagę, iż w zamian za darmowe oprogramowanie użytkownik zgadza się na śledzenie jego poczynań w sieci oraz wysyłanie danych ze swojego komputera. open source Istnieją też liczne wtyczki otwartego oprogramowania, spełniające analogiczne funkcje, m.in. googlebar dla Firefoksa. PageRank strony sprawdzać można również w wielu serwisach niezależnych np.: ● http://www.page-rank.pl/ ● http://www.ranking.net.pl/pagerank.html ● http://www.optymalizacja.com/pagerank.php ● http://www.pageranktester.pl/sprawdzpagerank.html ● http://pagerank.kz1.pl/index.php Serwisy niezależne Serwisy różnią się między sobą kilkoma rzeczami np.: ● możliwością wpisywania stron z parametrami ● szybkością ● wynikami ● sposobem podawania adresu strony ● szata graficzną ● funkcjami dodatkowymi itp. Poprawianie PageRank Od czasu do czasu powstają i pojawiają się w internecie kolejne techniki oszukiwania Google. Ale istnieje również wiele stałych i sprawdzonych sposobów podniesienia PR swojej strony np.: ● ● ● ● Wymiana linków Danie użytkownikom możliwość komentowania artykułów i dzielenia się nimi poprzez serwisy społecznościowe Pisanie artykułów i umieszczanie pod nimi linków do swojej strony jako źródła informacji Tworzenie dobrze opisanych banrów HITS HITS - algorytm opracowany przez Jona Kleinberga w 1998 z myślą o silniku przeszukującym pod nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu. Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na element cytowany, a wychodziły z elementu cytującego. Same założenia modelu wskazują na naturalne wykorzystanie go odnośnie dokumentów Idee algorytmu Algorytm HITS opiera się na dwóch ideach: autorytetu (ang. authority) i koncentratora (ang. hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów cytuje ten dokument). Koncentratorem jest dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych dokumentów). Ulepszenia W trakcie obserwacji zauważono, że autorytatywne strony relewantne do początkowego zapytania powinny mieć nie tylko dużą liczbę odnośników, ale będąc autorytetami we wspólnym temacie, powinno istnieć znaczne pokrycie w zbiorze stron, które do nich odsyłają. Dlatego oprócz wyszukania wysoce autorytatywnych stron, spodziewano się znaleźć koncentratory, czyli strony, które mają odnośniki do wielu autorytatywnych stron. To właśnie koncentratory trzymają razem autorytety we wspólnym temacie i pozwalają pozbyć się niepowiązanych stron z dużą liczbą odnośników. Podgraf Koncentratory i autorytety wykazują wzajemny, obopólnie wzmacniający związek (ang. mutually reinforcing relationship). Dobry koncentrator to strona, która wskazuje do wielu dobrych autorytetów. Dobry autorytet to strona, która jest wskazywana przez wiele dobrych koncentratorów. Autor zauważył, że rezultaty uzyskane poprzez czystą analizę struktury odsyłaczy dają o wiele lepsze rezultaty, niż wyszukiwarki oparte na przeszukiwaniu tekstu. W tym przypadku zastąpiono globalną analizę całej struktury odsyłaczy w WWW bardziej lokalną metodą analizy małego skupionego podgrafu. Technika konstruowania podgrafu jest zaprojektowana do uzyskania małego zbioru stron, który najprawdopodobniej zawiera najbardziej autorytatywne strony dla danego tematu. Ostatecznym wynikiem działania algorytmu jest lista węzłów i autorytetów z największymi współczynnikami poprawności. KONIEC Przydatne linki: ● ● ● ● ● ● http://pl.wikipedia.org/wiki/%C5%81a%C5%84cuch_Markow a http://pl.wikipedia.org/wiki/Diagonalizacja http://pl.wikipedia.org/wiki/Google_Toolbar http://en.wikipedia.org/wiki/Jon_Kleinberg http://pl.wikipedia.org/wiki/Graf_%28matematyka%29 https://addons.mozilla.org/pl/firefox/addon/googlebar/