PageRank – intuicja: “strona jest tak ważna jak ważne są strony

Transkrypt

PageRank – intuicja: “strona jest tak ważna jak ważne są strony
Eksploracja Zasobów Internetu
PageRank – intuicja: “strona jest tak
ważna jak ważne są strony, które na
nią wskazują” (Google)
Eksploracja Zasobów Internetu
Konstrukcja M − Macierzy Stochastycznej
dla sieci Web
Dla każdej strony i, której odpowiada rząd i oraz
kolumna i macierzy M :
 M [i, j] = 1/n jeżeli strona j posiada odnośniki do n
stron, włączając w to stronę i ;
 M [i, j] = 0 jeżeli strona j nie posiada odnośników do
strony i
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
An art draw drawn by Felipe Micaroni Lalli
Źródło: https://commons.wikimedia.org/wiki/File:PageRank-byFML.gif
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
W ostatnich latach uaktualniany w sposób „ciągły”,
ujawniany co 2-3 miesiące
Od lutego 2013 aktualizacja nie jest ujawniana
Eksploracja Zasobów Internetu
Modyfikacje PageRanku
Hilltop (uwzględnia tzw. local score) [2000]
BlockRank [2003],
Personalised PageRank (wiele wariantów),
TrustRank [2004],
…
Eksploracja Zasobów Internetu
PageRank
 Model ten jest analogiczny do random walk model, kiedy
użytkownik przechodzi ze strony na stronę klikając
losowo wybrany odnośnik. Od czasu do czasu użytkownik
nudzi się i przeskakuje do losowej strony.
 Współczynnik damping factor odbiera każdej ze stron
pewien procent wartości jej ważności dodając tę samą
stałą wartość wszystkim stronom (spider traps i leaks)
 Wartość
PageRank strony jest proporcjonalna do
prawdopodobieństwa odwiedzenia tej strony przez
losowego użytkownika, który śledzi losowe odnośniki.
Eksploracja Zasobów Internetu
PageRank Sculpting
Zabiegi twórców witryn, mające na celu takie
rozmieszczenie linków wewnętrznych, aby
podwyższyć ranking wybranych
(strategicznych) stron.
Tradycyjnie – manipulowanie atrybutem
nofollow
Eksploracja Zasobów Internetu
PageRank Sculpting
Zabiegi twórców witryn, mające na celu takie
rozmieszczenie linków wewnętrznych, aby
podwyższyć ranking wybranych
(strategicznych) stron.
Tradycyjnie – manipulowanie atrybutem
nofollow
>>more effective form of PageRank
sculpting is choosing, for example, which
things to link to from your home page<<
Matt Cutts, 2009
Eksploracja Zasobów Internetu
200 Google’s ranking factors:
•
•
•
•
•
•
•
•
Presence of search term in HTML title tag
Presence of search term in HTML body
Use of bold around search term
Use of header tags around search term
Presence of search term in anchor text
leading to page
PageRank of a page
PageRank / authority of an entire domain
Speed of web site
Eksploracja Zasobów Internetu
"Does pagerank still matter? The short answer
is yes, but does it matter for search engine
rankings? I would say no…"
(http://www.turbosocialmedia.com 2011)
"... if PR wasn’t still a central factor in
Google’s algorithm – or as Google puts it, ‘the
basis of their technology’ — why would they
go to all this trouble to hide it?"
(http://www.psmdigital.com 2011)
Eksploracja Zasobów Internetu
What does matter?
 obtaining
 creating
quality external links
quality content
 fixing
bad page titles
 social
media
Eksploracja Zasobów Internetu
Obszerna lista skompilowana przez
ekspertów spoza Google
http://www.webmasterworld.com/google/4030020.htm
Eksploracja Zasobów Internetu
Domain
> Age of Domain
> History of domain
> KWs in domain name
> Sub domain or root domain?
> TLD of Domain (gov, edu,
com
)
> IP address of domain
> Location of IP address / Server
Eksploracja Zasobów Internetu
Architecture
> HTML structure
> Use of Headers tags
> URL path
> Use of external CSS / JS files
Eksploracja Zasobów Internetu
Content
> Keyword (KW) density of page
> KW in (the beggining of) Title Tag
> KW in Meta Description (not meta keywords)
> KW in (the beggining of) header tags (H1)
> KW in (the beggining of) header tags (H2-H6)
> KW in body text (and its formatting)
> Freshness of content
Eksploracja Zasobów Internetu
Per Inbound Link
> Quality of website linking in
> Quality of web page linking in
> Age of website
> Age of web page
> Relevancy of page’s content
Eksploracja Zasobów Internetu
Per Inbound Link – cont.
> Location of link (Footer, Navigation, Body text)
> Anchor text of link
> Title attribute of link
> Alt tag of images linking
> Country specific TLD domain
> Authority TLD (.edu, .gov)
> Location of server
> Authority Link (CNN, BBC, etc)
Eksploracja Zasobów Internetu
Internal Cross Linking
> Number of internal links to page
> Location of link on page
> Anchor text of the FIRST text link
(having the same anchor text)
Eksploracja Zasobów Internetu
Penalties
> Over Optimisation
> Purchasing Links
> Selling Links
> Comment Spamming
> Cloaking
> Hidden Text
> Duplicate Content
> Keyword stuffing
Eksploracja Zasobów Internetu
Penalties – cont.
> Manual penalties
> Sandbox effect
> History of past penalties for this domain
> History of past penalties for this owner
Eksploracja Zasobów Internetu
Miscellaneous
> JavaScript Links
> No Follow Links
> Link density (percentage of words on the page
are linked words. Page that's all links is bad. More
words that are not links is a general indication of
more "real" content on a page)
Other
> Performance / Load of a website
> Speed of JS
Eksploracja Zasobów Internetu
Outbound links
Reboot created 10 new websites each targeting the same
keyword, only half of which included links to high authority
sites. After five months it was concluded that, “Outgoing
relevant links to authoritative sites are considered in the
algorithms and do have a positive impact on rankings.”
https://searchenginewatch.com/2016/11/02/
Eksploracja Zasobów Internetu
Google’s Hummingbird (wrzesień 2013)
> Support mobile searches
> Support converstional searches
> Make use of the knowledge graph
> Better find relevant pages "hidden" in their
websites
Więcej podczas wykładu nt. Web spamming