PageRank – intuicja: “strona jest tak ważna jak ważne są strony
Transkrypt
PageRank – intuicja: “strona jest tak ważna jak ważne są strony
Eksploracja Zasobów Internetu PageRank – intuicja: “strona jest tak ważna jak ważne są strony, które na nią wskazują” (Google) Eksploracja Zasobów Internetu Konstrukcja M − Macierzy Stochastycznej dla sieci Web Dla każdej strony i, której odpowiada rząd i oraz kolumna i macierzy M : M [i, j] = 1/n jeżeli strona j posiada odnośniki do n stron, włączając w to stronę i ; M [i, j] = 0 jeżeli strona j nie posiada odnośników do strony i Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu An art draw drawn by Felipe Micaroni Lalli Źródło: https://commons.wikimedia.org/wiki/File:PageRank-byFML.gif Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu W ostatnich latach uaktualniany w sposób „ciągły”, ujawniany co 2-3 miesiące Od lutego 2013 aktualizacja nie jest ujawniana Eksploracja Zasobów Internetu Modyfikacje PageRanku Hilltop (uwzględnia tzw. local score) [2000] BlockRank [2003], Personalised PageRank (wiele wariantów), TrustRank [2004], … Eksploracja Zasobów Internetu PageRank Model ten jest analogiczny do random walk model, kiedy użytkownik przechodzi ze strony na stronę klikając losowo wybrany odnośnik. Od czasu do czasu użytkownik nudzi się i przeskakuje do losowej strony. Współczynnik damping factor odbiera każdej ze stron pewien procent wartości jej ważności dodając tę samą stałą wartość wszystkim stronom (spider traps i leaks) Wartość PageRank strony jest proporcjonalna do prawdopodobieństwa odwiedzenia tej strony przez losowego użytkownika, który śledzi losowe odnośniki. Eksploracja Zasobów Internetu PageRank Sculpting Zabiegi twórców witryn, mające na celu takie rozmieszczenie linków wewnętrznych, aby podwyższyć ranking wybranych (strategicznych) stron. Tradycyjnie – manipulowanie atrybutem nofollow Eksploracja Zasobów Internetu PageRank Sculpting Zabiegi twórców witryn, mające na celu takie rozmieszczenie linków wewnętrznych, aby podwyższyć ranking wybranych (strategicznych) stron. Tradycyjnie – manipulowanie atrybutem nofollow >>more effective form of PageRank sculpting is choosing, for example, which things to link to from your home page<< Matt Cutts, 2009 Eksploracja Zasobów Internetu 200 Google’s ranking factors: • • • • • • • • Presence of search term in HTML title tag Presence of search term in HTML body Use of bold around search term Use of header tags around search term Presence of search term in anchor text leading to page PageRank of a page PageRank / authority of an entire domain Speed of web site Eksploracja Zasobów Internetu "Does pagerank still matter? The short answer is yes, but does it matter for search engine rankings? I would say no…" (http://www.turbosocialmedia.com 2011) "... if PR wasn’t still a central factor in Google’s algorithm – or as Google puts it, ‘the basis of their technology’ — why would they go to all this trouble to hide it?" (http://www.psmdigital.com 2011) Eksploracja Zasobów Internetu What does matter? obtaining creating quality external links quality content fixing bad page titles social media Eksploracja Zasobów Internetu Obszerna lista skompilowana przez ekspertów spoza Google http://www.webmasterworld.com/google/4030020.htm Eksploracja Zasobów Internetu Domain > Age of Domain > History of domain > KWs in domain name > Sub domain or root domain? > TLD of Domain (gov, edu, com ) > IP address of domain > Location of IP address / Server Eksploracja Zasobów Internetu Architecture > HTML structure > Use of Headers tags > URL path > Use of external CSS / JS files Eksploracja Zasobów Internetu Content > Keyword (KW) density of page > KW in (the beggining of) Title Tag > KW in Meta Description (not meta keywords) > KW in (the beggining of) header tags (H1) > KW in (the beggining of) header tags (H2-H6) > KW in body text (and its formatting) > Freshness of content Eksploracja Zasobów Internetu Per Inbound Link > Quality of website linking in > Quality of web page linking in > Age of website > Age of web page > Relevancy of page’s content Eksploracja Zasobów Internetu Per Inbound Link – cont. > Location of link (Footer, Navigation, Body text) > Anchor text of link > Title attribute of link > Alt tag of images linking > Country specific TLD domain > Authority TLD (.edu, .gov) > Location of server > Authority Link (CNN, BBC, etc) Eksploracja Zasobów Internetu Internal Cross Linking > Number of internal links to page > Location of link on page > Anchor text of the FIRST text link (having the same anchor text) Eksploracja Zasobów Internetu Penalties > Over Optimisation > Purchasing Links > Selling Links > Comment Spamming > Cloaking > Hidden Text > Duplicate Content > Keyword stuffing Eksploracja Zasobów Internetu Penalties – cont. > Manual penalties > Sandbox effect > History of past penalties for this domain > History of past penalties for this owner Eksploracja Zasobów Internetu Miscellaneous > JavaScript Links > No Follow Links > Link density (percentage of words on the page are linked words. Page that's all links is bad. More words that are not links is a general indication of more "real" content on a page) Other > Performance / Load of a website > Speed of JS Eksploracja Zasobów Internetu Outbound links Reboot created 10 new websites each targeting the same keyword, only half of which included links to high authority sites. After five months it was concluded that, “Outgoing relevant links to authoritative sites are considered in the algorithms and do have a positive impact on rankings.” https://searchenginewatch.com/2016/11/02/ Eksploracja Zasobów Internetu Google’s Hummingbird (wrzesień 2013) > Support mobile searches > Support converstional searches > Make use of the knowledge graph > Better find relevant pages "hidden" in their websites Więcej podczas wykładu nt. Web spamming