Eksploracja Zasobów Internetu
Transkrypt
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu Web spamming web spamming — celowe działanie człowieka mające na celu oszukanie algorytmu rangującego wyszukiwarek interenetowych, tak by oceniały niektóre strony wyżej niż na to zasługują Eksploracja Zasobów Internetu Web spamming web spamming — celowe działanie człowieka mające na celu oszukanie algorytmu rangującego wyszukiwarek interenetowych, tak by oceniały niektóre strony wyżej niż na to zasługują Adversarial information retrieval Spamdexing, Google bombing Eksploracja Zasobów Internetu Web spamming web spamming — celowe działanie człowieka mające na celu oszukanie algorytmu rangującego wyszukiwarek interenetowych, tak by oceniały niektóre strony wyżej niż na to zasługują 8%-13% indexowanych stron (2006) Szacowane straty finansowe spowodowane spamem: 2005 - 50 miliardów $, 2009 -130 miliardów $ N. Spirim, J. Han: Survey on Web Spam Detection: Principles and Algorithms Nowsze badania: http://www.itu.int/ITU-D/cyb/cybersecurity/docs/itu-study-financial-aspects-ofmalware-and-spam.pdf Eksploracja Zasobów Internetu Web spamming web spamming — celowe działanie człowieka mające na celu oszukanie algorytmu rangującego wyszukiwarek interenetowych, tak by oceniały niektóre strony wyżej niż na to zasługują web spamming ? search engine optimization (SEO) Eksploracja Zasobów Internetu Content spamming (lub term spamming) dotyczy umieszczania nierzetelnej informacji w: tytule strony meta-tagach sekcji “body” tekście hiperłącz adresie URL Eksploracja Zasobów Internetu Dwie najbardziej popularne techniki, generowania „sztucznej” zawartości: Wielokrotne powtarzanie wybranych słów kluczowych, aby zwiększyć dopasowanie spam-strony do wybranych zapytań użytkowników (wstawianie potencjalnie popularnych słów do zdań związanych lub niezwiązanych z dziedziną, pozyskanych np. poprzez kopiowanie innych stron WWW) Wrzucanie wielu słów kluczowych luźno związanych z treścią strony, aby zwiększyć dopasowanie tej strony do większej liczby zapytań użytkowników (tworzenie sztucznej treści np. poprzez wstawianie zdań skopiowanych z wielu stron WWW) Eksploracja Zasobów Internetu Link Spamming dotyczy manipulowania hiperłączami, zarówno wychodzącymi z danej spam-strony, jak i wskazującymi na daną spam-stronę. Linki wychodzące – dość łatwo umieścić na stronie dużą liczbę linków do ważnych stron (np. directory cloning) Linki wchodzące – trudniej jest manipulować linkami wskazującymi z innych (obcych) stron na daną. Eksploracja Zasobów Internetu Techniki manipulacji linkami: Utworzenie stron typu honey pot, które będą zawierać (ukryte) linki do spam-strony, której ranking chcemy polepszyć. Atrakcyjność stron honey pot wynika z zamieszczenia na nich informacji użytecznych dla wielu użytkowników sieci (np. listy FAQ lub dokumentację dla popularnych narzędzi). Dodanie linków na daną spam-stronę do (najlepiej kilku) katalogów stron. Eksploracja Zasobów Internetu Techniki manipulacji linkami — c.d.: Wstawianie linków na daną spam-stronę do wypowiedzi zamieszczanych w blogach, dyskusjach na forach, recenzjach, itp. (tzw. user-generated content) Organizacja grupy wzajemnej wymiany linków – kooperacja między ‘spammerami’. Utworzenie własnej spam-farmy. Pozwala na utworzenie dowolnej struktury linków, lecz wymaga kontroli nad większą liczbą witryn. Eksploracja Zasobów Internetu Clik spamming dotyczy technik generowania zapytań do popularnych wyszukiwarek internetowych, aby móc wybierać (click) z listy wyników promowane spam-strony, symulując w ten sposób zainteresowanie prawdziwych użytkowników Click spam działa podobnie jak tzw. Click fraud, ale stosowany jest w innym celu – podniesienia rankingu strony Eksploracja Zasobów Internetu Techniki ukrywania spamu Ukrywanie zawartości Użycie tego samego koloru tekstu co tła <body background = white> <font color = white>spam items</font> … </body> Zamieszczenie ukrytych hiperłącz <a href=“target.html”><img src=“blank.gif”></a> Stosowanie skryptów do ukrycia części strony Eksploracja Zasobów Internetu Cloaking (maskowanie) Zawartość prezentowana wyszukiwarce internetowej jest odmienna od zawartości prezentowanej czytelnikom. Identyfikacja robotów indeksujących na podstawie predefiniowanych list adresów IP wyszukiwarek lub też analizy nagłówka ‘user-agent’. Przekierowywanie Strona prezentowana robotom nie jest widoczna dla użytkowników dzięki użyciu skryptów lub meta-tagu ‘refresh’ (Refresh: 0; url=adres) Eksploracja Zasobów Internetu Zwalczanie spamu ‘Jawny spam’ dość łatwo identyfikować, wykorzystanie skryptów komplikuje sprawę, gdyż ich wykonywanie/analizowanie przez serwisy wyszukujące jest czaso-/kosztochłonne Eksploracja Zasobów Internetu Zwalczanie spamu ‘Jawny spam’ dość łatwo identyfikować, wykorzystanie skryptów komplikuje sprawę, gdyż ich wykonywanie/analizowanie przez serwisy wyszukujące jest czaso-/kosztochłonne Wykorzystanie opisów łącz (ang. ‘anchor text’) do określania tematycznej zawartości stron. PageRank dość dobrze radzi sobie z technikami spamowania zawartości lecz jest w pewnym stopniu podatny na techniki manipulowania linkami wchodzącymi. Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Każda technika spamowania skupia się na jednym lub wielu aspektach wykorzystywanych przez algorytmy rangujące wyszukiwarek W ogólności heurystyki detekcji spamu szukają statystycznych anomalii w cechach stron/witryn obserwowalnych z poziomu wyszukiwarki Detekcja spamu sprowadza się do problemu klasyfikacji Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Wykorzystanie metod uczenia maszynowego, a w szczególności klasyfikatorów. Cechy stron, które mogą być analizowane w klasyfikacji: liczba unikatowych słów na stronie (spam-strony zwykle zawierają ich więcej), średnia długość słowa (dla j. angielskiego =5), która jest często odmienna dla „sztucznych” tekstów, liczba słów w tytule strony (zwykle wyższa dla spamstron), procent zawartości widocznej (często niższy dla spam-stron), ilość tekstu w opisach łącz, podatność na kompresję, itp. Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. “Web spam classification: a few features worth more”, M.Erdélyi, A. Garzó, and A. A. Benczúr , ACM Press 2011 >>we investigate how much various classes of Web spam features, some requiring very high computational effort, add to the classification accuracy. We realize that advances in machine learning, an area that has received less attention in the adversarial IR community, yields more improvement than new features and result in low cost yet accurate spam filters<< Użyte techniki ML: LogitBoost, Random Forests Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Różnicowanie ważności słów kluczowych i linków występujących na stronie w zależności od ich położenia. Najczęściej linki są umieszczane na spodzie stron typu ‘honey pot’ czy stron uczestniczących we wzajemnej wymianie linków. Algorytmy segmentacji dokumentów Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Wykorzystanie obserwacji, że wartościowe strony i spam-strony tworzą odseparowane obszary sieci Web; strony wysokiej jakości rzadko wskazują na spam-strony, zaś spam-strony często wskazują na strony wartościowe. Algorytmy grafowe – Web Structure Mining Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Wykorzystanie informacji i powiązań z serwisami społecznościowymi ‘Mutually Reinforcing Spam Detection on Twitter and Web’ Nikita Spirin, 2011 Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Wykorzystanie informacji i powiązań z serwisami społecznościowymi Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google Panda (luty 2011) algorytm nastawiony na zmarginalizowanie znaczenia treści powielonych na wielu stronach i treści nieoryginalnych (np. przedruki na wielu stronach, kopiowane opisy produktów, ta sama informacja prasowa w wielu serwisach). Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google Panda (luty 2011) algorytm nastawiony na zmarginalizowanie znaczenia treści powielonych na wielu stronach i treści nieoryginalnych (np. przedruki na wielu stronach, kopiowane opisy produktów, ta sama informacja prasowa w wielu serwisach). Cel: zniwelowanie działania farm treści i ‘scraperów’ chwilowy (?) efekt uboczny: osiąganie przez duplikaty wyższych pozycji niż strony oryginalne Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google Panda 23/24 lutego 2011 Panda dla serwisów i użytkowników w USA Kwiecień 2011 panda dla wszystkich domen anglojęzycznych (ccTLD) Od sierpnia 2011 – stopniowe wprowadzanie dla innych języków (prócz chińskiego, japońskiego i koreańskiego) Od lipca 2012 dla języków azjatyckich Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google Penguin (kwiecień 2012) algorytm nastawiony na karanie serwisów, które stosują techniki spamerskie Cel: zwalczanie spamu w sieci Web Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google Penguin prawdopodobnie nacisk na wykrywanie: optymalizowania tekstów odnośników (treści tagu <a>) pod popularne zapytania optymalizowania nazw domen pod popularne zapytania (exact match domains) spamowania na serwisach społecznościowych/blogach 'upychania' słów kluczowych (keyword stuffing) w linkach Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google deklaruje, że Panda 1.0 wpłynęła na wyniki ~12% zapytań kierowanych do ich wyszukiwarki, Penguin zaś na ok. 3.1% zapytań Oba algorytmy są uruchamiane okresowo (nieregularnie) Penguin w 2012: 24 kwietnia (~3.1%), 26 maja (<0.1%), 5 października (~0.3%) Penguin 2.0 w 2013: 2 maja 2013 (2.3%), 4 października−ver. 2.1 (~1%) Wyniki działania kolejnych edycji mają być coraz bardziej precyzyjne Eksploracja Zasobów Internetu 1. Panda 1.0 (aka the Farmer Update) on February 24th 2011 2. Panda 2.0 on April 11th 2011. (Panda impacts all English speaking countries) 3. Panda 2.1 on May 9th 2011 or so 4. Panda 2.2 on June 18th 2011 or so. 5. Panda 2.3 on around July 22nd 2011. 6. Panda 2.4 in August 2011(Panda goes international) 7. Panda 2.5 on September 28th 2011 8. Panda 2.5.1 on October 9th 2011 9. Panda 2.5.2 on October 13th 2011 10. Panda 2.5.3 on October 19/20th 2011 11. Panda 3.1 on November 18th 2011 12. Panda 3.2 on about January 15th 2012 13. Panda 3.3 on about February 26th 2012 14. Panda 3.4 on March 23rd 2012 15. Panda 3.5 on April 19th 2012 16. Panda 3.6 on April 27th 2012 17. Panda 3.7 on June 8th 2012 18. Panda 3.8 on June 25th 2012 19. Panda 3.9 on July 24th 2012 20. Panda 3.9.1 on August 20th 2012 21. Panda 3.9.2 on September 18th 2012 22. Panda Update #20 on September 27 2012 (overlapped the EMD Update) 23. Panda #21 on November 5th 2012 24. Panda #22 on December 4th 2012 25. Panda #23 on December 21st 2012 26. Panda #24 on January 22nd 2013 27. Panda #25 on March 25th 2013 Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Inne działania Google - kwiecień 2012 Zapowiedź obniżenia wartości tzw. ‘nieorganicznych’ (nienaturalnych) linków: pochodzących z „farm linków” pochodzących z sieci wymiany linków wszelkich innych, które noszą znamiona linków płatnych (w szczególności otagowanych tekstem w postaci popularnych słów kluczowych) Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. Google’s dreadful message źródło: searchenginewatch.com Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. W październiku 2012 Matt Cutts poinformował o nowym narzędziu dla webmasterów (tool to disavow links), które umożliwia przekazanie do Google w prostym pliku tekstowym listy adresów serwisów (lub pojedynczych stron), z których linki do naszych stron uznajemy za niewartościowe Przykładowa treść pliku: # Contacted owner of spamdomain1.com on 7/1/2012 to # ask for link removal but got no response domain:spamdomain1.com # Owner of spamdomain2.com removed most links, but missed these http://www.spamdomain2.com/contentA.html http://www.spamdomain2.com/contentB.html http://www.spamdomain2.com/contentC.html Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. W październiku 2012 Matt Cutts poinformował o nowym narzędziu dla webmasterów (tool to disavow links), które umożliwia przekazanie do Google w prostym pliku tekstowym listy adresów serwisów (lub pojedynczych stron), z których linki do naszych stron uznajemy za niewartościowe Z punktu widzenia Google jest to bardzo prosta metoda zaangażowania tysięcy (?) darmowych redaktorów (human editors) do wskazania spamerskich serwisów Eksploracja Zasobów Internetu Zwalczanie spamu – c.d. W czerwcu 2013 Google ogłosił wprowadzanie nowych technik do walki ze spamem związanym z pewną grupą konkretnych zapytań − spam algorithm aka Payday Loan algorithm >> Matt said that this impacts about 0.3% of U.S. queries but up to 4% or so of Turkish queries where spam is a larger part of the index there. Matt also added that the techniques targeted here are often "illegal" tactics that he won't discuss<< https://www.seroundtable.com/global-googlealgorithms-18896.html Eksploracja Zasobów Internetu Google’s Hummingbird > nowy algorytm wyszukiwania/rangowania: >90% zapytań (ostatnia tak poważna zmiana miała ponoć miejsce w 2001r.) > oparty na dawnych kryteriach oceny stron (searchengineland.com/seotable – Preiodic Table of SEO) > ogłoszony 26 września 2013 r. (uruchomiony ponoć ok. miesiąc wcześniej) > kładzie nacisk na semantykę zapytań Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Knowledge graph > start w 2012 > bazuje na Schema.org alliance (Google, Microsoft, Yahoo - 2011) > dane ustrukturalizowane – możliwość umieszczenia odpowiedzi na zapytania użytkowników bezpośrednio na stronach SERP (reach snippets – fragmenty rozszerzone, oznaczanie treści z wyk. mikroformatów, mikrodanych lub standardu RDF) > lepsze „zrozumienie” intencji/znaczenia ukrytych w zapytaniach (semantic search) > Freebase, Wikipedia, CIA World Factbook, inne, częste zapytania > start w Polsce – maj 2013 Eksploracja Zasobów Internetu Fragmenty rozszerzone Obecnie fragmenty rozszerzone wyświetlają się w przypadku przepisów kulinarnych, opinii, produktów, zdarzeń i osób. Znaczniki filmów są rozpoznawane i używane do poprawnego pobierania oraz indeksowania materiałów wideo. Znaczniki organizacji nie są używane we fragmentach rozszerzonych – Google wykorzystuje je w innych elementach w wyszukiwarce https://support.google.com/webmasters/answer/1093493 Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu