Eksploracja Zasobów Internetu

Transkrypt

Web spamming
web spamming — celowe działanie człowieka mające na
celu oszukanie algorytmu rangującego wyszukiwarek
interenetowych, tak by oceniały niektóre strony wyżej
niż na to zasługują
Web spamming
Adversarial information retrieval
Spamdexing, Google bombing
Web spamming
8%-13% indexowanych stron (2006)
Szacowane straty finansowe spowodowane spamem:
2005 - 50 miliardów $, 2009 -130 miliardów $
N. Spirim, J. Han: Survey on Web Spam Detection: Principles and Algorithms
Nowsze badania:
http://www.itu.int/ITU-D/cyb/cybersecurity/docs/itu-study-financial-aspects-ofmalware-and-spam.pdf
Web spamming
web spamming
?
search engine optimization (SEO)
Content spamming (lub term spamming) dotyczy
umieszczania nierzetelnej informacji w:





tytule strony
meta-tagach
sekcji “body”
tekście hiperłącz
adresie URL
Dwie najbardziej popularne techniki, generowania
„sztucznej” zawartości:
 Wielokrotne
powtarzanie
wybranych
słów
kluczowych, aby zwiększyć dopasowanie spam-strony
do wybranych zapytań użytkowników
(wstawianie potencjalnie popularnych słów do zdań
związanych
lub
niezwiązanych
z
dziedziną,
pozyskanych np. poprzez kopiowanie innych stron
WWW)
 Wrzucanie wielu słów kluczowych luźno związanych
z treścią strony, aby zwiększyć dopasowanie tej
strony do większej liczby zapytań użytkowników
(tworzenie sztucznej treści np. poprzez wstawianie
zdań skopiowanych z wielu stron WWW)
Link Spamming dotyczy manipulowania hiperłączami,
zarówno wychodzącymi z danej spam-strony, jak
i wskazującymi na daną spam-stronę.
Linki wychodzące – dość łatwo umieścić na stronie dużą
liczbę linków do ważnych stron (np. directory cloning)
Linki wchodzące – trudniej jest manipulować linkami
wskazującymi z innych (obcych) stron na daną.
Techniki manipulacji linkami:
 Utworzenie stron typu honey pot, które będą
zawierać (ukryte) linki do spam-strony, której
ranking chcemy polepszyć. Atrakcyjność stron
honey pot wynika z zamieszczenia na nich
informacji użytecznych dla wielu użytkowników
sieci (np. listy FAQ lub dokumentację dla
popularnych narzędzi).
 Dodanie linków na daną spam-stronę do (najlepiej
kilku) katalogów stron.
Techniki manipulacji linkami — c.d.:
 Wstawianie linków na daną spam-stronę do
wypowiedzi zamieszczanych w blogach, dyskusjach
na forach, recenzjach, itp. (tzw. user-generated
content)
 Organizacja grupy wzajemnej wymiany linków –
kooperacja między ‘spammerami’.
 Utworzenie własnej spam-farmy. Pozwala na
utworzenie dowolnej struktury linków, lecz
wymaga kontroli nad większą liczbą witryn.
Clik spamming dotyczy technik generowania zapytań
do popularnych wyszukiwarek internetowych, aby
móc wybierać (click) z listy wyników promowane
spam-strony, symulując w ten sposób zainteresowanie
prawdziwych użytkowników
Click spam działa podobnie jak tzw. Click fraud, ale
stosowany jest w innym celu – podniesienia rankingu
strony
Techniki ukrywania spamu
Ukrywanie zawartości
Użycie tego samego koloru tekstu co tła
<body background = white>
<font color = white>spam items</font>
…
</body>
Zamieszczenie ukrytych hiperłącz
<a href=“target.html”><img src=“blank.gif”></a>
Stosowanie skryptów do ukrycia części strony
Cloaking (maskowanie)
Zawartość prezentowana wyszukiwarce internetowej
jest
odmienna
od
zawartości
prezentowanej
czytelnikom.
Identyfikacja robotów indeksujących na podstawie
predefiniowanych list adresów IP wyszukiwarek lub też
analizy nagłówka ‘user-agent’.
Przekierowywanie
Strona prezentowana robotom nie jest widoczna dla
użytkowników dzięki użyciu skryptów lub meta-tagu
‘refresh’ (Refresh: 0; url=adres)
Zwalczanie spamu
‘Jawny spam’ dość łatwo identyfikować,
wykorzystanie skryptów komplikuje sprawę, gdyż ich
wykonywanie/analizowanie przez serwisy
wyszukujące jest czaso-/kosztochłonne
Zwalczanie spamu
‘Jawny spam’ dość łatwo identyfikować,
wykorzystanie skryptów komplikuje sprawę, gdyż ich
wykonywanie/analizowanie przez serwisy
wyszukujące jest czaso-/kosztochłonne
Wykorzystanie opisów łącz (ang. ‘anchor text’) do
określania tematycznej zawartości stron.
PageRank dość dobrze radzi sobie z technikami
spamowania zawartości lecz jest w pewnym stopniu
podatny
na
techniki
manipulowania
linkami
wchodzącymi.
Zwalczanie spamu – c.d.
Każda technika spamowania skupia się na jednym
lub wielu aspektach wykorzystywanych przez
algorytmy rangujące wyszukiwarek
W ogólności heurystyki detekcji spamu szukają
statystycznych anomalii w cechach stron/witryn
obserwowalnych z poziomu wyszukiwarki
Detekcja spamu sprowadza się do problemu
klasyfikacji
Wykorzystanie metod uczenia maszynowego, a w
szczególności klasyfikatorów.
Cechy stron, które mogą być analizowane w
klasyfikacji:
 liczba unikatowych słów na stronie (spam-strony
zwykle zawierają ich więcej),
 średnia długość słowa (dla j. angielskiego =5), która
jest często odmienna dla „sztucznych” tekstów,
 liczba słów w tytule strony (zwykle wyższa dla spamstron),
 procent zawartości widocznej (często niższy dla
spam-stron),
 ilość tekstu w opisach łącz,
 podatność na kompresję, itp.
“Web spam classification: a few features worth more”,
M.Erdélyi, A. Garzó, and A. A. Benczúr , ACM Press
2011
>>we investigate how much various classes of Web spam
features, some requiring very high computational effort,
add to the classification accuracy. We realize that
advances in machine learning, an area that has received
less attention in the adversarial IR community, yields more
improvement than new features and result in low cost yet
accurate spam filters<<
Użyte techniki ML: LogitBoost, Random Forests
Różnicowanie ważności słów kluczowych i linków
występujących na stronie w zależności od ich
położenia. Najczęściej linki są umieszczane na spodzie
stron typu ‘honey pot’ czy stron uczestniczących we
wzajemnej wymianie linków.
Algorytmy segmentacji dokumentów
Wykorzystanie obserwacji, że wartościowe strony
i spam-strony tworzą odseparowane obszary sieci Web;
strony wysokiej jakości rzadko wskazują na
spam-strony, zaś spam-strony często wskazują na
strony wartościowe.
Algorytmy grafowe – Web Structure Mining
Wykorzystanie informacji i powiązań z serwisami
społecznościowymi
‘Mutually Reinforcing Spam Detection on Twitter and Web’
Nikita Spirin, 2011
Wykorzystanie informacji i powiązań z serwisami
społecznościowymi
Google Panda (luty 2011)
algorytm nastawiony na zmarginalizowanie znaczenia
treści powielonych na wielu stronach i treści
nieoryginalnych (np. przedruki na wielu stronach,
kopiowane opisy produktów, ta sama informacja
prasowa w wielu serwisach).
Google Panda (luty 2011)
algorytm nastawiony na zmarginalizowanie znaczenia
treści powielonych na wielu stronach i treści
nieoryginalnych (np. przedruki na wielu stronach,
kopiowane opisy produktów, ta sama informacja
prasowa w wielu serwisach).
Cel: zniwelowanie działania farm treści i ‘scraperów’
chwilowy (?) efekt uboczny: osiąganie przez duplikaty
wyższych pozycji niż strony oryginalne
Google Panda
 23/24 lutego 2011 Panda dla serwisów i użytkowników
w USA
 Kwiecień 2011 panda dla wszystkich domen
anglojęzycznych (ccTLD)
 Od sierpnia 2011 – stopniowe wprowadzanie dla
innych języków (prócz chińskiego, japońskiego i
koreańskiego)
 Od lipca 2012 dla języków azjatyckich
Google Penguin (kwiecień 2012)
algorytm nastawiony na karanie serwisów, które stosują
techniki spamerskie
Cel: zwalczanie spamu w sieci Web
Google Penguin
prawdopodobnie nacisk na wykrywanie:
 optymalizowania tekstów odnośników (treści tagu
<a>) pod popularne zapytania
 optymalizowania nazw domen pod popularne
zapytania (exact match domains)
 spamowania na serwisach społecznościowych/blogach
 'upychania' słów kluczowych (keyword stuffing) w
linkach
Google deklaruje, że Panda 1.0 wpłynęła na wyniki ~12%
zapytań kierowanych do ich wyszukiwarki,
Penguin zaś na ok. 3.1% zapytań
Oba algorytmy są uruchamiane okresowo (nieregularnie)
Penguin w 2012: 24 kwietnia (~3.1%), 26 maja (<0.1%), 5
października (~0.3%)
Penguin 2.0 w 2013: 2 maja 2013 (2.3%),
4 października−ver. 2.1 (~1%)
Wyniki działania kolejnych edycji mają być coraz
bardziej precyzyjne
1. Panda 1.0 (aka the Farmer Update) on February 24th 2011
2. Panda 2.0 on April 11th 2011. (Panda impacts all English speaking countries)
3. Panda 2.1 on May 9th 2011 or so
4. Panda 2.2 on June 18th 2011 or so.
5. Panda 2.3 on around July 22nd 2011.
6. Panda 2.4 in August 2011(Panda goes international)
7. Panda 2.5 on September 28th 2011
8. Panda 2.5.1 on October 9th 2011
9. Panda 2.5.2 on October 13th 2011
10. Panda 2.5.3 on October 19/20th 2011
11. Panda 3.1 on November 18th 2011
12. Panda 3.2 on about January 15th 2012
13. Panda 3.3 on about February 26th 2012
14. Panda 3.4 on March 23rd 2012
15. Panda 3.5 on April 19th 2012
16. Panda 3.6 on April 27th 2012
17. Panda 3.7 on June 8th 2012
18. Panda 3.8 on June 25th 2012
19. Panda 3.9 on July 24th 2012
20. Panda 3.9.1 on August 20th 2012
21. Panda 3.9.2 on September 18th 2012
22. Panda Update #20 on September 27 2012 (overlapped the EMD Update)
23. Panda #21 on November 5th 2012 24. Panda #22 on December 4th 2012
25. Panda #23 on December 21st 2012 26. Panda #24 on January 22nd 2013
27. Panda #25 on March 25th 2013
Inne działania Google - kwiecień 2012
Zapowiedź obniżenia wartości tzw. ‘nieorganicznych’
(nienaturalnych) linków:
 pochodzących z „farm linków”
 pochodzących z sieci wymiany linków
 wszelkich innych, które noszą znamiona linków
płatnych (w szczególności otagowanych tekstem w
postaci popularnych słów kluczowych)
Google’s dreadful message 
źródło: searchenginewatch.com
W październiku 2012 Matt Cutts poinformował o nowym
narzędziu dla webmasterów (tool to disavow links), które
umożliwia przekazanie do Google w prostym pliku tekstowym
listy adresów serwisów (lub pojedynczych stron), z których linki
do naszych stron uznajemy za niewartościowe
Przykładowa treść pliku:
# Contacted owner of spamdomain1.com on 7/1/2012 to
# ask for link removal but got no response
domain:spamdomain1.com
# Owner of spamdomain2.com removed most links, but
missed these
http://www.spamdomain2.com/contentA.html
http://www.spamdomain2.com/contentB.html
http://www.spamdomain2.com/contentC.html
W październiku 2012 Matt Cutts poinformował o nowym
narzędziu dla webmasterów (tool to disavow links), które
umożliwia przekazanie do Google w prostym pliku tekstowym
listy adresów serwisów (lub pojedynczych stron), z których linki
do naszych stron uznajemy za niewartościowe
Z punktu widzenia Google jest to bardzo prosta metoda
zaangażowania tysięcy (?) darmowych redaktorów (human
editors) do wskazania spamerskich serwisów
W czerwcu 2013 Google ogłosił wprowadzanie nowych technik do
walki ze spamem związanym z pewną grupą konkretnych
zapytań − spam algorithm aka Payday Loan algorithm
>> Matt said that this impacts about 0.3% of U.S. queries but up to 4%
or so of Turkish queries where spam is a larger part of the index there.
Matt also added that the techniques targeted here are often "illegal"
tactics that he won't discuss<<
https://www.seroundtable.com/global-googlealgorithms-18896.html
Google’s Hummingbird
> nowy algorytm wyszukiwania/rangowania: >90% zapytań
(ostatnia tak poważna zmiana miała ponoć miejsce w 2001r.)
> oparty na dawnych kryteriach oceny stron
(searchengineland.com/seotable – Preiodic Table of SEO)
> ogłoszony 26 września 2013 r.
(uruchomiony ponoć ok. miesiąc wcześniej)
> kładzie nacisk na semantykę zapytań
Knowledge graph
> start w 2012
> bazuje na Schema.org alliance (Google, Microsoft, Yahoo - 2011)
> dane ustrukturalizowane – możliwość umieszczenia odpowiedzi
na zapytania użytkowników bezpośrednio na stronach SERP
(reach snippets – fragmenty rozszerzone, oznaczanie treści z wyk.
mikroformatów, mikrodanych lub standardu RDF)
> lepsze „zrozumienie” intencji/znaczenia ukrytych w zapytaniach
(semantic search)
> Freebase, Wikipedia, CIA World Factbook, inne, częste zapytania
> start w Polsce – maj 2013
Fragmenty rozszerzone
Obecnie fragmenty rozszerzone wyświetlają się w przypadku
przepisów kulinarnych, opinii, produktów, zdarzeń i osób.
Znaczniki filmów są rozpoznawane i używane do poprawnego
pobierania oraz indeksowania materiałów wideo.
Znaczniki organizacji nie są używane we fragmentach
rozszerzonych – Google wykorzystuje je w innych elementach w
wyszukiwarce
https://support.google.com/webmasters/answer/1093493

Eksploracja Zasobów Internetu

Transkrypt

Podobne dokumenty

„Eksploracja danych” informacje dotyczące zadań

Clementoni Panda przybywa do świata Uczę się Bawiąc! To nowy

Panda TruPrevent Corporate - Login_R Software

Panda Security - AntyWirusy.eu

Eksploracja Zasobów Internetu

Zalew danych Przyrost danych Motywacja

TECHNOLOGIE WYTWARZANIA OPROGRAMOWANIA

Page 1 PANDA 2012 – PORÓWNANIE FUNKCJONALNOŚCI A n tiv