Topologia wielkich sieci na przykladzie Wikipedii
Transkrypt
Topologia wielkich sieci na przykladzie Wikipedii
Topologia wielkich sieci na przykladzie Wikipedii Lukasz Bolikowski ICM, Uniwersytet Warszawski + IBS, Polska Akademia Nauk Dzień ICM na MIM 26 lutego 2010 Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 1 / 12 Odnośniki miedzyj ezykowe w Wikipedii ֒ ֒ Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 2 / 12 Odnośniki miedzyj ezykowe w Wikipedii ֒ ֒ Odnośnik miedzyj ezykowy (ang. interlanguage link, cześciej interwiki link) to ֒ ֒ ֒ odnośnik z artykulu w jednej edycji jezykowej Wikipedii do odpowiadaj acego mu ֒ ֒ artykulu (do artykulu na ten sam temat) w innej edycji jezykowej. ֒ Innymi slowy, jest to rodzaj tlumaczenia. Szerzej, odnośniki miedzyj ezykowe moga֒ dotyczyć także kategorii, szablonów, itp. ֒ ֒ Dla wygody bed terminów: ֒ e֒ używal krótszych, choć niepoprawnych jezykowo, ֒ odnośnik → link odnośnik miedzyj ezykowy → (link) interwiki ֒ ֒ Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 3 / 12 Problemy z interwiki Silnik MediaWiki nie gwarantuje spójności interwiki – brak centralizacji. Zamiast tego, autonomiczne edycje jezykowe przechowuja֒ swoje” linki wychodzace. Przy ֒ ֒ ” 11,5 mln artykulów i 90 mln interwiki prowadzi to do problemów. Dwie klasy problemów: brakujace i nadmiarowe linki. ֒ Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 4 / 12 Skala zjawiska Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 5 / 12 500 50 5 10 1 Number of English articles Skala zjawiska 1 10 100 1000 10000 Rank Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 6 / 12 Skala zjawiska Najwieksza skladowa zawiera ok. 80 tys. artykulów, w tym ponad 3,7 tys. ֒ angielskich (a wiec ֒ co najmniej tyle różnych tematów), oraz ponad 3,7 mln linków interwiki. Reczne przejrzenie wszystkich linków nie wchodzi w gre. ֒ ֒ Oprócz tej jest ponad 65 tys. innych skladowych zawierajacych konflikty. ֒ Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 7 / 12 Najcześciej wystepuj ace ֒ ֒ ֒ wzorce Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 8 / 12 Próba klasyfikacji blednych interwiki ֒ wandalizmy, absurdalne pomylki (ro:Nicolae Steinhardt → de:Penis; fr:Rick Ankiel → ja: ñ§½) różne bledy zwiazane z datami, copy-and-paste”, off-by-one” ֒ ֒ (wuu:5a26 → bn:??? ← wuu:5a27”; az:3 iyun → su:3” Juli) (en:10s BC −→ en:20s BC −→ en:30s BC −→ . . . ) linki do stron ujednoznaczniajacych, homonimy ֒ (la:Benedictus (nomen) → en:Benedict; it:Rubinetto → es:Grifo) interwiki + redirect (en:Mother-in-law → ru:Tëshha ru:Rodstvo → en:Kinship) rozszerzanie/zaweżanie znaczenia, różna ziarnistość” edycji jezykowych ֒ ֒ ” (pl:Województwo krakowskie (I Rzeczpospolita) → en:Kraków Voivodeship (14th century-1795) → pt:Voivodia da Cracóvia → pl:Województwo krakowskie) różnice kulturowe, ograniczenia tlumaczenia (en:Pierogi – en:Cepelinai – en:Dumpling – en:Vareniki – en:Kalduny) Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 9 / 12 Problem optymalizacyjny Dany jest nieskierowany, pokolorowany graf ważony G = hV , E , κ, µi, gdzie: V oznacza wierzcho lki, E ⊆ e ∈ 2V |e| = 2 oznacza krawedzie, ֒ κ : V → K oznacza kolory wierzcholków, µ : E → R+ oznacza wagi krawedzi. ֒ Dozwolone ciecie to zbiór krawedzi F , że po jego usunieciu każda spójna ֒ ֒ ֒ skladowa ma co najwyżej jeden wierzcholek danego koloru. P Ponadto, niech kF kG := e∈F µ(e). Szukamy najmniejszego wzgledem kF kG dozwolonego ciecia. ֒ ֒ Tak postawiony problem jest NP-trudny (redukcja do Multiterminal Cut). Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 10 / 12 Narzedzie ֒ Serwis WWW: http://wikitools.icm.edu.pl/ Wszystkie konflikty interwiki wraz z rekomendacjami (na podstawie zrzutów bazy z listopada 2008) Metoda może być bezpośrednio zastosowana do: Wikisources, Wikibooks, kategorii Wikipedii Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 11 / 12 Koniec Dzie֒ kuje֒ c 2009-2010 Lukasz Bolikowski. Ten utwór jest dostepny na licencji Creative Commons Uznanie autorstwa 3.0 Polska ֒ Treść licencji dostepna pod adresem: http://creativecommons.org/licenses/by/3.0/pl/ ֒ Lukasz Bolikowski (ICM UW) Topologia wielkich sieci: Wikipedia Warszawa, 26 lutego 2010 12 / 12