Topologia wielkich sieci na przykladzie Wikipedii

Transkrypt

Topologia wielkich sieci na przykladzie Wikipedii
Topologia wielkich sieci na przykladzie Wikipedii
Lukasz Bolikowski
ICM, Uniwersytet Warszawski + IBS, Polska Akademia Nauk
Dzień ICM na MIM
26 lutego 2010
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
1 / 12
Odnośniki miedzyj
ezykowe
w Wikipedii
֒
֒
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
2 / 12
Odnośniki miedzyj
ezykowe
w Wikipedii
֒
֒
Odnośnik miedzyj
ezykowy
(ang. interlanguage link, cześciej
interwiki link) to
֒
֒
֒
odnośnik z artykulu w jednej edycji jezykowej
Wikipedii
do
odpowiadaj
acego
mu
֒
֒
artykulu (do artykulu na ten sam temat) w innej edycji jezykowej.
֒
Innymi slowy, jest to rodzaj tlumaczenia.
Szerzej, odnośniki miedzyj
ezykowe
moga֒ dotyczyć także kategorii, szablonów, itp.
֒
֒
Dla wygody bed
terminów:
֒ e֒ używal krótszych, choć niepoprawnych jezykowo,
֒
odnośnik → link
odnośnik miedzyj
ezykowy
→ (link) interwiki
֒
֒
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
3 / 12
Problemy z interwiki
Silnik MediaWiki nie gwarantuje spójności interwiki – brak centralizacji. Zamiast
tego, autonomiczne edycje jezykowe
przechowuja֒ swoje” linki wychodzace.
Przy
֒
֒
”
11,5 mln artykulów i 90 mln interwiki prowadzi to do problemów.
Dwie klasy problemów: brakujace
i nadmiarowe linki.
֒
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
4 / 12
Skala zjawiska
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
5 / 12
500
50
5 10
1
Number of English articles
Skala zjawiska
1
10
100
1000
10000
Rank
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
6 / 12
Skala zjawiska
Najwieksza
skladowa zawiera ok. 80 tys. artykulów, w tym ponad 3,7 tys.
֒
angielskich (a wiec
֒ co najmniej tyle różnych tematów), oraz ponad 3,7 mln
linków interwiki. Reczne
przejrzenie wszystkich linków nie wchodzi w gre.
֒
֒
Oprócz tej jest ponad 65 tys. innych skladowych zawierajacych
konflikty.
֒
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
7 / 12
Najcześciej
wystepuj
ace
֒
֒
֒ wzorce
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
8 / 12
Próba klasyfikacji blednych
interwiki
֒
wandalizmy, absurdalne pomylki
(ro:Nicolae Steinhardt → de:Penis; fr:Rick Ankiel → ja:
ñ§½)
różne bledy
zwiazane
z datami, copy-and-paste”, off-by-one”
֒
֒
(wuu:5a26 → bn:??? ← wuu:5a27”; az:3 iyun → su:3” Juli)
(en:10s BC −→ en:20s BC −→ en:30s BC −→ . . . )
linki do stron ujednoznaczniajacych,
homonimy
֒
(la:Benedictus (nomen) → en:Benedict; it:Rubinetto → es:Grifo)
interwiki + redirect
(en:Mother-in-law → ru:Tëshha
ru:Rodstvo → en:Kinship)
rozszerzanie/zaweżanie
znaczenia, różna ziarnistość” edycji jezykowych
֒
֒
”
(pl:Województwo krakowskie (I Rzeczpospolita) → en:Kraków Voivodeship (14th
century-1795) → pt:Voivodia da Cracóvia → pl:Województwo krakowskie)
różnice kulturowe, ograniczenia tlumaczenia
(en:Pierogi – en:Cepelinai – en:Dumpling – en:Vareniki – en:Kalduny)
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
9 / 12
Problem optymalizacyjny
Dany jest nieskierowany, pokolorowany graf ważony G = hV , E , κ, µi, gdzie:
V oznacza
wierzcho
lki,
E ⊆ e ∈ 2V |e| = 2 oznacza krawedzie,
֒
κ : V → K oznacza kolory wierzcholków,
µ : E → R+ oznacza wagi krawedzi.
֒
Dozwolone ciecie
to zbiór krawedzi
F , że po jego usunieciu
każda spójna
֒
֒
֒
skladowa ma co najwyżej jeden wierzcholek danego koloru.
P
Ponadto, niech kF kG := e∈F µ(e).
Szukamy najmniejszego wzgledem
kF kG dozwolonego ciecia.
֒
֒
Tak postawiony problem jest NP-trudny (redukcja do Multiterminal Cut).
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
10 / 12
Narzedzie
֒
Serwis WWW: http://wikitools.icm.edu.pl/
Wszystkie konflikty interwiki wraz z rekomendacjami
(na podstawie zrzutów bazy z listopada 2008)
Metoda może być bezpośrednio zastosowana do: Wikisources, Wikibooks,
kategorii Wikipedii
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
11 / 12
Koniec
Dzie֒ kuje֒
c 2009-2010 Lukasz Bolikowski. Ten utwór jest dostepny
na licencji Creative Commons Uznanie autorstwa 3.0 Polska
֒
Treść licencji dostepna
pod adresem: http://creativecommons.org/licenses/by/3.0/pl/
֒
Lukasz Bolikowski (ICM UW)
Topologia wielkich sieci: Wikipedia
Warszawa, 26 lutego 2010
12 / 12

Podobne dokumenty