streszczenie rozprawy doktorsk-76

Transkrypt

streszczenie rozprawy doktorsk-76
Streszczenie rozprawy doktorskiej pt. „Methods
of Semantic Drift Reduction in Large Similarity
Networks”
mgr Łukasz Bolikowski, ICM UW
1 Wprowadzenie
1.1 Wiek Informacji
Za sprawa˛ Internetu dostep
˛ do informacji jest dziś prostszy niż kiedykolwiek w historii, a zakres dostepnych
˛
treści stale sie˛ poszerza.
Z jednej strony, treści pojawiaja˛ sie˛ w Sieci w wyniku cyfryzacji „tradycyjnych” mediów takich jak: ksia˛żki, czasopisma, czy fotografie. Warto w tym miejscu wymienić
wielkie projekty cyfryzacyjne: Google Books, JSTOR, Project Gutenberg, Times Online, czy World Digital Library. Aby uzmysłowić skale˛ wymienionych przedsiewzi
˛
eć
˛
nadmieńmy, że Times Online udostepnia
˛
wszystkie wydania gazety z lat 1785-1985,
a JSTOR zawiera ponad 32 miliony dokumentów wytworzonych na przestrzeni czterech wieków. Niektóre archiwa udostepniaj
˛
a˛ materiały w postaci cyfrowej za darmo
i na wolnych licencjach, na przykład Deutsche Fotothek udostepniła
˛
wersje elektroniczne ponad 250 tysiecy
˛ archiwalnych fotografii na licencji Creative Commons BYSA 3.0.
Z drugiej zaś strony, współczesne dokumenty tworzone sa˛ (zazwyczaj) od razu w
postaci cyfrowej, z pominieciem
˛
procesu cyfryzacji. W świecie recenzowanych czasopism naukowych najpopularniejszy model to jednoczesna, lub prawie jednoczesna,
publikacja wersji elektronicznej i papierowej, choć zdarzaja˛ sie˛ takie periodyki, jak
np. First Monday, które ukazuja˛ sie˛ wyłacznie
˛
w wersji cyfrowej.
Zalew informacji niesie wyjatkowe
˛
możliwości, ale stwarza też nowe wyzwania.
Wraz z dostepności
˛
a˛ coraz wiekszej
˛
ilości treści rośnie trudność znalezienia wartościowej informacji w morzu dokumentów, artykułów, notek blogowych i innych stron
WWW. Wyszukiwarki internetowe, takie jak Google, zawieraja˛ heurystyki nadajace
˛
wage˛ poszczególnym zasobom (w przypadku Google jest to algorytm PageRank).
1.2 Sieć Semantyczna
Nastepny
˛
krok to indeksowanie wiedzy, a nie jedynie danych, czyli gromadzenie relacji semantycznych pomiedzy
˛
obiektami, co pozwoli użytkownikowi na budowanie
bardziej precyzyjnych zapytań [5]. Tak zwana Sieć Semantyczna to, w najwiekszym
˛
1
skrócie, próba reprezentacji wiedzy w postaci trójek podmiot-predykat-przedmiot.
Trójki te reprezentuja˛ zwiazki
˛
pomiedzy
˛
obiektami reprezentowanymi za pomoca˛
URI (ang. Uniform Resource Indentifier), a opisany model danych znany jest pod nazwa˛ RDF (ang. Resource Description Framework).
Rysunek 1: Zbiory danych RDF, połaczone
˛
w ramach projektu Linking Open Data.
Stan na lipiec 2009. Każdy w˛ezeł reprezentuje zbiór danych RDF, a każda kraw˛edź
– połaczenia
˛
semantyczne pomiedzy
˛
zbiorami danych. Kolor koduje tematyke.
˛ Autorka: Anja Jentzsch, licencja: CC-BY-SA 3.0.
Istnieje wiele ustalonych słowników predykatów, zwanych ontologiami, które pozwalaja˛ opisywać zwiazki
˛
pomiedzy
˛
obiektami w obrebie
˛
konkretnych dziedzin wiedzy. Przykładowo, Dublin Core pozwala wyrażać własności dokumentów w rodzaju:
„osoba X jest autorem dokumentu Y”, „dokument X nosi tytuł Y”, czy „dokument X
jest cytowany przez dokument Y”, a Friend of a Friend (FOAF) definiuje jezyk
˛
opisu
relacji miedzy
˛
ludźmi: „osoba X ma adres e-mail Y”, „osoba X zna osobe˛ Y”, czy
„osoba X jest zainteresowana tematem Y”.
Wreszcie, instnieja˛ jezyki
˛
zapytań, takie jak SPARQL, które zapewniaja˛ dostep
˛ do
wywnioskowanej wiedzy. Sir Tim Berners-Lee – pomysłodawca zarówno sieci WWW
(ang. World Wide Web) jak i Sieci Semantycznej (ang. Semantic Web) – przekonuje,
że ta ostatnia zrewolucjonizuje nasz dostep
˛ do informacji tak, jak uczyniła to WWW
[6]. Dzieki
˛ SPARQL możemy za pomoca˛ jednego zapytania otrzymać np. liste˛ kompozytorów niemieckich urodzonych w Berlinie przed rokiem 1900. Zauważmy, że
2
analogicznego zapytania nie da sie˛ skonstruować w oparciu o „klasyczna”
˛ wyszukiwarke˛ pełnotekstowa.
˛
1.3 Rozproszone przechowywanie relacji równoważności
Czesto
˛
ta sama wiedza jest przechowywana w wielu miejscach jednocześnie: metadane artykułu naukowego moga˛ znajdować sie˛ w wielu bibliotekach cyfrowych,
słowo może być zdefiniowane w wielu słownikach, a film opisany w wielu bazach
filmowych. Co wiecej,
˛
różne bazy moga˛ w swoich rekordach zawierać odnośniki do
równoważnych rekordów w innych bazach. Na przykład: leki opisane w bazie DrugBank zawieraja˛ odnośniki do opisów w bazach PharmGKB oraz RxList. Mamy wiec
˛
do czynienia z rozproszona˛ reprezentacja˛ relacji równoważności, czyli takiej relacji,
która spełnia trzy poniższe warunki:
1. zwrotność: ∀ X X ≡ X
2. symetryczność: ∀ X,Y (X ≡ Y ) ⇒ (Y ≡ X )
3. przechodność: ∀ X,Y,Z (X ≡ Y ) ∧ (Y ≡ Z) ⇒ (X ≡ Z).
Przykładowo, zarówno „sekwencja X jest homologiem sekwencji Y”, jak i „słowo X
jest synonimem słowa Y” sa˛ relacjami równoważności na pewnych zbiorach (odpowiednio: sekwencji biologicznych i słów w jezyku
˛
naturalnym).
Rysunek 2: Ilustracja dryfu semantycznego. Po lewej stronie przedstawiona jest
pewna relacja równoważności, a po prawej stronie jej zniekształcona reprezentacja,
w której pewne nierównoważne obiekty pozostaja˛ ze soba˛ w relacji.
Rozproszone przechowywanie relacji równoważności, oznacza brak kontroli nad
spójnościa˛ przechowywanych informacji, a wiec
˛ niesie ze soba˛ niebezpieczeństwo
pojawienia sie˛ tzw. dryfu semantycznego. Ogólnie rzecz biorac,
˛ możliwe sa˛ dwie klasy
odstepstw
˛
od stanu idealnego: brak zwiazków
˛
które powinny były wystapić,
˛
oraz
istnienie zwiazków,
˛
których być nie powinno (por. rys. 2). Pierwsza klasa jest mniej
3
Artykuły
Kategorie
Jezyk
˛
Strony
Interwiki
Strony
Interwiki
Angielski
2 502 189 4 763 819
389 987
608 787
Niemiecki
791 848
3 331 290
55 323
417 800
Francuski
687 290
3 398 456
96 073
482 098
Polski
552 267
2 834 358
37 814
284 455
Niderlandzki
513 295
2 927 619
37 202
238 934
Japoński
512 872
2 170 917
51 284
407 294
Włoski
506 223
2 986 566
51 948
195 548
Portugalski
469 382
2 697 324
48 389
256 680
Hiszpański
389 929
2 542 999
61 377
376 110
...
...
...
...
...
Łacznie
˛
11 510 142 89 339 694 1 724 088 13 902 852
Tablica 1: Liczba stron, kategorii i odpowiadajacych
˛
im wychodzacych
˛
odnośników
miedzyj
˛
ezykowych
˛
(popularnie zwanych interwiki) dla 10 najwiekszych
˛
(wg liczby
artykułów) edycji jezykowych
˛
Wikipedii. Dane na podstawie zrzutów baz danych
pobranych 27 sierpnia 2008.
groźna o tyle, że operacja domkniecia
˛
symetrycznego i przechodniego zazwyczaj be˛
dzie w stanie odtworzyć brakujace
˛ zwiazki.
˛
Druga klasa utożsamia natomiast różne
pojecia
˛
i – jak pokażemy w dalszej cześci
˛
pracy – zadanie usuniecia
˛
nadmiarowych
zwiazków
˛
(dokładniej: transformacji danej relacji do pewnej relacji równoważności
najmniejszym możliwym kosztem) jest z obliczeniowego punktu widzenia znacznie
trudniejsze.
Jedna˛ z prostych recept na pozbycie sie˛ wyżej wymienionych problemów jest
zmiana reprezentacji wiedzy: zamiast przechowywać zwiazki
˛
pomiedzy
˛
równoważnymi obiektami, można przechowywać przynależność obiektów do ich klas równoważności. Przykładowo, zamiast przechowywać relacje˛ „osoba X miesza w tym samym mieście co osoba Y”, można prechowywać relacje˛ „osoba X mieszka w mieście
Y”. W naszym przypadku klasami abstrakcji oryginalnej relacji równoważności sa˛
miasta. Opisana tu metoda zadziała pod warunkiem, że klasom abstrakcji można
jednoznacznie przypisać identyfikatory.
1.4 Wikipedia
Wikipedia to „wolna encyklopedia internetowa, która˛ każdy może redagować”, majaca
˛ ponad 250 edycji (wersji) jezykowych.
˛
Fundacja Wikimedia regularnie publikuje
zrzuty baz danych wszystkich edycji (na wolnej licencji GNU FDL), dzieki
˛ czemu
badacze moga˛ analizować treść całej encyklopedii. Niniejsza rozprawa wykorzystuje
wiedze˛ zgromadzona˛ w Wikipedii do empirycznego sprawdzenia wypracowanych
tu metod. Rozdział trzeci bazuje na treści 262 edycji jezykowych
˛
pobranej 27 sierpnia
2008 roku, a rozdział piaty
˛ — na treści 265 edycji jezykowych
˛
pobranej 12 października 2009 roku.
4
Rysunek 3: Przykładowy artykuł w Wikipedii z zaznaczym obszarem w którym znajduja˛ sie˛ powiazania
˛
z odpowiadajacymi
˛
artykułami w innych wersjach jezykowych.
˛
Wikipedia jest oparta na silniku MediaWiki: każda edycja jezykowa
˛
używa własnej instancji silnika i, technicznie rzecz biorac,
˛ jest niemal całkowicie niezależna od
pozostałych edycji. W pracy koncentrujemy sie˛ na dwóch typach stron: artykułach
i kategoriach (te ostatnie sa˛ swego rodzaju etykietami artykułów). Strona w danej
wersji jezykowej
˛
może posiadać odnośniki do odpowiadajacych
˛
jej (równoważnych)
stron w innych wersjach jezykowych.
˛
Takie odnośniki miedzyj
˛
ezykowe
˛
sa˛ popularnie
i zwieźle
˛
nazywane interwiki. Przykład: artykuł pod tytułem „London” w angielskiej
wersji jezykowej
˛
zawiera (miedzy
˛
innymi) interwiki do artykułu „Londres” w wersji francuskiej oraz do artykułu „Lontoo” w wersji fińskiej. Co ważne, ze wzgledu
˛
na autonomiczny charakter poszczególnych wersji jezykowych
˛
nie ma kontroli spójności tak tworzonych odnośników miedzyj
˛
ezykowych.
˛
Mamy wiec
˛ do czynienia z
rozproszonym przechowywaniem relacji równoważności, które potencjalnie prowadzić może do powstawania dryfu semantycznego.
1.5 Definicje, notacja i postawienie problemu
Rozważamy nieskierowane, kolorowane, ważone grafy G = hV, E, κ, µi, gdzie:
• V to zbiór wierzchołków;
• E ⊆ e ∈ 2V |e| = 2 to zbiór kraw˛edzi;
• κ : V → K to kolory wierzchołków;
5
• µ : E → R + to wagi kraw˛edzi.
W miejscach gdzie wagi kraw˛edzi nie bed
˛ a˛ miały znaczenia bedziemy
˛
zakładać µ ≡
1, a graf zapisywać krócej: G = hV, E, κ i.
Rozbiorem grafu G nazwiemy dowolna˛ funkcje˛ π : V → 2V spełniajac
˛ a˛ nastepuj
˛ ace
˛
warunki:
∀ v ∈V v ∈ π ( v )
(1)
∀v,w∈V π (v) = π (w) ∨ π (v) ∩ π (w) = ∅
(2)
∀ v 6 = w ∈V π ( v ) = π ( w ) ⇒ κ ( v ) 6 = κ ( w )
(3)
Dwa pierwsze warunki stwierdza po prostu, że π dzieli V na rozłaczne
˛
podzbiory,
które sumuja˛ sie˛ do V. Trzeci warunek mówi, że każdy podzbiór może zawierać co
najwyżej jeden wierzchołek danego koloru. Zbiór wszystkich możliwych rozbiorów
grafu G oznaczać bedziemy
˛
przez P(G ).
Rysunek 4: Dwa przykłady rozbioru grafu. W każdym z przykładów rozbiór oznaczony jest kropkowanymi okregami,
˛
a kraw˛edzie niezgodne z rozbiorem sa˛ pogrubione.
Powiemy, że kraw˛edź e = {v, w} ∈ E jest niezgodna z rozbiorem π ∈ P(G ), jeśli
π (v) 6= π (w). Innymi słowy, kraw˛edź jest niezgodna z rozbiorem jeśli łaczy
˛
wierzołki
należace
˛ do różnych podzbiorów rozbioru. Dalej, niech IG (π ) oznacza wszystkie
kraw˛edzie grafu G niezgodne z rozbiorem π ∈ P(G ):
IG (π ) := {v, w} ∈ Eπ (v) 6= π (w)
(4)
Zbiór kraw˛edzi niezgodnych z jakimś rozbiorem bedziemy
˛
nazywać ci˛eciem. Wreszcie, zdefiniujmy funkcje˛ k · k G : P(G ) → R + ∪ {0}, która mierzyć bedzie
˛
stopień
niezgodności rozbioru π z grafem G (koszt rozbioru):
kπ k G :=
∑
e ∈ IG ( π )
6
µ(e )
(5)
Możemy teraz przystapić
˛
do sformułowania głównego problemu obliczeniowego
badanego w niniejszej rozprawie:
˛ dany graf G = hV, E, κ, µi, znaProblem 1 (Rozbiór o najmniejszym koszcie) Majac
leźć rozbiór π ∈ P(G ) taki, że kπ k G jest najmniejsze.
1.6 Najważniejsze wyniki
Rozprawa zawiera kilka oryginalnych wyników:
1. Szczegółowa analiza i opis sieci odnośników miedzyj
˛
ezykowych
˛
w Wikipedii.
Sieć owa posiada ciekawa˛ i niecodzienna˛ topologie:
˛ jej spójne składowe sa˛ zbudowane z klastrów połaczonych
˛
szkieletem o topologii bezskalowej.
2. Analiza złożoności obliczeniowej głównego problemu: dowód, że jest on NPtrudny.
3. Zastosowanie pieciu
˛
znanych w informatyce podejść i algorytmów do poszukiwania przybliżonych rozwiaza
˛ ń problemu:
• algorytm zachłanny;
• iterowane poszukiwanie najwiekszej
˛
kliki;
• numeryczna minimalizacja pewnego potencjału wielowymiarowego;
• algorytm genetyczny;
• pewna modyfikacja algorytmu Girvana-Newmana.
4. Jako efekt uboczny jednego z podejść: metoda wizualizacji analizowanych sieci
5. Ilościowa ocena proponowanych algorytmów, zarówno jakości wyników jak i
czasu działania. Za dane doświadczalne posłużyła sieć odnośników miedzyj
˛
e˛
zykowych w Wikipedii.
6. Dokumentacja architektury otwartego pakietu oprogramowania, który powstał
w trakcie badań i który był użyty, miedzy
˛
innymi, do przeprowadzenia wyżej
wymienionych testów.
1.7 Struktura pracy
W rozdziale pierwszym przedstawiony jest główny problem obliczeniowy wraz z
jego tłem, sprecyzowana jest notacja i pojecia
˛
używane w rozprawie, wyliczone najważniejsze wyniki oraz przedstawiona strukture˛ pracy.
W rozdziale drugim dokonany jest przeglad
˛ literatury w dziedzinach zwiazanych
˛
z tematem rozprawy, oraz przedstawiony jest bieżacy
˛ stan wiedzy.
Rozdział trzeci zawiera dogłebn
˛ a˛ analize˛ sieci odnośników miedzyj
˛
ezykowych
˛
w
Wikipedii, która to sieć jest ważnym przykładem relacji równoważności przechowywanej w rozproszonym środowisku.
7
Rozdział czwarty zawiera wyniki teoretyczne: dowód NP-trudności głównego
problemu obliczeniowego, a także pieć
˛ algorytmów dajacych
˛
przybliżone rozwia˛
zania wspomnianego problemu.
W rodziale piatym
˛
zawarte sa˛ wyniki eksperymentalne: jakość zaproponowanych algorytmów jest sprawdzana doświadczalnie na sieci odnośników miedzyj
˛
e˛
zykowych w Wikipedii.
Rozdział szósty stanowi podsumowanie rozprawy, sa˛ w nim opisane wnioski wyciagni
˛ ete
˛ z badań oraz potencjalne dalsze kierunki prac.
W dodatku A opisane sa˛ szczegóły implementacyjne oprogramowania, które powstało przy okazji badań, a dodatek B zawiera słownik pojeć
˛ i symboli użytych w
pracy.
2 Przeglad
˛ literatury
Według najlepszej wiedzy autora, główny problem obliczeniowy nie był dotychczas
przedmiotem badań, jednakże szereg zbliżonych problemów był już badany, i to w
zaskakujaco
˛ różnych kontekstach.
Dahlhaus i inni [12] badali problem Multiterminal Cut, który z kolei jest uogólnieniem klasycznego problemu maksymalnego przepływu i minimalnego ciecia
˛
w
grafie [19]. Multiterminal Cut pyta o najtańszy sposób rozciecia
˛
grafu tak, aby
każdy wierzchołek z pewnego zbioru znalazł sie˛ w innej spójnej składowej. Pokazano, że jest to problem NP-trudny.
Problem o zbliżonej strukturze pojawił sie˛ w kontekście automatycznej optymalizacji przydziału pracy w obliczeniach rozproszonych [46]. Problem ten znany jest
pod nazwa˛ Index Domain Alignment [28, 8]. Podobna˛ strukture˛ ma też zadanie podziału schematu elektrycznego na grupy komponentów [29]. He i inni [25] dowiedli
natomiast NP-trudności problemu nazywanego Minimum Orthogonal Partition,
który różni sie˛ od problemu rozważanego w niniejszej pracy jedynie tym, że nakłada
pewne ograniczenia na liczność podzbiorów rozbioru.
W pracy badana jest struktura sieci odnośników interwiki. Literatura zna wiele
modeli rozwoju sieci. Wymieńmy tu trzy prawdopodobnie najważniejsze modele,
nazwane od nazwisk ich twórców: Erdős-Rényi [17, 18], Barabási-Albert [3, 1], and
Watts-Strogatz [51].
W analizie sieci przeprowadzonej w pracy okazuje sie,
˛ że wielkości spójnych skła−
γ
dowych maja˛ rozkład power-law, czyli: P( x ) ∝ x . Ów rozkład spotykany jest w
szeregu różnorodnych systemów, takich jak: rozkład wielkości aktywów bankowych
[43], czestość
˛
wystepowania
˛
nazwisk japońskich [34], liczba bankructw firm danego
dnia [26], czas utrzymywania sie˛ danej sytuacji atmosferycznej [11], wielkości miast
[32], wystapienia
˛
sekwencji par zasad DNA [31], liczba wysłanych e-maili [15], czy
wystapienia
˛
konkretnych liczb w sieci WWW [13].
Zadanie rozbioru grafu na skupiska w˛ezłów ma pewne zwiazki
˛
z problemem
znajdowania wspólnot w sieciach społecznych. Doskonałe wprowadzenie do tematu
analizy sieci społecznych znajduje sie˛ w monografii Wassermana i Fausta [50]. Szcze8
gólnie interesujacy,
˛ w kontekście pracy, jest algorytm Girvana-Newmana [22], który
korzysta z miary zwanej w literaturze anglojezycznej
˛
pod nazwa˛ edge betweenness
(pośredniość kraw˛edzi), zaproponowanej niezależnie przez Freemana [20] i Anthonisse’a [2]. Newman i Girvan [40] zaproponowali dwie miary pośredniości: jedna˛
oparta˛ na sieci rezystorów, druga˛ na bładzeniu losowym, a nastepnie
˛
pokazali, że
miary te sa˛ sobie równoważne. W tej samej pracy wprowadzili też ważne pojecie
˛
modularności. M. E. J. Newman jest autorem wielu ważnych prac z dziedziny analizy
sieci społecznych. Bada on sieci współpracy naukowej [35, 36], wprowadził ważne
poprawki do oryginalnego algorytmu Girvana-Newmana [38], dokonał przegladu
˛
algorytmów rozpoznajacych
˛
społeczności [37], wyraził problem znalezienia maksymalnej modularności w terminach wartości i wektorów własnych, co zaowocowało
szybszym i bardziej skutecznym algorytmem [39]. Lista prac poświeconych
˛
analizie
sieci społecznych jest oczywiście długa, w rozdziale drugim rozprawy znajduje sie˛
obszerniejszy przeglad
˛ literatury z tej dziedziny.
Rozprawa zawiera przeglad
˛ literatury poświeconej
˛
stosowanym w niej algorytmach i technikach rozwiazywania
˛
problemów optymalizacyjnych. Przybliżone rozwiazania
˛
problemu najwiekszej
˛
kliki, ich zastosowania, a także wyniki teoretyczne
zgromadzone sa˛ w doskonałym podreczniku
˛
[7]. Pozycje [23] oraz [33] stanowia˛
dobre wprowadzenie do algorytmów genetycznych. Wizualizacja dużych sieci była
studiowana m.in. w pracach Eadesa [14], Fruchtermana i Reingolda [21], a także
Kamady i Kawai [27].
Osobny podrozdział poświecony
˛
jest podsumowaniu badań nad treścia˛ Wikipedii oraz procesem jej tworzenia. Od strony jakościowej, współpraca przy tworzeniu
encyklopedii jest analizowana przez socjologów [10, 24, 45]; sposób, w jaki rewolucjonizuje dostep
˛ do wiedzy interesuje epistemologów [48, 52, 44, 30]; a motywacje
autorów były studiowane przez psychologów [4, 42]. Ilościowo, mierzona i wizualizowana jest dynamika wkładu użytkowników (np. interakcje, wzorce konfliktów)
[47, 9, 41]; wyekstrachowano z treści Wikipedii szereg korpusów i ontologii1 , a także
słowników [16, 49].
Przeglad
˛ literatury kończy podsumowanie badań lingwistycznych nad ograniczeniami procesu tłumaczenia.
3 Dryf semantyczny w Wikipedii
W rozdziale trzecim rozważany jest nieskierowany graf, którego wierzchołkami sa˛
artykuły i kategorie ze wszystkich wersji jezykowych
˛
Wikipedii, a kraw˛edź miedzy
˛
dwoma wierzchołkami v1 i v2 jest wtedy, gdy istnieje co najmniej jeden z nastepuj
˛ a˛
cych dwóch odnośników miedzyj
˛
ezykowych:
˛
v1 → v2 lub v2 → v1 . Kolorem wierzchołka jest jezyk
˛
edycji, z której dany artykuł lub kategoria pochodzi.
Szczegółowo opisane sa˛ uwarunkowania techniczne, ograniczenia i założenia przyjete
˛ podczas konstrukcji wyżej wymienionej sieci. Wśród najważniejszych proble1 Zobacz:
prezentacje na Language Resources and Evaluation Conference 2008, dostepne
˛
tutaj:
http://www.lrec-conf.org/lrec2008/List-of-accepted-papers.html
9
100
200
5
10
Component size
20
50
100
50
20
Component size
10
2
5
2
1e+00
1e+02
1e+04
1e+06
1
100
Rank
10000
Rank
500
200
50
Component size
10
20
1e+03
1e+02
5
1e+01
Component size
1e+04
1e+05
Rysunek 5: Rozmiary bezkonfliktowych spójnych składowych w sieci interwiki dla
artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego
˛
do najmniejszego. Obie osie sa˛ w skali logarytmicznej. Zauważalny jest wpływ
masowo tworzonych stron nt. dat i lat na kształt rozkładu.
1
10
100
1000
10000
1
Rank
5
10
50
100
500
5000
Rank
Rysunek 6: Rozmiary konfliktowych spójnych składowych w sieci interwiki dla artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego
˛
do
najmniejszego. Obie osie sa˛ w skali logarytmicznej.
10
10000
1e+06
Count
1
100
1e+04
Count
1e+02
1e+00
1
2
5
10
20
50
100
200
1
Degree
2
5
10
20
50
100
Degree
Rysunek 7: Po lewej stronie, rozkład stopni swobody wierzchołków w siecach A (niebieskie gwiazdki) i C (czerwone kółka). Obie osie w skali logarytmicznej. Po prawej
stronie, rozkład stopni swobody wierzchołków w „szkieletach” sieci, po ściagni
˛ e˛
ciu odpowiednio zwartych klastrów do punktów. Obie osie w skali logarytmicznej.
Wyłacznie
˛
konfliktowe spójne składowe. Rozkład pasuje do rozkładu power-law z
γ ≈ 3.75 (R2 ≈ 0.9770).
mów wymienić można:
• dwojaka˛ interpretacje˛ tzw. przekierowań – w przeważajacej
˛
cześci
˛
sa˛ to odnośniki do stron na ten sam temat, zdarzaja˛ sie˛ jednak odnośniki do stron o
ogólniejszym zakresie;
• problem tzw. podwójnych przekierowań, odnośników interwiki do tej samej
edycji jezykowej,
˛
itp.;
• przesuniecie
˛
w czasie zrzutów baz danych poszczególnych edycji jezykowych.
˛
Nastepnie
˛
przedstawione sa˛ własności sieci odnośników interwiki. Osobno rozpatrywana jest sieć połacze
˛ ń pomiedzy
˛
artykułami (A), a osobno pomiedzy
˛
katoriami
(C ).
Analizowany jest m.in. rozkład wielkości spójnych składowych. W przypadku
rozkładu wielkości bezkonfliktowych spójnych składowych daje sie˛ wyróżnić dwa reżimy (por. Rys. 5). Okazuje sie,
˛ że podział ten pokrywa sie˛ z podziałem na artykuły
tworzone mniej lub bardziej automatycznie (np. artykuły o wszystkich latach naszej
ery), a artykułami pisanymi „recznie”.
˛
Wśród bezkonfliktowych spójnych składowych nie ma już analogicznego podziału (por. Rys. 6). We wszystkich przypadkach
wielkości spójnych składowych maja˛ rozkład power-law, tzn. wielkości składowych
sa˛ proporcjonalne do ich rankingu w pewnej (ujemnej) potedze.
˛
Nastepnie
˛
analizowany jest rozkład stopni wierzchołków w sieci (por. Rys. 7).
Okazuje sie,
˛ że po ściagni
˛ eciu
˛
dostatecznie zwartych klastrów do punktów, pozostały „szkielet” ma dość regularny rozkład stopni wierzchołków. W rozprawie szczegółowo omawiane sa˛ piki w rozkładach stopni zarówno w oryginalnej sieci, jak i w
11
Rysunek 8: Szkielet średniej wielkości spójnej składowej (812 artykułów, w tym 42 w
jezyku
˛
angielskim).
szkieletowej. Przedstawiony jest dokładny algorytm tworzenia szkieletu (pseudokod,
ilustracje). Podany jest także przykładowowy wynikowy szkielet (por. Rys. 8).
4 Wyniki teoretyczne
W rozprawie dowodzi sie˛ NP-trudności głównego problemu obliczeniowego. Dowód nastepuje
˛
przez transformacje˛ wielomianowa˛ z problemu Multiterminal Cut,
którego złożoność została przeanalizowana w [12]. Nastepnie
˛
proponuje sie˛ szereg
przybliżonych rozwiaza
˛ ń ww. problemu, każdorazowo szacowana jest złożoność obliczeniowa algorytmu.
Algorithm 1 GreedyMerge(G, ~
E ) – meta-algorytm zachłanny
1: F ← ∅
⊲ odrzucone kraw˛edzie, czyli proponowane ci˛ecia
2: for v ∈ V do
3:
A[v] ← {κ (v)}
4:
B[v] ← {v}
5: end for
6: for {v1 , v2 } ∈ ~
E do
7:
if A[v1 ] ∩ A[v2 ] = ∅ then
8:
A [ v1 ] ← A [ v2 ] ← A [ v1 ] ∪ A [ v2 ]
9:
B [ v1 ] ← B [ v2 ] ← B [ v1 ] ∪ B [ v2 ]
10:
else if B[v1 ] 6= B[v2 ] then
11:
F ← F ∪ {{v1 , v2 }}
12:
end if
13: end for
14: return F
12
Na poczatku
˛
omówione jest meta-podejście: algorytm zachłanny (por. Alg. 1),
który wymaga podania sposobu uszeregowania kraw˛edzi (~E). Wywołanie owego
algorytmu z losowym porzadkiem
˛
kraw˛edzi stanowić bedzie
˛
punkt odniesienia podczas badania skuteczności pozostałych podejść.
Nastepnie
˛
przedstawione jest podejście oparte na iterowanym poszukiwaniu maksymalnej kliki, które jako jedyne z proponowanych nie korzysta ze wspomnianego
wyżej meta-algorytmu. Po nim nastepuje
˛
prezentacja rozwiazania
˛
korzystajacego
˛
z opisanego wyżej meta-algorytmu zachłannego, w którym najpierw w˛ezły sieci
umieszczane sa˛ w przestrzeni R n , a nastepnie
˛
kraw˛edzie szeregowane sa˛ wg długości w tej przestrzeni. W˛ezły rozmieszczane sa˛ tak, aby minimalizować potencjał:
P( x1 , x2 , . . . , x|V | ) :=
∑
µij | xi − x j | − R
2
{vi ,v j }∈ E
+λR3
1
|x − xj|
{v ,v }∈ F i
∑
i
(6)
j
gdzie µij := µ({vi , v j }) jest waga˛ kraw˛edzi łacz
˛ acej
˛ v i i v j , a F : = { v i , v j } ∈ 2V κ ( v i ) =
κ (v j ) ∧ i 6= j jest zbiorem par w˛ezłów tego samego koloru. Możliwość analitycznego
obliczenia ∇P ma kapitalne znaczenie dla wydajności proponowanego algorytmu.
Dalej, proponowane jest podejście wykorzystujace
˛ algorytm ewolucyjny. Osobnikami w populacji sa˛ ciecia,
˛
celem jest minimalizacja kosztu rozbioru, a krzyżowanie osobników wykorzystuje wspomniany wyżej meta-algorytm zachłanny. Wreszcie, opisane jest rozwiazanie
˛
bed
˛ ace
˛ w istocie przystosowaniem algorytmu GirvanaNewmana do postawionego w rozprawie problemu.
5 Wyniki eksperymentalne
Zaproponowane w cześci
˛
teoretycznej algorytmy sa˛ nastepnie
˛
testowane w praktyce
na sieci odnośników interwiki w Wikipedii. Badana jest zarówno jakość wyników, jak
i czas niezbedny
˛
do ich uzyskania. Tablica 2 przedstawia rezultat jednego z eksperymentów. Rozwiazanie
˛
oparte na algorytmach genetycznych osiaga
˛ najniższy koszt
spośród wszystkich zaproponowanych, ma za to długi, choć wcia˛ż akceptowalny,
czas działania. Rozdział 5 rozprawy zawiera szczegółowe opisy eksperymentów oraz
ocene˛ wyników.
6 Dodatki
W dodatku A opisane sa˛ szczegóły implementacyjne narzedzi
˛
napisanych na potrzeby rozprawy: wyjaśniony jest proces importu danych, przedstawiony schemat
bazy danych w jezyku
˛
SQL, oraz diagram klas w jezyku
˛
UML. Dodatek B zawiera
słownik pojeć
˛ i oznaczeń używanych w rozprawie.
13
Składowa
0C42DB42
0EBA16A3
1E0B534B
25ECD94D
40EA68AE
4B8C5F58
4BB0A9F9
4E7C07B1
534F3412
557FD07F
56B1A372
5AA6E4BA
5D2EA275
6C72FBBA
8672A237
96B93C7A
A51F2E7A
B559954A
C54407E4
C57187AA
CBA823C5
CCCCE533
D48EBEE8
D5831EA2
E6C63BF8
EDB82C74
W˛ezły Kraw˛edzie
3869
255232
1701
8570
1187
20873
4549
106516
2027
34794
7832
494188
3881
248171
1091
19705
1045
18638
4011
253246
1235
16208
1302
22256
1689
65410
5921
372930
1150
20255
2274
39293
1905
34103
1833
31302
1395
25268
1058
7401
1016
18724
1214
64382
3719
234073
2185
37712
1070
19594
2464
32576
MNR AVR MXR CLI
SPA GEN
BET
295 3621 7455 276
281
276 2848
2038 2384 2862 2067 1517 1462 1604
4474 5974 7448 3061 2810 1687 2607
2272 4263 5637 1007 1169
986 1025
339
818 1456 198
463
190
198
3574 10891 25081 1035 4459 1035 1035
1009 4973 8303 374
374
374 3213
3873 4676 5632 1468 1810 1098 2942
113
673 1455
94
94
94
94
232 2581 6591 232
232
232
232
2236 3025 4324 1044 1325
918 1393
5254 6560 7464 2152 3679 1712 5111
18076 21663 24124 5442 15949 4943 18006
1670 7658 16638 1039 1045 1039 16462
3611 4746 6114 1271 1382
951 2532
8070 9375 10394 2700 4180 2491 5307
207
531 1027 135
348
127
127
203
983 1565 154
175
154
154
184
757 1892 119
111
111
111
1439 1699 2098 832
932
704 1156
763 1345 2520 473 1098
439
575
8675 12191 21687 1988 2857 1834 4064
938 3376 5814 308
313
308 3027
209 1026 1713 145
145
136
136
4053 5383 7328 1523 1736 1395 2179
6094 7752 9445 2431 3171 2113 4473
Tablica 2: Koszt rozbioru dla najwiekszych
˛
spójnych składowych w badanej sieci
(rozmiary powyżej 1000 w˛ezłów). Każdy wiersz reprezentuje spójna˛ składowa.
˛ Trzy
pierwsze kolumny zawieraja:
˛ identyfikator składowej, liczbe˛ w˛ezłów, oraz liczbe˛ kraw˛edzi. Nastepne
˛
kolumny zawieraja˛ koszt rozbiorów znalezionych przez 7 badanych
algorytmów. W każdym wierszu, wartość najlepszego (najniższego) kosztu jest wytłuszczony. Algorytm GEN, a wiec
˛ rozwiazanie
˛
oparte na algorytmach genetycznych,
wypada najlepiej.
14
Literatura
[1] Albert, R., Barabási, A.L.: Statistical mechanics of complex networks. Reviews of
Modern Physics 74 (2002) 47–97
[2] Anthonisse, J.M.: The rush in a directed graph. Technical Report BN 9/71,
Stichting Mathematisch Centrum, Amsterdam (1971)
[3] Barabási, A.L., Albert, R.: Emergence of scaling in random networks. Science 286
(1999) 509–512
[4] Barak, A.: Psychological Aspects of Cyberspace: Theory, Research, Applications. Cambridge University Press, New York, NY, USA (2008)
[5] Berners-Lee, T., Hendler, J., Lassila, O.: The Semantic Web. Scientific American
(2001)
[6] Berners-Lee, T.: Tim Berners-Lee on the next Web. TED Talks (2009)
[7] Bomze, I., Budinich, M., Pardalos, P.M., Pelillo, M.: The maximum clique problem. In Du, D.Z., Pardalos, P.M., eds.: Handbook of Combinatorial Optimization
(Supplement Volume A). Volume 4. Kluwer Academic Publishers, Boston, MA
(1999)
[8] Boudet, V., Rastello, F., Robert, Y.: Alignment and distribution is NOT (always)
NP-hard. In: Proceedings of the International Conference on Parallel and Distributed
Systems. (1998)
[9] Brandes, U., Lerner, J.: Visual analysis of controversy in user-generated encyclopedias. Information Visualization 7 (2008) 34–48
[10] Bryant, S.L., Forte, A., Bruckman, A.: Becoming Wikipedian: transformation of
participation in a collaborative online encyclopedia. In: GROUP ’05: Proceedings
of the 2005 international ACM SIGGROUP conference on Supporting group work.
(2005) 1–10
[11] Bunde, A., Havlin, S.: Power-law persistence in the atmosphere and in the
oceans. Physica A 314 (2002) 15–24
[12] Dahlhaus, E., Johnson, D.S., Papadimitriou, C.H., Seymour, P.D., Yannakakis,
M.: The Complexity of Multiterminal Cuts. SIAM J. Comput. 23 (1994) 864–894
[13] Dorogovtsev, S.N., Mendes, J.F.F., Oliveira, J.G.: Frequency of occurrence of
numbers in the World Wide Web. Physica A 360 (2006) 548
[14] Eades, P.: A Heuristic for Graph Drawing. Congressus Numerantium 42 (1984)
149–160
15
[15] Ebel, H., Mielsch, L.I., Bornholdt, S.: Scale-free topology of e-mail networks.
Physical Review E 66 (2002) 035103
[16] Erdmann, M., Nakayama, K., Hara, T., Nishio, S.: Lecture Notes in Computer
Science. In Haritsa, J.R., Ramamohanarao, K., Pudi, V., eds.: DASFAA. Volume
4947., Springer (2008) 380–392
[17] Erdős, P., Rényi, A.: On random graphs, I. Publicationes Mathematicae 6 (1959)
290–297
[18] Erdős, P., Rényi, A.: On the evolution of random graphs. Publ. Math. Inst. Hung.
Acad. Sci 5 (1960) 17–61
[19] Ford, L.R., Fulkerson, D.R.: Flows in Networks. Princeton University Press, Princeton, NJ (1962)
[20] Freeman, L.C.: A Set of Measures of Centrality Based on Betweenness. Sociometry
40 (1977) 35–41
[21] Fruchterman, T.M.J., Reingold, E.M.: Graph Drawing by Force-directed Placement. Software - Practice and Experience 21 (1991) 1129–1164
[22] Girvan, M., Newman, M.E.J.: Community structure in social and biological
networks. Proc. Natl. Acad. Sci. U.S.A. 99 (2002) 7821–6
[23] Goldberg, D.E.: Genetic Algorithms in Search, Optimization, and Machine Learning.
Addison-Wesley Professional (1989)
[24] Hansen, S., Berente, N., Lyytinen, K.: Wikipedia, Critical Social Theory, and the
Possibility of Rational Discourse. The Information Society 25 (2009) 38–59
[25] He, G., Liu, J., Zhao, C.: Approximation algorithms for some graph partitioning
problems. Journal of Graph Algorithms and Applications 4 (2000) 1–11
[26] Hong, B.H., Lee, K.E., Lee, J.W.: Power Law in Firms Bankruptcy. Physics Letter
A 361 (2007) 6
[27] Kamada, T., Kawai, S.: An algorithm for drawing general undirected graphs.
Inf. Process. Lett. 31 (1989) 7–15
[28] Li, J., Chen, M.: Index Domain Alignment: Minimizing Cost of Cross-reference
between Distributed Arrays. In: Proceedings of the third Symposium on Frontiers of
Massively Parallel Computation. (1990) 424–433
[29] Luccio, F., Sami, M.: On the Decomposition of Networks in Minimally Interconnected Subnetworks. IEEE Transactions on Circuit Theory 16 (1969) 184–188
[30] Magnus, P.D.: On Trusting WIKIPEDIA. Episteme 6 (2009) 74–90
16
[31] Mantegna, R.N., Buldyrev, S.V., Goldberger, A.L., Havlin, S., Peng, C.K., Simons,
M., Stanley, H.E.: Linguistic Features of Noncoding DNA Sequences. Phys. Rev.
Lett. 73 (1994) 3169–3172
[32] Marsili, M., Zhang, Y.C.: Interacting Individuals Leading to Zipf’s Law. Phys.
Rev. Lett. 80 (1998) 2741–2744
[33] Mitchell, M.: An Introduction to Genetic Algorithms. The MIT Press (1998)
[34] Miyazima, S., Lee, Y., Nagamine, T., Miyajima, H.: Power-law Distribution of
Family Names in Japanese Societies. Physica A 278 (2000) 282 – 288
[35] Newman, M.E.J.: Scientific collaboration networks. I. Network construction and
fundamental results. Phys. Rev. E 64 (2001) 016131
[36] Newman, M.E.J.: Scientific collaboration networks. II. Shortest paths, weighted
networks, and centrality. Phys. Rev. E 64 (2001) 016132
[37] Newman, M.E.J.: Detecting community structure in networks. European Physical
Journal B 38 (2004) 321–330
[38] Newman, M.E.J.: Fast algorithm for detecting community structure in networks.
Physical Review E 69 (2004) 066133
[39] Newman, M.E.J.: Modularity and community structure in networks. Proceedings
of the National Academy of Sciences 103 (2006) 8577–8582
[40] Newman, M.E.J., Girvan, M.: Finding and evaluating community structure in
networks. Physical Review E 69 (2004) 026113
[41] Nunes, S., Ribeiro, C., David, G.: WikiChanges - Exposing Wikipedia Revision
Activity. In: WikiSym’08: Proceedings of the 2008 international symposium on Wikis.
(2008)
[42] Oreg, S., Nov, O.: Exploring motivations for contributing to open source initiatives: The roles of contribution context and personal values. Comput. Hum. Behav.
24 (2008) 2055–2073
[43] Pushkin, D.O., Aref, H.: Bank mergers as scale-free coagulation. Physica A 336
(2004) 571–584
[44] Sanger, L.M.: The Fate of Expertise after WIKIPEDIA. Episteme 6 (2009) 52–73
[45] Schroer, J., Hertel, G.: Voluntary Engagement in an Open Web-Based Encyclopedia: Wikipedians and Why They Do It. Media Psychology 12 (2009) 96–120
[46] Stone, H.S.: Multiprocessor Scheduling with the Aid of Network Flow Algorithms. IEEE Trans. Softw. Eng. 3 (1977) 85–93
17
[47] Suh, B., Chi, E.H., Pendleton, B.A., Kittur, A.: Us vs. Them: Understanding
Social Dynamics in Wikipedia with Revert Graph Visualizations. In: IEEE Symposium on Visual Analytics Science and Technology. (2007) 163–170
[48] Tollefsen, D.P.: WIKIPEDIA and the Epistemology of Testimony. Episteme 6
(2009) 8–24
[49] Tyers, F.M., Pienaar, J.A.: Extracting bilingual word pairs from Wikipedia. In:
Proceedings of the SALTMIL Workshop at Language Resources and Evaluation Conference, LREC08. (2008) 19–22
[50] Wasserman, S., Faust, K.: Social Network Analysis: Methods and Applications. Cambridge University Press (1994)
[51] Watts, D.J., Strogatz, S.H.: Collective dynamics of ’small-world’ networks. Nature
393 (1998) 440–2
[52] Wray, B.K.: The Epistemic Cultures of Science and WIKIPEDIA: A Comparison.
Episteme 6 (2009) 38–51
18

Podobne dokumenty