streszczenie rozprawy doktorsk-76

Transkrypt

Streszczenie rozprawy doktorskiej pt. „Methods
of Semantic Drift Reduction in Large Similarity
Networks”
mgr Łukasz Bolikowski, ICM UW
1 Wprowadzenie
1.1 Wiek Informacji
Za sprawa˛ Internetu dostep
˛ do informacji jest dziś prostszy niż kiedykolwiek w historii, a zakres dostepnych
˛
treści stale sie˛ poszerza.
Z jednej strony, treści pojawiaja˛ sie˛ w Sieci w wyniku cyfryzacji „tradycyjnych” mediów takich jak: ksia˛żki, czasopisma, czy fotografie. Warto w tym miejscu wymienić
wielkie projekty cyfryzacyjne: Google Books, JSTOR, Project Gutenberg, Times Online, czy World Digital Library. Aby uzmysłowić skale˛ wymienionych przedsiewzi
˛
eć
˛
nadmieńmy, że Times Online udostepnia
˛
wszystkie wydania gazety z lat 1785-1985,
a JSTOR zawiera ponad 32 miliony dokumentów wytworzonych na przestrzeni czterech wieków. Niektóre archiwa udostepniaj
˛
a˛ materiały w postaci cyfrowej za darmo
i na wolnych licencjach, na przykład Deutsche Fotothek udostepniła
˛
wersje elektroniczne ponad 250 tysiecy
˛ archiwalnych fotografii na licencji Creative Commons BYSA 3.0.
Z drugiej zaś strony, współczesne dokumenty tworzone sa˛ (zazwyczaj) od razu w
postaci cyfrowej, z pominieciem
˛
procesu cyfryzacji. W świecie recenzowanych czasopism naukowych najpopularniejszy model to jednoczesna, lub prawie jednoczesna,
publikacja wersji elektronicznej i papierowej, choć zdarzaja˛ sie˛ takie periodyki, jak
np. First Monday, które ukazuja˛ sie˛ wyłacznie
˛
w wersji cyfrowej.
Zalew informacji niesie wyjatkowe
˛
możliwości, ale stwarza też nowe wyzwania.
Wraz z dostepności
˛
a˛ coraz wiekszej
˛
ilości treści rośnie trudność znalezienia wartościowej informacji w morzu dokumentów, artykułów, notek blogowych i innych stron
WWW. Wyszukiwarki internetowe, takie jak Google, zawieraja˛ heurystyki nadajace
˛
wage˛ poszczególnym zasobom (w przypadku Google jest to algorytm PageRank).
1.2 Sieć Semantyczna
Nastepny
˛
krok to indeksowanie wiedzy, a nie jedynie danych, czyli gromadzenie relacji semantycznych pomiedzy
˛
obiektami, co pozwoli użytkownikowi na budowanie
bardziej precyzyjnych zapytań [5]. Tak zwana Sieć Semantyczna to, w najwiekszym
˛
1
skrócie, próba reprezentacji wiedzy w postaci trójek podmiot-predykat-przedmiot.
Trójki te reprezentuja˛ zwiazki
˛
pomiedzy
˛
obiektami reprezentowanymi za pomoca˛
URI (ang. Uniform Resource Indentifier), a opisany model danych znany jest pod nazwa˛ RDF (ang. Resource Description Framework).
Rysunek 1: Zbiory danych RDF, połaczone
˛
w ramach projektu Linking Open Data.
Stan na lipiec 2009. Każdy w˛ezeł reprezentuje zbiór danych RDF, a każda kraw˛edź
– połaczenia
˛
semantyczne pomiedzy
˛
zbiorami danych. Kolor koduje tematyke.
˛ Autorka: Anja Jentzsch, licencja: CC-BY-SA 3.0.
Istnieje wiele ustalonych słowników predykatów, zwanych ontologiami, które pozwalaja˛ opisywać zwiazki
˛
pomiedzy
˛
obiektami w obrebie
˛
konkretnych dziedzin wiedzy. Przykładowo, Dublin Core pozwala wyrażać własności dokumentów w rodzaju:
„osoba X jest autorem dokumentu Y”, „dokument X nosi tytuł Y”, czy „dokument X
jest cytowany przez dokument Y”, a Friend of a Friend (FOAF) definiuje jezyk
˛
opisu
relacji miedzy
˛
ludźmi: „osoba X ma adres e-mail Y”, „osoba X zna osobe˛ Y”, czy
„osoba X jest zainteresowana tematem Y”.
Wreszcie, instnieja˛ jezyki
˛
zapytań, takie jak SPARQL, które zapewniaja˛ dostep
˛ do
wywnioskowanej wiedzy. Sir Tim Berners-Lee – pomysłodawca zarówno sieci WWW
(ang. World Wide Web) jak i Sieci Semantycznej (ang. Semantic Web) – przekonuje,
że ta ostatnia zrewolucjonizuje nasz dostep
˛ do informacji tak, jak uczyniła to WWW
[6]. Dzieki
˛ SPARQL możemy za pomoca˛ jednego zapytania otrzymać np. liste˛ kompozytorów niemieckich urodzonych w Berlinie przed rokiem 1900. Zauważmy, że
2
analogicznego zapytania nie da sie˛ skonstruować w oparciu o „klasyczna”
˛ wyszukiwarke˛ pełnotekstowa.
˛
1.3 Rozproszone przechowywanie relacji równoważności
Czesto
˛
ta sama wiedza jest przechowywana w wielu miejscach jednocześnie: metadane artykułu naukowego moga˛ znajdować sie˛ w wielu bibliotekach cyfrowych,
słowo może być zdefiniowane w wielu słownikach, a film opisany w wielu bazach
filmowych. Co wiecej,
˛
różne bazy moga˛ w swoich rekordach zawierać odnośniki do
równoważnych rekordów w innych bazach. Na przykład: leki opisane w bazie DrugBank zawieraja˛ odnośniki do opisów w bazach PharmGKB oraz RxList. Mamy wiec
˛
do czynienia z rozproszona˛ reprezentacja˛ relacji równoważności, czyli takiej relacji,
która spełnia trzy poniższe warunki:
1. zwrotność: ∀ X X ≡ X
2. symetryczność: ∀ X,Y (X ≡ Y ) ⇒ (Y ≡ X )
3. przechodność: ∀ X,Y,Z (X ≡ Y ) ∧ (Y ≡ Z) ⇒ (X ≡ Z).
Przykładowo, zarówno „sekwencja X jest homologiem sekwencji Y”, jak i „słowo X
jest synonimem słowa Y” sa˛ relacjami równoważności na pewnych zbiorach (odpowiednio: sekwencji biologicznych i słów w jezyku
˛
naturalnym).
Rysunek 2: Ilustracja dryfu semantycznego. Po lewej stronie przedstawiona jest
pewna relacja równoważności, a po prawej stronie jej zniekształcona reprezentacja,
w której pewne nierównoważne obiekty pozostaja˛ ze soba˛ w relacji.
Rozproszone przechowywanie relacji równoważności, oznacza brak kontroli nad
spójnościa˛ przechowywanych informacji, a wiec
˛ niesie ze soba˛ niebezpieczeństwo
pojawienia sie˛ tzw. dryfu semantycznego. Ogólnie rzecz biorac,
˛ możliwe sa˛ dwie klasy
odstepstw
˛
od stanu idealnego: brak zwiazków
˛
które powinny były wystapić,
˛
oraz
istnienie zwiazków,
˛
których być nie powinno (por. rys. 2). Pierwsza klasa jest mniej
3
Artykuły
Kategorie
Jezyk
˛
Strony
Interwiki
Strony
Interwiki
Angielski
2 502 189 4 763 819
389 987
608 787
Niemiecki
791 848
3 331 290
55 323
417 800
Francuski
687 290
3 398 456
96 073
482 098
Polski
552 267
2 834 358
37 814
284 455
Niderlandzki
513 295
2 927 619
37 202
238 934
Japoński
512 872
2 170 917
51 284
407 294
Włoski
506 223
2 986 566
51 948
195 548
Portugalski
469 382
2 697 324
48 389
256 680
Hiszpański
389 929
2 542 999
61 377
376 110
...
...
...
...
...
Łacznie
˛
11 510 142 89 339 694 1 724 088 13 902 852
Tablica 1: Liczba stron, kategorii i odpowiadajacych
˛
im wychodzacych
˛
odnośników
miedzyj
˛
ezykowych
˛
(popularnie zwanych interwiki) dla 10 najwiekszych
˛
(wg liczby
artykułów) edycji jezykowych
˛
Wikipedii. Dane na podstawie zrzutów baz danych
pobranych 27 sierpnia 2008.
groźna o tyle, że operacja domkniecia
˛
symetrycznego i przechodniego zazwyczaj be˛
dzie w stanie odtworzyć brakujace
˛ zwiazki.
˛
Druga klasa utożsamia natomiast różne
pojecia
˛
i – jak pokażemy w dalszej cześci
˛
pracy – zadanie usuniecia
˛
nadmiarowych
zwiazków
˛
(dokładniej: transformacji danej relacji do pewnej relacji równoważności
najmniejszym możliwym kosztem) jest z obliczeniowego punktu widzenia znacznie
trudniejsze.
Jedna˛ z prostych recept na pozbycie sie˛ wyżej wymienionych problemów jest
zmiana reprezentacji wiedzy: zamiast przechowywać zwiazki
˛
pomiedzy
˛
równoważnymi obiektami, można przechowywać przynależność obiektów do ich klas równoważności. Przykładowo, zamiast przechowywać relacje˛ „osoba X miesza w tym samym mieście co osoba Y”, można prechowywać relacje˛ „osoba X mieszka w mieście
Y”. W naszym przypadku klasami abstrakcji oryginalnej relacji równoważności sa˛
miasta. Opisana tu metoda zadziała pod warunkiem, że klasom abstrakcji można
jednoznacznie przypisać identyfikatory.
1.4 Wikipedia
Wikipedia to „wolna encyklopedia internetowa, która˛ każdy może redagować”, majaca
˛ ponad 250 edycji (wersji) jezykowych.
˛
Fundacja Wikimedia regularnie publikuje
zrzuty baz danych wszystkich edycji (na wolnej licencji GNU FDL), dzieki
˛ czemu
badacze moga˛ analizować treść całej encyklopedii. Niniejsza rozprawa wykorzystuje
wiedze˛ zgromadzona˛ w Wikipedii do empirycznego sprawdzenia wypracowanych
tu metod. Rozdział trzeci bazuje na treści 262 edycji jezykowych
˛
pobranej 27 sierpnia
2008 roku, a rozdział piaty
˛ — na treści 265 edycji jezykowych
˛
pobranej 12 października 2009 roku.
4
Rysunek 3: Przykładowy artykuł w Wikipedii z zaznaczym obszarem w którym znajduja˛ sie˛ powiazania
˛
z odpowiadajacymi
˛
artykułami w innych wersjach jezykowych.
˛
Wikipedia jest oparta na silniku MediaWiki: każda edycja jezykowa
˛
używa własnej instancji silnika i, technicznie rzecz biorac,
˛ jest niemal całkowicie niezależna od
pozostałych edycji. W pracy koncentrujemy sie˛ na dwóch typach stron: artykułach
i kategoriach (te ostatnie sa˛ swego rodzaju etykietami artykułów). Strona w danej
wersji jezykowej
˛
może posiadać odnośniki do odpowiadajacych
˛
jej (równoważnych)
stron w innych wersjach jezykowych.
˛
Takie odnośniki miedzyj
˛
ezykowe
˛
sa˛ popularnie
i zwieźle
˛
nazywane interwiki. Przykład: artykuł pod tytułem „London” w angielskiej
wersji jezykowej
˛
zawiera (miedzy
˛
innymi) interwiki do artykułu „Londres” w wersji francuskiej oraz do artykułu „Lontoo” w wersji fińskiej. Co ważne, ze wzgledu
˛
na autonomiczny charakter poszczególnych wersji jezykowych
˛
nie ma kontroli spójności tak tworzonych odnośników miedzyj
˛
ezykowych.
˛
Mamy wiec
˛ do czynienia z
rozproszonym przechowywaniem relacji równoważności, które potencjalnie prowadzić może do powstawania dryfu semantycznego.
1.5 Definicje, notacja i postawienie problemu
Rozważamy nieskierowane, kolorowane, ważone grafy G = hV, E, κ, µi, gdzie:
• V to zbiór wierzchołków;
• E ⊆ e ∈ 2V |e| = 2 to zbiór kraw˛edzi;
• κ : V → K to kolory wierzchołków;
5
• µ : E → R + to wagi kraw˛edzi.
W miejscach gdzie wagi kraw˛edzi nie bed
˛ a˛ miały znaczenia bedziemy
˛
zakładać µ ≡
1, a graf zapisywać krócej: G = hV, E, κ i.
Rozbiorem grafu G nazwiemy dowolna˛ funkcje˛ π : V → 2V spełniajac
˛ a˛ nastepuj
˛ ace
˛
warunki:
∀ v ∈V v ∈ π ( v )
(1)
∀v,w∈V π (v) = π (w) ∨ π (v) ∩ π (w) = ∅
(2)
∀ v 6 = w ∈V π ( v ) = π ( w ) ⇒ κ ( v ) 6 = κ ( w )
(3)
Dwa pierwsze warunki stwierdza po prostu, że π dzieli V na rozłaczne
˛
podzbiory,
które sumuja˛ sie˛ do V. Trzeci warunek mówi, że każdy podzbiór może zawierać co
najwyżej jeden wierzchołek danego koloru. Zbiór wszystkich możliwych rozbiorów
grafu G oznaczać bedziemy
˛
przez P(G ).
Rysunek 4: Dwa przykłady rozbioru grafu. W każdym z przykładów rozbiór oznaczony jest kropkowanymi okregami,
˛
a kraw˛edzie niezgodne z rozbiorem sa˛ pogrubione.
Powiemy, że kraw˛edź e = {v, w} ∈ E jest niezgodna z rozbiorem π ∈ P(G ), jeśli
π (v) 6= π (w). Innymi słowy, kraw˛edź jest niezgodna z rozbiorem jeśli łaczy
˛
wierzołki
należace
˛ do różnych podzbiorów rozbioru. Dalej, niech IG (π ) oznacza wszystkie
kraw˛edzie grafu G niezgodne z rozbiorem π ∈ P(G ):
IG (π ) := {v, w} ∈ Eπ (v) 6= π (w)
(4)
Zbiór kraw˛edzi niezgodnych z jakimś rozbiorem bedziemy
˛
nazywać ci˛eciem. Wreszcie, zdefiniujmy funkcje˛ k · k G : P(G ) → R + ∪ {0}, która mierzyć bedzie
˛
stopień
niezgodności rozbioru π z grafem G (koszt rozbioru):
kπ k G :=
∑
e ∈ IG ( π )
6
µ(e )
(5)
Możemy teraz przystapić
˛
do sformułowania głównego problemu obliczeniowego
badanego w niniejszej rozprawie:
˛ dany graf G = hV, E, κ, µi, znaProblem 1 (Rozbiór o najmniejszym koszcie) Majac
leźć rozbiór π ∈ P(G ) taki, że kπ k G jest najmniejsze.
1.6 Najważniejsze wyniki
Rozprawa zawiera kilka oryginalnych wyników:
1. Szczegółowa analiza i opis sieci odnośników miedzyj
˛
ezykowych
˛
w Wikipedii.
Sieć owa posiada ciekawa˛ i niecodzienna˛ topologie:
˛ jej spójne składowe sa˛ zbudowane z klastrów połaczonych
˛
szkieletem o topologii bezskalowej.
2. Analiza złożoności obliczeniowej głównego problemu: dowód, że jest on NPtrudny.
3. Zastosowanie pieciu
˛
znanych w informatyce podejść i algorytmów do poszukiwania przybliżonych rozwiaza
˛ ń problemu:
• algorytm zachłanny;
• iterowane poszukiwanie najwiekszej
˛
kliki;
• numeryczna minimalizacja pewnego potencjału wielowymiarowego;
• algorytm genetyczny;
• pewna modyfikacja algorytmu Girvana-Newmana.
4. Jako efekt uboczny jednego z podejść: metoda wizualizacji analizowanych sieci
5. Ilościowa ocena proponowanych algorytmów, zarówno jakości wyników jak i
czasu działania. Za dane doświadczalne posłużyła sieć odnośników miedzyj
˛
e˛
zykowych w Wikipedii.
6. Dokumentacja architektury otwartego pakietu oprogramowania, który powstał
w trakcie badań i który był użyty, miedzy
˛
innymi, do przeprowadzenia wyżej
wymienionych testów.
1.7 Struktura pracy
W rozdziale pierwszym przedstawiony jest główny problem obliczeniowy wraz z
jego tłem, sprecyzowana jest notacja i pojecia
˛
używane w rozprawie, wyliczone najważniejsze wyniki oraz przedstawiona strukture˛ pracy.
W rozdziale drugim dokonany jest przeglad
˛ literatury w dziedzinach zwiazanych
˛
z tematem rozprawy, oraz przedstawiony jest bieżacy
˛ stan wiedzy.
Rozdział trzeci zawiera dogłebn
˛ a˛ analize˛ sieci odnośników miedzyj
˛
ezykowych
˛
w
Wikipedii, która to sieć jest ważnym przykładem relacji równoważności przechowywanej w rozproszonym środowisku.
7
Rozdział czwarty zawiera wyniki teoretyczne: dowód NP-trudności głównego
problemu obliczeniowego, a także pieć
˛ algorytmów dajacych
˛
przybliżone rozwia˛
zania wspomnianego problemu.
W rodziale piatym
˛
zawarte sa˛ wyniki eksperymentalne: jakość zaproponowanych algorytmów jest sprawdzana doświadczalnie na sieci odnośników miedzyj
˛
e˛
zykowych w Wikipedii.
Rozdział szósty stanowi podsumowanie rozprawy, sa˛ w nim opisane wnioski wyciagni
˛ ete
˛ z badań oraz potencjalne dalsze kierunki prac.
W dodatku A opisane sa˛ szczegóły implementacyjne oprogramowania, które powstało przy okazji badań, a dodatek B zawiera słownik pojeć
˛ i symboli użytych w
pracy.
2 Przeglad
˛ literatury
Według najlepszej wiedzy autora, główny problem obliczeniowy nie był dotychczas
przedmiotem badań, jednakże szereg zbliżonych problemów był już badany, i to w
zaskakujaco
˛ różnych kontekstach.
Dahlhaus i inni [12] badali problem Multiterminal Cut, który z kolei jest uogólnieniem klasycznego problemu maksymalnego przepływu i minimalnego ciecia
˛
w
grafie [19]. Multiterminal Cut pyta o najtańszy sposób rozciecia
˛
grafu tak, aby
każdy wierzchołek z pewnego zbioru znalazł sie˛ w innej spójnej składowej. Pokazano, że jest to problem NP-trudny.
Problem o zbliżonej strukturze pojawił sie˛ w kontekście automatycznej optymalizacji przydziału pracy w obliczeniach rozproszonych [46]. Problem ten znany jest
pod nazwa˛ Index Domain Alignment [28, 8]. Podobna˛ strukture˛ ma też zadanie podziału schematu elektrycznego na grupy komponentów [29]. He i inni [25] dowiedli
natomiast NP-trudności problemu nazywanego Minimum Orthogonal Partition,
który różni sie˛ od problemu rozważanego w niniejszej pracy jedynie tym, że nakłada
pewne ograniczenia na liczność podzbiorów rozbioru.
W pracy badana jest struktura sieci odnośników interwiki. Literatura zna wiele
modeli rozwoju sieci. Wymieńmy tu trzy prawdopodobnie najważniejsze modele,
nazwane od nazwisk ich twórców: Erdős-Rényi [17, 18], Barabási-Albert [3, 1], and
Watts-Strogatz [51].
W analizie sieci przeprowadzonej w pracy okazuje sie,
˛ że wielkości spójnych skła−
γ
dowych maja˛ rozkład power-law, czyli: P( x ) ∝ x . Ów rozkład spotykany jest w
szeregu różnorodnych systemów, takich jak: rozkład wielkości aktywów bankowych
[43], czestość
˛
wystepowania
˛
nazwisk japońskich [34], liczba bankructw firm danego
dnia [26], czas utrzymywania sie˛ danej sytuacji atmosferycznej [11], wielkości miast
[32], wystapienia
˛
sekwencji par zasad DNA [31], liczba wysłanych e-maili [15], czy
wystapienia
˛
konkretnych liczb w sieci WWW [13].
Zadanie rozbioru grafu na skupiska w˛ezłów ma pewne zwiazki
˛
z problemem
znajdowania wspólnot w sieciach społecznych. Doskonałe wprowadzenie do tematu
analizy sieci społecznych znajduje sie˛ w monografii Wassermana i Fausta [50]. Szcze8
gólnie interesujacy,
˛ w kontekście pracy, jest algorytm Girvana-Newmana [22], który
korzysta z miary zwanej w literaturze anglojezycznej
˛
pod nazwa˛ edge betweenness
(pośredniość kraw˛edzi), zaproponowanej niezależnie przez Freemana [20] i Anthonisse’a [2]. Newman i Girvan [40] zaproponowali dwie miary pośredniości: jedna˛
oparta˛ na sieci rezystorów, druga˛ na bładzeniu losowym, a nastepnie
˛
pokazali, że
miary te sa˛ sobie równoważne. W tej samej pracy wprowadzili też ważne pojecie
˛
modularności. M. E. J. Newman jest autorem wielu ważnych prac z dziedziny analizy
sieci społecznych. Bada on sieci współpracy naukowej [35, 36], wprowadził ważne
poprawki do oryginalnego algorytmu Girvana-Newmana [38], dokonał przegladu
˛
algorytmów rozpoznajacych
˛
społeczności [37], wyraził problem znalezienia maksymalnej modularności w terminach wartości i wektorów własnych, co zaowocowało
szybszym i bardziej skutecznym algorytmem [39]. Lista prac poświeconych
˛
analizie
sieci społecznych jest oczywiście długa, w rozdziale drugim rozprawy znajduje sie˛
obszerniejszy przeglad
˛ literatury z tej dziedziny.
Rozprawa zawiera przeglad
˛ literatury poświeconej
˛
stosowanym w niej algorytmach i technikach rozwiazywania
˛
problemów optymalizacyjnych. Przybliżone rozwiazania
˛
problemu najwiekszej
˛
kliki, ich zastosowania, a także wyniki teoretyczne
zgromadzone sa˛ w doskonałym podreczniku
˛
[7]. Pozycje [23] oraz [33] stanowia˛
dobre wprowadzenie do algorytmów genetycznych. Wizualizacja dużych sieci była
studiowana m.in. w pracach Eadesa [14], Fruchtermana i Reingolda [21], a także
Kamady i Kawai [27].
Osobny podrozdział poświecony
˛
jest podsumowaniu badań nad treścia˛ Wikipedii oraz procesem jej tworzenia. Od strony jakościowej, współpraca przy tworzeniu
encyklopedii jest analizowana przez socjologów [10, 24, 45]; sposób, w jaki rewolucjonizuje dostep
˛ do wiedzy interesuje epistemologów [48, 52, 44, 30]; a motywacje
autorów były studiowane przez psychologów [4, 42]. Ilościowo, mierzona i wizualizowana jest dynamika wkładu użytkowników (np. interakcje, wzorce konfliktów)
[47, 9, 41]; wyekstrachowano z treści Wikipedii szereg korpusów i ontologii1 , a także
słowników [16, 49].
Przeglad
˛ literatury kończy podsumowanie badań lingwistycznych nad ograniczeniami procesu tłumaczenia.
3 Dryf semantyczny w Wikipedii
W rozdziale trzecim rozważany jest nieskierowany graf, którego wierzchołkami sa˛
artykuły i kategorie ze wszystkich wersji jezykowych
˛
Wikipedii, a kraw˛edź miedzy
˛
dwoma wierzchołkami v1 i v2 jest wtedy, gdy istnieje co najmniej jeden z nastepuj
˛ a˛
cych dwóch odnośników miedzyj
˛
ezykowych:
˛
v1 → v2 lub v2 → v1 . Kolorem wierzchołka jest jezyk
˛
edycji, z której dany artykuł lub kategoria pochodzi.
Szczegółowo opisane sa˛ uwarunkowania techniczne, ograniczenia i założenia przyjete
˛ podczas konstrukcji wyżej wymienionej sieci. Wśród najważniejszych proble1 Zobacz:
prezentacje na Language Resources and Evaluation Conference 2008, dostepne
˛
tutaj:
http://www.lrec-conf.org/lrec2008/List-of-accepted-papers.html
9
100
200
5
10
Component size
20
50
100
50
20
Component size
10
2
5
2
1e+00
1e+02
1e+04
1e+06
1
100
Rank
10000
Rank
500
200
50
Component size
10
20
1e+03
1e+02
5
1e+01
Component size
1e+04
1e+05
Rysunek 5: Rozmiary bezkonfliktowych spójnych składowych w sieci interwiki dla
artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego
˛
do najmniejszego. Obie osie sa˛ w skali logarytmicznej. Zauważalny jest wpływ
masowo tworzonych stron nt. dat i lat na kształt rozkładu.
1
10
100
1000
10000
1
Rank
5
10
50
100
500
5000
Rank
Rysunek 6: Rozmiary konfliktowych spójnych składowych w sieci interwiki dla artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego
˛
do
najmniejszego. Obie osie sa˛ w skali logarytmicznej.
10
10000
1e+06
Count
1
100
1e+04
Count
1e+02
1e+00
1
2
5
10
20
50
100
200
1
Degree
2
5
10
20
50
100
Degree
Rysunek 7: Po lewej stronie, rozkład stopni swobody wierzchołków w siecach A (niebieskie gwiazdki) i C (czerwone kółka). Obie osie w skali logarytmicznej. Po prawej
stronie, rozkład stopni swobody wierzchołków w „szkieletach” sieci, po ściagni
˛ e˛
ciu odpowiednio zwartych klastrów do punktów. Obie osie w skali logarytmicznej.
Wyłacznie
˛
konfliktowe spójne składowe. Rozkład pasuje do rozkładu power-law z
γ ≈ 3.75 (R2 ≈ 0.9770).
mów wymienić można:
• dwojaka˛ interpretacje˛ tzw. przekierowań – w przeważajacej
˛
cześci
˛
sa˛ to odnośniki do stron na ten sam temat, zdarzaja˛ sie˛ jednak odnośniki do stron o
ogólniejszym zakresie;
• problem tzw. podwójnych przekierowań, odnośników interwiki do tej samej
edycji jezykowej,
˛
itp.;
• przesuniecie
˛
w czasie zrzutów baz danych poszczególnych edycji jezykowych.
˛
Nastepnie
˛
przedstawione sa˛ własności sieci odnośników interwiki. Osobno rozpatrywana jest sieć połacze
˛ ń pomiedzy
˛
artykułami (A), a osobno pomiedzy
˛
katoriami
(C ).
Analizowany jest m.in. rozkład wielkości spójnych składowych. W przypadku
rozkładu wielkości bezkonfliktowych spójnych składowych daje sie˛ wyróżnić dwa reżimy (por. Rys. 5). Okazuje sie,
˛ że podział ten pokrywa sie˛ z podziałem na artykuły
tworzone mniej lub bardziej automatycznie (np. artykuły o wszystkich latach naszej
ery), a artykułami pisanymi „recznie”.
˛
Wśród bezkonfliktowych spójnych składowych nie ma już analogicznego podziału (por. Rys. 6). We wszystkich przypadkach
wielkości spójnych składowych maja˛ rozkład power-law, tzn. wielkości składowych
sa˛ proporcjonalne do ich rankingu w pewnej (ujemnej) potedze.
˛
Nastepnie
˛
analizowany jest rozkład stopni wierzchołków w sieci (por. Rys. 7).
Okazuje sie,
˛ że po ściagni
˛ eciu
˛
dostatecznie zwartych klastrów do punktów, pozostały „szkielet” ma dość regularny rozkład stopni wierzchołków. W rozprawie szczegółowo omawiane sa˛ piki w rozkładach stopni zarówno w oryginalnej sieci, jak i w
11
Rysunek 8: Szkielet średniej wielkości spójnej składowej (812 artykułów, w tym 42 w
jezyku
˛
angielskim).
szkieletowej. Przedstawiony jest dokładny algorytm tworzenia szkieletu (pseudokod,
ilustracje). Podany jest także przykładowowy wynikowy szkielet (por. Rys. 8).
4 Wyniki teoretyczne
W rozprawie dowodzi sie˛ NP-trudności głównego problemu obliczeniowego. Dowód nastepuje
˛
przez transformacje˛ wielomianowa˛ z problemu Multiterminal Cut,
którego złożoność została przeanalizowana w [12]. Nastepnie
˛
proponuje sie˛ szereg
przybliżonych rozwiaza
˛ ń ww. problemu, każdorazowo szacowana jest złożoność obliczeniowa algorytmu.
Algorithm 1 GreedyMerge(G, ~
E ) – meta-algorytm zachłanny
1: F ← ∅
⊲ odrzucone kraw˛edzie, czyli proponowane ci˛ecia
2: for v ∈ V do
3:
A[v] ← {κ (v)}
4:
B[v] ← {v}
5: end for
6: for {v1 , v2 } ∈ ~
E do
7:
if A[v1 ] ∩ A[v2 ] = ∅ then
8:
A [ v1 ] ← A [ v2 ] ← A [ v1 ] ∪ A [ v2 ]
9:
B [ v1 ] ← B [ v2 ] ← B [ v1 ] ∪ B [ v2 ]
10:
else if B[v1 ] 6= B[v2 ] then
11:
F ← F ∪ {{v1 , v2 }}
12:
end if
13: end for
14: return F
12
Na poczatku
˛
omówione jest meta-podejście: algorytm zachłanny (por. Alg. 1),
który wymaga podania sposobu uszeregowania kraw˛edzi (~E). Wywołanie owego
algorytmu z losowym porzadkiem
˛
kraw˛edzi stanowić bedzie
˛
punkt odniesienia podczas badania skuteczności pozostałych podejść.
Nastepnie
˛
przedstawione jest podejście oparte na iterowanym poszukiwaniu maksymalnej kliki, które jako jedyne z proponowanych nie korzysta ze wspomnianego
wyżej meta-algorytmu. Po nim nastepuje
˛
prezentacja rozwiazania
˛
korzystajacego
˛
z opisanego wyżej meta-algorytmu zachłannego, w którym najpierw w˛ezły sieci
umieszczane sa˛ w przestrzeni R n , a nastepnie
˛
kraw˛edzie szeregowane sa˛ wg długości w tej przestrzeni. W˛ezły rozmieszczane sa˛ tak, aby minimalizować potencjał:
P( x1 , x2 , . . . , x|V | ) :=
∑
µij | xi − x j | − R
2
{vi ,v j }∈ E
+λR3
1
|x − xj|
{v ,v }∈ F i
∑
i
(6)
j
gdzie µij := µ({vi , v j }) jest waga˛ kraw˛edzi łacz
˛ acej
˛ v i i v j , a F : = { v i , v j } ∈ 2V κ ( v i ) =
κ (v j ) ∧ i 6= j jest zbiorem par w˛ezłów tego samego koloru. Możliwość analitycznego
obliczenia ∇P ma kapitalne znaczenie dla wydajności proponowanego algorytmu.
Dalej, proponowane jest podejście wykorzystujace
˛ algorytm ewolucyjny. Osobnikami w populacji sa˛ ciecia,
˛
celem jest minimalizacja kosztu rozbioru, a krzyżowanie osobników wykorzystuje wspomniany wyżej meta-algorytm zachłanny. Wreszcie, opisane jest rozwiazanie
˛
bed
˛ ace
˛ w istocie przystosowaniem algorytmu GirvanaNewmana do postawionego w rozprawie problemu.
5 Wyniki eksperymentalne
Zaproponowane w cześci
˛
teoretycznej algorytmy sa˛ nastepnie
˛
testowane w praktyce
na sieci odnośników interwiki w Wikipedii. Badana jest zarówno jakość wyników, jak
i czas niezbedny
˛
do ich uzyskania. Tablica 2 przedstawia rezultat jednego z eksperymentów. Rozwiazanie
˛
oparte na algorytmach genetycznych osiaga
˛ najniższy koszt
spośród wszystkich zaproponowanych, ma za to długi, choć wcia˛ż akceptowalny,
czas działania. Rozdział 5 rozprawy zawiera szczegółowe opisy eksperymentów oraz
ocene˛ wyników.
6 Dodatki
W dodatku A opisane sa˛ szczegóły implementacyjne narzedzi
˛
napisanych na potrzeby rozprawy: wyjaśniony jest proces importu danych, przedstawiony schemat
bazy danych w jezyku
˛
SQL, oraz diagram klas w jezyku
˛
UML. Dodatek B zawiera
słownik pojeć
˛ i oznaczeń używanych w rozprawie.
13
Składowa
0C42DB42
0EBA16A3
1E0B534B
25ECD94D
40EA68AE
4B8C5F58
4BB0A9F9
4E7C07B1
534F3412
557FD07F
56B1A372
5AA6E4BA
5D2EA275
6C72FBBA
8672A237
96B93C7A
A51F2E7A
B559954A
C54407E4
C57187AA
CBA823C5
CCCCE533
D48EBEE8
D5831EA2
E6C63BF8
EDB82C74
W˛ezły Kraw˛edzie
3869
255232
1701
8570
1187
20873
4549
106516
2027
34794
7832
494188
3881
248171
1091
19705
1045
18638
4011
253246
1235
16208
1302
22256
1689
65410
5921
372930
1150
20255
2274
39293
1905
34103
1833
31302
1395
25268
1058
7401
1016
18724
1214
64382
3719
234073
2185
37712
1070
19594
2464
32576
MNR AVR MXR CLI
SPA GEN
BET
295 3621 7455 276
281
276 2848
2038 2384 2862 2067 1517 1462 1604
4474 5974 7448 3061 2810 1687 2607
2272 4263 5637 1007 1169
986 1025
339
818 1456 198
463
190
198
3574 10891 25081 1035 4459 1035 1035
1009 4973 8303 374
374
374 3213
3873 4676 5632 1468 1810 1098 2942
113
673 1455
94
94
94
94
232 2581 6591 232
232
232
232
2236 3025 4324 1044 1325
918 1393
5254 6560 7464 2152 3679 1712 5111
18076 21663 24124 5442 15949 4943 18006
1670 7658 16638 1039 1045 1039 16462
3611 4746 6114 1271 1382
951 2532
8070 9375 10394 2700 4180 2491 5307
207
531 1027 135
348
127
127
203
983 1565 154
175
154
154
184
757 1892 119
111
111
111
1439 1699 2098 832
932
704 1156
763 1345 2520 473 1098
439
575
8675 12191 21687 1988 2857 1834 4064
938 3376 5814 308
313
308 3027
209 1026 1713 145
145
136
136
4053 5383 7328 1523 1736 1395 2179
6094 7752 9445 2431 3171 2113 4473
Tablica 2: Koszt rozbioru dla najwiekszych
˛
spójnych składowych w badanej sieci
(rozmiary powyżej 1000 w˛ezłów). Każdy wiersz reprezentuje spójna˛ składowa.
˛ Trzy
pierwsze kolumny zawieraja:
˛ identyfikator składowej, liczbe˛ w˛ezłów, oraz liczbe˛ kraw˛edzi. Nastepne
˛
kolumny zawieraja˛ koszt rozbiorów znalezionych przez 7 badanych
algorytmów. W każdym wierszu, wartość najlepszego (najniższego) kosztu jest wytłuszczony. Algorytm GEN, a wiec
˛ rozwiazanie
˛
oparte na algorytmach genetycznych,
wypada najlepiej.
14
Literatura
[1] Albert, R., Barabási, A.L.: Statistical mechanics of complex networks. Reviews of
Modern Physics 74 (2002) 47–97
[2] Anthonisse, J.M.: The rush in a directed graph. Technical Report BN 9/71,
Stichting Mathematisch Centrum, Amsterdam (1971)
[3] Barabási, A.L., Albert, R.: Emergence of scaling in random networks. Science 286
(1999) 509–512
[4] Barak, A.: Psychological Aspects of Cyberspace: Theory, Research, Applications. Cambridge University Press, New York, NY, USA (2008)
[5] Berners-Lee, T., Hendler, J., Lassila, O.: The Semantic Web. Scientific American
(2001)
[6] Berners-Lee, T.: Tim Berners-Lee on the next Web. TED Talks (2009)
[7] Bomze, I., Budinich, M., Pardalos, P.M., Pelillo, M.: The maximum clique problem. In Du, D.Z., Pardalos, P.M., eds.: Handbook of Combinatorial Optimization
(Supplement Volume A). Volume 4. Kluwer Academic Publishers, Boston, MA
(1999)
[8] Boudet, V., Rastello, F., Robert, Y.: Alignment and distribution is NOT (always)
NP-hard. In: Proceedings of the International Conference on Parallel and Distributed
Systems. (1998)
[9] Brandes, U., Lerner, J.: Visual analysis of controversy in user-generated encyclopedias. Information Visualization 7 (2008) 34–48
[10] Bryant, S.L., Forte, A., Bruckman, A.: Becoming Wikipedian: transformation of
participation in a collaborative online encyclopedia. In: GROUP ’05: Proceedings
of the 2005 international ACM SIGGROUP conference on Supporting group work.
(2005) 1–10
[11] Bunde, A., Havlin, S.: Power-law persistence in the atmosphere and in the
oceans. Physica A 314 (2002) 15–24
[12] Dahlhaus, E., Johnson, D.S., Papadimitriou, C.H., Seymour, P.D., Yannakakis,
M.: The Complexity of Multiterminal Cuts. SIAM J. Comput. 23 (1994) 864–894
[13] Dorogovtsev, S.N., Mendes, J.F.F., Oliveira, J.G.: Frequency of occurrence of
numbers in the World Wide Web. Physica A 360 (2006) 548
[14] Eades, P.: A Heuristic for Graph Drawing. Congressus Numerantium 42 (1984)
149–160
15
[15] Ebel, H., Mielsch, L.I., Bornholdt, S.: Scale-free topology of e-mail networks.
Physical Review E 66 (2002) 035103
[16] Erdmann, M., Nakayama, K., Hara, T., Nishio, S.: Lecture Notes in Computer
Science. In Haritsa, J.R., Ramamohanarao, K., Pudi, V., eds.: DASFAA. Volume
4947., Springer (2008) 380–392
[17] Erdős, P., Rényi, A.: On random graphs, I. Publicationes Mathematicae 6 (1959)
290–297
[18] Erdős, P., Rényi, A.: On the evolution of random graphs. Publ. Math. Inst. Hung.
Acad. Sci 5 (1960) 17–61
[19] Ford, L.R., Fulkerson, D.R.: Flows in Networks. Princeton University Press, Princeton, NJ (1962)
[20] Freeman, L.C.: A Set of Measures of Centrality Based on Betweenness. Sociometry
40 (1977) 35–41
[21] Fruchterman, T.M.J., Reingold, E.M.: Graph Drawing by Force-directed Placement. Software - Practice and Experience 21 (1991) 1129–1164
[22] Girvan, M., Newman, M.E.J.: Community structure in social and biological
networks. Proc. Natl. Acad. Sci. U.S.A. 99 (2002) 7821–6
[23] Goldberg, D.E.: Genetic Algorithms in Search, Optimization, and Machine Learning.
Addison-Wesley Professional (1989)
[24] Hansen, S., Berente, N., Lyytinen, K.: Wikipedia, Critical Social Theory, and the
Possibility of Rational Discourse. The Information Society 25 (2009) 38–59
[25] He, G., Liu, J., Zhao, C.: Approximation algorithms for some graph partitioning
problems. Journal of Graph Algorithms and Applications 4 (2000) 1–11
[26] Hong, B.H., Lee, K.E., Lee, J.W.: Power Law in Firms Bankruptcy. Physics Letter
A 361 (2007) 6
[27] Kamada, T., Kawai, S.: An algorithm for drawing general undirected graphs.
Inf. Process. Lett. 31 (1989) 7–15
[28] Li, J., Chen, M.: Index Domain Alignment: Minimizing Cost of Cross-reference
between Distributed Arrays. In: Proceedings of the third Symposium on Frontiers of
Massively Parallel Computation. (1990) 424–433
[29] Luccio, F., Sami, M.: On the Decomposition of Networks in Minimally Interconnected Subnetworks. IEEE Transactions on Circuit Theory 16 (1969) 184–188
[30] Magnus, P.D.: On Trusting WIKIPEDIA. Episteme 6 (2009) 74–90
16
[31] Mantegna, R.N., Buldyrev, S.V., Goldberger, A.L., Havlin, S., Peng, C.K., Simons,
M., Stanley, H.E.: Linguistic Features of Noncoding DNA Sequences. Phys. Rev.
Lett. 73 (1994) 3169–3172
[32] Marsili, M., Zhang, Y.C.: Interacting Individuals Leading to Zipf’s Law. Phys.
Rev. Lett. 80 (1998) 2741–2744
[33] Mitchell, M.: An Introduction to Genetic Algorithms. The MIT Press (1998)
[34] Miyazima, S., Lee, Y., Nagamine, T., Miyajima, H.: Power-law Distribution of
Family Names in Japanese Societies. Physica A 278 (2000) 282 – 288
[35] Newman, M.E.J.: Scientific collaboration networks. I. Network construction and
fundamental results. Phys. Rev. E 64 (2001) 016131
[36] Newman, M.E.J.: Scientific collaboration networks. II. Shortest paths, weighted
networks, and centrality. Phys. Rev. E 64 (2001) 016132
[37] Newman, M.E.J.: Detecting community structure in networks. European Physical
Journal B 38 (2004) 321–330
[38] Newman, M.E.J.: Fast algorithm for detecting community structure in networks.
Physical Review E 69 (2004) 066133
[39] Newman, M.E.J.: Modularity and community structure in networks. Proceedings
of the National Academy of Sciences 103 (2006) 8577–8582
[40] Newman, M.E.J., Girvan, M.: Finding and evaluating community structure in
networks. Physical Review E 69 (2004) 026113
[41] Nunes, S., Ribeiro, C., David, G.: WikiChanges - Exposing Wikipedia Revision
Activity. In: WikiSym’08: Proceedings of the 2008 international symposium on Wikis.
(2008)
[42] Oreg, S., Nov, O.: Exploring motivations for contributing to open source initiatives: The roles of contribution context and personal values. Comput. Hum. Behav.
24 (2008) 2055–2073
[43] Pushkin, D.O., Aref, H.: Bank mergers as scale-free coagulation. Physica A 336
(2004) 571–584
[44] Sanger, L.M.: The Fate of Expertise after WIKIPEDIA. Episteme 6 (2009) 52–73
[45] Schroer, J., Hertel, G.: Voluntary Engagement in an Open Web-Based Encyclopedia: Wikipedians and Why They Do It. Media Psychology 12 (2009) 96–120
[46] Stone, H.S.: Multiprocessor Scheduling with the Aid of Network Flow Algorithms. IEEE Trans. Softw. Eng. 3 (1977) 85–93
17
[47] Suh, B., Chi, E.H., Pendleton, B.A., Kittur, A.: Us vs. Them: Understanding
Social Dynamics in Wikipedia with Revert Graph Visualizations. In: IEEE Symposium on Visual Analytics Science and Technology. (2007) 163–170
[48] Tollefsen, D.P.: WIKIPEDIA and the Epistemology of Testimony. Episteme 6
(2009) 8–24
[49] Tyers, F.M., Pienaar, J.A.: Extracting bilingual word pairs from Wikipedia. In:
Proceedings of the SALTMIL Workshop at Language Resources and Evaluation Conference, LREC08. (2008) 19–22
[50] Wasserman, S., Faust, K.: Social Network Analysis: Methods and Applications. Cambridge University Press (1994)
[51] Watts, D.J., Strogatz, S.H.: Collective dynamics of ’small-world’ networks. Nature
393 (1998) 440–2
[52] Wray, B.K.: The Epistemic Cultures of Science and WIKIPEDIA: A Comparison.
Episteme 6 (2009) 38–51
18

streszczenie rozprawy doktorsk-76

Transkrypt

Podobne dokumenty

KANGUR 2015

Matematyka Dyskretna (Egzamin)

Polish - Undertakings, Information for Young People

wyklad 1

Czytaj tekst

Bajtocja

Minimalne drzewa spinaj ˛ace i najkrótsze ´scie˙zki