streszczenie rozprawy doktorsk-76
Transkrypt
streszczenie rozprawy doktorsk-76
Streszczenie rozprawy doktorskiej pt. „Methods of Semantic Drift Reduction in Large Similarity Networks” mgr Łukasz Bolikowski, ICM UW 1 Wprowadzenie 1.1 Wiek Informacji Za sprawa˛ Internetu dostep ˛ do informacji jest dziś prostszy niż kiedykolwiek w historii, a zakres dostepnych ˛ treści stale sie˛ poszerza. Z jednej strony, treści pojawiaja˛ sie˛ w Sieci w wyniku cyfryzacji „tradycyjnych” mediów takich jak: ksia˛żki, czasopisma, czy fotografie. Warto w tym miejscu wymienić wielkie projekty cyfryzacyjne: Google Books, JSTOR, Project Gutenberg, Times Online, czy World Digital Library. Aby uzmysłowić skale˛ wymienionych przedsiewzi ˛ eć ˛ nadmieńmy, że Times Online udostepnia ˛ wszystkie wydania gazety z lat 1785-1985, a JSTOR zawiera ponad 32 miliony dokumentów wytworzonych na przestrzeni czterech wieków. Niektóre archiwa udostepniaj ˛ a˛ materiały w postaci cyfrowej za darmo i na wolnych licencjach, na przykład Deutsche Fotothek udostepniła ˛ wersje elektroniczne ponad 250 tysiecy ˛ archiwalnych fotografii na licencji Creative Commons BYSA 3.0. Z drugiej zaś strony, współczesne dokumenty tworzone sa˛ (zazwyczaj) od razu w postaci cyfrowej, z pominieciem ˛ procesu cyfryzacji. W świecie recenzowanych czasopism naukowych najpopularniejszy model to jednoczesna, lub prawie jednoczesna, publikacja wersji elektronicznej i papierowej, choć zdarzaja˛ sie˛ takie periodyki, jak np. First Monday, które ukazuja˛ sie˛ wyłacznie ˛ w wersji cyfrowej. Zalew informacji niesie wyjatkowe ˛ możliwości, ale stwarza też nowe wyzwania. Wraz z dostepności ˛ a˛ coraz wiekszej ˛ ilości treści rośnie trudność znalezienia wartościowej informacji w morzu dokumentów, artykułów, notek blogowych i innych stron WWW. Wyszukiwarki internetowe, takie jak Google, zawieraja˛ heurystyki nadajace ˛ wage˛ poszczególnym zasobom (w przypadku Google jest to algorytm PageRank). 1.2 Sieć Semantyczna Nastepny ˛ krok to indeksowanie wiedzy, a nie jedynie danych, czyli gromadzenie relacji semantycznych pomiedzy ˛ obiektami, co pozwoli użytkownikowi na budowanie bardziej precyzyjnych zapytań [5]. Tak zwana Sieć Semantyczna to, w najwiekszym ˛ 1 skrócie, próba reprezentacji wiedzy w postaci trójek podmiot-predykat-przedmiot. Trójki te reprezentuja˛ zwiazki ˛ pomiedzy ˛ obiektami reprezentowanymi za pomoca˛ URI (ang. Uniform Resource Indentifier), a opisany model danych znany jest pod nazwa˛ RDF (ang. Resource Description Framework). Rysunek 1: Zbiory danych RDF, połaczone ˛ w ramach projektu Linking Open Data. Stan na lipiec 2009. Każdy w˛ezeł reprezentuje zbiór danych RDF, a każda kraw˛edź – połaczenia ˛ semantyczne pomiedzy ˛ zbiorami danych. Kolor koduje tematyke. ˛ Autorka: Anja Jentzsch, licencja: CC-BY-SA 3.0. Istnieje wiele ustalonych słowników predykatów, zwanych ontologiami, które pozwalaja˛ opisywać zwiazki ˛ pomiedzy ˛ obiektami w obrebie ˛ konkretnych dziedzin wiedzy. Przykładowo, Dublin Core pozwala wyrażać własności dokumentów w rodzaju: „osoba X jest autorem dokumentu Y”, „dokument X nosi tytuł Y”, czy „dokument X jest cytowany przez dokument Y”, a Friend of a Friend (FOAF) definiuje jezyk ˛ opisu relacji miedzy ˛ ludźmi: „osoba X ma adres e-mail Y”, „osoba X zna osobe˛ Y”, czy „osoba X jest zainteresowana tematem Y”. Wreszcie, instnieja˛ jezyki ˛ zapytań, takie jak SPARQL, które zapewniaja˛ dostep ˛ do wywnioskowanej wiedzy. Sir Tim Berners-Lee – pomysłodawca zarówno sieci WWW (ang. World Wide Web) jak i Sieci Semantycznej (ang. Semantic Web) – przekonuje, że ta ostatnia zrewolucjonizuje nasz dostep ˛ do informacji tak, jak uczyniła to WWW [6]. Dzieki ˛ SPARQL możemy za pomoca˛ jednego zapytania otrzymać np. liste˛ kompozytorów niemieckich urodzonych w Berlinie przed rokiem 1900. Zauważmy, że 2 analogicznego zapytania nie da sie˛ skonstruować w oparciu o „klasyczna” ˛ wyszukiwarke˛ pełnotekstowa. ˛ 1.3 Rozproszone przechowywanie relacji równoważności Czesto ˛ ta sama wiedza jest przechowywana w wielu miejscach jednocześnie: metadane artykułu naukowego moga˛ znajdować sie˛ w wielu bibliotekach cyfrowych, słowo może być zdefiniowane w wielu słownikach, a film opisany w wielu bazach filmowych. Co wiecej, ˛ różne bazy moga˛ w swoich rekordach zawierać odnośniki do równoważnych rekordów w innych bazach. Na przykład: leki opisane w bazie DrugBank zawieraja˛ odnośniki do opisów w bazach PharmGKB oraz RxList. Mamy wiec ˛ do czynienia z rozproszona˛ reprezentacja˛ relacji równoważności, czyli takiej relacji, która spełnia trzy poniższe warunki: 1. zwrotność: ∀ X X ≡ X 2. symetryczność: ∀ X,Y (X ≡ Y ) ⇒ (Y ≡ X ) 3. przechodność: ∀ X,Y,Z (X ≡ Y ) ∧ (Y ≡ Z) ⇒ (X ≡ Z). Przykładowo, zarówno „sekwencja X jest homologiem sekwencji Y”, jak i „słowo X jest synonimem słowa Y” sa˛ relacjami równoważności na pewnych zbiorach (odpowiednio: sekwencji biologicznych i słów w jezyku ˛ naturalnym). Rysunek 2: Ilustracja dryfu semantycznego. Po lewej stronie przedstawiona jest pewna relacja równoważności, a po prawej stronie jej zniekształcona reprezentacja, w której pewne nierównoważne obiekty pozostaja˛ ze soba˛ w relacji. Rozproszone przechowywanie relacji równoważności, oznacza brak kontroli nad spójnościa˛ przechowywanych informacji, a wiec ˛ niesie ze soba˛ niebezpieczeństwo pojawienia sie˛ tzw. dryfu semantycznego. Ogólnie rzecz biorac, ˛ możliwe sa˛ dwie klasy odstepstw ˛ od stanu idealnego: brak zwiazków ˛ które powinny były wystapić, ˛ oraz istnienie zwiazków, ˛ których być nie powinno (por. rys. 2). Pierwsza klasa jest mniej 3 Artykuły Kategorie Jezyk ˛ Strony Interwiki Strony Interwiki Angielski 2 502 189 4 763 819 389 987 608 787 Niemiecki 791 848 3 331 290 55 323 417 800 Francuski 687 290 3 398 456 96 073 482 098 Polski 552 267 2 834 358 37 814 284 455 Niderlandzki 513 295 2 927 619 37 202 238 934 Japoński 512 872 2 170 917 51 284 407 294 Włoski 506 223 2 986 566 51 948 195 548 Portugalski 469 382 2 697 324 48 389 256 680 Hiszpański 389 929 2 542 999 61 377 376 110 ... ... ... ... ... Łacznie ˛ 11 510 142 89 339 694 1 724 088 13 902 852 Tablica 1: Liczba stron, kategorii i odpowiadajacych ˛ im wychodzacych ˛ odnośników miedzyj ˛ ezykowych ˛ (popularnie zwanych interwiki) dla 10 najwiekszych ˛ (wg liczby artykułów) edycji jezykowych ˛ Wikipedii. Dane na podstawie zrzutów baz danych pobranych 27 sierpnia 2008. groźna o tyle, że operacja domkniecia ˛ symetrycznego i przechodniego zazwyczaj be˛ dzie w stanie odtworzyć brakujace ˛ zwiazki. ˛ Druga klasa utożsamia natomiast różne pojecia ˛ i – jak pokażemy w dalszej cześci ˛ pracy – zadanie usuniecia ˛ nadmiarowych zwiazków ˛ (dokładniej: transformacji danej relacji do pewnej relacji równoważności najmniejszym możliwym kosztem) jest z obliczeniowego punktu widzenia znacznie trudniejsze. Jedna˛ z prostych recept na pozbycie sie˛ wyżej wymienionych problemów jest zmiana reprezentacji wiedzy: zamiast przechowywać zwiazki ˛ pomiedzy ˛ równoważnymi obiektami, można przechowywać przynależność obiektów do ich klas równoważności. Przykładowo, zamiast przechowywać relacje˛ „osoba X miesza w tym samym mieście co osoba Y”, można prechowywać relacje˛ „osoba X mieszka w mieście Y”. W naszym przypadku klasami abstrakcji oryginalnej relacji równoważności sa˛ miasta. Opisana tu metoda zadziała pod warunkiem, że klasom abstrakcji można jednoznacznie przypisać identyfikatory. 1.4 Wikipedia Wikipedia to „wolna encyklopedia internetowa, która˛ każdy może redagować”, majaca ˛ ponad 250 edycji (wersji) jezykowych. ˛ Fundacja Wikimedia regularnie publikuje zrzuty baz danych wszystkich edycji (na wolnej licencji GNU FDL), dzieki ˛ czemu badacze moga˛ analizować treść całej encyklopedii. Niniejsza rozprawa wykorzystuje wiedze˛ zgromadzona˛ w Wikipedii do empirycznego sprawdzenia wypracowanych tu metod. Rozdział trzeci bazuje na treści 262 edycji jezykowych ˛ pobranej 27 sierpnia 2008 roku, a rozdział piaty ˛ — na treści 265 edycji jezykowych ˛ pobranej 12 października 2009 roku. 4 Rysunek 3: Przykładowy artykuł w Wikipedii z zaznaczym obszarem w którym znajduja˛ sie˛ powiazania ˛ z odpowiadajacymi ˛ artykułami w innych wersjach jezykowych. ˛ Wikipedia jest oparta na silniku MediaWiki: każda edycja jezykowa ˛ używa własnej instancji silnika i, technicznie rzecz biorac, ˛ jest niemal całkowicie niezależna od pozostałych edycji. W pracy koncentrujemy sie˛ na dwóch typach stron: artykułach i kategoriach (te ostatnie sa˛ swego rodzaju etykietami artykułów). Strona w danej wersji jezykowej ˛ może posiadać odnośniki do odpowiadajacych ˛ jej (równoważnych) stron w innych wersjach jezykowych. ˛ Takie odnośniki miedzyj ˛ ezykowe ˛ sa˛ popularnie i zwieźle ˛ nazywane interwiki. Przykład: artykuł pod tytułem „London” w angielskiej wersji jezykowej ˛ zawiera (miedzy ˛ innymi) interwiki do artykułu „Londres” w wersji francuskiej oraz do artykułu „Lontoo” w wersji fińskiej. Co ważne, ze wzgledu ˛ na autonomiczny charakter poszczególnych wersji jezykowych ˛ nie ma kontroli spójności tak tworzonych odnośników miedzyj ˛ ezykowych. ˛ Mamy wiec ˛ do czynienia z rozproszonym przechowywaniem relacji równoważności, które potencjalnie prowadzić może do powstawania dryfu semantycznego. 1.5 Definicje, notacja i postawienie problemu Rozważamy nieskierowane, kolorowane, ważone grafy G = hV, E, κ, µi, gdzie: • V to zbiór wierzchołków; • E ⊆ e ∈ 2V |e| = 2 to zbiór kraw˛edzi; • κ : V → K to kolory wierzchołków; 5 • µ : E → R + to wagi kraw˛edzi. W miejscach gdzie wagi kraw˛edzi nie bed ˛ a˛ miały znaczenia bedziemy ˛ zakładać µ ≡ 1, a graf zapisywać krócej: G = hV, E, κ i. Rozbiorem grafu G nazwiemy dowolna˛ funkcje˛ π : V → 2V spełniajac ˛ a˛ nastepuj ˛ ace ˛ warunki: ∀ v ∈V v ∈ π ( v ) (1) ∀v,w∈V π (v) = π (w) ∨ π (v) ∩ π (w) = ∅ (2) ∀ v 6 = w ∈V π ( v ) = π ( w ) ⇒ κ ( v ) 6 = κ ( w ) (3) Dwa pierwsze warunki stwierdza po prostu, że π dzieli V na rozłaczne ˛ podzbiory, które sumuja˛ sie˛ do V. Trzeci warunek mówi, że każdy podzbiór może zawierać co najwyżej jeden wierzchołek danego koloru. Zbiór wszystkich możliwych rozbiorów grafu G oznaczać bedziemy ˛ przez P(G ). Rysunek 4: Dwa przykłady rozbioru grafu. W każdym z przykładów rozbiór oznaczony jest kropkowanymi okregami, ˛ a kraw˛edzie niezgodne z rozbiorem sa˛ pogrubione. Powiemy, że kraw˛edź e = {v, w} ∈ E jest niezgodna z rozbiorem π ∈ P(G ), jeśli π (v) 6= π (w). Innymi słowy, kraw˛edź jest niezgodna z rozbiorem jeśli łaczy ˛ wierzołki należace ˛ do różnych podzbiorów rozbioru. Dalej, niech IG (π ) oznacza wszystkie kraw˛edzie grafu G niezgodne z rozbiorem π ∈ P(G ): IG (π ) := {v, w} ∈ Eπ (v) 6= π (w) (4) Zbiór kraw˛edzi niezgodnych z jakimś rozbiorem bedziemy ˛ nazywać ci˛eciem. Wreszcie, zdefiniujmy funkcje˛ k · k G : P(G ) → R + ∪ {0}, która mierzyć bedzie ˛ stopień niezgodności rozbioru π z grafem G (koszt rozbioru): kπ k G := ∑ e ∈ IG ( π ) 6 µ(e ) (5) Możemy teraz przystapić ˛ do sformułowania głównego problemu obliczeniowego badanego w niniejszej rozprawie: ˛ dany graf G = hV, E, κ, µi, znaProblem 1 (Rozbiór o najmniejszym koszcie) Majac leźć rozbiór π ∈ P(G ) taki, że kπ k G jest najmniejsze. 1.6 Najważniejsze wyniki Rozprawa zawiera kilka oryginalnych wyników: 1. Szczegółowa analiza i opis sieci odnośników miedzyj ˛ ezykowych ˛ w Wikipedii. Sieć owa posiada ciekawa˛ i niecodzienna˛ topologie: ˛ jej spójne składowe sa˛ zbudowane z klastrów połaczonych ˛ szkieletem o topologii bezskalowej. 2. Analiza złożoności obliczeniowej głównego problemu: dowód, że jest on NPtrudny. 3. Zastosowanie pieciu ˛ znanych w informatyce podejść i algorytmów do poszukiwania przybliżonych rozwiaza ˛ ń problemu: • algorytm zachłanny; • iterowane poszukiwanie najwiekszej ˛ kliki; • numeryczna minimalizacja pewnego potencjału wielowymiarowego; • algorytm genetyczny; • pewna modyfikacja algorytmu Girvana-Newmana. 4. Jako efekt uboczny jednego z podejść: metoda wizualizacji analizowanych sieci 5. Ilościowa ocena proponowanych algorytmów, zarówno jakości wyników jak i czasu działania. Za dane doświadczalne posłużyła sieć odnośników miedzyj ˛ e˛ zykowych w Wikipedii. 6. Dokumentacja architektury otwartego pakietu oprogramowania, który powstał w trakcie badań i który był użyty, miedzy ˛ innymi, do przeprowadzenia wyżej wymienionych testów. 1.7 Struktura pracy W rozdziale pierwszym przedstawiony jest główny problem obliczeniowy wraz z jego tłem, sprecyzowana jest notacja i pojecia ˛ używane w rozprawie, wyliczone najważniejsze wyniki oraz przedstawiona strukture˛ pracy. W rozdziale drugim dokonany jest przeglad ˛ literatury w dziedzinach zwiazanych ˛ z tematem rozprawy, oraz przedstawiony jest bieżacy ˛ stan wiedzy. Rozdział trzeci zawiera dogłebn ˛ a˛ analize˛ sieci odnośników miedzyj ˛ ezykowych ˛ w Wikipedii, która to sieć jest ważnym przykładem relacji równoważności przechowywanej w rozproszonym środowisku. 7 Rozdział czwarty zawiera wyniki teoretyczne: dowód NP-trudności głównego problemu obliczeniowego, a także pieć ˛ algorytmów dajacych ˛ przybliżone rozwia˛ zania wspomnianego problemu. W rodziale piatym ˛ zawarte sa˛ wyniki eksperymentalne: jakość zaproponowanych algorytmów jest sprawdzana doświadczalnie na sieci odnośników miedzyj ˛ e˛ zykowych w Wikipedii. Rozdział szósty stanowi podsumowanie rozprawy, sa˛ w nim opisane wnioski wyciagni ˛ ete ˛ z badań oraz potencjalne dalsze kierunki prac. W dodatku A opisane sa˛ szczegóły implementacyjne oprogramowania, które powstało przy okazji badań, a dodatek B zawiera słownik pojeć ˛ i symboli użytych w pracy. 2 Przeglad ˛ literatury Według najlepszej wiedzy autora, główny problem obliczeniowy nie był dotychczas przedmiotem badań, jednakże szereg zbliżonych problemów był już badany, i to w zaskakujaco ˛ różnych kontekstach. Dahlhaus i inni [12] badali problem Multiterminal Cut, który z kolei jest uogólnieniem klasycznego problemu maksymalnego przepływu i minimalnego ciecia ˛ w grafie [19]. Multiterminal Cut pyta o najtańszy sposób rozciecia ˛ grafu tak, aby każdy wierzchołek z pewnego zbioru znalazł sie˛ w innej spójnej składowej. Pokazano, że jest to problem NP-trudny. Problem o zbliżonej strukturze pojawił sie˛ w kontekście automatycznej optymalizacji przydziału pracy w obliczeniach rozproszonych [46]. Problem ten znany jest pod nazwa˛ Index Domain Alignment [28, 8]. Podobna˛ strukture˛ ma też zadanie podziału schematu elektrycznego na grupy komponentów [29]. He i inni [25] dowiedli natomiast NP-trudności problemu nazywanego Minimum Orthogonal Partition, który różni sie˛ od problemu rozważanego w niniejszej pracy jedynie tym, że nakłada pewne ograniczenia na liczność podzbiorów rozbioru. W pracy badana jest struktura sieci odnośników interwiki. Literatura zna wiele modeli rozwoju sieci. Wymieńmy tu trzy prawdopodobnie najważniejsze modele, nazwane od nazwisk ich twórców: Erdős-Rényi [17, 18], Barabási-Albert [3, 1], and Watts-Strogatz [51]. W analizie sieci przeprowadzonej w pracy okazuje sie, ˛ że wielkości spójnych skła− γ dowych maja˛ rozkład power-law, czyli: P( x ) ∝ x . Ów rozkład spotykany jest w szeregu różnorodnych systemów, takich jak: rozkład wielkości aktywów bankowych [43], czestość ˛ wystepowania ˛ nazwisk japońskich [34], liczba bankructw firm danego dnia [26], czas utrzymywania sie˛ danej sytuacji atmosferycznej [11], wielkości miast [32], wystapienia ˛ sekwencji par zasad DNA [31], liczba wysłanych e-maili [15], czy wystapienia ˛ konkretnych liczb w sieci WWW [13]. Zadanie rozbioru grafu na skupiska w˛ezłów ma pewne zwiazki ˛ z problemem znajdowania wspólnot w sieciach społecznych. Doskonałe wprowadzenie do tematu analizy sieci społecznych znajduje sie˛ w monografii Wassermana i Fausta [50]. Szcze8 gólnie interesujacy, ˛ w kontekście pracy, jest algorytm Girvana-Newmana [22], który korzysta z miary zwanej w literaturze anglojezycznej ˛ pod nazwa˛ edge betweenness (pośredniość kraw˛edzi), zaproponowanej niezależnie przez Freemana [20] i Anthonisse’a [2]. Newman i Girvan [40] zaproponowali dwie miary pośredniości: jedna˛ oparta˛ na sieci rezystorów, druga˛ na bładzeniu losowym, a nastepnie ˛ pokazali, że miary te sa˛ sobie równoważne. W tej samej pracy wprowadzili też ważne pojecie ˛ modularności. M. E. J. Newman jest autorem wielu ważnych prac z dziedziny analizy sieci społecznych. Bada on sieci współpracy naukowej [35, 36], wprowadził ważne poprawki do oryginalnego algorytmu Girvana-Newmana [38], dokonał przegladu ˛ algorytmów rozpoznajacych ˛ społeczności [37], wyraził problem znalezienia maksymalnej modularności w terminach wartości i wektorów własnych, co zaowocowało szybszym i bardziej skutecznym algorytmem [39]. Lista prac poświeconych ˛ analizie sieci społecznych jest oczywiście długa, w rozdziale drugim rozprawy znajduje sie˛ obszerniejszy przeglad ˛ literatury z tej dziedziny. Rozprawa zawiera przeglad ˛ literatury poświeconej ˛ stosowanym w niej algorytmach i technikach rozwiazywania ˛ problemów optymalizacyjnych. Przybliżone rozwiazania ˛ problemu najwiekszej ˛ kliki, ich zastosowania, a także wyniki teoretyczne zgromadzone sa˛ w doskonałym podreczniku ˛ [7]. Pozycje [23] oraz [33] stanowia˛ dobre wprowadzenie do algorytmów genetycznych. Wizualizacja dużych sieci była studiowana m.in. w pracach Eadesa [14], Fruchtermana i Reingolda [21], a także Kamady i Kawai [27]. Osobny podrozdział poświecony ˛ jest podsumowaniu badań nad treścia˛ Wikipedii oraz procesem jej tworzenia. Od strony jakościowej, współpraca przy tworzeniu encyklopedii jest analizowana przez socjologów [10, 24, 45]; sposób, w jaki rewolucjonizuje dostep ˛ do wiedzy interesuje epistemologów [48, 52, 44, 30]; a motywacje autorów były studiowane przez psychologów [4, 42]. Ilościowo, mierzona i wizualizowana jest dynamika wkładu użytkowników (np. interakcje, wzorce konfliktów) [47, 9, 41]; wyekstrachowano z treści Wikipedii szereg korpusów i ontologii1 , a także słowników [16, 49]. Przeglad ˛ literatury kończy podsumowanie badań lingwistycznych nad ograniczeniami procesu tłumaczenia. 3 Dryf semantyczny w Wikipedii W rozdziale trzecim rozważany jest nieskierowany graf, którego wierzchołkami sa˛ artykuły i kategorie ze wszystkich wersji jezykowych ˛ Wikipedii, a kraw˛edź miedzy ˛ dwoma wierzchołkami v1 i v2 jest wtedy, gdy istnieje co najmniej jeden z nastepuj ˛ a˛ cych dwóch odnośników miedzyj ˛ ezykowych: ˛ v1 → v2 lub v2 → v1 . Kolorem wierzchołka jest jezyk ˛ edycji, z której dany artykuł lub kategoria pochodzi. Szczegółowo opisane sa˛ uwarunkowania techniczne, ograniczenia i założenia przyjete ˛ podczas konstrukcji wyżej wymienionej sieci. Wśród najważniejszych proble1 Zobacz: prezentacje na Language Resources and Evaluation Conference 2008, dostepne ˛ tutaj: http://www.lrec-conf.org/lrec2008/List-of-accepted-papers.html 9 100 200 5 10 Component size 20 50 100 50 20 Component size 10 2 5 2 1e+00 1e+02 1e+04 1e+06 1 100 Rank 10000 Rank 500 200 50 Component size 10 20 1e+03 1e+02 5 1e+01 Component size 1e+04 1e+05 Rysunek 5: Rozmiary bezkonfliktowych spójnych składowych w sieci interwiki dla artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego ˛ do najmniejszego. Obie osie sa˛ w skali logarytmicznej. Zauważalny jest wpływ masowo tworzonych stron nt. dat i lat na kształt rozkładu. 1 10 100 1000 10000 1 Rank 5 10 50 100 500 5000 Rank Rysunek 6: Rozmiary konfliktowych spójnych składowych w sieci interwiki dla artykułów (lewy panel) i kategorii (prawy panel), uszeregowanych od najwiekszego ˛ do najmniejszego. Obie osie sa˛ w skali logarytmicznej. 10 10000 1e+06 Count 1 100 1e+04 Count 1e+02 1e+00 1 2 5 10 20 50 100 200 1 Degree 2 5 10 20 50 100 Degree Rysunek 7: Po lewej stronie, rozkład stopni swobody wierzchołków w siecach A (niebieskie gwiazdki) i C (czerwone kółka). Obie osie w skali logarytmicznej. Po prawej stronie, rozkład stopni swobody wierzchołków w „szkieletach” sieci, po ściagni ˛ e˛ ciu odpowiednio zwartych klastrów do punktów. Obie osie w skali logarytmicznej. Wyłacznie ˛ konfliktowe spójne składowe. Rozkład pasuje do rozkładu power-law z γ ≈ 3.75 (R2 ≈ 0.9770). mów wymienić można: • dwojaka˛ interpretacje˛ tzw. przekierowań – w przeważajacej ˛ cześci ˛ sa˛ to odnośniki do stron na ten sam temat, zdarzaja˛ sie˛ jednak odnośniki do stron o ogólniejszym zakresie; • problem tzw. podwójnych przekierowań, odnośników interwiki do tej samej edycji jezykowej, ˛ itp.; • przesuniecie ˛ w czasie zrzutów baz danych poszczególnych edycji jezykowych. ˛ Nastepnie ˛ przedstawione sa˛ własności sieci odnośników interwiki. Osobno rozpatrywana jest sieć połacze ˛ ń pomiedzy ˛ artykułami (A), a osobno pomiedzy ˛ katoriami (C ). Analizowany jest m.in. rozkład wielkości spójnych składowych. W przypadku rozkładu wielkości bezkonfliktowych spójnych składowych daje sie˛ wyróżnić dwa reżimy (por. Rys. 5). Okazuje sie, ˛ że podział ten pokrywa sie˛ z podziałem na artykuły tworzone mniej lub bardziej automatycznie (np. artykuły o wszystkich latach naszej ery), a artykułami pisanymi „recznie”. ˛ Wśród bezkonfliktowych spójnych składowych nie ma już analogicznego podziału (por. Rys. 6). We wszystkich przypadkach wielkości spójnych składowych maja˛ rozkład power-law, tzn. wielkości składowych sa˛ proporcjonalne do ich rankingu w pewnej (ujemnej) potedze. ˛ Nastepnie ˛ analizowany jest rozkład stopni wierzchołków w sieci (por. Rys. 7). Okazuje sie, ˛ że po ściagni ˛ eciu ˛ dostatecznie zwartych klastrów do punktów, pozostały „szkielet” ma dość regularny rozkład stopni wierzchołków. W rozprawie szczegółowo omawiane sa˛ piki w rozkładach stopni zarówno w oryginalnej sieci, jak i w 11 Rysunek 8: Szkielet średniej wielkości spójnej składowej (812 artykułów, w tym 42 w jezyku ˛ angielskim). szkieletowej. Przedstawiony jest dokładny algorytm tworzenia szkieletu (pseudokod, ilustracje). Podany jest także przykładowowy wynikowy szkielet (por. Rys. 8). 4 Wyniki teoretyczne W rozprawie dowodzi sie˛ NP-trudności głównego problemu obliczeniowego. Dowód nastepuje ˛ przez transformacje˛ wielomianowa˛ z problemu Multiterminal Cut, którego złożoność została przeanalizowana w [12]. Nastepnie ˛ proponuje sie˛ szereg przybliżonych rozwiaza ˛ ń ww. problemu, każdorazowo szacowana jest złożoność obliczeniowa algorytmu. Algorithm 1 GreedyMerge(G, ~ E ) – meta-algorytm zachłanny 1: F ← ∅ ⊲ odrzucone kraw˛edzie, czyli proponowane ci˛ecia 2: for v ∈ V do 3: A[v] ← {κ (v)} 4: B[v] ← {v} 5: end for 6: for {v1 , v2 } ∈ ~ E do 7: if A[v1 ] ∩ A[v2 ] = ∅ then 8: A [ v1 ] ← A [ v2 ] ← A [ v1 ] ∪ A [ v2 ] 9: B [ v1 ] ← B [ v2 ] ← B [ v1 ] ∪ B [ v2 ] 10: else if B[v1 ] 6= B[v2 ] then 11: F ← F ∪ {{v1 , v2 }} 12: end if 13: end for 14: return F 12 Na poczatku ˛ omówione jest meta-podejście: algorytm zachłanny (por. Alg. 1), który wymaga podania sposobu uszeregowania kraw˛edzi (~E). Wywołanie owego algorytmu z losowym porzadkiem ˛ kraw˛edzi stanowić bedzie ˛ punkt odniesienia podczas badania skuteczności pozostałych podejść. Nastepnie ˛ przedstawione jest podejście oparte na iterowanym poszukiwaniu maksymalnej kliki, które jako jedyne z proponowanych nie korzysta ze wspomnianego wyżej meta-algorytmu. Po nim nastepuje ˛ prezentacja rozwiazania ˛ korzystajacego ˛ z opisanego wyżej meta-algorytmu zachłannego, w którym najpierw w˛ezły sieci umieszczane sa˛ w przestrzeni R n , a nastepnie ˛ kraw˛edzie szeregowane sa˛ wg długości w tej przestrzeni. W˛ezły rozmieszczane sa˛ tak, aby minimalizować potencjał: P( x1 , x2 , . . . , x|V | ) := ∑ µij | xi − x j | − R 2 {vi ,v j }∈ E +λR3 1 |x − xj| {v ,v }∈ F i ∑ i (6) j gdzie µij := µ({vi , v j }) jest waga˛ kraw˛edzi łacz ˛ acej ˛ v i i v j , a F : = { v i , v j } ∈ 2V κ ( v i ) = κ (v j ) ∧ i 6= j jest zbiorem par w˛ezłów tego samego koloru. Możliwość analitycznego obliczenia ∇P ma kapitalne znaczenie dla wydajności proponowanego algorytmu. Dalej, proponowane jest podejście wykorzystujace ˛ algorytm ewolucyjny. Osobnikami w populacji sa˛ ciecia, ˛ celem jest minimalizacja kosztu rozbioru, a krzyżowanie osobników wykorzystuje wspomniany wyżej meta-algorytm zachłanny. Wreszcie, opisane jest rozwiazanie ˛ bed ˛ ace ˛ w istocie przystosowaniem algorytmu GirvanaNewmana do postawionego w rozprawie problemu. 5 Wyniki eksperymentalne Zaproponowane w cześci ˛ teoretycznej algorytmy sa˛ nastepnie ˛ testowane w praktyce na sieci odnośników interwiki w Wikipedii. Badana jest zarówno jakość wyników, jak i czas niezbedny ˛ do ich uzyskania. Tablica 2 przedstawia rezultat jednego z eksperymentów. Rozwiazanie ˛ oparte na algorytmach genetycznych osiaga ˛ najniższy koszt spośród wszystkich zaproponowanych, ma za to długi, choć wcia˛ż akceptowalny, czas działania. Rozdział 5 rozprawy zawiera szczegółowe opisy eksperymentów oraz ocene˛ wyników. 6 Dodatki W dodatku A opisane sa˛ szczegóły implementacyjne narzedzi ˛ napisanych na potrzeby rozprawy: wyjaśniony jest proces importu danych, przedstawiony schemat bazy danych w jezyku ˛ SQL, oraz diagram klas w jezyku ˛ UML. Dodatek B zawiera słownik pojeć ˛ i oznaczeń używanych w rozprawie. 13 Składowa 0C42DB42 0EBA16A3 1E0B534B 25ECD94D 40EA68AE 4B8C5F58 4BB0A9F9 4E7C07B1 534F3412 557FD07F 56B1A372 5AA6E4BA 5D2EA275 6C72FBBA 8672A237 96B93C7A A51F2E7A B559954A C54407E4 C57187AA CBA823C5 CCCCE533 D48EBEE8 D5831EA2 E6C63BF8 EDB82C74 W˛ezły Kraw˛edzie 3869 255232 1701 8570 1187 20873 4549 106516 2027 34794 7832 494188 3881 248171 1091 19705 1045 18638 4011 253246 1235 16208 1302 22256 1689 65410 5921 372930 1150 20255 2274 39293 1905 34103 1833 31302 1395 25268 1058 7401 1016 18724 1214 64382 3719 234073 2185 37712 1070 19594 2464 32576 MNR AVR MXR CLI SPA GEN BET 295 3621 7455 276 281 276 2848 2038 2384 2862 2067 1517 1462 1604 4474 5974 7448 3061 2810 1687 2607 2272 4263 5637 1007 1169 986 1025 339 818 1456 198 463 190 198 3574 10891 25081 1035 4459 1035 1035 1009 4973 8303 374 374 374 3213 3873 4676 5632 1468 1810 1098 2942 113 673 1455 94 94 94 94 232 2581 6591 232 232 232 232 2236 3025 4324 1044 1325 918 1393 5254 6560 7464 2152 3679 1712 5111 18076 21663 24124 5442 15949 4943 18006 1670 7658 16638 1039 1045 1039 16462 3611 4746 6114 1271 1382 951 2532 8070 9375 10394 2700 4180 2491 5307 207 531 1027 135 348 127 127 203 983 1565 154 175 154 154 184 757 1892 119 111 111 111 1439 1699 2098 832 932 704 1156 763 1345 2520 473 1098 439 575 8675 12191 21687 1988 2857 1834 4064 938 3376 5814 308 313 308 3027 209 1026 1713 145 145 136 136 4053 5383 7328 1523 1736 1395 2179 6094 7752 9445 2431 3171 2113 4473 Tablica 2: Koszt rozbioru dla najwiekszych ˛ spójnych składowych w badanej sieci (rozmiary powyżej 1000 w˛ezłów). Każdy wiersz reprezentuje spójna˛ składowa. ˛ Trzy pierwsze kolumny zawieraja: ˛ identyfikator składowej, liczbe˛ w˛ezłów, oraz liczbe˛ kraw˛edzi. Nastepne ˛ kolumny zawieraja˛ koszt rozbiorów znalezionych przez 7 badanych algorytmów. W każdym wierszu, wartość najlepszego (najniższego) kosztu jest wytłuszczony. Algorytm GEN, a wiec ˛ rozwiazanie ˛ oparte na algorytmach genetycznych, wypada najlepiej. 14 Literatura [1] Albert, R., Barabási, A.L.: Statistical mechanics of complex networks. Reviews of Modern Physics 74 (2002) 47–97 [2] Anthonisse, J.M.: The rush in a directed graph. Technical Report BN 9/71, Stichting Mathematisch Centrum, Amsterdam (1971) [3] Barabási, A.L., Albert, R.: Emergence of scaling in random networks. Science 286 (1999) 509–512 [4] Barak, A.: Psychological Aspects of Cyberspace: Theory, Research, Applications. Cambridge University Press, New York, NY, USA (2008) [5] Berners-Lee, T., Hendler, J., Lassila, O.: The Semantic Web. Scientific American (2001) [6] Berners-Lee, T.: Tim Berners-Lee on the next Web. TED Talks (2009) [7] Bomze, I., Budinich, M., Pardalos, P.M., Pelillo, M.: The maximum clique problem. In Du, D.Z., Pardalos, P.M., eds.: Handbook of Combinatorial Optimization (Supplement Volume A). Volume 4. Kluwer Academic Publishers, Boston, MA (1999) [8] Boudet, V., Rastello, F., Robert, Y.: Alignment and distribution is NOT (always) NP-hard. In: Proceedings of the International Conference on Parallel and Distributed Systems. (1998) [9] Brandes, U., Lerner, J.: Visual analysis of controversy in user-generated encyclopedias. Information Visualization 7 (2008) 34–48 [10] Bryant, S.L., Forte, A., Bruckman, A.: Becoming Wikipedian: transformation of participation in a collaborative online encyclopedia. In: GROUP ’05: Proceedings of the 2005 international ACM SIGGROUP conference on Supporting group work. (2005) 1–10 [11] Bunde, A., Havlin, S.: Power-law persistence in the atmosphere and in the oceans. Physica A 314 (2002) 15–24 [12] Dahlhaus, E., Johnson, D.S., Papadimitriou, C.H., Seymour, P.D., Yannakakis, M.: The Complexity of Multiterminal Cuts. SIAM J. Comput. 23 (1994) 864–894 [13] Dorogovtsev, S.N., Mendes, J.F.F., Oliveira, J.G.: Frequency of occurrence of numbers in the World Wide Web. Physica A 360 (2006) 548 [14] Eades, P.: A Heuristic for Graph Drawing. Congressus Numerantium 42 (1984) 149–160 15 [15] Ebel, H., Mielsch, L.I., Bornholdt, S.: Scale-free topology of e-mail networks. Physical Review E 66 (2002) 035103 [16] Erdmann, M., Nakayama, K., Hara, T., Nishio, S.: Lecture Notes in Computer Science. In Haritsa, J.R., Ramamohanarao, K., Pudi, V., eds.: DASFAA. Volume 4947., Springer (2008) 380–392 [17] Erdős, P., Rényi, A.: On random graphs, I. Publicationes Mathematicae 6 (1959) 290–297 [18] Erdős, P., Rényi, A.: On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci 5 (1960) 17–61 [19] Ford, L.R., Fulkerson, D.R.: Flows in Networks. Princeton University Press, Princeton, NJ (1962) [20] Freeman, L.C.: A Set of Measures of Centrality Based on Betweenness. Sociometry 40 (1977) 35–41 [21] Fruchterman, T.M.J., Reingold, E.M.: Graph Drawing by Force-directed Placement. Software - Practice and Experience 21 (1991) 1129–1164 [22] Girvan, M., Newman, M.E.J.: Community structure in social and biological networks. Proc. Natl. Acad. Sci. U.S.A. 99 (2002) 7821–6 [23] Goldberg, D.E.: Genetic Algorithms in Search, Optimization, and Machine Learning. Addison-Wesley Professional (1989) [24] Hansen, S., Berente, N., Lyytinen, K.: Wikipedia, Critical Social Theory, and the Possibility of Rational Discourse. The Information Society 25 (2009) 38–59 [25] He, G., Liu, J., Zhao, C.: Approximation algorithms for some graph partitioning problems. Journal of Graph Algorithms and Applications 4 (2000) 1–11 [26] Hong, B.H., Lee, K.E., Lee, J.W.: Power Law in Firms Bankruptcy. Physics Letter A 361 (2007) 6 [27] Kamada, T., Kawai, S.: An algorithm for drawing general undirected graphs. Inf. Process. Lett. 31 (1989) 7–15 [28] Li, J., Chen, M.: Index Domain Alignment: Minimizing Cost of Cross-reference between Distributed Arrays. In: Proceedings of the third Symposium on Frontiers of Massively Parallel Computation. (1990) 424–433 [29] Luccio, F., Sami, M.: On the Decomposition of Networks in Minimally Interconnected Subnetworks. IEEE Transactions on Circuit Theory 16 (1969) 184–188 [30] Magnus, P.D.: On Trusting WIKIPEDIA. Episteme 6 (2009) 74–90 16 [31] Mantegna, R.N., Buldyrev, S.V., Goldberger, A.L., Havlin, S., Peng, C.K., Simons, M., Stanley, H.E.: Linguistic Features of Noncoding DNA Sequences. Phys. Rev. Lett. 73 (1994) 3169–3172 [32] Marsili, M., Zhang, Y.C.: Interacting Individuals Leading to Zipf’s Law. Phys. Rev. Lett. 80 (1998) 2741–2744 [33] Mitchell, M.: An Introduction to Genetic Algorithms. The MIT Press (1998) [34] Miyazima, S., Lee, Y., Nagamine, T., Miyajima, H.: Power-law Distribution of Family Names in Japanese Societies. Physica A 278 (2000) 282 – 288 [35] Newman, M.E.J.: Scientific collaboration networks. I. Network construction and fundamental results. Phys. Rev. E 64 (2001) 016131 [36] Newman, M.E.J.: Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Phys. Rev. E 64 (2001) 016132 [37] Newman, M.E.J.: Detecting community structure in networks. European Physical Journal B 38 (2004) 321–330 [38] Newman, M.E.J.: Fast algorithm for detecting community structure in networks. Physical Review E 69 (2004) 066133 [39] Newman, M.E.J.: Modularity and community structure in networks. Proceedings of the National Academy of Sciences 103 (2006) 8577–8582 [40] Newman, M.E.J., Girvan, M.: Finding and evaluating community structure in networks. Physical Review E 69 (2004) 026113 [41] Nunes, S., Ribeiro, C., David, G.: WikiChanges - Exposing Wikipedia Revision Activity. In: WikiSym’08: Proceedings of the 2008 international symposium on Wikis. (2008) [42] Oreg, S., Nov, O.: Exploring motivations for contributing to open source initiatives: The roles of contribution context and personal values. Comput. Hum. Behav. 24 (2008) 2055–2073 [43] Pushkin, D.O., Aref, H.: Bank mergers as scale-free coagulation. Physica A 336 (2004) 571–584 [44] Sanger, L.M.: The Fate of Expertise after WIKIPEDIA. Episteme 6 (2009) 52–73 [45] Schroer, J., Hertel, G.: Voluntary Engagement in an Open Web-Based Encyclopedia: Wikipedians and Why They Do It. Media Psychology 12 (2009) 96–120 [46] Stone, H.S.: Multiprocessor Scheduling with the Aid of Network Flow Algorithms. IEEE Trans. Softw. Eng. 3 (1977) 85–93 17 [47] Suh, B., Chi, E.H., Pendleton, B.A., Kittur, A.: Us vs. Them: Understanding Social Dynamics in Wikipedia with Revert Graph Visualizations. In: IEEE Symposium on Visual Analytics Science and Technology. (2007) 163–170 [48] Tollefsen, D.P.: WIKIPEDIA and the Epistemology of Testimony. Episteme 6 (2009) 8–24 [49] Tyers, F.M., Pienaar, J.A.: Extracting bilingual word pairs from Wikipedia. In: Proceedings of the SALTMIL Workshop at Language Resources and Evaluation Conference, LREC08. (2008) 19–22 [50] Wasserman, S., Faust, K.: Social Network Analysis: Methods and Applications. Cambridge University Press (1994) [51] Watts, D.J., Strogatz, S.H.: Collective dynamics of ’small-world’ networks. Nature 393 (1998) 440–2 [52] Wray, B.K.: The Epistemic Cultures of Science and WIKIPEDIA: A Comparison. Episteme 6 (2009) 38–51 18