Analiza struktury serwisów WWW - Uniwersytet Ekonomiczny w
Transkrypt
Analiza struktury serwisów WWW - Uniwersytet Ekonomiczny w
2010-01-21 Analiza struktury serwisów WWW Web Mining Wykład 4. Rok akademicki: 2009/2010 Zakres badao web miningowych • Podstawowe problemy rozważane na gruncie Web Miningu to: – analiza zawartości serwisów internetowych, – analiza zachowao użytkowników, – analiza struktury serwisów WWW: • analiza struktury pojedynczego serwisu, • analiza struktury całości sieci serwisów WWW. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 2 1 2010-01-21 Pojęcie grafu • Graf – zbiór wierzchołków połączonych za pomocą krawędzi. • Podstawowe rodzaje grafów: – grafy nieskierowane, – grafy skierowane. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 3 Rodzaje grafów graf nieskierowany graf skierowany Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 4 2 2010-01-21 Graf nieskierowany • Graf nieskierowany G = (V, E), gdzie: – V – zbiór wierzchołków, – E – zbiór krawędzi, czyli zbiór nieuporządkowanych par wierzchołków o postaci (u, v), gdzie u, v V i u ≠ v (w grafie nieskierowanym nie mogą występowad pętle, czyli połączenie łączące wierzchołek z samym sobą). • Graf nieskierowany nazywany jest grafem prostym. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 5 Pojęcia związane z grafami prostymi • ścieżka – ciąg połączonych kolejno ze sobą wierzchołków, • długośd ścieżki – liczba krawędzi wchodzących w skład ścieżki, • ścieżka prosta – jeśli wszystkie wchodzące w jej skład wierzchołki są różne (dopuszcza się jedynie, aby pierwszy i ostatni wierzchołek był identyczny) • graf spójny – jeśli dla każdej pary wierzchołków istnieje łącząca je ścieżka Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 6 3 2010-01-21 Pojęcia związane z grafami prostymi • krawędź (u, v) nazywana jest krawędzią przylegającą do wierzchołków u oraz v lub krawędzią incydentną z tymi wierzchołkami • stopieo wierzchołka – liczba incydentnych z nim krawędzi • cykl – ścieżka łącząca wierzchołek z samym sobą • graf cykliczny – graf zawierający co najmniej jeden cykl Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 7 Graf skierowany • Graf skierowany (digraf) G = (V, E) to struktura składająca się ze zbioru wierzchołków V oraz zbioru krawędzie (zwanych także łukami). • Krawędź jest uporządkowaną parą wierzchołków (u, v) – u jest wierzchołkiem początkowym, a v wierzchołkiem koocowym krawędzi. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 8 4 2010-01-21 Graf skierowany (słabo) spójny • Graf skierowany określany jest grafem spójnym (słabo spójnym) – jeśli graf nieskierowany powstały z rozpatrywanego grafu skierowanego poprzez usunięcie informacji o kierunku połączeo jest spójny. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 9 (Słabo) spójna składowa grafu skierowanego • (Słabo) spójna składowa (weakly connected component) – maksymalny podgraf spójny istniejący w grafie powstałym na bazie grafu rozważanego poprzez usunięcie informacji o kierunku połączeo. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 10 5 2010-01-21 Graf skierowany silnie spójny • Graf skierowany określany jest grafem silnie spójnym jeśli istnieją połączenia bezpośrednie bądź pośrednie między wszystkimi parami wierzchołków (innymi słowy: można dotrzed z każdego wierzchołka do każdego innego w danym zbiorze). Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 11 Silnie spójna składowa grafu skierowanego • Silnie spójna składowa (strongly connected component) - jest to maksymalny zbiór wierzchołków (podgraf) pewnego grafu, w którym to zbiorze istnieją połączenia bezpośrednie bądź pośrednie między wszystkimi parami wierzchołków. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 12 6 2010-01-21 Miary wielkości grafu skierowanego • Średnica grafu skierowanego – długośd najkrótszej ścieżki pomiędzy maksymalnie oddalonymi od siebie wierzchołkami. • Średnia odległośd w grafie skierowanym – wartośd średnia – wartośd średnia z odległości pomiędzy każdą możliwą parą wierzchołków. • Średnia z istniejących odległości w grafie skierowanym (pomijane są pary wierzchołków, które nie są ze sobą połączone). Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 13 Badania w obrębie pojedynczego serwisu • badania struktury pojedynczej strony (znaczniki HTML) w celu ekstrakcji informacji i/lub określenia sposobu prezentacji dokumentu; szczególne znaczenie może mied: – wystąpienie znaczników H1, H2, ... – wskazują na tytuły pozwalające określid strukturę dokumentu, – znaczniki B, I – mogą wskazywad na słowa kluczowe. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 14 7 2010-01-21 Badania w obrębie pojedynczego serwisu • analiza struktury pojedynczego serwisu – analiza odnośników HTML w obrębie jednego serwisu; jej celem może byd: – optymalizacja struktury serwisu na podstawie analizy sposobu nawigacji w serwisie, Mining Web Logs to Improve Website Organization, Ramakrishnan Srikant, http://www10.org/cdrom/papers/345/index.html – identyfikacja brakujących i niepotrzebnych połączeo, – identyfikacja stron, na których użytkownicy rezygnowali z korzystania z serwisu, – badania długości ścieżek. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 15 Badania struktury sieci serwisów WWW • A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, S. Stata, A. Tomkins, and J. Wiener. Graph structure in the web. Computer Networks, 33:309–320, 2000 • W badaniach uwzględniono ponad 200 milionów stron WWW. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 16 8 2010-01-21 Badania struktury sieci serwisów WWW Części sieci WWW: -SCC (rdzeo – silnie spójna składowa sieci WWW), -IN (strony mające odnośniki do rdzenia), -OUT (strony, do których odwołują się elementy tworzące rdzeo) -TENDRILS (wid) -DISCONNECTED COMPONENTS Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 17 Badania struktury sieci serwisów WWW • Liczebnośd składowych sieci WWW: – – – – – – SCC – 56,4 miliona stron, IN – 43,3 miliona stron, OUT – 43,1 miliona stron, TENDRILS – 43,8 miliona stron, DISCONNECTED COMPONENTS – 16,8 miliona stron ŁĄCZNA LICZBA STRON UWZGLĘDNIONA W BADANIACH 203,5 miliona stron WWW. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 18 9 2010-01-21 Wielkośd sieci serwisów WWW • Średnica sieci WWW (maksymalna najkrótsza ścieżka) – 905 • Średnia z istniejących połączeo w sieci WWW: – połączenia „do przodu” – 16,18 – połączenia „do tyłu” – 16,12 – bez uwzględniania kierunku – 6,8 • Średnica rdzenia – 28. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 19 Liczba odnośników na stronie • • • Odnośniki reprezentowane są w postaci krawędzi grafu Niezależnie rozpatrywane jest liczba odnośników prowadząca do rozpatrywanej strony (stopieo in-degree) oraz liczba odnośników prowadzących od rozpatrywanej strony do innej strony (stopieo outdegree). Do opisu liczby odnośników na stronie stosowany jest powszechnie rozkład potęgowy – Prawdopodobieostwo, że stopieo in-degree strony wynosi k jest proporcjonalna do wartości 1/ka, gdzie a > 0; – Prawdopodobieostwo, że stopieo out-degree strony wynosi k jest proporcjonalna do wartości 1/kb, gdzie b > 0. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 20 10 2010-01-21 Liczba odnośników na stronie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 21 Wskaźnik PageRank • PageRank – wskaźnik określający ważnośd strony WWW. Obliczany jako średnia ważona z wartości miernika PageRank stron, na których znajdują się odwołania do analizowanej strony. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 22 11 2010-01-21 Idea wskaźnika PageRank (Larry Page, 1998) Źródło: http://pl.wikipedia.org/wiki/Plik:PageRanks-Example.svg Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 23 Metody analizy sieci społecznych w badaniach struktury serwisów WWW • Analiza sieci społecznych (Social Network Analysis – SNA) ukierunkowana jest na badanie sposobu zachowania się jednostek (aktorów) w ramach organizacji, ich wzajemnego współoddziaływania i powstających pomiędzy nimi relacji. • Podstawowe cele badawcze: – badanie pozycji (roli) jednostki w rozpatrywanej strukturze, – badanie właściwości organizacji, • Narzędzia modelowania sieci społecznych - grafy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 24 12 2010-01-21 Badanie pozycji jednostki w strukturze • Pozycja jednostki w analizowanej strukturze wyznaczana jest poprzez określenie stopnia jej "centralności" (element centralny – ważny, mający wpływ na inne elementy), • Centralnośd jednostki (reprezentowanej przez węzeł w grafie) określa stopieo zaangażowania jednostki w relacje z innymi jednostkami, • Centralnośd może zostad wyrażona poprzez: – stopieo węzła, – bliskośd jednostki do innych jednostek, – częstośd występowania jednostki w charakterze pośrednika w procesie komunikacji pomiędzy innymi jednostkami. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 25 Stopieo węzła jako miara centralności • Pomiar centralności w grafach nieskierowanych: – bezwzględny stopieo centralności (BSC) jednostki – stopieo węzła; – względny stopieo centralności jednostki – wyznaczany poprzez podzielenie BSC przez teoretycznie maksymalny stopieo centralności (WSC = BSC / (n – 1)) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 26 13 2010-01-21 Stopieo węzła jako miara centralności • Pomiar centralności w grafach skierowanych: – W zależności od kierunku uwzględnianych połączeo można mówid o analizie: • wpływu – gdy uwzględniane są połączenia wychodzące, • poparcia – gdy uwzględniane są połączenia wchodzące • Sposób pomiaru: – stopieo węzła uwzględniający wyłącznie połączenia wychodzące (miara wpływu) lub wchodzące (miara poparcia), – może występowad w wersji bezwzględnej lub względnej (liczonej jako wartośd bezwzględna podzielona przez n-1) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 27 Bliskośd jako miara centralności • Im dwa węzły znajdują się bliżej siebie, tym ich wzajemne oddziaływanie jest większe • Miarą bliskości dwóch węzłów jest długośd najkrótszej ścieżki łączącej te węzły • Wykorzystując miarę bliskości do pomiaru centralności i-tego węzła wyznacza się wartośd: Ci gdzie: n 1 n j 1 d ij – n – liczba wszystkich węzłów osiągalnych z i-tego węzła – dij – długośd najkrótszej ścieżki pomiędzy i-tym i j-tym węzłem Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 28 14 2010-01-21 Występowanie w charakterze węzła pośredniego jako miara centralności • Jednostka ma tym większe znaczenie, im częściej pojawia się na najkrótszej ścieżce pomiędzy innymi elementami (bo ma możliwośd wpływu na komunikację pomiędzy elementami) – pomiar centralności ze pomocą częstości występowania w charakterze węzła pośredniego – betweenness centrality. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 29 Występowanie w charakterze węzła pośredniego jako miara centralności • bezwzględny pomiar pozycji wynikającej z pośrednictwa (dla grafów nieskierowanych i skierowanych) cB i j k p jk i p jk liczba najkrótszych ścieżek prowadzących z węzła j-tego do k-tego, które prowadzą przez węzeł i-ty liczba najkrótszych ścieżek prowadzących z węzła j-tego do k-tego suma wyznaczonych dla wszystkich możliwych par węzłów prawdopodobieostw zdarzeo polegających na tym, że najkrótsza ścieżka z węzła j-tego do węzła k-tego prowadzi przez i-ty węzeł Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 30 15 2010-01-21 Zastosowania analizy struktury sieci serwisów WWW • optymalizacja metod przeszukiwania serwisów, • badanie komunikacji międzykulturowej • ocena „wartości” serwisu na podstawie liczby stron odwołujących się do serwisu (np. PageRank) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 31 Ocena „wartości” stron w ramach wikipedii (http://www.fran.it/articles/wikimania_bellomi_bonato.pdf ) Here is the list of the 300 most relevant entries, according to the PageRank metric: – 1. united states, 2. christianity, 3. roman catholic church, 4. 2004, 5. eastern orthodox church, 6. jesus, 7. greek language, 8. russia, 9. bishop, 10. rome, 11.canada, 12. europe, 13. pope, 14. japan, 15. latin, 16. god, 17. constantinople,18. bible, 19. judaism, 20. oriental orthodoxy, 21. new testament, 22. united kingdom, 23. jerusalem, 24. eastern rite, 25. france, 26. world war ii, 27. greece, 28. protestantism, 29. priest, 30. egypt, 31. church, 32. protestant, 33. eastern orthodoxy, 34. islam, 35. roman empire,..... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 32 16 2010-01-21 Wizualizacja powiązao pomiędzy serwisami http://www.touchgraph.com/ hasło: Akademia Ekonomiczna w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33 Powiązania pomiędzy serwisami WWW wybranych krajów Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 34 17