Analiza struktury serwisów WWW - Uniwersytet Ekonomiczny w

Transkrypt

Analiza struktury serwisów WWW - Uniwersytet Ekonomiczny w
2010-01-21
Analiza struktury serwisów WWW
Web Mining
Wykład 4.
Rok akademicki: 2009/2010
Zakres badao web miningowych
• Podstawowe problemy rozważane na gruncie Web Miningu to:
– analiza zawartości serwisów internetowych,
– analiza zachowao użytkowników,
– analiza struktury serwisów WWW:
• analiza struktury pojedynczego serwisu,
• analiza struktury całości sieci serwisów WWW.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
2
1
2010-01-21
Pojęcie grafu
• Graf – zbiór wierzchołków połączonych za pomocą krawędzi.
• Podstawowe rodzaje grafów:
– grafy nieskierowane,
– grafy skierowane.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
3
Rodzaje grafów
graf nieskierowany
graf skierowany
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
4
2
2010-01-21
Graf nieskierowany
• Graf nieskierowany G = (V, E), gdzie:
– V – zbiór wierzchołków,
– E – zbiór krawędzi, czyli zbiór nieuporządkowanych par wierzchołków o
postaci (u, v), gdzie u, v  V i u ≠ v (w grafie nieskierowanym nie mogą
występowad pętle, czyli połączenie łączące wierzchołek z samym
sobą).
• Graf nieskierowany nazywany jest grafem prostym.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
5
Pojęcia związane z grafami prostymi
• ścieżka – ciąg połączonych kolejno ze sobą wierzchołków,
• długośd ścieżki – liczba krawędzi wchodzących w skład ścieżki,
• ścieżka prosta – jeśli wszystkie wchodzące w jej skład
wierzchołki są różne (dopuszcza się jedynie, aby pierwszy i
ostatni wierzchołek był identyczny)
• graf spójny – jeśli dla każdej pary wierzchołków istnieje
łącząca je ścieżka
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
6
3
2010-01-21
Pojęcia związane z grafami prostymi
• krawędź (u, v) nazywana jest krawędzią przylegającą do
wierzchołków u oraz v lub krawędzią incydentną z tymi
wierzchołkami
• stopieo wierzchołka – liczba incydentnych z nim krawędzi
• cykl – ścieżka łącząca wierzchołek z samym sobą
• graf cykliczny – graf zawierający co najmniej jeden cykl
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
7
Graf skierowany
• Graf skierowany (digraf) G = (V, E) to struktura składająca się
ze zbioru wierzchołków V oraz zbioru krawędzie (zwanych
także łukami).
• Krawędź jest uporządkowaną parą wierzchołków (u, v) – u jest
wierzchołkiem początkowym, a v wierzchołkiem koocowym
krawędzi.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
8
4
2010-01-21
Graf skierowany (słabo) spójny
• Graf skierowany określany jest grafem spójnym (słabo
spójnym) – jeśli graf nieskierowany powstały z
rozpatrywanego grafu skierowanego poprzez usunięcie
informacji o kierunku połączeo jest spójny.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
9
(Słabo) spójna składowa grafu skierowanego
• (Słabo) spójna składowa (weakly connected component) –
maksymalny podgraf spójny istniejący w grafie powstałym na
bazie grafu rozważanego poprzez usunięcie informacji o
kierunku połączeo.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
10
5
2010-01-21
Graf skierowany silnie spójny
• Graf skierowany określany jest grafem silnie spójnym jeśli
istnieją połączenia bezpośrednie bądź pośrednie między
wszystkimi parami wierzchołków (innymi słowy: można
dotrzed z każdego wierzchołka do każdego innego w danym
zbiorze).
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
11
Silnie spójna składowa grafu skierowanego
• Silnie spójna składowa (strongly connected component) - jest
to maksymalny zbiór wierzchołków (podgraf) pewnego grafu,
w którym to zbiorze istnieją połączenia bezpośrednie bądź
pośrednie między wszystkimi parami wierzchołków.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
12
6
2010-01-21
Miary wielkości grafu skierowanego
• Średnica grafu skierowanego – długośd najkrótszej ścieżki
pomiędzy maksymalnie oddalonymi od siebie wierzchołkami.
• Średnia odległośd w grafie skierowanym – wartośd średnia –
wartośd średnia z odległości pomiędzy każdą możliwą parą
wierzchołków.
• Średnia z istniejących odległości w grafie skierowanym
(pomijane są pary wierzchołków, które nie są ze sobą
połączone).
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
13
Badania w obrębie pojedynczego serwisu
• badania struktury pojedynczej strony (znaczniki HTML) w celu
ekstrakcji informacji i/lub określenia sposobu prezentacji
dokumentu; szczególne znaczenie może mied:
– wystąpienie znaczników H1, H2, ... – wskazują na tytuły
pozwalające określid strukturę dokumentu,
– znaczniki B, I – mogą wskazywad na słowa kluczowe.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
14
7
2010-01-21
Badania w obrębie pojedynczego serwisu
• analiza struktury pojedynczego serwisu – analiza odnośników
HTML w obrębie jednego serwisu; jej celem może byd:
– optymalizacja struktury serwisu na podstawie analizy sposobu
nawigacji w serwisie, Mining Web Logs to Improve Website Organization, Ramakrishnan Srikant,
http://www10.org/cdrom/papers/345/index.html
– identyfikacja brakujących i niepotrzebnych połączeo,
– identyfikacja stron, na których użytkownicy rezygnowali z
korzystania z serwisu,
– badania długości ścieżek.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
15
Badania struktury sieci serwisów WWW
• A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan,
S. Stata, A. Tomkins, and J. Wiener. Graph structure in the
web. Computer Networks, 33:309–320, 2000
• W badaniach uwzględniono ponad 200 milionów stron WWW.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
16
8
2010-01-21
Badania struktury sieci serwisów WWW
Części sieci WWW:
-SCC (rdzeo – silnie
spójna składowa sieci
WWW),
-IN (strony mające
odnośniki do rdzenia),
-OUT (strony, do
których odwołują się
elementy tworzące
rdzeo)
-TENDRILS (wid)
-DISCONNECTED
COMPONENTS
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
17
Badania struktury sieci serwisów WWW
• Liczebnośd składowych sieci WWW:
–
–
–
–
–
–
SCC – 56,4 miliona stron,
IN – 43,3 miliona stron,
OUT – 43,1 miliona stron,
TENDRILS – 43,8 miliona stron,
DISCONNECTED COMPONENTS – 16,8 miliona stron
ŁĄCZNA LICZBA STRON UWZGLĘDNIONA W BADANIACH 203,5 miliona
stron WWW.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
18
9
2010-01-21
Wielkośd sieci serwisów WWW
• Średnica sieci WWW (maksymalna najkrótsza ścieżka) – 905
• Średnia z istniejących połączeo w sieci WWW:
– połączenia „do przodu” – 16,18
– połączenia „do tyłu” – 16,12
– bez uwzględniania kierunku – 6,8
• Średnica rdzenia – 28.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
19
Liczba odnośników na stronie
•
•
•
Odnośniki reprezentowane są w postaci krawędzi grafu
Niezależnie rozpatrywane jest liczba odnośników prowadząca do
rozpatrywanej strony (stopieo in-degree) oraz liczba odnośników
prowadzących od rozpatrywanej strony do innej strony (stopieo outdegree).
Do opisu liczby odnośników na stronie stosowany jest powszechnie rozkład
potęgowy
– Prawdopodobieostwo, że stopieo in-degree strony wynosi k jest
proporcjonalna do wartości 1/ka, gdzie a > 0;
– Prawdopodobieostwo, że stopieo out-degree strony wynosi k jest
proporcjonalna do wartości 1/kb, gdzie b > 0.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
20
10
2010-01-21
Liczba odnośników na stronie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
21
Wskaźnik PageRank
• PageRank – wskaźnik określający ważnośd strony WWW.
Obliczany jako średnia ważona z wartości miernika PageRank
stron, na których znajdują się odwołania do analizowanej
strony.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
22
11
2010-01-21
Idea wskaźnika PageRank (Larry Page, 1998)
Źródło: http://pl.wikipedia.org/wiki/Plik:PageRanks-Example.svg
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
23
Metody analizy sieci społecznych w badaniach struktury
serwisów WWW
• Analiza sieci społecznych (Social Network Analysis – SNA)
ukierunkowana jest na badanie sposobu zachowania się
jednostek (aktorów) w ramach organizacji, ich wzajemnego
współoddziaływania i powstających pomiędzy nimi relacji.
• Podstawowe cele badawcze:
– badanie pozycji (roli) jednostki w rozpatrywanej strukturze,
– badanie właściwości organizacji,
• Narzędzia modelowania sieci społecznych - grafy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
24
12
2010-01-21
Badanie pozycji jednostki w strukturze
• Pozycja jednostki w analizowanej strukturze wyznaczana jest
poprzez określenie stopnia jej "centralności" (element
centralny – ważny, mający wpływ na inne elementy),
• Centralnośd jednostki (reprezentowanej przez węzeł w grafie)
określa stopieo zaangażowania jednostki w relacje z innymi
jednostkami,
• Centralnośd może zostad wyrażona poprzez:
– stopieo węzła,
– bliskośd jednostki do innych jednostek,
– częstośd występowania jednostki w charakterze pośrednika w procesie
komunikacji pomiędzy innymi jednostkami.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
25
Stopieo węzła jako miara centralności
• Pomiar centralności w grafach nieskierowanych:
– bezwzględny stopieo centralności (BSC) jednostki – stopieo węzła;
– względny stopieo centralności jednostki – wyznaczany poprzez
podzielenie BSC przez teoretycznie maksymalny stopieo centralności
(WSC = BSC / (n – 1))
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
26
13
2010-01-21
Stopieo węzła jako miara centralności
• Pomiar centralności w grafach skierowanych:
– W zależności od kierunku uwzględnianych połączeo można mówid o
analizie:
• wpływu – gdy uwzględniane są połączenia wychodzące,
• poparcia – gdy uwzględniane są połączenia wchodzące
• Sposób pomiaru:
– stopieo węzła uwzględniający wyłącznie połączenia wychodzące (miara
wpływu) lub wchodzące (miara poparcia),
– może występowad w wersji bezwzględnej lub względnej (liczonej jako
wartośd bezwzględna podzielona przez n-1)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
27
Bliskośd jako miara centralności
• Im dwa węzły znajdują się bliżej siebie, tym ich wzajemne
oddziaływanie jest większe
• Miarą bliskości dwóch węzłów jest długośd najkrótszej ścieżki
łączącej te węzły
• Wykorzystując miarę bliskości do pomiaru centralności i-tego węzła
wyznacza się wartośd:
Ci
gdzie:
n 1

n
j 1
d ij
– n – liczba wszystkich węzłów osiągalnych z i-tego węzła
– dij – długośd najkrótszej ścieżki pomiędzy i-tym i j-tym węzłem
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
28
14
2010-01-21
Występowanie w charakterze węzła pośredniego jako miara
centralności
• Jednostka ma tym większe znaczenie, im częściej pojawia się
na najkrótszej ścieżce pomiędzy innymi elementami (bo ma
możliwośd wpływu na komunikację pomiędzy elementami) –
pomiar centralności ze pomocą częstości występowania w
charakterze węzła pośredniego – betweenness centrality.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
29
Występowanie w charakterze węzła pośredniego jako miara
centralności
• bezwzględny pomiar pozycji wynikającej z pośrednictwa (dla
grafów nieskierowanych i skierowanych)
cB i   
j k
p jk i 
p jk
liczba najkrótszych ścieżek prowadzących
z węzła j-tego do k-tego, które prowadzą
przez węzeł i-ty
liczba najkrótszych ścieżek prowadzących
z węzła j-tego do k-tego
suma wyznaczonych dla wszystkich możliwych par węzłów prawdopodobieostw
zdarzeo polegających na tym, że najkrótsza ścieżka z węzła j-tego do
węzła k-tego prowadzi przez i-ty węzeł
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
30
15
2010-01-21
Zastosowania analizy struktury sieci serwisów WWW
• optymalizacja metod przeszukiwania serwisów,
• badanie komunikacji międzykulturowej
• ocena „wartości” serwisu na podstawie liczby stron
odwołujących się do serwisu (np. PageRank)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
31
Ocena „wartości” stron w ramach wikipedii
(http://www.fran.it/articles/wikimania_bellomi_bonato.pdf )
Here is the list of the 300 most relevant entries, according to the
PageRank metric:
– 1. united states, 2. christianity, 3. roman catholic church, 4.
2004, 5. eastern orthodox church, 6. jesus, 7. greek language, 8.
russia, 9. bishop, 10. rome, 11.canada, 12. europe, 13. pope, 14.
japan, 15. latin, 16. god, 17. constantinople,18. bible, 19.
judaism, 20. oriental orthodoxy, 21. new testament, 22. united
kingdom, 23. jerusalem, 24. eastern rite, 25. france, 26. world
war ii, 27. greece, 28. protestantism, 29. priest, 30. egypt, 31.
church, 32. protestant, 33. eastern orthodoxy, 34. islam, 35.
roman empire,.....
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
32
16
2010-01-21
Wizualizacja powiązao pomiędzy serwisami http://www.touchgraph.com/
hasło:
Akademia Ekonomiczna
w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
33
Powiązania pomiędzy serwisami WWW wybranych krajów
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
34
17