Slajd 1 - Uniwersytet Ekonomiczny w Krakowie

Transkrypt

Slajd 1 - Uniwersytet Ekonomiczny w Krakowie
2011-05-23
Sied społeczna
• Sied interakcji lub relacji pomiędzy badanymi jednostkami,
• Reprezentowana zwykle przez graf:
Analiza sieci społecznych
– węzły – reprezentują badane jednostki
– krawędzie – reprezentują interakcje lub relacje.
• Obecnie sied społeczna jest kojarzona z Internetem, ale nie
jest to wymóg konieczny
• Socjometria – badanie sieci społecznych
• Twórca socjometrii: Jacob Moreno (1889 – 1974)
Web Mining
Wykład 6.
Rok akademicki: 2010/2011
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Hipoteza o małym świecie
Liczba Bacona
• Stanley Milgram, 1967
• Założenia:
• Liczbę Bacona określa się korzystając z
poniższych reguł:
– Kevin Bacon ma liczbę Bacona równą 0,
– każdy aktor, który grał przynajmniej w
jednym filmie wraz z Kevinem Baconem ma
liczbę Bacona równą 1,
– dla pozostałych aktorów liczbę Bacona
wyznacza się poprzez wskazanie najkrótszej
ścieżki prowadzącej od rozpatrywanego
aktora do Kevina Bacona, przy czym każda
para sąsiadujących na tej ścieżce aktorów
musiała wystąpid wspólnie przynajmniej w
jednym filmie. Liczba Bacona określa
odległośd aktora od Kevina Bacona.
– Rozpatrywana jest duża społecznośd
– Określona jest relacja znajomości, która zachodzi pomiędzy dwiema
osobami,
• Hipoteza:
– Pomiędzy dwiema dowolnymi osobami istnieje łącząca je ścieżka
kolejnych znajomych, których liczba nie przekracza sześciu.
• Powyższa zasada w socjologii nosi nazwę zasady sześciu
stopni oddzielenia lub hipotezy o małym świecie.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
3
2
Kevin Bacon
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Rodzaje sieci społecznych w Internecie
Klasyfikacja typów analiz sieci badao ze względu na
uwzględnienie czynnika czasu
• sieci ukierunkowane na relacje pomiędzy uczestnikami,
• sieci ukierunkowane na treści zamieszczane przez
uczestników.
• analizy statyczne – dotyczą stanu sieci na dany moment w
czasie,
• analizy dynamiczne – dotyczą zmian zachodzących w sieci.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
5
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
4
6
1
2011-05-23
Problemy badawcze związane z sieciami społecznymi
• analiza struktury sieci,
• analiza zawartości treści dostarczanych przez uczestników sieci
(teksty, materiały graficzne, filmy, nagrania dźwiękowe, ...)
• klasyfikacja węzłów sieci,
• badanie przepływu informacji w sieci,
• ewolucja sieci,
• predykcja przyszłych powiązao,
• wizualizacja sieci.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
7
Przykładowa sied
BADANIE STRUKTURY SIECI
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
8
Gęstośd sieci
• Gęstośd sieci jest wyrażana jako stosunek liczby połączeo
istniejących w sieci oraz maksymalnej możliwej liczby
połączeo
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
9
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Gęstośd sieci
Stopieo węzła
3. Strike.net (24)
----------------------------------------------------------------------------Number of vertices (n): 24
----------------------------------------------------Arcs
Edges
----------------------------------------------------Total number of lines
0
38
----------------------------------------------------Number of loops
0
0
Number of multiple lines
0
0
-----------------------------------------------------
• Stopieo węzła – liczba połączeo związana z danym węzłem
• Stopieo węzła in-degree – liczba łuków dochodzących do
węzła
• Stopieo węzła out-degree – liczba łuków wychodzących z
węzła
10
Density1 [loops allowed] = 0.1319444
Density2 [no loops allowed] = 0.1376812
Average Degree = 3.1666667
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
11
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
12
2
2011-05-23
Stopieo węzła
Stopieo węzła – rozkład wartości
21. All Degree partition of N3 (24)
-----------------------------------------------------------------------------Dimension: 24
The lowest value: 1
The highest value: 7
Frequency distribution of cluster numbers:
Cluster
Freq
Freq%
CumFreq CumFreq% Representative
--------------------------------------------------------------1
1
4.1667
1
4.1667 Frank
2
7
29.1667
8
33.3333 Mike
3
9
37.5000
17
70.8333 Ike
4
4
16.6667
21
87.5000 Gill
5
1
4.1667
22
91.6667 John
6
1
4.1667
23
95.8333 Norm
7
1
4.1667
24 100.0000 Bob
--------------------------------------------------------------Sum
24 100.0000
Stopieo węzła wyświetlany jest w postaci znormalizowanej, tzn. liczba połączeo
podzielona jest przez maksymalną możliwą liczbę połączeo.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
13
Spójne składowe grafu
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
14
Spójna składowa
• Spójna składowa grafu - jest to maksymalny zbiór
wierzchołków (czyli podgraf) pewnego grafu, w którym to
zbiorze istnieją połączenia bezpośrednie bądź pośrednie
między wszystkimi parami wierzchołków.
• W przypadku grafów skierowanych wyróżnia się:
– silnie spójną składową grafu – uwzględniającą kierunek połączenia
wskazywany przez łuk łączący wierzchołki,
– słabo spójną składową grafu – traktującą każde połączenie jako
dwukierunkowe.
Analizowany graf jest grafem (słabo) spójnym.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
15
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Mosty i przeguby w sieciach
Graf dwuspójny
• Most – krawędź grafu spójnego, której usunięcie z grafu
rozspójnia ten graf. Krawędź, której usunięcie zwiększa liczbę
składowych grafu
• Punkt artykulacji – ang. cut-vertex (przegub, wierzchołek
rozcinający, wierzchołek rozdzielający, wierzchołek
rozspajający) – wierzchołek grafu spójnego, którego usunięcie
z grafu rozspójnia go (graf niespójny). Wierzchołek, którego
usunięcie zwiększa liczbę spójnych składowych grafu
• Graf dwuspójny – graf bez wierzchołków rozdzielających.
• Dwuspójna składowa – składowa, która nie zawiera
wierzchołków rozdzielających (tę składową, nie całą sied)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
17
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
16
18
3
2011-05-23
Punkty artykulacji, dwuspójne składowe i mosty
Klika
• Klika – zbiór wierzchołków, w którym każdy wierzchołek jest
bezpośrednio połączony z każdym z pozostałych wierzchołków
(podgraf pełny)
• Klika – maksymalna podsied o pełnym zestawie połączeo i
zawierająca przynajmniej trzy wierzchołki.
• Zadanie identyfikacji wszystkich klik w sieci jest problemem o
złożoności wykładniczej.
Punkty artykulacji (przeguby) – oznaczone kolorem szarym,
pozostałe kolory – kolejne dwuspójne składowe grafu lub mosty
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
19
Kliki trójelementowe w przykładowej sieci
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
20
Centralnośd
• Centralnośd wyrażona poprzez stopieo węzła
• Centralnośd wyrażona poprzez miarę bliskości (lub odległości)
do pozostałych węzłów sieci
• Centralnośd wyrażona poprzez częstośd występowania węzła
w charakterze węzła pośredniego (leżącego na najkrótszej
ścieżce pomiędzy innymi węzłami)
Realizacja zadania: wyszukiwanie w analizowanej sieci wszystkich
wystąpieo sieci pełnej o zadanej liczbie wierzchołków.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
21
Triady i ich znaczenie w sieciach społecznych
C
B
C
B
A
Triada pełna – osoby funkcjonują jako grupa,
działają wspólnie
B
osoba A jest pośrednikiem pomiędzy osobami B i C,
kontroluje przepływ informacji, jest negocjatorem,
poprzez swoje działanie może doprowadzid do
konfliktu pomiędzy B i C (osoba A może przekazywad
osobie B negatywne informacje dotyczące C
oraz przekazywad osobie C negatywne informacje
dotyczące osoby B).
23
Czy z punkty widzenia osoby A warto
zerwad relację z osobą B lub osobą C?
Działanie takie nie jest uzasadnione
z punktu widzenia osoby A.
A
Na zerwaniu relacji A – B skorzysta
przede wszystkim osoba C.
C
B
Osoba A odnosi korzyści z braku relacji
pomiędzy B i C
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Osoba A nie korzysta z braku relacji
pomiędzy B i C.
C
Triada niekompletna
A
22
Czy warto zrywad relacje?
Badania zapoczątkował:
Georg Simmel (1858 – 1918) – niemiecki
filozof i socjolog.
A
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Z punktu widzenia osoby A takie rozwiązanie jest gorsze od triady pełnej.
Zerwanie relacji A – B przez A
nie jest również korzystne dla B.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
24
4
2011-05-23
Które relacje zerwad?
Siła relacji
D
0,33
A
Osoba A postanowiła zerwad
jedną z dwóch relacji:
A – D lub A – B.
C
D
0,33
0,25
0,33 0,33
0,25
A
0,2
B
0,2
H
0,2
0,33
E
G
0,2
0,25
0,33
B
0,2
0,33 0,25
0,33
C
Które rozwiązanie jest lepsze
z punktu widzenia osoby A?
F
0,33
I
Siła relacji A  B jest odwrotnością liczby relacji utrzymywanych przez A.
Osoba A powinna się zdecydowad na zerwanie relacji A – D,
gdyż z relacji A- B wynika większe ograniczenie dla A.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
25
Ogranicenie wynikające z relacji
D
0,33
0,33
F
0,2
0,25
0,33
0,25
0,33 0,33
A
0,2
0,33
G
H
0,25
0,33 0,33
Ogr(A, A – C) - ograniczenie, jakie dla osoby A wynika z faktu istnienia relacji A – C
sr(AC) – siła relacji A  C
Ogr(A, A – C) = {sr(AC) + sr(AD) * sr(DC) + sr(AE) * sr(EC)} ^ 2 =
{0,25 + 0,25 * 0,33 + 0,25 * 0,33} ^ 2 = 0,172
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
27
0,25
A
0,2
B
0,2
0,25
E
I
0,2
0,33
0,33
0,2
F
0,33
0,33 0,25
C
0,2
0,33
E
D
0,33
0,2
B
0,25
0,33
26
Ogranicenie wynikające z relacji
0,33
0,33 0,25
C
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
0,33
H
0,2
Ogr(A, A – C) = 0,172
Ogr(A, A – D) = 0,172
Ogr(A, A – E) = 0,172
Ogr(A, A – B) = 0,0625
Zagregowane ograniczenie dla A wynikające z posiadanych przez niego relacji:
0,172 + 0,172 + 0,172 + 0,0625 = 0,5785.
Im większa wartośd zagregowanego ograniczenia, tym trudniej jest się
jednostce wyzwolid z istniejących relacji.
Jednostki charakteryzujące się mniejszą wartością zagregowanego ograniczenia
funkcjonują lepiej, łatwiej osiągają sukcesy.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
G
0,2
I
28
Sied sąsiedzka
D
0,33
0,33
F
0,33
0,2
0,33 0,25
0,33
C
0,25
0,33 0,33
0,25
A
0,2
0,25
0,33
E
0,2
B
0,33
0,2
H
0,2
Sied sąsiedzka osoby A obejmuje jej bezpośrednich sąsiadów (B, D, C, E).
Gęstośd sieci sąsiedzkiej bez uwzględnienia połączeo do osoby, dla której sied jest
tworzona: iloraz (liczby połączeo pomiędzy sąsiadami) oraz (maksymalnej liczby
połączeo, które mogłyby istnied pomiędzy sąsiadami).
dla osoby A: 3 / 6 = 0,5
dla osoby C: 3 / 3 = 1,0
Im wyższa gęstośd sieci sąsiedzkiej osoby A, tym wyższa wartośd
zagregowanego ograniczenia dla osoby A wynikającego z posiadanych przez
nią relacji.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
G
I
KLASYFIKACJA WĘZŁÓW SIECI
29
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
30
5
2011-05-23
Podobieostwo węzłów w sieci
Miary niepodobieostwa uwzględniające strukturę połączeo
• Podobieostwo węzłów może uwzględniad:
– połączenia węzłów (węzły są tym bardziej podobne do siebie, im
większe jest podobieostwo zbiorów ich bezpośrednich sąsiadów),
– wartości skojarzone z połączeniami.
Nu – zbiór sąsiadów węzła u,
+ - różnica symetryczna zbiorów (zbiór tych elementów, którzy należą
tylko do jednego zbioru, ale nie do obu),
1 st maxdegree (2 nd maxdegree) – pierwszy (drugi) według wartości
maksymalny stopieo węzła w sieci,
ᴜ - suma zbiorów,
\ - różnica zbiorów,
| | - moc zbioru.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
31
Miary niepodobieostwa uwzględniające wartości związane z
połączeniami
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
32
Wyznaczanie miar niepodobieostwa
qus – wartośd skojarzano z połączeniem prowadzącym od węzła u do s,
p – parametr przyjmujący zwykle wartośd 1 lub 2
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
33
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
34
Klasyfikacja węzłów metodą Warda
Wykorzystano macierz
niepodobieostwa
obliczoną przy wykorzystaniu
formuły d2.
SIECI DWUDZIELNE
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
35
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
36
6
2011-05-23
Sieci dwudzielne (bipartite networks, two-mode networks)
• Sied dwudzielna – sied, w której wierzchołki należą do dwóch
rozłącznych zbiorów i żadna krawędź nie łączy wierzchołków
należących do tego samego zbioru.
Aktor 10
Aktor 1
Aktor 2
Film 2
Film 1
Aktor 9
Aktor 7
Aktor 4
Aktor 3
Film 5
Film 3
Aktor 5
Film 4
Aktor 6
Aktor 8
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
37
7

Podobne dokumenty