Slajd 1 - Uniwersytet Ekonomiczny w Krakowie
Transkrypt
Slajd 1 - Uniwersytet Ekonomiczny w Krakowie
2011-05-23 Sied społeczna • Sied interakcji lub relacji pomiędzy badanymi jednostkami, • Reprezentowana zwykle przez graf: Analiza sieci społecznych – węzły – reprezentują badane jednostki – krawędzie – reprezentują interakcje lub relacje. • Obecnie sied społeczna jest kojarzona z Internetem, ale nie jest to wymóg konieczny • Socjometria – badanie sieci społecznych • Twórca socjometrii: Jacob Moreno (1889 – 1974) Web Mining Wykład 6. Rok akademicki: 2010/2011 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Hipoteza o małym świecie Liczba Bacona • Stanley Milgram, 1967 • Założenia: • Liczbę Bacona określa się korzystając z poniższych reguł: – Kevin Bacon ma liczbę Bacona równą 0, – każdy aktor, który grał przynajmniej w jednym filmie wraz z Kevinem Baconem ma liczbę Bacona równą 1, – dla pozostałych aktorów liczbę Bacona wyznacza się poprzez wskazanie najkrótszej ścieżki prowadzącej od rozpatrywanego aktora do Kevina Bacona, przy czym każda para sąsiadujących na tej ścieżce aktorów musiała wystąpid wspólnie przynajmniej w jednym filmie. Liczba Bacona określa odległośd aktora od Kevina Bacona. – Rozpatrywana jest duża społecznośd – Określona jest relacja znajomości, która zachodzi pomiędzy dwiema osobami, • Hipoteza: – Pomiędzy dwiema dowolnymi osobami istnieje łącząca je ścieżka kolejnych znajomych, których liczba nie przekracza sześciu. • Powyższa zasada w socjologii nosi nazwę zasady sześciu stopni oddzielenia lub hipotezy o małym świecie. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 3 2 Kevin Bacon Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Rodzaje sieci społecznych w Internecie Klasyfikacja typów analiz sieci badao ze względu na uwzględnienie czynnika czasu • sieci ukierunkowane na relacje pomiędzy uczestnikami, • sieci ukierunkowane na treści zamieszczane przez uczestników. • analizy statyczne – dotyczą stanu sieci na dany moment w czasie, • analizy dynamiczne – dotyczą zmian zachodzących w sieci. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 5 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 4 6 1 2011-05-23 Problemy badawcze związane z sieciami społecznymi • analiza struktury sieci, • analiza zawartości treści dostarczanych przez uczestników sieci (teksty, materiały graficzne, filmy, nagrania dźwiękowe, ...) • klasyfikacja węzłów sieci, • badanie przepływu informacji w sieci, • ewolucja sieci, • predykcja przyszłych powiązao, • wizualizacja sieci. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 7 Przykładowa sied BADANIE STRUKTURY SIECI Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 8 Gęstośd sieci • Gęstośd sieci jest wyrażana jako stosunek liczby połączeo istniejących w sieci oraz maksymalnej możliwej liczby połączeo Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 9 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Gęstośd sieci Stopieo węzła 3. Strike.net (24) ----------------------------------------------------------------------------Number of vertices (n): 24 ----------------------------------------------------Arcs Edges ----------------------------------------------------Total number of lines 0 38 ----------------------------------------------------Number of loops 0 0 Number of multiple lines 0 0 ----------------------------------------------------- • Stopieo węzła – liczba połączeo związana z danym węzłem • Stopieo węzła in-degree – liczba łuków dochodzących do węzła • Stopieo węzła out-degree – liczba łuków wychodzących z węzła 10 Density1 [loops allowed] = 0.1319444 Density2 [no loops allowed] = 0.1376812 Average Degree = 3.1666667 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 11 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 12 2 2011-05-23 Stopieo węzła Stopieo węzła – rozkład wartości 21. All Degree partition of N3 (24) -----------------------------------------------------------------------------Dimension: 24 The lowest value: 1 The highest value: 7 Frequency distribution of cluster numbers: Cluster Freq Freq% CumFreq CumFreq% Representative --------------------------------------------------------------1 1 4.1667 1 4.1667 Frank 2 7 29.1667 8 33.3333 Mike 3 9 37.5000 17 70.8333 Ike 4 4 16.6667 21 87.5000 Gill 5 1 4.1667 22 91.6667 John 6 1 4.1667 23 95.8333 Norm 7 1 4.1667 24 100.0000 Bob --------------------------------------------------------------Sum 24 100.0000 Stopieo węzła wyświetlany jest w postaci znormalizowanej, tzn. liczba połączeo podzielona jest przez maksymalną możliwą liczbę połączeo. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 13 Spójne składowe grafu Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 14 Spójna składowa • Spójna składowa grafu - jest to maksymalny zbiór wierzchołków (czyli podgraf) pewnego grafu, w którym to zbiorze istnieją połączenia bezpośrednie bądź pośrednie między wszystkimi parami wierzchołków. • W przypadku grafów skierowanych wyróżnia się: – silnie spójną składową grafu – uwzględniającą kierunek połączenia wskazywany przez łuk łączący wierzchołki, – słabo spójną składową grafu – traktującą każde połączenie jako dwukierunkowe. Analizowany graf jest grafem (słabo) spójnym. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 15 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Mosty i przeguby w sieciach Graf dwuspójny • Most – krawędź grafu spójnego, której usunięcie z grafu rozspójnia ten graf. Krawędź, której usunięcie zwiększa liczbę składowych grafu • Punkt artykulacji – ang. cut-vertex (przegub, wierzchołek rozcinający, wierzchołek rozdzielający, wierzchołek rozspajający) – wierzchołek grafu spójnego, którego usunięcie z grafu rozspójnia go (graf niespójny). Wierzchołek, którego usunięcie zwiększa liczbę spójnych składowych grafu • Graf dwuspójny – graf bez wierzchołków rozdzielających. • Dwuspójna składowa – składowa, która nie zawiera wierzchołków rozdzielających (tę składową, nie całą sied) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 17 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 16 18 3 2011-05-23 Punkty artykulacji, dwuspójne składowe i mosty Klika • Klika – zbiór wierzchołków, w którym każdy wierzchołek jest bezpośrednio połączony z każdym z pozostałych wierzchołków (podgraf pełny) • Klika – maksymalna podsied o pełnym zestawie połączeo i zawierająca przynajmniej trzy wierzchołki. • Zadanie identyfikacji wszystkich klik w sieci jest problemem o złożoności wykładniczej. Punkty artykulacji (przeguby) – oznaczone kolorem szarym, pozostałe kolory – kolejne dwuspójne składowe grafu lub mosty Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 19 Kliki trójelementowe w przykładowej sieci Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 20 Centralnośd • Centralnośd wyrażona poprzez stopieo węzła • Centralnośd wyrażona poprzez miarę bliskości (lub odległości) do pozostałych węzłów sieci • Centralnośd wyrażona poprzez częstośd występowania węzła w charakterze węzła pośredniego (leżącego na najkrótszej ścieżce pomiędzy innymi węzłami) Realizacja zadania: wyszukiwanie w analizowanej sieci wszystkich wystąpieo sieci pełnej o zadanej liczbie wierzchołków. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 21 Triady i ich znaczenie w sieciach społecznych C B C B A Triada pełna – osoby funkcjonują jako grupa, działają wspólnie B osoba A jest pośrednikiem pomiędzy osobami B i C, kontroluje przepływ informacji, jest negocjatorem, poprzez swoje działanie może doprowadzid do konfliktu pomiędzy B i C (osoba A może przekazywad osobie B negatywne informacje dotyczące C oraz przekazywad osobie C negatywne informacje dotyczące osoby B). 23 Czy z punkty widzenia osoby A warto zerwad relację z osobą B lub osobą C? Działanie takie nie jest uzasadnione z punktu widzenia osoby A. A Na zerwaniu relacji A – B skorzysta przede wszystkim osoba C. C B Osoba A odnosi korzyści z braku relacji pomiędzy B i C Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Osoba A nie korzysta z braku relacji pomiędzy B i C. C Triada niekompletna A 22 Czy warto zrywad relacje? Badania zapoczątkował: Georg Simmel (1858 – 1918) – niemiecki filozof i socjolog. A Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Z punktu widzenia osoby A takie rozwiązanie jest gorsze od triady pełnej. Zerwanie relacji A – B przez A nie jest również korzystne dla B. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 24 4 2011-05-23 Które relacje zerwad? Siła relacji D 0,33 A Osoba A postanowiła zerwad jedną z dwóch relacji: A – D lub A – B. C D 0,33 0,25 0,33 0,33 0,25 A 0,2 B 0,2 H 0,2 0,33 E G 0,2 0,25 0,33 B 0,2 0,33 0,25 0,33 C Które rozwiązanie jest lepsze z punktu widzenia osoby A? F 0,33 I Siła relacji A B jest odwrotnością liczby relacji utrzymywanych przez A. Osoba A powinna się zdecydowad na zerwanie relacji A – D, gdyż z relacji A- B wynika większe ograniczenie dla A. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 25 Ogranicenie wynikające z relacji D 0,33 0,33 F 0,2 0,25 0,33 0,25 0,33 0,33 A 0,2 0,33 G H 0,25 0,33 0,33 Ogr(A, A – C) - ograniczenie, jakie dla osoby A wynika z faktu istnienia relacji A – C sr(AC) – siła relacji A C Ogr(A, A – C) = {sr(AC) + sr(AD) * sr(DC) + sr(AE) * sr(EC)} ^ 2 = {0,25 + 0,25 * 0,33 + 0,25 * 0,33} ^ 2 = 0,172 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 27 0,25 A 0,2 B 0,2 0,25 E I 0,2 0,33 0,33 0,2 F 0,33 0,33 0,25 C 0,2 0,33 E D 0,33 0,2 B 0,25 0,33 26 Ogranicenie wynikające z relacji 0,33 0,33 0,25 C Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 0,33 H 0,2 Ogr(A, A – C) = 0,172 Ogr(A, A – D) = 0,172 Ogr(A, A – E) = 0,172 Ogr(A, A – B) = 0,0625 Zagregowane ograniczenie dla A wynikające z posiadanych przez niego relacji: 0,172 + 0,172 + 0,172 + 0,0625 = 0,5785. Im większa wartośd zagregowanego ograniczenia, tym trudniej jest się jednostce wyzwolid z istniejących relacji. Jednostki charakteryzujące się mniejszą wartością zagregowanego ograniczenia funkcjonują lepiej, łatwiej osiągają sukcesy. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie G 0,2 I 28 Sied sąsiedzka D 0,33 0,33 F 0,33 0,2 0,33 0,25 0,33 C 0,25 0,33 0,33 0,25 A 0,2 0,25 0,33 E 0,2 B 0,33 0,2 H 0,2 Sied sąsiedzka osoby A obejmuje jej bezpośrednich sąsiadów (B, D, C, E). Gęstośd sieci sąsiedzkiej bez uwzględnienia połączeo do osoby, dla której sied jest tworzona: iloraz (liczby połączeo pomiędzy sąsiadami) oraz (maksymalnej liczby połączeo, które mogłyby istnied pomiędzy sąsiadami). dla osoby A: 3 / 6 = 0,5 dla osoby C: 3 / 3 = 1,0 Im wyższa gęstośd sieci sąsiedzkiej osoby A, tym wyższa wartośd zagregowanego ograniczenia dla osoby A wynikającego z posiadanych przez nią relacji. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie G I KLASYFIKACJA WĘZŁÓW SIECI 29 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 30 5 2011-05-23 Podobieostwo węzłów w sieci Miary niepodobieostwa uwzględniające strukturę połączeo • Podobieostwo węzłów może uwzględniad: – połączenia węzłów (węzły są tym bardziej podobne do siebie, im większe jest podobieostwo zbiorów ich bezpośrednich sąsiadów), – wartości skojarzone z połączeniami. Nu – zbiór sąsiadów węzła u, + - różnica symetryczna zbiorów (zbiór tych elementów, którzy należą tylko do jednego zbioru, ale nie do obu), 1 st maxdegree (2 nd maxdegree) – pierwszy (drugi) według wartości maksymalny stopieo węzła w sieci, ᴜ - suma zbiorów, \ - różnica zbiorów, | | - moc zbioru. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 31 Miary niepodobieostwa uwzględniające wartości związane z połączeniami Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 32 Wyznaczanie miar niepodobieostwa qus – wartośd skojarzano z połączeniem prowadzącym od węzła u do s, p – parametr przyjmujący zwykle wartośd 1 lub 2 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 34 Klasyfikacja węzłów metodą Warda Wykorzystano macierz niepodobieostwa obliczoną przy wykorzystaniu formuły d2. SIECI DWUDZIELNE Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 35 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 36 6 2011-05-23 Sieci dwudzielne (bipartite networks, two-mode networks) • Sied dwudzielna – sied, w której wierzchołki należą do dwóch rozłącznych zbiorów i żadna krawędź nie łączy wierzchołków należących do tego samego zbioru. Aktor 10 Aktor 1 Aktor 2 Film 2 Film 1 Aktor 9 Aktor 7 Aktor 4 Aktor 3 Film 5 Film 3 Aktor 5 Film 4 Aktor 6 Aktor 8 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 37 7