Modele i metody komputerowego rozpoznawania wzorców
Transkrypt
Modele i metody komputerowego rozpoznawania wzorców
Symulacja w Badaniach i Rozwoju Vol. 6, No. 2/2015 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Wojskowa Akademia Techniczna, Wydział Cybernetyki ul. Kaliskiego 2, 00-908 Warszawa E–mail: [email protected],[email protected], [email protected], [email protected] Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo 1 Wprowadzenie Badanie podobieństwa grafów i sieci jest dziedziną istotną w wielu obszarach nauki: chemii, biologii, energetyce czy informatyce. Większość systemów można stosunkowo łatwo i intuicyjnie modelować jako graf lub sieć, a następnie tak zbudowany model wykorzystać do badania, jak również optymalizacji tych systemów [2, 3, 4, 5]. Według Słownika Języka Polskiego „podobieństwo” to wspólność pewnych cech dwu albo więcej osób, przedmiotów, obiektów itp. W kontekście analizy podobieństwa grafów i sieci można stosować tę definicję intuicyjnie, bez potrzeby jej formalizacji. W literaturze spotyka się liczne taksonomie metod badania podobieństwa grafów i sieci [14, 15]. Najbardziej ogólny podział rozróżnia właśnie metody grafowe i sieciowe. Metody grafowe wykorzystuje się do badania podobieństwa strukturalnego, a sieciowe do badania podobieństwa niestrukturalnego (nazywanego inaczej sieciowym lub ilościowym). W literaturze można spotkać wiele przykładów metod i miar, które rozwiązują problem strukturalnego podobieństwa grafów. Do klasycznych metod można zaliczyć: izomorfizm oraz odległość edycyjną. W przypadku metod i miar ilościowych rozwiązań jest mało, niewiele z nich jest dobrze udokumentowanych i są to najczęściej metody rozwiązujące konkretny problem z danej dziedziny. W artykule przedstawiona jest autorska metoda analizy podobieństwa grafów i sieci. Metoda ta została zaimplementowana i jest jedną z funkcjonalności w popularnej aplikacji komercyjnej, oferującej między innymi audyt użytkowników. 2 Definicje i notacje Graf jest abstrakcyjną reprezentacją zbioru obiektów, między którymi mogą istnieć związki. Obiekty te prezentowane są jako wierzchołki, związki zaś jako gałęzie (można mówić o krawędziach, łukach oraz pętlach). Przykładowy graf pokazano na rysunku 1. Formalnie graf to trójka uporządkowana, = ¤¥, , .¦, gdzie ¥ to zbiór wierzchołków grafu , to zbiór gałęzi grafu , a . ⊂ ¥ × × ¥ – relacja incydencji [1]. 137 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Rys. 1. Graf o 4 wierzchołkach i 4 kraw krawędziach [opracowanie własne] Fig. 1. Graph with 4 nodes and 4 edges [own preparation] Siecią nazywamy graf, który jest opisany ilościowo ilo (wierzchołki i gałęzie mogą mieć atrybuty, które je dodatkowo opisują). opisu Formalnie sieć § to trójka uporządkowana: §=¨ , ¯-∈ >,…,X³%µ, [ 9©;%[∈ >,…,X % , «¬- 9®;¯ Z∈ª ´∈- gdzie to graf, [ 9©;: ¥ → 5 , to i-ta funkcja opisana na wierzchołku grafu (a = 1, … , ±¶; ±¶ – liczba wszystkich funkcji opisanych na wierzchołkach grafu), ¬- 9®;: → 5 to j-ta funkcja opisana na gałęzi grafu ( ° = 1, … , ±²; ±² – liczba wszystkich funkcji opisanych na gałęziach gał grafu). Warto zauważyć, że każdy żdy graf jest siecią, sieci w której [ = ¬- = ·. Przykładem sieci może byćć więc wię graf z ponumerowanymi wierzchołkami i gałęziami (na zbiorze wierzchołków i gałęzi gałę są określone funkcje, których wartościami są numery). 3 Metody badania podobieństwa podobie grafów i sieci Metody badania podobieństwa ństwa moż można podzielić jak na rysunku 2. Rys. 2. Taksonomia miar podobieństwa podobień [opracowanie własne] Fig. 2. Taxonomy of similarity measures [own preparation] Miary strukturalne (ang. structural similarity measures) measures stosuje się zwykle do badania grafów, a ilościowe (ang. quantitative similarity measures) measures do badania sieci. W tych 138 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo pierwszych porównywana jest jedynie topologia (struktura) systemu, natomiast miary ilościowe uwzględniają cechy opisane na wierzchołkach i gałęziach grafu. Do najważniejszych metod i miar badania podobieństwa strukturalnego można zaliczyć izomorfizm grafów, miary oparte na odległości edycyjnej, miary topologiczne i metody iteracyjne - strukturalne. Metody badania podobieństwa niestrukturalnego opierają się głównie na metodach iteracyjnych – ilościowych. Dalej przedstawione są wybrane metody i miary badania podobieństwa grafów i sieci. 3.1 Izomorfizm Jeśli pomiędzy dwoma grafami występuje izomorfizm, to są one strukturalnie nieodróżnialne. Formalnie grafy i ² nazywa się izomorficznymi, jeżeli istnieje bijekcja pomiędzy zbiorami ich wierzchołków: : ¥0 → ¥³ , gdzie: ¥0 – zbiór wierzchołków grafu , ¥³ – zbiór wierzchołków grafu ², taka że dwa dowolne wierzchołki ¸ i © w grafie są do siebie przyległe wtedy i tylko wtedy, gdy 9¸; i 9©; są przyległe w grafie ². Można również rozważać izomorfizm sieci, w takim przypadku muszą zostać zachowane atrybuty (wartości funkcji) wierzchołków i gałęzi. Przykładowe grafy izomorficzne przedstawione są na rysunku 3. Rys. 3. Grafy izomorficzne [opracowanie własne] Fig. 3. Isomorphic graphs [own preparation] Problem rozstrzygania izomorfizmu grafów [9] należy do klasy NP [6], dla których nie istnieje obecnie odpowiedź, czy należą one do podklasy problemów P czy NP– zupełnych. Miarami izomorficznymi nazywana jest grupa miar badania podobieństwa grafów, które korzystają z izomorfizmu do wyznaczenia wartości tych miar. Wśród metod badania izomorfizmu grafów za najlepsze uznawane są obecnie metoda E. M. Luksa [7] o złożoności czasowej ® ¹Uº9QlogQ;W oraz metoda B. D. McKaya [8] (złożoność czasową trudno jest oszacować, wiadomo, że jest ona wykładnicza). Warto zaznaczyć, iż wiele metod jest ograniczonych do określonych klas grafów. 3.2 Odległość edycyjna Odległość edycyjna między dwoma grafami określa minimalną liczbę koniecznych operacji, aby jeden graf „zamienić” w drugi (operacją może być dodawanie lub usuwanie wierzchołków lub gałęzi). Można ją rozumieć jako uogólnienie izomorfizmu. Odległość edycyjna pomiędzy dwoma grafami izomorficznymi wynosi 0. 139 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Zazwyczaj różne modyfikacje związane są z różnymi kosztami. Koszt modyfikacji mówi o tym, jak „trudno” jest ją przeprowadzić. Do popularnych metod wyznaczania odległości edycyjnej można zaliczyć poszukiwanie największego podgrafu badanych grafów lub najmniejszego wspólnego nadgrafu, czy przedstawioną dalej metodę Papadopoulosa i Manolopoulosa. Autorzy tej metody zaproponowali w swojej pracy [10] algorytm, który opiera się na dodawaniu, usuwaniu oraz modyfikacji wierzchołków. Autorzy wprowadzili ponadto koncepcję tzw. histogramu grafu. Histogram grafu G budowany jest poprzez wyliczenie stopnia każdego wierzchołka. Następnie każdy wierzchołek zaliczany jest do innego „pojemnika” histogramu (którego wartość jest równa stopniowi odpowiadającego mu wierzchołka). W celu porównania dwóch grafów buduje się dla nich histogramy (ewentualnie dodając „pojemniki” o zerowej wartości, jeśli między grafami występuje różnica w liczbie wierzchołków), następnie szereguje się je w porządku malejącym (według wartości) oraz zwiększa wartości każdego „pojemnika” o jeden. Suma bezwzględnych różnic wartości między odpowiadającymi sobie „pojemnikami” stanowi szacunkową liczbę modyfikacji. Algorytm ten jest bardzo szybki (złożoność czasowa º9QlogQ;), lecz nie jest dokładny. Ponadto nadaje się tylko do badania podobieństwa strukturalnego. Mimo to dzięki szybkości może być z powodzeniem używany do wstępnego badania podobieństwa grafów. 3.3 Miary centralności W przypadku bardzo dużych grafów i sieci może się okazać, że badanie izomorfizmu lub wyliczanie odległości edycyjnej nie będzie możliwe, głównie ze względu na złożoność obliczeniową tych metod, a w konsekwencji ich czasochłonność w praktycznych przypadkach. Wówczas do oceny podobieństwa grafów i sieci wykorzystać można miary odzwierciedlające ich właściwości. Przykładowymi charakterystykami (właściwościami) grafów i sieci są: średnia długość najkrótszej drogi, średnica (droga najkrótsza pomiędzy najbardziej oddalonymi wierzchołkami), współczynnik klasteryzacji, średni stopień wierzchołka, rozkład stopnia wierzchołka, czy w końcu miary centralności. W różnego rodzaju analizach modeli grafowo-sieciowych coraz częściej wykorzystuje się miary centralności, w szczególności w przypadku analizy sieci społecznych i ich zastosowaniu, np. w epidemiologii [17, 18, 19] i analizie siatek przestępczych [20]. Miary centralności ułatwiają udzielenie odpowiedzi na pytanie, który wierzchołek jest najbardziej istotny w badanym grafie lub sieci. Stąd też miary centralności często nazywane są miarami istotności. Najczęściej wykorzystywanymi miarami centralności są: stopień wierzchołka, promień wierzchołka, bliskość wierzchołka i obciążenie/pośrednictwo wierzchołka. Każda miara centralności pozwala na ilościową ocenę istotności wierzchołków w grafach lub sieciach niejako z różnej perspektywy. Przedstawione dalej definicje miar centralności zostały opracowane dla tzw. grafów zwykłych [1]. Na potrzeby zobrazowania interpretacji poszczególnych miar centralności na rysunkach od 4 do 7 wierzchołki grafu przyjmują kolor o intensywności proporcjonalny do wartości rozpatrywanej miary centralności. 140 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo Najprostszą miarą centralności wierzchołka, którą podpowiada intuicja, jest stopień wierzchołka (ang. degree centrality). Według tej miary wierzchołek jest tym istotniejszy, im ma wyższy stopnień: gdzie: `[ - stopień i-tego wierzchołka. ¿ R¾[ = |ª|V> , h Rys. 4. Zobrazowanie wartości miary stopień [opracowanie własne] Fig. 4. Visualization of degree centrality [own preparation] Kolejną miarą centralności jest tzw. promień wierzchołka (ang. radius centrality), według której wierzchołek jest tym ważniejszy, im jego odległość do najdalszego wierzchołka jest najmniejsza. Miara ta jest niezwykle interesująca z punktu widzenia zarządzania kryzysowego, kiedy istotne jest zapewnienie pewnego minimum w najgorszym możliwym do zaistnienia przypadku: Á¾[ = 1 max R[-∈ª gdzie: R[- – droga najkrótsza pomiędzy wierzchołkami i oraz j. Rys. 5. Zobrazowanie wartości miary promień [opracowanie własne] Fig. 5. Visualization of radius centrality [own preparation] Miara bliskość wierzchołka (ang. closeness centrality) pozwala na wyliczenie średniej odległości rozpatrywanego wierzchołka do wszystkich pozostałych wierzchołów w grafie. Wierzchołek, który, „średnio rzecz biorąc”, jest najbliższy wszystkim wierzchołkom jest uznawany za najistotniejszy: ¾¾[ = ∑ |ª|V> Ã∈Ä L¿Ã . 141 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Rys. 6. Zobrazowanie wartości miary „bliskość” [opracowanie własne] Fig. 6. Visualization of closeness centrality [own preparation] Innym sposobem oceny węzła jest wyznaczenie pośrednictwa/obciążenia wierzchołka (ang. betweenness/load centrality), które można zdefiniować jako procent najkrótszych dróg pomiędzy dowolną parą wierzchołków przechodzących przez rozpatrywany węzeł: ž[ = Æ ∑Ç∈Ä ∑ÈÉÇ∈Ä Ç,¿,È ÆÇ,È 9|ª|V ;9|ª|V>; , gdzie: ¹Ê,h – liczba dróg najkrótszych między wierzchołkami l oraz k, ¹Ê,[,h – liczba dróg najkrótszych między wierzchołkami l oraz k przechodzących przez i. Rys. 7. Zobrazowanie wartości miary pośrednictwo [opracowanie własne] Fig.7. Visualization of betweeness centrality [own preparation] Ze względu na prosty sposób obliczania każdej z miar można je zastosować przy badaniu podobieństwa, np. badać podobieństwo rozkładu wybranej miary w jednym grafie do miary w innym grafie. 3.4 Miary iteracyjne Istnieje szeroka gama metod badających podobieństwo grafów i sieci, które odnoszą się do pytania: Jak bardzo podobne jest sąsiedztwo pewnego wierzchołka w jednym w grafie do sąsiedztwa innego wierzchołka w drugim grafie?. Metody te opierają się na idei, która mówi, że dwa wierzchołki dwóch różnych grafów są uważane za podobne, gdy ich sąsiedztwo jest do siebie podobne. Definicja ta sugeruje, że metody, które się do niej stosują, muszą mieć iteracyjny charakter, bowiem oceny podobieństwa elementów propagują się na sąsiedztwo tychże w każdym kroku. Metod iteracyjnych jest bardzo dużo. Wykorzystują one różne techniki do oceny podobieństwa wierzchołków. Do najbardziej popularnych zalicza się na przykład SimRank [11] czy iteracyjne strukturalne podobieństwo wierzchołków [12]. Warto 142 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo również zwrócić uwagę na sieciową miarę podobieństwa wierzchołków [13, 16]. Autor proponuje miarę, która pozwala oszacować ilościowe podobieństwo wierzchołków sieci. Można także mierzyć ilościowe podobieństwo gałęzi (zamiast funkcji opisanych na wierzchołkach bierze się pod uwagę funkcje opisane na gałęziach) lub zastosować podejście mieszane. 4 Autorska metoda badania podobieństwa sieci Niech dana będzie sieć: § = ¨ = ¤¥, ¦, ·, ¬h 9®;%h∈ >,…,X³% µ , ´∈- gdzie: - graf zwykły [1], V - zbiór wierzchołków grafu o mocy |V|=n, ⊂ ©, ©′%: ©, ©′ ∈ ¥% - zbiór krawędzi grafu , ¬h : → - k-ta funkcja określona na zbiorze krawędzi grafu przyjmująca wartości ze zbioru R (zbiór liczb rzeczywistych). Opracowana metoda wyznacza podobieństwo każdej pary wierzchołków w sieci zdefiniowanej jak wyżej. Krok 1. Wyznaczenie wektora macierzy podobieństw wierzchołków §aÌ9§; ze względu na k-tą funkcję opisaną na krawędziach sieci S: gdzie: §aÌh = ÍY[- 9`;Î5×5 . §aÌ9§; = ¤§aÌ> , … , §aÌh , … , §aÌX³ ¦ , Wyliczenie każdego z elementów Y[- 9`; macierzy §aÌh bazuje na podgrafie1 [-Ï , 1[- – zbiór którego zbiorem wierzchołków jest zbiór 1[- ∪ a, °%, gdzie: wierzchołków przyległych do wierzchołka a lub wierzchołka °. W oparciu o podgraf Ï [- konstruowana jest podsieć §[-Ï = Ñ Ï [- = Ò 1[- ∪ a, °%, Ï [- Ó, ·, ¬h 9®;%h∈ >,…,X³% Õ, co Ô ´∈-¿Ã w konsekwencji pozwala na wyznaczenie elementu Y[- 9`; według następującego wzoru: gdzie: Y[- 9`; = Ø 9¿,Ç;ÙØÈ 9Ã,Ç; ∑Ç∈ÛÜ Ö>V× È ×Ú ¿Ã ¿Ã Ý 4¿ÃÝ Ø È ∈ [0,1] , 1 Przypomnijmy, że podgraf G’ grafu G powstaje w ten sposób, że wybieramy pozdzbiór V’ zbioru wierzchołków V grafu G, który staje się zbiorem wierzchołków podgrafu G’, a następnie do zbioru E’ gałęzi podgrafu G’ zaliczamy wszystkie gałęzie grafu G, które występują między wierzchołkami należącymi do V’. 143 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA ¬h = max9[,-;∈-Ô ¬h 9a, °; . [- ¿Ã Uwaga! We wzorze na Y[- 9`; przyjęto założenie, że jeśli wierzchołki © i ©′ nie są do siebie przyległe, czyli nie istnieje pomiędzy nimi krawędź, wówczas ¬h 9©, © Ï ; = 0. Wartość elementu Y[- 9`; macierzy §aÌh interpretowana jest jako stopień podobieństwa wierzchołka a do wierzchołka ° ze względu na k-tą funkcję opisaną na krawędziach grafu , biorąc pod uwagę jedynie najbliższe sąsiedztwo wierzchołków i oraz j, tj. wierzchołki przyległe do i lub j. Wartość Y[- 9`; = 1 oznacza, że wierzchołki i oraz j są identyczne z punktu widzenia k-tej funkcji na krawędziach grafu . Krok 2. Wyznaczenie skumulowanej macierzy podobieństwa wierzchołków: Mając obliczone wartości elementów wektora macierzy podobieństwa wierzchołków §aÌ9§; = ¤§aÌ> , … , §aÌh , … , §aÌX³ ¦, można obliczyć wartości elementów skumulowanej macierzy podobieństwa wierzchołków §aÌIÞ7ßÊ . W tym celu proponuje się wykorzystać jedną z metod redukcji problemów wielokryterialnych polegającą na utworzeniu kombinacji liniowej wektora kryteriów: §aÌIÞ7ßÊ = ∑X³ há> àh ∙ §aÌh , gdzie: àh - wagi ustalane przez decydenta spełniające następujące warunki: àh ∈ [0,1], ∀` = 1, … , ±² ∑X³ há> àh = 1 . Wyliczona w powyższy sposób macierz §aÌIÞ7ßÊ mówi, w jakim stopniu każda para wierzchołków grafu jest do siebie podobna przy zadanych arbitralnie przez decydenta wagach. 5 Praktyczne zastosowanie metody Przedstawiony algorytm badania podobieństwa wierzchołków został zaprojektowana i zaimplementowany na potrzeby jednej z usług systemu General Audit Tool (GAT) [21, 22, 23] dla platformy Google Apps [24] – rysunek 8. Opracowana usługa systemu GAT wskazuje pracowników, którzy są potencjalnie w stanie najszybciej przejąć od siebie obowiązki (są do siebie najbardziej podobni w sensie realizowanych zadań w firmie), np. podczas ich urlopu lub zmiany pracodawcy – rysunek 9. 144 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo Rys. 8. GAT - panel główny [ opracowanie własne] Fig. 8. GAT – main panel [own preparation] Rys. 9. GAT – analiza podobieństwa pracowników działu sprzedaży [opracowanie własne] Fig. 9. GAT – similarity analysis of employees in sales department [own preparation] Sieć współpracy pomiędzy pracownikami, będąca podstawą działania prezentowanej usługi, budowana jest między innymi w oparciu o: wymianę wiadomości e-mail, wzajemną pracę nad dokumentami, wspólne spotkania (na podstawie kalendarzy pracowników), jak również wpisy na portalach społecznościowych. W dalszej części rozdziału zaprezentowano przeprowadzone badania na sieci odzwierciedlające współpracę pracowników rzeczywistej organizacji składającej się z 50-ciu pracowników, w oparciu o zebrane dane z okresu trzech miesięcy w próbkach tygodniowych. 145 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Rys. 10. Graf pracowników – 1-szy szy miesiąc miesi współpracy [ opracowanie własne] Fig. 10. Employees graph – 1st month of collaboration [own preparation] Rys. 11. Rozkład stopni wierzchołków – 1-szy miesiąc współpracy [opracowanie własne] Fig. 11. Degree distribution –1st 1st month of collaboration [own preparation] 146 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo Rys. 12. Graf pracowników organizacji – 3-ci miesiąc współpracy [opracowanie własne] Fig. 12. Employees graph – 3rd month of collaboration [own preparation] Rys. 13. Rozkład stopni wierzchołków – 3-ci miesiąc współpracy [opracowanie własne] Fig. 13. Degree distribution – 3rd month of collaboration [own preparation] Na rysunku 10 i 12 przedstawiono odpowiednio grafy reprezentujące pracowników i ich współpracę z innymi osobami w organizacji, a także poza nią po 1-szym i po 3-cim miesiącu zbierania danych. Analiza tych sieci pokazała, że mają one charakter sieci bezskalowych (ang. scale-free). Sieci te cechują się potęgowym rozkładem stopni wierzchołków (rys. 11 i rys. 13). Większość wierzchołków posiada względnie mały stopień, podczas gdy pewna niewielka ich liczba ma stopień bardzo duży w porównaniu do reszty. Takie wierzchołki nazywa się hubami. Dodatkowo badane sieci mają względnie mało krawędzi (są grafami rzadkimi) i stosunkowo niewielką średnią odległość pomiędzy wierzchołkami (około 2-3). 147 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA Rys. 14. Graf pracowników organizacji – podobieństwo wierzchołków (pracowników) [opracowanie własne] Fig. 14. Employees graph – nodes similarity [own preparation] Na rysunku 14 przedstawiono dwie sieci. Sieć A pokazuje współpracę pracowników między sobą i osobami spoza organizacji. Sieć B reprezentuje tę samą sieć, ale z usuniętymi osobami „zewnętrznymi”. Po zastosowaniu opisanej wcześniej metody wierzchołki wskazywane przez czerwone strzałki otrzymały wysoką wartość współczynnika podobieństwa (około 0,9). Oznacza to, iż pracownicy reprezentowani przez te wierzchołki charakteryzują się bardzo podobnymi cechami. Rzeczywiście może tak być, ponieważ ze struktury sieci wynika, że mają wspólnego sąsiada, którym może być, na przykład kierownik zespołu. Ponadto pracownicy w ramach tego zespołu mogą wykonywać podobne zadania, np. programiści. Natomiast wierzchołkami wskazywanymi przez zielone strzałki mogą być kierownicy dwóch zespołów zajmujących się różnymi, niezwiązanymi ze sobą dziedzinami. Dlatego wartość współczynnika podobieństwa jest niska i wynosi około 0,06. 148 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo 7 Wnioski W artykule przedstawiona została autorska metoda analizy podobieństwa grafów i sieci. Otrzymane wyniki badania konkretnego problemu, tj. analizy podobieństwa pracowników, pokazały, że metody ilościowe mogą być z powodzeniem stosowane w takich zadaniach. Trudność analizy polega na identyfikacji istotnych i mierzalnych cech wśród zbioru wszystkich cech, które posiadają obiekty. W opisanym problemie uwaga została skupiona tylko na cechach związanych z „aktywnością” osób w organizacji (wynikało to z potrzeb biznesowych). Badając podobieństwo obiektów, należy zidentyfikować i uwzględniać jedynie te cechy, które są istotne z punktu widzenia celu modelowania, czyli mające znaczenie w danym kontekście. Ciekawym spostrzeżeniem jest fakt, że analizowana sieć organizacji rzeczywistej ma charakter sieci bezskalowych. Istotnymi wierzchołkami w takiej sieci są huby – świadczy o tym niska wartość współczynnik podobieństwa (im mniejsza wartość, tym obiekt jest bardziej „unikalny”, więc trudniej go zastąpić). Ponadto zmiany w „hubach” znacznie wpływają na rezultaty wyszukiwania podobieństw wśród pracowników. Informacje o hubach mogą być bardzo pomocne. Liczba krawędzi i wartości atrybutów opisanych na nich wskazują, że mogą to być na przykład kierownicy działów, kadra zarządzająca itp. Pozostałe wierzchołki (szczególnie te, których sąsiadem jest ten sam hub) mają wysoki współczynnik podobieństwa. Takie wierzchołki są mniej istotne i można je łatwo zastąpić – w przeciwieństwie do huba. Warto zauważyć, że jednym z rozszerzeń przedstawionej metody może być zastosowanie jej w połączeniu z technikami symulacji - umożliwienie badania wpływu sposobu zarządzania organizacją (w tym struktury organizacji) na jej elastyczność (łatwość dostosowania się do zmiany pracowników). Literatura 1. 2. 3. 4. Korzan B.: Elementy teorii grafów i sieci : metody i zastosowania, WNT, 1978 Newman M. E. J.: Networks. An Introduction, Oxford University Press, 2010 van Steen M.: Graph Theory and Complex Networks: An Introduction, 2010 Easley D., Kleinberg J.: Networks, Crowds, and Markets: Reasoning About a Highly Connected World, Cambridge University Press, 2010 5. Jungnickel D.: Graphs, Networks and Algorithms, Springer, 2007 6. Chudy M.: Wybrane metody optymalizacji, EXIT, 2014 7. Luks E. M.: Isomorphism of graphs of bounded valence can be tested in polynomial time. Journal of Computer and System Sciences, v. 25, 42-65, 1982 8. McKay B. D.: Practical graph isomorphism, Congressus Numerantium, v. 30, 45-87, 1981 9. Fortin S.: The Graph Isomorphism Problem, Technical Raport TR 96-20, Departmant of Computer Sicence, The University of Alberta, July 1996 10. Papadopoulos A. N., Manolopoulos Y.: Structure-based similarity search with graph histograms, DEXA '99 Proceedings of the 10th International Workshop on Database & Expert Systems Applications, 174-178, 1999 149 Krzysztof SZKÓŁKA, Cezary BARTOSIAK, Rafał KASPRZYK, Zbigniew TARAPATA 11. Jeh G., Widom J.: SimRank: a measure of structural-context similarity, Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, Edmonton, 2002 12. Blondel V. D., Gajardo A., Heymans M., Senellart P., Dooren P. V.: A measure of similarity between graph vertices applications to synonym extraction and web searching, SIAM Review, v. 46 (4), 647-666 13. Tarapata Z.: Multicriteria weighted graphs similarity and its application for decision situation pattern matching problem, Proceedings of the 13th IEEE/IFAC International Conference on Methods and Models in Automation and Robotics, 1149-1155, 2007 14. Zager L.: Graph similarity and matching, PhD thesis, MIT, May 2005 15. Conte D., Foggia P., Sansone C., Vento M.: Thirty years of graph matching in pattern recognition, International Journal of Pattern Recognition and Artificial Intelligence, v. 18 (3), 2004 16. Tarapata Z., Kasprzyk R.: An application of multicriteria weighted graph similarity method to social networks analyzing, Proceedings of the 2009 International Conference on Advances in Social Network Analysis and Mining, 366-368, 2009 17. Kasprzyk R.: Diffusion in Networks, Journal of Telecommunications and Information Technology, 2/2012, ISSN 1509-4553, 99-106 18. Bartosiak C., Kasprzyk R., Najgebauer A.: The graph and network theory as a tool to model and simulate the dynamics of infectious diseases, Bio-Algorithms and Med-Systems. Volume 9, Issue 1, Pages 17–28, ISSN (Online) 1896-530X, ISSN (Print) 1895-9091, DOI: 10.1515/bams-2013-0003, March 2013 19. Kasprzyk R., Najgebauer A., Pierzchała D.: Modelling and Simulation of an Infected Disease in Social Networks, Lecture Notes in Artificial Intelligence, 2011, Volume Part I, pp. 388-398, ISBN: 978-3-642-23934-2, Springer-Verlag Berlin, Heidelberg 20. Tarapata Z., Kasprzyk R.: Graph-Based Optimization Method for Information Diffusion and Attack Durability in Networks, RSCTC'2010, Lecture Notes in Artificial Intelligence, vol. 6086, Springer, Heidelberg, pp. 698-709, 2010 21. www.bsn.ie 22. www.generalaudittool.com 23. https://plus.google.com/communities/108178540809040162296 24. www.google.pl/intx/pl/enterprise/apps/business/ 150 Modele i metody komputerowego rozpoznawania wzorców opisanych ilościowo Streszczenie W niniejszej pracy autorzy poruszają zagadnienia z obszaru badania podobieństwa grafów i sieci ze szczególnym naciskiem na metody ilościowe. Zostaje podjęta próba klasyfikacji wybranych metod grafowo-sieciowych badania podobieństwa. Prezentuje się tu także autorską metodę i rozwiązanie programowe, które jest wykorzystywane w celu wspierania działań decyzyjnych w organizacjach. Słowa kluczowe: sieć, rozpoznawanie wzorców, miary podobieństwa sieci Models and methods of quantitative computer patterns recognition Summary In this paper, authors describe issues of assessing similarity of graphs and networks, with an emphasis on quantitative methods. An attempt is taken to classify graphs and networks similarity methods. It also presents author’s method and software solution that is used to support decision-making processes in organizations. Keywords: network, pattern recognition, network similarity measures 151