Kryteria stopu algorytmu grupowania reguł a efektywność systemu

Transkrypt

Kryteria stopu algorytmu grupowania reguł a efektywność systemu
Kryteria stopu algorytmu grupowania reguł
a efektywność systemu wspomagania decyzji
Agnieszka Nowak
Alicja Wakulicz-Deja
Zakład Systemów Informatycznych
Instytut Informatyki Uniwersytetu Śląskiego
Sosnowiec, ul. Będzińska 39, +48 (0-32) 291 82 83
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 1(0-32)
/ 34 2
Plan referatu
1
2
3
4
5
Efektywność wnioskowania w klasycznych systemach wspomagania decyzji.
Motywacja tworzenia hierarchicznej bazy wiedzy.
Prawda o aglomeracyjnym algorytmie grupowania.
Efektywność osiągana różnymi drogami ?.
Podsumowanie.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 2(0-32)
/ 34 2
Zagadnienia...
Referat powinien udzielić satysfakcjonujących odpowiedzi na pytania:
1
Dlaczego potrzebna jest zmiana struktury bazy wiedzy ?
2
Dlaczego proponujemy hierarchię ?
3
Dlaczego jako algorytm grupowania wybieramy akurat AHC ?
4
Jak zamierzamy zmodyfikować klasyczne podejścia ?
5
W jakim celu wprowadzamy swoje zmiany ?
6
Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu ?
7
Podsumowanie - odpowiedź na pytanie: Jaka jest efektywność
proponowanego rozwiązania?
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 3(0-32)
/ 34 2
Dlaczego potrzebna jest zmiana struktury bazy wiedzy ?
Efektywność wnioskowania w klasycznych systemach wspomagania decyzji takich
jak np MYCIN, EMYCIN etc. zależy od kilku czynników:
wybranej metody wnioskowania,
posiadanej w systemie wiedzy (liczby reguł w bazie wiedzy),
liczby obserwacji,
wybranej strategii sterowania wnioskowaniem.
Konkluzje:
trudna ocena takiego systemu,
wymagana kompletność bazy wiedzy,
czas wnioskowania rośnie gdy zwiększa się liczba reguł w bazie wiedzy,
optymalny system wspomagania decyzji, to taki system, który
dostarcza decyzji w jak najkrótszym czasie, angażując użytkownika
tylko w pewnym minimalnym zakresie.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 4(0-32)
/ 34 2
Dlaczego proponujemy hierarchię ?
Wiedza każdego systemu może być reprezentowana na wiele różnych sposobów,
np. za pomocą rozkładów prawdopodobieństwa, współczynników pewnych funkcji,
struktur symbolicznych gramatyk formalnych, czy hierarchii podziałów. Poprzez
analizowanie przykładów, system ma odkryć nieznany podział (lub hierarchię
podziałów) dostarczonego mu zbioru, czyli dokonać grupowania tego zbioru.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 5(0-32)
/ 34 2
Motywacja tworzenia hierarchicznej bazy wiedzy
Optymalizacja czasu pracy systemu, jak i metody wnioskowania jest
skomplikowana.
Zadaniem interpretera reguł jest znalezienie i uaktywnienie reguł
odpowiednich do zaobserwowanych faktów. Oczywiste jest, że jeżeli rozmiar
bazy reguł wzrasta, to i czas szukania reguł przez interpreter się zwiększa.
Aby temu zapobiec proponujemy grupowanie reguł (aglomerację) w
bazach wiedzy i wnioskowanie na grupach (skupieniach) reguł.
Cel: Analiza skupień ma skrócić w sposób istotny czas wnioskowania.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 6(0-32)
/ 34 2
Dlaczego spośród wszystkich algorytmów grupowania wybieramy
akurat AHC ?
Liczba Stirlinga II-go rzędu
Moc (liczba możliwych kombinacji) grupowania metodą k-optymalizacyjną n
elementów na k grup (skupień) da się wyznaczyć z następującego wyrażenia:
M=(
n
1 Xk
)[ (i )(−1)k−i ∗ i n ]]
k!
i=1
Wówczas mając zaledwie do pogrupowania 6 (n = 6) obiektów do 3 (k = 3) grup,
liczba możliwych kombinacji wynosi:
M=(
1 3
)[( )(−1)2 ∗ 16 + (32 )(−1) ∗ 26 + (33 )(−1)0 ∗ 36 ] = 90
3! 1
Algorytm hierarchicznego łączenia obiektów - rozwiązuje ten problem
poprzez samą ideę algorytmu, która zawsze nakazuje w każdym kroku
połączyć dwa najbardziej podobne obiekty.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 7(0-32)
/ 34 2
Klasyczne grupowanie hierarchiczne
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 8(0-32)
/ 34 2
Klasyczne grupowanie hierarchiczne
krok 1: połączenie w grupę obiektów 1 i 2
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +48 9(0-32)
/ 34 2
Klasyczne grupowanie hierarchiczne
krok 2: połączenie w grupę obiektów 3 i 4
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4810(0-32)
/ 34 2
Klasyczne grupowanie hierarchiczne
krok 3: połączenie w grupę obiektów 7 i 5
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4811(0-32)
/ 34 2
Klasyczne grupowanie hierarchiczne
krok 4: połączenie w grupę obiektów 6 i 8
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4812(0-32)
/ 34 2
Macierzowy algorytm aglomeracyjny - algorytm Johnson’a
1
2
t=0 /*nr poziomu w hierarchii*/
utworzenie początkowego podziału
N
Podz0 (N) = {Gi = {xi }|i = 1, . . . , N}
3
utworzenie początkowej N × N macierzy niepodobieństwa P(t) :
P(i, j)(t) = D(Gi , Gj )i, j = 1, . . . , N
4
repeat a) − e):
a) wybranie spośród wszystkich par grup (Gi , Gj ) w podziale t najbliższej pary
(Gi , Gj ):
min
D(Gi , Gj ) =
D(Gi , Gj )
r ,s
b) t = t + 1
c) utworzenie nowej grupy Gq = Gi ∪ Gj
d) utworzenie nowego podziału:
N−1
Podzt
5
N−t+1
(N) = {Podzt−1
(N) − {Gi , Gj }} ∪ {Gq }
e) aktualizacja macierzy niepodobieństwa P(t) dla kroku t na podstawie P(t − 1)
(kroki 1-2):
1.Usunięcie dwóch rzędów i dwóch kolumn z macierzy P(t − 1), które odpowiadają
łączonym grupom.
2.Dodanie nowego rzędu i nowej kolumny dla nowo utworzonej grupy, które
zawierają obliczone odległości pomiędzy nowo utworzoną grupą i wszystkimi
grupami z kroku (t − 1), które nie zostały w tym kroku zmienione.
until (wszystkie wektory są w jednej grupie).
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4813(0-32)
/ 34 2
Sposoby aktualizacji macierzy - obliczania nowych odległości w
każdym kroku
Wg Jain i Dubes’a:
1
Algorytm pojedynczego łączenia (ang. single linkage algorithm)
D(Cq , Cs ) = min{D(Ci , Cs ), D(Cj , Cs )}
2
Algorytm pełnego łączenia (ang. complete linkage algorithm)
D(Cq , Cs ) = max{D(Ci , Cs ), D(Cj , Cs )}
3
Algorytm uśredniania par (ang. weighted average linkage)
D(Cq , Cs ) =
1
(D(Ci , Cs ) + D(Cj , Cs ))
2
Ponadto:
4
5
Average Linkage (UPGMA),Centroid (UPGMC), Median (WPGMC),
Algorytm Warda (ang. Increase in Sum of Squares).
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4814(0-32)
/ 34 2
Ważne aspekty grupowania hierarchicznego
Złożoność czasowa macierzowych algorytmów aglomeracyjnych wynosi
O(N 2 lg N) natomiast pamięciowa O(N 2 ). Ta ostatnia wynika z konieczności
pamiętania macierzy niepodobieństwa o wymiarach N × N.
Wynik algorytmu grupowania hierarchicznego można przedstawić w postaci
tzw. dendrogramu niepodobieństwa, w którym występuje oś skojarzona z
używaną miarą niepodobieństwa. Przecięcie poziome dendrogramu daje jeden
z możliwych podziałów.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4815(0-32)
/ 34 2
Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu ?
[Jain A.K., Dubes R.C., ”Algorithms for clustering data”, Prentice Hall, 1998]
Procedura grupowania to nie tylko samo grupowanie ? Procedurę grupowania tworzą
następujące zadania składowe:
1
utworzenie reprezentacji,
2
wybór miary podobieństwa,
3
ustalenie tendencji grupującej,
4
grupowanie,
5
walidacja wyniku,
6
abstrakcja cech.
W zależności od użytej miary podobieństwa, rodzaju algorytmu grupowania oraz różnych
wartości jego parametrów, uzyskuje się różne wynikowe podziały danego zbioru obiektów.
Z tego względu konieczne jest stosowanie weryfikacji uzyskanego podziału zwanej
potocznie walidacją, która stanowi procedurę sprawdzającą ”poprawność” uzyskanego
podziału. Walidacji tej dokonuje się za pomocą weryfikacji hipotez statystycznych lub
odpowiednio skonstruowanych wskaźników (indeksów) walidacyjnych: np. indeks Dunn0 a
czy Xie − Beni.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4816(0-32)
/ 34 2
Zdefiniowanie kryterium jakości
[K.Stąpor,”Automatyczna klasyfikacja obiektów”, EXIT, W-wa 2005]
W algorytmach iteracyjnej optymalizacji tj. k-means, k-medoids, najlepszy
podział zbioru jest wyznaczany przez iteracyjne polepszanie pewnych wskaźników
jakości, startując z początkowego podziału, najczęściej losowego. Wskaźniki
jakości definiuje się w postaci funkcji kryterialnej, która jest zależna od zbioru
uczącego oraz wektora nieznanych parametrów określających daną grupę.
Funkcja kryterialna najczęściej jest konstruowana w postaci sumy kwadratów
odległości wektorów w grupach od prototypów tych grup. Stanowi więc miarę
rozproszenia wektorów w poszczególnych grupach.
Ocenie może podlegać:
uzyskany pojedynczy podział,
hierarchia podziałów,
pojedyncza grupa.
Spośród wszystkich możliwych podziałów uzyskanych jako wynik
działania danego algorytmu grupowania z różnymi wartościami
parametrów należy wybrać ten, który najlepiej opisuje strukturę zbioru.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4817(0-32)
/ 34 2
Jak oceniać rezultaty k-means, k-medoids ?
Jeśli xc - centroid, średnia wartość z wszystkich obiektów nalezących do danej
grupy C . wówczas, można zdefiniować miarę dopasowania skupienia c:
TD(C ) =
X
dist(p, xc )2
p∈C
Dalej, całkowity koszt grupowania w danej iteracji mozna wyznaczyć jako:
TD =
k
X
TD(Ci )
i=1
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4818(0-32)
/ 34 2
Jak oceniać rezultaty grupowania hierarchicznego ?
Problem wyboru optymalnego podziału rozwiązuje sama idea algorytmu. Jedynie,
w zależności od wybranej metody tworzenia centroidu (single linkage, complete
linkage, Ward, etc.), dwa najbardziej podobne obiekty mogą zostać łączone w
grupę w innym czasie (w innym kroku algorytmu, raz wcześniej, raz później).
Zatem, stosując techniki hierarchiczne, zwiększamy co prawda czas działania
algorytmu, ale usuwamy problem oceny otrzymanego rozwiązania.
Efektywność wnioskowania po grupowaniu reguł metodą analizy skupień
Kryteria oceny systemów wnioskujących można podzielić na dwie grupy:
kryteria związane ze złożonością obliczeniową algorytmu,
kryteria związane z jakością otrzymanego podziału,
kryteria związane z jakością generowanych wyników, np. trafność
rozpoznawania, dokładność lokalizacji obiektu, etc.[kompletność, dokładność].
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4819(0-32)
/ 34 2
Jak zamierzamy zmodyfikować klasyczne podejścia ?
Pożądane własności dobrego podziału:
możliwie najmniejsza liczba parametrów koniecznych do specyfikowania,
możliwie najmniejsza krotność analizy elementów zbioru U,
możliwość wykrywania grup o dowolnym kształcie, wielkości, gęstości,
niewrażliwość na obecność szumu (wektorów odstających) w zbiorze,
możliwość przetwarzania danych różnych typów (ciągłe, dyskretne), w szczególności ich
kombinacji,
niezależność wyniku od kolejności analizy obiektów zbioru U,
możliwie największe podobieństwo obiektów wewnątrz danej grupy oraz możliwie
najmniejsze podobieństwo grup do siebie.
Rzeczywistość jest inna - niepożądane własności podziału:
podobieństwo między obiektami w danej grupie spada poniżej pewnego ustalonego
poziomu minimum.
Różne są sposoby ustalania tego minimalnego współczynnika podobieństwa. W rozważaniach
podejmowanych przez nas wcześniej brane były pod uwagę dwie metody:
średnia z minimum i maksimum,
T =
min(s(x, y )) + max(s(x, y ))
,
2
średnia ważona.
T = s 0 (x, y ).
gdzie:
s(x, y )- to pewna miara podobieństwa między obiektami x oraz y (np. miara Gowera).
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4820(0-32)
/ 34 2
Kryteria oceny jakości podziału
Jakość grupowania zależy od tego jak różnie obiekty są rozrzucone w węzłach
drzewa a to z kolei zależy od algorytmu jakim były łączone i od tego jakich
metryk używano do ich łączenia.
Są 2 standardowe miary:
miara oceny (ang. FScore),
FScore =
2RP
R +P
gdzie:
R - kompletność (ang. Recall), P - dokładność (ang. Precision).
miara rozkładu - entropii (ang.Entropy ).
Entropy (Sr ) = −
q
1 X nri
ni
lg r
lg q
nr nr
i=1
gdzie:
q - liczba klas, nri - liczba obiektów w i-tej klasie.
Entropia całego drzewa T wynosi:
Entropy (T ) =
t
X
1X
t
(Sr )
r =1
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4821(0-32)
/ 34 2
Miara Theodoridis i Koutroumbas,1999
[S. Theodoridis, K. Koutroumbas, ”Patern Recognition”, Academic Press, 1999]
Odpowiedni
poziom odcięcia to ten, dla którego spełniony jest warunek:
∀Gi ,Gj Dmin (Gi , Gj ) > max{h(Gi , Gj )}
gdzie:
h(Gi ) jest miarą samopodobieństwa grupy, tj. podobieństwa pomiędzy wektorami z danej grupy.
Miarę samopodobieństwa można zdefiniować np. jako maksymalną odległość wektorów w grupie:
h(G ) = max{d(x, y )|x,y ∈G }
lub też jako średnią wartość odległości między wektorami w grupie:
h(G ) =
1
2NG
XX
d(x, y )
x∈G y ∈G
gdzie:
d(x, y ) oznacza którąkolwiek z miar niepodobieństwa wektorów. Innymi słowy, w końcowym
podziale niepodobieństwo pomiędzy dowolną parą grup musi być większe niż samopodobieństwo
każdej z grup.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4822(0-32)
/ 34 2
mAHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4823(0-32)
/ 34 2
mAHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4824(0-32)
/ 34 2
mAHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4825(0-32)
/ 34 2
mAHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4826(0-32)
/ 34 2
mAHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4827(0-32)
/ 34 2
AHC kontra mAHC
AHC [100]
mAHC [70]
mAHC [90]
mAHC [95]
mAHC - inne
a
b
c
d
e
f
g
a
5
1
3
4
4
b
30
22
27
28
25
c
4
4
5
5
3
d
0
9
5
0
8
e
4
13
10
5
11
f
0.09
0.13
0.03
0.04
0.13
g
99
85
39
52
85
- poziom w drzewie
- liczba pamietanych elementow
- liczba porównań w drzewie
- liczba porównań w innych drzewach
- suma porównań
- odchylenie
- procent błędu
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4828(0-32)
/ 34 2
mAHC kontra AHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4829(0-32)
/ 34 2
mAHC kontra AHC
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4830(0-32)
/ 34 2
Miara efektywności van Rijsbergen’a, 1979
Miara ta umożliwia ocenę obydwu parametrów: kompletności oraz dokładności
jednocześnie.
1 + b2
EHC = 1 − b2
+ P1
R
gdzie odpowiednio:
b to współczynnik skalujący ∈ [0..1],
R to to kompletność (ang. recall),
P to dokładność (ang. precision).
Idealna sytuacja
RHC = 1.0, PHC = 1.0
jeśli b = 21 wówczas: EHC = 1 −
5
4
1 +1
4
=1−
5/4
5/4
=1−1=0
Zależność jest taka, że im wartość EHC jest bliższa 0 tym większa jest efektywność
systemu, i odwrotnie.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4831(0-32)
/ 34 2
Eksperymenty
Wyniki eksperymentów
b
c
d
e
f
31
5
16 10 62
397 23 199 34 17
959 27 480 36
7
1403 30 702 38 5, 4
gdzie:
a - liczba reguł, b - liczba grup,c - liczba poziomow w drzewie (wysokość drzewa),
d - liczba porownań przy PZ, e - liczba porownań w AHC, f - procent BD
baza
baza
baza
baza
nr
nr
nr
nr
1
2
3
4
a
16
199
480
702
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4832(0-32)
/ 34 2
Podsumowanie - Wnioski
1
2
3
Hierarchiczne grupowanie reguł w bazach wiedzy przyspieszy procesy
wnioskowania poprzez kryterium podobieństwa - relewantności elementów
drzewa względem podanej nowej wiedzy.
Niekwestionowaną zaletą, drugą obok krótkiego czasu jest także fakt, iż
wnioskując w ten sposób system będzie generował tylko niezbędne nowe
fakty, nie obciążając w ten sposób systemu czy użytkownika nową wiedzą.
Dodatkowo - możemy zwiększyć jakość uzyskanego podziału poprzez
grupowanie obiektów z kontrolą bliskości - kryterium stopu algorytmu.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4833(0-32)
/ 34 2
Literatura
1
2
3
4
5
6
7
8
9
10
Anderberg M.R., "Cluster analysis for applications", New York, Academic
Press, 1973.
Dubes R.C., Jain A.K., "Algorithms for clustering data", Prentice Hall,
1998.
Everitt B.S., "Cluster Analysis (3rd edition)", Edward Arnold / Halsted
Press, London, 1993.
Hand D., Mannila H., Smyth P., "Eksploracja danych", Wydawnictwa
Naukowo-Techniczne, Warszawa, 2005.
Kaufman L., Rousseeuw P.J., "Finding Groups in Data: An Introduction to
Cluster Analysis", John Wiley Sons, New York, 1990.
Nowak A., Wakulicz-Deja A. Bachliński S., "Optimization of Speech
Recognition by Clustering of Phones", Concurrency, Specification and
Concurrency 2005 - Ruciane-Nida, Poland, September 28-30, 2005
Nowak A., Wakulicz-Deja A. , "The concept of the hierarchical clustering
algorithms for rules based systems", Intelligent Information Systems 2005 New Trends in Intelligent Information Processing and Web Mining, Gdańsk,
Poland, June 13-16, 2005
Nowak A., Wakulicz-Deja A., "Aglomeracyjne metody tworzenia skupień reguł
dla optymalizacji procesów wnioskowania", Systemy Wspomagania Decyzji 2004,
Zakopane, Poland, Grudzień 7-9, 2004.
Stąpor K., "Automatyczna klasyfikacja obiektów", Akademicka Oficyna
Wydawnicza EXIT, Warszawa 2005.
Theodoridis S., Koutroumbas K., "Patern Recognition", Academic Press, 1999.
Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów
Kryteria
Informatycznych
stopu algorytmu
Instytut
grupowania
Informatyki
regułUniwersytetu
a efektywność
Śląskiego
systemuSosnowiec,
wspomagania
ul. decyzji
Będzińska 39, +4834(0-32)
/ 34 2