Metodyka klasyfikacji i sortowania przy hierarchicznej strukturze

Transkrypt

Inteligentne systemy wspomagania decyzji
oparte na wiedzy odkrytej z danych
Roman Słowiński
© Roman Słowiński
Motywacje

Wzrasta przepaść między generowaniem danych a ich zrozumieniem

Odkrywanie wiedzy z danych (ang. Knowledge Discovery, Data Mining)

OWD jest procesem identyfikowania przez indukcję:

prawdziwych,

nietrywialnych,

potencjalnie użytecznych,

bezpośrednio zrozumiałych
wzorców w danych

Wzorzec = reguła, trend, zjawisko, prawidłowość, anomalia, hipoteza,
funkcja, itp.

Wzorce są użyteczne dla wyjaśniania sytuacji opisanych przez dane
oraz do predykcji przyszłych sytuacji
2
Motywacje

Przykład danych diagnostycznych

176 autobusów (obiektów)

8 symptomów (atrybutów)

Globalny stan techniczny:
3 – dobry (użytkować)
2 – do przeglądu
1 – do remontu (wycofać)

Odkryć wzorce = znaleźć
zależności między symptomami
a stanem technicznym

Wzorce wyjaśniają decyzje
eksperta i wspomagają
diagnozowanie nowych
przypadków
3
Motywacje

Szukanie wzorców wymaga uwzględnienia wiedzy dziedzinowej
(bacground knowledge), czyli semantyki danych

Rodzaje wiedzy dziedzinowej:
(i)
dziedziny atrybutów, czyli zbiory wartości atrybutów mających sens
dla ludzkiej percepcji
(ii) podział na atrybuty warunkowe i decyzyjne
(iii) porządek preferencji w dziedzinie atrybutów i semantyczna korelacja
między parami atrybutów, wymagająca, by wzorce przestrzegały
zasadę Pareto-dominacji

Atrybuty z dziedziną uporządkowaną według preferencji = kryteria

Wzorce: funkcyjne, relacyjne, logiczne (regułowe)
4
Wpływ wiedzy dziedzinowej na odkrywanie wzorców

Semantyczna korelacja między kryterium a decyzją oznacza, że
poprawa oceny obiektu na tym kryterium nie powinna pogarszać
decyzji

Przykład
Obiekty = uczniowie
Mat = ocena z matematyki
Fiz = ocena z fizyki
OG = ocena ogólna
kryteria
decyzja
Poprawa oceny z Mat lub Fiz
(przy drugiej ocenie nie zmienionej)
nie powinna pogarszać ogólnej oceny ucznia OG, lecz raczej polepszać ją
5
Wpływ wiedzy dziedzinowej na odkrywanie wzorców

Reguła decyzyjna:
jeżeli Mat=dostat. i Fiz=dostat., to OG=dobry

Reguły niespójne z zasadą Pareto-dominacji :
reguła #1: jeżeli Mat= dostat. i
Fiz=dostat., to OG=dobry
reguła #2: jeżeli Mat=dobry
Fiz=dostat., to OG=dostat.
i
Powodem jest niespójność w zbiorze danych
6
Niespójność w zbiorze danych

Niespójność w opisie obiektów:

Niespójność ma wiele źródeł, np.:

brakujące atrybuty (kryteria)

niestały charakter preferencji przy podejmowaniu decyzji
Informacji o niespójnościach nie można traktować jak szumu, czy błędu
7
Teoria zbiorów przybliżonych oparta na dominacji (DRSA)

Zbiór kryteriów (C) jest semantycznie skorelowany z decyzją (d)

fq – relacja słabej preferencji (przewyższania) na U względem
kryterium q∈{C∪D}

xq fq yq : “xq jest co najmniej tak dobry jak yq na kryterium q”

xDPy : x P-dominuje y ze względu na P⊆C, jeśli xq fq yq
dla wszystkich kryteriów q∈P

Relacja P-dominacji jest zwrotna (xDPx)

Analogicznie, xDdy ze względu na decyzję d
8
Teoria zbiorów przybliżonych oparta na dominacji (DRSA)

Obliczenia granularne na stożkach dominacji względem decyzji
≥
Cl t =
≤
Cl t =

U Cl s
– unia klas w górę, t=2,...,n („co najmniej” klasa Clt)
U Cl s
– unia klas w dół, t=1,...,n-1 („co najwyżej” klasa Clt)
s ≥t
s ≤t
Granule wiedzy są stożkami w przestrzeni ocen (P⊆C)
D+P(x)= {y∈U: yDPx} : stożek P-dominujący
D-P(x) = {y∈U: xDPy} : stożek P-zdominowany

Odkrywane wzorce są funkcjami logicznymi reprezentującymi
granule Cl≥t, Cl≤t za pomocą granul D+P(x), D-P(x)
9
DRSA – ilustracja formalnych definicji
Przykład

f
Np.
f
Symptom 1 ↑
Symptom 2 ↑
40
17,8
Dobry
35
30
Dobry
32.5
39
Dobry
31
35
Dobry
27.5
17.5
Dobry
24
17.5
Dobry
22.5
20
Dobry
30.8
19
Średni
27
25
Średni
21
9.5
Średni
18
12.5
Średni
10.5
25.5
Średni
9.75
17
Średni
17.5
5
Zły
11
2
Zły
10
9
Zły
5
13
Zły
Symptom 1 = (wibracje osiowe)-1
Stan techniczny ↑
Symptom 2 = (poziom hałasu)-1
10
Obiekty w przestrzeni ocen
Symptom 1
40
20
0
20
40
Symptom 2
11
Obliczenia granularne na stożkach dominacji
Symptom 1
+
DP (x ) = {y ∈ U : yDP x}
40
x
20
0
−
DP (x ) = {y ∈ U : xDP y }
20
40
Symptom 2
12
Obliczenia granularne na stożkach dominacji
Symptom 1
+
DP (x ) = {y ∈ U : yDP x}
40
x
20
DP (x ) = {y ∈ U : xDP y}
−
0
20
40
Symptom 2
13
Dolne przybliżenie unii klas „Co najmniej dobrych”
Symptom 1
40
{
P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥
20
0
20
40
}
Symptom 2
14
Górne przybliżenie i brzeg unii klas „Co najmniej dobrych”
Symptom 1
40
BnP (Cl t≥ ) = P (Cl t≥ ) − P(Cl t≥ )
20
0
{
} U D (x )
P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ =
20
40
x∈Clt≥
+
P
Symptom 2
15
Dolne = górne przybliżenie unii klas „Co najmniej średnich”
Symptom 1
40
{
P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥
20
{
} U D (x )
P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ =
0
20
}
40
x∈Clt≥
Symptom 2
+
P
16
Dolne = górne przybliżenie unii klas „Co najwyżej złych”
Symptom 1
40
20
{
P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤
{
}
} U D (x )
P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ =
0
20
40
x∈Clt≤
Symptom 2
−
P
17
Dolne przybliżenie unii klas „Co najwyżej średnich”
Symptom 1
40
20
0
{
P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤
20
40
}
Symptom 2
18
Górne przybliżenie i brzeg unii klas „Co najwyżej złych”
Symptom 1
40
BnP (Cl t≤ ) = P (Cl t≤ ) − P(Cl t≤ )
20
0
{
} U D (x )
P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ =
20
40
x∈Clt≤
−
P
Symptom 2
19
Porównanie klasycznej TZP i TZP opartej na dominacji
Symptom 1
Symptom 1
40
40
20
20
0
20
0
40
Symptom 2
20
40
Symptom 2
20
DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas

Indukowane reguły decyzyjne:

( )
pewne D≥-reguły, podpierane przez spójne obiekty ∈ P Cl t≥ :
jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x∈Cl t≥

( )
możliwe D≥-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≥ :
≥
jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x być może ∈ Cl t
21
DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas

Indukowane reguły decyzyjne:

( )
pewne D≤-reguły, podpierane przez spójne obiekty ∈ P Cl t≤ :
≤
jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x∈ Cl t

( )
możliwe D≤-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≤ :
≤
jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x być może ∈ Cl t

przybliżone D≥≤-reguły, podpierane przez obiekty ∈ Cls∪Cls+1∪…∪Clt
bez możliwości rozróżnienia, do której z klas, z uwagi na niespójność:
jeżeli xq1fq1rq1 i... xqkfqkrqk i xqk+1pqk+1rqk+1 i ... xqppqprqp, to
x∈Cls∪Cls+1∪…∪Clt.
22
DRSA – reguły decyzyjne
Pewne D≥-reguły dla unii klas „Co najmniej dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)≥35, to x należy do klasy „Dobrych”
0
20
40
Symptom 2
23
Możliwe D≥-reguły dla unii klas „Co najmniej dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)≥22.5 i f(x,s2)≥20, to x być może należy do klasy „Dobrych”
0
20
40
Symptom 2
24
Przybliżone D≥≤-reguły dla klasy „Średnich”
lub „Dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)∈[22.5, 27] i f(x,s2)∈[20, 25],
to x należy do klasy „Średnich” lub „Dobrych”
0
20
40
Symptom 2
25
Reguła decyzyjna z hiperpłaszczyzną nieortogonalną
Symptom 1
40
20
Jeżeli f(x,s1)≥9.75 i f(x,s2)≥9.5 i 1.5 f(x,s1)+1.0 f(x,s2)≥22.5,
to x jest w klasie „Co najmniej średnich”
0
20
40
Symptom 2
26
Zastosowanie reguł decyzyjnych do wspomagania decyzji

Zastosowanie reguł decyzyjnych: „przekrój” reguł dopasowanych do x
Końcowa decyzja:
27
Zbiór reguł decyzyjnych jako model preferencji

Zbiór (D≥ D≤ D≥≤)-reguł wyindukowanych z przybliżeń unii klas
decyzyjnych reprezentuje model preferencji

Model preferencji jest niezbędnym składnikiem systemu wspomagania
decyzji dla problemów z wielowymiarową przestrzenią ocen

Wielowymiarowość przestrzeni ocen wynika z:
D : Ocen wielu decydentów
K : Ocen wielokryterialnych
R : Ocen w warunkach ryzyka i niepewności (wiele możliwych stanów
natury z różnym prawdopodobieństwem)
28
Pα - wybór, Pβ - klasyfikacja, Pγ -porządkowanie
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
D
1
m
1
1
m
m
1
m
K
1
1
n
1
n
1
n
n
R
1
1
1
ryz
1
ryz
ryz
ryz
Optymalizacja
Klasyfikacja
Porządkowanie
Rozwiązanie jest
„filozoficznie”
proste
Teoria
społecznego
wyboru (TSW)
Wielokryterialne
podejmowanie
decyzji (WPD)
Podejmowanie
decyzji w warunkach
ryzyka (PDR)
Zachodzi konflikt między wymiarami D, K,
R, wobec czego problem na tym etapie
nie ma rozwiązania (ill-posed problem)
29
Równoważność wielowymiarowych problemów decyzyjnych
Teoria
społecznego
wyboru
Wielokryterialne
podejmowanie
decyzji
Podejmowanie decyzji
w warunkach ryzyka
Element zbioru A
(alternative)
Kandydat
(candidate)
Wariant
decyzyjny
(action)
Akt
(act)
Wymiar przestrzeni
ocen
(performance)
Wyborca
(voter)
Kryterium
(criterion)
Prawdopodobieństwo
konsekwencji
(probability of
outcome)
Relacja dominacji Relacja dominacji
Obiektywna
(dominance)
(dominance)
informacja o wyniku
porównania
elementów z A
Relacja dominacji
stochastycznej
(stochastic
dominance)
30
TSW
WPD
Wyborcy
PDR
Kryteria
Pr. konsekwencji
Kand.
V1
V2
Wariant
Czas
Koszt
a
3
1
a
3
1
a
0.7
0.6
b
1
2
b
1
2
b
1.0
0.5
c
2
3
c
2
3
c
0.8
0.4
V1 : b f c f a
V2 : a f b f c
● niezdominowany
● zdominowany
Koszt
V2
c●
3
2
2
a●
1
2
3
Zysk>Z2
.6
.5
.4
b●
1
V1
Z1 < Z2
c●
3
b●
1
Akt Zysk>Z1 Zysk>Z2
a●
1
2
3
Czas
●a
●c
●b
.7 .8 1
Zysk>Z1
31
Modele preferencji – podstawy aksjomatyczne

Trzy grupy modeli preferencji:

Funkcja użyteczności (wartości), np. addytywna U (a ) =
∑
n
u
i =1 i
[g i (a )]
(także multiplikatywna, asocjatywna, całka Choquet lub Sugeno, OWA, OWM...)

System relacyjny, np. relacja przewyższania S lub relacja rozmyta,
aSb = “a jest co najmniej tak dobry jak b”

Zbiór reguł decyzyjnych,
np. “Jeżeli gi(a)≥ri i gj(a)≥rj i ... gh(a)≥rh, to a → Klasa t lub wyższa”
“Jeżeli ∆i(a,b)≥ri i ∆j(a,b)≥rj i ... ∆h(a,b)≥rh, to aSb”

W wyniku badań podstaw aksjomatycznych tych modeli udowodniono,
że model preferencji w postaci reguł decyzyjnych jest najogólniejszym
modelem preferencji, a najogólniejsza nawet funkcja użytecznośći,
w tym całki Sugeno i Choquet, oraz relacja przewyższania istnieją
wtedy i tylko wtedy, gdy istnieje model regułowy
32
33
Kierunki dalszych badań

Algorytmiczny

Procedury indukcji reguł decyzyjnych i drzew decyzyjnych

Testowanie procedur na danych rzeczywistych
Aksjomatyzacyjny

Badanie podstaw aksjomatycznych metod stosowanych w ISWD
Metodologiczny

Badanie baysowskich miar konfirmacji i zastosowanie ich do oceny
reguł decyzyjnych

Metodyka indukcji reguł gradualnych według modelu „fuzzy-rough”
i wnioskowanie przybliżone z udziałem tych reguł

Wdrożeniowy

Implementacja systemów wspomagania decyzji opartych na modelu
regułowym – np. system MET dla medycyny
34
DRSA – example of technical diagnostics

176 vehicles (objects)

8 attributes with preference scale

decision = technical state:
3 – good state (in use)
2 – minor repair
1 – major repair (out of use)

all criteria are semantically
correlated with the decision