Metodyka klasyfikacji i sortowania przy hierarchicznej strukturze

Transkrypt

Metodyka klasyfikacji i sortowania przy hierarchicznej strukturze
Inteligentne systemy wspomagania decyzji
oparte na wiedzy odkrytej z danych
Roman Słowiński
© Roman Słowiński
Motywacje
„
Wzrasta przepaść między generowaniem danych a ich zrozumieniem
„
Odkrywanie wiedzy z danych (ang. Knowledge Discovery, Data Mining)
„
OWD jest procesem identyfikowania przez indukcję:
„
prawdziwych,
„
nietrywialnych,
„
potencjalnie użytecznych,
„
bezpośrednio zrozumiałych
wzorców w danych
„
Wzorzec = reguła, trend, zjawisko, prawidłowość, anomalia, hipoteza,
funkcja, itp.
„
Wzorce są użyteczne dla wyjaśniania sytuacji opisanych przez dane
oraz do predykcji przyszłych sytuacji
2
Motywacje
„
Przykład danych diagnostycznych
„
176 autobusów (obiektów)
„
8 symptomów (atrybutów)
„
Globalny stan techniczny:
3 – dobry (użytkować)
2 – do przeglądu
1 – do remontu (wycofać)
„
Odkryć wzorce = znaleźć
zależności między symptomami
a stanem technicznym
„
Wzorce wyjaśniają decyzje
eksperta i wspomagają
diagnozowanie nowych
przypadków
3
Motywacje
„
Szukanie wzorców wymaga uwzględnienia wiedzy dziedzinowej
(bacground knowledge), czyli semantyki danych
„
Rodzaje wiedzy dziedzinowej:
(i)
dziedziny atrybutów, czyli zbiory wartości atrybutów mających sens
dla ludzkiej percepcji
(ii) podział na atrybuty warunkowe i decyzyjne
(iii) porządek preferencji w dziedzinie atrybutów i semantyczna korelacja
między parami atrybutów, wymagająca, by wzorce przestrzegały
zasadę Pareto-dominacji
„
Atrybuty z dziedziną uporządkowaną według preferencji = kryteria
„
Wzorce: funkcyjne, relacyjne, logiczne (regułowe)
4
Wpływ wiedzy dziedzinowej na odkrywanie wzorców
„
Semantyczna korelacja między kryterium a decyzją oznacza, że
poprawa oceny obiektu na tym kryterium nie powinna pogarszać
decyzji
„
Przykład
Obiekty = uczniowie
Mat = ocena z matematyki
Fiz = ocena z fizyki
OG = ocena ogólna
kryteria
decyzja
Poprawa oceny z Mat lub Fiz
(przy drugiej ocenie nie zmienionej)
nie powinna pogarszać ogólnej oceny ucznia OG, lecz raczej polepszać ją
5
Wpływ wiedzy dziedzinowej na odkrywanie wzorców
„
Reguła decyzyjna:
jeżeli Mat=dostat. i Fiz=dostat., to OG=dobry
„
„
Reguły niespójne z zasadą Pareto-dominacji :
reguła #1: jeżeli Mat= dostat. i
Fiz=dostat., to OG=dobry
reguła #2: jeżeli Mat=dobry
Fiz=dostat., to OG=dostat.
i
Powodem jest niespójność w zbiorze danych
6
Niespójność w zbiorze danych
„
Niespójność w opisie obiektów:
„
Niespójność ma wiele źródeł, np.:
„
„
brakujące atrybuty (kryteria)
„
niestały charakter preferencji przy podejmowaniu decyzji
Informacji o niespójnościach nie można traktować jak szumu, czy błędu
7
Teoria zbiorów przybliżonych oparta na dominacji (DRSA)
„
Zbiór kryteriów (C) jest semantycznie skorelowany z decyzją (d)
„
fq – relacja słabej preferencji (przewyższania) na U względem
kryterium q∈{C∪D}
„
xq fq yq : “xq jest co najmniej tak dobry jak yq na kryterium q”
„
xDPy : x P-dominuje y ze względu na P⊆C, jeśli xq fq yq
dla wszystkich kryteriów q∈P
„
Relacja P-dominacji jest zwrotna (xDPx)
„
Analogicznie, xDdy ze względu na decyzję d
8
Teoria zbiorów przybliżonych oparta na dominacji (DRSA)
„
Obliczenia granularne na stożkach dominacji względem decyzji
≥
Cl t =
≤
Cl t =
„
U Cl s
– unia klas w górę, t=2,...,n („co najmniej” klasa Clt)
U Cl s
– unia klas w dół, t=1,...,n-1 („co najwyżej” klasa Clt)
s ≥t
s ≤t
Granule wiedzy są stożkami w przestrzeni ocen (P⊆C)
D+P(x)= {y∈U: yDPx} : stożek P-dominujący
D-P(x) = {y∈U: xDPy} : stożek P-zdominowany
„
Odkrywane wzorce są funkcjami logicznymi reprezentującymi
granule Cl≥t, Cl≤t za pomocą granul D+P(x), D-P(x)
9
DRSA – ilustracja formalnych definicji
Przykład
„
f
Np.
f
Symptom 1 ↑
Symptom 2 ↑
40
17,8
Dobry
35
30
Dobry
32.5
39
Dobry
31
35
Dobry
27.5
17.5
Dobry
24
17.5
Dobry
22.5
20
Dobry
30.8
19
Średni
27
25
Średni
21
9.5
Średni
18
12.5
Średni
10.5
25.5
Średni
9.75
17
Średni
17.5
5
Zły
11
2
Zły
10
9
Zły
5
13
Zły
Symptom 1 = (wibracje osiowe)-1
Stan techniczny ↑
Symptom 2 = (poziom hałasu)-1
10
DRSA – ilustracja formalnych definicji
Obiekty w przestrzeni ocen
Symptom 1
40
20
0
20
40
Symptom 2
11
DRSA – ilustracja formalnych definicji
Obliczenia granularne na stożkach dominacji
Symptom 1
+
DP (x ) = {y ∈ U : yDP x}
40
x
20
0
−
DP (x ) = {y ∈ U : xDP y }
20
40
Symptom 2
12
DRSA – ilustracja formalnych definicji
Obliczenia granularne na stożkach dominacji
Symptom 1
+
DP (x ) = {y ∈ U : yDP x}
40
x
20
DP (x ) = {y ∈ U : xDP y}
−
0
20
40
Symptom 2
13
DRSA – ilustracja formalnych definicji
Dolne przybliżenie unii klas „Co najmniej dobrych”
Symptom 1
40
{
P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥
20
0
20
40
}
Symptom 2
14
DRSA – ilustracja formalnych definicji
Górne przybliżenie i brzeg unii klas „Co najmniej dobrych”
Symptom 1
40
BnP (Cl t≥ ) = P (Cl t≥ ) − P(Cl t≥ )
20
0
{
} U D (x )
P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ =
20
40
x∈Clt≥
+
P
Symptom 2
15
DRSA – ilustracja formalnych definicji
Dolne = górne przybliżenie unii klas „Co najmniej średnich”
Symptom 1
40
{
P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥
20
{
} U D (x )
P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ =
0
20
}
40
x∈Clt≥
Symptom 2
+
P
16
DRSA – ilustracja formalnych definicji
Dolne = górne przybliżenie unii klas „Co najwyżej złych”
Symptom 1
40
20
{
P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤
{
}
} U D (x )
P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ =
0
20
40
x∈Clt≤
Symptom 2
−
P
17
DRSA – ilustracja formalnych definicji
Dolne przybliżenie unii klas „Co najwyżej średnich”
Symptom 1
40
20
0
{
P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤
20
40
}
Symptom 2
18
DRSA – ilustracja formalnych definicji
Górne przybliżenie i brzeg unii klas „Co najwyżej złych”
Symptom 1
40
BnP (Cl t≤ ) = P (Cl t≤ ) − P(Cl t≤ )
20
0
{
} U D (x )
P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ =
20
40
x∈Clt≤
−
P
Symptom 2
19
Porównanie klasycznej TZP i TZP opartej na dominacji
Symptom 1
Symptom 1
40
40
20
20
0
20
0
40
Symptom 2
20
40
Symptom 2
20
DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas
„
Indukowane reguły decyzyjne:
„
( )
pewne D≥-reguły, podpierane przez spójne obiekty ∈ P Cl t≥ :
jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x∈Cl t≥
„
( )
możliwe D≥-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≥ :
≥
jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x być może ∈ Cl t
21
DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas
„
Indukowane reguły decyzyjne:
„
( )
pewne D≤-reguły, podpierane przez spójne obiekty ∈ P Cl t≤ :
≤
jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x∈ Cl t
„
( )
możliwe D≤-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≤ :
≤
jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x być może ∈ Cl t
„
przybliżone D≥≤-reguły, podpierane przez obiekty ∈ Cls∪Cls+1∪…∪Clt
bez możliwości rozróżnienia, do której z klas, z uwagi na niespójność:
jeżeli xq1fq1rq1 i... xqkfqkrqk i xqk+1pqk+1rqk+1 i ... xqppqprqp, to
x∈Cls∪Cls+1∪…∪Clt.
22
DRSA – reguły decyzyjne
Pewne D≥-reguły dla unii klas „Co najmniej dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)≥35, to x należy do klasy „Dobrych”
0
20
40
Symptom 2
23
DRSA – reguły decyzyjne
Możliwe D≥-reguły dla unii klas „Co najmniej dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)≥22.5 i f(x,s2)≥20, to x być może należy do klasy „Dobrych”
0
20
40
Symptom 2
24
DRSA – reguły decyzyjne
Przybliżone D≥≤-reguły dla klasy „Średnich”
lub „Dobrych”
Symptom 1
40
-obiekt bazowy
20
Jeżeli f(x,s1)∈[22.5, 27] i f(x,s2)∈[20, 25],
to x należy do klasy „Średnich” lub „Dobrych”
0
20
40
Symptom 2
25
DRSA – reguły decyzyjne
Reguła decyzyjna z hiperpłaszczyzną nieortogonalną
Symptom 1
40
20
Jeżeli f(x,s1)≥9.75 i f(x,s2)≥9.5 i 1.5 f(x,s1)+1.0 f(x,s2)≥22.5,
to x jest w klasie „Co najmniej średnich”
0
20
40
Symptom 2
26
Zastosowanie reguł decyzyjnych do wspomagania decyzji
„
Zastosowanie reguł decyzyjnych: „przekrój” reguł dopasowanych do x
Końcowa decyzja:
27
Zbiór reguł decyzyjnych jako model preferencji
„
Zbiór (D≥ D≤ D≥≤)-reguł wyindukowanych z przybliżeń unii klas
decyzyjnych reprezentuje model preferencji
„
Model preferencji jest niezbędnym składnikiem systemu wspomagania
decyzji dla problemów z wielowymiarową przestrzenią ocen
„
Wielowymiarowość przestrzeni ocen wynika z:
D : Ocen wielu decydentów
K : Ocen wielokryterialnych
R : Ocen w warunkach ryzyka i niepewności (wiele możliwych stanów
natury z różnym prawdopodobieństwem)
28
Pα - wybór, Pβ - klasyfikacja, Pγ -porządkowanie
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
Pα Pβ Pγ
D
1
m
1
1
m
m
1
m
K
1
1
n
1
n
1
n
n
R
1
1
1
ryz
1
ryz
ryz
ryz
Optymalizacja
Klasyfikacja
Porządkowanie
Rozwiązanie jest
„filozoficznie”
proste
Teoria
społecznego
wyboru (TSW)
Wielokryterialne
podejmowanie
decyzji (WPD)
Podejmowanie
decyzji w warunkach
ryzyka (PDR)
Zachodzi konflikt między wymiarami D, K,
R, wobec czego problem na tym etapie
nie ma rozwiązania (ill-posed problem)
29
Równoważność wielowymiarowych problemów decyzyjnych
Teoria
społecznego
wyboru
Wielokryterialne
podejmowanie
decyzji
Podejmowanie decyzji
w warunkach ryzyka
Element zbioru A
(alternative)
Kandydat
(candidate)
Wariant
decyzyjny
(action)
Akt
(act)
Wymiar przestrzeni
ocen
(performance)
Wyborca
(voter)
Kryterium
(criterion)
Prawdopodobieństwo
konsekwencji
(probability of
outcome)
Relacja dominacji Relacja dominacji
Obiektywna
(dominance)
(dominance)
informacja o wyniku
porównania
elementów z A
Relacja dominacji
stochastycznej
(stochastic
dominance)
30
TSW
WPD
Wyborcy
PDR
Kryteria
Pr. konsekwencji
Kand.
V1
V2
Wariant
Czas
Koszt
a
3
1
a
3
1
a
0.7
0.6
b
1
2
b
1
2
b
1.0
0.5
c
2
3
c
2
3
c
0.8
0.4
V1 : b f c f a
V2 : a f b f c
● niezdominowany
● zdominowany
Koszt
V2
c●
3
2
2
a●
1
2
3
Zysk>Z2
.6
.5
.4
b●
1
V1
Z1 < Z2
c●
3
b●
1
Akt Zysk>Z1 Zysk>Z2
a●
1
2
3
Czas
●a
●c
●b
.7 .8 1
Zysk>Z1
31
Modele preferencji – podstawy aksjomatyczne
„
Trzy grupy modeli preferencji:
„
Funkcja użyteczności (wartości), np. addytywna U (a ) =
∑
n
u
i =1 i
[g i (a )]
(także multiplikatywna, asocjatywna, całka Choquet lub Sugeno, OWA, OWM...)
„
System relacyjny, np. relacja przewyższania S lub relacja rozmyta,
aSb = “a jest co najmniej tak dobry jak b”
„
Zbiór reguł decyzyjnych,
np. “Jeżeli gi(a)≥ri i gj(a)≥rj i ... gh(a)≥rh, to a → Klasa t lub wyższa”
“Jeżeli ∆i(a,b)≥ri i ∆j(a,b)≥rj i ... ∆h(a,b)≥rh, to aSb”
„
W wyniku badań podstaw aksjomatycznych tych modeli udowodniono,
że model preferencji w postaci reguł decyzyjnych jest najogólniejszym
modelem preferencji, a najogólniejsza nawet funkcja użytecznośći,
w tym całki Sugeno i Choquet, oraz relacja przewyższania istnieją
wtedy i tylko wtedy, gdy istnieje model regułowy
32
33
Kierunki dalszych badań
„
„
Algorytmiczny
„
Procedury indukcji reguł decyzyjnych i drzew decyzyjnych
„
Testowanie procedur na danych rzeczywistych
Aksjomatyzacyjny
„
„
Badanie podstaw aksjomatycznych metod stosowanych w ISWD
Metodologiczny
„
Badanie baysowskich miar konfirmacji i zastosowanie ich do oceny
reguł decyzyjnych
„
Metodyka indukcji reguł gradualnych według modelu „fuzzy-rough”
i wnioskowanie przybliżone z udziałem tych reguł
„
Wdrożeniowy
„
Implementacja systemów wspomagania decyzji opartych na modelu
regułowym – np. system MET dla medycyny
34
DRSA – example of technical diagnostics
„
176 vehicles (objects)
„
8 attributes with preference scale
„
decision = technical state:
3 – good state (in use)
2 – minor repair
1 – major repair (out of use)
„
all criteria are semantically
correlated with the decision
„
inconsistent objects:
11, 12, 39
35
36
37
38

Podobne dokumenty