Metodyka klasyfikacji i sortowania przy hierarchicznej strukturze
Transkrypt
Metodyka klasyfikacji i sortowania przy hierarchicznej strukturze
Inteligentne systemy wspomagania decyzji oparte na wiedzy odkrytej z danych Roman Słowiński © Roman Słowiński Motywacje Wzrasta przepaść między generowaniem danych a ich zrozumieniem Odkrywanie wiedzy z danych (ang. Knowledge Discovery, Data Mining) OWD jest procesem identyfikowania przez indukcję: prawdziwych, nietrywialnych, potencjalnie użytecznych, bezpośrednio zrozumiałych wzorców w danych Wzorzec = reguła, trend, zjawisko, prawidłowość, anomalia, hipoteza, funkcja, itp. Wzorce są użyteczne dla wyjaśniania sytuacji opisanych przez dane oraz do predykcji przyszłych sytuacji 2 Motywacje Przykład danych diagnostycznych 176 autobusów (obiektów) 8 symptomów (atrybutów) Globalny stan techniczny: 3 – dobry (użytkować) 2 – do przeglądu 1 – do remontu (wycofać) Odkryć wzorce = znaleźć zależności między symptomami a stanem technicznym Wzorce wyjaśniają decyzje eksperta i wspomagają diagnozowanie nowych przypadków 3 Motywacje Szukanie wzorców wymaga uwzględnienia wiedzy dziedzinowej (bacground knowledge), czyli semantyki danych Rodzaje wiedzy dziedzinowej: (i) dziedziny atrybutów, czyli zbiory wartości atrybutów mających sens dla ludzkiej percepcji (ii) podział na atrybuty warunkowe i decyzyjne (iii) porządek preferencji w dziedzinie atrybutów i semantyczna korelacja między parami atrybutów, wymagająca, by wzorce przestrzegały zasadę Pareto-dominacji Atrybuty z dziedziną uporządkowaną według preferencji = kryteria Wzorce: funkcyjne, relacyjne, logiczne (regułowe) 4 Wpływ wiedzy dziedzinowej na odkrywanie wzorców Semantyczna korelacja między kryterium a decyzją oznacza, że poprawa oceny obiektu na tym kryterium nie powinna pogarszać decyzji Przykład Obiekty = uczniowie Mat = ocena z matematyki Fiz = ocena z fizyki OG = ocena ogólna kryteria decyzja Poprawa oceny z Mat lub Fiz (przy drugiej ocenie nie zmienionej) nie powinna pogarszać ogólnej oceny ucznia OG, lecz raczej polepszać ją 5 Wpływ wiedzy dziedzinowej na odkrywanie wzorców Reguła decyzyjna: jeżeli Mat=dostat. i Fiz=dostat., to OG=dobry Reguły niespójne z zasadą Pareto-dominacji : reguła #1: jeżeli Mat= dostat. i Fiz=dostat., to OG=dobry reguła #2: jeżeli Mat=dobry Fiz=dostat., to OG=dostat. i Powodem jest niespójność w zbiorze danych 6 Niespójność w zbiorze danych Niespójność w opisie obiektów: Niespójność ma wiele źródeł, np.: brakujące atrybuty (kryteria) niestały charakter preferencji przy podejmowaniu decyzji Informacji o niespójnościach nie można traktować jak szumu, czy błędu 7 Teoria zbiorów przybliżonych oparta na dominacji (DRSA) Zbiór kryteriów (C) jest semantycznie skorelowany z decyzją (d) fq – relacja słabej preferencji (przewyższania) na U względem kryterium q∈{C∪D} xq fq yq : “xq jest co najmniej tak dobry jak yq na kryterium q” xDPy : x P-dominuje y ze względu na P⊆C, jeśli xq fq yq dla wszystkich kryteriów q∈P Relacja P-dominacji jest zwrotna (xDPx) Analogicznie, xDdy ze względu na decyzję d 8 Teoria zbiorów przybliżonych oparta na dominacji (DRSA) Obliczenia granularne na stożkach dominacji względem decyzji ≥ Cl t = ≤ Cl t = U Cl s – unia klas w górę, t=2,...,n („co najmniej” klasa Clt) U Cl s – unia klas w dół, t=1,...,n-1 („co najwyżej” klasa Clt) s ≥t s ≤t Granule wiedzy są stożkami w przestrzeni ocen (P⊆C) D+P(x)= {y∈U: yDPx} : stożek P-dominujący D-P(x) = {y∈U: xDPy} : stożek P-zdominowany Odkrywane wzorce są funkcjami logicznymi reprezentującymi granule Cl≥t, Cl≤t za pomocą granul D+P(x), D-P(x) 9 DRSA – ilustracja formalnych definicji Przykład f Np. f Symptom 1 ↑ Symptom 2 ↑ 40 17,8 Dobry 35 30 Dobry 32.5 39 Dobry 31 35 Dobry 27.5 17.5 Dobry 24 17.5 Dobry 22.5 20 Dobry 30.8 19 Średni 27 25 Średni 21 9.5 Średni 18 12.5 Średni 10.5 25.5 Średni 9.75 17 Średni 17.5 5 Zły 11 2 Zły 10 9 Zły 5 13 Zły Symptom 1 = (wibracje osiowe)-1 Stan techniczny ↑ Symptom 2 = (poziom hałasu)-1 10 DRSA – ilustracja formalnych definicji Obiekty w przestrzeni ocen Symptom 1 40 20 0 20 40 Symptom 2 11 DRSA – ilustracja formalnych definicji Obliczenia granularne na stożkach dominacji Symptom 1 + DP (x ) = {y ∈ U : yDP x} 40 x 20 0 − DP (x ) = {y ∈ U : xDP y } 20 40 Symptom 2 12 DRSA – ilustracja formalnych definicji Obliczenia granularne na stożkach dominacji Symptom 1 + DP (x ) = {y ∈ U : yDP x} 40 x 20 DP (x ) = {y ∈ U : xDP y} − 0 20 40 Symptom 2 13 DRSA – ilustracja formalnych definicji Dolne przybliżenie unii klas „Co najmniej dobrych” Symptom 1 40 { P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥ 20 0 20 40 } Symptom 2 14 DRSA – ilustracja formalnych definicji Górne przybliżenie i brzeg unii klas „Co najmniej dobrych” Symptom 1 40 BnP (Cl t≥ ) = P (Cl t≥ ) − P(Cl t≥ ) 20 0 { } U D (x ) P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ = 20 40 x∈Clt≥ + P Symptom 2 15 DRSA – ilustracja formalnych definicji Dolne = górne przybliżenie unii klas „Co najmniej średnich” Symptom 1 40 { P(Cl t≥ ) = x ∈ U : DP+ ( x ) ⊆ Clt≥ 20 { } U D (x ) P (Cl t≥ ) = x ∈ U : DP- ( x ) ∩ Clt≥ ≠ ∅ = 0 20 } 40 x∈Clt≥ Symptom 2 + P 16 DRSA – ilustracja formalnych definicji Dolne = górne przybliżenie unii klas „Co najwyżej złych” Symptom 1 40 20 { P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤ { } } U D (x ) P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ = 0 20 40 x∈Clt≤ Symptom 2 − P 17 DRSA – ilustracja formalnych definicji Dolne przybliżenie unii klas „Co najwyżej średnich” Symptom 1 40 20 0 { P(Cl t≤ ) = x ∈ U : DP− (x ) ⊆ Clt≤ 20 40 } Symptom 2 18 DRSA – ilustracja formalnych definicji Górne przybliżenie i brzeg unii klas „Co najwyżej złych” Symptom 1 40 BnP (Cl t≤ ) = P (Cl t≤ ) − P(Cl t≤ ) 20 0 { } U D (x ) P (Cl t≤ ) = x ∈ U : DP+ ( x ) ∩ Clt≤ ≠ ∅ = 20 40 x∈Clt≤ − P Symptom 2 19 Porównanie klasycznej TZP i TZP opartej na dominacji Symptom 1 Symptom 1 40 40 20 20 0 20 0 40 Symptom 2 20 40 Symptom 2 20 DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas Indukowane reguły decyzyjne: ( ) pewne D≥-reguły, podpierane przez spójne obiekty ∈ P Cl t≥ : jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x∈Cl t≥ ( ) możliwe D≥-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≥ : ≥ jeżeli xq1fq1rq1 i xq2fq2rq2 i … xqpfqprqp, to x być może ∈ Cl t 21 DRSA – indukcja reguł decyzyjnych z przybliżeń unii klas Indukowane reguły decyzyjne: ( ) pewne D≤-reguły, podpierane przez spójne obiekty ∈ P Cl t≤ : ≤ jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x∈ Cl t ( ) możliwe D≤-reguły, podpierane przez nie koniecznie spójne obiekty ∈ P Cl t≤ : ≤ jeżeli xq1pq1rq1 i xq2pq2rq2 i … xqppqprqp, to x być może ∈ Cl t przybliżone D≥≤-reguły, podpierane przez obiekty ∈ Cls∪Cls+1∪…∪Clt bez możliwości rozróżnienia, do której z klas, z uwagi na niespójność: jeżeli xq1fq1rq1 i... xqkfqkrqk i xqk+1pqk+1rqk+1 i ... xqppqprqp, to x∈Cls∪Cls+1∪…∪Clt. 22 DRSA – reguły decyzyjne Pewne D≥-reguły dla unii klas „Co najmniej dobrych” Symptom 1 40 -obiekt bazowy 20 Jeżeli f(x,s1)≥35, to x należy do klasy „Dobrych” 0 20 40 Symptom 2 23 DRSA – reguły decyzyjne Możliwe D≥-reguły dla unii klas „Co najmniej dobrych” Symptom 1 40 -obiekt bazowy 20 Jeżeli f(x,s1)≥22.5 i f(x,s2)≥20, to x być może należy do klasy „Dobrych” 0 20 40 Symptom 2 24 DRSA – reguły decyzyjne Przybliżone D≥≤-reguły dla klasy „Średnich” lub „Dobrych” Symptom 1 40 -obiekt bazowy 20 Jeżeli f(x,s1)∈[22.5, 27] i f(x,s2)∈[20, 25], to x należy do klasy „Średnich” lub „Dobrych” 0 20 40 Symptom 2 25 DRSA – reguły decyzyjne Reguła decyzyjna z hiperpłaszczyzną nieortogonalną Symptom 1 40 20 Jeżeli f(x,s1)≥9.75 i f(x,s2)≥9.5 i 1.5 f(x,s1)+1.0 f(x,s2)≥22.5, to x jest w klasie „Co najmniej średnich” 0 20 40 Symptom 2 26 Zastosowanie reguł decyzyjnych do wspomagania decyzji Zastosowanie reguł decyzyjnych: „przekrój” reguł dopasowanych do x Końcowa decyzja: 27 Zbiór reguł decyzyjnych jako model preferencji Zbiór (D≥ D≤ D≥≤)-reguł wyindukowanych z przybliżeń unii klas decyzyjnych reprezentuje model preferencji Model preferencji jest niezbędnym składnikiem systemu wspomagania decyzji dla problemów z wielowymiarową przestrzenią ocen Wielowymiarowość przestrzeni ocen wynika z: D : Ocen wielu decydentów K : Ocen wielokryterialnych R : Ocen w warunkach ryzyka i niepewności (wiele możliwych stanów natury z różnym prawdopodobieństwem) 28 Pα - wybór, Pβ - klasyfikacja, Pγ -porządkowanie Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ Pα Pβ Pγ D 1 m 1 1 m m 1 m K 1 1 n 1 n 1 n n R 1 1 1 ryz 1 ryz ryz ryz Optymalizacja Klasyfikacja Porządkowanie Rozwiązanie jest „filozoficznie” proste Teoria społecznego wyboru (TSW) Wielokryterialne podejmowanie decyzji (WPD) Podejmowanie decyzji w warunkach ryzyka (PDR) Zachodzi konflikt między wymiarami D, K, R, wobec czego problem na tym etapie nie ma rozwiązania (ill-posed problem) 29 Równoważność wielowymiarowych problemów decyzyjnych Teoria społecznego wyboru Wielokryterialne podejmowanie decyzji Podejmowanie decyzji w warunkach ryzyka Element zbioru A (alternative) Kandydat (candidate) Wariant decyzyjny (action) Akt (act) Wymiar przestrzeni ocen (performance) Wyborca (voter) Kryterium (criterion) Prawdopodobieństwo konsekwencji (probability of outcome) Relacja dominacji Relacja dominacji Obiektywna (dominance) (dominance) informacja o wyniku porównania elementów z A Relacja dominacji stochastycznej (stochastic dominance) 30 TSW WPD Wyborcy PDR Kryteria Pr. konsekwencji Kand. V1 V2 Wariant Czas Koszt a 3 1 a 3 1 a 0.7 0.6 b 1 2 b 1 2 b 1.0 0.5 c 2 3 c 2 3 c 0.8 0.4 V1 : b f c f a V2 : a f b f c ● niezdominowany ● zdominowany Koszt V2 c● 3 2 2 a● 1 2 3 Zysk>Z2 .6 .5 .4 b● 1 V1 Z1 < Z2 c● 3 b● 1 Akt Zysk>Z1 Zysk>Z2 a● 1 2 3 Czas ●a ●c ●b .7 .8 1 Zysk>Z1 31 Modele preferencji – podstawy aksjomatyczne Trzy grupy modeli preferencji: Funkcja użyteczności (wartości), np. addytywna U (a ) = ∑ n u i =1 i [g i (a )] (także multiplikatywna, asocjatywna, całka Choquet lub Sugeno, OWA, OWM...) System relacyjny, np. relacja przewyższania S lub relacja rozmyta, aSb = “a jest co najmniej tak dobry jak b” Zbiór reguł decyzyjnych, np. “Jeżeli gi(a)≥ri i gj(a)≥rj i ... gh(a)≥rh, to a → Klasa t lub wyższa” “Jeżeli ∆i(a,b)≥ri i ∆j(a,b)≥rj i ... ∆h(a,b)≥rh, to aSb” W wyniku badań podstaw aksjomatycznych tych modeli udowodniono, że model preferencji w postaci reguł decyzyjnych jest najogólniejszym modelem preferencji, a najogólniejsza nawet funkcja użytecznośći, w tym całki Sugeno i Choquet, oraz relacja przewyższania istnieją wtedy i tylko wtedy, gdy istnieje model regułowy 32 33 Kierunki dalszych badań Algorytmiczny Procedury indukcji reguł decyzyjnych i drzew decyzyjnych Testowanie procedur na danych rzeczywistych Aksjomatyzacyjny Badanie podstaw aksjomatycznych metod stosowanych w ISWD Metodologiczny Badanie baysowskich miar konfirmacji i zastosowanie ich do oceny reguł decyzyjnych Metodyka indukcji reguł gradualnych według modelu „fuzzy-rough” i wnioskowanie przybliżone z udziałem tych reguł Wdrożeniowy Implementacja systemów wspomagania decyzji opartych na modelu regułowym – np. system MET dla medycyny 34 DRSA – example of technical diagnostics 176 vehicles (objects) 8 attributes with preference scale decision = technical state: 3 – good state (in use) 2 – minor repair 1 – major repair (out of use) all criteria are semantically correlated with the decision inconsistent objects: 11, 12, 39 35 36 37 38