Reprezentacja wiedzy niepewnej

Transkrypt

Reprezentacja wiedzy niepewnej
Reprezentacja niepewności w wiedzy w systemach
ekspertowych
Agnieszka Nowak
7 czerwca 2008
1 Niepewność w wiedzy - reprezentacja wiedzy niepewnej w bazach wiedzy
Niepewność może występować zarówno w faktach jak i w regułach. Do rozwiązania problemu niepewności w bazach wiedzy wykorzystuje się:
• prawdopodobieństwo zajścia jakiegoś zdarzenia (faktu). Wykorzystuje się
w tym celu twierdzenie Bayes’a, określające prawdopodobieństwo warunkowe. Jest to oczywiście prawdopodobieństwo zajścia zdarzenia A pod
warunkiem zdarzenia B - co odpowiada prostej regule ”Jeżeli B to A”,
którego ogólna postać wygląda następująco:
P(A/B) =
P(B/A) ∗ P(A)
P(B)
i oznacza, że stwierdzenia A może być uznane jako prawdziwe wtedy, kiedy
stwierdzenie B jest uznane jako prawdziwe. Znajomość prawdopodobieństwa warunkowego pozwala na realizację procesów wnioskowania, które
polegają na rozpatrywaniu prawdopodobieństwa stwierdzeń traktowanych
jako pewne hipotezy. Aby np. określić prawdopodobieństwo faktu, że dany student ma przyznane stypendium, przy założeniu, że nie posiadamy
żadnej wiedzy na ten temat, zgodnie z teorią prawdopodobieństwa musimy określić zdarzenia elementarne dotyczące badanej dziedziny. Zatem
jeśli założymy, że istnieją tylko dwa elementarne zdarzenia D = {α, β},
gdzie odpowiednio: α - to zdarzenie polegające na tym, że dany student
ma przyznane stypendium, β - to zdarzenie polegające na tym, że dany student nie ma przyznanego stypendium, to wykorzystując rachunek
prawdopodobieństwa możemy stwierdzić, że prawdopodobieństwo zajścia
zdarzenia α jest równe prawdopodobieństwu zajścia zdarzenia β i wynosi
P(α) = P(β) = 12 . Dostosowując się do wzoru Bayes’a, w przypadku, gdy
mamy dwa fakty:
A - jeżdżę na rowerze, oraz B - jest ładna pogoda, gdzie P(A) = 0, 2 i
P(B) = 0, 4 oraz równocześnie w bazie wiedzy istnieją reguły :
1
R1 : Jeżeli jest ładna pogoda to jeżdżę na rowerze - co po prostu oznacza
P(A/B)
R2 : Jeżeli jeżdżę na rowerze to jest ładna pogoda - co odpowiednio oznacza P(B/A),
to znając prawdopodobieństwo zajścia zdarzenia B pod warunkiem A, tzn.,
gdy wiemy, że P(B/A) = 0, 8, możemy także określić prawdopodobieństwo
zajścia zdarzenia A pod warunkiem B. Korzystając z wzoru Bayes’a otrzymujemy wartość P(A/B) = [(0, 8 ∗ 0, 4)/0, 2] = 0, 4. Wzór ten pozwala nam
ustalić pewną hipotezę pod warunkiem, że znamy hipotezę przeciwną.
• zbiory przybliżone, gdzie wiedza pewna jest określona przez dolne lub
górne przybliżenie zbioru, a to, co znajduje się na brzegu reprezentuje
wiedzę niepewną (brzeg to różnica między górnym a dolnym przybliżeniem
zbioru),
• zbiory rozmyte, wchodzące w kolizję z klasyczną logiką, która oparta jest
na prawie wyłączonego środka ”tertium non datur”, oznaczającego, że
zdanie może być albo prawdziwe, albo fałszywe, że dany przedmiot może
należeć do zbioru lub nie. W przypadku zbiorów rozmytych owo trzecie
wyjście istnieje: przedmiot może bowiem należeć do zbioru w pewnym
tylko stopniu (a tym samym jednocześnie w określonym stopniu do niego nie należeć). Dlatego, w teorii zbiorów rozmytych niezwykle istotne są
właściwości charakteryzujące obiekty, gdyż to one decydują o przynależności tych obiektów różnych zbiorów obiektów. Właściwość (cecha) dobrze
określona wyznacza dla danego zbioru jednoznaczne granice oddzielające
elementy należące od nie należących do niego. Jeśli bowiem przyjmujemy, że U to przestrzeń rozważanych obiektów, zbiór taki będziemy mogli
określać przez funkcję f wyznaczającą przynależność obiektów do zbioru
fw : U → {0, 1}, gdzie w oznacza zbiór obiektów. Jeśli teraz oznaczymy
przez X zbiór odpowiadający pewnej właściwości, to funkcja przynależności określona jest następująco:
(
1 dla u ∈ X
fx (u) =
0 dla u < X
Niestety, istnieją takie właściwości, dla których trudno jest określić granicę rozdzielającą elementy spełniające tę właściwość od elementów jej nie
spełniających. W tym celu wykorzystuje się właśnie funkcję przynależności, która przekształca przestrzeń U w odcinek [0, 1]. Po prostu, zdanie
postaci: ”Prawdopodobieństwo chłodu w dniu 1 stycznia 2000 wynosi 60
%” znaczy co innego niż stwierdzenie ”Tego dnia jest chłodno w 60 %”.
Stosując logikę rozmytą możemy tym zdaniem wyrazić stopień naszego
przekonania o istniejących, rzeczywistych warunkach atmosferycznych, że
jest raczej zimno niż ciepło. Wnioskowanie rozmyte przebiegać powinno
zgodnie z algorytmem:
– wyznaczenie wartości funkcji f dla poszczególnych pojęć rozmytych
występujących w warunkach reguł,
2
– wyznaczenie obszarów rozmytych na podstawie wartości obliczonych
w punkcie pierwszym,
– zestawienie obszarów rozmytych,
– wyznaczenie wynikowego obszaru rozmytego,
– dokonanie defuzyfikacji wynikowego obszaru rozmytego, czyli zamiany tego zbioru na pewną wartość liczbową.
• współczynnik CF,
Współczynnikiem pewności CF (ang. Certainy Factor) obarczone mogą
być zarówno fakty jak i reguły. Zapis:
< student, srednia ocen, wysoka, CF = 0.5 >
określa, że nie wiemy na pewno, że tak jest w rzeczywistości, wiemy natomiast, że stopień pewności wynosi 0, 5. Występowanie CF zarówno w
przesłance jak i w konkluzji wpływa na całą regułę, na jej pewność, gdyż
ostateczny CF jest iloczynem CF w przesłance i w konkluzji. Zatem zapis stwierdzeń niepewnych (hipotez, przypuszczeń), uzupełniający każdą
trójkę < O, A, V > o stopień pewności CF (ang.: Certainty Factor), powoduje, że ostatecznie ta metoda reprezentacji wiedzy ma postać czwórki:
< O, A, V, CF >.
W takim przypadku zapis postaci < student, przyznane stypendium, tak, 0.8 >
oznaczać ma po prostu fakt, że dany student ma przyznane stypendium
ze stopniem pewności CF = 0.8. Wielkość ta ma określać stopień naszego
przekonania o prawdziwości konkluzji danej reguły w przypadku prawdziwości jej przesłanki. Taki sposób przetwarzania wiedzy niepewnej w
obrębie regułowej reprezentacji wiedzy stanowi dość istotny problem i jako taki nie jest raczej stosowany. Powodem tego jest fakt, iż współczynnik
pewności jest oszacowaniem ilościowym o zbyt małym stopniu ekspresji.
• teoria Dempstera-Sheffera,
W teorii Dempstera - Sheffera wprowadza się tzw. funkcję wiarygodności
oraz współczynnik pozornej słuszności. Wprowadzone tu zostało pojecie
przestrzeni U, a stwierdzenia są rozpatrywane jako pewne podzbiory w tej
przestrzeni. Przestrzeń U rozpatrywana jest jako zbiór wszystkich możliwych wartości zmiennej x. Wówczas każdemu stwierdzeniu typu: Prawdopodobna wartość zmiennej x zawarta jest w zbiorze A, gdzie A ⊂ U (A
jest podzbiorem U), może być przyporządkowany pewien współczynnik
wiarygodności zwany stopniem wiarygodności. Wówczas, funkcję wiarygodności otrzymujemy jako sumę wszystkich wiarygodności liczb m(B) po
wszystkich podzbiorach, gdzie liczba m(B) to elementarna liczba prawdopodobieństwa będąca miarą stwierdzenia, że prawdziwa wartość x jest
podzbiorem
P A.
Bel(A) = B∈A m(B)
Inaczej mówiąc, w sytuacji, gdy jest zbiorem wszystkich podzbiorów
zbioru U, to funkcja wiarygodności jest definiowana w najogólniejszy sposób jako: Bel : → [0, 1] i spełnia założenia: Bel(∅) = 0 oraz Bel(U) = 1.
Generalnie wiarygodność jest liczbą ze zbioru [0, 1].
3
Funkcja wiarygodności służy do określenia stopnia wiarygodności: Dou(A) =
Bel(¬A).
Z kolei dopełnienie stopnia wątpliwości do 1 to inaczej stopień pozornej
słuszności, co zapisujemy jako:
Pl(A) = 1 − Dou(A) = 1 − Bel(¬A).
Zatem, w sytuacji, gdy przy pełnej niewiedzy mamy za zadanie określić
na ile prawdopodobne jest zajście zdarzenia polegającego na tym, że dany
student ma lub nie ma przyznanego stypendium, gdzie odpowiednio α i β
to zdarzenia elementarne, w sytuacji gdy konkluzją jest β, współczynniki
Dempstera - Sheffera będą wynosiły:
– Bel(α) = Bel(β) = 0, ponieważ obydwa zdarzenia są równie niewiarygodne,
– P(α) = P(β) = 1/2, gdyż prawdopodobieństwo zajścia któregokolwiek
z nich jest takie samo przy pełnej niewiedzy,
– Pl(α) = Pl(β) = 1, ponieważ pozornie słuszne są obydwa fakty,
– Dou(α) = Dou(β) = 0, ponieważ obydwa zdarzenia są równie wątpliwe.
W tym konkretnym przypadku, wiarygodność faktów jest zawsze taka sama, niezależnie od wprowadzonych zdarzeń elementarnych.
2 Przetwarzanie wiedzy niepewnej - wybrane metody
Przedstawione do tej pory metody reprezentacji wiedzy zakładały pewność i
zupełność informacji przechowywanych w bazach wiedzy. Niestety w warunkach
rzeczywistych często trudno jest arbitralnie stwierdzić, że dana konkluzja jest
pewna w stu procentach czy też określić, że dany fakt na pewno miał miejsce.
Prowadzi to do konieczności uwzględnienia w metodach reprezentacji wiedzy
pewnego sposobu określania stopnia pewności informacji. Osobnym zagadnieniem jest problematyka przetwarzania wiedzy niepełnej co nie jest jednak tematem tego opracowania.
Rozważmy następujący przykład ilustrujący warunki stosowalności wiedzy
niepewnej. Załóżmy, że zadaniem inżyniera wiedzy jest dobór właściwej reprezentacji wiedzy dla następującego fragmentu wiedzy medycznej, która będzie
zapisana w bazie wiedzy przyszłego systemu ekspertowego wspomagającego diagnozę w przypadku chorób serca:
”Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi
to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach,
co może wywołać niedotlenienie mięśnia sercowego, zwłaszcza przy
wysiłku fizycznym”.
4
Zwraca uwagę nieostrość stwierdzeń spowodowana stosowaniem przysłówków
często, zazwyczaj, czy określeniem może powodować. Wykorzystując reprezentacje wiedzy w postaci rachunku perceptów czy predykatów (czy np. reguł w
postaci klauzul Horna bez współczynnika CF) inżynier wiedzy zmuszony byłby
do przekształcenia powyższego zdania do ścisłej formy umożliwiającej zastosowanie klarownych implikacji:
”Miażdżyca powoduje zwężenie tętnic wieńcowych. Prowadzi to do
zmniejszenia przepływu krwi w tych naczyniach, co wywołuje niedotlenienie mięśnia sercowego, zwłaszcza przy wysiłku fizycznym”.
Niestety prowadzi to do znacznej radykalizacji prezentowanych stwierdzeń oraz
potencjalnych problemów z odwzorowaniem ostatniej części zdania. Najważniejszą wadą jest uniemożliwienie przywiązania różnych wag do poszczególnych
symptomów. Lekarz bowiem jest zainteresowany informacjami o dużo subtelniejszej naturze niż stwierdzenie, że pacjent z miażdżycą ma niedotleniony mięsień
sercowy (co wydaje się oczywiste lecz nie zawsze prawdziwe). Kardiolog może
oczekiwać od przyszłego systemu ekspertowego, że będzie ”umiał” on odpowiedzieć np. na pytania:
• jaki ma wpływ wysiłek fizyczny na niedotlenienie mięśnia sercowego u
ludzi z jednakowo posuniętą miażdżycą, wykonujących wysiłek fizyczny o
różnym natężeniu?
• w jakim stopniu człowiek u którego nie występuje niedotlenienie z powodu
wysiłku, narażony jest na zwężenie tętnic z powodu miażdżycy?
Zauważmy, że kardiologa nie interesuje wyłącznie występowanie pewnej cechy
(atrybutu) a głównie pewna miara np. częstości czy stopnia występowania danej
cechy. Powoduje to, że nie możemy ograniczyć się do cech mających charakter
dwuwartościowy (np. cecha występuje lub cecha nie występuje) lecz dokonać
w pewien sposób dyskretyzacji wartości danej cechy lub określić inny sposób
stopniowania natężenia w jakiej ona występuje .
Istnieją różne podejścia umożliwiające odwzorowanie przykładowego fragmentu wiedzy medycznej w swej pierwotnej postaci oraz umożliwiające realizację procesu wnioskowania również w przypadku postawionych poprzednio pytań. Podejścia te opierają się zwykle na metodach numerycznych. Do najważniejszych należą tutaj metody probabilistyczne, wielowartościowe, rozmyte czy
wykorzystujące teorię Dempstera-Shafera.
Pierwszym etapem automatyzacji przetwarzania informacji niepewnej jest
ustalenie konkretnej metody przydzielania i stopniowania niepewności informacji wchodzących w skład bazy wiedzy. W potoczym określaniu niepewności używa się pewnych arbitralnie przyjętych określeń, takich jak : prawdopodobny,
możliwy, konieczny, wiarygodny, częsty, zwykle spotykany itp.Określenia te w
każdej ze wspomnianych metod nabierają konkretnego wymiaru, zwykle o przekonywującej interpretacji matematycznej.
Drugim etapem jest określenie metody wnioskowania uwzględniającej zagadnienie propagacji niepewności informacji. Załóżmy, że do określenia stopnia pewności faktów jak i hipotez użyjemy oszacowania procentowego. Jeżeli u danego
5
pacjenta lekarz stwierdzi miażdżycę pewną na 30% oraz wpływ miażdżycy na
potencjalne niedotlenienie określi wartością 40%, to hipoteza, że pacjent ten
ma niedotlenienie mięśnia sercowego, posiada pewien wynikowy stopień pewności będący wynikiem nie tylko stopnia pewności implikacji lecz również stopnia
pewności obserwacji, że pacjent cierpi na miażdżycę. Mówi się zatem o propagacji niepewności informacji, a zagadnienia sposobu składowania i kumulowania
niepewności w trakcie wnioskowania są przedmiotem sygnalizowanych metod
modelowania wiedzy niepewnej.
2.1 Podejście probabilistyczne - teoria Bayesa
Zastosowanie teorii prawdopodobieństwa do reprezentacji wiedzy niepewnej wydaje się stosunkowo oczywiste. Już wspominane wcześniej określenia w postaci
prawdopodobnie, najczęściej itp. skłaniają do wykorzystania rachunku prawdopodobieństawa. Niezależnie od przyjętej definicji prawdopodobieństwa (tzw.
częstotliwościowa, aksjomatyczna), liczba reprezentująca prawdopodobieństwo
odzwierciedla jedynie wiedzę obserwatora o świecie, nie oddaje więc prawdopodobieństwa obiektywnego.
2.1.1 Reprezentacja wiedzy
Punktem wyjścia dla różnych metod probabilistycznych jest twierdzenie Bayesa.
Załóżmy, że mamy zbiór wzajemnie wyłączających się hipotez:
H = {h1 , . . . , hn },
dla których jest spełnione
P(hi ) > 0, i = 1, 2, . . . , n.
Mamy również do dyspozycji zbiór obserwacji
E = {e1 , . . . , em }.
Każdy fragment obserwacji ei jest niezależny warunkowo względem każdej hipotezy.
Rozważmy przykład w którym n = m = 1. Mamy zatem jedną obserwację e
oraz jedną hipotezę h. Załóżmy, że interesuje nas związek przyczynowo skutkowy
pomiędzy obserwacją e a hipotezą h reprezentowany przez regułę:
Jeżeli e To h
co może być przedstawione graficznie (rysunek 1):
89:;
?>=<
e
?>=<
/ 89:;
h
Obserwacja e oraz hipoteza h są reprezentowane przez wierzchołki grafu, natomiast natomiast wnioskowanie przez krawędź. Rozpatrywana reguła może być
6
rozpatrywana w modelu Bayesa następująco:
P(h|e) =
P(e|h)P(h)
P(e)
Powyższy wzór jest szczególnym przypadkiem wzoru Bayesa, który w jednej ze
swych postaci może być podany następująco:
Qm
P(hi )P(e1 , . . . , em |hi )
j=1 P(e j |hi )
P(hi )
= Pn Qm
P(hi |e1 , . . . , em ) = Pn
j=1 P(e j |hk )P(hk )
k=1 P(e1 , . . . , em |hk )P(hk )
k=1
co uzyskujemy wykorzystując założoną uprzednio warunkową niezależność każdej obserwacji ei względem każdej hipotezy, co można opisać wzorem:
P(e1 , . . . , em |hi ) =
m
Y
P(e j |hi ), dlai = 1, . . . , n
j=1
Powyższe wzory zostały podane w celach informacyjnych, ich rodowód oraz
interpretacja nie są tematem ćwiczeń. W warunkach rzeczywistych nigdy nie
występuje jedna reguła, zatem również zamiast prostego grafu z jedną krawędzią
i dwoma wierzchołkami otrzymamy sieć. Taka sieć nazywana siecią wnioskowań
może mieć następującą postać:
?>=<
89:;
a 1 RRR
11 RRRR
RRR
11
RRR
11
RRR
RRR
?>=<
89:;
?>=<
?>=<
/ 89:;
/ ( 89:;
E
b
d<
<<
<<
<<
<
89:;
?>=<
?>=<
89:;
?>=<
/ 89:;
c
F
G
gdzie: a, b, c, d to obserwacje, zaś E, F, G to hipotezy.
Sieć wnioskowań przedstawiona powyżej może być opisana zgodnie z konwencją
opisu grafów. Aby zdefiniować graf zwykle podaje się zbiór jego wierzchołków
oraz zbiór jego krawędzi. Każdy wierzchołek reprezentuje obserwację lub hipotezę, każda krawędź jest określona w ten sposób, że podaje się dla niej informacje
o wierzchołkach które dana krawędź łączy, oraz ewentualnie dla grafów skierowanych informację o kierunku krawędzi.
Załóżmy, że G będzie grafem określonym zbiorem wierzchołków N i krawędzi
E. Załóżmy, również że dany jest zbiór prawdopodobieństw warunkowych CP.
Elementami tego zbiory są prawdopodobieństwa opisujące poszczególne krawędzie grafu (patrz rys. 1 i jego interpretacja). Prawdopodobieństwa te opisują
prawdopodobieństwo przejścia od jednego wierzchołka grafu np. b do c.
7
2.1.2 Definicja sieci Bayesowskiej
Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę: B = {N, E, CP}, gdzie
dwójka {N, E} jest zorientowanym grafem acyklicznym zbudowanym na podstawie zadanych prawdopodobieństw warunkowych zawartych w zbiorze CP. Inaczej mówiąc:
Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych
zachodzących między elementami zbioru obserwacji i hipotez. Stosując twierdzenie Bayesa, można dokonywać zarówno wnioskowania
progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).
2.1.3 Przykład syntezy sieci Bayesa
Załóżmy, że dany jest zbiór pewnych zmiennych identyfikujących obserwacje i
hipotezy. Przyjmijmy również, że nie jest dla nas w tym momencie ważne, które elementy tego zbiory są obserwacjami a które hipotezami. Niech zbiór tych
zmiennych ma następującą postać:
Z = {A, B, C, D, E, F, G, H}
Dane są również informacje opisujące związki przyczynowo-skutkowe pomiędzy
tymi zmiennymi w postaci zbiory prawdopodobieństw warunkowych CP:
CP = {P(A), P(B|A), P(C|B), P(C|F), P(D|C), P(E|CH), P(F|G), P(G), P(H|G)}
Na podstawie tych informacji możemy zbudować następujący graf skierowany,
który po uzupełnieniu zbiorem konkretnych wartości prawdopodobieństw warunkowych opisuje sieć Bayesa:
B = {N, E, CP}
co można przedstawić graficznie:
89:;
?>=<
G
333
33
33
89:;
?>=<
?>=<
89:;
89:;
?>=<
B3
F
H
33
33
33
89:;
?>=<
C II
I
II
II
II
II I$
?>=<
89:;
89:;
?>=<
D
E
?>=<
89:;
A
Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących pomiędzy elementami zbioru obserwacji i hipotez. Stosując twier8
dzenie Bayea, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).
2.2 Metoda współczynników pewności CF
Celem ćwiczeń jest przedstawienie koncepcji rozszerzenia modelu reprezentacji wiedzy w postaci reguł produkcji o współczynniki pewności CF oraz zarys
metody wnioskowania w systemie reguł produkcji z uwzględnieniem wiedzy niepewnej.
2.2.1 Reguły produkcji ze współczynnikiem pewności CF
Prezentowana w poprzedniej części metoda reprezentacji i przetwarzania wiedzy
niepewnej ma charakter wybitnie numeryczny. Zarówno struktura sieci Bayes’a
jak również metody wnioskowania oparte są całkowicie o metody probabilistyczne (czy podobne jak np. teoria Dempster’a-Shafer’a). Istnieje kilka wad tych
metod, dotyczą one zarówno kwestii teoretycznych jak również zagadnień związanych z programową realizacją probabilistycznego systemu ekspertowego. Jako
przykład podać można umiarkowaną zdolność do generowania objaśnień (ang.
explanations) procesu wnioskowania powodowaną wybitnie numerycznym jego
charakterem. Istotnymi problemami są również zagadnienia związane np. ze złożonością obliczeniową jak również pamięciową procesu wnioskowania.
Inną metodą reprezentacji i przetwarzania wiedzy niepewnej jest rozszerzenie systemu reguł produkcji o współczynniki pewności CF (ang. certainty
factor). Metoda ta zwana jest metodą współczynników pewności lub modelem
MYCIN. Ostatnia nazwa pochodzi od systemu ekspertowego MYCIN, który był
jednym z wczesnych i najbardziej znanych praktycznie wykorzystywanych systemów ekspertowych. Metoda współczynników pewności zakłada rozszerzenie
modelu regułowego o pewne numeryczne oszacowanie stopnia pewności eksperta o prawdziwości danej reguły czy też faktu. Taka rozszerzona reguła może
mieć następującą postać:
Jeżeli e1 &e2 &...&en To h ze stopniem pewności CF
gdzie e1 , e2 , . . ., en to przesłanki reguły a h to konkluzja, & to operator
logiczny And.
Takie podejście nie wydaje się czymś specjalnie zaskakującym, w istocie prezentowane wcześniej (w poprzedniej części) prawdopodobieństwo warunkowe niosło
podobną informację. Inna jest jednak koncepcja wnioskowania oraz reprezentacji
współczynnika CF.
W systemach zbliżonych do modelu MYCIN wnioskowanie odbywa się w
sposób klasyczny, z wykorzystaniem interpretera reguł produkcji, który np. w
systemie MYCIN pracuje w trybie wnioskowania wstecz. W trakcie tego procesu niepewność jest uwzględniana w kolejnych krokach wnioskowania poprzez
obliczenie współczynnika pewności poszczególnych konkluzji. Proces ten ma jednak charakter pomocniczy i to nie on steruje procesem wnioskowania, główną
9
rolę odgrywa tutaj interpreter reguł. Innymi słowy, przetwarzanie niepewności
jest tutaj procesem równoległym, mającym na celu określenie stopnia pewności
konkluzji generowanych przez interpreter reguł. Przypomnijmy, że w systemach
Bayes’owskich (i podobnych) to mechanizm przetwarzania wiedzy niepewnej decydował o konkluzji i określał pewne numeryczne oszacowanie jej pewności (w
postaci prawdopodobieństw czy np. Dempster’owko-Shafer’owskich mas).
Również współczynnik pewności CF nie jest tutaj bezpośrednio rozumiany jako klasyczne prawdopodobieństwo. Jak podają autorzy systemu MYCIN,
Shortliffe i Bachman, współczynnik pewności jest chwytem pozwalającym połączenie stopnia wiedzy oraz niewiedzy i odwzorowanie ich w postaci jednej liczby.
Do odwzorowania wiedzy służy współczynnik MB zwany miarą wiarygodności
(ang. measure of belief), do opisania niewiedzy służy zaś współczynnik MD zwany miarą niewiarygodności (ang. measure of disbelief). Ponieważ współczynnik
CF wiązany jest z regułą , również współczynniki MB i MD są wiązane z regułą.
Załóżmy, że dana jest reguła:
Jeżeli e to h.
Współczynniki dla takiej reguły będą określone odpowiednio MB(h, e), MD(h, e),
CF(h, e). Współczynnik CF(h, e) jest zdefiniowany jako różnica pomiędzy miarą
wiarygodności a miarą niepewności:
CF(h, e) = MB(h, e) − MD(h, e)
Interpretacja miar wiarygodności i niewiarygodności (w powiązaniu z prawdopodobieństwem warunkowym) może być następująca:
• jeżeli P(h|e) = 1 to h jest prawdziwe na pewno, wtedy MB(h, e) = 1,
MD(h, e) = 0, oraz CF(h, e) = 1,
• jeżeli P(¬h|e) = 1 to h jest fałszywe na pewno, wtedy MB(h, e) = 0,
MD(h, e) = 1, oraz CF(h, e) = −1,
• jeżeli P(h|e) = P(h) to h co znaczy, że h i e są niezależne, wtedy MB(h, e) = 0,
oraz MD(h, e) = 0, CF(h, e) = 0.
Powyższe zależności można przedstawić w bardziej zwartej postaci:


1
P(h) = 1



 MB(h, e)
P(h|e)
> P(h)



0
P(h|e)
=
P(h)
CF(h|e) = 



−MD(h,
e)
P(h|e)
<
P(h)



 −1
P(h) = 0
Wartość współczynnika CF należy zatem do przedziału od [−1, +1]. Dodatnie
wartości odpowiadają wzrastaniu wiarygodności hipotezy, natomiast ujemne odpowiadają zmniejszaniu się wiarygodności.
10
2.2.2 Propagacja niepewności w modelu współczynników pewności
Wnioskowanie w modelu współczynnika pewności CF (w rozszerzonym modelu reguł produkcji ) odbywa się w oparciu o działanie interpretera reguł. Dla
przypomnienia, można ten proces skrótowo omówić następująco:
• Proces wnioskowania jest inicjowany przez użytkownika systemu.
• W trybie wnioskowania wstecz, określa on cel wnioskowania, tzn. hipotezę
której prawdziwość ma być dowiedziona, w trybie wnioskowania do przodu
poszukuje się konkluzji jaką można wywieść ze znanych faktów.
• Rozpoczęciu wnioskowania towarzyszy zwykle ustalenie pewnych faktów
inicjujących proces wnioskowania. Fakty te zwykle odpowiadają obserwacjom, które skłoniły użytkownika do konsultacji z systemem ekspertowym.
• Fakty są składowane w pamięci podręcznej interpretera reguł (ang. working memory) zwanej także często globalną bazą danych.
• Interpreter określa regułę lub reguły, które mogą być w danych warunkach
zastosowane (min. w oparciu o zawartość pamięci podręcznej), wybiera
jedną z nich i wykonuje.
• Efekt zastosowania danej reguły prowadzi zwykle do modyfikacji zawartości pamięci podręcznej, polegającej np. na dopisaniu nowych faktów ustalonych w trakcie wnioskowania.
• Proces doboru i wykonywania reguł jest powtarzany tak długo aż hipoteza
zostanie potwierdzona (wnioskowanie wstecz) lub zostanie wyprowadzona
konkluzja (wnioskowanie do przodu) bądź ani jedno ani drugie nie może
być osiągnięte.
W czasie wnioskowania następuje zatem zjawisko przechodzenia od reguły do
reguły, czego efektem jest jest budowa drzewa wywodu odwzorowującego wybrane i uaktywnione reguły oraz ich kolejność. W trakcie tego procesu nastąpić
musi równoległy proces obliczania współczynników pewności. W trakcie tego
procesu dochodzi do propagowania niepewności co jest wynikiem odpowiednich
złożeń jakim podlega współczynnik CF w trakcie budowy drzewa wywodu.
Należy zwrócić wagę na to, że również fakty mogą posiadać swój współczynnik pewności, który ma odwzorowywać przekonanie użytkownika systemu
o pewności danej obserwacji. Fakty te zwykle wchodzą w skład przesłanki (nazwijmy ją e) pewnej reguły, którą umownie nazwiemy R. Sama reguła R też
posiada współczynnik pewności CF.
Jeżeli e to h ze stopniem pewności CF
Konkluzja (niech nazywa się ona h) reguły R jest zatem obarczona niepewnością wynikającą zarówno z niepewności faktu w chodzącego do przesłanki e jak
11
również współczynnika CF samej reguły R. Końcowy współczynnik pewności
wyznaczany jest w następujący sposób:
CF(h, e) = CF(e) ∗ CF(h)
gdzie:
CF(e) to współczynnik pewności przesłanki,
a CF(h) to współczynnik pewności reguły R.
W przypadku gdy przesłanka reguły zawiera wyrażenie zawierające operator
AND (&) :
Jeżeli e1&e2 to h ze stopniem pewności CF
to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób:
CF(h, e1&e2) = Minimum{CF(e1), CF(e2)} ∗ CF(h)
W przypadku gdy przesłanka reguły zawiera wyrażenie zawierające funktor OR
(|) :
Jeżeli e1 | e2 to h ze stopniem pewności CF
to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób:
CF(h, e1|e2) = Maksimum{CF(e1), CF(e2)} ∗ CF(h)
W przypadku, gdy jedna hipoteza h jest konkluzją więcej niż jednej reguły:
Jeżeli e1 to h
Jeżeli e2 to h
co ilustruje rysunek:
?>=<
89:;
e1
?>=<
/ 89:;
h
E
89:;
?>=<
e2
współczynnik pewności można obliczyć ze wzoru:


CF(h, e1 ) + CF(h, e2 ) − CF(h, e1 ) ∗ CF(h, e2 )


 CF(h, e ) + CF(h, e ) + CF(h, e ) ∗ CF(h, e )
1
2
1
2
CF(h, e1 , e2 ) = 


CF(h,e1 )+CF(h,e2 )

1−min{(|CF(h,e1 )|)(|CF(h,e2 )|)}
W przypadku połączenia ”szeregowego” reguł:
Jeżeli e1 to e2
Jeżeli e2 to h
12
CF(h, e1 ), CF(h, e2 ) > 0
CF(h, e1 ), CF(h, e2 ) < 0
CF(h, e1 ) ∗ CF(h, e2 ) < 0
co można przedstawić graficznie:
?>=<
89:;
e1
?>=<
/ 89:;
e2
?>=<
/ 89:;
h
obowiązuje następujący wzór:
CF(h, e1 ) = CF(e2 , e1 ) ∗ CF(h, e2 )
Metoda obliczania współczynnika pewności CF doczekała się wielu modyfikacji.
Różni autorzy podają własne interpretacje metod obliczania i propagacji tego
współczynnika, metoda przedstawiona w tym opracowaniu jest zatem jedną z
możliwych.
Zastosowanie przedstawionych wyżej formuł ilustruje przykład nr 1. Zawiera on przykładową sieć wnioskowania oraz współczynniki pewności dla węzłów
e1 , . . . , e5 . W poszczególnych krokach dokonano redukcji sieci tak aby obliczyć
współczynnik pewności hipotezy h. Przykład ten ma charakter wybitnie numeryczny.
2.2.3 Podsumowanie
Model współczynnika pewności CF ma szereg zalet polegających głównie:
• na prostocie i łatwości w interpretacji,
• powiązaniu z najbardziej popularną reprezentacją wiedzy w postaci reguł
produkcji,
• stosunkowo łatwymi obliczeniami nie obciążającymi czasowo ani pamięciowo.
Jednak posiada on również szereg wad. Najwięcej krytyki dotyczy mało stabilnej
podbudowy teoretycznej, bardzo luźnego związku z teorią prawdopodobieństwa.
Udowodniono wyraźne rozbieżności pomiędzy wynikami wnioskowania czysto
probabilistycznego a w oparciu o model CF.
Dodatkowo metodzie tej zarzuca się to, że pojedynczy współczynnik CF
jest zbyt słabym narzędziem do odwzorowania wiedzy i niewiedzy. Przykładem może być wartość CF = 0, co może oznaczać zarówno sytuacje w której współczynniki wiarygodności i niewiarygodności mają wartość równą zeru :
MB(h, e) = MD(h, e) = 0, jak również sytuacje w której współczynniki te mają
jednakowe wartości : MB(h, e) = MD(h, e) = 1 (pamiętajmy, że współczynnik
pewności jest równy różnicy tych wartości).
Inny problem pojawia się w przypadku gdy ekspert budujący bazę wiedzy nie
jest w stanie podać pojedynczej wartości liczbowej, lecz powie raczej, że w przypadku prawdziwości określonej przesłanki dana reguła będzie prawdziwa na co
jest szansa wahająca się od 40% do 60%. W takich przypadkach trzeba dokonać
decyzji o wyborze pojedynczej liczby, może to być kres dolny lub górny przedziału lub jedna z wartości charakterystycznych z wnętrza przedziału. Można
zaprezentować na konkretnych przykładach jak bardzo może zmieniać się wynikowy współczynnik pewności konkluzji wraz ze zmianą wartości-reprezentanta
takiego przedziału.
13
2.3 Przykład nr 1.
Przykładowa sieć wnioskowania oraz wartości współczynników CF. Kolejne rysunki prezentują kolejne kroki obliczania wynikowego współczynnika pewności
hipotezy h.
0.6 / 89:;
?>=<
?>=<
?>=<
?>=<
89:;
e2 0.5 / 89:;
e
e1 0.9 / 89:;
Ah
@ 4
−0.2 0.5
89:;
?>=<
89:;
?>=<
e3
e5
CF(e4 , e1 , e2 ) = CF(e2 , e1 ) ∗ CF(h, e2 ) = 0.9 ∗ 0.5 = 0.45
@ABC
GFED
e1 e2
0.6 / 89:;
?>=<
?>=<
/ 89:;
e
h
? 4
~
A
~
~
~~
0.5
~~ −0.2
~
~
89:;
?>=<
89:;
?>=<
e3
e5
CF(e4 , e1 , e2 , e3 ) =
0.45
0.45 + (−0.2)
CF(e4 , e1 , e2 ) + CF(e4 , e3 )
=
1 − min{(|CF(e4 , e1 , e2 )|), (|CF(e4 , e3 )|)} 1 − min{(|0.45|), (| − 0.2|)}
=
0.25
0.25
0.25
=
=
= 0.3125
1 − min{0.45, 0.2} 1 − 0.2
0.8
XYZ[
_^]\
?>=<
e1 e2 e3 0.3125 / 89:;
e4
?>=<
/ 89:;
Ah
0.5
89:;
?>=<
e5
0.6
CF(h, e1 , e2 , e3 , e4 ) = CF(h, e4 ) ∗ CF(e4 , e1 , e2 , e3 ) = 0.3125 ∗ 0.6 = 0.1875
gfed
`abc
e1 e2 e3 e4 0.1875
?>=<
/ 89:;
h
z=
z
z
z
zz
zz 0.5
z
z
zz
89:;
?>=<
e5
CF(h, e1 , e2 , e3 , e4 , e5 ) = CF(h, e1 , e2 , e3 , e4 ) + CF(h, e5 ) − CF(h, e1 , e2 , e3 , e4 ) ∗ CF(h, e5 )
= 0.1875 + 0.5 − 0.1875 ∗ 0.5 = 0.6875 − 0.1875 ∗ 0.5 = 0.5937
gfed
`abc
e1 e2 e3 e4 e5
0.5937
14
?>=<
/ 89:;
h
3 Zadania z wiedzy niepewnej - sieci Bayes’a
1. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać
zbiór CP takich prawdopodobieństwa warunkowych oraz narysować graf
przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę
uzasadnić odpowiedź.
Jeżeli masz sporo pieniędzy, lubisz szybkie samochody i masz
małą rodzinę to stawiam 10 do 100, że kupisz mały, czerwony,
sportowy samochód. Ale jeśli masz sporo pieniędzy, lubisz szybkie samochody i masz sporo dzieci to kupisz na pewno kombi
z mocnym silnikiem. Jeżeli jesteś na stanowisku kierowniczym i
dbasz o prestiż to na 50 % kupisz sedana ze skórzaną tapicerką.
Jeżeli potrzebujesz jedynie wygodnego , prostego samochodu to
na pewno kupisz auto klasy kompaktowej. Jeżeli jest ci wszystko
jedno to na 30 % kupisz malucha.
Rozwiązanie
O - obserwacje:
• a - mała rodzina (mało dzieci),
• b - sporo pieniędzy,
• c - lubić szybkie samochody,
• e - spora rodzina (sporo dzieci),
• f - stanowisko kierownicze,
• h - posiadany prestiż,
• j - chęć wygodny i prostoty,
• k - obojętność.
H - hipotezy:
• D - czerwony, sportowy samochód,
• G - kombi,
• I - sedan ze skórzaną tapicerką,
• L - samochód kompaktowy,
• M - maluch.
CP = {P(D|a, c) = 0.1, P(G|b, e) = 1.0, P(I| f, h) = 0.5, P(L|j) = 1.0, P(M|k) = 0.3}
15
Reprezentacja graficzna:
89:;
?>=<
a---89:;
?>=<
b- -- -
--89:;
?>=<
c
89:;
?>=<
e
0.5 89:;
?/ >=<
I
89:;
?>=<
h
89:;
?>=<
k
?>=<
/ 89:;
G
1.0
89:;
?>=<
f
----
89:;
?>=<
j
?>=<
/ 89:;
D
0.1
1.0
0.3
89:;
?/ >=<
I
GFED
/ @ABC
M
Jak widać graf jest skierowany (dokładnie określone są kierunki wnioskowania), jest on acykliczny (gdyż nie zawiera żadnych cykli), zatem jest on
siecią Bayesa.
2. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać
zbiór CP takich prawdopodobieństwa warunkowych oraz narysować graf
przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę
uzasadnić odpowiedź.
Prawdopodobieństwo wystąpienia anginy w przypadku objawów
takich jak ból gardła i gorączka jest wysokie i wynosić może
0.8. Jednak wystąpienie gorączki i bólu głowy może świadczyć
16
o grypie, co jest hipoteza prawdopodobna na 0.6. W przypadku gdy pacjent cierpiący na grypę nie wyleczył się całkowicie
może dojść do zapalenia oskrzeli z prawdopodobieństwem 0.4.
Zapalenie oskrzeli może spowodować ból gardła z prawdopodobieństwem 0.3.
3. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać
zbiór CP takich prawdopodobieństw warunkowych oraz narysować graf
przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę
uzasadnić odpowiedź.
Prawdopodobieństwo awarii suportu roweru z powodu zawilgocenia wynosi 0.4, zabrudzenia 0.1, natomiast z powodu zużycia
0.3. Awaria suportu na pewno spowoduje większe opory w czasie jazdy. Awaria suportu może na 30% spowodować uszkodzenie mufy suportowej, to z kolei na 85% spowoduje konieczność
zakupu nowej ramy. Zabrudzenie na pewno wpłynie na nieprecyzyjną pracę przerzutek a także na 5% może spowodować wzrost
oporów w czasie jazdy. Wzrost oporów w czasie jazdy może spowodować z prawdopodobieństwem 0.35 awarię suportu.
4. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać
zbiór CP takich prawdopodobieństw warunkowych oraz narysować graf
przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę
uzasadnić odpowiedź.
Prawdopodobieństwo awarii tylniej przerzutki z powodu zawilgocenia wynosi 0.3, zabrudzenia 0.6, natomiast z powodu zużycia 0.7. Awaria tylniej przerzutki uniemożliwi jazdę na 40%.
Zawilgocenie i zabrudzenie na 70% spowodują przedwczesne wytarcie się klocków hamulcowych. Wytarte klocki na 20% uniemożliwią jadę. Prawdopodobieństwo awarii suportu roweru z powodu zawilgocenia wynosi 0.6 a zabrudzenia 0.3. Awaria suportu
na pewno uniemożliwi jazdę. Brak możliwości jazdy na rowerze
na 40% spowoduje spadek zainteresowania jego stanem technicznym, a to na pewno negatywnie wpłynie na jego czystość - czyli
na jego zabrudzenie.
5. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe
zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana
na podstawie posiadanych informacji.
Zbiory mają następującą postać;
O = {A, B, C, D, E}
17
H = {X, Y, Z}
CP = {P(A), P(B), P(C), P(D), P(E), P(C|A, B), P(X|C, D), P(Y|C, D), P(Z|E)}
6. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe
zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana
na podstawie posiadanych informacji.
Zbiory mają następującą postać;
O = {A, B, C, D, E}
H = {X, Y, Z}
CP = {P(A), P(B), P(C), P(D), P(E), P(X|A, B), P(C|X), P(Y|C, D, E), P(Z|C, E), P(B|Z)}
Czy otrzymana sieć jest rzeczywiście siecią Bayes’a?
7. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe
zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana
na podstawie posiadanych informacji.
Zbiory mają następującą postać;
O = {A, B, C, D, E, G}
H = {X, Y, Z, F}
CP = {P(A), P(B), P(D), P(E), P(F), P(G), P(D|B), P(X|A, B), P(F|G), P(C|X),
P(Y|C, D, E), P(Z|C, E), P(B|Z)}
Rozwiązanie - reprezentacja graficzna:
o
?>=<
89:;
?>=<
/ 89:;
BB
B1
D
BB
11
BB
11
B
?>=<
?>=<
?>=<
/ 89:;
/ 89:;
/ 89:;
F
X
C
Y
((
|>
|
|
(( ||
||((
?>=<
89:;
89:;
?>=<
/
E LL
A
((
LLL
LLL ((
LL(
?>=<
89:;
?>=<
?>=<
/ 89:;
/ 89:;
F
Z
G
Jak widać otrzymany graf jest skierowany, ale niestety jest cykliczny w
drodze wnioskowania:
?>=<
89:;
B
?>=<
/ 89:;
X
?>=<
/ 89:;
C
18
?>=<
/ 89:;
Z
?>=<
/ 89:;
B
, w związku z czym nie możemy powiedzieć, że otrzymany graf jest siecią
Bayesa.Widzimy też pewien odłamek w grafie:
89:;
?>=<
G
?>=<
/ 89:;
F
, który jest częścią naszej sieci, ale nie powiązaną w całością, jednak nie
ma w definicji sieci Bayesa warunku, aby graf był spójny.
19
4 Zadania z wiedzy niepewne - współczynniki pewności
CF
1. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewności dla
hipotezy e zakładając, że wszystkie przesłanki (a, , c, d, f, g) są prawdziwe.
(a) If a Then b With -0.2
(b) If c Then b With 0.1
(c) If d Then b With 0.2
(d) If b Then e With -0.4
(e) If f Then e With 0.4
(f) If g Then e With 0.1
2. Czy, przedstawiona niżej, wiedza zapisana z wykorzystaniem współczynników CF może być przedstawiona w postaci sieci Bayesa. Jeżeli nie to
dlaczego? Jeżeli tak to jak wyglądałaby taka sieć (graf i zbiór prawdopodobieństw) i czy spełnia założenia sieci Bayesa?
(a) if a= 1 and b=l then c= 1 with 1
(b) if d= I and e= 1 then c= 1 with -1
(c) if c = 1 and f= 1 then g = 1 with 0
(d) if g = I and h = 1 then g a = 1 with 1
3. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewności dla
hipotezy zdanie egazaminu zSE = możliwe zakładając, że wszystkie podanych poniżej reguł są spełnione.
(a) if zaliczenie = wpisane then iść na egazamin z SE = tak with 0.9
(b) if zadania = przerobione then iść na egazamin z SE = tak with 0.5
(c) if iść na egazamin z SE = tak then zaliczenie pisemnego = możliwe
with -0.5
(d) if zaliczenie pisemnego = możliwe then materiał z wykładu = opanowany with 0.9
(e) if materiał z wykładu = opanowany then zdanie ustnego = możliwe
with 0.8
(f) if zdanie ustnego = możliwe then zdanie egazaminu z SE = możliwe
with 0.9
4. Dla podanej poniżej bazy wiedzy obliczyć współczynnik pewności dla hipotezy: pogoda pod psem = tak zakładając, że wszystkie przesłanki poniższych reguł są spełnione.
(a) if pogoda = deszcz then wziąć parasol = tak with 05
20
(b) if pogoda = deszcz ze śniegiem then wząć parasol = tak with 0.5
(c) if pogoda = śnieg then wziąć parasol = tak with -0.5
(d) if wziąć parasol = tak then ubrać kalosze = tak with -0.9
(e) if zachmurzenie = słabe then ubrać kalosze = tak with 0.1
(f) if ubrać kalosze = tak then pogoda pod psem = tak with 0.9
5. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewnooeci dla
hipotezy zakladajac, że wszystkie przesłanki (a,b,c,d,e) są prawdziwe.
(a) If a Then b With 0.1
(b) If c Then b With 0.8
(c) If b Then d With 0.4
(d) If e Then d With 0.1
6. Dla podanej poniżej bazy wiedzy obliczyć współczynnik pewnooeci dla
hipotezy e zakładając, że wszystkie przesłanki (a, b, c, d) są prawdziwe.
(a) If a Then b With 0.1
(b) If c Then b With 0.2
(c) If d Then b With 0.1
(d) lf b Then e With 0.2
(e) If f Then e With 0.1
21

Podobne dokumenty