Sztuczne sieci neuronowe Plan wykładu Logika „ostra” a logika

Transkrypt

Plan wykładu
• Podstawy logiki rozmytej
– zbiory rozmyte
– operacje logiki rozmytej
– schemat systemu rozmytego
Sztuczne sieci neuronowe
Wykład 13: Sieci neuronowe o logice
rozmytej
• Sieci neuronowe o logice rozmytej
–
–
–
–
Małgorzata Kr towska
Katedra Oprogramowania
e-mail: [email protected]
ogólny schemat
algorytm gradientowy
samoorganizujace si sieci rozmyte
uczenie na podstawie tabeli przej
2
Logika „ostra” a logika „rozmyta”
Podstawowe poj cia logiki rozmytej
Zbiorem rozmytym F w pewnej niepustej przestrzeni X nazywany zbiór
par:
LOGIKA
„ostra”
•
•
„rozmyta”
∀p :p ∧ p = ∅
∃p : p ∧ p ≠ ∅
∀p :p ∨ p = 1
∃p : p ∨ p ≠ 1
wykorzystanie tylko informacji
numerycznej
cisłe i jednoznaczne powi zanie
informacji wej ciowej i wyj ciowej
systemu
„czarne i białe”
F = {(u , µ F (u )); u ∈ X }
•
•
gdzie
µ F : X → [0,1]
wykorzystanie informacji lingwistycznej
(poj cia opisowe nie zwi zane ci le z
warto ciami numerycznymi: mały, redni,
du y)
ka de z okre le jest poj ciem rozmytym,
nieostrym
„odcienie szaro ci”
3
jest funkcj przynale no ci zbioru rozmytego F.
Funkcja przynale no ci przypisuje ka demu elementowi u jego stopie
przynale no ci do zbioru rozmytego F:
1) µF(u)=1 oznacza pełn przynale no elementu u do zbioru F
2) µF(u)=0 oznacza brak przynale no ci elementu u do zbioru rozmytego F
3) 0 <µF(u) <1 oznacza cz ciow przynale no elementu u do zbioru
rozmytego F
4
Operacje logiki rozmytej
Zbiory rozmyte
(przeci cie)
Je eli X jest przestrzeni o sko czonej liczbie elementów, X={x1, x2,...,
xN}, to zbiór rozmyty F zapisuje si jako:
F=
µ F ( x1 )
x1
+
µ F ( x2 )
x2
+Λ +
µ F ( xN )
xN
=
N
µ F ( xi )
i =1
xi
Przeci cie dwóch zbiorów rozmytych F1, F2 w przestrzeni X jest
równie zbiorem rozmytym o funkcji przynale no ci dla wszystkich
x∈ X postaci:
µ F ∩ F ( x) = min{µ F ( x), µ F ( x)} = µ F ( x) ∩ µ F ( x)
1
2
1
2
1
2
znak”/” - oznacza przyporz dkowanie poszczególnym elementom xi
stopni przynale no ci
znak „+” - oznacza operacj dodania elementu do zbioru
5
(suma)
(dopełnienie)
Dopełnieniem zbioru rozmytego F∈ X jest zbiór rozmyty o funkcji
przynale no ci zdefiniowanej w postaci:
Suma dwóch zbiorów rozmytych F1, F2 w przestrzeni X jest
równie zbiorem rozmytym o funkcji przynale no ci dla wszystkich
x∈ X postaci:
µ F ∪ F ( x) = max{µ F ( x), µ F ( x)} = µ F ( x) ∪ µ F ( x)
1
2
1
2
1
6
µ F ( x) = 1 − µ F ( x)
2
7
8
Zasady wnioskowania w zbiorach rozmytych
Interpretacja reguł wnioskowania w systemie
wielowymiarowym
Ogólny zapis wnioskowania:
je eli przesłanka logiczna to konkluzja
Je li zbiory l-tej reguły rozmytej dotycz cej zmiennych x1, x2, ..., xN, y oznaczy si
w postaci F1(l), F1(l), ..., F1(l), G(l), to powy sza relacja mo e by interpretowana
jako implikacja A→B, w której
A = F1( l ) × F2( l ) × Κ × Fn( l ) ; B = G ( l )
Je li F i G s podzbiorami zbiorów rozmytych U i V, to zapis
je li
x∈F
to
Funkcja przynale no ci opisuj ca tak implikacj mo e przybiera ró ne postaci:
y∈G
• posta wspólnej cz ci zbiorów
oznacza, ze jesli zmienna x jest elementem zbioru rozmytego F, to zmienna
y nalezy do zbioru rozmytego G. Zapis w formie implikacji: F→G.
Je eli x jest n-wymiarowym wektorem, przesłank stanowi iloczyn
logiczny składowych tego wektora:
jesli
x1 ∈ F1( l ) ∧ x2 ∈ F2( l ) ∧ Κ ∧ xn ∈ Fn( l )
to
• posta minimaksowa
µ A→ B ( x , y ) = µ A ( x ) µ B ( y )
µ A→ B ( x, y ) = max{min[µ A ( x), µ B ( y )],1 − µ A ( x)}
Funkcja przynale no ci dotycz ca wektora x mo e by interpretowana w postaci:
• minimalnego zbioru wspólnego
y ∈ G (l )
• iloczynowej
gdzie l okre la numer reguły wnioskowania
9
• posta iloczynowa
µ A→ B ( x, y ) = min[µ A ( x), µ B ( y )]
µ A ( x) = min [µ F ( x), µ F ( y ), Κ , µ F ( x)]
1
2
n
µ A ( x) = µ F ( x) µ F ( y ) Κ µ F ( x)
1
2
n
10
Schemat układu rozmytego
Fuzyfikator
konwersja do dziedziny „rozmytej”
Niski
Reguły
wnioskowania
Wysoki
x=170
x∈ X
Defuzyfikator
Fuzyfikator
Zbiór rozmyty
A∈ X
Człon
decyzyjny
y∈ Y
Zbiór rozmyty
B∈ Y
1
11
µW ( x) = 0.8
Rodzaje funkcji przynale no ci:
funkcje gaussowskie
µ N ( x) = 0.3
c
funkcje trójk tne
1
c
funkcje trapezoidalne
12
Defuzyfikator
Reguły wnioskowania
konwertuje zbiór rozmyty do dziedziny „ostrej”
Tworzenie reguł wnioskowania:
– zastosowanie wiedzy eksperta - ekspert na podstawie zdobytego wcze niej
do wiadczenia ma okre li sposób post powania dla poszczególnych
przypadków, które mog si zdarzy w trakcie procesu. Zadanie eksperta
b dzie konstrukcja reguły wnioskowania, jak i doboru funkcji
przynale no ci dla ka dego przypadku.
– zastosowanie bada eksperymentalnych - podstaw reguł s wyniki
numeryczne eksperymentów, okre laj ce zarówno reguły wnioskowania
jak i funkcje przynale no ci.
Defuzyfikator
µ N ( x ) = 0 .0
µ S ( x ) = 0 .3
µ W ( x ) = 0 .8
y=‘wysoki’
Rodzaje defuzyfikatorów:
według rednich warto ci centrów
M
y=
l =1
M
cl µ F ( l ) ( x )
według wa ony rednich warto ci centrów
M
(l )
µ F ( x (l ) )
y=
l =1
M
cl
(l )
l =1
l =1
µ
µ
F(l )
σ
F(l )
σ
( x(l ) )
(l )
( x(l ) )
(l )
cl, σ(l) - centrum (dyspersja) zbioru rozmytego G(l) ; µF(l) - funkcja przynale no ci zbiorów
rozmytych F(l) odpowiadaj cych danemu wektorowi wej ciowemu
13
Defuzyfikator
µ A ( x) = µ F ( x) µ F ( y ) Κ µ F ( x)
2
n
otrzymuje si dla defuzyfikatora:
a) warto ci rednich centrów
M
f ( x) =
l =1
cl
M
l =1
∏µ
i =1
N
∏µ
i =1
b) wa onych rednich warto ci centrów
M
N
Fi( l )
Fi( l )
( xi )
f ( x) =
( xi )
gdzie l=1,2,.., M oznacza kolejn reguł logiczn .
l =1
cl
M
l =1
14
Sieci neuronowe o logice rozmytej
Korzystaj c z opisów defuzyfikatora dowoln funkcj ci gł f(x) o nelementowym wektorze x mo na opisa przy wykorzystaniu poj logiki
rozmytej. Stosuj c interpretacj iloczynow funkcji przynale no ci
1
N
∏µ
i =1
N
∏µ
i =1
Fi( l )
Fi( l )
( xi )
( xi )
• Mo liwo reprezentacji dowolnej funkcji nieliniowej wielu zmiennych
za pomoc sumy funkcji rozmytych scharakteryzowanych przez funkcje
przynale no ci uzasadnia mo liwo zastosowania funkcji rozmytych
do odwzorowania dowolnych procesów nieliniowych i stanowi
alternatywne podej cie do klasycznych sieci neuronowych
jednokierunkowych
• Posta funkcji f(x) umo liwia jej implementacj jako równoległej
struktury wielowarstwowej, podobnie jak w przypadku sieci
sigmoidalnych i radialnych
σ (l )
σ (l )
15
16
Przyjmuj c gaussowsk posta funkcji przynale no ci dla i-tej zmiennej xi
odpowiadaj cej l-tej regule w postaci:
µ
(l )
i
= exp −
2
xi − ci( l )
σ i(l )
funkcj aproksymuj c f(x) wyra on przez rednie warto ci centrów
mo na zapisa jako
M
f ( x) =
Wl ∏ µ
l =1
M
i =1
N
∏µ
l =1 i =1
N
M
N
(l )
i
(l )
i
=
l =1
Wl ∏ exp −
M
σ i(l )
i =1
N
∏ exp
−
2
xi − ci( l )
xi − ci( l )
l =1 i =1
2
σ i(l )
Schemat sieci neuronowej rozmytej
w której Wl jest centrum zbioru rozmytego zmiennej wyj ciowej.
17
Metoda gradientowa
Metoda gradientowa
(algorytm wstecznej propagacji bł du)
• Zadaniem sieci jest odwzorowanie par danych wej cie-wyj cie (x,d) w
taki sposób, aby warto
dana d stanowi ca po dan odpowied
systemu, była odwzorowana przez funkcj f(x).
Stosuj c do minimalizacji metod najwi kszego spadku otrzymujemy w ktym kroku ucz cym nast puj ce warto ci parametrów:
Wi (k + 1) = Wi (k ) − η
• Uczenie sieci polega na doborze parametrów Wl, ci(l) oraz σi(l) (i=1,2,..,
N, l=1,2,...,M)
ci (k + 1) = ci (k ) − η
• Uczenie przeprowadza si przez minimalizacj bł du kwadratowego
mi dzy warto ci
dan d a jej odwzorowaniem f(x):
E=
18
∂E
∂ci (k )
σ i (k + 1) = σ i (k ) − η
1
[ f ( x) − d ]2
2
19
∂E
∂Wi (k )
∂E
∂σ i (k )
20
Fazy algorytmu propagacji wstecznej
Cechy charakterystyczne
• podanie na wej cie sieci sygnałów wej ciowych tworz cych wektor x i
okre lenie wszystkich sygnałów wewn trznych oraz wyj ciowych sieci,
wyst puj cych w wyra eniu okre laj cym gradient
• okre lenie warto ci funkcji bł du na wyj ciu sieci i przez jego
propagacj w kierunku wej cia wyznaczenie wszystkich składowych
wektora gradientu; adaptacja parametrów sieci odbywa si z kroku na
krok według wybranej metody gradientowej z krokiem uczenia η
stałym b d zmiennym.
– parametry ci(l) oraz σi(l) s odpowiednio centrami i szeroko ciami cz ci
„je li”
– wagi Wi odpowiadaj ci le centrom cz ci „to”
• mo liwo wł czenia w proces uczenia informacji lingwistycznej,
zawieraj cej si we wnioskowaniu logicznym Wiedza eksperta
równolegle do danych pomiarowych mo e zosta wprz gni ta w proces
uczenia, szczególnie na etapie wst pnym przy doborze pocz tkowych
warto ci parametrów optymalizacyjnych.
21
• charakterystyczna interpretacja parametrów funkcji, wynikaj ca z faktu,
e posta funkcji f(x) jest odzwierciedleniem zasady wnioskowania
logicznego w zbiorach rozmytych zawieraj c cz
warunkow
„je li...” oraz cz
wynikow „to...”:
Uczenie samoorganizuj ce si sieci
rozmytych
22
rozmytych
Zakładamy, e mamy p par ucz cych, przy czym ka da z nich jest
reprezentantem reguły logicznej l: (x(l); d(l)). Zakładaj c e M=p
otrzymujemy:
p
f ( x) =
d ( l ) exp −
i =1
p
i =1
exp −
x − x (l )
2
σ2
x − x (l )
2
σ2
gdzie warto parametru σ, taka sama dla ka dej reguły rozmytej, decyduje
o gładko ci odwzorowania. Im mniejsza warto warto σ tym lepsze
dopasowanie w danym punkcie i jednocze nie gorsza gładko funkcji.
Dobór a) wła ciwego; b) niewła ciwego parametru σ funkcji rozmytej.
23
24
rozmytych
rozmytych
• je eli ||x(k)-c(z)|| < r uaktualniane s parametry klastra z:
– W(z)(k)=W(z)(k-1)+d(k)
– L(z)(k)=L(z)(k-1)+1
– c(z)(k)=[c(z)(k-1)L(z)(k-1)+x(k)] / L(z)(k)
• Gdy liczba p jest du a przyj cie M=p jest niepraktyczne. Dane
wówczas mog by reprezentowane przez M<p klastrów.
• Algorytm automatycznego podziału przestrzeni danych na klastry
(odmiana algorytmu K- rednich):
– Startuj c z pierwszej pary danych (x(1), d(1)) jest tworzony pierwszy klaster
o centrum c(1)=x(1). Zakłada si W(1)=d(1) oraz liczno zbioru L(1)=1. Niech
r b dzie oznacza odległo wektora cech x od centrum, poni ej której
dane b d traktowane jako nale ce do danego klastera. (Zakładamy, ew
chwili startu istnieje M klastrów).
– Po wczytaniu k-tej pary ucz cej (x(k), d(k)) nast puje wyznaczenie
odległo ci ||x(k)-c(l)|| l=1,2,..., M. Okre lono, e najbli szym centrum jest
c(z).
• je eli ||x(k)-c(z)|| > r zakłada si nowy klaster i ustala odpowiednio jego
parametry (patrz pkt. 1)
25
Uczenie na podstawie tabeli przej
• Etapy uczenia:
– Podział przestrzeni danych wej ciowych i wyj ciowych na podzbiory
rozmyte z przyporz dkowan odpowiedni funkcj przynale no ci
– Generowanie reguł rozmytych na podstawie danych ucz cych i ich
podziału na zbiory rozmyte
– Hierarchizacja reguł - powi zanie z ka d reguł jej stopnia w hierarchii.
W przypadku sprzeczno ci za obowi zuj c przyjmuje si reguł o
najwi kszym stopniu
– Okre lenie tabeli reguł wynikowych podejmowania decyzji:
Interpretacja:
if x∈X2 and y∈Y2 then z∈Z1
if x∈X2 and y∈Y4 then z∈Z4
- Defuzyfikacja
27
Przeprowadzaj c powy sze kroki do k=p otrzymujemy podział obszaru danych na
M klastrów (odpowiednio dla przyj tej warto ci r). Liczebno ka dego z nich
jest okre lona przez L(l)(k), centrum przez c(l)(k); warto skumulowanej
funkcji przez W(l)(k). Posta funkcji aproksymujacej
M
f ( x) =
W (l ) (k ) exp −
i =1
M
i =1
L (k ) exp −
(l )
x − x (l ) (k )
2
σ2
x − x (l ) (k )
2
σ2
26

Sztuczne sieci neuronowe Plan wykładu Logika „ostra” a logika

Transkrypt

Podobne dokumenty

Sieci neuronowe - Kognitywistyka

Literatura / Przerabiany materiał

sieci neuronowe, data mining

"Kwiatex" Stanislaw Mazurowski, Szadek, Osiny 40

e uczenie sieci

Sztuczne sieci neuronowe

(Microsoft PowerPoint - SN_W7.ppt [tryb zgodno\234ci])

Sztuczne sieci neuronowe Plan wykładu Gaz neuronowy NG

dowiedz się więcej