Sztuczne sieci neuronowe Plan wykładu Logika „ostra” a logika
Transkrypt
Sztuczne sieci neuronowe Plan wykładu Logika „ostra” a logika
Plan wykładu • Podstawy logiki rozmytej – zbiory rozmyte – operacje logiki rozmytej – schemat systemu rozmytego Sztuczne sieci neuronowe Wykład 13: Sieci neuronowe o logice rozmytej • Sieci neuronowe o logice rozmytej – – – – Małgorzata Kr towska Katedra Oprogramowania e-mail: [email protected] ogólny schemat algorytm gradientowy samoorganizujace si sieci rozmyte uczenie na podstawie tabeli przej 2 Sztuczne sieci neuronowe Logika „ostra” a logika „rozmyta” Podstawowe poj cia logiki rozmytej Zbiorem rozmytym F w pewnej niepustej przestrzeni X nazywany zbiór par: LOGIKA „ostra” • • „rozmyta” ∀p :p ∧ p = ∅ ∃p : p ∧ p ≠ ∅ ∀p :p ∨ p = 1 ∃p : p ∨ p ≠ 1 wykorzystanie tylko informacji numerycznej cisłe i jednoznaczne powi zanie informacji wej ciowej i wyj ciowej systemu „czarne i białe” Sztuczne sieci neuronowe F = {(u , µ F (u )); u ∈ X } • • gdzie µ F : X → [0,1] wykorzystanie informacji lingwistycznej (poj cia opisowe nie zwi zane ci le z warto ciami numerycznymi: mały, redni, du y) ka de z okre le jest poj ciem rozmytym, nieostrym „odcienie szaro ci” 3 jest funkcj przynale no ci zbioru rozmytego F. Funkcja przynale no ci przypisuje ka demu elementowi u jego stopie przynale no ci do zbioru rozmytego F: 1) µF(u)=1 oznacza pełn przynale no elementu u do zbioru F 2) µF(u)=0 oznacza brak przynale no ci elementu u do zbioru rozmytego F 3) 0 <µF(u) <1 oznacza cz ciow przynale no elementu u do zbioru rozmytego F Sztuczne sieci neuronowe 4 Operacje logiki rozmytej Zbiory rozmyte (przeci cie) Je eli X jest przestrzeni o sko czonej liczbie elementów, X={x1, x2,..., xN}, to zbiór rozmyty F zapisuje si jako: F= µ F ( x1 ) x1 + µ F ( x2 ) x2 +Λ + µ F ( xN ) xN = N µ F ( xi ) i =1 xi Przeci cie dwóch zbiorów rozmytych F1, F2 w przestrzeni X jest równie zbiorem rozmytym o funkcji przynale no ci dla wszystkich x∈ X postaci: µ F ∩ F ( x) = min{µ F ( x), µ F ( x)} = µ F ( x) ∩ µ F ( x) 1 2 1 2 1 2 znak”/” - oznacza przyporz dkowanie poszczególnym elementom xi stopni przynale no ci znak „+” - oznacza operacj dodania elementu do zbioru 5 Sztuczne sieci neuronowe Operacje logiki rozmytej Operacje logiki rozmytej (suma) (dopełnienie) Dopełnieniem zbioru rozmytego F∈ X jest zbiór rozmyty o funkcji przynale no ci zdefiniowanej w postaci: Suma dwóch zbiorów rozmytych F1, F2 w przestrzeni X jest równie zbiorem rozmytym o funkcji przynale no ci dla wszystkich x∈ X postaci: µ F ∪ F ( x) = max{µ F ( x), µ F ( x)} = µ F ( x) ∪ µ F ( x) 1 Sztuczne sieci neuronowe 2 1 2 1 6 Sztuczne sieci neuronowe µ F ( x) = 1 − µ F ( x) 2 7 Sztuczne sieci neuronowe 8 Zasady wnioskowania w zbiorach rozmytych Interpretacja reguł wnioskowania w systemie wielowymiarowym Ogólny zapis wnioskowania: je eli przesłanka logiczna to konkluzja Je li zbiory l-tej reguły rozmytej dotycz cej zmiennych x1, x2, ..., xN, y oznaczy si w postaci F1(l), F1(l), ..., F1(l), G(l), to powy sza relacja mo e by interpretowana jako implikacja A→B, w której A = F1( l ) × F2( l ) × Κ × Fn( l ) ; B = G ( l ) Je li F i G s podzbiorami zbiorów rozmytych U i V, to zapis je li x∈F to Funkcja przynale no ci opisuj ca tak implikacj mo e przybiera ró ne postaci: y∈G • posta wspólnej cz ci zbiorów oznacza, ze jesli zmienna x jest elementem zbioru rozmytego F, to zmienna y nalezy do zbioru rozmytego G. Zapis w formie implikacji: F→G. Je eli x jest n-wymiarowym wektorem, przesłank stanowi iloczyn logiczny składowych tego wektora: jesli x1 ∈ F1( l ) ∧ x2 ∈ F2( l ) ∧ Κ ∧ xn ∈ Fn( l ) to • posta minimaksowa µ A→ B ( x , y ) = µ A ( x ) µ B ( y ) µ A→ B ( x, y ) = max{min[µ A ( x), µ B ( y )],1 − µ A ( x)} Funkcja przynale no ci dotycz ca wektora x mo e by interpretowana w postaci: • minimalnego zbioru wspólnego y ∈ G (l ) • iloczynowej gdzie l okre la numer reguły wnioskowania 9 Sztuczne sieci neuronowe • posta iloczynowa µ A→ B ( x, y ) = min[µ A ( x), µ B ( y )] µ A ( x) = min [µ F ( x), µ F ( y ), Κ , µ F ( x)] 1 2 n µ A ( x) = µ F ( x) µ F ( y ) Κ µ F ( x) 1 2 n 10 Sztuczne sieci neuronowe Schemat układu rozmytego Fuzyfikator konwersja do dziedziny „rozmytej” Niski Reguły wnioskowania Wysoki x=170 x∈ X Defuzyfikator Fuzyfikator Zbiór rozmyty A∈ X Człon decyzyjny y∈ Y Zbiór rozmyty B∈ Y 1 11 µW ( x) = 0.8 Rodzaje funkcji przynale no ci: funkcje gaussowskie Sztuczne sieci neuronowe µ N ( x) = 0.3 Sztuczne sieci neuronowe c funkcje trójk tne 1 c funkcje trapezoidalne 12 Defuzyfikator Reguły wnioskowania konwertuje zbiór rozmyty do dziedziny „ostrej” Tworzenie reguł wnioskowania: – zastosowanie wiedzy eksperta - ekspert na podstawie zdobytego wcze niej do wiadczenia ma okre li sposób post powania dla poszczególnych przypadków, które mog si zdarzy w trakcie procesu. Zadanie eksperta b dzie konstrukcja reguły wnioskowania, jak i doboru funkcji przynale no ci dla ka dego przypadku. – zastosowanie bada eksperymentalnych - podstaw reguł s wyniki numeryczne eksperymentów, okre laj ce zarówno reguły wnioskowania jak i funkcje przynale no ci. Defuzyfikator µ N ( x ) = 0 .0 µ S ( x ) = 0 .3 µ W ( x ) = 0 .8 y=‘wysoki’ Rodzaje defuzyfikatorów: według rednich warto ci centrów M y= l =1 M cl µ F ( l ) ( x ) według wa ony rednich warto ci centrów M (l ) µ F ( x (l ) ) y= l =1 M cl (l ) l =1 l =1 µ µ F(l ) σ F(l ) σ ( x(l ) ) (l ) ( x(l ) ) (l ) cl, σ(l) - centrum (dyspersja) zbioru rozmytego G(l) ; µF(l) - funkcja przynale no ci zbiorów rozmytych F(l) odpowiadaj cych danemu wektorowi wej ciowemu 13 Sztuczne sieci neuronowe Defuzyfikator µ A ( x) = µ F ( x) µ F ( y ) Κ µ F ( x) 2 n otrzymuje si dla defuzyfikatora: a) warto ci rednich centrów M f ( x) = l =1 cl M l =1 ∏µ i =1 N ∏µ i =1 b) wa onych rednich warto ci centrów M N Fi( l ) Fi( l ) ( xi ) f ( x) = ( xi ) gdzie l=1,2,.., M oznacza kolejn reguł logiczn . Sztuczne sieci neuronowe l =1 cl M l =1 14 Sieci neuronowe o logice rozmytej Korzystaj c z opisów defuzyfikatora dowoln funkcj ci gł f(x) o nelementowym wektorze x mo na opisa przy wykorzystaniu poj logiki rozmytej. Stosuj c interpretacj iloczynow funkcji przynale no ci 1 Sztuczne sieci neuronowe N ∏µ i =1 N ∏µ i =1 Fi( l ) Fi( l ) ( xi ) ( xi ) • Mo liwo reprezentacji dowolnej funkcji nieliniowej wielu zmiennych za pomoc sumy funkcji rozmytych scharakteryzowanych przez funkcje przynale no ci uzasadnia mo liwo zastosowania funkcji rozmytych do odwzorowania dowolnych procesów nieliniowych i stanowi alternatywne podej cie do klasycznych sieci neuronowych jednokierunkowych • Posta funkcji f(x) umo liwia jej implementacj jako równoległej struktury wielowarstwowej, podobnie jak w przypadku sieci sigmoidalnych i radialnych σ (l ) σ (l ) 15 Sztuczne sieci neuronowe 16 Sieci neuronowe o logice rozmytej Sieci neuronowe o logice rozmytej Przyjmuj c gaussowsk posta funkcji przynale no ci dla i-tej zmiennej xi odpowiadaj cej l-tej regule w postaci: µ (l ) i = exp − 2 xi − ci( l ) σ i(l ) funkcj aproksymuj c f(x) wyra on przez rednie warto ci centrów mo na zapisa jako M f ( x) = Wl ∏ µ l =1 M i =1 N ∏µ l =1 i =1 N M N (l ) i (l ) i = l =1 Wl ∏ exp − M σ i(l ) i =1 N ∏ exp − 2 xi − ci( l ) xi − ci( l ) l =1 i =1 2 σ i(l ) Schemat sieci neuronowej rozmytej w której Wl jest centrum zbioru rozmytego zmiennej wyj ciowej. 17 Sztuczne sieci neuronowe Metoda gradientowa Metoda gradientowa (algorytm wstecznej propagacji bł du) • Zadaniem sieci jest odwzorowanie par danych wej cie-wyj cie (x,d) w taki sposób, aby warto dana d stanowi ca po dan odpowied systemu, była odwzorowana przez funkcj f(x). Stosuj c do minimalizacji metod najwi kszego spadku otrzymujemy w ktym kroku ucz cym nast puj ce warto ci parametrów: Wi (k + 1) = Wi (k ) − η • Uczenie sieci polega na doborze parametrów Wl, ci(l) oraz σi(l) (i=1,2,.., N, l=1,2,...,M) ci (k + 1) = ci (k ) − η • Uczenie przeprowadza si przez minimalizacj bł du kwadratowego mi dzy warto ci dan d a jej odwzorowaniem f(x): E= Sztuczne sieci neuronowe 18 Sztuczne sieci neuronowe ∂E ∂ci (k ) σ i (k + 1) = σ i (k ) − η 1 [ f ( x) − d ]2 2 19 Sztuczne sieci neuronowe ∂E ∂Wi (k ) ∂E ∂σ i (k ) 20 Fazy algorytmu propagacji wstecznej Cechy charakterystyczne • podanie na wej cie sieci sygnałów wej ciowych tworz cych wektor x i okre lenie wszystkich sygnałów wewn trznych oraz wyj ciowych sieci, wyst puj cych w wyra eniu okre laj cym gradient • okre lenie warto ci funkcji bł du na wyj ciu sieci i przez jego propagacj w kierunku wej cia wyznaczenie wszystkich składowych wektora gradientu; adaptacja parametrów sieci odbywa si z kroku na krok według wybranej metody gradientowej z krokiem uczenia η stałym b d zmiennym. – parametry ci(l) oraz σi(l) s odpowiednio centrami i szeroko ciami cz ci „je li” – wagi Wi odpowiadaj ci le centrom cz ci „to” • mo liwo wł czenia w proces uczenia informacji lingwistycznej, zawieraj cej si we wnioskowaniu logicznym Wiedza eksperta równolegle do danych pomiarowych mo e zosta wprz gni ta w proces uczenia, szczególnie na etapie wst pnym przy doborze pocz tkowych warto ci parametrów optymalizacyjnych. 21 Sztuczne sieci neuronowe • charakterystyczna interpretacja parametrów funkcji, wynikaj ca z faktu, e posta funkcji f(x) jest odzwierciedleniem zasady wnioskowania logicznego w zbiorach rozmytych zawieraj c cz warunkow „je li...” oraz cz wynikow „to...”: Uczenie samoorganizuj ce si sieci rozmytych Sztuczne sieci neuronowe 22 Uczenie samoorganizuj ce si sieci rozmytych Zakładamy, e mamy p par ucz cych, przy czym ka da z nich jest reprezentantem reguły logicznej l: (x(l); d(l)). Zakładaj c e M=p otrzymujemy: p f ( x) = d ( l ) exp − i =1 p i =1 exp − x − x (l ) 2 σ2 x − x (l ) 2 σ2 gdzie warto parametru σ, taka sama dla ka dej reguły rozmytej, decyduje o gładko ci odwzorowania. Im mniejsza warto warto σ tym lepsze dopasowanie w danym punkcie i jednocze nie gorsza gładko funkcji. Sztuczne sieci neuronowe Dobór a) wła ciwego; b) niewła ciwego parametru σ funkcji rozmytej. 23 Sztuczne sieci neuronowe 24 Uczenie samoorganizuj ce si sieci rozmytych Uczenie samoorganizuj ce si sieci rozmytych • je eli ||x(k)-c(z)|| < r uaktualniane s parametry klastra z: – W(z)(k)=W(z)(k-1)+d(k) – L(z)(k)=L(z)(k-1)+1 – c(z)(k)=[c(z)(k-1)L(z)(k-1)+x(k)] / L(z)(k) • Gdy liczba p jest du a przyj cie M=p jest niepraktyczne. Dane wówczas mog by reprezentowane przez M<p klastrów. • Algorytm automatycznego podziału przestrzeni danych na klastry (odmiana algorytmu K- rednich): – Startuj c z pierwszej pary danych (x(1), d(1)) jest tworzony pierwszy klaster o centrum c(1)=x(1). Zakłada si W(1)=d(1) oraz liczno zbioru L(1)=1. Niech r b dzie oznacza odległo wektora cech x od centrum, poni ej której dane b d traktowane jako nale ce do danego klastera. (Zakładamy, ew chwili startu istnieje M klastrów). – Po wczytaniu k-tej pary ucz cej (x(k), d(k)) nast puje wyznaczenie odległo ci ||x(k)-c(l)|| l=1,2,..., M. Okre lono, e najbli szym centrum jest c(z). • je eli ||x(k)-c(z)|| > r zakłada si nowy klaster i ustala odpowiednio jego parametry (patrz pkt. 1) 25 Sztuczne sieci neuronowe Uczenie na podstawie tabeli przej • Etapy uczenia: – Podział przestrzeni danych wej ciowych i wyj ciowych na podzbiory rozmyte z przyporz dkowan odpowiedni funkcj przynale no ci – Generowanie reguł rozmytych na podstawie danych ucz cych i ich podziału na zbiory rozmyte – Hierarchizacja reguł - powi zanie z ka d reguł jej stopnia w hierarchii. W przypadku sprzeczno ci za obowi zuj c przyjmuje si reguł o najwi kszym stopniu – Okre lenie tabeli reguł wynikowych podejmowania decyzji: Interpretacja: if x∈X2 and y∈Y2 then z∈Z1 if x∈X2 and y∈Y4 then z∈Z4 - Defuzyfikacja Sztuczne sieci neuronowe 27 Przeprowadzaj c powy sze kroki do k=p otrzymujemy podział obszaru danych na M klastrów (odpowiednio dla przyj tej warto ci r). Liczebno ka dego z nich jest okre lona przez L(l)(k), centrum przez c(l)(k); warto skumulowanej funkcji przez W(l)(k). Posta funkcji aproksymujacej M f ( x) = W (l ) (k ) exp − i =1 M i =1 Sztuczne sieci neuronowe L (k ) exp − (l ) x − x (l ) (k ) 2 σ2 x − x (l ) (k ) 2 σ2 26