Sztuczne sieci neuronowe
Transkrypt
Sztuczne sieci neuronowe
Plan wykładu • Metody oceny jako ci sieci neuronowych – problem klasyfikacji – metody szacowania jako ci klasyfikacji – ocena jako ci klasyfikacji Sztuczne sieci neuronowe Wykład 6: Ocena jako ci sieci neuronowej Sieci RBF • Sieci o radialnych funkcjach bazowych – Wprowadzenie do sieci RBF – Porównanie sieci wielowarstwowych i sieci RBF – Teoretyczne podstawy działanie sieci RBF Małgorzata Kr towska Katedra Oprogramowania e-mail: [email protected] 1 2 Sztuczne sieci neuronowe Problem klasyfikacji Problem dwuklasowy (N=1) Przyporz dkowanie danego wektora cech x do jednej z M klas: K1, K2, .., KM p(x/K1) 0.2 p(x/K2) {x1, x2, ..., xn} 0.1 KLASYFIKATOR 0.0 Ki Sztuczne sieci neuronowe 3 Sztuczne sieci neuronowe 0 5 c x 10 15 x 4 Problem dwuklasowy (N=2) Metody oceny jako ci klasyfikacji • Zbiór ucz cy i zbiór testowy • Walidacja krzy owa (ang. crossvalidation) • Metoda leave-one-out (Jackknife) Sztuczne sieci neuronowe 5 6 Sztuczne sieci neuronowe Walidacja krzy owa (k-punktowa) Leave-one-out • Przypadek szczególny walidacji krzy owej • Je eli zbiór ucz cy zawiera p wektorów cech wówczas metoda leave-one-out jest równowa na p-punktowej walidacji krzy owej zbiór danych: losowy podział zbioru danych na k podzbiorów zbiór danych: podzbiór testowy p W praktyce : k=10 Sztuczne sieci neuronowe 7 Sztuczne sieci neuronowe 8 Ocena jako ci klasyfikacji Jako klasyfikacji = Ocena jako ci klasyfikacji (2 klasy) Liczba poprawnie sklasyfikowanych przypadków / Liczba wszystkich analizowanych przypadków Klasa => Decyzja K1 K2 .......... K1 n11 n12 n1M K2 n21 n22 n2M Klasa (0, 1) np. choroba (tak, nie) KM Wynik Tak klasyfikacji Nie ........... Czy jako KM nM1 nM2 Liczno n1 n2 nMM ..... Tak Nie True positive (TP) False Positive (FP) TP+FP False negative (FN) True negative (TN) FN+TN TP+FN FP+TN nM klasyfikacji 0,95 jest dobra? 9 Sztuczne sieci neuronowe Ocena jako ci klasyfikacji (2 klasy) p(x/K1) 0.2 0.1 10 Ocena jako ci klasyfikacji (2 klasy) • Efektywno = TP+TN / TP+FP+FN+TN - frakcja poprawnie sklasyfikowanych przypadków p(x/K0) • Czuło = TP / TP+FN - frakcja poprawnie sklasyfikowanych przypadków choroby TN TP Sztuczne sieci neuronowe • Specyficzno = TN / FP+TN - frakcja poprawnie sklasyfikowanych przypadków osób zdrowych 0.0 FP FN 0 5 c 10 15 x (ang. accuracy, sensitivity, specificity) Sztuczne sieci neuronowe 11 Sztuczne sieci neuronowe 12 Krzywa ROC (ang. Receiver Operating Characteristics) Sieci o radialnych funkcjach bazowych (RBF; ang. Radial Basis Functions) • Krzywa ROC - obrazuje zale no pomi dzy czuło ci metody a warto ci 1-specyficzno dla ró nych warto ci progowych • Porównanie jako ci dwóch metod klasyfikacji => porównanie wielko ci obszaru pod krzyw ROC • Sieci dwuwarstwowe ( 1 warstwa ukryta) • Przepływ informacji od wej cia w kierunku warstwy wyj ciowej • Brak wymiany informacji mi dzy neuronami w jednej warstwie 13 Sztuczne sieci neuronowe Sieci wielowarstwowe a sieci RBF Sieci wielowarstwowe a sieci RBF Sieci neuronowe wielowarstwowe Sieci RBF • neurony w warstwach ukrytych spełniały rol sumatorów impulsów dochodz cych do nich z poprzedniej warstwy • wyznaczenie aktywacji, w neuronach warstwy ukrytej, odbywa si na zasadzie wyznaczenia warto ci tzw. radialnej funkcji bazowej (argumentem jest odległo ||x-c||) • rezultat sumowania był nast pnie przetwarzany przez tzw. funkcj aktywacji i powodował pobudzenie neuronu na okre lonym poziomie • neuron przekazywał swoj aktywacj - jako bodziec numeryczny do warstwy nast pnej lub na wyj cie Sztuczne sieci neuronowe 14 Sztuczne sieci neuronowe Sieci wielowarstwowe • neuron reprezentuje hiperpłaszczyzn • mo e by wiele warstw ukrytych Sieci RBF • neuron reprezentuje hipersfer , dokonuj c podziału kołowego wokół punktu centralnego • jedna warstwa ukryta => uproszczenie uczenia sieci • Warstwa wyj ciowa sumuje aktywacje neuronów warstwy ukrytej (posługuj c si swoimi wagami) • Wynik sumowania jest podawany jako wynik działania sieci 15 Sztuczne sieci neuronowe 16 Radialne funkcje bazowe Przykłady radialnych funkcji bazowych • Funkcja Gaussa G( r ) = exp − Radialn funkcj bazow (typu RBF) nazywany funkcj G(•) postaci: r2 2σ 2 G(x; c) = G (r(x,c)), gdzie r(x,c)=||x-c||={(x-c)T(x-c)}1/2 oznacza to, e warto ci funkcji - dla danego argumentu x - zale tylko od odległo ci jej argumentu od centrum c b d cym parametrem tej funkcji. (pojedyncza funkcja radialna jest czasem nazywana j drem (ang. kernel) a parametr σ szeroko ci j dra). 17 Sztuczne sieci neuronowe Przykłady radialnych funkcji bazowych • Funkcje pot gowe 18 Sztuczne sieci neuronowe Przykłady radialnych funkcji bazowych G (r ) = (σ 2 + r 2 ) , α > 0 −α • Funkcja sklejana G (r ) = (σr ) ln(σr ) 2 α=1 i -0.5 Sztuczne sieci neuronowe 19 Sztuczne sieci neuronowe 20 Teoretyczne podstawy sieci RBF (aproksymacja) Działanie sieci RBF • W sieciach RBF neurony pierwszej warstwy obliczaj - na podstawie podanego na wej cie wektora cech x, swoje aktywacje jako warto : G1(x)=G(x, c1); G2(x)=G(x, c2); ...; GH(x)=G(x,cH) • Sie RBF działa na zasadzie wielowymiarowej interpolacji, której zadaniem jest odwzorowanie p ró nych wektorów wej ciowych xi (i=1,2,.., p) z N wymiarowej przestrzeni wej ciowej w zbiór p liczb rzeczywistych di. • Jest to równowa ne okre leniu funkcji radialnej F(x), dla której s spełnione warunki interpolacji: F(xi) = di gdzie Gh - oznacza funkcj radialn obliczon wzgl dem centrum ch. • Obliczone w ten sposób warto ci G1, .., GH słu jako dane wej ciowe dla warstwy wyj ciowej, która oblicza z nich wa on sum . Przy zało eniu jednego neuronu w warstwie wyj ciowej otrzymujemy: y(x)=w0+w1G1 (x) +w2G2 (x) + ... + wHGH(x) przy czym funkcja F(x) okre lona jest wzorem: F ( x) = i =1 21 Teoretyczne podstawy sieci RBF G12 G1 p W1 d1 G 21 G22 G2 p W2 d2 Gp1 G p2 G pp W p = Wybór rodzaju normy mo e by dowolny, w praktyce najcz ciej norma euklidesowa. Sztuczne sieci neuronowe 22 • Wprowadzone zało enie dotycz ce istnienia p neuronów ukrytych prowadzi do uzyskania sieci o złych własno ciach uogólniaj cych. • Przy du ej liczbie danych ucz cych i równej im liczbie funkcji radialnych sie b dzie si dopasowywała do ró nego rodzaju szumów i nieregularno ci wyst puj cych w danych. dp • Wprowadzenie czynnika regularyzacji (problem optymalizacji): gdzie Gji=G(||xj-xi||) dotyczy funkcji radialnej w centrum xi. W postaci macierzowej: L( F ) = GW=d 1 2 p i =1 (F ( xi ) − di )2 + 1 λ 2 PF 2 gdzie λ współczynnik regularyzacji, ||PF|| - czynnik stabilizuj cy karz cy za brak gładko ci funkcji F (du e i cz sto powtarzaj ce si zmiany nachyle funkcji aproksymuj cej) Rozwi zanie: W=G d -1 Sztuczne sieci neuronowe ) Sie RBF - podstawy teoretyczne Zakładaj c p punktów interpolacyjnych mo na otrzyma układ równa liniowych: G11 wi G ( x − xi gdzie xi- warto ci wektorów i centra funkcji radialnej. Przy danych centrach c1, c2, ..., cH i parametrze σ pozostaj nam tylko do wyznaczenia warto ci wag. Sztuczne sieci neuronowe p 23 Sztuczne sieci neuronowe 24 Sie RBF - podstawy teoretyczne (klasyfikacja) Regularyzacja • Twierdzenie Covera (1965) Zło ony problem klasyfikacyjny „zrzutowany” nieliniowo na przestrze wielowymiarow mo e by rozdzielony za pomoc separatora liniowego z wi kszym prawdopodobie stwem ni przy rzutowaniu na przestrze o mniejszej liczbie wymiarów. Udowodniono, e ka dy zbiór wzorców losowo rozmieszczony w przestrzeni wielowymiarowej jest ϕ-separowalny z prawdopodobie stwem równym jeden, pod warunkiem zastosowania odpowiednio du ego wymiaru, na który rzutowana jest ta przestrze , tj. przestrze generowana przez funkcje bazowe ϕi. Wpływ regularyzacji na odwzorowanie danych przy nadwymiarowej liczbie funkcji bazowych: a) brak regularyzacji; b) wynik z regularyzacj 25 Sztuczne sieci neuronowe 26 Sztuczne sieci neuronowe Sie RBF - podstawy teoretyczne Sie RBF Zatem istnieje taki wektor w, e: wT ϕ(x) ≥ 0 dla x∈A wT ϕ(x) < 0 dla x∈B gdzie wT ϕ(x)=0 reprezentuje granic pomi dzy klasami. W praktyce oznacza to, e zastosowanie dwu warstw sieci, jednej zawieraj cej funkcje radialne i wyj ciowej warstwy liniowej zapewnia rozwi zanie problemu klasyfikacji nieliniowej. ym = Sztuczne sieci neuronowe 27 Sztuczne sieci neuronowe H i =0 Gi ( x ) wmi 28 Rodzaje sieci RBF Sieci HRBF Sieci RBF • Sieci GRBF (ang. Generalized Radial Basis Function)- mniejsza liczba w złów ni danych. • Sieci HRBF (ang. Hyper Radial Basis Function)- pełna macierz obrotów i skalowania Q (współczynnik wagowy, ze wzgl du na ró n zmienno w ka dej osi; Q ró ne dla ró nych centrów): x 2 Q Sieci HRBF = (Qx)T (Qx) = xT Q T Qx Oznaczaj c iloczyn macierzy QTQ jako macierz C otrzymujemy: x 2 Q = p p i =1 j =1 Cij xi x j W szczególno ci, je eli macierz Q jest diagonalna Q=1, wówczas wagowa norma Euklidesowa sprowadza si do normy klasycznej: x Sztuczne sieci neuronowe 2 Q 2 = x = p i =1 xi2 29 Uczenie sieci RBF Sztuczne sieci neuronowe 30 Etap I - wybór centrów funkcji bazowych Uczenie sieci RBF odbywa si w trybie nadzorowanym. Mo na tu wyró ni dwa etapy: • Losowy wybór centrów funkcji bazowych • dobór parametrów funkcji bazowych (centra + dyspersje) • Zastosowanie procesu samoorganizacji • Wykorzystanie dendrogramów • Algorytm probabilistyczny (HRBF) • dobór wag neuronów warstwy wyj ciowej Sztuczne sieci neuronowe 31 Sztuczne sieci neuronowe 32 Losowy wybór centrów funkcji bazowych Zastosowanie procesu samoorganizacji • rozwi zanie najprostsze, wykorzystywane dla klasycznych sieci radialnych • losowy wybór centrów: • Proces samoorganizacji stosowany do danych ucz cych automatycznie dzieli przestrze na obszary Voronoia, reprezentuj ce oddzielne grupy danych • centrum klastra jest uto samiane z centrum odpowiedniej funkcji radialnej • liczba tych funkcji równa jest liczbie klastrów i mo e by korygowana przez algorytm samoorganizacji – w obszarze zmienno ci wzorców ucz cych – losowy wybór centrów spo ród wzorców ucz cych (prosty i daje dobre rezultaty) • parametr dyspersji jest jednakowy dla wszystkich funkcji bazowych i jest okre lany jako: σ= gdzie d 2M • Proces podziału danych na klastry mo e by przeprowadzony przy u yciu jednej z wersji algorytmu k- rednich • Proces inicjalizacji centrów: – M - jest liczb wszystkich neuronów warstwie ukrytej; – d jest maksymaln odległo ci pomi dzy wybranymi centrami • Gaussowska funkcja bazowa przyjmuje posta : G( x − c ) = exp − i x − ci – odbywa si najcz ciej losowo, przy zało eniu rozkładu równomiernego w procesie doboru odpowiednich wektorów x ze zbioru danych ucz cych, jako centrów. 2 d2 K 33 Sztuczne sieci neuronowe Zastosowanie procesu samoorganizacji Zastosowanie procesu samoorganizacji • Dobór parametru dyspersji funkcji radialnych: – w przypadku danych ucz cych reprezentuj cych funkcj ci gła: wst pne warto ci centrów umieszcza si w punktach odpowiadaj cych warto ciom maksymalnym i minimalnym funkcji. Dane odpowiadaj ce tym centrom oraz ich najbli szemu otoczeniu s usuwane ze zbioru, a pozostałe centra s lokowane równomiernie w obszarze utworzonym przez dane pozostaj ce w zbiorze. – Aby odwzorowanie funkcji realizowane przez sieci radialne było stosunkowo gładkie: • pola recepcyjne wszystkich funkcji radialnych powinny pokrywa cały obszar danych wej ciowych • dwa pola mog pokrywa si tylko w nieznacznym stopniu. – Proponowane rozwi zania • po zaprezentowaniu k-tego wzorca x(k) ze zbioru ucz cego jest wybierane najbli sze centrum, które nast pnie podlega aktualizacji: • za warto σj j-tej funkcji radialnej przyjmuje si odległo euklidesow centrum cj od jego najbli szego s siada (tzn. innego centrum) ci (k + 1) = ci (k ) + η (k )[( x(k ) − ci (k )] współczynnik uczenia η(k) maleje w miar wzrostu k, np. (T - stała l. epok) • na warto σj wpływa odległo j-tego centrum od jego P najbli szych s siadów (zwykle nie przekracza trzech): η (k ) = η0 (1 + k T ) • ka dy wektor ucz cy jest prezentowany kilkunastokrotnie, a do ustalenia warto ci centrów. Sztuczne sieci neuronowe 34 Sztuczne sieci neuronowe σj= 35 Sztuczne sieci neuronowe 1 P P k =1 c j − ck 2 36