Sztuczne sieci neuronowe
Transkrypt
Sztuczne sieci neuronowe
Plan wykładu • • • • Sztuczne sieci neuronowe Powtórzenie podstawowych wiadomo ci o sieciach RBF Uczenie sieci RBF - cd. Zalety i wady sieci RBF Sieci PNN. Wykład 7: Sieci RBF. Probabilistyczne sieci neuronowe. Małgorzata Kr towska Katedra Oprogramowania e-mail: [email protected] 1 Konstruowanie klastrów za pomoc dendrogramów Sztuczne sieci neuronowe 2 Algorytm probabilistyczny doboru parametrów funkcji radialnych • Na pocz tku ka dy z wektorów treningowych tworzy odr bny klaster • W procesie iteracyjnym nast puje ł czenie najbli szych, w sensie odpowiedniej miary odległo ci, s siadów • Procedura jest powtarzana do momentu: • Element kluczowy w jako ci sieci: wst pny dobór liczby funkcji bazowych • Wymagania co do liczby neuronów mo na złagodzi przez wprowadzenie sieci typu HRBF realizuj cej odwzorowanie z norm wagow Euklidesa – uzyskania zadowalaj cej liczby klastrów lub – najmniejsza odległo w iteracji oka e si zbyt du a, aby mo na było dokona poł czenia • Współczynniki macierzy Q s dodatkowymi parametrami podlegaj cymi doborowi i ułatwiaj aproksymacj danych ucz cych przez sie radialn • Tak sam dokładno mo na uzyska w sieci HRBF przy mniejszej liczbie funkcji bazowych Sztuczne sieci neuronowe 3 Sztuczne sieci neuronowe 4 Sie HRBF Algorytm probabilistyczny • Zało enia: – równomierny rozkład danych ucz cych x w zbiorze ucz cym – ograniczenie si do diagonalnej macierzy skaluj cej Q • Proces adaptacji parametrów: ηk- współczynnik uczenia (maleje w miar wzrostu k: ηk= η0/k) 1 2 c ( k ) + ηk [ϕ i ( xk ) xk − ci (k )] ci ( k + 1) = i (1 − ηk ) + ηkϕ i ( xk ) ϕ i ( x) = exp − [ x − ci ( k )]T Fi−1[ x − ci ( k )] Fi ( k + 1) = Wykres bł du klasyfikacji w funkcji liczby neuronów ukrytych dla sieci RBF i HRBF 5 Sztuczne sieci neuronowe Qi = 1 −1 Fi 2 Fi ( k ) + ηk [ϕi ( x k )[ xk − ci ( k )][ xk − ci ( k )]T − f i ( k )] (1 − ηk ) + ηkϕ i ( xk ) 6 Sztuczne sieci neuronowe Algorytm probabilistyczny Etap II - uczenie z nadzorem Cechy charakterystyczne: • Bazuje, podobnie jak w sieciach sigmoidalnych, na minimalizacji funkcji celu w postaci: p E= • na ka dym etapie algorytmu nast puje równocze nie adaptacja centrów i macierzy wagowej 1 2 i =1 ei = di − f ( xi ) = di − • parametry wszystkich funkcji radialnych sieci podlegaj adaptacji (w algorytmie k- rednich tylko jedno centrum podlegało adaptacji) ei2 H j =1 wj ϕ j ( xi − ci ) • Mo na dokonywa równolegle aktualizacji wag, centrów i dyspersji (dowolne metody gradientowe) ∂E ∂wi ∂E ci ( k + 1) = ci ( k ) − ηc ∂ci ∂E σ i ( k + 1) = σ i ( k ) −ησ ∂σ i wi ( k + 1) = wi ( k ) − ηw Sztuczne sieci neuronowe 7 Sztuczne sieci neuronowe 8 Uczenie sieci RBF Sie RBF, zalety i wady • łatwy proces nauki sieci RBF (tj. dobór wag sieci) w porównaniu z algorytmami uczenia perceptronu wielowarstwowego • w sieci RBF funkcja kosztu okre lona jako bł d redniokwadratowy posiada jedno minimum globalne • łatwiejszy dobór struktury sieci ze wzgl du na wyst powanie tylko jednej warstwy ukrytej • Łatwiejsza interpretacja działania sieci tj. okre lenie udziału poszczególnych funkcji bazowych w tworzeniu globalnej funkcji przetwarzania sieci • dla rozwi zania pewnych zada obliczeniowych uzyskuje si mniejsz liczb wag w sieci RBF ni wag w sieci MLP ( dla niektórych odwrotnie) • sie RBF, przy nieprawidłowo dobranych parametrach funkcji bazowych, mo e łatwo utraci zdolno uogólniania • aktualny pozostaje problem doboru liczby funkcji bazowych • Dobór liczby funkcji bazowych jest kluczowym problemem przy wła ciwym rozwi zaniu problemu aproksymacji. • Dobór wła ciwej liczby neuronów zale y od wielu czynników: wymiarowo ci problemu, liczby danych ucz cych, funkcji aproksymowanej. • Zaleca si stosowanie tzw. konstruktywnej metody doboru struktury sieci, w której stopniowo zwi ksza si liczb funkcji bazowych i testuje bł d sieci. Sztuczne sieci neuronowe 9 10 Sztuczne sieci neuronowe PNN • Probabilistyczna sie neuronowa PNN jest przede wszystkim klasyfikatorem Probabilistyczne sieci neuronowe • PNN reprezentuje metod statystyczn tzw. dyskryminacj j drow , przestawion w postaci czterech warstw: – – – – Warstwa wej ciowa Warstwa wzorców Warstwa sumowania Warstwa wyj ciowa Sztuczne sieci neuronowe 12 Przykład prostego klasyfikatora Przykład prostego klasyfikatora • Mamy trzy klasy (populacje) elementów: X, O, Y • „?” jest nieznanym przypadkiem i powinien by sklasyfikowany do jednej z powy szych klas • Bardziej skuteczna metoda brałaby pod uwag równie pozostałe elementy zbioru ucz cego. Przy czym ich wpływ na decyzj powinien by ró ny: – przykłady le ce blisko „?” powinny mie du y wpływ na decyzj (zwi ksza prawdopodobie stwo zaklasyfikowania do populacji, któr reprezentuj ) – przykłady le ce daleko od „?” powinny mie mały wpływ na decyzj (zmniejsza prawdopodobie stwo zaklasyfikowania do populacji, któr reprezentuj ) – tworzenie „stref wpływów” • Metoda najbli szego s siada (1-NN) sklasyfikowałaby przypadek „?” do klasy X poniewa element klasy X jest najbli szy. – Ogólnie: Metoda 1-NN klasyfikuje nieznany przypadek do tej klasy, z której pochodzi przypadek poło ony najbli ej. • To co bardziej efektywny klasyfikator powinien robi to: dla ka dej populacji wyznacza redni „udziałów” wnoszonych przez przykłady ze zbioru ucz cego nale ce do tej populacji • Metoda k-NN sklasyfikowałaby nieznany przypadek „?” do klasy X poniewa , w ród k najbli szych elementów najwi kszy procent stanowi elementy z populacji X. • Nieznany przypadek powinien by nast pnie przypisany do tej populacji, dla której warto rednia „udziałów” jest najwi ksza 13 Sztuczne sieci neuronowe 14 Sztuczne sieci neuronowe Teoria klasyfikacji p(x/K1) 0.2 Je eli funkcja g sto ci ka dej jest znana (fk jest funkcj klasy k), wówczas przypadek X nale y do je eli: populacji g sto ci nieznany klasy i, fi(X) >fj (X), dla wszystkich j≠ ≠i Estymacja funkcji g sto ci p(x/K2) • Estymacja funkcji g sto ci w oparciu o zbiór ucz cy (przykłady z poszczególnych populacji) 0.1 • Funkcja g sto ci dla pojedynczego przypadku: 0.0 0 5 c 10 15 1 x σ x − xk W x - nieznany przypadek xk - k-ty przykład ze zbioru ucz cego W- funkcja σ - dyspersja σ Parametry, które mog by dodatkowo wł czone: • Funkcja g sto ci dla jednej populacji • Prawdopodobie stwo a priori (h) (prawdopodobie stwo, e nieznany przypadek został wylosowany z danej populacji) 1 pσ • Koszt bł dnej klasyfikacji (c) - koszt niewła ciwej klasyfikacji nieznanego przypadku • Reguła decyzyjna przybiera posta (reguła Bayesowska): k =1 W x − xk σ • Estymacja funkcji g sto ci jest tym lepsza im wi kszy jest zbiór ucz cy hi ci fi(X) > hj cj fj (X), dla wszystkich j≠ ≠i Sztuczne sieci neuronowe p 15 Sztuczne sieci neuronowe 16 Funkcja W Dane wej ciowe n-wymiarowe • Reprezentuje „stref wpływów” • Funkcja g sto ci dla jednego przykładu – du e warto ci w przypadku małych odległo ci mi dzy wektorem nieznanym a przykładami ucz cymi – maleje do zera w miar wzrostu odległo ci − 1 e σ n ( 2π ) n / 2 g ( x) = pi σ 2π k =1 e − 2σ 1 gi ( X ) = n piσ (2π ) n / 2 ( x− x k ) 2 2σ 2 2 • Funkcja g sto ci dla populacji • Cz sto u ywana jest funkcja Gaussowska: 1 x − xk 2 pi e − x − xik 2σ 2 2 k =1 • Reguła decyzyjna (eliminacja wspólnych czynników) gi(X) >gj (X), dla wszystkich j≠i 1 gi ( X ) = pi 17 Sztuczne sieci neuronowe e − x − xik 2 σ2 k =1 18 Sztuczne sieci neuronowe Uczenie Wady i zalety • Zbiór ucz cy powinien by reprezentatywny dla analizowanych populacji • Zalety: – Szybki proces uczenia – gwarantuje zbie no do optymalnego klasyfikatora wraz ze wzrostem liczby elementów w zbiorze ucz cym – Dodawanie i usuwanie nowych przypadków bez du ych zmian w uczeniu • Dodawanie i usuwanie przykładów ucz cych powoduje jedynie dodawanie i usuwanie neuronów w warstwie drugiej • Wady • Uczenie bazuje głownie na doborze warto ci współczynników dyspersji – Mniejsze zdolno ci uogólniaj ce w porównaniu z sieciami wielowarstwowymi – Du e wymagania co do pami ci – Wolne działanie sieci – Du e wymagania dotycz ce jako ci danych ucz cych – na bazie wiedzy o analizowanym problemie – u ywaj c technik heurystycznych (np. leave-one-out) Sztuczne sieci neuronowe pi 19 Sztuczne sieci neuronowe 20