e uczenie sieci
Transkrypt
e uczenie sieci
Plan wykładu • Algorytmy gradientowe optymalizacji – Algorytm najwi kszego spadku – Algorytm zmiennej metryki – Algorytm gradientów sprz onych Sztuczne sieci neuronowe • Algorytmy doboru współczynnika uczenia Wykład 4: Algorytmy optymalizacji – – – – Małgorzata Kr towska adaptacyjny dobór współczynnika uczenia dobór współczynnika przez minimalizacj kierunkow reguła delta-bar-delta metoda gradientów sprz onych z regularyzacj • Algorytmy heurystyczne Katedra Oprogramowania e-mail: [email protected] – algorytm Quickprop – algorytm RPROP 2 Sztuczne sieci neuronowe Uczenie z nauczycielem Algorytmy gradientowe optymalizacji • Minimalizacja funkcji celu E Algorytmy gradientowe bazuj na rozwini ciu w szereg Taylora funkcji celu E(W) w najbli szym s siedztwie znanego rozwi zania W= [w1,w2, ..., wn]T (na starcie algorytmu jest to punkt pocz tkowy W0): • Zakładaj c ci gł funkcj aktywacji, minimalizacja odbywa si metodami gradientowymi E (W + p) = E (W ) + [ g (W )]T p + • W ka dym kroku uczenia wyznacza si tzw. kierunek minimalizacji p (W(k)) gdzie: ∂E ∂E g (W ) = ∇ E = , , ∂W1 ∂W2 • Korekcja wag odbywa si według wzoru: W (k + 1) = W (k ) + ηp (W (k )) H (W ) = gdzie η jest współczynnikiem uczenia z przedziału [0, 1]. Sztuczne sieci neuronowe 3 Sztuczne sieci neuronowe 1 T p H (W ) p + 2 ∂E , ∂Wn T ∂E ∂W1∂W1 ∂E ∂Wn ∂W1 ∂E ∂W1∂Wn ∂E ∂Wn ∂Wn 4 Algorytmy gradientowe optymalizacji Ogólny algorytm optymalizacji • Punkt W=Wk jest punktem optymalnym funkcji E(W), je li Zakładamy W0=Wk – g(Wk)=0 – hesjan H(Wk) jest dodatnio okre lony • W praktyce ( ze wzgl du na na sko czon dokładno si , e punkt Wk jest punktem optymalnym, je eli: oblicze ) zakłada • Minimalizacja kierunkowa funkcji E(W) na kierunku pk w celu wyznaczenia takiej warto ci ηk, aby E(Wk+ηkpk) < E(Wk) E (Wk −1 ) − E(Wk ) ≤ τ (1 + E (Wk ) ) Wk −1 − Wk ≤ τ (1 + Wk ) • Wyznaczenie nowego rozwi zania Wk+1=Wk+ηkpk oraz odpowiadaj cej mu warto ci E(Wk), g(Wk) ( i ew. H(Wk)) i powrót do pkt 1. g (Wk ) ≤ 3 τ (1 + E(Wk ) ) gdzie τ przyj ta dokładno Ró nice: wyznaczanie kierunku poszukiwa p oraz kroku η. oblicze 5 Sztuczne sieci neuronowe • Test: je eli Wk spełnia warunki testowe jest punktem optymalnym to ko czymy obliczenia, w przeciwnym przypadku pkt. 2 • Wyznaczanie wektora kierunku poszukiwa pk w punkcie Wk. 6 Sztuczne sieci neuronowe Algorytm najwi kszego spadku Algorytm najwi kszego spadku Ograniczenie do liniowego przybli enia funkcji E(W) w najbli szym s siedztwie znanego rozwi zania W: Wk +1 = Wk + ∆Wk • Podej cie klasyczne ∆Wk = ηpk aby E(Wk+1)<E(Wk) wystarczy aby [g(Wk)]Tp < 0 • Metoda momentu ∆Wk = ηpk + α (WK − Wk −1 ) Wektor kierunkowy w metodzie najwi kszego spadku przyjmuje posta : pk=-g(Wk) Uwagi: E (W + p) = E (W ) + [ g (W )]T p + O(h 2 ) Sztuczne sieci neuronowe η ∆Wk = pk – na płaskich odcinkach 1 −α (dla =0.9 oznacza to 10 krotne przyspieszenie procesu uczenia) – pozwala na wyj cie z minimów lokalnych – nale y kontrolowa warto E 7 Sztuczne sieci neuronowe 8 Algorytm najwi kszego spadku Algorytm zmiennej metryki (quasi-Newtona) Wykres wpływu działania momentu na proces uczenia Kwadratowe przybli enie funkcji E(W) w s siedztwie znanego rozwi zania Wk: E (W + p) = E (W ) + [ g (W )]T p + 1 T p H (W ) p + O( h 3 ) 2 kierunek p jest wyznaczony ze wzoru: pk = −[ H (Wk )]−1 g (Wk ) Problemy: ∆Wk = ηpk − βWk – wymóg dodatniej okre lono ci hesjanu w ka dym kroku Rozwi zanie • Metoda „weight decay” – zastosowanie przybli enia hesjanu przy u yciu metody zmiennej metryki ∆Wk = ηpk − βWk zabezpiecza przez zbytnim wzrostem wag 9 Sztuczne sieci neuronowe Sztuczne sieci neuronowe 10 Algorytm zmiennej metryki (quasi-Newtona) Algorytm zmiennej metryki (quasi-Newtona) Przybli enie hesjanu polega na modyfikacji hesjanu z kroku poprzedniego o pewn poprawk , która powoduje, e aktualna warto hesjanu G(Wk) przybli a krzywizn funkcji celu E zgodnie z zale no ci : G(Wk)(Wk-Wk-1)=g(Wk)-g(Wk-1) • warto startowa V0=1 • pierwsza iteracja zgodnie z algorytmem najwi kszego spadku • odtwarzana macierz hesjanu jest w ka dym kroku dodatnio okre lona (st d g(Wk)=0 odpowiada rozwi zaniu problemu optymalizacji) Na podstawie powy szego zało enia mo na otrzyma wzory okre laj ce hesjan w kroku k-tym: Vk = Vk −1 1 + gdzie rkTVk −1 rk s k skT sk rkT Vk −1 + Vk −1 rk s Tk − s Tk rk s Tk rk sTk rk • metoda uwa ana za jedn z najlepszych metod optymalizacji funkcji wielu zmiennych Wady: • stosunkowo du a zło ono obliczeniowa (n2 elementów hesjanu) • du e wymagania co do pami ci przy przechowywaniu macierzy hesjanu sk=Wk-Wk-1; rk=g(Wk)-g(Wk-1); Vl=[G(Wk)]-1. Sztuczne sieci neuronowe 11 Sztuczne sieci neuronowe 12 Metoda gradientów sprz onych Metoda gradientów sprz onych • rezygnacja z bezpo redniej informacji o hesjanie • nowy kierunek poszukiwa ma by ortogonalny i sprz ony z poprzednim kierunkami p0, p1, ..., pk-1, st d: p k = − g (Wk ) + k −1 j= 0 • metoda mniej skuteczna od metody zmiennej metryki, ale bardziej skuteczna ni metoda najwi kszego spadku • stosuje si j do optymalizacji przy bardzo du ej liczbie zmiennych β kj p j co mo na upro ci do postaci: • ze wzgl du na bł dy zaokr gle w trakcie zatraca si własno ortogonalno ci mi dzy wektorami kierunków minimalizacji. Po wykonaniu n iteracji przeprowadza si jej ponowny start ( w I kroku zgodnie z algorytmem najwi kszego spadku) pk = − g (Wk ) + β k −1 pk −1 współczynnik sprz enia (gk=g(Wk)): g Tk ( g k − g k −1 ) β k −1 = g kT−1 g k −1 Zbiór wektorów pi jest wzajemnie sprz ony wzgl dem macierzy H, je eli piT Hp j = 0, i ≠ j Sztuczne sieci neuronowe 13 14 Sztuczne sieci neuronowe Metody doboru współczynnika uczenia Stały współczynnik uczenia Po okre leniu wła ciwego kierunku pk minimalizacji, nale y dobra odpowiedni warto współczynnika uczenia, aby nowy punkt Wk+1 le ał mo liwie najbli ej minimum funkcji E(W) na kierunku pk • Stały współczynnik uczenia – stosuje si głównie w poł czeniu z metod najwi kszego spadku – sposób najmniej efektywny, gdy nie uzale nia warto ci współczynnika od od wektora gradientu oraz kierunku poszukiwa p w danej iteracji – algorytm ma skłonno utykania w minimach lokalnych – cz sto dobór współczynnika odbywa si oddzielnie dla ka dej warstwy, przyjmuj c Wk +1 = Wk + ηk pk η ≤ min gdzie ni liczba wej Sztuczne sieci neuronowe 15 Sztuczne sieci neuronowe 1 ni i-tego neuronu w warstwie 16 Adaptacyjny dobór współczynnika uczenia Adaptacyjny dobór współczynnika uczenia • zmiany współczynnika uczenia dopasowuj si do aktualnych zmian warto ci funkcji celu w czasie. Warto bł du ε w i-tej iteracji: Adaptacja współczynnika uczenia: (y ηi +1 = ε= M j =1 j −d j) 2 ηi ρd ηi ρ i gdy ε i > kw ε i −1 gdy ε i ≤ kw ε i −1 gdzie: εi-1, εi - bł d odpowiednio w (i-1)-szej iteracji oraz w i-tej iteracji okre la strategi zmian warto ci współczynnika uczenia. • Przyspieszenie procesu uczenia uzyskuje si poprzez ci głe zwi kszanie współczynnika η sprawdzaj c jednocze nie czy nie zacznie wzrasta w porównaniu z bł dem obliczonym przy poprzedniej warto ci η ηi-1; ηi - współczynnik uczenia w kolejnych iteracjach kw - dopuszczalny współczynnik wzrostu bł du ρd - współczynnik zmniejszania warto ci ρi - współczynnik zwi kszaj cy warto Przykładowe warto ci współczynników: kw = 1,04; ρd =0.7; ρi = 1.05 Sztuczne sieci neuronowe 17 Adaptacyjny dobór współczynnika uczenia Wpływ adaptacyjnego doboru współczynnika uczenia na proces uczenia Sztuczne sieci neuronowe 18 Dobór współczynnika uczenia przez minimalizacj kierunkow • Polega na minimalizacji kierunkowej funkcji celu na wyznaczonym wcze niej kierunku pk. • Cel: takie dobranie warto ci ηk aby nowy punkt Wk+1=Wk+ηkpk odpowiadał minimum funkcji celu na danym kierunku – Je eli ηk odpowiada dokładnie minimum funkcji na danym kierunku pk to pochodna kierunkowa w punkcie Wk+1=Wk+ηkpk musi by równa 0 • W praktyce wyznaczony punkt Wk+1 odpowiada tylko w przybli eniu rzeczywistemu punktowi minimalnemu na danym kierunku. Sztuczne sieci neuronowe 19 Sztuczne sieci neuronowe 20 Dobór współczynnika uczenia przez minimalizacj kierunkow Minimalizacja kierunkowa W celu „regulacji” dokładno ci wyznaczenia współczynnika uczenia wprowadza si współczynnik 0<γ 2<1, który stanowi ułamek pochodnej funkcji celu na kierunku pk w punkcie wyj ciowym Wk. Algorytm pozwalaj cy na wyznaczenie optymalnej warto ci ηk przeprowadza si dopóty, dopóki spełnione s nast puj ce warunki: [g (Wk + ηk pk )]T pk ≥ γ 2 [g (Wk )]T pk – informacje o warto ciach funkcji celu – wyznaczanie minimum poprzez kolejne podziały zało onego na wst pie zakresu warto ci wektora W • Metody gradientowe – wykorzystuj zarówno warto wektora kierunku pk. E (Wk + ηk pk ) − E (Wk ) ≥ γ 1ηk [g (Wk )] pk oraz • Metody bezgradientowe T funkcji jak te jej pochodn wzdłu – znaczne przyspieszenie wyznaczenia minimum na danym kierunku informacja o kierunku spadku) przyj cie 0 ≤ γ1 ≤ γ2 < 1 gwarantuje jednoczesne spełnienie obu tych warunków. 21 Sztuczne sieci neuronowe Przykład metody bezgradientowej • Metoda bazuje na aproksymacji funkcji celu na kierunku pk, a nast pnie wyznacza minimum otrzymanej w ten sposób funkcji jednej zmiennej η • Wielomian aproksymuj cy: P(η)=a2 η2 +a1η +a0 gdzie a2 ,a1,a0 - współczynniki wielomianu okre lane w ka dym cyklu optymalizacyjnym • Wyznaczanie współczynników wielomianu – wybór trzech dowolnych punktów W1, W2, W3 le cych na kierunku pk, tzn. W1=W+ η1pk; W2=W+ η2pk; W3=W+ η3pk;(W - poprzednie rozwi zanie); – E1=E(W1); E2=E(W2); E3=E(W3); wówczas P(η1)= E1; P(η2)= E2; P(η3)= E3; – Rozwi zuj c układ równa otrzymujemy współczynniki wielomianu Sztuczne sieci neuronowe 22 Inne metody doboru współczynnika uczenia • Reguła delta-bar-delta – jest metod adaptacyjn opracowan dla kwadratowej definicji funkcji celu i metody najwi kszego spadku – ka dej wadze Wij jest przyporz dkowany indywidualnie dobrany współczynnik uczenia – Wada: du a zło ono obliczeniowa – Zaleta: przyspieszenie procesu uczenia i zwi kszenie prawdopodobie stwa osi gni cia minimum globalnego • Metoda gradientów sprz onych z regularyzacj – odmiana zwykłej metody gradientów sprz onych ł cz c jednocze nie wyznaczanie kierunku p oraz optymalnego kroku • Porównuj c pochodn wielomianu do zera otrzymujemy ηmin=(-a1/2a2) • Po okre leniu s sprawdzane warunki. Je li algorytm ma by kontynuowany to pk. wybiera si kolejne punkty le ce na kierunku pk w pobli u punktu W+ ηmin23 Sztuczne sieci neuronowe Sztuczne sieci neuronowe 24 Algorytm RPROP (ang. Resilent backPROPagation) Algorytm Quickprop • odmiana algorytmu gradientowego zawiera elementy metody newtonowskiej i wiedzy heurystycznej • zawiera elementy zabezpieczaj ce przez utkni ciem w płytkim minimum lokalnym (ze wzgl du na nasycenie neuronu) • Zmiana wagi w k-tym kroku ∆Wij ( k ) = −ηk ∆Wij ( k ) = −ηij(k ) sgn η (k ) ij gdzie ∂E (W ( k )) + γWij ( k ) + α ijk ∆Wij ( k −1) ∂Wij Sij (k ) = ( k −1) min aηij ,ηmax = max bηij( k −1) ,ηmin ηij( k −1) ) ) dla S ij ( k ) S ij ( k − 1) > 0 dla S ij ( k ) Sij (k − 1) < 0 w pozostalyc h przypadkac h ∂E (W ( k )) ∂Wij – a=1.2; b=0.5 ηmin; ηmax - minimalna i maksymalna warto • Zalety: szybka zbie no dla wi kszo ci trudnych problemów • kilkusetkrotne przyspieszenie procesu uczenia (w porównaniu z algorytmem najwi kszego spadku) • małe prawdopodobie stwo utkni cia w minimum lokalnym Sztuczne sieci neuronowe ( ( ∂E (W ( k )) ∂Wij współczynnika uczenia (10-6; 50) Zalety – przyspieszenie procesu uczenia w obszarach gdzie nachylenie funkcji celu jest niewielkie 25 Sztuczne sieci neuronowe 26