e uczenie sieci

Transkrypt

e uczenie sieci

Plan wykładu
• Algorytmy gradientowe optymalizacji
– Algorytm najwi kszego spadku
– Algorytm zmiennej metryki
– Algorytm gradientów sprz onych
Sztuczne sieci neuronowe
• Algorytmy doboru współczynnika uczenia
Wykład 4: Algorytmy optymalizacji
–
–
–
–
Małgorzata Kr towska
adaptacyjny dobór współczynnika uczenia
dobór współczynnika przez minimalizacj kierunkow
reguła delta-bar-delta
metoda gradientów sprz onych z regularyzacj
• Algorytmy heurystyczne
Katedra Oprogramowania
e-mail: [email protected]
– algorytm Quickprop
– algorytm RPROP
2
Uczenie z nauczycielem
Algorytmy gradientowe optymalizacji
• Minimalizacja funkcji celu E
Algorytmy gradientowe bazuj na rozwini ciu w szereg Taylora funkcji
celu E(W) w najbli szym s siedztwie znanego rozwi zania W=
[w1,w2, ..., wn]T (na starcie algorytmu jest to punkt pocz tkowy W0):
• Zakładaj c ci gł funkcj aktywacji, minimalizacja odbywa si
metodami gradientowymi
E (W + p) = E (W ) + [ g (W )]T p +
• W ka dym kroku uczenia wyznacza si tzw. kierunek minimalizacji p
(W(k))
gdzie:
∂E ∂E
g (W ) = ∇ E =
,
,
∂W1 ∂W2
• Korekcja wag odbywa si według wzoru:
W (k + 1) = W (k ) + ηp (W (k ))
H (W ) =
gdzie η jest współczynnikiem uczenia z przedziału [0, 1].
3
1 T
p H (W ) p +
2
∂E
,
∂Wn
T
∂E
∂W1∂W1
∂E
∂Wn ∂W1
∂E
∂W1∂Wn
∂E
∂Wn ∂Wn
4
Algorytmy gradientowe optymalizacji
Ogólny algorytm optymalizacji
• Punkt W=Wk jest punktem optymalnym funkcji E(W), je li
Zakładamy W0=Wk
– g(Wk)=0
– hesjan H(Wk) jest dodatnio okre lony
• W praktyce ( ze wzgl du na na sko czon dokładno
si , e punkt Wk jest punktem optymalnym, je eli:
oblicze ) zakłada
• Minimalizacja kierunkowa funkcji E(W) na kierunku pk w celu
wyznaczenia takiej warto ci ηk, aby E(Wk+ηkpk) < E(Wk)
E (Wk −1 ) − E(Wk ) ≤ τ (1 + E (Wk ) )
Wk −1 − Wk ≤ τ (1 + Wk )
• Wyznaczenie nowego rozwi zania Wk+1=Wk+ηkpk oraz odpowiadaj cej
mu warto ci E(Wk), g(Wk) ( i ew. H(Wk)) i powrót do pkt 1.
g (Wk ) ≤ 3 τ (1 + E(Wk ) )
gdzie τ przyj ta dokładno
Ró nice: wyznaczanie kierunku poszukiwa p oraz kroku η.
oblicze
5
• Test: je eli Wk spełnia warunki testowe jest punktem optymalnym to
ko czymy obliczenia, w przeciwnym przypadku pkt. 2
• Wyznaczanie wektora kierunku poszukiwa pk w punkcie Wk.
6
Algorytm najwi kszego spadku
Ograniczenie do liniowego przybli enia funkcji E(W) w najbli szym
s siedztwie znanego rozwi zania W:
Wk +1 = Wk + ∆Wk
• Podej cie klasyczne
∆Wk = ηpk
aby E(Wk+1)<E(Wk) wystarczy aby [g(Wk)]Tp < 0
• Metoda momentu
∆Wk = ηpk + α (WK − Wk −1 )
Wektor kierunkowy w metodzie najwi kszego spadku przyjmuje posta :
pk=-g(Wk)
Uwagi:
E (W + p) = E (W ) + [ g (W )]T p + O(h 2 )
η
∆Wk =
pk
– na płaskich odcinkach
1 −α
(dla =0.9 oznacza to 10 krotne przyspieszenie procesu uczenia)
– pozwala na wyj cie z minimów lokalnych
– nale y kontrolowa warto E
7
8
Algorytm zmiennej metryki (quasi-Newtona)
Wykres wpływu działania momentu na proces uczenia
Kwadratowe przybli enie funkcji E(W) w s siedztwie znanego
rozwi zania Wk:
E (W + p) = E (W ) + [ g (W )]T p +
1 T
p H (W ) p + O( h 3 )
2
kierunek p jest wyznaczony ze wzoru:
pk = −[ H (Wk )]−1 g (Wk )
Problemy:
∆Wk = ηpk − βWk
– wymóg dodatniej okre lono ci hesjanu w ka dym kroku
Rozwi zanie
• Metoda „weight decay”
– zastosowanie przybli enia hesjanu przy u yciu metody zmiennej metryki
∆Wk = ηpk − βWk
zabezpiecza przez zbytnim wzrostem wag
9
10
Przybli enie hesjanu polega na modyfikacji hesjanu z kroku poprzedniego
o pewn poprawk , która powoduje, e aktualna warto hesjanu G(Wk)
przybli a krzywizn funkcji celu E zgodnie z zale no ci :
G(Wk)(Wk-Wk-1)=g(Wk)-g(Wk-1)
• warto startowa V0=1
• pierwsza iteracja zgodnie z algorytmem najwi kszego spadku
• odtwarzana macierz hesjanu jest w ka dym kroku dodatnio okre lona
(st d g(Wk)=0 odpowiada rozwi zaniu problemu optymalizacji)
Na podstawie powy szego zało enia mo na otrzyma wzory okre laj ce
hesjan w kroku k-tym:
Vk = Vk −1 1 +
gdzie
rkTVk −1 rk s k skT sk rkT Vk −1 + Vk −1 rk s Tk
−
s Tk rk
s Tk rk
sTk rk
• metoda uwa ana za jedn z najlepszych metod optymalizacji funkcji
wielu zmiennych
Wady:
• stosunkowo du a zło ono obliczeniowa (n2 elementów hesjanu)
• du e wymagania co do pami ci przy przechowywaniu macierzy hesjanu
sk=Wk-Wk-1;
rk=g(Wk)-g(Wk-1);
Vl=[G(Wk)]-1.
11
12
Metoda gradientów sprz onych
Metoda gradientów sprz onych
• rezygnacja z bezpo redniej informacji o hesjanie
• nowy kierunek poszukiwa ma by ortogonalny i sprz ony z poprzednim
kierunkami p0, p1, ..., pk-1, st d:
p k = − g (Wk ) +
k −1
j= 0
• metoda mniej skuteczna od metody zmiennej metryki, ale bardziej
skuteczna ni metoda najwi kszego spadku
• stosuje si j do optymalizacji przy bardzo du ej liczbie zmiennych
β kj p j
co mo na upro ci do postaci:
• ze wzgl du na bł dy zaokr gle w trakcie zatraca si własno
ortogonalno ci mi dzy wektorami kierunków minimalizacji. Po
wykonaniu n iteracji przeprowadza si jej ponowny start ( w I kroku
zgodnie z algorytmem najwi kszego spadku)
pk = − g (Wk ) + β k −1 pk −1
współczynnik sprz enia (gk=g(Wk)):
g Tk ( g k − g k −1 )
β k −1 =
g kT−1 g k −1
Zbiór wektorów pi jest wzajemnie sprz ony wzgl dem macierzy H, je eli
piT Hp j = 0, i ≠ j
13
14
Metody doboru współczynnika uczenia
Stały współczynnik uczenia
Po okre leniu wła ciwego kierunku pk minimalizacji, nale y dobra
odpowiedni warto współczynnika uczenia, aby nowy punkt Wk+1
le ał mo liwie najbli ej minimum funkcji E(W) na kierunku pk
• Stały współczynnik uczenia
– stosuje si głównie w poł czeniu z metod najwi kszego spadku
– sposób najmniej efektywny, gdy nie uzale nia warto ci współczynnika od
od wektora gradientu oraz kierunku poszukiwa p w danej iteracji
– algorytm ma skłonno utykania w minimach lokalnych
– cz sto dobór współczynnika odbywa si oddzielnie dla ka dej warstwy,
przyjmuj c
Wk +1 = Wk + ηk pk
η ≤ min
gdzie ni liczba wej
15
1
ni
i-tego neuronu w warstwie
16
Adaptacyjny dobór współczynnika uczenia
• zmiany współczynnika uczenia dopasowuj si do aktualnych zmian
warto ci funkcji celu w czasie. Warto bł du ε w i-tej iteracji:
Adaptacja współczynnika uczenia:
(y
ηi +1 =
ε=
M
j =1
j
−d j)
2
ηi ρd
ηi ρ i
gdy ε i > kw ε i −1
gdy ε i ≤ kw ε i −1
gdzie:
εi-1, εi - bł d odpowiednio w (i-1)-szej iteracji oraz w i-tej iteracji
okre la strategi zmian warto ci współczynnika uczenia.
• Przyspieszenie procesu uczenia uzyskuje si poprzez ci głe zwi kszanie
współczynnika η sprawdzaj c jednocze nie czy nie zacznie wzrasta w
porównaniu z bł dem obliczonym przy poprzedniej warto ci η
ηi-1; ηi - współczynnik uczenia w kolejnych iteracjach
kw - dopuszczalny współczynnik wzrostu bł du
ρd - współczynnik zmniejszania warto ci
ρi - współczynnik zwi kszaj cy warto
Przykładowe warto ci współczynników: kw = 1,04; ρd =0.7; ρi = 1.05
17
Wpływ adaptacyjnego doboru współczynnika uczenia na proces uczenia
18
Dobór współczynnika uczenia przez
minimalizacj kierunkow
• Polega na minimalizacji kierunkowej funkcji celu na wyznaczonym
wcze niej kierunku pk.
• Cel: takie dobranie warto ci ηk aby nowy punkt Wk+1=Wk+ηkpk
odpowiadał minimum funkcji celu na danym kierunku
– Je eli ηk odpowiada dokładnie minimum funkcji na danym kierunku pk to
pochodna kierunkowa w punkcie Wk+1=Wk+ηkpk musi by równa 0
• W praktyce wyznaczony punkt Wk+1 odpowiada tylko w przybli eniu
rzeczywistemu punktowi minimalnemu na danym kierunku.
19
20
Dobór współczynnika uczenia przez
minimalizacj kierunkow
Minimalizacja kierunkowa
W celu „regulacji” dokładno ci wyznaczenia współczynnika uczenia
wprowadza si współczynnik 0<γ 2<1, który stanowi ułamek pochodnej
funkcji celu na kierunku pk w punkcie wyj ciowym Wk.
Algorytm pozwalaj cy na wyznaczenie optymalnej warto ci ηk
przeprowadza si dopóty, dopóki spełnione s nast puj ce warunki:
[g (Wk + ηk pk )]T pk ≥ γ 2 [g (Wk )]T pk
– informacje o warto ciach funkcji celu
– wyznaczanie minimum poprzez kolejne podziały zało onego na wst pie
zakresu warto ci wektora W
• Metody gradientowe
– wykorzystuj zarówno warto
wektora kierunku pk.
E (Wk + ηk pk ) − E (Wk ) ≥ γ 1ηk [g (Wk )] pk
oraz
• Metody bezgradientowe
T
funkcji jak te jej pochodn wzdłu
– znaczne przyspieszenie wyznaczenia minimum na danym kierunku
informacja o kierunku spadku)
przyj cie 0 ≤ γ1 ≤ γ2 < 1 gwarantuje jednoczesne spełnienie obu tych
warunków.
21
Przykład metody bezgradientowej
• Metoda bazuje na aproksymacji funkcji celu na kierunku pk, a nast pnie
wyznacza minimum otrzymanej w ten sposób funkcji jednej zmiennej η
• Wielomian aproksymuj cy:
P(η)=a2 η2 +a1η +a0
gdzie a2 ,a1,a0 - współczynniki wielomianu okre lane w ka dym cyklu
optymalizacyjnym
• Wyznaczanie współczynników wielomianu
– wybór trzech dowolnych punktów W1, W2, W3 le cych na kierunku pk, tzn.
W1=W+ η1pk; W2=W+ η2pk; W3=W+ η3pk;(W - poprzednie rozwi zanie);
– E1=E(W1); E2=E(W2); E3=E(W3); wówczas
P(η1)= E1; P(η2)= E2; P(η3)= E3;
– Rozwi zuj c układ równa otrzymujemy współczynniki wielomianu
22
Inne metody doboru współczynnika uczenia
• Reguła delta-bar-delta
– jest metod adaptacyjn opracowan dla kwadratowej definicji funkcji celu
i metody najwi kszego spadku
– ka dej wadze Wij jest przyporz dkowany indywidualnie dobrany
współczynnik uczenia
– Wada: du a zło ono obliczeniowa
– Zaleta: przyspieszenie procesu uczenia i zwi kszenie prawdopodobie stwa
osi gni cia minimum globalnego
• Metoda gradientów sprz onych z regularyzacj
– odmiana zwykłej metody gradientów sprz onych ł cz c jednocze nie
wyznaczanie kierunku p oraz optymalnego kroku
• Porównuj c pochodn wielomianu do zera otrzymujemy ηmin=(-a1/2a2)
• Po okre leniu s sprawdzane warunki. Je li algorytm ma by kontynuowany to
pk.
wybiera si kolejne punkty le ce na kierunku pk w pobli u punktu W+ ηmin23
24
Algorytm RPROP
(ang. Resilent backPROPagation)
Algorytm Quickprop
• odmiana algorytmu gradientowego zawiera elementy metody
newtonowskiej i wiedzy heurystycznej
• zawiera elementy zabezpieczaj ce przez utkni ciem w płytkim
minimum lokalnym (ze wzgl du na nasycenie neuronu)
• Zmiana wagi w k-tym kroku
∆Wij ( k ) = −ηk
∆Wij ( k ) = −ηij(k ) sgn
η
(k )
ij
gdzie
∂E (W ( k ))
+ γWij ( k ) + α ijk ∆Wij ( k −1)
∂Wij
Sij (k ) =
( k −1)
min aηij ,ηmax
= max bηij( k −1) ,ηmin
ηij( k −1)
)
)
dla S ij ( k ) S ij ( k − 1) > 0
dla S ij ( k ) Sij (k − 1) < 0
w pozostalyc h przypadkac h
∂E (W ( k ))
∂Wij
– a=1.2; b=0.5
ηmin; ηmax - minimalna i maksymalna warto
• Zalety: szybka zbie no dla wi kszo ci trudnych problemów
• kilkusetkrotne przyspieszenie procesu uczenia (w porównaniu z
algorytmem najwi kszego spadku)
• małe prawdopodobie stwo utkni cia w minimum lokalnym
(
(
∂E (W ( k ))
∂Wij
współczynnika uczenia (10-6; 50)
Zalety
– przyspieszenie procesu uczenia w obszarach gdzie nachylenie funkcji celu
jest niewielkie
25
26

e uczenie sieci

Transkrypt

Podobne dokumenty

Sieci neuronowe - Kognitywistyka

sieci neuronowe, data mining

"Kwiatex" Stanislaw Mazurowski, Szadek, Osiny 40

Literatura / Przerabiany materiał

dowiedz się więcej

Sztuczna Inteligencja - Egzamin

Źródła światła Źródła światła dzielimy na naturalne oraz sztuczne

Sztuczne sieci neuronowe Plan wykładu Logika „ostra” a logika