SZTUCZNE SIECI NEURONOWE

Transkrypt

www.kwmimkm.polsl.pl
METODY
HEURYSTYCZNE
KRYTERIA
ZATRZYMANIA AE
wykład 4
2
1
KRYTERIUM MAKSYMALNEGO KOSZTU
• Algorytm koń
kończy dział
działanie, jeś
jeśli koszt algorytmu
przekroczy zał
założoną
oną wartość
wartość maksymalną
maksymalną Kmax.
/ Zwykle nie jest łatwo (bez
dostatecznie dobrej znajoznajomoś
mości funkcji przystosowaprzystosowania)
nia) okreś
określić
lić wartość
wartość
zadowalają
zadowalającą.
Φ
t
3
KRYTERIUM MIN. SZYBKOŚ
SZYBKOŚCI POPRAWY
Algorytm jest zatrzymywany, jeś
jeśli w kolejnych τ obliczeobliczeniach wartoś
wartości funkcji przystosowania nie uda się
się
poprawić
poprawić wyniku o wię
więcej niż
niż ε.
Czę
Często ε = 0 - algorytm zatrzymywany, jeś
jeśli nie uda się
się
uzyskać
uzyskać lepszego rozwią
rozwiązania w kolejnych τ pokoleniach.
Φ
KRYTERIUM ZADOWALAJĄ
ZADOWALAJĄCEGO POZIOPOZIOMU FUNKCJI PRZYSTOSOWANIA
Zatrzymanie dział
działania gdy AE znajdzie rozwią
rozwiązanie o
wartoś
wartości funkcji przystosowania okreś
określonej przez
użytkownika jako zadowalają
zadowalająca Φs.
• Czę
Często przyję
przyjęta odmiana – przyję
przyjęcie pewnej
maksymalnej dopuszczalnej liczby pokoleń
pokoleń algorytmu.
tmax
2
min. szybkość poprawy
ε
/ AE moż
może dział
działać dowolnie
długo (należ
(należy dodatkowo
okreś
określić
lić maksymalny koszt
znalezienia rozwią
rozwiązania).
Φ
Φs
t
4
SZTUCZNE
SIECI
NEURONOWE
τ
t
5
6
HISTORIA SSN
• Bernard Widrow i Ted Hoff (1960) - neuron typu
Adaline z liniową
liniową funkcją
funkcją aktywacji oraz algorytm uczenia
LMS (Least Mean Square), zwany regułą
regułą delty lub regułą
regułą
WidrowaWidrowa-Hoffa.
Hoffa.
• Walter Pitts,
Pitts, Warren McCulloch (1943) – opracoopracowanie matematyczne poję
pojęcia sztucznego neuronu.
neuronu.
Udowodnili też
też, iż
iż ich wynalazek jest w stanie odzwierodzwierciedlić
ciedlić w swym dział
działaniu dowolną
dowolną funkcję
funkcję logiczną
logiczną.
• John Hopfield (1982) – teoria pamię
pamięci asocjacyjnej,
asocjacyjnej,
jako istoty dział
działania sieci rekurencyjnych (sieci
Hopfielda).
Hopfielda).
• Donald Olding Hebb (1949) - zasada uczenia się
się
Hebba (Hebbian learning)
learning) dla sztucznych sieci
neuronowych (SSN).
•Paul Werbos (1974)
1974); David Rumelhart,
Rumelhart, Geoffrey
Hinton,
Hinton, Ronald Williams (1986) - wsteczna
propagacja błę
dów (backpropagation)
błęd
backpropagation) – pozwala na
rozwią
rozwiązywanie problemó
problemów liniowo nieseparowalnych.
nieseparowalnych.
• Frank Rosenblatt (1958) – pierwszy funkcjonują
funkcjonujący
model SSN (perceptron) oraz pierwszy z algorytmó
algorytmów
uczenia SSN.
7
Komó
Komórki nerwowe
(neurony)
8
Synapsa - przekazuje sygnał
sygnał mię
między aksonem a
dendrytem (każ
(każda komó
komórka nerwowa posiada średnio
kilka tysię
tysięcy synaps).
ChemicznoChemiczno-elektryczne
przekazywanie sygnał
sygnałów:
• Dendryty – zbierają
zbierają sygnał
sygnały z innych komó
komórek
nerwowych.
• Ciał
Ciało komó
komórki – agreguje sygnał
sygnały wejś
wejściowe
i tworzy sygnał
sygnał wyjś
wyjściowy.
• Akson – wyprowadza sygnał
sygnał wyjś
wyjściowy i przekazuje
go dalej.
• Pod wpł
wpływem przychodzą
przychodzących
bodź
bodźców wydzielane są
są
neuroprzekaź
neuroprzekaźniki.
niki.
• Neuroprzekaź
błonę
onę komó
komórki
Neuroprzekaźniki oddział
oddziałują
ują na bł
zmieniają
zmieniając jej potencjał
potencjał elektryczny.
9
• Poszczegó
Poszczególne synapsy ró
różnią
nią się
się wielkoś
wielkością
cią oraz moż
możliliwoś
wością
cią gromadzenia neuroprzekaź
neuroprzekaźnikó
ników w pobliż
pobliżu
błony synaptycznej.
10
ZALETY SSN:
• Nie wymagają
wymagają programowania (tylko uczenie);
uczenie);
• Mają
Mają zdolność
zdolność uogó
uogólniania;
lniania;
• Dlatego taki sam impuls na wejś
może popowejściu komó
komórki moż
wodować
wodować inne jej pobudzenie niż
niż dla innego wejś
wejścia.
• Są wysoce odporne na szumy i zniekształ
zniekształcenia sygnał
sygnału;
• Pomagają
Pomagają wykrywać
wykrywać istotne powią
powiązania pomię
pomiędzy
danymi.
STATYSTYKA:
• Liczba komó
komórek nerwowych w mó
mózgu: ok. 1011;
Stosuje się
się je gdy istnieje duż
duża zł
złożoność
oność zagadnienia i
trudno jest jednoznacznie okreś
określić
lić formalne kryteria,
kryteria, dla
stworzenia programu komputerowego.
• Połą
czeń
ń nerwowych – ok. 1014;
Połącze
• Czę
Częstotliwość
stotliwość biologicznego neuronu – ok. kilkaset Hz.
Hz.
11
12
KLASY ZASTOSOWAŃ:
PREDYKCJA
ze znajomoś
znajomości:
KLASYFIKACJA I ROZPOZNAWANIE WZORCÓ
WZORCÓW
Zaszeregowanie danych wejś
wejściowych
do jednej z klas:
{ f ( x n − k ), f ( x n − k +1 ),..., f ( x n )}
przewidzieć
przewidzieć : f ( x n +1 )
bez jawnego definiowania zwią
związku mię
między danymi
wejś
wejściowymi a wyjś
wyjściowymi
13
np. sieć
sieć pozwala na podstawie danych bilansowych stwierdzić
stwierdzić, czy
dane przedsię
przedsiębiorstwo należ
należy do zwyż
zwyżkują
kujących
gospodarczo, czy przeż
przeżywa stagnację
stagnację czy też
też grozi mu regres.
regres.
APROKSYMACJA (interpolacja, ekstrapolacja)
ze znajomoś
znajomości:
{xi , f ( x i )}
odtworzyć
odtworzyć:
f ( x)
14
STEROWANIE
ASOCJACJA
Podanie danego wzorca na
wejś
wejście powinno powodować
powodować
pojawienie się
się odpowiadają
dpowiadającego
mu wzorca na wyjś
wyjściu.
KOJARZENIE DANYCH
automatyzacja procesó
procesów wnioskowania i wykrywanie
istotnych powią
powiązań
zań mię
między danymi.
15
FILTRACJA SYGNAŁ
SYGNAŁÓW
16
PRZYKŁ
PRZYKŁADOWE ZASTOSOWANIA:
OPTYMALIZACJA
statyczna i dynamiczna, optymalizacja kombinatokombinato-ryczna
i zagadnienia bardzo trudne obliczeniowo.
17
18
NIE NADAJĄ
NADAJĄ SIĘ
SIĘ DO:
Perceptron (Rosenblatt 1958):
• Przetwarzania informacji symbolicznej
(np. edytory tekstu);
• Obliczeń
Obliczeń o wymaganej wysokiej dokł
dokładnoś
adności
(sieć
(sieć pracuje jakoś
jakościowo, dają
dając wyniki przybliż
przybliżone);
Ukł
Układ posiadają
posiadający wiele wejść
wejść i jedno wyjś
wyjście:
• Rozwią
Rozwiązywania zagadnień
zagadnień, gdzie rozumowanie
jest przeprowadzanie wieloetapowo
(a musi być
być udokumentowane).
Wejś
Wejście: n stanó
stanów wejsciowych x1,...,x
,...,xn
Wyjś
Wyjście: 0 (-1) lub 1
19
Sprzę
Sprzętowo:
Uwaga: pod poję
pojęciem „perceptronu”
perceptronu” rozumie się
się też
też czasem siec
połą
czonych jednostek (neuronó
połączonych
(neuronów).
20
Sygnał
Sygnał wyjś
wyjściowy yi i-tego neuronu liniowego:
N
yi = ∑ wij x j
j =0
wij
xj
N
Pojedynczy perceptron pozwala na:
• przetwarzanie jednostkowych informacji;
Sygnał
Sygnał wyjś
wyjściowy yi i-tego neuronu (ogó
(ogólnie):
lnie):
• podejmowanie prostych decyzji;
⎛ N
⎞
yi = ϕ ( e ) = ϕ ⎜ ∑ wij x j + B ⎟
⎝ j =1
⎠
• przekazywanie wynikó
wyników są
sąsiadom.
e – łączne
łączne pobudzenie neuronu (net value);
value);
Dopiero w połą
czeniu z innymi wę
połączeniu
węzłami uzyskuje się
się
zdolność
zdolność podejmowania zł
złożonych decyzji.
decyzji.
ϕ – funkcja aktywacji;
aktywacji;
21
UCZENIE SIECI NEURONOWYCH
Uczenie zamiast programowania.
programowania.
Ta sama sieć
sieć moż
może sł
służyć do rozwią
rozwiązywania skrajnie
różnych zadań
zadań.
Uczenie sieci:
sieci:
Wymuszanie okreś
określonego reagowania sieci na zadane
sygnał
sygnały wejś
wejściowe (poprzez odpowiedni dobó
dobór wag).
wag).
Uczenie sieci:
sieci:
B – pró
próg (bias).
W neuronie liniowym e jest
sygnał
sygnałem wyjś
wyjściowym
22
Uczenie z nauczycielem (supervised learning)
• Podawanie sieci zestawó
zestawów sygnał
sygnałów WE wraz
z prawidł
prawidłowym sygnał
sygnałem WY.
• Naś
Naśladowanie nauczyciela,
nauczyciela, jakim jest cią
ciąg uczą
uczący
(podejś
(podejście „szkolne”
szkolne”).
• Zestawy sygnał
sygnałów (zwykle) powtarza się
się wielokrotnie,
zaś
zaś sieć
sieć modyfikuje wagi na wejś
wejściach tak, by zminizminimalizować
malizować błąd
łąd.
• Zmiana wagi na i-tym wejś
wejściu neuronu po pokazaniu
j-ego obiektu uczą
uczącego jest proporcjonalna do
popeł
du δ ( j ).
popełnianego na tym etapie błę
błędu
• uczenie z nauczycielem (nadzorowane);
• uczenie z krytykiem;
krytykiem;
• uczenie bez nauczyciela (nienadzorowane).
nienadzorowane).
– waga dla j-ego wejś
wejścia i-tego neuronu;
neuronu;
– j-ty sygnał
sygnał wejś
wejściowy;
ciowy;
– liczba wejść
wejść w i-tym neuronie.
neuronie.
23
24
UCZENIE PERCEPTRONU:
Sieć
):
Sieć dwuwarstwowa – wieloką
wielokąty wypukł
wypukłe (simpleksy
(simpleksy):
Pojedynczy neuron (lub 1 warstwa neuronó
neuronów) typu perperceptronowego jest w stanie rozdzielić
rozdzielić przestrzeń
przestrzeń obszaobszarów wejś
wejściowych granicą
granicą decyzyjną
decyzyjną na 2 obszary
(półprzestrzenie).
przestrzenie).
• 2 zmienne – prosta;
prosta;
• ogó
ogólnie – hiperpł
hiperpłaszczyzna.
aszczyzna.
Sieci trzytrzy- i wię
więcej warstwowa – dowolne obszary
(w tym wieloką
wielokąty niewypukł
niewypukłe i obszary wielospó
wielospójne).
25
Perceptron moż
może prawidł
prawidłowo klasyfikować
klasyfikować sygnał
sygnały, jeś
jeśli
są liniowo separowalne:
separowalne:
26
Poprawka wartoś
wartości wagi dla perceptronu
w j-ym kroku (regu
(regułła delta):
delta):
∇wi( j ) = ηδ ( j ) xi( j )
δ ( j ) = z( j ) − y( j )
z – wymagana odpowiedź
odpowiedź neuronu;
y – uzyskana odpowiedź
odpowiedź neuronu;
x – dana wejś
wejściowa dla i-tego wejś
wejścia;
27
Waga:
Waga:
η - wspó
współczynnik uczenia
uczenia (learning rate).
rate).
FUNKCJA AKTYWACJI
28
Wartość
Wartość f. aktywacji – sygnał
sygnał wyjś
wyjściowy neuronu .
- dodatnia - sygnał
sygnał pobudzają
pobudzający;
cy;
- ujemna – sygnał
sygnał gaszą
gaszący;
cy;
- „0” - brak połą
czenia mię
połączenia
między neuronami.
neuronami.
• liniowa
liniowa f. aktywacji;
• nieliniowa f. aktywacji:
- f. skoku jednostkowego
(progowa), np.:
Sygnał
Sygnały wyjś
wyjściowe:
gdy e ≥ 0
ϕ ( e ) = {10 gdy
e<0
〈0,1〉
0,1〉 (funkcje unipolarne)
unipolarne)
〈-1,1〉
1,1〉 (funkcje bipolarne).
bipolarne).
- inna, np. typu sigmoidalnego (f. logistyczna):
logistyczna):
1
ϕ (e) =
1 + exp( − β e )
29
β – wspó
współczynnik sterują
sterujący nachyleniem krzywej
30
WYMAGANE CECHY F. AKTYWACJI:
• Cią
Ciągłe przejś
przejście pomię
pomiędzy wartoś
wartością
cią maksymalną
maksymalną
a minimalną
minimalną.
1
• Łatwa do obliczenia i cią
ciągła pochodna
np. dla f. sigmoidalnej:
sigmoidalnej:
ϕ (e) =
WSPÓ
WSPÓŁCZYNNIK β
beta=1
beta=2
1
1 + exp( − β e )
0
-10
ϕ '( e ) = β ⋅ ϕ ( e ) ⋅ [1 − ϕ ( e ) ]
-5
0
5
10
1
BIAS
bias=0
0.5
bias=-2
bias=2
• Moż
Możliwość
liwość wprowadzenia do argumentu parametru β
do ustalania kształ
kształtu krzywej.
0
-10
Bipolarny odpowiednik f. sigmoidalnej:
sigmoidalnej:
-5
0
5
10
32
31
ϕ (e) =
beta=0.5
0.5
32
SIEĆ
SIEĆ NEURONOWA:
NEURONOWA:
- ukł
czonych neuronó
układ połą
połączonych
neuronów (model warstwowy)
exp( β e ) − exp( − β e )
= tgh ( − β e )
exp( β e ) + exp( − β e )
ϕ '( e ) = β ⋅ [1 + ϕ ( e ) ] ⋅ [1 − ϕ ( e ) ]
1
0.5
Sieć
Sieć jednowarstwowa
0
Sieć
Sieć wielowarstwowa
beta=0.5
-10
-5
0
5
Sieć
Sieć wielowarstwowa – min. jedna warstwa ukryta.
ukryta.
10
-0.5
Zwykle:
czenia każ
Zwykle: kilka warstw, połą
połączenia
każdy z każ
każdym
-1
RODZAJE NEURONÓ
NEURONÓW:
33
(min. liczba parametró
parametrów do opisu).
Projektowanie sieci - problemy:
34
• ile warstw ukrytych?
• ile neuronó
neuronów w warstwach?
• warstwy WE (nie liczona);
• warstw ukrytych:
ukrytych:
– efekty dział
działania obserwowane poś
pośrednio poprzez WY;
– poś
pośredniczenie mię
między WE a WY;
– niemoż
dów;
niemożność
ność dokł
dokładnego obliczenia błę
błęd
Liczba neuronó
neuronów w warstwie WE:
WE:
zależ
zależy od liczby danych podawanych na wejś
wejście.
Liczba neuronó
neuronów w warstwie WY:
WY:
• warstwy WY (rozwią
(rozwiązania stawianych zadań
zadań).
zależ
zależy od liczby poszukiwanych rozwią
rozwiązań
zań.
Pamięć
Pamięć neuronu – reprezentowana poprzez wagi.
• Sieć
Sieć z 1 warstwą
warstwą ukrytą
ukrytą powinna nauczyć
nauczyć się
się rozrozwią
wiązywania wię
większoś
kszości postawionych problemó
problemów.
Sieć
Sieć dział
działa jako cał
całość.
ść.
35
• Zbyt wiele warstw ukrytych – pogorszenie procesu
36
nie w szczegó
uczenia (algorytm „grzęź
szczegółach”
grzęźnie
ach”).
• Nieznane są
są problemy wymagają
wymagające sieci z wię
więcej niż
niż 3
warstwami ukrytymi (zwykle 1 lub 2).
Np.(L. Rutkowski, Metody i techniki sztucznej inteligencji, PWN, W-wa 2006):
• Liczbę
Liczbę neuronó
neuronów w warstwie ukrytej moż
można pró
próbować
bować
oszacować
oszacować:
Cią
Ciąg uczą
uczący:
Nu =
1
Wejście x
N we ⋅ N wy
x ∈ [ 0, 2π ]
y = sin( x ),
Oczekiwane
wyjście d=f(x)
0
2
3
4
π
π
π
6
3
4
3
2
2
2
0 0.5
5
6
π
2π
0
0
7
7π
6
8
4π
3
-0.5 −
9
5π
4
3
2
−
2
2
10
5π
6
11
2π
3
1
2
3
2
12
3π
4
13
5π
3
14
11π
6
15
7π
4
3 1
2
2
−
−
−
2
2
2
2
• Zwykle:
Zwykle: uczenie z począ
początkowo małą
małą liczbą
liczbą neuronó
neuronów i
stopniowe zwię
zwiększanie ich liczby.
liczby.
• Zbyt wiele elementó
elementów warstwy ukrytej: uczenie się
się „na
pamięć
pamięć””.
37
1 –2 – 1
1 –3 – 1
1–15–
15–1
Przykł
znaków alfabetu
Przykład: Rozpoznawanie znakó
•
WE - 35 (pikseli)
•
WY -26 (liter)
38
a co wewną
wewnątrz?
Ostatecznie:
Ostatecznie:
35 – 9 – 26
Wstę
Wstępnie:
pnie:
35 – 4 – 26
39
• Zwykle:
Zwykle: uczenie z począ
początkowo małą
małą liczbą
liczbą neuronó
neuronów
i stopniowe zwię
zwiększanie ich liczby.
liczby.
40
UCZENIE SIECI NIELINIOWYCH
Uczenie sieci – minimalizacja funkcji błę
du.
błędu.
• Zbyt mał
mało neuronó
neuronów w warstwie ukrytej – sieć
sieć
nie potrafi poprawnie odwzorować
odwzorować funkcji.
• Zbyt wiele elementó
elementów warstwy ukrytej:
• wydł
wydłużenie procesu uczenia;
minimalizacja funkcji błę
du
błędu
• uczenie się
się „na pamięć
pamięć”” (szczegó
(szczególnie, gdy liczba
pró
próbek w cią
ciągu uczą
uczącym jest niewielka) - sieć
sieć
poprawnie rozpoznaje tylko sygnał
sygnały zgodne z tymi w
cią
ciągu uczą
uczącym ( brak generalizacji
przy dobrej interpolacji).
interpolacji).
41
• Zwykle gradientowe metody optymalizacji
(np. metoda najwię
największego spadku).
• Warunek – funkcja aktywacji jest cią
ciągła.
42
Poprawka wartoś
wartości wagi:
∇ wi( j ) = ηδ ( j )
Funkcja logiczna XOR
dϕ ( e) ( j )
xi
de ( j )
Schemat sieci:
sieci:
2-2-1
j – numer kroku uczenia;
du wagi nie są
• Jeś
Jeśli neuron nie popeł
popełnia błę
błędu
są zmieniane.
• Poprawka wagi na WE jest tym wię
większa, im wię
większy jest
błąd
łąd na WY.
• Poprawka wagi na i-tym WE jest proporcjonalna do
wielkoś
wielkości sygnał
sygnału na tym wejś
wejściu (xi).
43
Rozpoznawanie znaków X, 0, +, -
Cią
Ciąg uczą
uczący:
cy:
Cią
):
Ciąg weryfikują
weryfikujący (np
(np):
WE 1
WE 2
WY
WE 1
WE 2
0
0
0
0.05
0.05
1
0
1
0.95
0.05
0
1
1
0.05
0.95
1
1
0
0.95
0.95
44
Cią
Ciąg uczą
uczący:
cy:
Wektor WE
Wektor WY
101010101
1000
111101111
0100
010111010
0010
000111000
0001
Nauczona sieć
sieć rozpoznaje symbole zniekształ
zniekształcone:
Matryca znakó
znaków
Liniowe rozwinię
rozwinięcie
i zamiana na wektor WE
Schemat sieci:
sieci: 9 - 5 - 4
FILTROWANIE SYGNAŁÓW
45
WE - wzorce sygnał
sygnałów zaszumionych;
zaszumionych;
WY – sygnał
sygnały czyste
np. sinus :
WE
46
Okolice zera – mał
mała wartość
wartość sygnał
sygnału (trudno
(trudnośści).
ci).
Rozwią
Rozwiązanie – przesunię
przesunięcie sygnał
sygnału:
WY
!
Z: R. Tadeusiewicz:
Tadeusiewicz: „Elementarne wprowadzenie do techniki sieci neuronowych...”
neuronowych...”, PLJ, Warszawa, 1998
47
Z: R. Tadeusiewicz:
Tadeusiewicz: „Elementarne wprowadzenie do techniki sieci neuronowych...”
neuronowych...”, PLJ, Warszawa, 1998
48
WSPÓ
WSPÓŁCZYNNIK UCZENIA
η – learning rate
METODA MOMENTUM (ang. pę
pęd)
• Nadanie uczeniu pewnej bezwł
bezwładnoś
adności;
• Zwię
Zwiększenie szybkoś
szybkości uczenia bez zaburzenia
stabilnoś
stabilności algorytmu;
Wartoś
Wartości:
w przedziale 0.01÷
0.01÷5.0 (typowo 0.8÷
0.8÷2.0)
2.0)
bez wsp.
wsp. momentum
• zbyt mał
mały – powolne uczenie sieci;
• zbyt duż
duży – gwał
gwałtowne zmiany parametró
parametrów sieci.
wsp.
wsp. momentum = 0.5
49
Dodatkowy skł
składnik:
50
JAK DŁ
DŁUGO UCZYĆ
UCZYĆ SIEĆ
SIEĆ?
zmiany wag zależą
dów aktualnych i poprzednich.
zależą od błę
błęd
poprzednich.
∇ wi( j ) = ηδ ( j )
Liczba prezentacji cią
ciągu uczą
uczącego konieczna
do nauczenia sieci:
dϕ (e) ( j )
xi + η 2 ∇ wi( j −1)
de ( j )
• prognozowanie finansowe: 109
η2 – wartoś
ęsto 0.9 ).
wartości w przedziale 0÷
0÷1 (cz
(czę
• synteza mowy: 1010
• rozpoznawanie mowy lub pisma odrę
odręcznego: 1012
Wagi: wartoś
wartości począ
początkowe zwykle losowo,
• rozpoznawanie znakó
znaków Kanji:
Kanji: 1013
czę
często z zakresu 〈-0.1, 0.1〉
0.1〉 (najlepiej bez zera).
zera).
51
• Uważ
Uważa się
się, iż
iż czas uczenia sieci roś
rośnie wykł
wykładadniczo wraz ze wzrostem liczby elementó
elementów sieci.
52
Zbyt dł
długie uczenie również
wnież moż
może skutkować
skutkować utratą
utratą
zdolnoś
zdolności uogó
uogólniania:
• Korzystne jest pokazywanie elementó
elementów cią
ciągu
uczą
uczącego w ró
różnej kolejnoś
kolejności.
ci.
Malenie błę
du jest ró
błędu
różne dla ró
różnie wylosowanych
wag począ
początkowych (dla
(dla tej samej sieci):
sieci):
53
Ghaboussi, CISM 2007
54
UCZENIE WARSTW UKRYTYCH
n
δ m( j ) = ∑ wm( k )( j )δ k( j )
k =1
Bezpoś
dów nie jest moż
Bezpośrednie wyznaczenie błę
błęd
możliwe
(sygnał
(sygnałów WY z warstwy ukrytej nie ma z czym poró
porównać
wnać).
m – numer neuronu w warstwie ukrytej
n – liczba neuronó
neuronów w warstwie nastę
następnej k;
j – numer kroku uczenia;
Metoda wstecznej propagacji błę
dów
błęd
δ m( j–) błąd
łąd popeł
popełniany przez neuron m;
δ k( j )– błąd
łąd popeł
popełniany przez neuron w warstwie k
(backpropagation):
backpropagation):
• Zmiana wagi – jak przy sieci jednowarstwowej;
• Obliczanie δ – sumowanie błę
dów z nastę
błęd
następnej warstwy
k1
Błędy
łędy w warstwach ukrytych są
są wyznaczane
w sposó
sposób przybliż
przybliżony.
k2
k3
kn
w
m
δ k( j ) − znane
n
( k n )( j )
m
δ m( j ) − nieznane
w warstwie WY;
dów
• obliczanie błę
błęd
w warstwie poprzedniej;
• itd. aż
aż do
warstwy pierwszej.
55
dów
• obliczanie błę
błęd
56
Uczenie z krytykiem (reinforcement learning):
Uczenie z krytykiem (reinforcement learning):
• Odmiana uczenia nadzorowanego.
• Optymalizacja zyskó
zysków na dłuższą
szą metę
metę.
• Np.: gry z przeciwnikiem, krytyką
krytyką jest przegrana lub
wygrana na koń
końcu partii.
• Nauczyciel
Nauczyciel nie dysponuje peł
pełną wiedzą
wiedzą na temat
wszystkich prawidł
prawidłowych odpowiedzi.
• Zamiast informacji o pożą
danym WY, sieć
pożądanym
sieć dysponuje
jedynie oceną
oceną efektu swego dział
działania w ramach dwó
dwóch
prostych kategorii.
• Uczenie z krytykiem lub z „wzmocnieniem”
danych
wzmocnieniem” pożą
pożądanych
zachowań
zachowań po dł
dłuższym okresie.
• Uczenie dojrzał
dojrzałe (nabieranie „mądroś
drości”
ci”).
• Bardziej uniwersalne w zastosowaniu podejś
podejście do
problemu.
• Ocena Ö wzmocnienie (pozytywne lub negatywne) Ö
odpowiednie zmiany wag.
• Praktyczna realizacja jest bardziej skomplikowana.
57
58
Uczenie bez nauczyciela (unsupervised
unsupervised learning)
Uczenie bez nauczyciela (unsupervised
unsupervised learning)
• Donald Hebb (fizjolog i psycholog) – w umyś
umyśle zazachodzą
czeń
ń mię
chodzą procesy wzmacniania połą
połącze
między neuroneuronami,
nami, jeś
jeśli został
zostały one pobudzone jednocześ
jednocześnie.
• Sieci pokazuje się
się kolejne przykł
przykłady bez okreś
określenia,
enia, co
trzeba z nimi zrobić
zrobić.
• Pożą
dana odpowiedź
Pożądana
odpowiedź nie jest znana.
• Sieć
Sieć uczy się
się poprzez analizę
analizę reakcji na pobudzenia;
samoorganizacja struktury – wszelkie regularnoś
regularności,
ci,
linie podział
podziału i inne charakterystyki danych wejś
wejściowych
sieć
sieć musi wykryć
wykryć sama.
• Zdolnoś
Zdolności do wykrywania skupisk obrazó
obrazów wejś
wejściocio-wych
są wykorzystywane do ich klasyfikacji,
klasyfikacji, gdy klasy nie są
są
z gó
góry ustalone.
59
• Różne pobudzenie ró
różnych neuneuronó
czenia mię
ronów - połą
połączenia
między
źródłami silnych sygnał
sygnałów
a neuronami, któ
które na nie
reagują
reagują są wzmacniane.
wzmacniane.
• W sieci stopniowo powstają
powstają wzorce poszczegó
poszczególnych typó
typów
sygnał
sygnałów rozpoznawane przez pewną
pewną część
część neuronó
neuronów.
• Uczenie spontaniczne,
spontaniczne, odkrywanie ciekawych struktur
w przestrzeni danych, korelacja zachowań
zachowań systemu
ze zmianą
zmianą tych struktur – dominuje w okresie
niemowlę
niemowlęcym.
cym.
60
Uczenie bez nauczyciela - wady
• Zwykle powolniejsze.
SAMOUCZENIE SIECI
• Cał
Cała wiedza, jaką
jaką sieć
sieć moż
może zdobyć
zdobyć jest zawarta
w obiektach pokazywanych (muszą
(muszą zawierać
zawierać klasy
podobień
podobieństwa).
stwa).
• Nie wiadomo, któ
który neuron bę
będzie rozpoznawał
rozpoznawał jaki
sygnał
sygnał.
• Nie mogą
mogą to być
być obiekty cał
całkiem przypadkowe, ale
• Część sygnał
sygnałów moż
może być
być rozpoznawana przez wię
więcej
niż
niż jeden neuron.
tworzyć
tworzyć skupiska wokó
wokół pewnych oś
ośrodkó
rodków.
bia wrodzone
• Proces samouczenia utrwala i pogłę
pogłębia
• Część sygnał
sygnałów moż
może nie być
być rozpoznawana przez żaden neuron
(sieć
(sieć musi być
być wię
większa niż
niż przy nauczycielu zwykle
przynajmniej 3 razy).
razy).
zdolnoś
zdolności neuronó
neuronów.
61
SAMOUCZENIE SIECI:
Cią
Ciąg uczą
uczący:
U = {X , X ,...X
(1)
(2)
(N )
}
( m )( j +1)
= wi
( m )( j )
+ η xi
(m)
ym
( j)
n
X(j) – n-wymiarowy wektor danych wejś
wejściowych
w j-ym kroku uczenia
•
N – liczba posiadanych pokazó
pokazów.
ym ( j ) = ∑ wi ( m )( j ) xi( j )
i =1
• Wielkość
Wielkość zmiany wagi – liczona na podstawie iloczynu
sygnał
sygnału na odpowiednim wejś
wejściu przez sygnał
sygnał
wyjś
wyjściowy neuronu.
Reguł
Reguła uczenia dla m-tego neuronu w j-ym kroku:
• Uczenie to zwie się
się też
też korelacyjnym – zmierza do tata-
wi ( m )( j +1) = wi ( m )( j ) + η xi ( m ) ym ( j )
n
ym ( j ) = ∑ wi ( m )( j ) xi( j )
i =1
63
KONKURENCJA
wi
•
gdzie:
62
Efekty:
64
• Neuron, któ
który raz wygrał
wygrał przy pokazaniu danego
W SIECIACH SAMOUCZĄ
SAMOUCZĄCYCH
wzorca – dalej bę
będzie wygrywał
wygrywał.
• Samouczenie jest skuteczniejsze i efektywniejsze (każ
(każdy
WTA (Winner Takes All)
All) - zwycię
zwycięzca bierze wszystko:
neuron rozpoznaje jeden obiekt, pozostał
pozostałe neurony pozostają
pozostają
niezagospodarowane).
• Najlepszy neuron – niezerowa wartość
wartość sygnał
sygnału WY
(zwykle 1);
• Wysoce prawdopodobne jest, iż
iż:
• Pozostał
Pozostałe wyjś
wyjścia są
są zerowane;
zerowane;
• Tylko najlepszy neuron jest uczony.
) Zasada WTA daje jednoznaczną
jednoznaczną odpowiedź
odpowiedź sieci (co
niekoniecznie musi być
być zaletą
zaletą).
) Wszystkie sygnał
sygnały mniejsze niż
niż ustalony pró
próg – brak
rozpoznania.
rozpoznania.
kiego dopasowania wag, by uzyskać
uzyskać najlepszą
najlepszą korekorelację
lację mię
między sygnał
sygnałami WE a zapamię
zapamiętanym (w formie
wag) wzorcem sygnał
sygnału, na któ
który dany neuron ma
reagować
reagować.
65
- nie bę
będzie grup neuronó
neuronów rozpoznają
rozpoznających ten sam wzorzec;
- nie bę
będzie klas nierozpoznanych przez żaden neuron.
• Niezagospodarowane neurony są
są gotowe rozpoznawać
rozpoznawać
nowe wzorce.
wzorce.
• Po wykorzystaniu wszystkich neuronó
neuronów i pojawieniu się
się
nowego wzorca – przecią
przeciąganie któ
któregoś
regoś
z neuronó
neuronów w jego stronę
stronę:
66
SIECI SAMOORGANIZUJĄ
SAMOORGANIZUJĄCE SIĘ
SIĘ
Analiza skupień
skupień – w analizy ekonomicznej (np.
podobień
).
podobieństwo przedsię
przedsiębiorstw – rentowność
rentowność).
(Teuvo Kohonen)
Kohonen)
• Tworzą
Tworzą odwzorowania sygnał
sygnałów WE w sygnał
sygnały WY,
Kolektywność
Kolektywność – to co rozpoznaje neuron zależ
zależy
w duż
dużej mierze od tego, co rozpoznają
rozpoznają inne neurony.
speł
spełniają
niające pewne ogó
ogólne kryteria (nie zdeterminowazdeterminowane przez twó
twórcę
rcę ani uż
użytkownika sieci) –
samoorganizacja sieci.
sieci.
Sąsiedztwo – znaczenie ma wzajemne poł
położenie
neuronó
neuronów w warstwach.
• Inny (wy
ższy)
(wyż
szy) sposó
sposób samouczenia,
samouczenia, wprowadzają
wprowadzający
efekty koherencji i kolektywnoś
kolektywności.
Zwykle są
sąsiedztwo 22-wymiarowe – neurony w wę
węzłach
regularnej siatki (każ
każdy neuron ma min. 4 są
sąsiadó
siadów).
ść) - sieć
Koherencja (słown.
own. spó
spójność
jność,, spoistość
spoistość,, łączno
łączność
sieć
grupuje dane wejś
wejściowe wg wzajemnego podobień
podobieństwa – wykrywa automatycznie obiekty podobne do
siebie nawzajem i inne od innych grup obiektó
obiektów.
67
Przykł
Przykładowe są
sąsiedztwa:
68
Rozszerzone sąsiedztwo:
Rozbudowane sąsiedztwo:
Jednowymiarowe sąsiedztwo:
69
Gdy w procesie uczenia któ
a:
któryś
ryś neuron zwycięż
zwycięża:
uczy się
się też
też (w mniejszym stopniu)
stopniu) jego są
sąsiadó
siadów
(niezależ
niezależnie od ich wag począ
początkowych!).
tkowych!).
71
70
Neurony są
sąsiadują
siadujące rozpoznają
rozpoznają sygnał
sygnały
z są
sąsiadują
siadujących podobszaró
podobszarów:
Skutek:
Sygnał
Sygnały ró
równomiernie rozmieszczone w pewnym obszaobszarze ⇒ neurony zostają
zostają tak nauczone, by każ
każdy
podobszar sygnał
sygnałów był
był rozpoznawany
72
przez inny neuron.
• Po wytrenowaniu każ
każdej praktycznej sytuacji
odpowiada neuron, któ
który ją
ją reprezentuje.
SIECI REKURENCYJNE
Zawierają
enia zwrotne:
Zawierają sprzęż
sprzężenia
• Sąsiedztwo powoduje wykrywanie sytuacji
podobnych do prezentowanych.
• W sieci powstaje wewnę
wewnętrzny obraz świata
zewnę
zewnętrznego.
trznego.
• Sygnał
ce
Sygnały blisko siebie bę
będą wykrywane przez leżą
leżące
blisko siebie neurony.
Przykł
Przykładowe zastosowania:
• robot dostosowują
dostosowujący zachowanie do zmiennego
środowiska;
• systemy bankowe – stworzenie modelu
wiarygodnego kredytobiorcy.
Po jednorazowym podaniu sygnał
sygnału WE – długotrwał
ugotrwały
proces zmiany sygnał
sygnału WY, w efekcie stan ró
równowagi.
wnowagi.
73
• Waga sprzęż
enia dodatnia – sygnał
sprzężenia
sygnał zmienia się
się
jednokierunkowo (aperiodycznie);
• Waga sprzęż
enia ujemna – sygnał
sprzężenia
sygnał zmienia się
się
oscylacyjnie;
oscylacyjnie;
• Przy neuronach nieliniowych moż
możliwe chaotyczne
błądzenie
łądzenie sygnał
sygnałów;
Zachowania:
• stabilne (zbieganie się
się sygnał
sygnałów do okreś
określonej wartoś
wartości);
• niestabilne (warto
ści sygnał
(wartoś
sygnału coraz wię
większe).
ksze).
Zastosowania:
• zadania optymalizacji (stany ró
równowagi odpowiadają
odpowiadają
rozwią
rozwiązaniom zadań
zadań);
• pamię
pamięci skojarzeniowe (drobny fragment informacji pozwala
75
odtworzyć
odtworzyć całą
całą informację
informację).
74
SIECI HOPFIELDA
• Każ
Każdy neuron jest zwią
związany z każ
każdym innym na zasadzie
obustronnego sprzęż
enia zwrotnego.
sprzężenia
eń zwrotnych obejmują
• Zabroniono sprzęż
sprzęże
obejmujących pojedynczy
neuron.
• Symetria wspó
współczynnikó
czynników wagowych:
wxy=wyx
X
wxy
Y
wyx
Skutek: zachodzą
zachodzące procesy są
są zawsze stabilne.
76

SZTUCZNE SIECI NEURONOWE

Transkrypt

Podobne dokumenty

Konsultacje CV.cdr - Biuro Karier Studenckich

Monitorowanie temperaturowe procesu wiercenia z wykorzystaniem

SSN cd.

„Globalne ocieplenie – wielkie oszustwo”

„Zasady zarządzania prawami własności intelektualnej w programie

Kurs 6w1 - Katedra Technologii Lotniczych