SZTUCZNE SIECI NEURONOWE
Transkrypt
SZTUCZNE SIECI NEURONOWE
www.kwmimkm.polsl.pl METODY HEURYSTYCZNE www.kwmimkm.polsl.pl KRYTERIA ZATRZYMANIA AE wykład 4 2 1 www.kwmimkm.polsl.pl KRYTERIUM MAKSYMALNEGO KOSZTU • Algorytm koń kończy dział działanie, jeś jeśli koszt algorytmu przekroczy zał założoną oną wartość wartość maksymalną maksymalną Kmax. / Zwykle nie jest łatwo (bez dostatecznie dobrej znajoznajomoś mości funkcji przystosowaprzystosowania) nia) okreś określić lić wartość wartość zadowalają zadowalającą. Φ t 3 www.kwmimkm.polsl.pl KRYTERIUM MIN. SZYBKOŚ SZYBKOŚCI POPRAWY Algorytm jest zatrzymywany, jeś jeśli w kolejnych τ obliczeobliczeniach wartoś wartości funkcji przystosowania nie uda się się poprawić poprawić wyniku o wię więcej niż niż ε. Czę Często ε = 0 - algorytm zatrzymywany, jeś jeśli nie uda się się uzyskać uzyskać lepszego rozwią rozwiązania w kolejnych τ pokoleniach. Φ www.kwmimkm.polsl.pl KRYTERIUM ZADOWALAJĄ ZADOWALAJĄCEGO POZIOPOZIOMU FUNKCJI PRZYSTOSOWANIA Zatrzymanie dział działania gdy AE znajdzie rozwią rozwiązanie o wartoś wartości funkcji przystosowania okreś określonej przez użytkownika jako zadowalają zadowalająca Φs. • Czę Często przyję przyjęta odmiana – przyję przyjęcie pewnej maksymalnej dopuszczalnej liczby pokoleń pokoleń algorytmu. tmax 2 min. szybkość poprawy ε / AE moż może dział działać dowolnie długo (należ (należy dodatkowo okreś określić lić maksymalny koszt znalezienia rozwią rozwiązania). Φ Φs t 4 www.kwmimkm.polsl.pl SZTUCZNE SIECI NEURONOWE τ t 5 6 HISTORIA SSN www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl • Bernard Widrow i Ted Hoff (1960) - neuron typu Adaline z liniową liniową funkcją funkcją aktywacji oraz algorytm uczenia LMS (Least Mean Square), zwany regułą regułą delty lub regułą regułą WidrowaWidrowa-Hoffa. Hoffa. • Walter Pitts, Pitts, Warren McCulloch (1943) – opracoopracowanie matematyczne poję pojęcia sztucznego neuronu. neuronu. Udowodnili też też, iż iż ich wynalazek jest w stanie odzwierodzwierciedlić ciedlić w swym dział działaniu dowolną dowolną funkcję funkcję logiczną logiczną. • John Hopfield (1982) – teoria pamię pamięci asocjacyjnej, asocjacyjnej, jako istoty dział działania sieci rekurencyjnych (sieci Hopfielda). Hopfielda). • Donald Olding Hebb (1949) - zasada uczenia się się Hebba (Hebbian learning) learning) dla sztucznych sieci neuronowych (SSN). •Paul Werbos (1974) 1974); David Rumelhart, Rumelhart, Geoffrey Hinton, Hinton, Ronald Williams (1986) - wsteczna propagacja błę dów (backpropagation) błęd backpropagation) – pozwala na rozwią rozwiązywanie problemó problemów liniowo nieseparowalnych. nieseparowalnych. • Frank Rosenblatt (1958) – pierwszy funkcjonują funkcjonujący model SSN (perceptron) oraz pierwszy z algorytmó algorytmów uczenia SSN. 7 www.kwmimkm.polsl.pl Komó Komórki nerwowe (neurony) 8 www.kwmimkm.polsl.pl Synapsa - przekazuje sygnał sygnał mię między aksonem a dendrytem (każ (każda komó komórka nerwowa posiada średnio kilka tysię tysięcy synaps). ChemicznoChemiczno-elektryczne przekazywanie sygnał sygnałów: • Dendryty – zbierają zbierają sygnał sygnały z innych komó komórek nerwowych. • Ciał Ciało komó komórki – agreguje sygnał sygnały wejś wejściowe i tworzy sygnał sygnał wyjś wyjściowy. • Akson – wyprowadza sygnał sygnał wyjś wyjściowy i przekazuje go dalej. • Pod wpł wpływem przychodzą przychodzących bodź bodźców wydzielane są są neuroprzekaź neuroprzekaźniki. niki. • Neuroprzekaź błonę onę komó komórki Neuroprzekaźniki oddział oddziałują ują na bł zmieniają zmieniając jej potencjał potencjał elektryczny. 9 www.kwmimkm.polsl.pl • Poszczegó Poszczególne synapsy ró różnią nią się się wielkoś wielkością cią oraz moż możliliwoś wością cią gromadzenia neuroprzekaź neuroprzekaźnikó ników w pobliż pobliżu błony synaptycznej. 10 ZALETY SSN: www.kwmimkm.polsl.pl • Nie wymagają wymagają programowania (tylko uczenie); uczenie); • Mają Mają zdolność zdolność uogó uogólniania; lniania; • Dlatego taki sam impuls na wejś może popowejściu komó komórki moż wodować wodować inne jej pobudzenie niż niż dla innego wejś wejścia. • Są wysoce odporne na szumy i zniekształ zniekształcenia sygnał sygnału; • Pomagają Pomagają wykrywać wykrywać istotne powią powiązania pomię pomiędzy danymi. STATYSTYKA: • Liczba komó komórek nerwowych w mó mózgu: ok. 1011; Stosuje się się je gdy istnieje duż duża zł złożoność oność zagadnienia i trudno jest jednoznacznie okreś określić lić formalne kryteria, kryteria, dla stworzenia programu komputerowego. • Połą czeń ń nerwowych – ok. 1014; Połącze • Czę Częstotliwość stotliwość biologicznego neuronu – ok. kilkaset Hz. Hz. 11 12 KLASY ZASTOSOWAŃ: PREDYKCJA ze znajomoś znajomości: www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl KLASYFIKACJA I ROZPOZNAWANIE WZORCÓ WZORCÓW Zaszeregowanie danych wejś wejściowych do jednej z klas: { f ( x n − k ), f ( x n − k +1 ),..., f ( x n )} przewidzieć przewidzieć : f ( x n +1 ) bez jawnego definiowania zwią związku mię między danymi wejś wejściowymi a wyjś wyjściowymi 13 np. sieć sieć pozwala na podstawie danych bilansowych stwierdzić stwierdzić, czy dane przedsię przedsiębiorstwo należ należy do zwyż zwyżkują kujących gospodarczo, czy przeż przeżywa stagnację stagnację czy też też grozi mu regres. regres. www.kwmimkm.polsl.pl APROKSYMACJA (interpolacja, ekstrapolacja) ze znajomoś znajomości: {xi , f ( x i )} odtworzyć odtworzyć: f ( x) 14 www.kwmimkm.polsl.pl STEROWANIE ASOCJACJA Podanie danego wzorca na wejś wejście powinno powodować powodować pojawienie się się odpowiadają dpowiadającego mu wzorca na wyjś wyjściu. KOJARZENIE DANYCH automatyzacja procesó procesów wnioskowania i wykrywanie istotnych powią powiązań zań mię między danymi. 15 www.kwmimkm.polsl.pl FILTRACJA SYGNAŁ SYGNAŁÓW 16 www.kwmimkm.polsl.pl PRZYKŁ PRZYKŁADOWE ZASTOSOWANIA: OPTYMALIZACJA statyczna i dynamiczna, optymalizacja kombinatokombinato-ryczna i zagadnienia bardzo trudne obliczeniowo. 17 18 NIE NADAJĄ NADAJĄ SIĘ SIĘ DO: www.kwmimkm.polsl.pl Perceptron (Rosenblatt 1958): www.kwmimkm.polsl.pl • Przetwarzania informacji symbolicznej (np. edytory tekstu); • Obliczeń Obliczeń o wymaganej wysokiej dokł dokładnoś adności (sieć (sieć pracuje jakoś jakościowo, dają dając wyniki przybliż przybliżone); Ukł Układ posiadają posiadający wiele wejść wejść i jedno wyjś wyjście: • Rozwią Rozwiązywania zagadnień zagadnień, gdzie rozumowanie jest przeprowadzanie wieloetapowo (a musi być być udokumentowane). Wejś Wejście: n stanó stanów wejsciowych x1,...,x ,...,xn Wyjś Wyjście: 0 (-1) lub 1 19 Sprzę Sprzętowo: www.kwmimkm.polsl.pl Uwaga: pod poję pojęciem „perceptronu” perceptronu” rozumie się się też też czasem siec połą czonych jednostek (neuronó połączonych (neuronów). 20 www.kwmimkm.polsl.pl Sygnał Sygnał wyjś wyjściowy yi i-tego neuronu liniowego: N yi = ∑ wij x j j =0 wij xj N Pojedynczy perceptron pozwala na: • przetwarzanie jednostkowych informacji; Sygnał Sygnał wyjś wyjściowy yi i-tego neuronu (ogó (ogólnie): lnie): • podejmowanie prostych decyzji; ⎛ N ⎞ yi = ϕ ( e ) = ϕ ⎜ ∑ wij x j + B ⎟ ⎝ j =1 ⎠ • przekazywanie wynikó wyników są sąsiadom. e – łączne łączne pobudzenie neuronu (net value); value); Dopiero w połą czeniu z innymi wę połączeniu węzłami uzyskuje się się zdolność zdolność podejmowania zł złożonych decyzji. decyzji. ϕ – funkcja aktywacji; aktywacji; 21 www.kwmimkm.polsl.pl UCZENIE SIECI NEURONOWYCH Uczenie zamiast programowania. programowania. Ta sama sieć sieć moż może sł służyć do rozwią rozwiązywania skrajnie różnych zadań zadań. Uczenie sieci: sieci: Wymuszanie okreś określonego reagowania sieci na zadane sygnał sygnały wejś wejściowe (poprzez odpowiedni dobó dobór wag). wag). Uczenie sieci: sieci: B – pró próg (bias). W neuronie liniowym e jest sygnał sygnałem wyjś wyjściowym 22 www.kwmimkm.polsl.pl Uczenie z nauczycielem (supervised learning) • Podawanie sieci zestawó zestawów sygnał sygnałów WE wraz z prawidł prawidłowym sygnał sygnałem WY. • Naś Naśladowanie nauczyciela, nauczyciela, jakim jest cią ciąg uczą uczący (podejś (podejście „szkolne” szkolne”). • Zestawy sygnał sygnałów (zwykle) powtarza się się wielokrotnie, zaś zaś sieć sieć modyfikuje wagi na wejś wejściach tak, by zminizminimalizować malizować błąd łąd. • Zmiana wagi na i-tym wejś wejściu neuronu po pokazaniu j-ego obiektu uczą uczącego jest proporcjonalna do popeł du δ ( j ). popełnianego na tym etapie błę błędu • uczenie z nauczycielem (nadzorowane); • uczenie z krytykiem; krytykiem; • uczenie bez nauczyciela (nienadzorowane). nienadzorowane). – waga dla j-ego wejś wejścia i-tego neuronu; neuronu; – j-ty sygnał sygnał wejś wejściowy; ciowy; – liczba wejść wejść w i-tym neuronie. neuronie. 23 24 UCZENIE PERCEPTRONU: www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl Sieć ): Sieć dwuwarstwowa – wieloką wielokąty wypukł wypukłe (simpleksy (simpleksy): Pojedynczy neuron (lub 1 warstwa neuronó neuronów) typu perperceptronowego jest w stanie rozdzielić rozdzielić przestrzeń przestrzeń obszaobszarów wejś wejściowych granicą granicą decyzyjną decyzyjną na 2 obszary (półprzestrzenie). przestrzenie). • 2 zmienne – prosta; prosta; • ogó ogólnie – hiperpł hiperpłaszczyzna. aszczyzna. Sieci trzytrzy- i wię więcej warstwowa – dowolne obszary (w tym wieloką wielokąty niewypukł niewypukłe i obszary wielospó wielospójne). 25 www.kwmimkm.polsl.pl Perceptron moż może prawidł prawidłowo klasyfikować klasyfikować sygnał sygnały, jeś jeśli są liniowo separowalne: separowalne: 26 www.kwmimkm.polsl.pl Poprawka wartoś wartości wagi dla perceptronu w j-ym kroku (regu (regułła delta): delta): ∇wi( j ) = ηδ ( j ) xi( j ) δ ( j ) = z( j ) − y( j ) z – wymagana odpowiedź odpowiedź neuronu; y – uzyskana odpowiedź odpowiedź neuronu; x – dana wejś wejściowa dla i-tego wejś wejścia; 27 www.kwmimkm.polsl.pl Waga: Waga: η - wspó współczynnik uczenia uczenia (learning rate). rate). FUNKCJA AKTYWACJI 28 www.kwmimkm.polsl.pl Wartość Wartość f. aktywacji – sygnał sygnał wyjś wyjściowy neuronu . - dodatnia - sygnał sygnał pobudzają pobudzający; cy; - ujemna – sygnał sygnał gaszą gaszący; cy; - „0” - brak połą czenia mię połączenia między neuronami. neuronami. • liniowa liniowa f. aktywacji; • nieliniowa f. aktywacji: - f. skoku jednostkowego (progowa), np.: Sygnał Sygnały wyjś wyjściowe: gdy e ≥ 0 ϕ ( e ) = {10 gdy e<0 〈0,1〉 0,1〉 (funkcje unipolarne) unipolarne) 〈-1,1〉 1,1〉 (funkcje bipolarne). bipolarne). - inna, np. typu sigmoidalnego (f. logistyczna): logistyczna): 1 ϕ (e) = 1 + exp( − β e ) 29 β – wspó współczynnik sterują sterujący nachyleniem krzywej 30 www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl WYMAGANE CECHY F. AKTYWACJI: • Cią Ciągłe przejś przejście pomię pomiędzy wartoś wartością cią maksymalną maksymalną a minimalną minimalną. 1 • Łatwa do obliczenia i cią ciągła pochodna np. dla f. sigmoidalnej: sigmoidalnej: ϕ (e) = WSPÓ WSPÓŁCZYNNIK β beta=1 beta=2 1 1 + exp( − β e ) 0 -10 ϕ '( e ) = β ⋅ ϕ ( e ) ⋅ [1 − ϕ ( e ) ] -5 0 5 10 1 BIAS bias=0 0.5 bias=-2 bias=2 • Moż Możliwość liwość wprowadzenia do argumentu parametru β do ustalania kształ kształtu krzywej. 0 -10 www.kwmimkm.polsl.pl Bipolarny odpowiednik f. sigmoidalnej: sigmoidalnej: -5 0 5 10 32 31 ϕ (e) = beta=0.5 0.5 32 www.kwmimkm.polsl.pl SIEĆ SIEĆ NEURONOWA: NEURONOWA: - ukł czonych neuronó układ połą połączonych neuronów (model warstwowy) exp( β e ) − exp( − β e ) = tgh ( − β e ) exp( β e ) + exp( − β e ) ϕ '( e ) = β ⋅ [1 + ϕ ( e ) ] ⋅ [1 − ϕ ( e ) ] 1 0.5 Sieć Sieć jednowarstwowa 0 Sieć Sieć wielowarstwowa beta=0.5 -10 -5 0 5 Sieć Sieć wielowarstwowa – min. jedna warstwa ukryta. ukryta. 10 -0.5 Zwykle: czenia każ Zwykle: kilka warstw, połą połączenia każdy z każ każdym -1 RODZAJE NEURONÓ NEURONÓW: 33 www.kwmimkm.polsl.pl (min. liczba parametró parametrów do opisu). Projektowanie sieci - problemy: 34 www.kwmimkm.polsl.pl • ile warstw ukrytych? • ile neuronó neuronów w warstwach? • warstwy WE (nie liczona); • warstw ukrytych: ukrytych: – efekty dział działania obserwowane poś pośrednio poprzez WY; – poś pośredniczenie mię między WE a WY; – niemoż dów; niemożność ność dokł dokładnego obliczenia błę błęd Liczba neuronó neuronów w warstwie WE: WE: zależ zależy od liczby danych podawanych na wejś wejście. Liczba neuronó neuronów w warstwie WY: WY: • warstwy WY (rozwią (rozwiązania stawianych zadań zadań). zależ zależy od liczby poszukiwanych rozwią rozwiązań zań. Pamięć Pamięć neuronu – reprezentowana poprzez wagi. • Sieć Sieć z 1 warstwą warstwą ukrytą ukrytą powinna nauczyć nauczyć się się rozrozwią wiązywania wię większoś kszości postawionych problemó problemów. Sieć Sieć dział działa jako cał całość. ść. 35 • Zbyt wiele warstw ukrytych – pogorszenie procesu 36 nie w szczegó uczenia (algorytm „grzęź szczegółach” grzęźnie ach”). www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl • Nieznane są są problemy wymagają wymagające sieci z wię więcej niż niż 3 warstwami ukrytymi (zwykle 1 lub 2). Np.(L. Rutkowski, Metody i techniki sztucznej inteligencji, PWN, W-wa 2006): • Liczbę Liczbę neuronó neuronów w warstwie ukrytej moż można pró próbować bować oszacować oszacować: Cią Ciąg uczą uczący: Nu = 1 Wejście x N we ⋅ N wy x ∈ [ 0, 2π ] y = sin( x ), Oczekiwane wyjście d=f(x) 0 2 3 4 π π π 6 3 4 3 2 2 2 0 0.5 5 6 π 2π 0 0 7 7π 6 8 4π 3 -0.5 − 9 5π 4 3 2 − 2 2 10 5π 6 11 2π 3 1 2 3 2 12 3π 4 13 5π 3 14 11π 6 15 7π 4 3 1 2 2 − − − 2 2 2 2 • Zwykle: Zwykle: uczenie z począ początkowo małą małą liczbą liczbą neuronó neuronów i stopniowe zwię zwiększanie ich liczby. liczby. • Zbyt wiele elementó elementów warstwy ukrytej: uczenie się się „na pamięć pamięć””. 37 1 –2 – 1 1 –3 – 1 1–15– 15–1 www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl Przykł znaków alfabetu Przykład: Rozpoznawanie znakó • WE - 35 (pikseli) • WY -26 (liter) 38 a co wewną wewnątrz? Ostatecznie: Ostatecznie: 35 – 9 – 26 Wstę Wstępnie: pnie: 35 – 4 – 26 39 www.kwmimkm.polsl.pl • Zwykle: Zwykle: uczenie z począ początkowo małą małą liczbą liczbą neuronó neuronów i stopniowe zwię zwiększanie ich liczby. liczby. 40 UCZENIE SIECI NIELINIOWYCH www.kwmimkm.polsl.pl Uczenie sieci – minimalizacja funkcji błę du. błędu. • Zbyt mał mało neuronó neuronów w warstwie ukrytej – sieć sieć nie potrafi poprawnie odwzorować odwzorować funkcji. • Zbyt wiele elementó elementów warstwy ukrytej: • wydł wydłużenie procesu uczenia; minimalizacja funkcji błę du błędu • uczenie się się „na pamięć pamięć”” (szczegó (szczególnie, gdy liczba pró próbek w cią ciągu uczą uczącym jest niewielka) - sieć sieć poprawnie rozpoznaje tylko sygnał sygnały zgodne z tymi w cią ciągu uczą uczącym ( brak generalizacji przy dobrej interpolacji). interpolacji). 41 • Zwykle gradientowe metody optymalizacji (np. metoda najwię największego spadku). • Warunek – funkcja aktywacji jest cią ciągła. 42 Poprawka wartoś wartości wagi: ∇ wi( j ) = ηδ ( j ) www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl Funkcja logiczna XOR dϕ ( e) ( j ) xi de ( j ) Schemat sieci: sieci: 2-2-1 j – numer kroku uczenia; du wagi nie są • Jeś Jeśli neuron nie popeł popełnia błę błędu są zmieniane. • Poprawka wagi na WE jest tym wię większa, im wię większy jest błąd łąd na WY. • Poprawka wagi na i-tym WE jest proporcjonalna do wielkoś wielkości sygnał sygnału na tym wejś wejściu (xi). 43 www.kwmimkm.polsl.pl Rozpoznawanie znaków X, 0, +, - Cią Ciąg uczą uczący: cy: Cią ): Ciąg weryfikują weryfikujący (np (np): WE 1 WE 2 WY WE 1 WE 2 0 0 0 0.05 0.05 1 0 1 0.95 0.05 0 1 1 0.05 0.95 1 1 0 0.95 0.95 44 www.kwmimkm.polsl.pl Cią Ciąg uczą uczący: cy: Wektor WE Wektor WY 101010101 1000 111101111 0100 010111010 0010 000111000 0001 Nauczona sieć sieć rozpoznaje symbole zniekształ zniekształcone: Matryca znakó znaków Liniowe rozwinię rozwinięcie i zamiana na wektor WE Schemat sieci: sieci: 9 - 5 - 4 FILTROWANIE SYGNAŁÓW 45 www.kwmimkm.polsl.pl WE - wzorce sygnał sygnałów zaszumionych; zaszumionych; WY – sygnał sygnały czyste np. sinus : WE 46 www.kwmimkm.polsl.pl Okolice zera – mał mała wartość wartość sygnał sygnału (trudno (trudnośści). ci). Rozwią Rozwiązanie – przesunię przesunięcie sygnał sygnału: WY ! Z: R. Tadeusiewicz: Tadeusiewicz: „Elementarne wprowadzenie do techniki sieci neuronowych...” neuronowych...”, PLJ, Warszawa, 1998 47 Z: R. Tadeusiewicz: Tadeusiewicz: „Elementarne wprowadzenie do techniki sieci neuronowych...” neuronowych...”, PLJ, Warszawa, 1998 48 WSPÓ WSPÓŁCZYNNIK UCZENIA www.kwmimkm.polsl.pl η – learning rate METODA MOMENTUM (ang. pę pęd) www.kwmimkm.polsl.pl • Nadanie uczeniu pewnej bezwł bezwładnoś adności; • Zwię Zwiększenie szybkoś szybkości uczenia bez zaburzenia stabilnoś stabilności algorytmu; Wartoś Wartości: w przedziale 0.01÷ 0.01÷5.0 (typowo 0.8÷ 0.8÷2.0) 2.0) bez wsp. wsp. momentum • zbyt mał mały – powolne uczenie sieci; • zbyt duż duży – gwał gwałtowne zmiany parametró parametrów sieci. wsp. wsp. momentum = 0.5 49 Dodatkowy skł składnik: www.kwmimkm.polsl.pl 50 JAK DŁ DŁUGO UCZYĆ UCZYĆ SIEĆ SIEĆ? www.kwmimkm.polsl.pl zmiany wag zależą dów aktualnych i poprzednich. zależą od błę błęd poprzednich. ∇ wi( j ) = ηδ ( j ) Liczba prezentacji cią ciągu uczą uczącego konieczna do nauczenia sieci: dϕ (e) ( j ) xi + η 2 ∇ wi( j −1) de ( j ) • prognozowanie finansowe: 109 η2 – wartoś ęsto 0.9 ). wartości w przedziale 0÷ 0÷1 (cz (czę • synteza mowy: 1010 • rozpoznawanie mowy lub pisma odrę odręcznego: 1012 Wagi: wartoś wartości począ początkowe zwykle losowo, • rozpoznawanie znakó znaków Kanji: Kanji: 1013 czę często z zakresu 〈-0.1, 0.1〉 0.1〉 (najlepiej bez zera). zera). 51 www.kwmimkm.polsl.pl • Uważ Uważa się się, iż iż czas uczenia sieci roś rośnie wykł wykładadniczo wraz ze wzrostem liczby elementó elementów sieci. 52 www.kwmimkm.polsl.pl Zbyt dł długie uczenie również wnież moż może skutkować skutkować utratą utratą zdolnoś zdolności uogó uogólniania: • Korzystne jest pokazywanie elementó elementów cią ciągu uczą uczącego w ró różnej kolejnoś kolejności. ci. Malenie błę du jest ró błędu różne dla ró różnie wylosowanych wag począ początkowych (dla (dla tej samej sieci): sieci): 53 Ghaboussi, CISM 2007 54 UCZENIE WARSTW UKRYTYCH www.kwmimkm.polsl.pl www.kwmimkm.polsl.pl n δ m( j ) = ∑ wm( k )( j )δ k( j ) k =1 Bezpoś dów nie jest moż Bezpośrednie wyznaczenie błę błęd możliwe (sygnał (sygnałów WY z warstwy ukrytej nie ma z czym poró porównać wnać). m – numer neuronu w warstwie ukrytej n – liczba neuronó neuronów w warstwie nastę następnej k; j – numer kroku uczenia; Metoda wstecznej propagacji błę dów błęd δ m( j–) błąd łąd popeł popełniany przez neuron m; δ k( j )– błąd łąd popeł popełniany przez neuron w warstwie k (backpropagation): backpropagation): • Zmiana wagi – jak przy sieci jednowarstwowej; • Obliczanie δ – sumowanie błę dów z nastę błęd następnej warstwy k1 Błędy łędy w warstwach ukrytych są są wyznaczane w sposó sposób przybliż przybliżony. k2 k3 kn w m δ k( j ) − znane n ( k n )( j ) m δ m( j ) − nieznane w warstwie WY; dów • obliczanie błę błęd w warstwie poprzedniej; • itd. aż aż do warstwy pierwszej. 55 www.kwmimkm.polsl.pl dów • obliczanie błę błęd 56 www.kwmimkm.polsl.pl Uczenie z krytykiem (reinforcement learning): Uczenie z krytykiem (reinforcement learning): • Odmiana uczenia nadzorowanego. • Optymalizacja zyskó zysków na dłuższą szą metę metę. • Np.: gry z przeciwnikiem, krytyką krytyką jest przegrana lub wygrana na koń końcu partii. • Nauczyciel Nauczyciel nie dysponuje peł pełną wiedzą wiedzą na temat wszystkich prawidł prawidłowych odpowiedzi. • Zamiast informacji o pożą danym WY, sieć pożądanym sieć dysponuje jedynie oceną oceną efektu swego dział działania w ramach dwó dwóch prostych kategorii. • Uczenie z krytykiem lub z „wzmocnieniem” danych wzmocnieniem” pożą pożądanych zachowań zachowań po dł dłuższym okresie. • Uczenie dojrzał dojrzałe (nabieranie „mądroś drości” ci”). • Bardziej uniwersalne w zastosowaniu podejś podejście do problemu. • Ocena Ö wzmocnienie (pozytywne lub negatywne) Ö odpowiednie zmiany wag. • Praktyczna realizacja jest bardziej skomplikowana. 57 www.kwmimkm.polsl.pl 58 www.kwmimkm.polsl.pl Uczenie bez nauczyciela (unsupervised unsupervised learning) Uczenie bez nauczyciela (unsupervised unsupervised learning) • Donald Hebb (fizjolog i psycholog) – w umyś umyśle zazachodzą czeń ń mię chodzą procesy wzmacniania połą połącze między neuroneuronami, nami, jeś jeśli został zostały one pobudzone jednocześ jednocześnie. • Sieci pokazuje się się kolejne przykł przykłady bez okreś określenia, enia, co trzeba z nimi zrobić zrobić. • Pożą dana odpowiedź Pożądana odpowiedź nie jest znana. • Sieć Sieć uczy się się poprzez analizę analizę reakcji na pobudzenia; samoorganizacja struktury – wszelkie regularnoś regularności, ci, linie podział podziału i inne charakterystyki danych wejś wejściowych sieć sieć musi wykryć wykryć sama. • Zdolnoś Zdolności do wykrywania skupisk obrazó obrazów wejś wejściocio-wych są wykorzystywane do ich klasyfikacji, klasyfikacji, gdy klasy nie są są z gó góry ustalone. 59 • Różne pobudzenie ró różnych neuneuronó czenia mię ronów - połą połączenia między źródłami silnych sygnał sygnałów a neuronami, któ które na nie reagują reagują są wzmacniane. wzmacniane. • W sieci stopniowo powstają powstają wzorce poszczegó poszczególnych typó typów sygnał sygnałów rozpoznawane przez pewną pewną część część neuronó neuronów. • Uczenie spontaniczne, spontaniczne, odkrywanie ciekawych struktur w przestrzeni danych, korelacja zachowań zachowań systemu ze zmianą zmianą tych struktur – dominuje w okresie niemowlę niemowlęcym. cym. 60 Uczenie bez nauczyciela - wady www.kwmimkm.polsl.pl • Zwykle powolniejsze. www.kwmimkm.polsl.pl SAMOUCZENIE SIECI • Cał Cała wiedza, jaką jaką sieć sieć moż może zdobyć zdobyć jest zawarta w obiektach pokazywanych (muszą (muszą zawierać zawierać klasy podobień podobieństwa). stwa). • Nie wiadomo, któ który neuron bę będzie rozpoznawał rozpoznawał jaki sygnał sygnał. • Nie mogą mogą to być być obiekty cał całkiem przypadkowe, ale • Część sygnał sygnałów moż może być być rozpoznawana przez wię więcej niż niż jeden neuron. tworzyć tworzyć skupiska wokó wokół pewnych oś ośrodkó rodków. bia wrodzone • Proces samouczenia utrwala i pogłę pogłębia • Część sygnał sygnałów moż może nie być być rozpoznawana przez żaden neuron (sieć (sieć musi być być wię większa niż niż przy nauczycielu zwykle przynajmniej 3 razy). razy). zdolnoś zdolności neuronó neuronów. 61 www.kwmimkm.polsl.pl SAMOUCZENIE SIECI: Cią Ciąg uczą uczący: U = {X , X ,...X (1) (2) (N ) } ( m )( j +1) = wi ( m )( j ) + η xi (m) ym ( j) n X(j) – n-wymiarowy wektor danych wejś wejściowych w j-ym kroku uczenia • N – liczba posiadanych pokazó pokazów. ym ( j ) = ∑ wi ( m )( j ) xi( j ) i =1 • Wielkość Wielkość zmiany wagi – liczona na podstawie iloczynu sygnał sygnału na odpowiednim wejś wejściu przez sygnał sygnał wyjś wyjściowy neuronu. Reguł Reguła uczenia dla m-tego neuronu w j-ym kroku: • Uczenie to zwie się się też też korelacyjnym – zmierza do tata- wi ( m )( j +1) = wi ( m )( j ) + η xi ( m ) ym ( j ) n ym ( j ) = ∑ wi ( m )( j ) xi( j ) i =1 63 KONKURENCJA www.kwmimkm.polsl.pl wi • gdzie: 62 www.kwmimkm.polsl.pl Efekty: 64 www.kwmimkm.polsl.pl • Neuron, któ który raz wygrał wygrał przy pokazaniu danego W SIECIACH SAMOUCZĄ SAMOUCZĄCYCH wzorca – dalej bę będzie wygrywał wygrywał. • Samouczenie jest skuteczniejsze i efektywniejsze (każ (każdy WTA (Winner Takes All) All) - zwycię zwycięzca bierze wszystko: neuron rozpoznaje jeden obiekt, pozostał pozostałe neurony pozostają pozostają niezagospodarowane). • Najlepszy neuron – niezerowa wartość wartość sygnał sygnału WY (zwykle 1); • Wysoce prawdopodobne jest, iż iż: • Pozostał Pozostałe wyjś wyjścia są są zerowane; zerowane; • Tylko najlepszy neuron jest uczony. ) Zasada WTA daje jednoznaczną jednoznaczną odpowiedź odpowiedź sieci (co niekoniecznie musi być być zaletą zaletą). ) Wszystkie sygnał sygnały mniejsze niż niż ustalony pró próg – brak rozpoznania. rozpoznania. kiego dopasowania wag, by uzyskać uzyskać najlepszą najlepszą korekorelację lację mię między sygnał sygnałami WE a zapamię zapamiętanym (w formie wag) wzorcem sygnał sygnału, na któ który dany neuron ma reagować reagować. 65 - nie bę będzie grup neuronó neuronów rozpoznają rozpoznających ten sam wzorzec; - nie bę będzie klas nierozpoznanych przez żaden neuron. • Niezagospodarowane neurony są są gotowe rozpoznawać rozpoznawać nowe wzorce. wzorce. • Po wykorzystaniu wszystkich neuronó neuronów i pojawieniu się się nowego wzorca – przecią przeciąganie któ któregoś regoś z neuronó neuronów w jego stronę stronę: 66 www.kwmimkm.polsl.pl SIECI SAMOORGANIZUJĄ SAMOORGANIZUJĄCE SIĘ SIĘ www.kwmimkm.polsl.pl Analiza skupień skupień – w analizy ekonomicznej (np. podobień ). podobieństwo przedsię przedsiębiorstw – rentowność rentowność). (Teuvo Kohonen) Kohonen) • Tworzą Tworzą odwzorowania sygnał sygnałów WE w sygnał sygnały WY, Kolektywność Kolektywność – to co rozpoznaje neuron zależ zależy w duż dużej mierze od tego, co rozpoznają rozpoznają inne neurony. speł spełniają niające pewne ogó ogólne kryteria (nie zdeterminowazdeterminowane przez twó twórcę rcę ani uż użytkownika sieci) – samoorganizacja sieci. sieci. Sąsiedztwo – znaczenie ma wzajemne poł położenie neuronó neuronów w warstwach. • Inny (wy ższy) (wyż szy) sposó sposób samouczenia, samouczenia, wprowadzają wprowadzający efekty koherencji i kolektywnoś kolektywności. Zwykle są sąsiedztwo 22-wymiarowe – neurony w wę węzłach regularnej siatki (każ każdy neuron ma min. 4 są sąsiadó siadów). ść) - sieć Koherencja (słown. own. spó spójność jność,, spoistość spoistość,, łączno łączność sieć grupuje dane wejś wejściowe wg wzajemnego podobień podobieństwa – wykrywa automatycznie obiekty podobne do siebie nawzajem i inne od innych grup obiektó obiektów. 67 Przykł Przykładowe są sąsiedztwa: www.kwmimkm.polsl.pl 68 Rozszerzone sąsiedztwo: www.kwmimkm.polsl.pl Rozbudowane sąsiedztwo: Jednowymiarowe sąsiedztwo: 69 www.kwmimkm.polsl.pl Gdy w procesie uczenia któ a: któryś ryś neuron zwycięż zwycięża: uczy się się też też (w mniejszym stopniu) stopniu) jego są sąsiadó siadów (niezależ niezależnie od ich wag począ początkowych!). tkowych!). 71 70 Neurony są sąsiadują siadujące rozpoznają rozpoznają sygnał sygnały z są sąsiadują siadujących podobszaró podobszarów: www.kwmimkm.polsl.pl Skutek: Sygnał Sygnały ró równomiernie rozmieszczone w pewnym obszaobszarze ⇒ neurony zostają zostają tak nauczone, by każ każdy podobszar sygnał sygnałów był był rozpoznawany 72 przez inny neuron. • Po wytrenowaniu każ każdej praktycznej sytuacji www.kwmimkm.polsl.pl odpowiada neuron, któ który ją ją reprezentuje. www.kwmimkm.polsl.pl SIECI REKURENCYJNE Zawierają enia zwrotne: Zawierają sprzęż sprzężenia • Sąsiedztwo powoduje wykrywanie sytuacji podobnych do prezentowanych. • W sieci powstaje wewnę wewnętrzny obraz świata zewnę zewnętrznego. trznego. • Sygnał ce Sygnały blisko siebie bę będą wykrywane przez leżą leżące blisko siebie neurony. Przykł Przykładowe zastosowania: • robot dostosowują dostosowujący zachowanie do zmiennego środowiska; • systemy bankowe – stworzenie modelu wiarygodnego kredytobiorcy. Po jednorazowym podaniu sygnał sygnału WE – długotrwał ugotrwały proces zmiany sygnał sygnału WY, w efekcie stan ró równowagi. wnowagi. 73 www.kwmimkm.polsl.pl • Waga sprzęż enia dodatnia – sygnał sprzężenia sygnał zmienia się się jednokierunkowo (aperiodycznie); • Waga sprzęż enia ujemna – sygnał sprzężenia sygnał zmienia się się oscylacyjnie; oscylacyjnie; • Przy neuronach nieliniowych moż możliwe chaotyczne błądzenie łądzenie sygnał sygnałów; Zachowania: • stabilne (zbieganie się się sygnał sygnałów do okreś określonej wartoś wartości); • niestabilne (warto ści sygnał (wartoś sygnału coraz wię większe). ksze). Zastosowania: • zadania optymalizacji (stany ró równowagi odpowiadają odpowiadają rozwią rozwiązaniom zadań zadań); • pamię pamięci skojarzeniowe (drobny fragment informacji pozwala 75 odtworzyć odtworzyć całą całą informację informację). 74 www.kwmimkm.polsl.pl SIECI HOPFIELDA • Każ Każdy neuron jest zwią związany z każ każdym innym na zasadzie obustronnego sprzęż enia zwrotnego. sprzężenia eń zwrotnych obejmują • Zabroniono sprzęż sprzęże obejmujących pojedynczy neuron. • Symetria wspó współczynnikó czynników wagowych: wxy=wyx X wxy Y wyx Skutek: zachodzą zachodzące procesy są są zawsze stabilne. 76