Sztuczne sieci neuronowe

Transkrypt

Plan wykładu
•
•
•
•
Powtórzenie podstawowych wiadomo ci o sieciach RBF
Uczenie sieci RBF - cd.
Zalety i wady sieci RBF
Sieci PNN.
Wykład 7: Sieci RBF.
Probabilistyczne sieci neuronowe.
Małgorzata Kr towska
Katedra Oprogramowania
e-mail: [email protected]
1
Konstruowanie klastrów za pomoc
dendrogramów
2
Algorytm probabilistyczny doboru
parametrów funkcji radialnych
• Na pocz tku ka dy z wektorów treningowych tworzy odr bny klaster
• W procesie iteracyjnym nast puje ł czenie najbli szych, w sensie
odpowiedniej miary odległo ci, s siadów
• Procedura jest powtarzana do momentu:
• Element kluczowy w jako ci sieci: wst pny dobór liczby funkcji
bazowych
• Wymagania co do liczby neuronów mo na złagodzi przez
wprowadzenie sieci typu HRBF realizuj cej odwzorowanie z norm
wagow Euklidesa
– uzyskania zadowalaj cej liczby klastrów lub
– najmniejsza odległo w iteracji oka e si zbyt du a, aby mo na było
dokona poł czenia
• Współczynniki macierzy Q s dodatkowymi parametrami
podlegaj cymi doborowi i ułatwiaj aproksymacj danych ucz cych
przez sie radialn
• Tak sam dokładno mo na uzyska w sieci HRBF przy mniejszej
liczbie funkcji bazowych
3
4
Sie HRBF
Algorytm probabilistyczny
• Zało enia:
– równomierny rozkład danych ucz cych x w zbiorze ucz cym
– ograniczenie si do diagonalnej macierzy skaluj cej Q
• Proces adaptacji parametrów:
ηk- współczynnik uczenia (maleje w miar wzrostu k: ηk= η0/k)
1
2
c ( k ) + ηk [ϕ i ( xk ) xk − ci (k )]
ci ( k + 1) = i
(1 − ηk ) + ηkϕ i ( xk )
ϕ i ( x) = exp − [ x − ci ( k )]T Fi−1[ x − ci ( k )]
Fi ( k + 1) =
Wykres bł du klasyfikacji w funkcji liczby neuronów ukrytych dla sieci
RBF i HRBF
5
Qi =
1 −1
Fi
2
Fi ( k ) + ηk [ϕi ( x k )[ xk − ci ( k )][ xk − ci ( k )]T − f i ( k )]
(1 − ηk ) + ηkϕ i ( xk )
6
Algorytm probabilistyczny
Etap II - uczenie z nadzorem
Cechy charakterystyczne:
• Bazuje, podobnie jak w sieciach sigmoidalnych, na minimalizacji
funkcji celu w postaci:
p
E=
• na ka dym etapie algorytmu nast puje równocze nie adaptacja centrów
i macierzy wagowej
1
2
i =1
ei = di − f ( xi ) = di −
• parametry wszystkich funkcji radialnych sieci podlegaj adaptacji (w
algorytmie k- rednich tylko jedno centrum podlegało adaptacji)
ei2
H
j =1
wj ϕ j ( xi − ci
)
• Mo na dokonywa równolegle aktualizacji wag, centrów i dyspersji
(dowolne metody gradientowe)
∂E
∂wi
∂E
ci ( k + 1) = ci ( k ) − ηc
∂ci
∂E
σ i ( k + 1) = σ i ( k ) −ησ
∂σ i
wi ( k + 1) = wi ( k ) − ηw
7
8
Uczenie sieci RBF
Sie RBF, zalety i wady
• łatwy proces nauki sieci RBF (tj. dobór wag sieci) w porównaniu z
algorytmami uczenia perceptronu wielowarstwowego
• w sieci RBF funkcja kosztu okre lona jako bł d redniokwadratowy
posiada jedno minimum globalne
• łatwiejszy dobór struktury sieci ze wzgl du na wyst powanie tylko
jednej warstwy ukrytej
• Łatwiejsza interpretacja działania sieci tj. okre lenie udziału
poszczególnych funkcji bazowych w tworzeniu globalnej funkcji
przetwarzania sieci
• dla rozwi zania pewnych zada obliczeniowych uzyskuje si mniejsz
liczb wag w sieci RBF ni wag w sieci MLP ( dla niektórych
odwrotnie)
• sie RBF, przy nieprawidłowo dobranych parametrach funkcji
bazowych, mo e łatwo utraci zdolno uogólniania
• aktualny pozostaje problem doboru liczby funkcji bazowych
• Dobór liczby funkcji bazowych jest kluczowym problemem przy
wła ciwym rozwi zaniu problemu aproksymacji.
• Dobór wła ciwej liczby neuronów zale y od wielu czynników:
wymiarowo ci problemu, liczby danych ucz cych, funkcji
aproksymowanej.
• Zaleca si stosowanie tzw. konstruktywnej metody doboru struktury
sieci, w której stopniowo zwi ksza si liczb funkcji bazowych i testuje
bł d sieci.
9
10
PNN
• Probabilistyczna sie neuronowa PNN jest przede wszystkim
klasyfikatorem
Probabilistyczne sieci neuronowe
• PNN reprezentuje metod statystyczn tzw. dyskryminacj j drow ,
przestawion w postaci czterech warstw:
–
–
–
–
Warstwa wej ciowa
Warstwa wzorców
Warstwa sumowania
Warstwa wyj ciowa
12
Przykład prostego klasyfikatora
Przykład prostego klasyfikatora
• Mamy trzy klasy (populacje) elementów: X, O, Y
• „?” jest nieznanym przypadkiem i powinien by sklasyfikowany do jednej z
powy szych klas
• Bardziej skuteczna metoda brałaby pod uwag równie pozostałe elementy
zbioru ucz cego. Przy czym ich wpływ na decyzj powinien by ró ny:
– przykłady le ce blisko „?” powinny mie du y wpływ na decyzj (zwi ksza
prawdopodobie stwo zaklasyfikowania do populacji, któr reprezentuj )
– przykłady le ce daleko od „?” powinny mie mały wpływ na decyzj (zmniejsza
prawdopodobie stwo zaklasyfikowania do populacji, któr reprezentuj )
– tworzenie „stref wpływów”
• Metoda najbli szego s siada (1-NN) sklasyfikowałaby przypadek „?” do klasy
X poniewa element klasy X jest najbli szy.
– Ogólnie: Metoda 1-NN klasyfikuje nieznany przypadek do tej klasy, z której
pochodzi przypadek poło ony najbli ej.
• To co bardziej efektywny klasyfikator powinien robi to: dla ka dej populacji
wyznacza redni „udziałów” wnoszonych przez przykłady ze zbioru
ucz cego nale ce do tej populacji
• Metoda k-NN sklasyfikowałaby nieznany przypadek „?” do klasy X poniewa ,
w ród k najbli szych elementów najwi kszy procent stanowi elementy z
populacji X.
• Nieznany przypadek powinien by nast pnie przypisany do tej populacji, dla
której warto rednia „udziałów” jest najwi ksza
13
14
Teoria klasyfikacji
p(x/K1)
0.2
Je eli funkcja g sto ci ka dej
jest znana (fk jest funkcj
klasy
k),
wówczas
przypadek X nale y do
je eli:
populacji
g sto ci
nieznany
klasy i,
fi(X) >fj (X), dla wszystkich j≠
≠i
Estymacja funkcji g sto ci
p(x/K2)
• Estymacja funkcji g sto ci w oparciu o zbiór ucz cy (przykłady z
poszczególnych populacji)
0.1
• Funkcja g sto ci dla pojedynczego przypadku:
0.0
0
5
c
10
15
1
x
σ
x − xk
W
x - nieznany przypadek
xk - k-ty przykład ze zbioru ucz cego
W- funkcja
σ - dyspersja
σ
Parametry, które mog by dodatkowo wł czone:
• Funkcja g sto ci dla jednej populacji
• Prawdopodobie stwo a priori (h) (prawdopodobie stwo, e nieznany przypadek został
wylosowany z danej populacji)
1
pσ
• Koszt bł dnej klasyfikacji (c) - koszt niewła ciwej klasyfikacji nieznanego przypadku
• Reguła decyzyjna przybiera posta (reguła Bayesowska):
k =1
W
x − xk
σ
• Estymacja funkcji g sto ci jest tym lepsza im wi kszy jest zbiór ucz cy
hi ci fi(X) > hj cj fj (X), dla wszystkich j≠
≠i
p
15
16
Funkcja W
Dane wej ciowe n-wymiarowe
• Reprezentuje „stref wpływów”
• Funkcja g sto ci dla jednego przykładu
– du e warto ci w przypadku małych odległo ci mi dzy wektorem
nieznanym a przykładami ucz cymi
– maleje do zera w miar wzrostu odległo ci
−
1
e
σ n ( 2π ) n / 2
g ( x) =
pi
σ 2π
k =1
e
−
2σ
1
gi ( X ) =
n
piσ (2π ) n / 2
( x− x k ) 2
2σ
2
2
• Funkcja g sto ci dla populacji
• Cz sto u ywana jest funkcja Gaussowska:
1
x − xk
2
pi
e
−
x − xik
2σ
2
2
k =1
• Reguła decyzyjna (eliminacja wspólnych czynników)
gi(X) >gj (X), dla wszystkich j≠i
1
gi ( X ) =
pi
17
e
−
x − xik
2
σ2
k =1
18
Uczenie
Wady i zalety
• Zbiór ucz cy powinien by reprezentatywny dla analizowanych
populacji
• Zalety:
– Szybki proces uczenia
– gwarantuje zbie no do optymalnego klasyfikatora wraz ze wzrostem
liczby elementów w zbiorze ucz cym
– Dodawanie i usuwanie nowych przypadków bez du ych zmian w uczeniu
• Dodawanie i usuwanie przykładów ucz cych powoduje jedynie
dodawanie i usuwanie neuronów w warstwie drugiej
• Wady
• Uczenie bazuje głownie na doborze warto ci współczynników dyspersji
– Mniejsze zdolno ci uogólniaj ce w porównaniu z sieciami
wielowarstwowymi
– Du e wymagania co do pami ci
– Wolne działanie sieci
– Du e wymagania dotycz ce jako ci danych ucz cych
– na bazie wiedzy o analizowanym problemie
– u ywaj c technik heurystycznych (np. leave-one-out)
pi
19
20

Sztuczne sieci neuronowe

Transkrypt

Podobne dokumenty

Sztuczne sieci neuronowe

Sieci neuronowe - Kognitywistyka

sieci neuronowe, data mining

Literatura / Przerabiany materiał

Radialne Sieci Neuronowe

SUKCES NAJMŁODSZYCH SZACHISTEK Z NASZEJ SZKOŁY

"Kwiatex" Stanislaw Mazurowski, Szadek, Osiny 40

dowiedz się więcej

Uczyńcie co wam mówi Syn - Liturgia

Sztuczne sieci neuronowe

(Microsoft PowerPoint - SN_W6.ppt [tryb zgodno\234ci])