Sztuczne sieci neuronowe

Transkrypt

Sztuczne sieci neuronowe
Plan wykładu
• Metody oceny jako ci sieci neuronowych
– problem klasyfikacji
– metody szacowania jako ci klasyfikacji
– ocena jako ci klasyfikacji
Sztuczne sieci neuronowe
Wykład 6: Ocena jako ci sieci neuronowej
Sieci RBF
• Sieci o radialnych funkcjach bazowych
– Wprowadzenie do sieci RBF
– Porównanie sieci wielowarstwowych i sieci RBF
– Teoretyczne podstawy działanie sieci RBF
Małgorzata Kr towska
Katedra Oprogramowania
e-mail: [email protected]
1
2
Sztuczne sieci neuronowe
Problem klasyfikacji
Problem dwuklasowy (N=1)
Przyporz dkowanie danego wektora cech x do jednej z M klas: K1, K2, .., KM
p(x/K1)
0.2
p(x/K2)
{x1, x2, ..., xn}
0.1
KLASYFIKATOR
0.0
Ki
Sztuczne sieci neuronowe
3
Sztuczne sieci neuronowe
0
5
c
x
10
15
x
4
Problem dwuklasowy (N=2)
Metody oceny jako ci klasyfikacji
• Zbiór ucz cy i zbiór testowy
• Walidacja krzy owa (ang. crossvalidation)
• Metoda leave-one-out (Jackknife)
Sztuczne sieci neuronowe
5
6
Sztuczne sieci neuronowe
Walidacja krzy owa (k-punktowa)
Leave-one-out
• Przypadek szczególny walidacji krzy owej
• Je eli zbiór ucz cy zawiera p wektorów cech wówczas metoda leave-one-out
jest równowa na p-punktowej walidacji krzy owej
zbiór danych:
losowy podział
zbioru danych
na k podzbiorów
zbiór danych:
podzbiór testowy
p
W praktyce : k=10
Sztuczne sieci neuronowe
7
Sztuczne sieci neuronowe
8
Ocena jako ci klasyfikacji
Jako
klasyfikacji =
Ocena jako ci klasyfikacji (2 klasy)
Liczba poprawnie sklasyfikowanych przypadków /
Liczba wszystkich analizowanych przypadków
Klasa =>
Decyzja
K1
K2
..........
K1
n11
n12
n1M
K2
n21
n22
n2M
Klasa (0, 1)
np. choroba (tak, nie)
KM
Wynik
Tak
klasyfikacji
Nie
...........
Czy jako
KM
nM1
nM2
Liczno
n1
n2
nMM
.....
Tak
Nie
True positive
(TP)
False Positive
(FP)
TP+FP
False negative
(FN)
True negative
(TN)
FN+TN
TP+FN
FP+TN
nM
klasyfikacji 0,95 jest dobra?
9
Sztuczne sieci neuronowe
Ocena jako ci klasyfikacji (2 klasy)
p(x/K1)
0.2
0.1
10
Ocena jako ci klasyfikacji (2 klasy)
• Efektywno = TP+TN / TP+FP+FN+TN - frakcja poprawnie
sklasyfikowanych przypadków
p(x/K0)
• Czuło = TP / TP+FN - frakcja poprawnie sklasyfikowanych
przypadków choroby
TN
TP
Sztuczne sieci neuronowe
• Specyficzno = TN / FP+TN - frakcja poprawnie sklasyfikowanych
przypadków osób zdrowych
0.0
FP FN
0
5
c
10
15
x
(ang. accuracy, sensitivity, specificity)
Sztuczne sieci neuronowe
11
Sztuczne sieci neuronowe
12
Krzywa ROC
(ang. Receiver Operating Characteristics)
Sieci o radialnych funkcjach bazowych
(RBF; ang. Radial Basis Functions)
• Krzywa ROC - obrazuje
zale no pomi dzy
czuło ci metody a
warto ci 1-specyficzno
dla ró nych warto ci
progowych
• Porównanie jako ci dwóch
metod klasyfikacji =>
porównanie wielko ci
obszaru pod krzyw ROC
• Sieci dwuwarstwowe ( 1 warstwa ukryta)
• Przepływ informacji od wej cia w kierunku warstwy wyj ciowej
• Brak wymiany informacji mi dzy neuronami w jednej warstwie
13
Sztuczne sieci neuronowe
Sieci wielowarstwowe a sieci RBF
Sieci wielowarstwowe a sieci RBF
Sieci neuronowe wielowarstwowe
Sieci RBF
• neurony w warstwach ukrytych
spełniały rol sumatorów impulsów
dochodz cych do nich z
poprzedniej warstwy
• wyznaczenie aktywacji, w
neuronach warstwy ukrytej,
odbywa si na zasadzie
wyznaczenia warto ci tzw. radialnej
funkcji bazowej (argumentem jest
odległo ||x-c||)
• rezultat sumowania był nast pnie
przetwarzany przez tzw. funkcj
aktywacji i powodował pobudzenie
neuronu na okre lonym poziomie
• neuron przekazywał swoj
aktywacj - jako bodziec
numeryczny do warstwy nast pnej
lub na wyj cie
Sztuczne sieci neuronowe
14
Sztuczne sieci neuronowe
Sieci wielowarstwowe
• neuron reprezentuje
hiperpłaszczyzn
• mo e by wiele warstw ukrytych
Sieci RBF
• neuron reprezentuje hipersfer ,
dokonuj c podziału kołowego
wokół punktu centralnego
• jedna warstwa ukryta =>
uproszczenie uczenia sieci
• Warstwa wyj ciowa sumuje
aktywacje neuronów warstwy
ukrytej (posługuj c si swoimi
wagami)
• Wynik sumowania jest podawany
jako wynik działania sieci
15
Sztuczne sieci neuronowe
16
Radialne funkcje bazowe
Przykłady radialnych funkcji bazowych
• Funkcja Gaussa
G( r ) = exp −
Radialn funkcj bazow (typu RBF) nazywany funkcj G(•) postaci:
r2
2σ 2
G(x; c) = G (r(x,c)), gdzie r(x,c)=||x-c||={(x-c)T(x-c)}1/2
oznacza to, e warto ci funkcji - dla danego argumentu x - zale tylko od
odległo ci jej argumentu od centrum c b d cym parametrem tej funkcji.
(pojedyncza funkcja radialna jest czasem nazywana j drem (ang. kernel) a
parametr σ szeroko ci j dra).
17
Sztuczne sieci neuronowe
Przykłady radialnych funkcji bazowych
• Funkcje pot gowe
18
Sztuczne sieci neuronowe
Przykłady radialnych funkcji bazowych
G (r ) = (σ 2 + r 2 ) , α > 0
−α
• Funkcja sklejana
G (r ) = (σr ) ln(σr )
2
α=1 i -0.5
Sztuczne sieci neuronowe
19
Sztuczne sieci neuronowe
20
Teoretyczne podstawy sieci RBF
(aproksymacja)
Działanie sieci RBF
• W sieciach RBF neurony pierwszej warstwy obliczaj - na podstawie
podanego na wej cie wektora cech x, swoje aktywacje jako warto :
G1(x)=G(x, c1); G2(x)=G(x, c2); ...; GH(x)=G(x,cH)
• Sie RBF działa na zasadzie wielowymiarowej interpolacji, której
zadaniem jest odwzorowanie p ró nych wektorów wej ciowych xi
(i=1,2,.., p) z N wymiarowej przestrzeni wej ciowej w zbiór p liczb
rzeczywistych di.
• Jest to równowa ne okre leniu funkcji radialnej F(x), dla której s
spełnione warunki interpolacji:
F(xi) = di
gdzie Gh - oznacza funkcj radialn obliczon wzgl dem centrum ch.
• Obliczone w ten sposób warto ci G1, .., GH słu jako dane wej ciowe
dla warstwy wyj ciowej, która oblicza z nich wa on sum . Przy
zało eniu jednego neuronu w warstwie wyj ciowej otrzymujemy:
y(x)=w0+w1G1 (x) +w2G2 (x) + ... + wHGH(x)
przy czym funkcja F(x) okre lona jest wzorem:
F ( x) =
i =1
21
Teoretyczne podstawy sieci RBF
G12
G1 p
W1
d1
G 21
G22
G2 p W2
d2
Gp1 G p2
G pp W p
=
Wybór rodzaju normy mo e by dowolny, w praktyce najcz ciej norma
euklidesowa.
Sztuczne sieci neuronowe
22
• Wprowadzone zało enie dotycz ce istnienia p neuronów ukrytych
prowadzi do uzyskania sieci o złych własno ciach uogólniaj cych.
• Przy du ej liczbie danych ucz cych i równej im liczbie funkcji
radialnych sie b dzie si dopasowywała do ró nego rodzaju szumów i
nieregularno ci wyst puj cych w danych.
dp
• Wprowadzenie czynnika regularyzacji (problem optymalizacji):
gdzie Gji=G(||xj-xi||) dotyczy funkcji radialnej w centrum xi.
W postaci macierzowej:
L( F ) =
GW=d
1
2
p
i =1
(F ( xi ) − di )2 + 1 λ
2
PF
2
gdzie λ współczynnik regularyzacji, ||PF|| - czynnik stabilizuj cy
karz cy za brak gładko ci funkcji F (du e i cz sto powtarzaj ce si
zmiany nachyle funkcji aproksymuj cej)
Rozwi zanie:
W=G d
-1
Sztuczne sieci neuronowe
)
Sie RBF - podstawy teoretyczne
Zakładaj c p punktów interpolacyjnych mo na otrzyma układ równa
liniowych:
G11
wi G ( x − xi
gdzie xi- warto ci wektorów i centra funkcji radialnej.
Przy danych centrach c1, c2, ..., cH i parametrze σ pozostaj nam tylko do
wyznaczenia warto ci wag.
Sztuczne sieci neuronowe
p
23
Sztuczne sieci neuronowe
24
Sie RBF - podstawy teoretyczne
(klasyfikacja)
Regularyzacja
• Twierdzenie Covera (1965)
Zło ony problem klasyfikacyjny „zrzutowany” nieliniowo na przestrze
wielowymiarow mo e by rozdzielony za pomoc separatora
liniowego z wi kszym prawdopodobie stwem ni przy rzutowaniu na
przestrze o mniejszej liczbie wymiarów.
Udowodniono, e ka dy zbiór wzorców losowo rozmieszczony w
przestrzeni wielowymiarowej jest ϕ-separowalny z
prawdopodobie stwem równym jeden, pod warunkiem zastosowania
odpowiednio du ego wymiaru, na który rzutowana jest ta przestrze , tj.
przestrze generowana przez funkcje bazowe ϕi.
Wpływ regularyzacji na odwzorowanie danych przy nadwymiarowej liczbie
funkcji bazowych: a) brak regularyzacji; b) wynik z regularyzacj
25
Sztuczne sieci neuronowe
26
Sztuczne sieci neuronowe
Sie RBF - podstawy teoretyczne
Sie RBF
Zatem istnieje taki wektor w, e:
wT ϕ(x) ≥ 0 dla x∈A
wT ϕ(x) < 0 dla x∈B
gdzie wT ϕ(x)=0 reprezentuje granic pomi dzy klasami.
W praktyce oznacza to, e zastosowanie dwu warstw sieci, jednej
zawieraj cej funkcje radialne i wyj ciowej warstwy liniowej zapewnia
rozwi zanie problemu klasyfikacji nieliniowej.
ym =
Sztuczne sieci neuronowe
27
Sztuczne sieci neuronowe
H
i =0
Gi ( x ) wmi
28
Rodzaje sieci RBF
Sieci HRBF
Sieci RBF
• Sieci GRBF (ang. Generalized Radial Basis Function)- mniejsza liczba
w złów ni danych.
• Sieci HRBF (ang. Hyper Radial Basis Function)- pełna macierz obrotów
i skalowania Q (współczynnik wagowy, ze wzgl du na ró n zmienno
w ka dej osi; Q ró ne dla ró nych centrów):
x
2
Q
Sieci HRBF
= (Qx)T (Qx) = xT Q T Qx
Oznaczaj c iloczyn macierzy QTQ jako macierz C otrzymujemy:
x
2
Q
=
p
p
i =1 j =1
Cij xi x j
W szczególno ci, je eli macierz Q jest diagonalna Q=1, wówczas
wagowa norma Euklidesowa sprowadza si do normy klasycznej:
x
Sztuczne sieci neuronowe
2
Q
2
= x =
p
i =1
xi2
29
Uczenie sieci RBF
Sztuczne sieci neuronowe
30
Etap I - wybór centrów funkcji bazowych
Uczenie sieci RBF odbywa si w trybie nadzorowanym. Mo na tu
wyró ni dwa etapy:
• Losowy wybór centrów funkcji bazowych
• dobór parametrów funkcji bazowych (centra + dyspersje)
• Zastosowanie procesu samoorganizacji
• Wykorzystanie dendrogramów
• Algorytm probabilistyczny (HRBF)
• dobór wag neuronów warstwy wyj ciowej
Sztuczne sieci neuronowe
31
Sztuczne sieci neuronowe
32
Losowy wybór centrów funkcji bazowych
Zastosowanie procesu samoorganizacji
• rozwi zanie najprostsze, wykorzystywane dla klasycznych sieci
radialnych
• losowy wybór centrów:
• Proces samoorganizacji stosowany do danych ucz cych automatycznie
dzieli przestrze na obszary Voronoia, reprezentuj ce oddzielne grupy
danych
• centrum klastra jest uto samiane z centrum odpowiedniej funkcji
radialnej
• liczba tych funkcji równa jest liczbie klastrów i mo e by korygowana
przez algorytm samoorganizacji
– w obszarze zmienno ci wzorców ucz cych
– losowy wybór centrów spo ród wzorców ucz cych (prosty i daje dobre
rezultaty)
• parametr dyspersji jest jednakowy dla wszystkich funkcji bazowych i
jest okre lany jako:
σ=
gdzie
d
2M
• Proces podziału danych na klastry mo e by przeprowadzony przy
u yciu jednej z wersji algorytmu k- rednich
• Proces inicjalizacji centrów:
– M - jest liczb wszystkich neuronów warstwie ukrytej;
– d jest maksymaln odległo ci pomi dzy wybranymi centrami
• Gaussowska funkcja bazowa przyjmuje posta : G( x − c ) = exp −
i
x − ci
– odbywa si najcz ciej losowo, przy zało eniu rozkładu równomiernego
w procesie doboru odpowiednich wektorów x ze zbioru danych ucz cych,
jako centrów.
2
d2 K
33
Sztuczne sieci neuronowe
Zastosowanie procesu samoorganizacji
Zastosowanie procesu samoorganizacji
• Dobór parametru dyspersji funkcji radialnych:
– w przypadku danych ucz cych reprezentuj cych funkcj ci gła: wst pne
warto ci centrów umieszcza si w punktach odpowiadaj cych warto ciom
maksymalnym i minimalnym funkcji. Dane odpowiadaj ce tym centrom
oraz ich najbli szemu otoczeniu s usuwane ze zbioru, a pozostałe centra
s lokowane równomiernie w obszarze utworzonym przez dane
pozostaj ce w zbiorze.
– Aby odwzorowanie funkcji realizowane przez sieci radialne było
stosunkowo gładkie:
• pola recepcyjne wszystkich funkcji radialnych powinny pokrywa
cały obszar danych wej ciowych
• dwa pola mog pokrywa si tylko w nieznacznym stopniu.
– Proponowane rozwi zania
• po zaprezentowaniu k-tego wzorca x(k) ze zbioru ucz cego jest
wybierane najbli sze centrum, które nast pnie podlega aktualizacji:
• za warto σj j-tej funkcji radialnej przyjmuje si odległo
euklidesow centrum cj od jego najbli szego s siada (tzn. innego
centrum)
ci (k + 1) = ci (k ) + η (k )[( x(k ) − ci (k )]
współczynnik uczenia η(k) maleje w miar wzrostu k, np. (T - stała l.
epok)
• na warto σj wpływa odległo j-tego centrum od jego P najbli szych
s siadów (zwykle nie przekracza trzech):
η (k ) = η0 (1 + k T )
• ka dy wektor ucz cy jest prezentowany kilkunastokrotnie, a do
ustalenia warto ci centrów.
Sztuczne sieci neuronowe
34
Sztuczne sieci neuronowe
σj=
35
Sztuczne sieci neuronowe
1
P
P
k =1
c j − ck
2
36