Nieliniowa pamięć asocjacyjna typu RBF. Niech ϕ(x) = e−(x , (1

Transkrypt

Nieliniowa pamięć asocjacyjna typu RBF. Niech ϕ(x) = e−(x , (1
Nieliniowa pamięć asocjacyjna typu RBF.
Niech
x 2
ϕ(x) = e−( r ) ,
(1)
gdzie r ∈ R jest parametrem. Jest to funkcja o symetrii radialnej, która może
być użyta do konstrukcji pamięci asocjacyjnej pamiętającej zestaw p par wzorzec
wejściowy-wzorzec wyjściowy
Z = {(s(k) , f (k) )}pk=1 .
Rozpatrzmy sieć taką jak na rysunku 1. j-te wyjście takiej sieci wyraża się wzorem
yj =
p
X
wij ϕ(||s(i) − x||)
i=1
gdzie j = 1, . . . , m.
Rysunek 1: Asocjacyjna sieć typu RBF (radialnymi funkcjami aktywacji).
Rozpatrzmy teraz wzorzec s(k) zapisując warunek interpolacyjny dla wszystkich
wyjść
(k)
fj
=
p
X
wij φ(||s(i) − s(k) ||),
j = 1, . . . , m,
i=1
czyli mamy











(k)
p
(i)
f1
=
− s(k) ||),
i=1 wi1 ϕ(||s
Pp
(k)
(i)
f2
=
− s(k) ||),
i=1 wi2 ϕ(||s
...
Pp
(k)
(i)
fm
=
− s(k) ||).
i=1 wim ϕ(||s
P
(2)
Takie zestawy warunków mamy dla k = 1, . . . , p. Tak więc mamy ich tyle ile
elementów macierzy wag W = [wij ] ∈ Rp×m .
1
Aby wyznaczyć j-tą kolumnę w macierzy W tj. [w1j , w2j , . . . , wpj ] rozpatrujemy j-tą składową z każdego spośród p zestawów warunków (2), tzn.











(1)
p
(i)
fj
=
− s(1) ||),
i=1 wij ϕ(||s
P
(2)
p
(i)
fj
=
− s(2) ||),
i=1 wij ϕ(||s
...
Pp
(p)
(i)
fj
=
− s(p) ||).
i=1 wij ϕ(||s
P
Z tych warunków wyznaczamy j-tą kolumnę macierzy W tj: W1:p,j (j = 1, . . . , m).
Ponieważ j = 1, . . . , m to mamy w ten sposób warunki na wszystkie elementy
macierzy W. Ostatecznie więc mamy do rozwiązania równanie macierzowe z niewiadomą macierzą W
F = ΦW,
gdzie

F = [f
(1)
,f
(2)
,...,f




W=


Φ=


(p) T
] =





(1)
(1)
(1)
f1
f2
. . . fm
(2)
(2)
(2)
f2
. . . fm
f1
...
(p)
(p)
(p)
f1
f2
. . . fm
w11 w12 . . . w1m
w21 w22 . . . w2m
...
wp1 wp2 . . . wpm



,





,

ϕ(||s(1) − s(1) ||) ϕ(||s(1) − s(2) ||) . . . ϕ(||s(1) − s(p) ||)
ϕ(||s(2) − s(1) ||) ϕ(||s(2) − s(2) ||) . . . ϕ(||s(2) − s(p) ||)
...
(p)
ϕ(||s − s(1) ||) ϕ(||s(p) − s(2) ||) . . . ϕ(||s(p) − s(p) ||)



.

Macierz Φ jest nieosobliwa (chociaż zazwyczaj b. źle uwarunkowana) dzięki własnościom funkcji radialnej (1) (patrz np. [1] rozdz. 5.).
Jeśli chodzi o parametr r we wzorze (1), czyli promień gaussowskiej funkcji
bazowej, to można przyjąć
r = diam(S)/l,
dla l = 1, 2, . . .
gdzie S = {s(k) }pk=1 a diam(S) jest odległością pomiędzy dwoma najbardziej od
siebie oddalonymi wzorcami s(i) i s(j) w zbiorze S.
2
Metoda PCA do redukcji wymiarowości zbioru danych.
Poniższy materiał opracowany został na podstawie [2] 1 2 .
Rozpatrzmy tablicę danych X = [xij ] ∈ Rp×n scentrowanych na 0. W kontekście
oznaczeń z poprzednich zajęć X = [s(1) , s(2) , . . . , s(p) ]T .
Cel: Znaleźć przekształcenie tablicy X, do tablicy Y = [yij ] ∈ Rp×d, która zachowa większość zmienności macierzy X, przy zredukowanej znacznie wymiarowości danych czyli d << n.
Cel ten można się osiągnąć przez rozwiązanie następującego zadania.
Zadanie: Wyznaczyć kombinację liniową a = [a1 , . . . , an ]T , transformującą macierz X do postaci
y = Xa,
tak, aby utworzony nowy wektor y ∈ Rp×1 miał maksymalną wariancję, czyli
żeby kryterium
K(a) =
p
X
(yi )2 = yT y = (Xa)T (Xa)
i=1
przyjmowało wartość maksymalną. Innymi słowy z kolumn macierzy Xp×n chcemy
utworzyć nową kolumnę yp×1 = Xa taką by miała maksymalną wariancję
1
s2 (a)
s2y = yT y = max
n
a∈R ,||a||=1
p
Wariancja nowo utworzonej zmiennej (składowej) zapisuje się jako
1
s2y = (Xa)T Xa = aT Sa,
p
gdzie S = 1p XT X ∈ Rn×n jest macierzą kowariancji rozpatrywanych danych.
Dowodzi się (patrz [2] dodatek 2), że istnieje dokładnie n rozwiązań takiego
zagadnienia. Są nimi wektory własne macierzy S. Zadanie więc sprowadza się do
rozwiązania zagadnienia własnego
(S − λI)a = 0.
Ponieważ S ∈ Rn×n jest symetryczna to rozwiązania tj wektory własne [a1 , a2 , . . . , an ]
można uporządkować tak, aby odpowiadające im wartości własne były uporządkowane niemalejąco
λ1 ­ λ2 ­ . . . ­ λn ­ 0.
1
Zauważmy, że N ze skryptu [2] oznacza nasze p – liczba wzorców (np. liczb liter) oraz d ze
skryptu [2] oznacza nasze n – liczba składowych wzorca.
2
Wydaje się, że wzór na s2y w dodatku 2 w [2] powinien mieć postać s2y = N1 yT y.
3
Można wykazać, że kierunek najdłuższej elipsoidy osi jest identyczny z kierunkiem wyznaczonym przez a1 . A wariancja rzutów indywidualnych punktów na
kierunek a1 wynosi s2y[1] = λ1 = aT1 Sa1 . Patrz [2] rys. 6.3 – elipsoida danych
i ich kierunki główne.
Ostatecznie więc macierz
A = [a1 , a2 , . . . , an ].
oznacza przekształcenie, które jest rotacją układów współrzędnych. Macierz
Y = XA ∈ Rp×n ,
jest zestawem punktów w nowym układzie współrzędnych. Każda kolumna w
macierzy Y jest więc kombinacją liniową kolumn z X.
Najbardziej interesujące dla nas są dwa twierdzenia
1. o odtwarzaniu macierzy kowariancji macierzy S. Mianowicie mamy
n
X
S=
λj aj aTj
j=1
2. o odtwarzaniu tablicy danych
X = YAT .
Ta zależność wynika stąd, że A−1 = AT .
Metoda PCA użyta do zadania asocjacji
1. Wyznaczamy macierz S.
2. Wyznaczamy d < n, takie, że
d
X
λj aj aTj
j=1
w 95% odtwarza zmienność macierzy S. Wiadomo, że suma Zm = λ1 +
λ2 + . . . + λn obejmuje 100% zmienności. Szukamy takiego d < n, aby
λ1 + λ2 + . . . + λd stanowiło 95% sumy Zm.
3. Konstruujemy macierz Ad = [a1 , a2 , . . . , ad ] × Rn×d .
4. Metodę sprawdzamy na wektorze wejściowym x = [x1 , x2 , . . . , xn ].
3
3
Wektor x jest wektorem ze zbioru wzorców lub, co jest bardziej realistyczne, zaszumionym
wektorem ze zbioru wzorców.
4
(a) Obliczamy
y = [y1 , y2, . . . , yd ] = xAd ∈ R1×d .
(b) Obliczamy przekształcenie odwrotne
x′ = yATd (Ad ATd )† ,
gdzie operator (·)† oznacza wyznaczenie pseudoodwrotności (funkcja
pinv w Matlabie). Wyznaczenie zwykłej odwrotności macierzy Ad ATd
jest tutaj niemożliwe, gdyż macierz ta jest macierzą o rozmiarze n × n
o rzędzie równym d. 4
(c) Porównujemy x′ z wektorem wejściowym x oraz z wektorem wzorcowym, z którego wygenerowany został wektor x.
Literatura
[1] Ch. Bishop, Neural networks for pattern recognition, Clarendon Press,
Oxford, 1995.
[2] A. Bartkowiak, https://www.ii.uni.wroc.pl/˜aba/teach/NN/w6pca.pdf
[email protected],
Zakład Sterowania Jakością Procesów Wytwórczych,
Instytut Informatyki, Automatyki i Robotyki, Elektornika, PWr
funkcja pinv wyznacza d niezerowych wartości szczególnych macierzy Ad ATd i na ich podstawie obliczana jest pseudoodwrotność
4
5

Podobne dokumenty