Nieliniowa pamięć asocjacyjna typu RBF. Niech ϕ(x) = e−(x , (1
Transkrypt
Nieliniowa pamięć asocjacyjna typu RBF. Niech ϕ(x) = e−(x , (1
Nieliniowa pamięć asocjacyjna typu RBF. Niech x 2 ϕ(x) = e−( r ) , (1) gdzie r ∈ R jest parametrem. Jest to funkcja o symetrii radialnej, która może być użyta do konstrukcji pamięci asocjacyjnej pamiętającej zestaw p par wzorzec wejściowy-wzorzec wyjściowy Z = {(s(k) , f (k) )}pk=1 . Rozpatrzmy sieć taką jak na rysunku 1. j-te wyjście takiej sieci wyraża się wzorem yj = p X wij ϕ(||s(i) − x||) i=1 gdzie j = 1, . . . , m. Rysunek 1: Asocjacyjna sieć typu RBF (radialnymi funkcjami aktywacji). Rozpatrzmy teraz wzorzec s(k) zapisując warunek interpolacyjny dla wszystkich wyjść (k) fj = p X wij φ(||s(i) − s(k) ||), j = 1, . . . , m, i=1 czyli mamy (k) p (i) f1 = − s(k) ||), i=1 wi1 ϕ(||s Pp (k) (i) f2 = − s(k) ||), i=1 wi2 ϕ(||s ... Pp (k) (i) fm = − s(k) ||). i=1 wim ϕ(||s P (2) Takie zestawy warunków mamy dla k = 1, . . . , p. Tak więc mamy ich tyle ile elementów macierzy wag W = [wij ] ∈ Rp×m . 1 Aby wyznaczyć j-tą kolumnę w macierzy W tj. [w1j , w2j , . . . , wpj ] rozpatrujemy j-tą składową z każdego spośród p zestawów warunków (2), tzn. (1) p (i) fj = − s(1) ||), i=1 wij ϕ(||s P (2) p (i) fj = − s(2) ||), i=1 wij ϕ(||s ... Pp (p) (i) fj = − s(p) ||). i=1 wij ϕ(||s P Z tych warunków wyznaczamy j-tą kolumnę macierzy W tj: W1:p,j (j = 1, . . . , m). Ponieważ j = 1, . . . , m to mamy w ten sposób warunki na wszystkie elementy macierzy W. Ostatecznie więc mamy do rozwiązania równanie macierzowe z niewiadomą macierzą W F = ΦW, gdzie F = [f (1) ,f (2) ,...,f W= Φ= (p) T ] = (1) (1) (1) f1 f2 . . . fm (2) (2) (2) f2 . . . fm f1 ... (p) (p) (p) f1 f2 . . . fm w11 w12 . . . w1m w21 w22 . . . w2m ... wp1 wp2 . . . wpm , , ϕ(||s(1) − s(1) ||) ϕ(||s(1) − s(2) ||) . . . ϕ(||s(1) − s(p) ||) ϕ(||s(2) − s(1) ||) ϕ(||s(2) − s(2) ||) . . . ϕ(||s(2) − s(p) ||) ... (p) ϕ(||s − s(1) ||) ϕ(||s(p) − s(2) ||) . . . ϕ(||s(p) − s(p) ||) . Macierz Φ jest nieosobliwa (chociaż zazwyczaj b. źle uwarunkowana) dzięki własnościom funkcji radialnej (1) (patrz np. [1] rozdz. 5.). Jeśli chodzi o parametr r we wzorze (1), czyli promień gaussowskiej funkcji bazowej, to można przyjąć r = diam(S)/l, dla l = 1, 2, . . . gdzie S = {s(k) }pk=1 a diam(S) jest odległością pomiędzy dwoma najbardziej od siebie oddalonymi wzorcami s(i) i s(j) w zbiorze S. 2 Metoda PCA do redukcji wymiarowości zbioru danych. Poniższy materiał opracowany został na podstawie [2] 1 2 . Rozpatrzmy tablicę danych X = [xij ] ∈ Rp×n scentrowanych na 0. W kontekście oznaczeń z poprzednich zajęć X = [s(1) , s(2) , . . . , s(p) ]T . Cel: Znaleźć przekształcenie tablicy X, do tablicy Y = [yij ] ∈ Rp×d, która zachowa większość zmienności macierzy X, przy zredukowanej znacznie wymiarowości danych czyli d << n. Cel ten można się osiągnąć przez rozwiązanie następującego zadania. Zadanie: Wyznaczyć kombinację liniową a = [a1 , . . . , an ]T , transformującą macierz X do postaci y = Xa, tak, aby utworzony nowy wektor y ∈ Rp×1 miał maksymalną wariancję, czyli żeby kryterium K(a) = p X (yi )2 = yT y = (Xa)T (Xa) i=1 przyjmowało wartość maksymalną. Innymi słowy z kolumn macierzy Xp×n chcemy utworzyć nową kolumnę yp×1 = Xa taką by miała maksymalną wariancję 1 s2 (a) s2y = yT y = max n a∈R ,||a||=1 p Wariancja nowo utworzonej zmiennej (składowej) zapisuje się jako 1 s2y = (Xa)T Xa = aT Sa, p gdzie S = 1p XT X ∈ Rn×n jest macierzą kowariancji rozpatrywanych danych. Dowodzi się (patrz [2] dodatek 2), że istnieje dokładnie n rozwiązań takiego zagadnienia. Są nimi wektory własne macierzy S. Zadanie więc sprowadza się do rozwiązania zagadnienia własnego (S − λI)a = 0. Ponieważ S ∈ Rn×n jest symetryczna to rozwiązania tj wektory własne [a1 , a2 , . . . , an ] można uporządkować tak, aby odpowiadające im wartości własne były uporządkowane niemalejąco λ1 λ2 . . . λn 0. 1 Zauważmy, że N ze skryptu [2] oznacza nasze p – liczba wzorców (np. liczb liter) oraz d ze skryptu [2] oznacza nasze n – liczba składowych wzorca. 2 Wydaje się, że wzór na s2y w dodatku 2 w [2] powinien mieć postać s2y = N1 yT y. 3 Można wykazać, że kierunek najdłuższej elipsoidy osi jest identyczny z kierunkiem wyznaczonym przez a1 . A wariancja rzutów indywidualnych punktów na kierunek a1 wynosi s2y[1] = λ1 = aT1 Sa1 . Patrz [2] rys. 6.3 – elipsoida danych i ich kierunki główne. Ostatecznie więc macierz A = [a1 , a2 , . . . , an ]. oznacza przekształcenie, które jest rotacją układów współrzędnych. Macierz Y = XA ∈ Rp×n , jest zestawem punktów w nowym układzie współrzędnych. Każda kolumna w macierzy Y jest więc kombinacją liniową kolumn z X. Najbardziej interesujące dla nas są dwa twierdzenia 1. o odtwarzaniu macierzy kowariancji macierzy S. Mianowicie mamy n X S= λj aj aTj j=1 2. o odtwarzaniu tablicy danych X = YAT . Ta zależność wynika stąd, że A−1 = AT . Metoda PCA użyta do zadania asocjacji 1. Wyznaczamy macierz S. 2. Wyznaczamy d < n, takie, że d X λj aj aTj j=1 w 95% odtwarza zmienność macierzy S. Wiadomo, że suma Zm = λ1 + λ2 + . . . + λn obejmuje 100% zmienności. Szukamy takiego d < n, aby λ1 + λ2 + . . . + λd stanowiło 95% sumy Zm. 3. Konstruujemy macierz Ad = [a1 , a2 , . . . , ad ] × Rn×d . 4. Metodę sprawdzamy na wektorze wejściowym x = [x1 , x2 , . . . , xn ]. 3 3 Wektor x jest wektorem ze zbioru wzorców lub, co jest bardziej realistyczne, zaszumionym wektorem ze zbioru wzorców. 4 (a) Obliczamy y = [y1 , y2, . . . , yd ] = xAd ∈ R1×d . (b) Obliczamy przekształcenie odwrotne x′ = yATd (Ad ATd )† , gdzie operator (·)† oznacza wyznaczenie pseudoodwrotności (funkcja pinv w Matlabie). Wyznaczenie zwykłej odwrotności macierzy Ad ATd jest tutaj niemożliwe, gdyż macierz ta jest macierzą o rozmiarze n × n o rzędzie równym d. 4 (c) Porównujemy x′ z wektorem wejściowym x oraz z wektorem wzorcowym, z którego wygenerowany został wektor x. Literatura [1] Ch. Bishop, Neural networks for pattern recognition, Clarendon Press, Oxford, 1995. [2] A. Bartkowiak, https://www.ii.uni.wroc.pl/˜aba/teach/NN/w6pca.pdf [email protected], Zakład Sterowania Jakością Procesów Wytwórczych, Instytut Informatyki, Automatyki i Robotyki, Elektornika, PWr funkcja pinv wyznacza d niezerowych wartości szczególnych macierzy Ad ATd i na ich podstawie obliczana jest pseudoodwrotność 4 5