T - Politechnika Śląska

Transkrypt

T - Politechnika Śląska
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Rozdział 39
w
Efektywność obliczeniowa algorytmów
bayesowskiego uczenia systemów TSK
w
1 Wstęp
da
.b
w
Streszczenie. Jednym z podstawowych problemów uczenia nadzorowanego
jest zagadnienie wyznaczania funkcji regresji, do którego rozwiązania można
stosować teorię maszyn uczących się opartych na wektorach istotnych (ang.
Relevance Vector Machine, RVM). Funkcję tę można wykorzystywać do
modelowania systemów rozmytych Takagi-Sugeno-Kanga, w wyniku czego
otrzymuje się algorytm FRVM (Fuzzy Relevance Vector Machine). W rozdziale przedstawiono analizę efektywności obliczeniowej algorytmu FRVM
oraz propozycję zmniejszenia jego złożoności obliczeniowej.
pl
s.
W wielu obszarach ludzkiej działalności napotyka się na problemy związane z gromadzeniem i przetwarzaniem danych. Dlatego też bazy danych, wraz z oprogramowaniem zapewniającym ich obsługę oraz przetwarzanie danych w nich przechowywanych, stanowią istotny element większości systemów informatycznych. Szczególnie ważne wydaje się przetwarzanie danych w aspekcie sztucznej inteligencji i systemów uczących się.
Badania nad systemami uczącymi się, w miarę wzrostu ich tematycznego zakresu i zróżnicowania oraz popularności, dały początek wąskiej, lecz prężnej dyscyplinie naukowej
zwanej maszynowym uczeniem się lub uczeniem się maszyn, którą można traktować jako
gałąź sztucznej inteligencji [1]. Maszyna ucząca się ma za zadanie obserwowanie pewnych
wektorów informacji wejściowych x i odpowiadanie na nie właściwymi wartościami wyjściowymi t. Proces uczenia się polega na określeniu algorytmu generowania tych odpowiedzi. W przypadku uczenia nadzorowanego (lub inaczej „uczenia się z nauczycielem”) maszyna ucząca się otrzymuje informację określającą w pewien sposób jego pożądane odpowiedzi dla pewnego zbioru wektorów wejściowych jako przykłady zachowania, jakiego się
od niej oczekuje (rys. 1). Przy uczeniu się bez nadzoru podawane są jedynie wektory wejściowe i maszyna ma się nauczyć właściwych odpowiedzi wyłącznie obserwując sekwencje
tych wektorów.
Alina Momot: Politechnika Śląska, Instytut Informatyki,
ul. Akademicka 16, 44-100 Gliwice, Polska
email:[email protected]
Michał Momot: Instytut Techniki i Aparatury Medycznej,
ul. Roosevelta 118, 41 - 800 Zabrze, Polska
email: [email protected]
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
A. Momot, M. Momot
w
Rys. 1. Model procesu uczenia nadzorowanego
w
da
.b
w
Na najwyższym poziomie ogólności można wskazać trzy podstawowe nurty w ramach
maszynowego uczenia się, które można określić jako [1]:
− teoretyczny, zajmujący się rozwijaniem podstaw teoretycznych algorytmów uczenia
się; rozpatrywane w tych badaniach problemy to m. in. ocena trudności różnych problemów uczenia się, szacowanie czasu i ilości informacji trenującej wymaganej do
uczenia się, określanie jakości wiedzy możliwej do nauczenia się, a także tworzenie
jednolitego słownika teoretycznego do rozważania różnych mechanizmów uczenia się;
− biologiczny, stawiający sobie za cel konstruowanie obliczeniowych modeli procesów
uczenia się występujących w naturalnych systemach biologicznych, u ludzi i zwierząt, na różnych poziomach ich struktury (od komórki do centralnego układu nerwowego);
− systemowy, zajmujący się opracowywaniem algorytmów uczenia się oraz konstruowaniem, badaniem i stosowaniem wykorzystujących je systemów uczących się.
W badaniach nad systemami uczącymi się szczególną rolę odgrywa teoria prawdopodobieństwa. Jej wpływ można zauważyć zarówno w nurcie teoretycznym jak i systemowym.
W pierwszym przypadku jej wyniki współtworzą aparat matematyczny, używany do analizy algorytmów uczenia się [7], [2], [3]. W drugim przypadku stanowią one podstawę różnych mechanizmów wnioskowania probabilistycznego, skutecznych i szeroko wykorzystywanych w wielu zastosowaniach [6], [4], [5].
Istotnym problemem w konstrukcji algorytmów uczenia maszynowego jest analiza efektywności tych algorytmów, a w szczególności określenie ich złożoności obliczeniowej i pamięciowej. Z uwagi na fakt, że obecne komputery wyposażane są w coraz pojemniejsze
pamięci operacyjne oraz dyskowe, a także można zaobserwować znaczące skracanie się
czasu dostępu do tych pamięci, złożoność pamięciowa, o ile nie jest wykładniczą funkcją
rozmiaru danych uczących, nie stanowi poważnej przeszkody w praktycznym wykorzystywaniu algorytmów. Jednak pomimo coraz szybszych jednostek obliczeniowych stosowanie
wielu skutecznych algorytmów uczenia maszynowego jest ograniczone poprzez ich znaczną złożoność obliczeniową. Wynika stąd potrzeba badań w kierunku przyspieszania obliczeń, zarówno w procesie uczenia jak i wykorzystywania nauczonego systemu.
Problem złożoności obliczeniowej uwidacznia się ze szczególną ostrością w etapie wyznaczania funkcji aproksymującej (etapie uczenia) w przypadku probabilistycznych algorytmów uczenia, wykorzystujących wnioskowanie bayesowskie takich jak np. algorytm uczenia maszyn opartych na wektorach istotnych (ang. Relevance Vector Machine, RVM)
przedstawiony w pracy [6]. Niniejszy rozdział ma na celu przedstawienie analizy efektywności obliczeniowej zmodyfikowanego algorytmu RVM zastosowanego do modelowania
systemu rozmytego Takagi-Sugeno-Kanga rzędu pierwszego, zwanego algorytmem FRVM
pl
s.
392
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Efektywność obliczeniowa algorytmów bayesowskiego uczenia systemów TSK
(Fuzzy Relevance Vector Machine) [4] oraz propozycję zmniejszenia złożoności obliczeniowej tego algorytmu.
2 Bayesowskie uczenie systemów TSK
w
Poniżej zostanie przedstawiony zarys metodologii bayesowskiego uczenia systemów TSK,
opisany bardziej szczegółowo w pracy [4]. Dla uproszczenia notacji zostanie pominięta
oczywista zależność pomiędzy wektorami wejściowymi systemu x, a wartościami wyjściowymi t oraz parametrami funkcji aproksymującej.
Dla danych par obserwacji w postaci zbioru {xi , ti }iN=1 szukana jest funkcja f spełniająca
warunki opisana wzorem:
w
∀i ∈ {1,2,..., N },
ti = f ( xi ) + ε i
(1)
w
gdzie {ε i } jest ciągiem niezależnych realizacji zmiennej losowej o rozkładzie normalnym
ze średnią 0 i odchyleniem standardowym σ.
Zakładając, że postać szukanej funkcji f opisana jest wzorem
N
∑ w K ( x, x ) + w ,
i
0
i
da
.b
f ( x) =
(2)
i =1
gdzie K ( x, xi ) jest funkcją jądra, natomiast parametry wi nazywane są wagami, oraz
uwzględniając fakt, że t = ( t1 , t 2 ,..., t N )T , jest N-elementowym ciągiem realizacji niezależnych zmiennych losowych o rozkładzie normalnym N ( f (xi ),σ i2 ) odpowiednio dla każdego
i ∈ { 1,2,..., N } i przyjmując oznaczenie β = (σ 1−2 , σ 2−2 ,..., σ N−2 )T , otrzymuje się rozkład warunkowy p(t|w,β) wektora t postaci:
p(t | w, β ) = (2π )
−N
2
{
1
| B | 2 exp −
1
2
(t − Φw)B(t − Φw)T },
(3)
p( w | α ) = (2π )
− N +1
2
1
{
pl
s.
gdzie B = diag (σ 1−2 ,σ 2−2 ,..., σ N−2 ) , natomiast Φ jest macierzą o elementach odpowiednio
Φ nm = K ( xn , xm−1 ) oraz Φ n1 = 1 .
Aby zapewnić dobrą zdolność uogólniania poszukiwanej funkcji regresji, przyjmuje się
założenie, że rozkład a’priori wektora w jest wielowymiarowym rozkładem normalnym
o zerowym wektorze średnich. Dodatkowe założenie o niezależności składowych tego
wektora prowadzi do określenia rozkładu a’priori dla parametru w postaci:
}
| A | 2 exp − 12 wAwT ,
(4)
gdzie A = diag (α 02 ,α 12 ,..., α N2 ) .
Uwzględniając powyżej opisane założenia można, wykorzystując wzór Bayesa, wyznaczyć analityczną postać rozkładu a’posteriori p(w|t,α,β). Jest nim rozkład normalny o wektorze średnich m oraz macierzy kowariancji C postaci:
m = CΦ T Bt
(
)
−1
C = Φ T BΦ + A .
(5)
393
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
A. Momot, M. Momot
Możliwe jest również wyznaczenie analitycznej postaci rozkładu p(t|α,β). Jest nim rozkład normalny o zerowym wektorze średnich i macierzy kowariancji (B −1 + ΦA −1Φ T ) . Przyjmując α MP oraz β MP jako najbardziej prawdopodobne wartości wektorów α oraz β, można
wyznaczyć rozkład wartości t* na podstawie nieznanej wcześniej wartości wektora x* oraz
σ *2 (wariancja zakłócenia wartości t* ). Jest to rozkład normalny o średniej danej wzorem
w
2, dla wektora w równego wektorowi m (wzór 5). Wynika z tego zatem, że za poszukiwaną
wartość wektora w można przyjąć wektor średnich m rozkładu p(w|t,α,β).
Wartości α MP oraz β MP można wyznaczyć wykorzystując metodę iteracji Pickarda,
przyjmując [4]:
w
α inew = (Cii + mi2 )
−1
(
)
−1
β inew = φ ( xi )Cφ ( xi )T + (ti − φ ( xi )m )2 ,
(6)
gdzie φ ( xi ) = (1, K ( xi , x1 ),..., K ( xi , x N ) ) , natomiast wektor m oraz macierz C dane są wzorem 5, lub też przyjmując alternatywną strategię wyznaczania wartości składowych wektora
w
β MP polegającą na założeniu, że dane są wartości początkowe wektora β oznaczone β̂ ,
a procesie iteracji zmienia się jedynie ich skala s ( β = sβˆ ):
N
,
T
Tr Bˆ ΦCΦ T + (t − Φm ) Bˆ (t − Φm )
(
)
da
.b
s new =
(7)
gdzie Bˆ = diag( βˆ ) .
Opisane iteracje wykonuje się dopóki wszystkie wartości α i uzyskane w danej iteracji różnią się znacząco od wartości otrzymanych w iteracji poprzedniej.
Powyżej opisany algorytm wyznaczania funkcji regresji można zastosować do otrzymania parametrów konkluzji rozmytych reguł systemu Takagi-Sugeno-Kanga, gdzie dla systemu TSK rzędu pierwszego wykorzystuje się funkcję jądra będącą iloczynem skalarnym,
gdyż funkcje występujące w konkluzjach rozmytych reguł systemu są funkcjami liniowymi. Powstaje w ten sposób algorytm zwany FRVM [4].
pl
s.
3 Złożoność obliczeniowa algorytmu FRVM
Algorytm FRVM w postaci opisanej wyżej charakteryzuje się znaczną złożonością obliczeniową. Jest ona rzędu N3 w przypadku złożoności czasowej, na którą największy wpływ ma
iteracyjny proces odwracania macierzy Φ T B Φ + A wymiaru N oraz rzędu N2 w przypadku złożoności pamięciowej, gdzie N jest liczbą elementów zbioru uczącego.
Aby obniżyć nieco złożoność czasową algorytmu podczas odwracania macierzy
Φ T B Φ + A można posłużyć się dekompozycją Choleskiego. Z uwagi, że jest to macierz
dodatnio określona, dekompozycja Choleskiego pozwala przedstawić ją jako M T M , gdzie
macierz M jest macierzą górnotrójkątną. Wystarczy więc odwracać jedynie macierz M,
a następnie skorzystać z równości Φ T B Φ + A = M T M . Przeprowadzone eksperymenty
numeryczne dla danych opisanych w pracy [4] pozwalają stwierdzić, że czas wykonania
zoptymalizowanej wersji algorytmu jest krótszy o 12% do 15%. Zarazem można stwierdzić, że w przypadku stosowania dekompozycji Choleskiego znaczniej rzadziej występuje
problem złego uwarunkowania odwracanej macierzy.
394
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Efektywność obliczeniowa algorytmów bayesowskiego uczenia systemów TSK
Ponadto w procesie iteracji można zauważyć, że wiele współczynników α inew przyjmuje
bardzo duże wartości dążąc do nieskończoności, o ile tylko precyzja maszynowa na to zezwala. Może prowadzić to do złego uwarunkowania macierzy Φ T B Φ + A , ponieważ gdy
z jednej strony wiele współczynników αinew przyjmuje bardzo duże wartości inne mogą
przyjmować stosunkowo małe wartości. Problem powstaje, gdy stosunek najmniejszej do
największej wartości α inew jest rzędu precyzji maszynowej (przez którą należy rozumieć
w
najmniejszą wartość ε taką, że 1 + ε ≠ 1 ).
Rozważając przypadek pojedynczego α i → ∞ (dla uproszczenia przyjmując, że i=1),
można zauważyć, że
w
⎡0
C→⎢
⎣0
0
Φ B−i Φ −i + A−i
(
T
−i
)
−1
⎤
⎥,
⎦
(8)
w
gdzie indeks „-i” opisuje macierz z usuniętym odpowiednim i-tym wierszem lub i-tą kolumną, zaś wyrażenie (Φ T− i B − i Φ − i + A − i )−1 oznacza macierz kowariancji rozkładu a’posteriori wyznaczoną w przypadku braku i-tej funkcji bazowej. Uwzględniając zatem wzór 8
oraz wzór 5, konsekwencją α i → ∞ jest mi → 0 i model taki intuicyjnie jest równoważny
da
.b
modelowi, w którym bazowa funkcja φ ( xi ) jest usunięta. Wynika z tego możliwość uniknięcia złego uwarunkowania macierzy kowariancji rozkładu aposteriori poprzez usuwanie
odpowiednich funkcji bazowych w kolejnych krokach iteracji (usuwanie odpowiedniej
kolumny z macierzy Φ ). Powoduje to również znaczne przyspieszenie obliczeń, gdyż już
po kilkunastu iteracjach wymiar odwracanej macierzy zmniejsza się nawet 10-krotnie (dotyczy to eksperymentów numerycznych dla danych opisanych w pracy [4]).
Jednak usuwanie funkcji bazowych w procesie iteracji może potencjalnie prowadzić do
osiągania wyniku nie będącego optymalnym, gdyż algorytm nie umożliwia wprowadzenia
do macierzy Φ funkcji bazowych raz usuniętych. Dla pewności w ostatnim kroku iteracji
można zatem wyznaczyć znaki pochodnych cząstkowych funkcji wiarogodności ze względu na wszystkie współczynniki α i odpowiadające usuniętym funkcjom bazowym i w przy-
4 Podsumowanie
pl
s.
padku gdyby któryś ze znaków był ujemny, można byłoby zwiększyć wartość funkcji wiarogodności poprzez ponowne wprowadzenie do modelu odpowiedniej funkcji bazowej.
Analiza dotychczasowych wyników działania algorytmu jednak nie wykazała potrzeby
wprowadzania raz usuniętych funkcji bazowych.
Wyniki eksperymentów numerycznych opisane między innymi w pracy [4] świadczą
o tym, że algorytm FRVM zapewnia dużą zdolność uogólniania i może konkurować z wieloma algorytmami uczenia maszynowego znanymi z literatury. Algorytm ten również
sprawdza się w praktycznych zastosowaniach, czego przykładem może być udana próba redukcji szumu w sygnale elektrokardiograficznym (EKG) opisana w pracy [5]. Jednak
znaczna złożoność obliczeniowa algorytmu FRVM (w fazie uczenia) ogranicza jego wykorzystanie w przypadku zbioru uczącego o dużej liczebności, np. przekraczającej kilka tysięcy elementów, w implementacji dla typowych komputerów klasy PC.
Wyżej wspomniany problem stał się motywacją do podejmowania prób znalezienia zoptymalizowanych realizacji algorytmu FRVM cechujących się niższą złożonością czasową
395
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
A. Momot, M. Momot
obliczeń. Efektem tych prac są realizacje wykorzystujące dekompozycje macierzy kowariancji rozkładu aposteriori metodą Choleskiego oraz odpowiednie usuwanie funkcji bazowych, czyli wybieranie wektorów istotnych (ang. relevance vectors), w kolejnych krokach
iteracji. W dalszej perspektywie można byłoby natomiast rozważać realizację algorytmu
w postaci „dokładania” elementów zbioru uczącego do (początkowo pustego) zbioru wektorów istotnych zamiast rozpatrywania wszystkich elementów zbioru uczącego jako potencjalnych wektorów istotnych a w procesie iteracji ich usuwania.
w
Literatura
Cichosz P.: Systemy uczące się. Wydawnictwa Naukowo-Techniczne, Warszawa 2000.
Devroye L., Gyorfi L., Lugosi G.: A Probabilistic Theory of Pattern Recognition. SpringerVerlag, New York 1996.
Faul A. C., Tipping M. E.: Analysis of sparse Bayesian learning. W ramach pracy zbiorowej pod
redakcją T. G. Dietterich, S. Becker i Z. Ghahramani: Advances in Neural Information Processing Systems 14, MIT Press, 2002.
Momot A: Uczenie systemu rozmytego TSK z wykorzystaniem wnioskowania bayesowskiego.
W ramach pracy zbiorowej pod redakcją S. Kozielskiego, B. Małysiak, P. Kasprowskiego
i D. Mrozka: Bazy danych. Modele, technologie, narzędzia. Analiza danych i wybrane zastosowania. Wydawnictwa Komunikacji i Łączności, Warszawa 2005.
Momot A, Momot M., Łęski J.: The Fuzzy Relevance Vector Machine and its Application to
Noise Reduction in ECG Signal. Journal of Medical Informatics and Technologies, Vol. 9, October 2005.
Tipping M.: Sparse Bayesian learning and the relevance vector machine. Journal of Machine
Learning Research, 1(2), 2001.
Vapnik V.N.: The nature of statistical learning theory. Springer, New York, 1995.
3.
4.
6.
7.
da
.b
5.
w
w
1.
2.
pl
s.
396
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006