Nieparametryczne metody uczenia rozpoznawania
Transkrypt
Nieparametryczne metody uczenia rozpoznawania
Nieparametryczne metody uczenia rozpoznawania W÷odzimierz Greblicki opublikowano w: Komputerowe Systemy Rozpoznawania, str. 87-93, Wroc÷aw 1999 Streszczenie jest P fÃ(X) 6= µg, czyli prawdopodobieństwo b÷ed¾ nego rozpoznania. Najlepsza¾ regu÷e¾ oznaczymy przez ä , a jej jakość przez R¤ . Jak wiadomo, ä (x) = arg maxi2M P fµ = ijX = xg. Zauwaz· ajac, ¾ z· e P fµ = ijX = xg = EfIfµ=ig jX = xg, gdzie Ifµ=ig = 1 jeśli µ = i oraz Ifµ=ig = 0 jeśli µ 6= i, otrzymujemy bardziej uz· yteczna¾ postać regu÷y optymalnej Omówiono zasady tworzenia nieparametrycznych algorytmów uczenia rozpoznawania na podstawie estymatorów funkcji gestości ¾ prawdopodobieństwa i regresji. Podano przyk÷adowe algorytmy oraz podstawowe ich w÷asności. 1 Wstep ¾ ä (x) = arg max ri (x); i2M Ze wzgledu ¾ na informacje¾ aprioryczna¾ problemy uczenia rozpoznawania moz· na podzielić na parametryczne i nieparametryczne. W pierwszych rozk÷ady prawdopodobieństwa w klasach znane sa¾ z dok÷adnościa¾ do skończonej i znanej liczby parametrów. W drugich, którym poświecona ¾ jest ta praca, brak informacji apriorycznej jest bardziej posuniety, ¾ w skrajnym przypadku rozk÷ady te moga¾ być ca÷kowicie nieznane. Nieparametryczne metody uczenia rozpoznawania rozwijaja¾ sie¾ juz· od lat sześdziesiatych ¾ i maja¾ bogata¾ literature, ¾ patrz monogra…a [6], a takz· e [2] i [8]. Warto zaznaczyć jednak, z· e najstarsza jak sie¾ zdaje i jednocześnie znaczaca ¾ praca, w której zaproponowano algorytm k-NN, powsta÷a juz· w 1951 roku 1 . 2 (1) gdzie ri (x) = EfIfµ=ig jX = xg jest funkcja¾ regresji. Jeśli natomiast wszystkie dystrybuanty F1 ; ¢ ¢ ¢ ; Fm posiadaja¾ gestości ¾ prawdopodobieństwa, co ma miejsce, gdy sa¾ one np. róz· niczkowalne, to oznaczjac ¾ je jako f1 ; ¢ ¢ ¢ ; fm moz· na zauwaz· yć, z· e P fµ = ijX = xg = P pi fi (x)= M i=1 pi fi (x). Wtedy à ¤ (x) = arg max pi fi (x): i2M (2) Zadanie uczenia pojawia sie, ¾ gdy prawdopodobieństwa klas lub rozk÷ady w klasach nie sa¾ znane, a brak tej wstepnej ¾ informacji jest rekompensowany przez ciag ¾ uczacy ¾ Vn = f(µ1 ; X1 ); (µ2 ; X2 ); ¢ ¢ ¢ ; (µn ; Xn )g, tzn. ciag ¾ niezalez· ych obserwacji pary (µ; X), czyli ciag ¾ n prawid÷owo rozpoznanych obserwacji X1 ; X2 ; ¢ ¢ ¢ ; Xn . Algorytmem uczenia rozpoznawania nazywa sie¾ ciag ¾ funkcji fÃ1 (x; V1 ); Ã2 (x; V2 ); ¢ ¢ ¢g o wartościach w M . Warunkowa jakość regu÷y Ãn (x; Vn ), przy ciagu ¾ uczacym ¾ Vn , jest równa P fÃn (X; Vn ) 6= µjVn g i jest oczywiście losowa. Od poprawnych algorytmów uczenia oczekuje sie, ¾ z· e warunkowe prawdopodobieństwo ich b÷edu ¾ zmierza do R¤ , gdy n da¾z· y do nieskończoności, co moz· na wyrazić w formie de…nicji. Uczenie rozpoznawania Przedstawimy teraz zadanie rozpoznawania, a nastepnie ¾ uczenia. Niech (µ; X) bedzie ¾ para¾ zmiennych losowych. Pierwsza z nich przyjmuje wartości w zbiorze M = f1; 2; ¢ ¢ ¢ ; mg, elementy którego nazywaja¾ sie¾ klasami, a druga na prostej R. Rozk÷ad pary (µ; X) opisuje sie¾ przez prawdopodobieństwa pi = P fµ = ig poszczególnych klas oraz warunkowe dystrybuanty Fi zmiennej µ w tych klasach, i = 1; 2; ¢ ¢ ¢ ; m. Rozpoznawanie polega na estymacji µ na podstawie X. De…nicja: Algorytm uczenia fÃ1 ; Ã2 ; ¢ ¢ ¢g nazywa Regu÷e¾ rozpoznawania de…niuje sie¾ jako funksie¾ s÷abo (mocno) asymptotycznie optymalny, n cje, ¾ która kaz· demu punktowi x 2 R przyporzad¾ jeśli P fÃn (X; Vn ) 6= µjVn g ! R¤ wed÷ug kowuje element ze zbioru M . Jakościa¾ regu÷y à prawdopodobieństwa (z p. 1). 1 Fix, E., Hodges, J.L., Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties. Report 4, Project No. 21-49-004, USAF School of Aviation Medicine, Randolph Field, Texas, 1951. Powyz· sze rozwaz· ania prowadza¾ do dwóch naturalnych sposobów konstrukcji algorytmów uczenia. Dla pierwszego, który zak÷ada istnienie gestości ¾ w 1 uczenia. W metodzie (3), oznaczajac ¾ przez Ni liczbe¾ obserwacji z klasy i przyjmujemy przy tym p^i = Ni =n jako naturalny estymator nieznanego prawdopodobieństwa pi . klasach, punktem wyjściowym jest (2). Na podstawie ciagu ¾ uczacego ¾ estymuje sie¾ zarówno pi jak i fi (x), i = 1; ; ¢ ¢ ¢ ; m. Oznaczajac ¾ te estymatory odpowiednio jako p^i oraz f^i (x), algorytm uczenia określa sie¾ nastepuj ¾ aco: ¾ dla n = 1; 2; ¢ ¢ ¢, 'n (x; Vn ) = arg max p^i f^i (x). i2M 4.1 (3) Algorytmy jadrowe ¾ Jadrowy ¾ estymator gestości ¾ daje algorytm, który Drugi sposób bierze pod uwage¾ (1) i jako algorytm kaz· demu x przyporzadkowuje ¾ klase¾ uczenia przyjmuje, dla n = 1; 2; ¢ ¢ ¢, µ ¶ n 1 X x ¡ Xj arg max I K : fµj =ig Án (x; Vn ) = arg max r^i (x); (4) i2M h(Ni ) h(Ni ) i2M j=1 gdzie r^i (x) jest estymatorem funkcji regresji ri (x). 3 Asymptotyczna mość Estymator regresji prowadzi natomiast do algorytmu, który kaz· de x zalicza do klasy ¶ µ n X x ¡ Xj : arg max Ifµj =ig K i2M h(n) j=1 optymal- Twierdzenia podane poniz· ej orzekaja¾ o poprawności obydwu metod. Zgodne (s÷abo lub mocno) estymatory gestości ¾ i regresji prowadza¾ bowiem do asymptotycznie optymalnych (s÷abo lub mocno) algorytmów uczenia rozpoznawania. Korzystajac ¾ z Twierdzenia 1 oraz wyniku podanego w Dodatku, zauwaz· amy, z· e pierwszy z powyz· szych algorytmów jest asymptotycznie optymalny jeśli wszystkie gestości ¾ w klasach sa¾ funkcjami ciag÷ymi. ¾ Moz· na wykazać, z· e jest on asymptotycznie optymalny takz· e przy zupe÷nie dowolnych gesto¾ ściach. Twierdzenie 3 doprowadza natomiast do godnego uwagi wniosku, a mianowicie, z· e drugi z podanych algorytmów jest asymptotycznie optymalny przy ca÷kowicie dowolnych rozk÷adach w poszczególnych klasach, czyli jest uniwersalnie asymptotycznie optymalny, [3], [11], [21]. Twierdzenie 1 ([9]): Jeśli, dla i = 1; 2; ¢ ¢ ¢ ; m, i prawie wszystkich (wed÷ug miary Lebesgue’a) n x 2 R, f^i (x) ! fi (x) wed÷ug prawdopodobieństwa (z p. 1), to algorytm (3) jest s÷abo (mocno) asymptotycznie optymalny: Twierdzenie 2 ([28]): Dla dowolnych gestości ¾ w klasach, 4.2 Algorytmy typu najbli·zszy 0 · P f'n (X; Vn ) 6= µjVn g ¡ R¤ sasiad ¾ M M Z 1 X X ^ · j^ pi ¡ pi j + jfi (x) ¡ fi (x)jdx: Estymator gestości ¾ doprowadza do algorytmu, i=1 i=1 ¡1 która zalicza kaz· de x do klasy W nastepnym ¾ twierdzeniu rozk÷ady w klasach moga¾ być zupe÷nie dowolne. arg max i2M k(Ni ) Di (x; k(Ni )) Twierdzenie 3 ([3], [18]): Dla dowolnych rozk÷a- gdzie Di (x; k(Ni )) jest odleg÷ościa¾ pomiedzy ¾ punkdów w klasach tem x a k-ta¾ najbliz· sza¾ mu obserwacja¾ spośród tych, które pochodza¾ z klasy i. Wynikiem stoso0 · P fÁn (X; Vn ) 6= µjVn g ¡ R¤ wania estymatora regresji jest natomiast algorytm, M Z 1 X który klasy…kuje x jako pochodzace ¾ z klasy · j^ ri (x) ¡ ri (x)j¹(dx); n X i=1 ¡1 arg max µj Ifµj =i^j2J(x;k(n)g : i2M gdzie ¹ jest (dowolna) ¾ miara¾ prawdopodobiej=1 ństwa rozk÷adu zmiennej losowej X. Jest on powszechnie znany jako algorytm k(n)-NN. Twierdzenie 1 i wyniki podane w Dodatku dotycz ace ¾ prowadza¾ do 4 Algorytmy uczenia rozpo- ¾ zbiez· ności estymatora gestości wniosku, z· e pierwszy algorytm uczenia jest asympznawania totycznie optymalny, jeśli wszystkie gestości ¾ w klaStosujac ¾ róz· ne estymatory funkcji gestości ¾ i regre- sach sa¾ np. funkcjami ciag÷ymi. ¾ Drugi jest natosji, patrz Dodatek, otrzymuje sie¾ róz· ne algorytmy miast uniwersalnie asymptotycznie optymalny, [4]. 2 4.3 Algorytmy ortogonalne gdzie K jest tzw. jadrem, ¾ a fh(n)g Rciagiem ¾ liczbo1 wym, [24]. Jeśli K jest ograniczone, ¡1 K(x)dx = Ortogonalny estymator gestości ¾ wykorzystujacy ¾ n n K(x)x = 0 i h(n) ! 0, nh(n) ! 1, szereg Hermite’a daje algorytm, który zalicza ka- 1, limjxj!1 n to f·(x) ! f (x) wed÷ug prawdopodobieństwa w z· de x do klasy kaz· dym punkcie x, w którym gestość ¾ f jest cin N(Ni ) n ag÷a. ¾ Jeśli ponadto nh(n)= log n ! 1, to zachoX X arg max Ifµj =ig hk (Xj )hk (x): dzi zbiez· ność z p. 1, [7]. Jako jadro ¾ moz· na wybrać i2M 2 j=1 k=0 np. 1=(1 + x2 ), e¡jxj , e¡x , lub jadro ¾ prostokatne ¾ równe 1=2 i 0 odpowiednio dla jxj < 1 i jxj ¸ 1. Drugi sposób prowadzi do algorytmu, który przyJako ciag ¾ liczbowy moz· na zastosować h(n) = n¡® , pisuje x do klasy 0 < ® < 1. arg max i2M n N(n) X X j=1 k=0 A.1.2 Ifµj =ig hk (Xj )hk (x): Estymator typu najbli·zszy sasiad ¾ Loftsgaarden i Quesenberry podali nastepuj ¾ acy ¾ Asymptotyczna optymalność tych algorytów wy- estymator: nika z podanych wcześniej twierdzeń. k(n) ~ = ; f(x) 2nD(x; k(n)) 5 Zakończenie gdzie fk(n)g jest ciagiem ¾ liczb naturalnych, a D(x; k(n)) jest odleg÷ościa¾ pomiedzy ¾ punktem x a k(n)-ta¾ najbliz· sza¾ mu obserwacja, ¾ [22]. Jeśli n n n k(n) ! 1, k(n)=n ! 0, to f~(x) ! f (x) wed÷ug prawdopodobieństwa w kaz· dym punkcie x 2 R, w którym gestość ¾ f jest ciag÷a. ¾ Jeśli ponadto n k(n)=n log n ! 0, to ma miejsce zbiez· ność z p. 1, [6]. Jako ciag ¾ liczbowy moz· na przyjać ¾ k(n) = [n¯ ], 0 < ¯ < 1, gdzie [a] oznacza cześć ¾ ca÷kowita¾ liczby a. Oprócz omówionej asymptotycznej optymalności, waz· na jest takz· e szybkość zbiez· ności algorytmów uczenia. Poniewaz· Twierdzenia 2 i 3 wia¾z· a¾ dok÷adność estymacji gestości ¾ i regresji z ich jakościa, ¾ to moz· na wykazać, z· e jeśli gestości ¾ w klasach sa¾ np. dwukrotnie róz· niczkowalne, to P fÃn (X; Vn ) 6= µg ¡ R¤ = O(n¡2=5 ), gdzie fÃn g jest dowolnym z omówionych algorytmów. W porównaniu z n¡1=2 , tzn. z szybkościa¾ typowa¾ dla uczenia parametrycznego, jest to zachecaj ¾ acy ¾ rezultat. Znane sa¾ takz· e inne sposoby nieparametrycznej estymacji gestości ¾ i regresji, [5], [20], [25], które prowadza¾ do kolejnych algorytmów. Badane sa¾ takz· e estymatory rekurencyjne, [14]. A.2 Estymator ortogonalny µ Estymacje¾ ortogonalna¾ zaproponowa÷ Cencov, [1]. Jak wiadomo, funkcje Hermite’a fhk ; k = 0; 1; ¢ ¢ ¢g, 2 gdzie hk (x) = (2k k!¼ 1=2 )¡1=2 e¡x =2 Hk (x), przy 2 2 czym Hk (x) = ex (dk =dxk )e¡x , tworza¾ zupe÷ny A Dodatek system ortonormalny na prostej R. Estymator wyOdnośnie estymacji gestości ¾ i regresji odsy÷amy do korzystujacy ¾ ten szereg ma nastepuj ¾ ac ¾ a¾ postać: monogra…i [20], [25] i [26]. Tutaj omówimy krótko N(n) trzy metody. X f¹(x) = a ¹k hk (x); A.1 k=0 Estymacja gestości ¾ prawdopoPn dobieństwa przy czym a ¹k = n¡1 i=1 hk (Xi ). Jeśli f 2 n n p 1=2 L (R), p = 2, N (n) ! 1 i N (n)=n ! 0, to Skalarna zmienna losowa X posiada gestość ¾ praw- R 1 n 2 ¹ dopodobieństwa f , która¾ estymuje sie¾ na podstawie ¡1 (f (x) ¡ f (x)) dx ! 0, wed÷ug prawdopodon niezalez· nych obserwacji X1 ; X2 ; ¢ ¢ ¢ ; Xn . bieństwa. Jeśli ponadto N 1=2 (n)=n log n ! 0, to zachodzi zbiez· ność z p. 1, [10], [12]. Ciagiem ¾ licz° bowym mo z e być np. N (n) = [n ], 0 < ° < 2. Ma · A.1.1 Estymator jadrowy ¾ miejsce takz· e zbiez· ność punktowa, i to nawet dla Parzen zaproponowa÷ nastepuj ¾ acy ¾ estymator: p > 1. Inne uk÷ady funkcji ortogonalnych, np. trygonometryczny, [16], Legendre’a, Laguerre’a, czy µ ¶ n 1 X x ¡ Xi Haara prowadz a ¾ do kolejnych estymatorów. Inte· f (x) = K ; nh(n) i=1 h(n) resujac ¾ a¾ mody…kacja¾ jest uśrednianie Cesàro, [17]. 3 A.3 Bibliogra…a Estymacja funkcji regresji Niech (Y; X) bedzie para¾ skalarnych zmiennych losowych takich, z· e EjY j < 1. Regresje¾ r(x) = EfY jX = xg estymuje sie¾ na podstawie niezalez· nych obserwacji (Y1 ; X1 ); ¢ ¢ ¢ ; (Yn ; Xn ). Przez ¹ oznaczymy miare¾ prawdopodobieństwa zmiennej X. Moz· e być ona zupe÷nie dowolna, a zatem w szczególności nie posiadać gestości. ¾ µ [1] Cencov, N.M., Evaluation of an unknown distribution density from observations, Soviet Mathematics, vol. 3, 1559-1562, 1962. A.3.1 [3] Devroye, L., Distribution-free consistency results in nonparametric discrimination and regression function estimates, Annals of Statistics, vol. 8, 231-239, 1980. [2] Devijver, P.A., J. Kittler, J., Pattern Recognition: A Statistical Approach, Prentice Hall, Englewood Cli¤s, 1982. Estymator jadrowy ¾ Jadrowy ¾ estymator regresji ma nastepuj ¾ ac ¾ a¾ postać, [23], [29]: µ ¶ ,X µ ¶ n n X x ¡ Xi x ¡ Xi r·(x) = Yi K K : h(n) h(n) i=1 i=1 [4] Devroye, L., Necessary and su¢cient conditions for the pointwise convergence of nearest neighbor regression function estimates, Zeitschrift für Wahrscheinlichketstheorie und verwandte Gebiete, vol. 61, 467-481, 1982. Jeśli jadro ¾ K i fh(n)g spe÷niaja¾ warunki podobne n do podanych przy estymatorze gestości, ¾ to r·(x) ! r(x) wed÷ug prawdopodobieństwa w prawie kaz· dym punkcie (wed÷ug miary ¹) x 2 R, [3], [11], [27]. Jeśli n ponadto nh(n)= log n ! 1, to zachodzi zbiez· ność z p. 1, np. [3], [11], [27]. Wersje rekurencyjne badano w [13] i [19]. A.3.2 [5] Devroye, L., Györ…, L., Nonparametric Density Estimation: The L1 View, Wiley, New York, 1985. [6] Devroye, L., Györ…, L., Lugosi, G., A Probabilistic Theory of Pattern Recognition, Springer, New York, 1996. Estymator typu najbli·zszy sasiad ¾ Ustalmy punkt x 2 R oraz liczbe¾ naturalna¾ k. Wśród obserwacji X1 ; ¢ ¢ ¢ ; Xn jest k najbliz· szych temu punktowi. Oznaczmy przez J(x; k) zbiór ich indeksów. Niech [7] Devroye, L.P., Wagner, T.J., Nonparametric Discrimination and Density Estimation, Technical Report 183, Electronics Research Centre, University of Texas, Austin, Texas, 1976. n r~(x) = n 1 X Yi Ifi2J(x;k(n)g : k(n) i=1 n [8] Duda R.O., Hart, P.E., Pattern Recognition and Scene Analysis, Wiley, New York, 1973. n Jeśli k(n) ! 1, k(n)=n ! 0, to r~(x) ! r(x) wed÷ug prawdopodobieństwa w prawie kaz· dym punkcie (wed÷ug miary ¹) x 2 R. Jeśli ponadto n k(n)=n log n ! 0, to ma miejsce zbiez· ność z p. 1, [4]. A.3.3 [9] Greblicki, W., Asymptotically optimal pattern recognition procedures with density estimates, IEEE Transactions on Information Theory, vol. IT-24, 250-251, 1978. Estymator ortogonalny [10] Greblicki, W., Asymptotic e¢ciency of classifying procedures using the Hermite series estimate of multivariate probability densities, IEEE Transactions on Information Theory, vol. IT-27, 364-366, 1981. Zak÷adamy, z· e ¹ posiada gestość ¾ f , a estymator ma nastepuj ¾ ac ¾ a¾ postać, [13]: ,N(n) N(n) X X ¹bk hk (x) ; r¹(x) = a ¹k hk (x) [11] Greblicki, W., Krzyz· ak, A., Pawlak, M., ¹ Distribution-free consistency of kernel regresgdzieP a ¹k = n bk = i=1 Yi hk (Xi ), n ¡1 2 sion estimate, Annals of Statistics, vol. 12, n Jeśli f 2 L (R), f (:)r(:) 2 i=1 hk (Xi ). n n 1570-1575, 1984. 2 1=2 L (R), oraz N (n) ! 1 i N (n)=n ! 0, to n r¹(x) ! r(x) wed÷ug prawdopodobieństwa dla [12] Greblicki, W., Pawlak, M., Hermite series estiprawie wszystkich (wed÷ug miary Lebesgue’a) mates of a probability density and its derivatix 2 R, takich, z· e f(x) > 0. Jeśli ponadto ves, Journal of Multivariate Analysis, vol. 15, n N 1=2 (n)=n log n ! 0, to zachodzi zbiez· ność z p. 1. 174-182, 1984. k=0 k=0 ¡1 Pn 4 [13] Greblicki, W., Pawlak, M., Fourier and Her- [26] Silverman, B.W., Density Estimation for Stamite series estimates of regression functions, tistics and Data Analysis, Chapman and Hall, Annals of Institute of Statistical Mathematics, London 1986. vol. 37, Part A, 443-454, 1985. [27] Stone, C., Consistent nonparametric regres[14] Greblicki, W., Pawlak, M., Necessary and sufsion, Annals of Statistics, vol. 8, 1348-1360, …cient conditions for Bayes risk consistency 1977. of a recursive kernel classi…cation rule, IEEE Transactions on Information Theory, vol. IT- [28] Van Ryzin, J., Bayes risk consistency of classi…cation procedures using density estimation, 33, 408-412, 1987. Sankhyā, Parts 2&3, vol. 28, 261-270, 1966. [15] Greblicki, W., Pawlak, M., Necessary and suf…cient consistency conditions for a recursive [29] Watson, G.S., Smooth regression analysis, Sankhyā, Ser. A, vol. 26, 359-372, 1964. kernel regression estimate, Journal of Multivariate Analysis, vol. 23, 67-76, 1987. [16] Greblicki, W., Pawlak, M., A classi…cation procedure using the multiple Fourier series, Information Sciences, vol. 25, 115-126, 1982. [17] Greblicki, W, Rutkowski, L., Density-free Bayes risk consistency of nonparametric pattern recognition procedures, Proceedings of the IEEE, vol. 69, 482-483, 1981. [18] Györ…, L., Recent results on nonparametric regression estimate and multiple classi…cation, Problems of Control and Information Theory, vol. 10, 13-52, 1981. [19] Györ…, L., Walk, H., On the strong universal consistency of a recursive regression estimate by Pàl Révész, Statistics and Probability Letters, vol. 31, 177-183, 1997. [20] Härdle, W., Applied Nonparametric Regression, Cambridge University Press, Cambridge, 1990. [21] Krzyz· ak, A., Pawlak, M., Distribution-free consistency of a nonparametric kernel regression estimate and classi…cation, IEEE Transactions on Information Theory, vol. IT-30, 7881, 1984. [22] Loftsgaarden, D.O., Quesenberry, C.P., A nonparametric estimation of a multivariate density function, Annals of Mathematical Statistics, vol. 36, 1049-1051, 1965. [23] Nadaraya, E.A., On estimating regression, Theory of Probability and Its Applications, vol. 9, 141-142, 1964. [24] Parzen, E., On the estimation of a probability density function and the mode, Annals of Mathematical Statistics, vol. 33, 1065-1076, 1962. [25] Prakasa Rao, B.L.S., Nonparametric Functional Estimation, Academic Press, Orlando, 1983. 5