1 Wykład 11. Estymacja g˛esto´sci i regresji 2 Podstawowe idee
Transkrypt
1 Wykład 11. Estymacja g˛esto´sci i regresji 2 Podstawowe idee
1 Wyk÷ ad 11. Estymacja gestości ¾ i regresji 2 Podstawowe idee Jadrem ¾ nazywamy dowolna¾ funkcje¾ gesto ¾ ´sci . Niech zatem K(x) bedzie ¾ dowol¾ ac ¾ a¾ w÷asność: nym jadrem. ¾ Funkcja Fy;h (x) = h1 K( x h y ) ma nastepuj Z 8y 2 R; h > 0; Fy;h (x)dx = 1: (1) R Jeśli h < 1; to wykres funkcji Fy;h jest w porównaniu z wykresem funkcji K przesuniety ¾ o y i ”zaw¾ ez·ony do wartości w pobliz·u punktu y” tzn. np., gdy nośnik gestości ¾ K jest ograniczony, to nośnik funkcji Fy;h jest podzbiorem nośnika funkcji K: Np. gdy K(x) = 1 0 jxj dla jxj 1 dla jxj > 1 (2) tzn. gdy ma wykres jak na powyz·szym rysunku, y 3 2 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 x Jadro ¾ trójkatne ¾ przesuniete ¾ i przeskalowane to np. funkcja 3K(3(x 2)) ma powyz·szy wykres. W dalszym ciagu ¾ okaz·e sie¾ uz·yteczne nastepuj ¾ ace ¾ ogólne twierdzenie . Twierdzenie 1 Niech f i g bed ¾ a¾dwiema ca÷kowalnymi wzgledem ¾ miary Lebesgue’a funkcjami. Wówczas R R R i) jf (x)g(y x)j dx jf (x)j dx R R R R jg(x)j dx (nierówno´s´c Younga), a ponadto, je´sli dodatkowo za÷o·zy´c, ·ze R g(x)dx = 1; to R R ii) lim R R h1 f (x)g( y h x )dx f (y) dy = 0; h#0 Je´sli oprócz tego funkcja g^(x) = sup jg(y)j jest ca÷kowalna, to jyj jxj R iii) lim R h1 f (y)g( y h x )dy = f (x) dla prawie wszystkich x 2 R: h#0 1 Dowód. Moz·na znaleźć w ksia¾z·ce Devroya (patrz tw. 1 na str. 16). Dowód ten nie jest probablistyczny, opiera sie¾ (szczególnie teza iii)) na Twierdzeniu Lebesgue’a o punktach gestości ¾ (patrz podrecznik ¾ ×ojasiewicza ) i dlatego nie podamy go tu. Mamy takz·e nastepuj ¾ ace ¾ ogólne twierdzenie, zwane Lematem Sche¤é’a. Lemat 2 (Sche¤ é) Niech ffn gn 1 bedzie ¾ ciagiem ¾ nieujemnych, ca÷kowalnych funkcji okre´slonych na pewnej przestrzeni z miar a ¾ (S; S; ) ; zbie·znym prawie R na pewno do funkcji f: Wówczas S jfn f j d ! 0 wtedy i tylko wtedy, gdy n!1 R R f d ! S fd S n n!1 R R ! 0 =) S fn d ! S f d jest oczywista: n!1 R R Zajmijmy sie¾ wiec ¾ przeciwna¾ i za÷óz·my, z·e S fn d ! S f d Ze wzgledu ¾ na Dowód. Implikacja R S jfn fj d n!1 n!1 to, z·e (fn f ) f , wiec ¾ z Twierdzenia Lebesgue’a o zdominowanym przejściu do granicy pod znakiem ca÷ ki mamy przy n ! 1 : Z Z lim (fn f ) d = lim (fn f ) d = 0: (3) n!1 Nastepnie ¾ mamy Z Z (fn f )+ d = S S n!1 S (fn f) = fn f Z fn d Z (fn Z Z fd (fn f )d : fn <f Ponadto mamy: Z (fn f )d fn <f Zatem: f) d S Z (fn f )+ d S ! 0: n!1 ! 0: n!1 Stad ¾ i z (3) wynika juz· teza. Stad ¾ mamy nastepujac ¾ a¾ w÷asnośc estymatorów gestości. ¾ Twierdzenie 3 (Glick) Niech ffn g bedzie ¾ ciagiem ¾ estymatorów gesto ¾ ´sci f: Je´sli fn ! f wed÷ug prawdopodobie´ nstwa (z prawdopodobie´ nstwem 1) dla prawie R wszystkich x przy n ! 1; to R jfn (x) f (x)j dx ! 0 wed÷ug prawdopodobie´nstwa (z prawdopodobie´nstwem 1) przy n ! 1: Ustalmy jakieś jadro ¾ K(x): Za÷óz·my teraz, z·e dokonujemy N obserwacji pewnej zmiennej losowej X o gestości ¾ f (x); otrzymujac ¾ ciag ¾ liczb x1 ; : : : ; xN : Niech h = h(N ) bedzie ¾ pewnym ciagiem ¾ liczb dodatnich, malejacym ¾ do zera wraz z N: Rozwaz·my funkcje¾ N 1 X1 f~N (y) = K N i=1 h 2 y xi h : (4) Jest ona gestości ¾ a, ¾ bo mamy 8N 2 N; y 2 R : f~N (y) 0; Z f~N (y)dy = 1: R Aby przeanalizować zwiazek ¾ tej funkcji z gestości ¾ a¾f; rozwaz·my problem z probabilistycznego punktu widzenia. Niech dany bedzie ¾ ciag ¾ X1 ; : : : ; XN niezale·znych zmiennych losowych o jednakowym rozk÷adzie z gestości ¾ a¾ f: Rozwaz·my zmienne losowe: N y Xi 1 X 1 K : (5) fN (y) = N i=1 h(N ) h(N ) Jasne jest, 0 z prawdopodobieństwem 1. R z·e dla 8n 2 N i 8y 2 R : fN (y) Ponadto R fN (y)dy = 1 takz·e z prawdopodobieństwem 1. fN (y) jest zmienna¾ losowa, ¾ której jedna¾ z realizacji jest f~N (y): Obliczmy ciag ¾ N transformat Fouriera funkcji fN (y): Mamy: N (t) = Z N Z 1 1 X K N i=1 R h(N ) fN (y) exp(ity)dy = R ale R 1 K R h(N ) jac ¾ '(t) = R y Xi h(N ) exp(ity)dy = R R y Xi h(N ) exp(ity)dy; K(z) exp (itXi + itzh(N )) dz: Oznacza- K(z) exp(itz)dz; dostaniemy: R N (t) = '(th(N )) Zauwaz·my, z·e 8t 2 R : '(th(N )) N 1 X exp(itXi ): N i=1 ! '(0) = 1 (bo K jest gestości ¾ a¾ i h(N ) ! N !1 0; gdy N ! 1). Ponadto ze wzgledu ¾ na to, z·e zmienne losowe fXi gi niezalez·ne, to zachodzi PWL w wersji Ko÷mogorowa i widzimy, z·e 8t 2 R : 1 sa¾ N 1 X exp(itXi ) ! 'X (t) N !1 N i=1 prawie na pewno, gdzie przez 'X (t) oznaczyliśmy funkcje¾ charakterystyczna¾ zmiennej losowej X1 : A zatem ciag ¾ zmiennych losowychffn (y)gn 1 zbiega dla prawie kaz·dej ! w sensie dystrybucyjnym do rozk÷adu zmiennej X1 : Znaczy to np., z·e Z Z x 8x2R : x fn (y)dy 1 ! f (y)dy prawie na pewno. n!1 (6) 1 Okazuje sie, ¾ z·e istnieje bogata literatura na temat estymacji gestości ¾ i moz·na podać g÷ebsze ¾ i bardziej szczegó÷owe Twierdzenia o zbiez·ności. Uwaga 4 Zauwa·zmy, ·ze aby pokaza´c s÷aba¾ zbie·zno´s´c (czyli w gruncie rzeczy zbie·zno´s´c funkcji charakterystycznych) ciagu ¾ gesto ¾ ´sci do gesto ¾ ´sci granicznej, nie trzeba by÷o zak÷ada´c niezale·zno´sci obserwacji. Jak wynika÷o z powy·zszego 3 rachunku wystarczy÷o, aby zachodzi÷o prawo wielkich liczb dla zmiennych losowych fYi = exp(itXi )gi 1 dla ka·zdego t 2 R z osobna. Z kolei, aby takie prawo wielkich liczb zachodzi÷o wystarczy, aby kowariancje cov(Yi ; Yj ) mala÷y wraz z ji jj dostatecznie szybko do zera. Jak to sprawdzi´c, zale·zy od konkretnej postaci ciagu ¾ zmiennych losowych fXi gi 1 : W ka·zdym razie wystarczy znajomo´s´c tylko rozk÷adów dwuwymiarowych tego ciagu. ¾ Uwaga 5 Innym typowym sposobem estymacji gesto ¾ ´sci, jest estymacja przy pomocy histogramów. Histogram powstaje w nastepuj ¾ acy ¾ sposób. Dla ustalenia uwagi za÷ó·zmy, ·ze interesuje nas przybli·zenie gesto ¾ ´sci zmiennej losowej X: W tym celu a) Obserwujemy N niezale·znych realizacji tej zmiennej otrzymujac ¾ warto´sci x1 ; x2 , : : :, xN : b) Dzielimy przedzia÷zmienno´sci zmiennej losowej X na k 2 roz÷¾ acznych przedzia÷ów przy pomocy punktów y1 ; y2 ; : : : ; yk 1 . Nastepnie ¾ zliczamy ile punkdf tów spo´sród x1 ; : : : ; xN wpad÷o do ka·zdego z przedzia÷ów j =< yj 1 ; yj ); j = 1; : : : ; k; gdzie przyjeli ¾ ´smy dla prostoty oznacze´n y0 = 1 i yk = 1: Innymi s÷owy obliczmy: wielko´sci nj = # fxi : xi 2 j g : Histogramem nazywamy n funkcje¾ schodkowa¾która na przedziale j przyjmuje warto´s´c Nj : . Innymi s÷owy Pk nj Histogram(y) = j=1 N I( j )(y): Nietrudno zauwa·zy´c, ·ze tym lepiej histogram przybli·za gesto ¾ ´s´c zmiennej losowej im wieksza ¾ jest liczba obserwacji N; liczba przedzia÷ów k; przy czym stosunek N=k tak·ze powinien by´c du·zy. Chodzi o to by w ka·zdym z przedzia÷ów j znalaz÷o sie¾ dostatecznie du·zo obserwacji (winno zaj´s´c odpowiednio zmody…kowane prawo wielkich liczb). Wada¾ estymacji gesto ¾ ´sci przy pomocy histogramów jest oczywi´scie fakt, ·ze histogram jest funkcja¾ schodkowa,¾ a wiec ¾ nieciag÷¾ ¾ a. Znacznie lepsze wyniki dostaje sie¾ stosujac ¾ metody jadrowe ¾ opisywane w niniejszym rozdziale. Na razie obejrzyjmy przyk÷ady. W kaz·dym z nich wykonano n = 5000 symulacji. Przyk÷ ad 6 W tym przyk÷adzie za÷o·zono n = 2000; h(n) = n :5 , estymowano gesto ¾ ´s´c rozk÷adu jednostajnego na odcinku < 0; 1 >; czyli gesto ¾ ´s´c rozk÷adu U (0; 1): Wykonano dwa dwie estymacje : pierwsza¾z jadrem ¾ danym wzorem (2); i druga¾ 1 z jadrem Cauchy’ego, czyli za jadro ¾ wzieto ¾ funkcje¾ (1+x 2 ) . Wyniki przedstawiono poni·zej. Wykres pierwszego estymatora jest na czerwono a drugiego na niebiesko. Jak wida´c otrzymano poprawe¾ jako´sci estymatorów. Przyk÷ ad 7 W tym przyk÷adzie estymowano funkcje¾ gesto ¾ ´sci rozk÷adu wyk÷adniczego Exp(1); czyli funkcje¾ exp( x) dla x 0: Parametr n i jadra ¾ by÷y takie same, jak w poprzednim przyk÷adzie. Przyjeto ¾ h(n) = n :4 : Jak w poprzednim przyk÷adzie na czerwono oznaczono estymator otrzymany przy pomocy jadra ¾ trójkatnego, ¾ na niebiesko za´s przy pomocy jadra ¾ Cauchy’ego. 4 5 Przyk÷ ad 8 W tym przyk÷adzie estymowano gesto ¾ ´s´c rozk÷adu arcus sinus czyli funkcje¾ p11 x2 dla jxj < 1: Parametr n i jadra ¾ by÷y takie same, jak w poprzednim przyk÷adzie. Przyjeto ¾ h(n) = n :3 : Jak w poprzednim przyk÷adzie na czerwono oznaczono estymator otrzymany przy pomocy jadra ¾ trójkatnego, ¾ na niebiesko za´s przy pomocy jadra ¾ Cauchy’ego. Uwaga 9 Zauwa·zmy, ·ze rachunki i argumentacja u·zyta dla uzasadnienia sensowno´sci estymatora jadrowego ¾ (5) jest uniwersalna w tym sensie, ·ze odnosi sie¾ tak·ze do zmiennych losowych nie posiadajacych ¾ gesto ¾ ´sci. Argumentacja ta mo·ze by´c podstawa¾ do rozwa·zania jadrowych ¾ estymatorów dystrybuant. R x Mianowicie oznaczajac ¾ przez FK dystrybuante¾ jadra ¾ K tzn. FK (x) = K(z)dz; 1 dostajemy ze wzoru (6) n 1X FK n i=1 x Xi hn ! FX (x); n!1 z prawdopodobie´nstwem 1, gdzie FX oznacza dystrybuante¾ zmiennej losowej X1 : Jak pokazuja¾ symulacje, metoda ta jest dobra, wydajna i jak wspomniano uniwersalna. Jak sie¾ wydaje pierwszym, który zauwa·zy÷mozliwo´sci tkwiace ¾ w tej metodzie estymacji dystrybuant by÷Azzalini (1981) . Wydaje sie¾ jednak, ·ze metoda ta jest raczej ma÷o znana i wymaga bada´n. Zilustrujemy to nastepuj ¾ acym ¾ przyk÷adem. Wykonano N = 3000 obserwacji dyskretnej zmiennej losowej 8 1 z p-twem 1=8 > > < 0 z p-twem 4=8 X= : 2 z p-twem 2=8 > > : 3 z p-twem 1=8 6 Przyjeto ¾ bad´z ¾ FK (x) = 1=2 + arctan(x)= ; bad´z ¾ 8 0 dla > < p p 3 5 2 5 1 3 FK = x 15 x + 3 dla 20 > : 1 dla p x< 5 p p 5 x< 5 ; p x 5 czyli jadro ¾ Jepanecznikowa. Wyniki przedstawiono na poni·zszym rysunku, na którym estymator z jadrem ¾ Cauchy’ego oznaczono F N , estymator z jadrem ¾ Jepanecznikowa oznaczono F JJ; a F oznacza dystrybuanta¾zmiennej losowej X: Estymator dystrybuanty z jadrem Cauchy’ego Przyjeto ¾ h(N ) = N 2.1 :4 : W÷ asności podstawowego Ze wzgledu ¾ na to, z·e g÷ ównym celem niniejszego rozdzia÷u nie jest wyczerpujaca ¾ prezentacja metod estymacji gestości, ¾ a jedynie wskazanie na zwiazki ¾ tej problematyki z zagadnieniami praw wielkich liczb i w miare¾ dok÷adna analiza tej odmiany metod estymacji gestości, ¾ które dadza¾ sie¾ przedstawić w postaci iteracyjnej, wiec ¾ bardzo skrótowo zaprezentujemy g÷ówne wyniki ponad 30 lat badań poświeconych ¾ estymacji gestości. ¾ Napisano szereg ksia¾z·ek i przegla¾ dowych d÷ ugich artyku÷ ow poświeconych ¾ temu zagadnieniu. Metody estymacji gestości, ¾ jak sie¾ okazuje, moz·na rozbić na dwie duz·e grupy. Bazujace ¾ na b÷edzie ¾ ´sredniokwadratowym Z 2 M ISE(h; n) = E (fn (y) f (y)) dy; 7 Figure 1: Estymator dystrybuanty z jadrem ¾ Jepanecznikowa i bazujace ¾ na tzw. b÷edzie ¾ L1 M I(L1 )E = E Z jfn (y) f (y)j dy: Oczywiście moz·na by rozwaz·ać inne metryki w przestrzeniach funkcyjnych i istnieja¾prace rozwaz·ajace ¾ je ale dwie metryki wyznaczone przez wspomniane wyz·ej formu÷ y sa¾ najwaz·niejsze i im poświecone ¾ jest oko÷o 99% literatury. Z pośród prac analizujacych ¾ procedury estymacji gestości ¾ oparte na M ISE wymienimy monogra…¾ e Silvermana i kilka prac w tym kilka najstarszych ze wzgledów ¾ historycznych i kilka najnowszych ze wzgledu ¾ na to, z·e zawieraja¾ odniesienia do innych wcześniejszych prac: . Jeśli chodzi o druga¾ miare¾ b÷edów, ¾ to w pierwszej kolejności nalez·y wspomnieć monogra…¾ e Devroya. Przedstawimy teraz kilka ogólnych w÷asności tej metody estymacji, a nastep¾ nie pokrótce wyniki dotyczace ¾ optymalnego wyboru ciagu ¾ wspó÷czynników fh(N )gN czyli tzw. ”szerokości okna” (inaczej ”szerokości pasma”) i postaci jadra. ¾ Niech X1 ; : : : ; Xn bedzie ¾ ciagiem ¾ n niezalez·nych, jednowymiarowych zmiennych losowych, o jednakowych rozk÷adach z gestości ¾ a¾ f . Poprzednio rozwaz·aliśmy estymator n y Xi 1X 1 fn (y) = K ; (7) n i=1 hn hn gdzie fhn g jest ciagiem ¾ liczbowym, nierosnacym, ¾ zbiez·nym do zera. W wersji d-wymiarowej estymator ten ma nastepuj ¾ ac ¾ a¾ postać: N fn (y) = 1X 1 K n i=1 hdn 8 y Xi hdn ; (8) 1 gdzie y 2Rd a fX1 ; : : : ; Xn g jest próba¾ prosta¾ wektorów d wymiarowych o gestości ¾ f (x): O jego podstawowych w÷asnościach mówia¾ poniz·sze lemat i Twierdzenie . Lemat 10 Estymator (8) ma i) Z Efn (y) = Z df b(y) = Efn (y) f (y) = nastepuj ¾ ace ¾ w÷asno´sci: 1 K hdn y x hn K(x) f (y f (x)dx = hdn x) Z K(x)f (y hdn x)dx; f (y) dx ii) var(fn (y)) = 1 n = 1 n Z "Z 1 K2 h2d n y x f (x)dx hdn 1 2 K (x)f (y hdn 2 (Efn (y)) Z xhdn )dx 2 K(x)f (y hdn x)dx # : iii) M ISE(h; n) = E Z (fn (y) 2 f (y)) dy + Z var(fn (y)) + b2 (y) dy Dowód. Pierwsze równości obu tez dostaje sie¾ na podstawie za÷oz·enia o identyczności rozk÷adów zmiennych X1 ; : : : ; Xn : Dalsze równości wynikaja¾ z elementarnej zamiany zmiennych w odpowiednich ca÷kach i tego, z·e b÷ad ¾ średniokwadratowy jest równy sumie wariancji i kwadratu obcia¾z·enia. 9