1 Wykład 11. Estymacja g˛esto´sci i regresji 2 Podstawowe idee

Transkrypt

1 Wykład 11. Estymacja g˛esto´sci i regresji 2 Podstawowe idee
1
Wyk÷
ad 11. Estymacja gestości
¾
i regresji
2
Podstawowe idee
Jadrem
¾
nazywamy dowolna¾ funkcje¾ gesto
¾ ´sci . Niech zatem K(x) bedzie
¾
dowol¾ ac
¾ a¾ w÷asność:
nym jadrem.
¾
Funkcja Fy;h (x) = h1 K( x h y ) ma nastepuj
Z
8y 2 R; h > 0;
Fy;h (x)dx = 1:
(1)
R
Jeśli h < 1; to wykres funkcji Fy;h jest w porównaniu z wykresem funkcji K przesuniety
¾ o y i ”zaw¾
ez·ony do wartości w pobliz·u punktu y” tzn. np., gdy nośnik
gestości
¾
K jest ograniczony, to nośnik funkcji Fy;h jest podzbiorem nośnika
funkcji K: Np. gdy
K(x) =
1
0
jxj
dla jxj 1
dla jxj > 1
(2)
tzn. gdy ma wykres jak na powyz·szym rysunku,
y
3
2
1
-5
-4
-3
-2
-1
0
1
2
3
4
5
x
Jadro
¾
trójkatne
¾ przesuniete
¾ i przeskalowane
to np. funkcja 3K(3(x 2)) ma powyz·szy wykres.
W dalszym ciagu
¾ okaz·e sie¾ uz·yteczne nastepuj
¾ ace
¾ ogólne twierdzenie .
Twierdzenie 1 Niech f i g bed
¾ a¾dwiema ca÷kowalnymi wzgledem
¾
miary Lebesgue’a funkcjami.
Wówczas
R
R
R
i)
jf (x)g(y x)j dx
jf (x)j dx
R
R
R R jg(x)j dx (nierówno´s´c Younga),
a ponadto, je´sli dodatkowo za÷o·zy´c, ·ze R g(x)dx = 1; to
R R
ii)
lim R R h1 f (x)g( y h x )dx f (y) dy = 0;
h#0
Je´sli oprócz tego funkcja g^(x) = sup jg(y)j jest ca÷kowalna, to
jyj jxj
R
iii)
lim R h1 f (y)g( y h x )dy = f (x) dla prawie wszystkich x 2 R:
h#0
1
Dowód. Moz·na znaleźć w ksia¾z·ce Devroya (patrz tw. 1 na str. 16). Dowód
ten nie jest probablistyczny, opiera sie¾ (szczególnie teza iii)) na Twierdzeniu
Lebesgue’a o punktach gestości
¾
(patrz podrecznik
¾
×ojasiewicza ) i dlatego nie
podamy go tu.
Mamy takz·e nastepuj
¾ ace
¾ ogólne twierdzenie, zwane Lematem Sche¤é’a.
Lemat 2 (Sche¤ é) Niech ffn gn 1 bedzie
¾
ciagiem
¾
nieujemnych, ca÷kowalnych
funkcji okre´slonych na pewnej przestrzeni
z
miar
a
¾
(S; S; ) ; zbie·znym prawie
R
na pewno do funkcji f: Wówczas S jfn f j d
! 0 wtedy i tylko wtedy, gdy
n!1
R
R
f d
! S fd
S n
n!1
R
R
! 0 =) S fn d
! S f d jest oczywista:
n!1
R
R
Zajmijmy sie¾ wiec
¾ przeciwna¾ i za÷óz·my, z·e S fn d
! S f d Ze wzgledu
¾ na
Dowód. Implikacja
R
S
jfn
fj d
n!1
n!1
to, z·e (fn f )
f , wiec
¾ z Twierdzenia Lebesgue’a o zdominowanym przejściu
do granicy pod znakiem ca÷
ki mamy przy n ! 1 :
Z
Z
lim
(fn f ) d =
lim (fn f ) d = 0:
(3)
n!1
Nastepnie
¾
mamy
Z
Z
(fn f )+ d =
S
S n!1
S
(fn
f) =
fn f
Z
fn d
Z
(fn
Z
Z
fd
(fn
f )d :
fn <f
Ponadto mamy:
Z
(fn
f )d
fn <f
Zatem:
f) d
S
Z
(fn
f )+ d
S
! 0:
n!1
! 0:
n!1
Stad
¾ i z (3) wynika juz· teza.
Stad
¾ mamy nastepujac
¾ a¾ w÷asnośc estymatorów gestości.
¾
Twierdzenie 3 (Glick) Niech ffn g bedzie
¾
ciagiem
¾
estymatorów gesto
¾ ´sci f: Je´sli
fn ! f wed÷ug prawdopodobie´
nstwa
(z
prawdopodobie´
nstwem
1)
dla prawie
R
wszystkich x przy n ! 1; to R jfn (x) f (x)j dx ! 0 wed÷ug prawdopodobie´nstwa
(z prawdopodobie´nstwem 1) przy n ! 1:
Ustalmy jakieś jadro
¾
K(x): Za÷óz·my teraz, z·e dokonujemy N obserwacji
pewnej zmiennej losowej X o gestości
¾
f (x); otrzymujac
¾ ciag
¾ liczb x1 ; : : : ; xN :
Niech h = h(N ) bedzie
¾
pewnym ciagiem
¾
liczb dodatnich, malejacym
¾
do zera
wraz z N: Rozwaz·my funkcje¾
N
1 X1
f~N (y) =
K
N i=1 h
2
y
xi
h
:
(4)
Jest ona gestości
¾
a,
¾ bo mamy
8N 2 N; y 2 R : f~N (y)
0;
Z
f~N (y)dy = 1:
R
Aby przeanalizować zwiazek
¾ tej funkcji z gestości
¾
a¾f; rozwaz·my problem z probabilistycznego punktu widzenia. Niech dany bedzie
¾
ciag
¾ X1 ; : : : ; XN niezale·znych
zmiennych losowych o jednakowym rozk÷adzie z gestości
¾
a¾ f: Rozwaz·my zmienne
losowe:
N
y Xi
1 X 1
K
:
(5)
fN (y) =
N i=1 h(N )
h(N )
Jasne jest,
0 z prawdopodobieństwem 1.
R z·e dla 8n 2 N i 8y 2 R : fN (y)
Ponadto R fN (y)dy = 1 takz·e z prawdopodobieństwem 1. fN (y) jest zmienna¾
losowa,
¾ której jedna¾ z realizacji jest f~N (y):
Obliczmy ciag
¾ N transformat Fouriera funkcji fN (y): Mamy:
N (t) =
Z
N Z
1
1 X
K
N i=1 R h(N )
fN (y) exp(ity)dy =
R
ale
R
1
K
R h(N )
jac
¾ '(t) =
R
y Xi
h(N )
exp(ity)dy =
R
R
y Xi
h(N )
exp(ity)dy;
K(z) exp (itXi + itzh(N )) dz: Oznacza-
K(z) exp(itz)dz; dostaniemy:
R
N (t) = '(th(N ))
Zauwaz·my, z·e 8t 2 R : '(th(N ))
N
1 X
exp(itXi ):
N i=1
! '(0) = 1 (bo K jest gestości
¾
a¾ i h(N ) !
N !1
0; gdy N ! 1). Ponadto ze wzgledu
¾ na to, z·e zmienne losowe fXi gi
niezalez·ne, to zachodzi PWL w wersji Ko÷mogorowa i widzimy, z·e
8t 2 R :
1
sa¾
N
1 X
exp(itXi ) ! 'X (t)
N !1
N i=1
prawie na pewno, gdzie przez 'X (t) oznaczyliśmy funkcje¾ charakterystyczna¾
zmiennej losowej X1 : A zatem ciag
¾ zmiennych losowychffn (y)gn 1 zbiega dla
prawie kaz·dej ! w sensie dystrybucyjnym do rozk÷adu zmiennej X1 : Znaczy to
np., z·e
Z
Z
x
8x2R :
x
fn (y)dy
1
!
f (y)dy prawie na pewno.
n!1
(6)
1
Okazuje sie,
¾ z·e istnieje bogata literatura na temat estymacji gestości
¾
i moz·na
podać g÷ebsze
¾
i bardziej szczegó÷owe Twierdzenia o zbiez·ności.
Uwaga 4 Zauwa·zmy, ·ze aby pokaza´c s÷aba¾ zbie·zno´s´c (czyli w gruncie rzeczy
zbie·zno´s´c funkcji charakterystycznych) ciagu
¾ gesto
¾ ´sci do gesto
¾ ´sci granicznej,
nie trzeba by÷o zak÷ada´c niezale·zno´sci obserwacji. Jak wynika÷o z powy·zszego
3
rachunku wystarczy÷o, aby zachodzi÷o prawo wielkich liczb dla zmiennych losowych
fYi = exp(itXi )gi 1 dla ka·zdego t 2 R z osobna. Z kolei, aby takie prawo
wielkich liczb zachodzi÷o wystarczy, aby kowariancje cov(Yi ; Yj ) mala÷y wraz z
ji jj dostatecznie szybko do zera. Jak to sprawdzi´c, zale·zy od konkretnej postaci
ciagu
¾ zmiennych losowych fXi gi 1 : W ka·zdym razie wystarczy znajomo´s´c tylko
rozk÷adów dwuwymiarowych tego ciagu.
¾
Uwaga 5 Innym typowym sposobem estymacji gesto
¾ ´sci, jest estymacja przy pomocy histogramów. Histogram powstaje w nastepuj
¾ acy
¾ sposób. Dla ustalenia
uwagi za÷ó·zmy, ·ze interesuje nas przybli·zenie gesto
¾ ´sci zmiennej losowej X: W
tym celu
a) Obserwujemy N niezale·znych realizacji tej zmiennej otrzymujac
¾ warto´sci
x1 ; x2 , : : :, xN :
b) Dzielimy przedzia÷zmienno´sci zmiennej losowej X na k 2 roz÷¾
acznych
przedzia÷ów przy pomocy punktów y1 ; y2 ; : : : ; yk 1 . Nastepnie
¾
zliczamy ile punkdf
tów spo´sród x1 ; : : : ; xN wpad÷o do ka·zdego z przedzia÷ów j =< yj 1 ; yj ); j =
1; : : : ; k; gdzie przyjeli
¾ ´smy dla prostoty oznacze´n y0 = 1 i yk = 1: Innymi s÷owy obliczmy: wielko´sci nj = # fxi : xi 2 j g : Histogramem nazywamy
n
funkcje¾ schodkowa¾która na przedziale j przyjmuje warto´s´c Nj : . Innymi s÷owy
Pk nj
Histogram(y) = j=1 N I( j )(y):
Nietrudno zauwa·zy´c, ·ze tym lepiej histogram przybli·za gesto
¾ ´s´c zmiennej losowej
im wieksza
¾
jest liczba obserwacji N; liczba przedzia÷ów k; przy czym stosunek
N=k tak·ze powinien by´c du·zy. Chodzi o to by w ka·zdym z przedzia÷ów j znalaz÷o
sie¾ dostatecznie du·zo obserwacji (winno zaj´s´c odpowiednio zmody…kowane prawo
wielkich liczb).
Wada¾ estymacji gesto
¾ ´sci przy pomocy histogramów jest oczywi´scie fakt, ·ze
histogram jest funkcja¾ schodkowa,¾ a wiec
¾ nieciag÷¾
¾ a. Znacznie lepsze wyniki
dostaje sie¾ stosujac
¾ metody jadrowe
¾
opisywane w niniejszym rozdziale.
Na razie obejrzyjmy przyk÷ady. W kaz·dym z nich wykonano n = 5000
symulacji.
Przyk÷
ad 6 W tym przyk÷adzie za÷o·zono n = 2000; h(n) = n :5 , estymowano
gesto
¾ ´s´c rozk÷adu jednostajnego na odcinku < 0; 1 >; czyli gesto
¾ ´s´c rozk÷adu U (0; 1):
Wykonano dwa dwie estymacje : pierwsza¾z jadrem
¾
danym wzorem (2); i druga¾
1
z jadrem Cauchy’ego, czyli za jadro
¾ wzieto
¾ funkcje¾ (1+x
2 ) . Wyniki przedstawiono poni·zej. Wykres pierwszego estymatora jest na czerwono a drugiego na
niebiesko.
Jak wida´c otrzymano poprawe¾ jako´sci estymatorów.
Przyk÷
ad 7 W tym przyk÷adzie estymowano funkcje¾ gesto
¾ ´sci rozk÷adu wyk÷adniczego Exp(1); czyli funkcje¾ exp( x) dla x 0: Parametr n i jadra
¾ by÷y takie
same, jak w poprzednim przyk÷adzie. Przyjeto
¾ h(n) = n :4 : Jak w poprzednim przyk÷adzie na czerwono oznaczono estymator otrzymany przy pomocy jadra
¾
trójkatnego,
¾
na niebiesko za´s przy pomocy jadra
¾ Cauchy’ego.
4
5
Przyk÷
ad 8 W tym przyk÷adzie estymowano gesto
¾ ´s´c rozk÷adu arcus sinus czyli
funkcje¾ p11 x2 dla jxj < 1: Parametr n i jadra
¾ by÷y takie same, jak w poprzednim przyk÷adzie. Przyjeto
¾ h(n) = n :3 : Jak w poprzednim przyk÷adzie na czerwono oznaczono estymator otrzymany przy pomocy jadra
¾ trójkatnego,
¾
na niebiesko
za´s przy pomocy jadra
¾ Cauchy’ego.
Uwaga 9 Zauwa·zmy, ·ze rachunki i argumentacja u·zyta dla uzasadnienia sensowno´sci estymatora jadrowego
¾
(5) jest uniwersalna w tym sensie, ·ze odnosi
sie¾ tak·ze do zmiennych losowych nie posiadajacych
¾
gesto
¾ ´sci. Argumentacja ta
mo·ze by´c podstawa¾ do rozwa·zania jadrowych
¾
estymatorów dystrybuant.
R x Mianowicie oznaczajac
¾ przez FK dystrybuante¾ jadra
¾
K tzn. FK (x) =
K(z)dz;
1
dostajemy ze wzoru (6)
n
1X
FK
n i=1
x
Xi
hn
! FX (x);
n!1
z prawdopodobie´nstwem 1, gdzie FX oznacza dystrybuante¾ zmiennej losowej X1 :
Jak pokazuja¾ symulacje, metoda ta jest dobra, wydajna i jak wspomniano uniwersalna. Jak sie¾ wydaje pierwszym, który zauwa·zy÷mozliwo´sci tkwiace
¾ w tej
metodzie estymacji dystrybuant by÷Azzalini (1981) . Wydaje sie¾ jednak, ·ze
metoda ta jest raczej ma÷o znana i wymaga bada´n.
Zilustrujemy to nastepuj
¾ acym
¾
przyk÷adem. Wykonano N = 3000 obserwacji
dyskretnej zmiennej losowej
8
1 z p-twem 1=8
>
>
<
0 z p-twem 4=8
X=
:
2 z p-twem 2=8
>
>
:
3 z p-twem 1=8
6
Przyjeto
¾ bad´z
¾ FK (x) = 1=2 + arctan(x)= ; bad´z
¾
8
0
dla
>
< p
p
3 5
2 5
1 3
FK =
x 15 x + 3
dla
20
>
:
1
dla
p
x<
5
p
p
5 x< 5 ;
p
x
5
czyli jadro
¾
Jepanecznikowa. Wyniki przedstawiono na poni·zszym rysunku, na
którym estymator z jadrem
¾
Cauchy’ego oznaczono F N , estymator z jadrem
¾
Jepanecznikowa oznaczono F JJ; a F oznacza dystrybuanta¾zmiennej losowej X:
Estymator dystrybuanty z jadrem Cauchy’ego
Przyjeto
¾ h(N ) = N
2.1
:4
:
W÷
asności podstawowego
Ze wzgledu
¾ na to, z·e g÷
ównym celem niniejszego rozdzia÷u nie jest wyczerpujaca
¾ prezentacja metod estymacji gestości,
¾
a jedynie wskazanie na zwiazki
¾ tej
problematyki z zagadnieniami praw wielkich liczb i w miare¾ dok÷adna analiza
tej odmiany metod estymacji gestości,
¾
które dadza¾ sie¾ przedstawić w postaci iteracyjnej, wiec
¾ bardzo skrótowo zaprezentujemy g÷ówne wyniki ponad 30 lat
badań poświeconych
¾
estymacji gestości.
¾
Napisano szereg ksia¾z·ek i przegla¾
dowych d÷
ugich artyku÷
ow poświeconych
¾
temu zagadnieniu. Metody estymacji
gestości,
¾
jak sie¾ okazuje, moz·na rozbić na dwie duz·e grupy. Bazujace
¾ na b÷edzie
¾
´sredniokwadratowym
Z
2
M ISE(h; n) = E (fn (y) f (y)) dy;
7
Figure 1: Estymator dystrybuanty z jadrem
¾
Jepanecznikowa
i bazujace
¾ na tzw. b÷edzie
¾
L1
M I(L1 )E = E
Z
jfn (y)
f (y)j dy:
Oczywiście moz·na by rozwaz·ać inne metryki w przestrzeniach funkcyjnych i istnieja¾prace rozwaz·ajace
¾ je ale dwie metryki wyznaczone przez wspomniane wyz·ej
formu÷
y sa¾ najwaz·niejsze i im poświecone
¾
jest oko÷o 99% literatury. Z pośród
prac analizujacych
¾
procedury estymacji gestości
¾
oparte na M ISE wymienimy
monogra…¾
e Silvermana i kilka prac w tym kilka najstarszych ze wzgledów
¾
historycznych i kilka najnowszych ze wzgledu
¾ na to, z·e zawieraja¾ odniesienia do
innych wcześniejszych prac: .
Jeśli chodzi o druga¾ miare¾ b÷edów,
¾
to w pierwszej kolejności nalez·y wspomnieć monogra…¾
e Devroya.
Przedstawimy teraz kilka ogólnych w÷asności tej metody estymacji, a nastep¾
nie pokrótce wyniki dotyczace
¾ optymalnego wyboru ciagu
¾ wspó÷czynników fh(N )gN
czyli tzw. ”szerokości okna” (inaczej ”szerokości pasma”) i postaci jadra.
¾
Niech X1 ; : : : ; Xn bedzie
¾
ciagiem
¾
n niezalez·nych, jednowymiarowych zmiennych losowych, o jednakowych rozk÷adach z gestości
¾
a¾ f . Poprzednio rozwaz·aliśmy estymator
n
y Xi
1X 1
fn (y) =
K
;
(7)
n i=1 hn
hn
gdzie fhn g jest ciagiem
¾
liczbowym, nierosnacym,
¾
zbiez·nym do zera. W wersji
d-wymiarowej estymator ten ma nastepuj
¾ ac
¾ a¾ postać:
N
fn (y) =
1X 1
K
n i=1 hdn
8
y
Xi
hdn
;
(8)
1
gdzie y 2Rd a fX1 ; : : : ; Xn g jest próba¾ prosta¾ wektorów d wymiarowych o
gestości
¾
f (x):
O jego podstawowych w÷asnościach mówia¾ poniz·sze lemat i Twierdzenie .
Lemat 10 Estymator (8) ma
i)
Z
Efn (y) =
Z
df
b(y) = Efn (y) f (y) =
nastepuj
¾ ace
¾ w÷asno´sci:
1
K
hdn
y
x
hn
K(x) f (y
f (x)dx =
hdn x)
Z
K(x)f (y
hdn x)dx;
f (y) dx
ii)
var(fn (y))
=
1
n
=
1
n
Z
"Z
1
K2
h2d
n
y
x
f (x)dx
hdn
1 2
K (x)f (y
hdn
2
(Efn (y))
Z
xhdn )dx
2
K(x)f (y
hdn x)dx
#
:
iii)
M ISE(h; n) = E
Z
(fn (y)
2
f (y)) dy +
Z
var(fn (y)) + b2 (y) dy
Dowód. Pierwsze równości obu tez dostaje sie¾ na podstawie za÷oz·enia o identyczności rozk÷adów zmiennych X1 ; : : : ; Xn : Dalsze równości wynikaja¾ z elementarnej zamiany zmiennych w odpowiednich ca÷kach i tego, z·e b÷ad
¾ średniokwadratowy jest równy sumie wariancji i kwadratu obcia¾z·enia.
9