O zgodnocsci procedur jednoczesnego testowania zastosowanych

Transkrypt

O zgodnocsci procedur jednoczesnego testowania zastosowanych
O zgodności procedur jednoczesnego testowania zastosowanych
do problemu selekcji zmiennych w modelu liniowym
Konrad Furmańczyk
Katedra Zastosowań Matematyki SGGW
Wis÷
a 2010
Plan referatu
1. Modele liniowe
2. Wybór zmiennych jako problem multitestowania
3. Warunki zgodności selekcji zmiennych
Niech
Y = X + ",
(1)
gdzie j 6= 0 dla j 2 I0 oraz j = 0 dla j 2 I1,
I1 := f1; :::; pgnI0 ( jI0j = p0 ), Y = (Y1; :::; Yn)T , X
- macierz nielosowych elementów xij , 1
i
n; 1
j p, = 1; :::; p - wektor parametrów modelu.
Rozpatrujemy nastepuj
¾ ace
¾ modele:
M1 " = ("1; :::; "n)T i.i.d. z rozk÷
adu N (0; ), gdzie
jest znane;
M2 " = ("1; :::; "n)T i.i.d. z rozk÷
adu N (0; ), gdzie
jest nieznane;
M3 " = ("1; :::; "n)T jest wektorem o zalez·nych wspó÷
rzed¾
nych.
Zak÷
adamy, z·e liczba zmiennych objaśniajacych
¾
p moz·e
rosnać
¾ wraz z n, ale liczba istotnych zmiennych w modelu
p0 jest niezalez·na od n.
Niech ^ i = M N K ( i) dla modelu (1). Bedziemy
¾
p
przyjmowali, z·e modelu M 1 se ^ i =
mii oraz
p
se ^ i = S mii w modelach M 2-M 3, gdzie mii jest
elementem diagonalnym macierzy
zgodnym estymatorem .
XT X
1
oraz S jest
Rozwaz·amy problem testowania (selekcji zmiennych)
0
h0) Hi : i = 0 lub Hi : i 6= 0 dla i = 1; :::; p
na podstawie statystyki testowej tni = ^ i=se ^ i .
Bedziemy
¾
zak÷
adali tak jak ([2]), z·e p-wartości dla pojedynczych hipotez sa¾ postaci
pi(tni) = 2 (1
(jtnij)) ,
gdzie jest dystrybuanta¾ ze standardowego rozk÷
adu normalnego.
Procedura stepdown
Niech p1; :::; pp -p-wartości dla pojedynczych testów, niech
p(1) ::: p(p) -uporzadkowane
¾
p-wartości, H(1); :::; H(p)
odpowiednie hipotezy zerowe. Niech 1
:::
p.
Jeśli p(1) > 1, to nie odrzucamy z·adnej hipotezy. W
przeciwnym przypadku gdy
h1) p(1)
1 ; :::; p(r)
r , odrzucamy H(1) ; :::; H(r) ,
gdzie r jest najwieksze
¾
spe÷
niajace
¾ h1).
Zgodność procedury wyboru zmiennych
P(I^n = I0) ! 1
przy n ! 1, gdzie I^n to zbiór odrzuconych hipotez Hi,
zaś I0 to zbiór fa÷
szywych hipotez Hi (odpowiadajace
¾
istotnym parametrom j 6= 0).
×atwo zauwaz·yć, z·e procedura wyboru zmiennych jest
zgodna gdy
P (R = p0; V = 0) ! 1
przy n ! 1, gdzie R- liczba odrzuconych hipotez w
problemie testowania h0), V - liczba fa÷
szywie odzrzuconych hipotez.
Oczywiście procedura selekcji jest zgodna gdy
P (V
1) ! 0
P (R 6= p0) ! 0
przy n ! 1. Zapisujac
¾ to w terminach hipotezy stepdown otrzymujemy nastepuj
¾ ace
¾ warunki zgodności:
i1)
0
P@
X
n
I pj
j2I1
j
o
1
1A ! 0
i2)
p0
X
j=1
P
n
p(j) > j
przy n ! 1.
o
+P
n
p(p0+1)
p0 +1
o
!0
Rozwaz·my nastepuj
¾ ace
¾ warunki:
a1 )
p
max
j2f1;:::;pg
j !
0
a2 )
p max(1
j2I0
Fj ( j )) ! 0
przy n ! 1, gdzie Fj - dystrybuanta dla p-wartości
odpowiadajaca
¾ fa÷
szywym hipotezom zerowym.
Stwierdzenie ([5]) Warunki a1)-a2) implikuja¾ zgodność
procedury selekcji modelu liniowego.
Bedziemy
¾
sprawdzali warunek a2).
Rozwaz·my warunki:
a3 )
p max log
j2I0
2
j
!
= o(n2),
a4 )
m
przy n ! 1.
1
log n
Zgodność w modelu M 1
Oczywiście
1
Fj ( j ) =
1 (1
j
2
1 (1
)
p
j
2
)
j
mjj
p
!
j
mjj
!
= o(1).
Na mocy warunków a3)-a4), wiec
¾ otrzymujemy warunek
a2).
Zgodność w modelach M 2 i M 3
Rozwaz·my warunek
a5 )
kGni
k1 = O (cn )
dla pewnego cn ! 0, gdzie Gni jest dystrybuanta¾
zmiennej losowej
^i
t~ni = p
i
mii
.
Wtedy 1 Fj
gdzie
Gnj Cj;n
j
j
= p
Korzystajac
¾ z warunków a3)
Fj
= O cn +
mjj
1 (1
Cj;n = 2
1
j
Gnj
j
Cj;n
,
j
2
).
a5 )
j
Cj;n
Cj;n
j
j
Rozumujac
¾ jak w modelu M 1
Cj;n
j
j
stad
¾ dostajemy warunek a2).
Cj;n
j
= o(1),
+ o(1).
,
Uwagi do warunku a5)
W przypadku modelu M 2 moz·na pokazać, z·e
cn = max
1 k n
q
hkk
( [2]) przy za÷
oz·eniu E j"1j3 < 1 oraz
max
1 k n
q
hkk ! 0
gdy n ! 1, gdzie hkk jest elementem diagonalnym
1 T
T
macierzy X X X
X .
Uwagi do warunku a5) w modelu M 3
Niech
r := max
1 k n
oraz
q
hkk ,
a6 )
r = O n 1=2 .
Rozpatrzmy nastepuj
¾ acy
¾ model zalez·ności b÷
edów
¾
losowych:
(LP) ("i) jest procesem liniowym
"i =
X
br i r ,
r2Z
gdzie
X
r2Z
(2)
jbr j < 1
oraz ciag
¾ innowacji ( i) jest ściśle stacjonarnym ciagiem
¾
róz·nic martynga÷
owych wzgledem
¾
…ltracji (Fi)i2Z z
L3 spe÷
niajacym
¾
warunek
1
X
n=1
1
n1=2
gdzie 2 := E
2
0
E
.
2 jF
0
n
2
3=2
< 1,
Niech a1;n; :::; an;n
XT X
1
bedzie
¾
i-tym wierszem macierzy
XT
Rozwaz·my nastepuj
¾ acy
¾ warunek:
P1
(d) ciag
¾ ak;n jest niemalejacy
¾ oraz i=1 biai;n 6= 0.
nia warunek (LP) oraz spe÷
nione
Lemat ([5]) Jeśli ("i) spe÷
sa¾ warunki a6), (d), to zachodzi warunek a5) dla
cn =
n 1=4
q
log n.
Komentarz do warunków a1), a3)
Uwaga Gdy p = O (n ) dla pewnego 0 <
spe÷
nione sa¾ warunki a1), a3) dla
a) procedury Holma
qn
j =
p+1
j
,
b) uogólnionej procedury Holma ( [6])
j =
([ j ] + 1) qn
p + [ j] + 1 j
dla pewnego 0 <
< 1,
< 1, wtedy
c) dla procedury Benjamini-Yekuteliego( [1])
j =
gdzie qn
n
jqn
,
Pp
p i=1 1=i
dla pewnego
> ,
oraz dla procedury Bonferonniego
j =
gdzie qn
n
dla pewnego
qn
,
p
> 0.
References
[1] Benjamini, Y. and Yekutieli, D. (2001). The control
of the false discovery rate in multiple testing under
dependency. Ann. Statist. 29, 1165-1188.
[2] Bunea, F., Wegkamp, M.H. and Auguste, A. (2006).
Consistent variable selection in high dimensional regression via multiple testing. Journal of Statistical
Planning and Inference 136, 12, 4349-4364.
[3] Caraux, G. and Gascuel, O. (1992). Bounds on distribution functions of order statistics for dependent
variates. Statist. Probab. Lett. 14, 103-105.
[4] Dedecker,
J. and Merlevede,
F. (2010).
Rates of convergence in the central limit
theorem
for
linear
statistics
of
martingale
di¤erences.
http://perso-math.univmlv.fr/users/merlevede.‡orence/linearraterevisedversion.pdf
[5] Furmańczyk, K, (2010). The stepdown procedures
with application to consistent variable selection in linear regression. Preprint
[6] Lehmann, E.L. and Romano, J.P. (2005). Generalizations of the familywise error rate. Ann. Statist. 28,
1-25.