O zgodnocsci procedur jednoczesnego testowania zastosowanych
Transkrypt
O zgodnocsci procedur jednoczesnego testowania zastosowanych
O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym Konrad Furmańczyk Katedra Zastosowań Matematyki SGGW Wis÷ a 2010 Plan referatu 1. Modele liniowe 2. Wybór zmiennych jako problem multitestowania 3. Warunki zgodności selekcji zmiennych Niech Y = X + ", (1) gdzie j 6= 0 dla j 2 I0 oraz j = 0 dla j 2 I1, I1 := f1; :::; pgnI0 ( jI0j = p0 ), Y = (Y1; :::; Yn)T , X - macierz nielosowych elementów xij , 1 i n; 1 j p, = 1; :::; p - wektor parametrów modelu. Rozpatrujemy nastepuj ¾ ace ¾ modele: M1 " = ("1; :::; "n)T i.i.d. z rozk÷ adu N (0; ), gdzie jest znane; M2 " = ("1; :::; "n)T i.i.d. z rozk÷ adu N (0; ), gdzie jest nieznane; M3 " = ("1; :::; "n)T jest wektorem o zalez·nych wspó÷ rzed¾ nych. Zak÷ adamy, z·e liczba zmiennych objaśniajacych ¾ p moz·e rosnać ¾ wraz z n, ale liczba istotnych zmiennych w modelu p0 jest niezalez·na od n. Niech ^ i = M N K ( i) dla modelu (1). Bedziemy ¾ p przyjmowali, z·e modelu M 1 se ^ i = mii oraz p se ^ i = S mii w modelach M 2-M 3, gdzie mii jest elementem diagonalnym macierzy zgodnym estymatorem . XT X 1 oraz S jest Rozwaz·amy problem testowania (selekcji zmiennych) 0 h0) Hi : i = 0 lub Hi : i 6= 0 dla i = 1; :::; p na podstawie statystyki testowej tni = ^ i=se ^ i . Bedziemy ¾ zak÷ adali tak jak ([2]), z·e p-wartości dla pojedynczych hipotez sa¾ postaci pi(tni) = 2 (1 (jtnij)) , gdzie jest dystrybuanta¾ ze standardowego rozk÷ adu normalnego. Procedura stepdown Niech p1; :::; pp -p-wartości dla pojedynczych testów, niech p(1) ::: p(p) -uporzadkowane ¾ p-wartości, H(1); :::; H(p) odpowiednie hipotezy zerowe. Niech 1 ::: p. Jeśli p(1) > 1, to nie odrzucamy z·adnej hipotezy. W przeciwnym przypadku gdy h1) p(1) 1 ; :::; p(r) r , odrzucamy H(1) ; :::; H(r) , gdzie r jest najwieksze ¾ spe÷ niajace ¾ h1). Zgodność procedury wyboru zmiennych P(I^n = I0) ! 1 przy n ! 1, gdzie I^n to zbiór odrzuconych hipotez Hi, zaś I0 to zbiór fa÷ szywych hipotez Hi (odpowiadajace ¾ istotnym parametrom j 6= 0). ×atwo zauwaz·yć, z·e procedura wyboru zmiennych jest zgodna gdy P (R = p0; V = 0) ! 1 przy n ! 1, gdzie R- liczba odrzuconych hipotez w problemie testowania h0), V - liczba fa÷ szywie odzrzuconych hipotez. Oczywiście procedura selekcji jest zgodna gdy P (V 1) ! 0 P (R 6= p0) ! 0 przy n ! 1. Zapisujac ¾ to w terminach hipotezy stepdown otrzymujemy nastepuj ¾ ace ¾ warunki zgodności: i1) 0 P@ X n I pj j2I1 j o 1 1A ! 0 i2) p0 X j=1 P n p(j) > j przy n ! 1. o +P n p(p0+1) p0 +1 o !0 Rozwaz·my nastepuj ¾ ace ¾ warunki: a1 ) p max j2f1;:::;pg j ! 0 a2 ) p max(1 j2I0 Fj ( j )) ! 0 przy n ! 1, gdzie Fj - dystrybuanta dla p-wartości odpowiadajaca ¾ fa÷ szywym hipotezom zerowym. Stwierdzenie ([5]) Warunki a1)-a2) implikuja¾ zgodność procedury selekcji modelu liniowego. Bedziemy ¾ sprawdzali warunek a2). Rozwaz·my warunki: a3 ) p max log j2I0 2 j ! = o(n2), a4 ) m przy n ! 1. 1 log n Zgodność w modelu M 1 Oczywiście 1 Fj ( j ) = 1 (1 j 2 1 (1 ) p j 2 ) j mjj p ! j mjj ! = o(1). Na mocy warunków a3)-a4), wiec ¾ otrzymujemy warunek a2). Zgodność w modelach M 2 i M 3 Rozwaz·my warunek a5 ) kGni k1 = O (cn ) dla pewnego cn ! 0, gdzie Gni jest dystrybuanta¾ zmiennej losowej ^i t~ni = p i mii . Wtedy 1 Fj gdzie Gnj Cj;n j j = p Korzystajac ¾ z warunków a3) Fj = O cn + mjj 1 (1 Cj;n = 2 1 j Gnj j Cj;n , j 2 ). a5 ) j Cj;n Cj;n j j Rozumujac ¾ jak w modelu M 1 Cj;n j j stad ¾ dostajemy warunek a2). Cj;n j = o(1), + o(1). , Uwagi do warunku a5) W przypadku modelu M 2 moz·na pokazać, z·e cn = max 1 k n q hkk ( [2]) przy za÷ oz·eniu E j"1j3 < 1 oraz max 1 k n q hkk ! 0 gdy n ! 1, gdzie hkk jest elementem diagonalnym 1 T T macierzy X X X X . Uwagi do warunku a5) w modelu M 3 Niech r := max 1 k n oraz q hkk , a6 ) r = O n 1=2 . Rozpatrzmy nastepuj ¾ acy ¾ model zalez·ności b÷ edów ¾ losowych: (LP) ("i) jest procesem liniowym "i = X br i r , r2Z gdzie X r2Z (2) jbr j < 1 oraz ciag ¾ innowacji ( i) jest ściśle stacjonarnym ciagiem ¾ róz·nic martynga÷ owych wzgledem ¾ …ltracji (Fi)i2Z z L3 spe÷ niajacym ¾ warunek 1 X n=1 1 n1=2 gdzie 2 := E 2 0 E . 2 jF 0 n 2 3=2 < 1, Niech a1;n; :::; an;n XT X 1 bedzie ¾ i-tym wierszem macierzy XT Rozwaz·my nastepuj ¾ acy ¾ warunek: P1 (d) ciag ¾ ak;n jest niemalejacy ¾ oraz i=1 biai;n 6= 0. nia warunek (LP) oraz spe÷ nione Lemat ([5]) Jeśli ("i) spe÷ sa¾ warunki a6), (d), to zachodzi warunek a5) dla cn = n 1=4 q log n. Komentarz do warunków a1), a3) Uwaga Gdy p = O (n ) dla pewnego 0 < spe÷ nione sa¾ warunki a1), a3) dla a) procedury Holma qn j = p+1 j , b) uogólnionej procedury Holma ( [6]) j = ([ j ] + 1) qn p + [ j] + 1 j dla pewnego 0 < < 1, < 1, wtedy c) dla procedury Benjamini-Yekuteliego( [1]) j = gdzie qn n jqn , Pp p i=1 1=i dla pewnego > , oraz dla procedury Bonferonniego j = gdzie qn n dla pewnego qn , p > 0. References [1] Benjamini, Y. and Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Ann. Statist. 29, 1165-1188. [2] Bunea, F., Wegkamp, M.H. and Auguste, A. (2006). Consistent variable selection in high dimensional regression via multiple testing. Journal of Statistical Planning and Inference 136, 12, 4349-4364. [3] Caraux, G. and Gascuel, O. (1992). Bounds on distribution functions of order statistics for dependent variates. Statist. Probab. Lett. 14, 103-105. [4] Dedecker, J. and Merlevede, F. (2010). Rates of convergence in the central limit theorem for linear statistics of martingale di¤erences. http://perso-math.univmlv.fr/users/merlevede.‡orence/linearraterevisedversion.pdf [5] Furmańczyk, K, (2010). The stepdown procedures with application to consistent variable selection in linear regression. Preprint [6] Lehmann, E.L. and Romano, J.P. (2005). Generalizations of the familywise error rate. Ann. Statist. 28, 1-25.