Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez
Transkrypt
Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez
Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW 1 PLAN REFERATU Sformu owanie zagadnienia testowania wielu hipotez; Uogólnione b edy I rodzaju dla testowania wielu hipotez: F W ER, F DP , F DR; model hierarchiczny dla testowania wielu hipotez; uogólnienia modelu hierarchicznego dla zaleznych testowań; 2 Klasyczne sformu owanie zagadnienia Dane X sa generowane z pewnego rozk adu prawdopodobieństwa P 2 . Interesuja nas hipotezy dotyczace rozk adu P Hi : P 2 ! i dla i = 1, 2, ... , m, gdzie liczba testowanych hipotez m jest bardzo duza (tysiace, miliony hipotez w analizie danych mikromacierzowych lub analizie obrazów z funkcjonalnego rezonansu magnetycznego) Problem: na podstawie statystyk testowych: T1, T2, ... , Tm (lub odpowiednich p-wartości) podjać decyzje, które z hipotez Hi sa prawdziwe, a które fa szywe. W ten sposób otrzymujemy 2m mozliwych decyzji do podjecia. 3 Uogólnienia b edu I rodzaju Niech R oznacza liczbe odrzuconych hipotez Hi w wyniku zastosowania pewnej procedury jednoczesnego testowania. Przez V oznaczmy (nieobserwowana zmienna) liczbe odrzuceń prawdziwych hipotez Hi, Family-wise error rate (F W ER) F W ER = P (V 1) Procedura testowania konrtoluje F W ER na poziomie gdy P (V 1) dla wszystkich P 2 4 False discovery proportion (F DP ) V =R gdy R > 0 . F DP = 0 gdy R = 0 False discovery rate (F DR) F DR = E (F DP ) . Konstruuje sie procedury, które kontroluja uogólniony b ad I rodzaju (F W ER, F DR) , tzn. takie aby b ed ten nie przekracza pewnego 2 (0; 1). W przypadku miary F DP szukamy takiej procedury aby P (F DP > ) dla wszystkich P 2 dla dowolnych , 2 (0; 1). 5 Niech Pi oznacza p-wartość dla hipotezy Hi dla i = 1; :::; m oraz P(1) P(2) ::: P(m) beda uporzadkowanymi p-wartościami. Dla ustalonego poziomu kontroli oznaczmy M := max i 2 f0; 1; :::; m + 1g : P(i) i=m , gdzie P(0) := 0, P(m+1) := 1 oraz TBH := P(M ). Procedura Benjamini i Hochberga (BH) odrzuca wszystkie hipotezy Hi dla których Pi TBH . Gdy M = 0 to wszystkie hipotezy sa akceptowane. 6 W przypadku niezalezności statystyk testowych T1, ::: , Tm procedura BH kontroluje F DR na poziomie . Dok adniej Benjamini i Hochberg (1995) otrzymali F DR m0 =m , gdzie m0 jest liczba prawdziwych hipotez wśród hipotez Hi dla i = 1; :::; m: Benjamini i Yekutieli (2001) pokazali, ze procedura BH kontroluje F DR bez za ozenia o niezalezności statystyk testowych, jeśli zamiast weźmiemy m X 1 = . j j=1 7 Model hierarchiczny Efron, Tibshirani, Storey i Tusher (2001) wprowadzili nastepujacy model testowania wielu hipotez Niech Hi = 0 (lub 1) gdy Hi jest prawdziwa (fa szywa). Zak adamy, ze (Hi) sa niezaleznymi zmiennymi losowymi o wspólnym rozk adzie Bernoulliego P (Hi = 0) = 1 , P (Hi = 1) = oraz (Pi; Hi) sa i.i.d. takie, ze P (Pi x j Hi = 0) = x, P (Pi x j Hi = 1) = F (x) dla x 2 [0; 1], gdzie F wspólna dystrybuanta p-wartości Pi gdy hipoteza Hi jest fa szywa. 8 Wtedy dystrybuanta brzegowa G zmiennej losowej Pi jest postaci G(t) = (1 )t + F (t) dla t 2 [0; 1]. False nondiscovery proportion określamy jako N=(m R) gdy R < m , 0 gdy R = m gdzie N - liczba nieodrzuconych fa szywych hipotez Hi. F NP = 9 Określmy nastepujace procesy stochastyczne (odpowiedniki F DR i F N R) Pm tg (1 Hi) i=1 1 fPi , m (t) = Pm tg + 1 P(1) > t i=1 1 fPi Pm i=1 1 fPi > tg Hi m (t) = Pm t i=1 1 fPi > tg + 1 P(m) dla t 2 [0; 1]. 10 Storey (2002) pokaza , ze przy za ozeniu modelu hierarchicznego mamy dla t > 0, E( m (t)) E( = Q(t) (1 m (t)) (1 ~ (1 = Q(t) gdzie Q(t) = (1 ~ = 1 Q(t) 1 11 G(t))m) , G(t)m) , t , ) G(t) F (t) . G(t) Zak adamy, ze jest znane. Oznaczmy TP I := sup f0 gdzie Qm(t) = (1 ) t t , Gm(t) m 1 X 1 fPi Gm(t) = m i=1 12 tg . 1 : Qm(t) g, Zauwazmy, ze F DR(t) := E ( m(t)) Qm(t), wiec F DR(TP I ) . Dok adniej Genovese i Wasserman (2004) pokazali, ze w modelu hierarchicznym E( m (TP I )) = + o(1) dla m ! 1. 13 Zak adamy, ze jest nieznane. Genovese i Wasserman (2004) pokazali, ze nastepujaca procedura testowania kontroluje asymptotycznie F DR. Próg odrzucenia hipotez Hi określmy jako n o ^ m(t) T^ = sup 0 t 1 : Q , gdzie t ^) . Gm(t) Zak adamy dodatkowo, ze G jest wkles a oraz estymator ^ jest taki, ze ^ !P 0 < . Wtedy E m(T^ ) = + o(1) dla m ! 1. ^ m(t) = (1 Q 14 Farcomeni (2007) rozwazy uogólnienia modelu hierarchicznego. Dopuści pewne modele zalezności ciagu p-wartości (Pi). Np. ciag (Pi) jest stacjonarnym ciagiem -mieszajacym takim, ze 1 X (k) < 1. Wtedy E( k=1 m (TP I )) = + o(1) dla m ! 1. 15 Oznaczmy t0 = Q 1( ) := sup f0 gdzie t 1 : Q(t) g, t . G(t) Niech Qi dla i = 1; :::; m0 odpowiadaja p-wartościom dla prawdziwych hipotez Hi oraz Ri dla i = 1; :::; m m0 odpowiadaja p-wartościom dla fa szywych hipotez. Q(t) = (1 16 ) Za ózmy, ze dla m ! 1 a) m0 P ! 1 m b1) m 0 1 X 1 fQi m0 i=1 b2) mX m0 1 1 fRi m m0 i=1 c) G jest ciag a. 17 t0g !P t0 t0g !P F (t0) Mozna pokazać (Furmańczyk(2009)), ze przy warunkach a), b1), b2), c) (gdy jest znane) E( m (TP I )) = 1 E ( m(TP I )) = 1 Gdy E E + o(1) dla m ! 1 F (t0) +o(1) dla m ! 1. G(t0) jest nieznane oraz ^ !P ^ m (T ) = 1 ^ m (T ) = 1 to + o(1) dla m ! 1 F (t0) +o(1) dla m ! 1. G(t0) 18 Warunek b1) otrzymujemy np. gdy k istnieje taki ciag km0 ! 1, mm00 !P 0 gdy m0 !P 1 oraz sup ji jj km0 jP (Qi t0; Qj t0) P (Qi gdy istnieje taki ciag km ! 1, gdy m ! 1 oraz t0; Rj ji jj km t0) km m P (Ri !0 t0)P (Rj ! 0. 19 t0)j ! 0. Podobnie otrzymujemy b2). sup jP (Ri t0)P (Qj t0)j Estymacja Storey (2002) zaproponowa estymator Gm(s) s ^= 1 s + to dla pewnego s 2 (0; 1). Jeśli G(s) > s, G(s) s ^! 1 s P oraz p m ^ G(s) s 1 s =) N 20 G(s)(1 G(s)) 0; . (1 s)2 Niech Pj = 1 X i j, bj j=0 gdzie j i.i.d. Niech 1 X B := j jbj j < 1 j=0 oraz gestość Pj jest ograniczona przez K . Oznaczmy s 2 2 ln . := (1 + 4KB k 0k1) m Po ózmy Gm(t) t ~ = max t 1 t Wtedy (Furmańczyk (2009)) P (~ ) 1 a stad P (1 1 21 ~) 1 . Wyniki Wu (2009) Wu (2009) wprowadzi nastepujacy wariant modelu hierarchicznego (Hi) jest 0-1 procesem stacjonarnym oraz p-wartości (Pi) sa warunkowo niezalezne pod warunkiem (Hi). Wtedy tez P (Pi P (Pi x j Hi = 0) = x, x j Hi = 1) = F (x) dla x 2 [0; 1]. Rozwazmy nastepujace warunki regularności na proces (Hi) m X Hi m i=1 1 p m m X 2 Hi m i=1 dla pewnego p 2 ! < 1. 22 = O( m) =) N (0; 2 ) Oznaczmy BH := sup 0 t oraz t 1: Gm(t) t t 1: . 0 := sup 0 G(t) Wtedy przy pewnych warunkach regularności p m( m( BH ) (1 )) =) N (0; 21) p m( m( BH ) dla pewnych ^ m (T ) = 2 1 + 1 F ( 0) ) =) N (0; 1 G( 0) < 1, 22 < 1. oraz ^ 1 23 + OP (m 1=2 2 2) ). Przyk ady procesów (Hi) a) uciety proces liniowy Hi = 1 fXi tg dla ustalonego t 2 R gdzie Xi = 1 X bj i j j= 1 oraz ( j ) i.i.d. o ograniczonej gestości, E d j < 1 dla pewnego d > 0 oraz 1 X jbj jmin(1;d)=2 < 1. j= 1 24 b) model Isinga (pole losowe w A Z2) niech Ls = 2Hs 1 Ls = 1 (lub 1) gdy Hs = 0 (lub 1) oraz sasiedztwo punktu s = (j; k) Ns = f(j 0; k 0) : jj j 0j + jk k 0j = 1g LA = fLa; a 2 Ag, wtedy rozk ad Hi spe nia warunki regularności P (Ls = lsjLZ2ns = lZ2ns) = P (Ls = lsjLNs = lNs ) P exp( ls t2Ns lt) P P = l ) + exp( exp( t2Ns lt ) t2N ps t dla 0 log(1 + 2)=2. 25 Literatura [1] Y. Benjamini and Y. Hochberg, Controlling the false discovery rate: a practical and powerful approach to multiple testing, J. Roy. Statist. Soc. Ser. B 57 (1995), 289-300. [2] Y. Benjamini and D. Yekutieli, The control of the false discovery rate in multiple testing under dependency, Ann. Stat. 29 (2001), 1165-1188. [3] B. Efron, R. Tibshirani, J. Storey and V. Tusher, Empirical Bayes analysis of microarray experiment, Journ. Amer. Stat. Assoc. 96 (2001), 1151-1160. [4] A. Farcomeni, Some results on the control of the false discovery rate under dependence, Scan. Journ. Stat. 34 (2007), 275-297. [5] K. Furmańczyk, On the control of the false discovery rate under dependence, preprint (2009). 26 [6] C. Genovese and L. Wasserman, A stochastic process approach to false discovery control, Ann. Statist. 32 (2004), 10351061. [7] J. Storey, A direct approach to false discovery rates, J. R. Stat. Soc. Ser. B Stat. Meth. 64 (2002), 479-498. [8] W. B. Wu, On false discovery control under dependence, Ann. Stat. 36 (2009), 364-380. 27