Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez

Transkrypt

Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez
Asymptotyczna kontrola
FDR dla zaleznych
testowań wielu hipotez
statystycznych
Konrad Furmańczyk
Wydzia Zastosowań Informatyki i
Matematyki SGGW
1
PLAN REFERATU
Sformu owanie zagadnienia testowania
wielu hipotez;
Uogólnione b edy I rodzaju dla testowania
wielu hipotez: F W ER, F DP , F DR;
model hierarchiczny dla testowania wielu
hipotez;
uogólnienia modelu hierarchicznego dla
zaleznych testowań;
2
Klasyczne sformu owanie zagadnienia
Dane X sa generowane z pewnego
rozk adu prawdopodobieństwa P 2 .
Interesuja nas hipotezy dotyczace
rozk adu P
Hi : P 2 ! i
dla i = 1, 2, ... , m, gdzie liczba testowanych
hipotez m jest bardzo duza (tysiace, miliony
hipotez w analizie danych mikromacierzowych lub analizie obrazów z funkcjonalnego rezonansu magnetycznego)
Problem: na podstawie statystyk
testowych: T1, T2, ... , Tm (lub odpowiednich
p-wartości) podjać decyzje, które z hipotez Hi
sa prawdziwe, a które fa szywe.
W ten sposób otrzymujemy 2m mozliwych decyzji do podjecia.
3
Uogólnienia b edu I rodzaju
Niech R oznacza liczbe odrzuconych
hipotez Hi w wyniku zastosowania pewnej
procedury jednoczesnego testowania.
Przez V oznaczmy (nieobserwowana
zmienna) liczbe odrzuceń prawdziwych
hipotez Hi,
Family-wise error rate (F W ER)
F W ER = P (V
1)
Procedura testowania konrtoluje F W ER
na poziomie gdy
P (V
1)
dla wszystkich P 2
4
False discovery proportion (F DP )
V =R gdy R > 0
.
F DP =
0 gdy R = 0
False discovery rate (F DR)
F DR = E (F DP ) .
Konstruuje sie procedury, które kontroluja uogólniony b ad I rodzaju (F W ER,
F DR) , tzn. takie aby b ed ten nie przekracza
pewnego 2 (0; 1).
W przypadku miary F DP szukamy
takiej procedury aby
P (F DP > )
dla wszystkich P 2
dla dowolnych , 2 (0; 1).
5
Niech Pi oznacza p-wartość dla hipotezy Hi
dla i = 1; :::; m oraz P(1) P(2) ::: P(m)
beda uporzadkowanymi p-wartościami. Dla
ustalonego poziomu kontroli oznaczmy
M := max i 2 f0; 1; :::; m + 1g : P(i)
i=m ,
gdzie P(0) := 0, P(m+1) := 1 oraz TBH :=
P(M ).
Procedura Benjamini i Hochberga (BH)
odrzuca wszystkie hipotezy Hi dla których
Pi TBH . Gdy M = 0 to wszystkie hipotezy
sa akceptowane.
6
W przypadku niezalezności statystyk
testowych T1, ::: , Tm procedura BH
kontroluje F DR na poziomie .
Dok adniej Benjamini i Hochberg (1995)
otrzymali
F DR m0 =m
,
gdzie m0 jest liczba prawdziwych hipotez
wśród hipotez Hi dla i = 1; :::; m:
Benjamini i Yekutieli (2001) pokazali, ze
procedura BH kontroluje F DR bez za ozenia o niezalezności statystyk testowych,
jeśli zamiast weźmiemy
m
X
1
=
.
j
j=1
7
Model hierarchiczny
Efron, Tibshirani, Storey i Tusher (2001)
wprowadzili nastepujacy model testowania
wielu hipotez
Niech Hi = 0 (lub 1) gdy Hi jest
prawdziwa (fa szywa). Zak adamy, ze (Hi)
sa niezaleznymi zmiennymi losowymi o
wspólnym rozk adzie Bernoulliego
P (Hi = 0) = 1
, P (Hi = 1) =
oraz (Pi; Hi) sa i.i.d. takie, ze
P (Pi
x j Hi = 0) = x,
P (Pi
x j Hi = 1) = F (x) dla x 2 [0; 1],
gdzie F wspólna dystrybuanta p-wartości
Pi gdy hipoteza Hi jest fa szywa.
8
Wtedy dystrybuanta brzegowa G zmiennej losowej Pi jest postaci
G(t) = (1
)t + F (t) dla t 2 [0; 1].
False nondiscovery proportion określamy
jako
N=(m R) gdy R < m
,
0
gdy R = m
gdzie N - liczba nieodrzuconych fa szywych hipotez Hi.
F NP =
9
Określmy nastepujace procesy stochastyczne (odpowiedniki F DR i F N R)
Pm
tg (1 Hi)
i=1 1 fPi
,
m (t) = Pm
tg + 1 P(1) > t
i=1 1 fPi
Pm
i=1 1 fPi > tg Hi
m (t) = Pm
t
i=1 1 fPi > tg + 1 P(m)
dla t 2 [0; 1].
10
Storey (2002) pokaza , ze przy za ozeniu
modelu hierarchicznego mamy dla t > 0,
E(
m (t))
E(
= Q(t) (1
m (t))
(1
~ (1
= Q(t)
gdzie
Q(t) = (1
~ = 1
Q(t)
1
11
G(t))m) ,
G(t)m) ,
t
,
)
G(t)
F (t)
.
G(t)
Zak adamy, ze
jest znane.
Oznaczmy TP I := sup f0
gdzie
Qm(t) = (1
)
t
t
,
Gm(t)
m
1 X
1 fPi
Gm(t) =
m i=1
12
tg .
1 : Qm(t)
g,
Zauwazmy, ze
F DR(t) := E ( m(t)) Qm(t),
wiec
F DR(TP I )
.
Dok adniej Genovese i Wasserman (2004)
pokazali, ze w modelu hierarchicznym
E(
m (TP I ))
=
+ o(1) dla m ! 1.
13
Zak adamy, ze
jest nieznane.
Genovese i Wasserman (2004) pokazali,
ze nastepujaca procedura testowania kontroluje asymptotycznie F DR.
Próg odrzucenia hipotez Hi określmy
jako
n
o
^ m(t)
T^ = sup 0 t 1 : Q
,
gdzie
t
^)
.
Gm(t)
Zak adamy dodatkowo, ze G jest wkles a
oraz estymator ^ jest taki, ze
^ !P 0 < .
Wtedy
E m(T^ ) = + o(1) dla m ! 1.
^ m(t) = (1
Q
14
Farcomeni (2007) rozwazy uogólnienia
modelu hierarchicznego. Dopuści pewne
modele zalezności ciagu p-wartości (Pi).
Np. ciag (Pi) jest stacjonarnym ciagiem
-mieszajacym takim, ze
1
X
(k) < 1.
Wtedy
E(
k=1
m (TP I ))
=
+ o(1) dla m ! 1.
15
Oznaczmy
t0 = Q 1( ) := sup f0
gdzie
t
1 : Q(t)
g,
t
.
G(t)
Niech Qi dla i = 1; :::; m0 odpowiadaja
p-wartościom dla prawdziwych hipotez Hi
oraz Ri dla i = 1; :::; m m0 odpowiadaja
p-wartościom dla fa szywych hipotez.
Q(t) = (1
16
)
Za ózmy, ze dla m ! 1
a)
m0 P
! 1
m
b1)
m
0
1 X
1 fQi
m0 i=1
b2)
mX
m0
1
1 fRi
m m0
i=1
c) G jest ciag a.
17
t0g !P t0
t0g !P F (t0)
Mozna pokazać (Furmańczyk(2009)), ze
przy warunkach a), b1), b2), c) (gdy jest
znane)
E(
m (TP I ))
=
1
E ( m(TP I )) =
1
Gdy
E
E
+ o(1) dla m ! 1
F (t0)
+o(1) dla m ! 1.
G(t0)
jest nieznane oraz ^ !P
^
m (T )
=
1
^
m (T ) =
1
to
+ o(1) dla m ! 1
F (t0)
+o(1) dla m ! 1.
G(t0)
18
Warunek b1) otrzymujemy np. gdy
k
istnieje taki ciag km0 ! 1, mm00 !P 0 gdy
m0 !P 1 oraz
sup
ji jj km0
jP (Qi
t0; Qj
t0)
P (Qi
gdy istnieje taki ciag km ! 1,
gdy m ! 1 oraz
t0; Rj
ji jj km
t0)
km
m
P (Ri
!0
t0)P (Rj
! 0.
19
t0)j
! 0.
Podobnie otrzymujemy b2).
sup jP (Ri
t0)P (Qj
t0)j
Estymacja
Storey (2002) zaproponowa estymator
Gm(s) s
^=
1 s
+
to
dla pewnego s 2 (0; 1). Jeśli G(s) > s,
G(s) s
^!
1 s
P
oraz
p
m
^
G(s) s
1 s
=) N
20
G(s)(1 G(s))
0;
.
(1 s)2
Niech
Pj =
1
X
i j,
bj
j=0
gdzie
j
i.i.d. Niech
1
X
B :=
j jbj j < 1
j=0
oraz gestość Pj jest ograniczona przez K .
Oznaczmy
s
2
2
ln
.
:= (1 + 4KB k 0k1)
m
Po ózmy
Gm(t) t
~ = max
t
1 t
Wtedy (Furmańczyk (2009))
P (~
)
1
a stad
P (1
1
21
~)
1
.
Wyniki Wu (2009)
Wu (2009) wprowadzi nastepujacy
wariant modelu hierarchicznego
(Hi) jest 0-1 procesem stacjonarnym oraz
p-wartości (Pi) sa warunkowo niezalezne pod
warunkiem (Hi).
Wtedy tez
P (Pi
P (Pi
x j Hi = 0) = x,
x j Hi = 1) = F (x) dla x 2 [0; 1].
Rozwazmy nastepujace warunki regularności na proces (Hi)
m
X
Hi
m
i=1
1
p
m
m
X
2
Hi
m
i=1
dla pewnego
p
2
!
< 1.
22
= O( m)
=) N (0;
2
)
Oznaczmy
BH
:= sup 0
t
oraz
t
1:
Gm(t)
t
t 1:
.
0 := sup 0
G(t)
Wtedy przy pewnych warunkach regularności
p
m( m( BH )
(1
)) =) N (0; 21)
p
m(
m(
BH )
dla pewnych
^
m (T ) =
2
1
+
1 F ( 0)
) =) N (0;
1 G( 0)
< 1, 22 < 1. oraz
^
1
23
+ OP (m
1=2
2
2)
).
Przyk ady procesów (Hi)
a) uciety proces liniowy
Hi = 1 fXi tg dla ustalonego t 2 R
gdzie
Xi =
1
X
bj
i j
j= 1
oraz ( j ) i.i.d. o ograniczonej gestości,
E
d
j
< 1 dla pewnego d > 0 oraz
1
X
jbj jmin(1;d)=2 < 1.
j= 1
24
b) model Isinga (pole losowe w A Z2)
niech
Ls = 2Hs 1
Ls = 1 (lub 1) gdy Hs = 0 (lub 1) oraz
sasiedztwo punktu s = (j; k)
Ns = f(j 0; k 0) : jj
j 0j + jk
k 0j = 1g
LA = fLa; a 2 Ag, wtedy rozk ad Hi
spe nia warunki regularności
P (Ls = lsjLZ2ns = lZ2ns) = P (Ls = lsjLNs = lNs )
P
exp( ls t2Ns lt)
P
P
=
l ) + exp(
exp(
t2Ns lt )
t2N
ps t
dla 0
log(1 + 2)=2.
25
Literatura
[1] Y. Benjamini and Y. Hochberg, Controlling
the false discovery rate: a practical and
powerful approach to multiple testing, J.
Roy. Statist. Soc. Ser. B 57 (1995),
289-300.
[2] Y. Benjamini and D. Yekutieli, The control
of the false discovery rate in multiple
testing under dependency, Ann. Stat. 29
(2001), 1165-1188.
[3] B. Efron, R. Tibshirani, J. Storey and
V. Tusher, Empirical Bayes analysis of
microarray experiment, Journ. Amer. Stat.
Assoc. 96 (2001), 1151-1160.
[4] A. Farcomeni, Some results on the control
of the false discovery rate under dependence, Scan. Journ. Stat. 34 (2007),
275-297.
[5] K. Furmańczyk, On the control of the false
discovery rate under dependence, preprint
(2009).
26
[6] C. Genovese and L. Wasserman, A stochastic process approach to false discovery
control, Ann. Statist. 32 (2004), 10351061.
[7] J. Storey, A direct approach to false
discovery rates, J. R. Stat. Soc. Ser. B Stat.
Meth. 64 (2002), 479-498.
[8] W. B. Wu, On false discovery control
under dependence, Ann. Stat. 36 (2009),
364-380.
27

Podobne dokumenty