Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez

Transkrypt

Asymptotyczna kontrola
FDR dla zaleznych
testowań wielu hipotez
statystycznych
Konrad Furmańczyk
Wydzia Zastosowań Informatyki i
Matematyki SGGW
1
PLAN REFERATU
Sformu owanie zagadnienia testowania
wielu hipotez;
Uogólnione b edy I rodzaju dla testowania
wielu hipotez: F W ER, F DP , F DR;
model hierarchiczny dla testowania wielu
hipotez;
uogólnienia modelu hierarchicznego dla
zaleznych testowań;
2
Klasyczne sformu owanie zagadnienia
Dane X sa generowane z pewnego
rozk adu prawdopodobieństwa P 2 .
Interesuja nas hipotezy dotyczace
rozk adu P
Hi : P 2 ! i
dla i = 1, 2, ... , m, gdzie liczba testowanych
hipotez m jest bardzo duza (tysiace, miliony
hipotez w analizie danych mikromacierzowych lub analizie obrazów z funkcjonalnego rezonansu magnetycznego)
Problem: na podstawie statystyk
testowych: T1, T2, ... , Tm (lub odpowiednich
p-wartości) podjać decyzje, które z hipotez Hi
sa prawdziwe, a które fa szywe.
W ten sposób otrzymujemy 2m mozliwych decyzji do podjecia.
3
Uogólnienia b edu I rodzaju
Niech R oznacza liczbe odrzuconych
hipotez Hi w wyniku zastosowania pewnej
procedury jednoczesnego testowania.
Przez V oznaczmy (nieobserwowana
zmienna) liczbe odrzuceń prawdziwych
hipotez Hi,
Family-wise error rate (F W ER)
F W ER = P (V
1)
Procedura testowania konrtoluje F W ER
na poziomie gdy
P (V
1)
dla wszystkich P 2
4
False discovery proportion (F DP )
V =R gdy R > 0
.
F DP =
0 gdy R = 0
False discovery rate (F DR)
F DR = E (F DP ) .
Konstruuje sie procedury, które kontroluja uogólniony b ad I rodzaju (F W ER,
F DR) , tzn. takie aby b ed ten nie przekracza
pewnego 2 (0; 1).
W przypadku miary F DP szukamy
takiej procedury aby
P (F DP > )
dla wszystkich P 2
dla dowolnych , 2 (0; 1).
5
Niech Pi oznacza p-wartość dla hipotezy Hi
dla i = 1; :::; m oraz P(1) P(2) ::: P(m)
beda uporzadkowanymi p-wartościami. Dla
ustalonego poziomu kontroli oznaczmy
M := max i 2 f0; 1; :::; m + 1g : P(i)
i=m ,
gdzie P(0) := 0, P(m+1) := 1 oraz TBH :=
P(M ).
Procedura Benjamini i Hochberga (BH)
odrzuca wszystkie hipotezy Hi dla których
Pi TBH . Gdy M = 0 to wszystkie hipotezy
sa akceptowane.
6
W przypadku niezalezności statystyk
testowych T1, ::: , Tm procedura BH
kontroluje F DR na poziomie .
Dok adniej Benjamini i Hochberg (1995)
otrzymali
F DR m0 =m
,
gdzie m0 jest liczba prawdziwych hipotez
wśród hipotez Hi dla i = 1; :::; m:
Benjamini i Yekutieli (2001) pokazali, ze
procedura BH kontroluje F DR bez za ozenia o niezalezności statystyk testowych,
jeśli zamiast weźmiemy
m
X
1
=
.
j
j=1
7
Model hierarchiczny
Efron, Tibshirani, Storey i Tusher (2001)
wprowadzili nastepujacy model testowania
wielu hipotez
Niech Hi = 0 (lub 1) gdy Hi jest
prawdziwa (fa szywa). Zak adamy, ze (Hi)
sa niezaleznymi zmiennymi losowymi o
wspólnym rozk adzie Bernoulliego
P (Hi = 0) = 1
, P (Hi = 1) =
oraz (Pi; Hi) sa i.i.d. takie, ze
P (Pi
x j Hi = 0) = x,
P (Pi
x j Hi = 1) = F (x) dla x 2 [0; 1],
gdzie F wspólna dystrybuanta p-wartości
Pi gdy hipoteza Hi jest fa szywa.
8
Wtedy dystrybuanta brzegowa G zmiennej losowej Pi jest postaci
G(t) = (1
)t + F (t) dla t 2 [0; 1].
False nondiscovery proportion określamy
jako
N=(m R) gdy R < m
,
0
gdy R = m
gdzie N - liczba nieodrzuconych fa szywych hipotez Hi.
F NP =
9
Określmy nastepujace procesy stochastyczne (odpowiedniki F DR i F N R)
Pm
tg (1 Hi)
i=1 1 fPi
,
m (t) = Pm
tg + 1 P(1) > t
i=1 1 fPi
Pm
i=1 1 fPi > tg Hi
m (t) = Pm
t
i=1 1 fPi > tg + 1 P(m)
dla t 2 [0; 1].
10
Storey (2002) pokaza , ze przy za ozeniu
modelu hierarchicznego mamy dla t > 0,
E(
m (t))
E(
= Q(t) (1
m (t))
(1
~ (1
= Q(t)
gdzie
Q(t) = (1
~ = 1
Q(t)
1
11
G(t))m) ,
G(t)m) ,
t
,
)
G(t)
F (t)
.
G(t)
Zak adamy, ze
jest znane.
Oznaczmy TP I := sup f0
gdzie
Qm(t) = (1
)
t
t
,
Gm(t)
m
1 X
1 fPi
Gm(t) =
m i=1
12
tg .
1 : Qm(t)
g,
Zauwazmy, ze
F DR(t) := E ( m(t)) Qm(t),
wiec
F DR(TP I )
.
Dok adniej Genovese i Wasserman (2004)
pokazali, ze w modelu hierarchicznym
E(
m (TP I ))
=
+ o(1) dla m ! 1.
13
Zak adamy, ze
jest nieznane.
Genovese i Wasserman (2004) pokazali,
ze nastepujaca procedura testowania kontroluje asymptotycznie F DR.
Próg odrzucenia hipotez Hi określmy
jako
n
o
^ m(t)
T^ = sup 0 t 1 : Q
,
gdzie
t
^)
.
Gm(t)
Zak adamy dodatkowo, ze G jest wkles a
oraz estymator ^ jest taki, ze
^ !P 0 < .
Wtedy
E m(T^ ) = + o(1) dla m ! 1.
^ m(t) = (1
Q
14
Farcomeni (2007) rozwazy uogólnienia
modelu hierarchicznego. Dopuści pewne
modele zalezności ciagu p-wartości (Pi).
Np. ciag (Pi) jest stacjonarnym ciagiem
-mieszajacym takim, ze
1
X
(k) < 1.
Wtedy
E(
k=1
m (TP I ))
=
+ o(1) dla m ! 1.
15
Oznaczmy
t0 = Q 1( ) := sup f0
gdzie
t
1 : Q(t)
g,
t
.
G(t)
Niech Qi dla i = 1; :::; m0 odpowiadaja
p-wartościom dla prawdziwych hipotez Hi
oraz Ri dla i = 1; :::; m m0 odpowiadaja
p-wartościom dla fa szywych hipotez.
Q(t) = (1
16
)
Za ózmy, ze dla m ! 1
a)
m0 P
! 1
m
b1)
m
0
1 X
1 fQi
m0 i=1
b2)
mX
m0
1
1 fRi
m m0
i=1
c) G jest ciag a.
17
t0g !P t0
t0g !P F (t0)
Mozna pokazać (Furmańczyk(2009)), ze
przy warunkach a), b1), b2), c) (gdy jest
znane)
E(
m (TP I ))
=
1
E ( m(TP I )) =
1
Gdy
E
E
+ o(1) dla m ! 1
F (t0)
+o(1) dla m ! 1.
G(t0)
jest nieznane oraz ^ !P
^
m (T )
=
1
^
m (T ) =
1
to
+ o(1) dla m ! 1
F (t0)
+o(1) dla m ! 1.
G(t0)
18
Warunek b1) otrzymujemy np. gdy
k
istnieje taki ciag km0 ! 1, mm00 !P 0 gdy
m0 !P 1 oraz
sup
ji jj km0
jP (Qi
t0; Qj
t0)
P (Qi
gdy istnieje taki ciag km ! 1,
gdy m ! 1 oraz
t0; Rj
ji jj km
t0)
km
m
P (Ri
!0
t0)P (Rj
! 0.
19
t0)j
! 0.
Podobnie otrzymujemy b2).
sup jP (Ri
t0)P (Qj
t0)j
Estymacja
Storey (2002) zaproponowa estymator
Gm(s) s
^=
1 s
+
to
dla pewnego s 2 (0; 1). Jeśli G(s) > s,
G(s) s
^!
1 s
P
oraz
p
m
^
G(s) s
1 s
=) N
20
G(s)(1 G(s))
0;
.
(1 s)2
Niech
Pj =
1
X
i j,
bj
j=0
gdzie
j
i.i.d. Niech
1
X
B :=
j jbj j < 1
j=0
oraz gestość Pj jest ograniczona przez K .
Oznaczmy
s
2
2
ln
.
:= (1 + 4KB k 0k1)
m
Po ózmy
Gm(t) t
~ = max
t
1 t
Wtedy (Furmańczyk (2009))
P (~
)
1
a stad
P (1
1
21
~)
1
.
Wyniki Wu (2009)
Wu (2009) wprowadzi nastepujacy
wariant modelu hierarchicznego
(Hi) jest 0-1 procesem stacjonarnym oraz
p-wartości (Pi) sa warunkowo niezalezne pod
warunkiem (Hi).
Wtedy tez
P (Pi
P (Pi
x j Hi = 0) = x,
x j Hi = 1) = F (x) dla x 2 [0; 1].
Rozwazmy nastepujace warunki regularności na proces (Hi)
m
X
Hi
m
i=1
1
p
m
m
X
2
Hi
m
i=1
dla pewnego
p
2
!
< 1.
22
= O( m)
=) N (0;
2
)
Oznaczmy
BH
:= sup 0
t
oraz
t
1:
Gm(t)
t
t 1:
.
0 := sup 0
G(t)
Wtedy przy pewnych warunkach regularności
p
m( m( BH )
(1
)) =) N (0; 21)
p
m(
m(
BH )
dla pewnych
^
m (T ) =
2
1
+
1 F ( 0)
) =) N (0;
1 G( 0)
< 1, 22 < 1. oraz
^
1
23
+ OP (m
1=2
2
2)
).
Przyk ady procesów (Hi)
a) uciety proces liniowy
Hi = 1 fXi tg dla ustalonego t 2 R
gdzie
Xi =
1
X
bj
i j
j= 1
oraz ( j ) i.i.d. o ograniczonej gestości,
E
d
j
< 1 dla pewnego d > 0 oraz
1
X
jbj jmin(1;d)=2 < 1.
j= 1
24
b) model Isinga (pole losowe w A Z2)
niech
Ls = 2Hs 1
Ls = 1 (lub 1) gdy Hs = 0 (lub 1) oraz
sasiedztwo punktu s = (j; k)
Ns = f(j 0; k 0) : jj
j 0j + jk
k 0j = 1g
LA = fLa; a 2 Ag, wtedy rozk ad Hi
spe nia warunki regularności
P (Ls = lsjLZ2ns = lZ2ns) = P (Ls = lsjLNs = lNs )
P
exp( ls t2Ns lt)
P
P
=
l ) + exp(
exp(
t2Ns lt )
t2N
ps t
dla 0
log(1 + 2)=2.
25
Literatura
[1] Y. Benjamini and Y. Hochberg, Controlling
the false discovery rate: a practical and
powerful approach to multiple testing, J.
Roy. Statist. Soc. Ser. B 57 (1995),
289-300.
[2] Y. Benjamini and D. Yekutieli, The control
of the false discovery rate in multiple
testing under dependency, Ann. Stat. 29
(2001), 1165-1188.
[3] B. Efron, R. Tibshirani, J. Storey and
V. Tusher, Empirical Bayes analysis of
microarray experiment, Journ. Amer. Stat.
Assoc. 96 (2001), 1151-1160.
[4] A. Farcomeni, Some results on the control
of the false discovery rate under dependence, Scan. Journ. Stat. 34 (2007),
275-297.
[5] K. Furmańczyk, On the control of the false
discovery rate under dependence, preprint
(2009).
26
[6] C. Genovese and L. Wasserman, A stochastic process approach to false discovery
control, Ann. Statist. 32 (2004), 10351061.
[7] J. Storey, A direct approach to false
discovery rates, J. R. Stat. Soc. Ser. B Stat.
Meth. 64 (2002), 479-498.
[8] W. B. Wu, On false discovery control
under dependence, Ann. Stat. 36 (2009),
364-380.
27

Asymptotyczna kontrola FDR dla zależnych testowań wielu hipotez

Transkrypt

Podobne dokumenty

Zagadnienia wymagane na zaliczenie przedmiotu

AND Computers -DVD-R VERBATIM AZO 4.7GB 16X Matt Silver

AND Computers -GOODRAM DDR 2048MB PC400 DUAL 2 x 1024

STUDIUM PRZYPADKU z PSYCHOLOGICZNEJ DIAGNOZY

Slajdy do wykładu 1

AND Computers -TITANUM DVD-R 4,7 GB x16