Adaptacyjne wersje gładkiego testu zgodności z rozkładem

Transkrypt

Adaptacyjne wersje gładkiego testu zgodności z rozkładem
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Adaptacyjne wersje gładkiego testu zgodności z
rozkładem logistycznym
Alicja Janic
Instytut Matematyki i Informatyki, Politechnika Wrocławska
5 grudnia 2009
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Problem testowania
Niech X = (X1 , ..., Xn ) będzie próbą z ciagłego rozkładu o
gęstości g(x). Testujemy
x − β1
1
i
H0 : g(x) ∈ {f (x; β), β ∈ B}, gdzie f (x; β) = f
β2
β2
f (x) =
exp(−x)
.
(1 + exp(−x))2
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Klasa gładkich alternatyw
gk (x; η) = ck (θ) exp
k
nX
o
θj φj (F (x; β)) f (x; β),
(1)
j=1
Rk ,
gdzie θ ∈
η = (θ, β), ck (θ)- stała normująca, φ0 ≡ 1, φ1 , φ2 , ...
ortonormalny układ wielomianów Legendre’a na [0, 1],
F - dystrybuanta rozkładu logistycznego.
W rodzinie (1) hipoteza H0 jest równoważna hipotezie
H0∗ (k) : η = η0 = (0, β).
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Janic i Ledwina (2009) Journal of Statistical Theory and
Practice.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Wprowadzamy oznaczenia:
`(x; η) = log gk (x; η);
∂
`˙η (x; η) =
`(x; η) = `˙θ (x; η), `˙β (x; η) .
∂η
Dla rodziny wykładniczej (1) uzyskujemy:
`˙θ (x; η0 ) = `˙θ (x; β) = φ1 (F (x; β)), ..., φk (F (x; β))
oraz
∂
log f (x; β).
`˙β (x; η0 ) = `˙β (x; β) =
∂β
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Dla rozkładu logistycznego:
1
1
`˙β1 (x; β) = √ `˙θ1 (x; β) = √ φ1 (F (x; β)).
3
3
Zdefiniujmy efektywny wektor wynikowy:
`∗ (x; β) = `˙θ (x; β) − `˙β (x; β)Iββ −1 Iβθ .
Wprowadzamy teraz
I∗ = Eη0 [`∗ (X; β)]T [`∗ (X; β)]
i otrzymujemy
I∗−1 = I + Iθβ [Iββ − Iβθ Iθβ ]−1 Iβθ .
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Dla rozkładu logistycznego:
1
β22
Iββ − Iβθ Iθβ =
(
mj =
0
0
3+π 2
9
0,
√
2 2j+1
(j−1)(j+2) ,
−
0
Pk
!
2
j=1 mj
, gdzie
j parzyste,
j nieparzyste.
Wyrzucamy z rodziny wykładniczej (1) wielomian φ1 i
k-wymiarowa rodzina ma postać:
gk∗ (x; η) = ck (θ) exp
k+1
nX
o
θj φj (F (x; β)) f (x; β).
(2)
j=2
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Efektywna statystyka wynikowa
Niech β̃ jest niezmienniczym estymatorem β. Efektywna statystyka
wynikowa dla H0∗ (k) w rodzinie (2) dana jest wzorem
n
n
i
iT
h 1 X
h 1 X
`∗ (Xi ; β̃) I∗−1 √
`∗ (Xi ; β̃)
Wk (β̃) = √
n
n
i=1
k
X
√
=
{ nUj (β̃)}2 ,
i=1
gdzie Uj (β) =
j=1
(3)
n
h1 X
n
i
`∗ (Xi ; β) (I∗−1 )1/2 .
i=1
Efektywne statystyki wynikowe zostały wprowadzone przez
Neymana (1954, 1959) a testy oparte na tych statystykach nazwane
testami C(α) (Neyman, 1959).
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Zastosowane reguły wyboru:
Janic i Ledwina (2009)
n
S1 = S1(β̃) = min k, k = 1, ..., d(n) : Wk (β̃) − k log n ≥
o
Wj (β̃) − j log n, j = 1, ..., d(n) .
(4)
W przypadky β̃ = β̂ reguła S1 została przebadana przez
Kallenberga i Ledwine (1997). Reguła S1 z estymatorami
największej wiarygodności została zaproponowana również przez
Aerts, Claeskens i Hart (2000).
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Inglot i Ledwina (2006)
Definiujemy nową karę
Π(j, n) = j log n · 1A0n + 2j · 1An , gdzie
p
√
An = { max | nUj (β̃)| > c log n}
(5)
1≤j≤d(n)
i nową regułę
n
T 1 = T 1(β̃) = min k, k = 1, ..., d(n) : Wk (β̃) − Π(k, n) ≥
o
Wj (β̃) − Π(j, n), j = 1, ..., d(n) .
(6)
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Jak wyznaczamy c? (Inglot i Janic, 2009)
Barierę c wybieramy tak, aby P0 (An ) = δ. Przy H0
√
√
( nU1 (β̃), ..., nUd(n) (β̃)) ≈ (Z1 , ...Zd(n) ).
Zatem, wykorzystyjąc powyższą aproksymację, wyznaczamy c z
równania
p
δ
Φ( c log n) = 1 −
.
2d(n)
Przyjmijmy δ = 0.025, w symulacjach d(n) = 12. Zatem dla
n = 50 dostajemy c = 2.394, a dla n = 100 dostajemy c = 2.033.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Problem testowania
Klasa gładkich alternatyw
Efektywna statystyka wynikowa
Reguły wyboru
Jak wyznaczamy barierę c?
Adaptacyjne statystyki testowe
Estymatory:
Stosujemy estymatory uzyskane metodą momentów
√3 β̃[m] = X̄,
S .
π
Statystyki:
W S1 = WS1(β̃[m]) (β̃[m]);
W T 1 = WT 1(β̃[m]) (β̃[m]).
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Rozkład reguły S1 i statystyki WS1
Rozkład reguły T 1 i statystyki WT 1
Twierdzenie 1
Janic i Ledwina (2009)
Przy pewnych założeniach o szybkości zbieżności d(n)
P0 (S1 > 1) → 0
i w konsekwencji
D
WS1 → χ21 przy H0 .
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Rozkład reguły S1 i statystyki WS1
Rozkład reguły T 1 i statystyki WT 1
Twierdzenie 2
Przy pewnych założeniach o szybkości zbieżności d(n) i dla c ≥ 2
P0 (An ) → 0 dla n → ∞.
Zatem
P0 (T 1 = S1) → 1 gdy n → ∞
i w konsekwencji
D
P0 (T 1 > 1) → 0 oraz WT 1 → χ21 przy H0 .
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Tabela 1. Wartości krytyczne W S1 i W T 1,
d(n) = 12, α = 0.05, 30 000 MC.
n = 50
n = 100
n = 500
W S1
WT1
5.8831
5.3429
4.2810
7.3262 (c = 2.4)
7.0440 (c = 2.0)
4.5561 (c = 2.0)
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
critical value
13,0
12,0
n=50
11,0
n=100
10,0
9,0
8,0
7,0
6,0
5,0
1.8
2.0
2.2
2.4
2.6
2.8
3.0
3.2
3.4
…
c
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Tabela 2.
Opis przykładowych alternatyw użytych w symulacjach.
Symbol
Beta(p, q)
LC(p, m)
LG(p, q)
LN(g, d)
SB(g, d)
SC(p, d)
SU(g, d)
TU(λ1 , λ2 )
Gęstość/Definicja
xp−1 (1 − x)g−1 {B(p, q)}−1 , x ∈ (0, 1)
pϕ(x − m) + (1 − p)ϕ(x), x ∈ IR
q −p {Γ(p)}−1 exp{px − q −1 exp(x)}, x ∈ IR
X = exp{d−1 (Z − g)}
X = exp{d−1(Z − g)}[1 + exp{d−1 (Z − g)}]−1
d−1 pϕ d−1 x + (1 − p)ϕ(x), x ∈ IR
X = sinh{d−1 (Z − g)}
X = [U λ1 − 1]/λ1 − [(1 − U )λ2 − 1]/λ2
pj (x; ρ) = g12 (x; η), gdzie η = (θ, β1 , β2 ) = (ρej , 0, 1);
hj (x, ρ) = f (x)(1 + ρ cos(πjF (x)));
e1 , ..., e12 jest standardową bazą w przestrzeni Euklidesowej IR12 .
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Rysunek 2. n = 100, d(n) = 12, α = 0.05, 10000 MC.
100
p2(x;0.6)
p8(x;0.4)
power
80
60
40
20
0
0
1.0
1.5
1.8
2.0
2.2
2.4
2.6
2.8
3.0
…
2.4
2.6
2.8
3.0
…
c
100
h2(x;0.6)
h8(x;0.6)
power
80
60
40
20
0
0
1.0
1.5
1.8
2.0
2.2
c
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Rysunek 3. n = 50, d(n) = 12, α = 0.05, 10000 MC.
100
p2(x;0.8)
p8(x;0.8)
power
80
60
40
20
0
0
1.0
1.5
1.8
2.0
2.2
c
2.4
2.6
2.8
3.0
…
100
h2(x;0.8)
h8(x;0.8)
power
80
60
40
20
0
0
1.0
1.5
1.8
2.0
Alicja Janic
2.2
c
2.4
2.6
2.8
3.0
…
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Porównujemy empiryczne moce testów opartych na statystykach:
CvM (statystyka - Craméra - von Misesa) - test typu EDF
(Stephens, 1992);
AN - test typu χ2 (Aguirre i Nikulin, 1994);
W S1 (Janic i Ledwina, 2009);
W T 1.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Rysunek 4. n = 100, d(n) = 12, α = 0.05, 10000 MC.
100
pj(x;0.4)
power
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
j
hj(x;0.6)
100
CvM
80
AN
power
WS1
60
WT1
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
j
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Rysunek 5. Alternatywy symetryczne. n = 50, d(n) = 12.
100
Beta(p,p)
80
80
60
60
power
power
100
40
LC(0.5,m)
40
20
20
0
0
0.5
1.0
1.5
2.0
2.5
1.0
3.0
1.5
2.0
2.5
m
p
100
TU(λ,λ)
80
80
60
60
power
power
100
40
20
0
0
1.0
1.5
2.0
2.5
3.0
λ
3.5
4.0
TU(λ,λ)
CvM
40
20
0.5
3.0
AN
WS1
WT1
5.5
6.0
6.5
7.0
7.5
8.0
λ
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Wartości krytyczne
Alternatywy
Moce W T 1 w zależności od c
Symulacje mocy
Rysunek 6. Alternatywy skośne. n = 50, d(n) = 12.
TU(-λ,5λ)
100
100
LN(0,d)
80
60
60
40
20
WS1
40
20
0
0.02
0
0.05
0.08
0.11
λ
0.14
0.17
0.20
1
2
3
4
5
6
1.5
2.0
2.5
d
SU(1,d)
100
100
80
80
60
60
power
power
AN
WT1
power
power
CvM
80
40
SB(g,1)
40
20
20
0
0
0.8
1.0
1.2
1.4
1.6
1.8
2.0
0
0.5
1.0
g
d
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Aerts, M., Claeskens, G., Hart, J.D., 2000. Testing lack of fit in
multiple regression. Biometrika 87, 405–424.
Aguirre, N., Nikulin, M., 1994. Chi-squared goodness-of-fit test for
the family of logistic distribution. Kybernetika 30, 214–222.
D’Agostino, R.B., Stephens, M.A., 1986. Goodness–of–Fit
Techniques. Dekker, New York.
Inglot, T., Kallenberg, W.C.M., Ledwina, T., 1997. Data driven
smooth tests for composite hypotheses. Ann. Statist. 25, 1222–1250.
Inglot, T., Ledwina, T., 2006. Towards data driven selection of a
penalty function for data driven Neyman tests. Linear Algebra and
its Appl. 417, 124–133.
Inglot, T., Janic, A., 2009. How powerful are data driven score tests
for uniformity. Applicationes Mathematicae 36, 375–395.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Jakubiec, A., 1998. Power simulations of goodness-of-fit tests for
logistic distribution. Diploma thesis (in Polish), Wrocław University
of Technology.
Janic, A., Ledwina, T., 2009. Data-driven smooth tests for a
location-scale family revisited. J. Statist. Theory and Practice 3,
645-663.
Kallenberg, W.C.M., Ledwina, T., 1997. Data driven smooth tests
for composite hypotheses: Comparison of powers. J. Statist.
Comput. Simul. 59, 101–121.
LaRiccia, V.L., 1991. Smooth goodness-of-fit tests: a quantile
function approach. J. Amer. Statist. Assoc. 86, 427–431.
Neyman, J., 1954. Sur une famille de tests asymptotiques des
hypothèses statistiques composées. Trabajos de Estadistica 5,
161-168.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo
Efektywna statystyka wynikowa
Rezultaty teoretyczne
Symulacje
Bibliografia
Neyman, J., 1959. Optimal asymptotic tests of composite statistical
hypotheses. In Probability and Statistics, (ed. U. Grenander), Harald
Cramér Volume, 212–234, Wiley, New York.
Rayner, J.C.W., Best, D.J., 1989. Smooth Tests of Goodness of Fit.
Oxford University Press, New York.
Stephens, M.A., 1992. Tests of fit for logistic distribution based on
EDF. Biometrika 66, 591–595.
Thomas, D.R., Pierce, D.A., 1979. Neyman’s smooth
goodness–of–fit test when the hypothesis is composite. J. Amer.
Statist. Assoc. 74, 441–445.
Alicja Janic
Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo