Adaptacyjne wersje gładkiego testu zgodności z rozkładem
Transkrypt
Adaptacyjne wersje gładkiego testu zgodności z rozkładem
Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Adaptacyjne wersje gładkiego testu zgodności z rozkładem logistycznym Alicja Janic Instytut Matematyki i Informatyki, Politechnika Wrocławska 5 grudnia 2009 Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Problem testowania Niech X = (X1 , ..., Xn ) będzie próbą z ciagłego rozkładu o gęstości g(x). Testujemy x − β1 1 i H0 : g(x) ∈ {f (x; β), β ∈ B}, gdzie f (x; β) = f β2 β2 f (x) = exp(−x) . (1 + exp(−x))2 Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Klasa gładkich alternatyw gk (x; η) = ck (θ) exp k nX o θj φj (F (x; β)) f (x; β), (1) j=1 Rk , gdzie θ ∈ η = (θ, β), ck (θ)- stała normująca, φ0 ≡ 1, φ1 , φ2 , ... ortonormalny układ wielomianów Legendre’a na [0, 1], F - dystrybuanta rozkładu logistycznego. W rodzinie (1) hipoteza H0 jest równoważna hipotezie H0∗ (k) : η = η0 = (0, β). Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Janic i Ledwina (2009) Journal of Statistical Theory and Practice. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Wprowadzamy oznaczenia: `(x; η) = log gk (x; η); ∂ `˙η (x; η) = `(x; η) = `˙θ (x; η), `˙β (x; η) . ∂η Dla rodziny wykładniczej (1) uzyskujemy: `˙θ (x; η0 ) = `˙θ (x; β) = φ1 (F (x; β)), ..., φk (F (x; β)) oraz ∂ log f (x; β). `˙β (x; η0 ) = `˙β (x; β) = ∂β Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Dla rozkładu logistycznego: 1 1 `˙β1 (x; β) = √ `˙θ1 (x; β) = √ φ1 (F (x; β)). 3 3 Zdefiniujmy efektywny wektor wynikowy: `∗ (x; β) = `˙θ (x; β) − `˙β (x; β)Iββ −1 Iβθ . Wprowadzamy teraz I∗ = Eη0 [`∗ (X; β)]T [`∗ (X; β)] i otrzymujemy I∗−1 = I + Iθβ [Iββ − Iβθ Iθβ ]−1 Iβθ . Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Dla rozkładu logistycznego: 1 β22 Iββ − Iβθ Iθβ = ( mj = 0 0 3+π 2 9 0, √ 2 2j+1 (j−1)(j+2) , − 0 Pk ! 2 j=1 mj , gdzie j parzyste, j nieparzyste. Wyrzucamy z rodziny wykładniczej (1) wielomian φ1 i k-wymiarowa rodzina ma postać: gk∗ (x; η) = ck (θ) exp k+1 nX o θj φj (F (x; β)) f (x; β). (2) j=2 Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Efektywna statystyka wynikowa Niech β̃ jest niezmienniczym estymatorem β. Efektywna statystyka wynikowa dla H0∗ (k) w rodzinie (2) dana jest wzorem n n i iT h 1 X h 1 X `∗ (Xi ; β̃) I∗−1 √ `∗ (Xi ; β̃) Wk (β̃) = √ n n i=1 k X √ = { nUj (β̃)}2 , i=1 gdzie Uj (β) = j=1 (3) n h1 X n i `∗ (Xi ; β) (I∗−1 )1/2 . i=1 Efektywne statystyki wynikowe zostały wprowadzone przez Neymana (1954, 1959) a testy oparte na tych statystykach nazwane testami C(α) (Neyman, 1959). Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Zastosowane reguły wyboru: Janic i Ledwina (2009) n S1 = S1(β̃) = min k, k = 1, ..., d(n) : Wk (β̃) − k log n ≥ o Wj (β̃) − j log n, j = 1, ..., d(n) . (4) W przypadky β̃ = β̂ reguła S1 została przebadana przez Kallenberga i Ledwine (1997). Reguła S1 z estymatorami największej wiarygodności została zaproponowana również przez Aerts, Claeskens i Hart (2000). Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Inglot i Ledwina (2006) Definiujemy nową karę Π(j, n) = j log n · 1A0n + 2j · 1An , gdzie p √ An = { max | nUj (β̃)| > c log n} (5) 1≤j≤d(n) i nową regułę n T 1 = T 1(β̃) = min k, k = 1, ..., d(n) : Wk (β̃) − Π(k, n) ≥ o Wj (β̃) − Π(j, n), j = 1, ..., d(n) . (6) Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Jak wyznaczamy c? (Inglot i Janic, 2009) Barierę c wybieramy tak, aby P0 (An ) = δ. Przy H0 √ √ ( nU1 (β̃), ..., nUd(n) (β̃)) ≈ (Z1 , ...Zd(n) ). Zatem, wykorzystyjąc powyższą aproksymację, wyznaczamy c z równania p δ Φ( c log n) = 1 − . 2d(n) Przyjmijmy δ = 0.025, w symulacjach d(n) = 12. Zatem dla n = 50 dostajemy c = 2.394, a dla n = 100 dostajemy c = 2.033. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Problem testowania Klasa gładkich alternatyw Efektywna statystyka wynikowa Reguły wyboru Jak wyznaczamy barierę c? Adaptacyjne statystyki testowe Estymatory: Stosujemy estymatory uzyskane metodą momentów √3 β̃[m] = X̄, S . π Statystyki: W S1 = WS1(β̃[m]) (β̃[m]); W T 1 = WT 1(β̃[m]) (β̃[m]). Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Rozkład reguły S1 i statystyki WS1 Rozkład reguły T 1 i statystyki WT 1 Twierdzenie 1 Janic i Ledwina (2009) Przy pewnych założeniach o szybkości zbieżności d(n) P0 (S1 > 1) → 0 i w konsekwencji D WS1 → χ21 przy H0 . Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Rozkład reguły S1 i statystyki WS1 Rozkład reguły T 1 i statystyki WT 1 Twierdzenie 2 Przy pewnych założeniach o szybkości zbieżności d(n) i dla c ≥ 2 P0 (An ) → 0 dla n → ∞. Zatem P0 (T 1 = S1) → 1 gdy n → ∞ i w konsekwencji D P0 (T 1 > 1) → 0 oraz WT 1 → χ21 przy H0 . Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Tabela 1. Wartości krytyczne W S1 i W T 1, d(n) = 12, α = 0.05, 30 000 MC. n = 50 n = 100 n = 500 W S1 WT1 5.8831 5.3429 4.2810 7.3262 (c = 2.4) 7.0440 (c = 2.0) 4.5561 (c = 2.0) Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy critical value 13,0 12,0 n=50 11,0 n=100 10,0 9,0 8,0 7,0 6,0 5,0 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 … c Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Tabela 2. Opis przykładowych alternatyw użytych w symulacjach. Symbol Beta(p, q) LC(p, m) LG(p, q) LN(g, d) SB(g, d) SC(p, d) SU(g, d) TU(λ1 , λ2 ) Gęstość/Definicja xp−1 (1 − x)g−1 {B(p, q)}−1 , x ∈ (0, 1) pϕ(x − m) + (1 − p)ϕ(x), x ∈ IR q −p {Γ(p)}−1 exp{px − q −1 exp(x)}, x ∈ IR X = exp{d−1 (Z − g)} X = exp{d−1(Z − g)}[1 + exp{d−1 (Z − g)}]−1 d−1 pϕ d−1 x + (1 − p)ϕ(x), x ∈ IR X = sinh{d−1 (Z − g)} X = [U λ1 − 1]/λ1 − [(1 − U )λ2 − 1]/λ2 pj (x; ρ) = g12 (x; η), gdzie η = (θ, β1 , β2 ) = (ρej , 0, 1); hj (x, ρ) = f (x)(1 + ρ cos(πjF (x))); e1 , ..., e12 jest standardową bazą w przestrzeni Euklidesowej IR12 . Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Rysunek 2. n = 100, d(n) = 12, α = 0.05, 10000 MC. 100 p2(x;0.6) p8(x;0.4) power 80 60 40 20 0 0 1.0 1.5 1.8 2.0 2.2 2.4 2.6 2.8 3.0 … 2.4 2.6 2.8 3.0 … c 100 h2(x;0.6) h8(x;0.6) power 80 60 40 20 0 0 1.0 1.5 1.8 2.0 2.2 c Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Rysunek 3. n = 50, d(n) = 12, α = 0.05, 10000 MC. 100 p2(x;0.8) p8(x;0.8) power 80 60 40 20 0 0 1.0 1.5 1.8 2.0 2.2 c 2.4 2.6 2.8 3.0 … 100 h2(x;0.8) h8(x;0.8) power 80 60 40 20 0 0 1.0 1.5 1.8 2.0 Alicja Janic 2.2 c 2.4 2.6 2.8 3.0 … Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Porównujemy empiryczne moce testów opartych na statystykach: CvM (statystyka - Craméra - von Misesa) - test typu EDF (Stephens, 1992); AN - test typu χ2 (Aguirre i Nikulin, 1994); W S1 (Janic i Ledwina, 2009); W T 1. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Rysunek 4. n = 100, d(n) = 12, α = 0.05, 10000 MC. 100 pj(x;0.4) power 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 j hj(x;0.6) 100 CvM 80 AN power WS1 60 WT1 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 j Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Rysunek 5. Alternatywy symetryczne. n = 50, d(n) = 12. 100 Beta(p,p) 80 80 60 60 power power 100 40 LC(0.5,m) 40 20 20 0 0 0.5 1.0 1.5 2.0 2.5 1.0 3.0 1.5 2.0 2.5 m p 100 TU(λ,λ) 80 80 60 60 power power 100 40 20 0 0 1.0 1.5 2.0 2.5 3.0 λ 3.5 4.0 TU(λ,λ) CvM 40 20 0.5 3.0 AN WS1 WT1 5.5 6.0 6.5 7.0 7.5 8.0 λ Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Wartości krytyczne Alternatywy Moce W T 1 w zależności od c Symulacje mocy Rysunek 6. Alternatywy skośne. n = 50, d(n) = 12. TU(-λ,5λ) 100 100 LN(0,d) 80 60 60 40 20 WS1 40 20 0 0.02 0 0.05 0.08 0.11 λ 0.14 0.17 0.20 1 2 3 4 5 6 1.5 2.0 2.5 d SU(1,d) 100 100 80 80 60 60 power power AN WT1 power power CvM 80 40 SB(g,1) 40 20 20 0 0 0.8 1.0 1.2 1.4 1.6 1.8 2.0 0 0.5 1.0 g d Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Aerts, M., Claeskens, G., Hart, J.D., 2000. Testing lack of fit in multiple regression. Biometrika 87, 405–424. Aguirre, N., Nikulin, M., 1994. Chi-squared goodness-of-fit test for the family of logistic distribution. Kybernetika 30, 214–222. D’Agostino, R.B., Stephens, M.A., 1986. Goodness–of–Fit Techniques. Dekker, New York. Inglot, T., Kallenberg, W.C.M., Ledwina, T., 1997. Data driven smooth tests for composite hypotheses. Ann. Statist. 25, 1222–1250. Inglot, T., Ledwina, T., 2006. Towards data driven selection of a penalty function for data driven Neyman tests. Linear Algebra and its Appl. 417, 124–133. Inglot, T., Janic, A., 2009. How powerful are data driven score tests for uniformity. Applicationes Mathematicae 36, 375–395. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Jakubiec, A., 1998. Power simulations of goodness-of-fit tests for logistic distribution. Diploma thesis (in Polish), Wrocław University of Technology. Janic, A., Ledwina, T., 2009. Data-driven smooth tests for a location-scale family revisited. J. Statist. Theory and Practice 3, 645-663. Kallenberg, W.C.M., Ledwina, T., 1997. Data driven smooth tests for composite hypotheses: Comparison of powers. J. Statist. Comput. Simul. 59, 101–121. LaRiccia, V.L., 1991. Smooth goodness-of-fit tests: a quantile function approach. J. Amer. Statist. Assoc. 86, 427–431. Neyman, J., 1954. Sur une famille de tests asymptotiques des hypothèses statistiques composées. Trabajos de Estadistica 5, 161-168. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo Efektywna statystyka wynikowa Rezultaty teoretyczne Symulacje Bibliografia Neyman, J., 1959. Optimal asymptotic tests of composite statistical hypotheses. In Probability and Statistics, (ed. U. Grenander), Harald Cramér Volume, 212–234, Wiley, New York. Rayner, J.C.W., Best, D.J., 1989. Smooth Tests of Goodness of Fit. Oxford University Press, New York. Stephens, M.A., 1992. Tests of fit for logistic distribution based on EDF. Biometrika 66, 591–595. Thomas, D.R., Pierce, D.A., 1979. Neyman’s smooth goodness–of–fit test when the hypothesis is composite. J. Amer. Statist. Assoc. 74, 441–445. Alicja Janic Adaptacyjne wersje gładkiego testu zgodności z rozkładem lo