Niezmiennicze porządki stochastyczne i ciągłość estymatorów
Transkrypt
Niezmiennicze porządki stochastyczne i ciągłość estymatorów
Niezmiennicze porządki stochastyczne i ciągłość estymatorów Jarosław Bartoszewicz, Magdalena Frąszczak Uniwersytet Wrocławski Wprowadzenie X ∼ F , Y ∼ G – zmienne losowa i ich rozkłady; f , g – gęstości, gdy istnieją; F = 1 − F , G = 1 − G – funkcje przeżycia; F −1 (u) = inf{x : F (x) u}, u ∈ (0, 1) – funkcja kwantylowa rozkładu F , podobnie – G −1 . X ¬S Y (zamiennie F ¬S G ) oznacza porządek stochastyczny S między rozkładami F i G . Lehmann i Rojo (1992) wprowadzili pojęcie niezmienniczości porządków stochastycznych względem rosnących przekształceń zmiennych losowych w klasie F rozkładów absolutnie ciągłych na prostej R. Definicja (1) Porządek S jest niezmienniczy względem grupy Ψ przekształceń ciągłych i rosnących na R, gdy X ¬S Y ⇒ Inaczej: F ψ −1 ¬S G ψ −1 ψ(X ) ¬S ψ(Y ) ∀ψ ∈ Ψ. ∀ψ ∈ Ψ. Niezmienniczymi porządkami względem grupy Ψ są: ilorazu wiarogodności X ¬lr Y ≡ hazardowy X ¬hr Y ≡ odwrotny hazardowy X ¬rh Y ≡ zwykły stochastyczny X ¬st Y g f G F G F ↑ ↑ ↑ ≡ F G Wszystkie te porządki można scharakteryzować przez własności funkcji GF −1 , ktora jest maksymalnym niezmiennikiem względem grupy Ψ. Lehmann i Rojo (1992) wprowadzili także pojęcie niezmienniczej odległości między uporządkowanymi rozkładami. Definicja (2) Metryka dS (F , G ) między rozkładami F i G z klasy F jest niezmiennicza względem porządku S, gdy: (i) dS (F , G ) = dS (F ψ −1 , G ψ −1 ) ∀ψ ∈ Ψ; (ii) dS (F1 , G1 ) ¬ dS (F2 , G2 ), gdy F1 ¬S G1 , F2 ¬S G2 i G2 jest bardziej na prawo od F2 niż G1 od F1 w porządku S. Relacja bardziej na prawo dla czwórki parami uporządkowanych rozkładów jest formalnie określona przez własności maksymalnego niezmiennika, zob. Lehmann i Rojo (1992). Dla ww porządków stochastycznych niezmienniczymi odległościami są: (x) ¬lr : dlr (F , G ) = supx | log gf (x) |, (x) ¬hr : dhr (F , G ) = supx | log GF (x) |, (x) ¬rh : drh (F , G ) = supx | log GF (x) |. ¬st : dst (F , G ) = supx |G (x) − F (x)|. Bartoszewicz i Benduch (2009) i Bartoszewicz i Frąszczak (2010) zastosowali pomysł Lehmanna i Rojo do drugiej grupy porządkow stochastycznych, określonych przez własności funkcji G −1 F . wypukły X ¬c Y ≡ G −1 F −1 wypukła gwiaździsty X ¬∗ Y ≡ G superaddytywny X ¬su Y ≡ G −1 F dyspersyjny X ¬disp Y ≡ G −1 F (x) − x ↑ zwykły stochastyczny X ¬st Y F (x)/x ↑ superaddytywna ≡ G −1 F (x) x Porządki te są niezmiennicze względem dwóch operacji w zbiorze F + rozkładów absolutnie ciągłych na R+ : (I) uogólnionych transformat TTT (total time on test) HF−1 (t; ϕ) = Z F −1 (t) ϕ(F (x))dx, F ∈ F, t ∈ (0, 1), 0 gdzie ϕ przebiega klasę Φ nieujemnych funkcji ciągłych na [0, 1]: F ¬S G ⇒ HF (·; ϕ) ¬S HG (·; ϕ) ∀ϕ ∈ Φ. (II) superpozycji dystrybuant z F + z elementami ze zbioru Φ0 ciągłych dystrybuant na [0, 1]: F ¬S G ⇒ φF ¬S φG ∀φ ∈ Φ0 . Maksymalnymi niezmiennikami są: dla operacji (I): fF −1 /gG −1 (iloraz gęstości kwantylowych); dla operacji (II): G −1 F . Niezmienniczymi odległościami są: dla operacji (I): ¬disp : −1 fF (u) d0 (F , G ) = supu | log gG −1 (u) |; (Odległość ta jest również niezmiennicza dla porządku ¬c , ale tylko w pewnej podklasie klasy F + .) dla operacji (II): dla porządków ¬disp i ¬st : d1 (F , G ) = sup |G −1 F (x) − x|. x Jak zastosować te pojęcia w statystyce matematycznej? Możliwe zastosowania: (1) Testowanie hipotez statystycznych (2) Odporność estymatorów Ciągłość estymatorów względem porządków stochastycznych Niech T będzie funkcjonałem statystycznym (np. estymatorem) w modelu statystycznym M0 i niech L(T , F ) oznacza jego rozkład, gdy rozkładem obserwowalnej zmiennej losowej jest rozkład F . Niech ¬S oznacza porządek stochastyczny, niezmienniczy względem określonej operacji (np. rosnących przekształceń zmiennych losowych, transformaty GTTT, składania dystrybuant z dystrybuantą na [0, 1]), a dS (F , G ) niezmienniczą odległość indukowaną przez ¬S między rozkładami F i G . Definicja (3) Estymator T jest ciągły względem ¬S -porządku w niezmienniczej odległości dS , gdy spełnia warunki: (i) F ¬S G ⇒ L(T , F ) ¬S L(T , G ), (ii) ∀ε>0 ∃δ>0 dS (F , G ) < δ ⇒ dS (L(T , F ), L(T , G )) < ε. Odporność estymatorów w sensie Zielińskiego Zieliński (1977) wprowadził następujacą definicję odporności statystycznej. M0 = (X, A, P0 ) – model statystyczny π : P0 → 2P – zaburzenie modelu M0 , gdzie P – rodzina wszystkich rozkładów na (X, A), spełniające dla dowolnych P ∈ P0 warunki: (a) P ∈ π(P), (b) π(P) ∩ P0 = {P}, (c) π(P) ∩ π(P 0 ) = ∅, P 6= P 0 . P1 = [ π(P) P∈P0 Model statystyczny M1 = (X, A, P1 ) – rozszerzenie modelu M0 T – klasa statystyk na (X, A) P T – rozkład statystyki T , P0T i P1T – klasy rozkładów indukowanych przez statystykę T . % – funkcjonał na przestrzeni miar P1T , w konkretnym problemie decyzyjnym może być pewną charakterystyką rozkładu P T ∈ P1 , np. obciążenie lub wariancja estymatora T , moc testu opartego na statystyce T itp. Zieliński (1977) wprowadził następujące definicje. Definicja (4) Funkcję rT : P0 → R+ , postaci rT (P) = sup{%(Q T ) : Q ∈ π(P)} − inf{%(Q T ) : Q ∈ π(P)} nazywamy %-odpornością statystyki T w modelu M1 . Definicja (5) Statystykę T0 ∈ T , dla której rT0 (P) ¬ rT (P) dla każdego P ∈ P0 i każdego T ∈ T , nazywamy jednostajnie %-najodporniejszą w klasie T . Korzystając z tych definicji, Zieliński (1983) i Bartoszewicz (1986) sformułowali i rozwiązali problem wyznaczenia jednostajnie najodporniejszego ze względu na obciążenie estymatora parametru skali (funkcjonał % oznaczał obciążenie estymatora) w klasie liniowych nieobciążonych estymatorów, będących kombinacjami statystyk pozycyjnych w pewnych modelach statystycznych. Bartoszewicz (1986, 1987) rozpatrywał problem odporności estymatorów parametru skali w modelu statystycznym M0 = (R+ , B + , P0 )n , (czyli modelu próby rozmiaru n), gdzie P0 = {F (·; θ) : θ > 0} jest rodziną rozkładów prawdopodobieństwa z parametrem skali θ, tzn. F (x; θ) = F (x/θ), a F jest ustalonym rozkładem. Niech H i K będą ustalonymi rozkładami prawdopdobieństwa, przy czym H ¬st F ¬st K . Niech πH,K (θ) oznacza zaburzenie modelu M0 , spełniające dla każdego θ następujące warunki: (i) H(·; θ) ¬st G (·; θ) ¬st K (·; θ) ∀G (· : θ) ∈ πH,K (θ); (ii) H(·; θ) ∈ πH,K (θ) i K (·; θ) ∈ πH,K (θ); (iii) πH,K (θ0 ) ∩ {F (·; θ) : θ > 0} = {F (·; θ0 )} ∀θ0 > 0; (iv) πH,K (θ0 ) ∩ πH,K (θ) = ∅ ∀θ0 6= θ. Funkcję πH,K nazywamy zaburzeniem modelu M0 indukowanym przez porządek stochastyczny. X = (X1 , X2 , . . . , Xn ) – próba z rozkładu F ∈ P0 . Rozpatrzmy klasę statystyk: T = T = n X j=1 aj Xj:n : aj 0, j = 1, 2, . . . , n; Eθ (T ) = θ, θ > 0 , czyli klasę nieujemnych kombinacji liniowych statystyk porządkowych, nieobciążonych estymatorów parametru θ w modelu M0 . Dla modelu wykładniczego zachodzi następujące twierdzenie. Twierdzenie (1) Niech dany będzie model M0 , gdzie F (x; θ) = 1 − e −x/θ , i jego zaburzenie πH,K indukowane przez porządek stochastyczny. (i) Jeżeli H jest rozkładem IFRA, a K jest rozkładem DFRA, to X1:n /E1 (X1:n ) jest jednostajnie najodporniejszym ze względu na obciążenie estymatorem parametru θ w klasie statystyk T . (ii) Jeżeli H jest rozkładem DFRA, a K jest rozkładem IFRA, to Xn:n /E1 (Xn:n ) jest jednostajnie najodporniejszym ze względu na obciążenie estymatorem parametru θ w klasie statystyk T . Przypomnienie Rozkład F jest IFR (DFR), gdy − log(F (x)), x > 0, jest funkcją wypukłą (wklęsłą). Rozkład F jest IFRA (DFRA), gdy − log(F (x))/x, x > 0, jest funkcją rosnącą (malejącą). IFR ⊂ IFRA, DFR ⊂ DFRA Rozkład wykładniczy jest zarówno IFR (IFRA) jak i DFR (DFRA). Ciągłość estymatorów w modelu wykładniczym Rozpatrzmy model statystyczny M̃0 = (R+ , B + , P0 )n , gdzie P0 jest rodziną rozkładów wykładniczych F1 (x; θ) = 1 − exp(−x/θ), x > 0, θ > 0, oraz jego zaburzenie postaci πγ1 ,k (θ) = = {Fγ (·; θ) = γF1 (·; θ) + (1 − γ)F1 (·; θ/k) : 0 < γ1 ¬ γ ¬ 1}, gdzie γ1 ∈ (0, 1], a k 2 całkowite. Zaburzenie πγ1 ,k (θ) jest zbiorem mieszanek dwóch rozkładów wykładniczych o gęstościach postaci γ (1 − γ)k −kx/θ fγ (x; θ) = e −x/θ + e , θ θ x > 0, θ > 0, Rodzina rozkładów πγ1 ,k (θ) jest uporządkowana rosnąco względem γ według porządku ilorazu wiarogodności dla każdego θ, a stąd również dla γ ¬ γ 0 zachodzą relacje: Fγ (·; θ) ¬hr Fγ 0 (·; θ), Fγ (·; θ) ¬st Fγ 0 (·; θ) ∀θ > 0. Rozkład F1 jako rozkład wykładniczy jest zarówno IFR jak i DFR, a więc także IFRA i DFRA, natomiast rozkład Fγ dla γ ∈ [γ1 , 1) jest rozkładem DFR, a więc także DFRA, jako rozkład mieszanki dwóch rozkładów DFR (wykładniczych). Zatem statystyka Xn:n /E1 (Xn:n ) jest jednostajnie najodporniejszym ze względu na obciążenie estymatorem parametru θ w modelu M̃0 z zaburzeniem πγ1 ,k , w klasie T . Twierdzenie (2) Niech dane będą wykładniczy model statystyczny M̃0 i jego zaburzenie πγ1 ,k (θ) = = {Fγ (·; θ) = γF1 (·; θ) + (1 − γ)F1 (·; kθ) : 0 < γ1 ¬ γ ¬ 1}. Wówczas nieobciążony estymator Tn = Xn:n /E1 (Xn:n ) jest ciągły względem porządków ilorazu wiarogodności i hazardowego w odległościach dlr i dhr , niezmienniczych względem przekształceń rosnących i ciągłych. Dowód Nietrudno obliczyć: dlr (F1 , Fγ ) = = fγ (x) sup log f1 (x) x>0 = log[γ + (1 − γ)k], gdy k > (1 + γ)/γ, log γ, gdy k ¬ (1 + γ)/γ. i dlr (F1,Tn , Fγ,Tn ) = ndlr (F1 , Fγ ). Wobec tego dla dowolnego ε > 0 istnieje δ = ε/n i dla każdego rozkładu G ∈ πγ1 ,k (θ) i każdego θ > 0 dlr (F1 , G ) < δ ⇒ dlr (L(Tn , F1 ), L(Tn , G )) < ε. Podobnie można pokazac, że dhr (F1 , Fγ ) = log 1 = dhr (F1,Tn , Fγ,Tn ). γ Podobne wyniki można uzyskać dla jednostajnie najodporniejszych ze względu na obciążenie estymatorów parametru skali w ogólniejszych modelach, gdy zaburzenia są generowane przez inne porządki stochastyczne, niezmiennicze wzgledem transformacji rosnących jak również uogólnionych transformacji TTT i składania dystrybuant. Literatura J. Bartoszewicz (1986), Bias-robust estimation of the scale parameter, Prob. and Math. Statist. 7, 103-113. J. Bartoszewicz (1987), Bias-robust estimates based on order statistics and spacings in the exponential model, Zastos. Mat. 19, 57-63. J. Bartoszewicz i M.Benduch (2009), Some properties of the generalized TTT transform, J. Statist. Plann. Inference 139, 2008-2017. J. Bartoszewicz i M.Frąszczak (2010), Invariance of some stochastic orders under compositions of distributions, złożone do druku. F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust Statistics. The Approach Based on Influence Functions, Wiley, New York 1986. P.J. Huber, Robust Statistics, Wiley, New York 1981. E.L. Lehmann and J. Rojo (1992), Invariant directional orderings. Ann. Statist. 20, 2100-2110. R. Zieliński (1977), Robustness: a quantitative approach, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys. 25, 1281-1286. R. Zieliński (1983). Robust statistical procedures: A general approach, Lecture Notes in Mathematics 982, Springer, 283-295.