Niezmiennicze porządki stochastyczne i ciągłość estymatorów

Transkrypt

Niezmiennicze porządki stochastyczne i ciągłość estymatorów
Niezmiennicze porządki
stochastyczne i ciągłość
estymatorów
Jarosław Bartoszewicz, Magdalena Frąszczak
Uniwersytet Wrocławski
Wprowadzenie
X ∼ F , Y ∼ G – zmienne losowa i ich rozkłady;
f , g – gęstości, gdy istnieją;
F = 1 − F , G = 1 − G – funkcje przeżycia;
F −1 (u) = inf{x : F (x) ­ u}, u ∈ (0, 1) – funkcja kwantylowa
rozkładu F , podobnie – G −1 .
X ¬S Y
(zamiennie F ¬S G ) oznacza porządek
stochastyczny S między rozkładami F i G .
Lehmann i Rojo (1992) wprowadzili pojęcie niezmienniczości
porządków stochastycznych względem rosnących przekształceń
zmiennych losowych w klasie F rozkładów absolutnie ciągłych
na prostej R.
Definicja (1)
Porządek S jest niezmienniczy względem grupy Ψ
przekształceń ciągłych i rosnących na R, gdy
X ¬S Y
⇒
Inaczej: F ψ −1 ¬S G ψ −1
ψ(X ) ¬S ψ(Y )
∀ψ ∈ Ψ.
∀ψ ∈ Ψ.
Niezmienniczymi porządkami względem grupy Ψ są:
ilorazu wiarogodności X ¬lr Y
≡
hazardowy
X ¬hr Y
≡
odwrotny hazardowy
X ¬rh Y
≡
zwykły stochastyczny X ¬st Y
g
f
G
F
G
F
↑
↑
↑
≡ F ­G
Wszystkie te porządki można scharakteryzować przez
własności funkcji GF −1 , ktora jest maksymalnym
niezmiennikiem względem grupy Ψ.
Lehmann i Rojo (1992) wprowadzili także pojęcie
niezmienniczej odległości między uporządkowanymi
rozkładami.
Definicja (2)
Metryka dS (F , G ) między rozkładami F i G z klasy F jest
niezmiennicza względem porządku S, gdy:
(i) dS (F , G ) = dS (F ψ −1 , G ψ −1 )
∀ψ ∈ Ψ;
(ii) dS (F1 , G1 ) ¬ dS (F2 , G2 ), gdy F1 ¬S G1 , F2 ¬S G2 i G2 jest
bardziej na prawo od F2 niż G1 od F1 w porządku S.
Relacja bardziej na prawo dla czwórki parami uporządkowanych
rozkładów jest formalnie określona przez własności
maksymalnego niezmiennika, zob. Lehmann i Rojo (1992).
Dla ww porządków stochastycznych niezmienniczymi
odległościami są:
(x)
¬lr : dlr (F , G ) = supx | log gf (x)
|,
(x)
¬hr : dhr (F , G ) = supx | log GF (x)
|,
(x)
¬rh : drh (F , G ) = supx | log GF (x)
|.
¬st : dst (F , G ) = supx |G (x) − F (x)|.
Bartoszewicz i Benduch (2009) i Bartoszewicz i Frąszczak
(2010) zastosowali pomysł Lehmanna i Rojo do drugiej grupy
porządkow stochastycznych, określonych przez własności
funkcji G −1 F .
wypukły
X ¬c Y
≡ G −1 F
−1
wypukła
gwiaździsty
X ¬∗ Y
≡ G
superaddytywny
X ¬su Y
≡ G −1 F
dyspersyjny
X ¬disp Y
≡ G −1 F (x) − x ↑
zwykły stochastyczny
X ¬st Y
F (x)/x ↑
superaddytywna
≡ G −1 F (x) ­ x
Porządki te są niezmiennicze względem dwóch operacji
w zbiorze F + rozkładów absolutnie ciągłych na R+ :
(I) uogólnionych transformat TTT (total time on test)
HF−1 (t; ϕ) =
Z F −1 (t)
ϕ(F (x))dx,
F ∈ F,
t ∈ (0, 1),
0
gdzie ϕ przebiega klasę Φ nieujemnych funkcji ciągłych na
[0, 1]:
F ¬S G
⇒
HF (·; ϕ) ¬S HG (·; ϕ)
∀ϕ ∈ Φ.
(II) superpozycji dystrybuant z F + z elementami ze zbioru Φ0
ciągłych dystrybuant na [0, 1]:
F ¬S G
⇒
φF ¬S φG
∀φ ∈ Φ0 .
Maksymalnymi niezmiennikami są:
dla operacji (I): fF −1 /gG −1 (iloraz gęstości kwantylowych);
dla operacji (II): G −1 F .
Niezmienniczymi odległościami są:
dla operacji (I): ¬disp :
−1
fF (u)
d0 (F , G ) = supu | log gG
−1 (u) |;
(Odległość ta jest również niezmiennicza dla porządku ¬c , ale
tylko w pewnej podklasie klasy F + .)
dla operacji (II): dla porządków ¬disp i ¬st :
d1 (F , G ) = sup |G −1 F (x) − x|.
x
Jak zastosować te pojęcia
w statystyce matematycznej?
Możliwe zastosowania:
(1) Testowanie hipotez statystycznych
(2) Odporność estymatorów
Ciągłość estymatorów względem porządków
stochastycznych
Niech T będzie funkcjonałem statystycznym (np.
estymatorem) w modelu statystycznym M0 i niech L(T , F )
oznacza jego rozkład, gdy rozkładem obserwowalnej zmiennej
losowej jest rozkład F .
Niech ¬S oznacza porządek stochastyczny, niezmienniczy
względem określonej operacji (np. rosnących przekształceń
zmiennych losowych, transformaty GTTT, składania
dystrybuant z dystrybuantą na [0, 1]), a dS (F , G )
niezmienniczą odległość indukowaną przez ¬S między
rozkładami F i G .
Definicja (3)
Estymator T jest ciągły względem ¬S -porządku w
niezmienniczej odległości dS , gdy spełnia warunki:
(i) F ¬S G ⇒ L(T , F ) ¬S L(T , G ),
(ii)
∀ε>0 ∃δ>0
dS (F , G ) < δ
⇒
dS (L(T , F ), L(T , G )) < ε.
Odporność estymatorów w sensie Zielińskiego
Zieliński (1977) wprowadził następujacą definicję odporności
statystycznej.
M0 = (X, A, P0 ) – model statystyczny
π : P0 → 2P – zaburzenie modelu M0 , gdzie P – rodzina
wszystkich rozkładów na (X, A), spełniające dla dowolnych
P ∈ P0 warunki:
(a) P ∈ π(P), (b) π(P) ∩ P0 = {P},
(c) π(P) ∩ π(P 0 ) = ∅, P 6= P 0 .
P1 =
[
π(P)
P∈P0
Model statystyczny M1 = (X, A, P1 ) – rozszerzenie modelu M0
T – klasa statystyk na (X, A)
P T – rozkład statystyki T , P0T i P1T – klasy rozkładów
indukowanych przez statystykę T .
% – funkcjonał na przestrzeni miar P1T , w konkretnym
problemie decyzyjnym może być pewną charakterystyką
rozkładu P T ∈ P1 , np. obciążenie lub wariancja estymatora T ,
moc testu opartego na statystyce T itp.
Zieliński (1977) wprowadził następujące definicje.
Definicja (4)
Funkcję rT : P0 → R+ , postaci
rT (P) = sup{%(Q T ) : Q ∈ π(P)} − inf{%(Q T ) : Q ∈ π(P)}
nazywamy %-odpornością statystyki T w modelu M1 .
Definicja (5)
Statystykę T0 ∈ T , dla której
rT0 (P) ¬ rT (P) dla każdego P ∈ P0
i każdego T ∈ T ,
nazywamy jednostajnie %-najodporniejszą w klasie T .
Korzystając z tych definicji, Zieliński (1983) i Bartoszewicz
(1986) sformułowali i rozwiązali problem wyznaczenia
jednostajnie najodporniejszego ze względu na obciążenie
estymatora parametru skali (funkcjonał % oznaczał obciążenie
estymatora) w klasie liniowych nieobciążonych estymatorów,
będących kombinacjami statystyk pozycyjnych w pewnych
modelach statystycznych.
Bartoszewicz (1986, 1987) rozpatrywał problem odporności
estymatorów parametru skali w modelu statystycznym
M0 = (R+ , B + , P0 )n ,
(czyli modelu próby rozmiaru n), gdzie P0 = {F (·; θ) : θ > 0}
jest rodziną rozkładów prawdopodobieństwa z parametrem
skali θ, tzn. F (x; θ) = F (x/θ), a F jest ustalonym rozkładem.
Niech H i K będą ustalonymi rozkładami prawdopdobieństwa,
przy czym
H ¬st F ¬st K .
Niech πH,K (θ) oznacza zaburzenie modelu M0 , spełniające dla
każdego θ następujące warunki:
(i) H(·; θ) ¬st G (·; θ) ¬st K (·; θ) ∀G (· : θ) ∈ πH,K (θ);
(ii) H(·; θ) ∈ πH,K (θ) i K (·; θ) ∈ πH,K (θ);
(iii) πH,K (θ0 ) ∩ {F (·; θ) : θ > 0} = {F (·; θ0 )} ∀θ0 > 0;
(iv) πH,K (θ0 ) ∩ πH,K (θ) = ∅ ∀θ0 6= θ.
Funkcję πH,K nazywamy zaburzeniem modelu M0
indukowanym przez porządek stochastyczny.
X = (X1 , X2 , . . . , Xn ) – próba z rozkładu F ∈ P0 .
Rozpatrzmy klasę statystyk:


T = T =
n
X
j=1
aj Xj:n : aj ­ 0, j = 1, 2, . . . , n; Eθ (T ) = θ, θ > 0 ,
czyli klasę nieujemnych kombinacji liniowych statystyk
porządkowych, nieobciążonych estymatorów parametru θ w
modelu M0 .


Dla modelu wykładniczego zachodzi następujące twierdzenie.
Twierdzenie (1)
Niech dany będzie model M0 , gdzie F (x; θ) = 1 − e −x/θ , i jego
zaburzenie πH,K indukowane przez porządek stochastyczny.
(i) Jeżeli H jest rozkładem IFRA, a K jest rozkładem DFRA,
to X1:n /E1 (X1:n ) jest jednostajnie najodporniejszym ze względu
na obciążenie estymatorem parametru θ w klasie statystyk T .
(ii) Jeżeli H jest rozkładem DFRA, a K jest rozkładem IFRA,
to Xn:n /E1 (Xn:n ) jest jednostajnie najodporniejszym ze względu
na obciążenie estymatorem parametru θ w klasie statystyk T .
Przypomnienie
Rozkład F jest IFR (DFR), gdy − log(F (x)), x > 0, jest
funkcją wypukłą (wklęsłą).
Rozkład F jest IFRA (DFRA), gdy − log(F (x))/x, x > 0, jest
funkcją rosnącą (malejącą).
IFR ⊂ IFRA,
DFR ⊂ DFRA
Rozkład wykładniczy jest zarówno IFR (IFRA) jak i DFR
(DFRA).
Ciągłość estymatorów w modelu wykładniczym
Rozpatrzmy model statystyczny M̃0 = (R+ , B + , P0 )n , gdzie P0
jest rodziną rozkładów wykładniczych
F1 (x; θ) = 1 − exp(−x/θ),
x > 0,
θ > 0,
oraz jego zaburzenie postaci
πγ1 ,k (θ) =
= {Fγ (·; θ) = γF1 (·; θ) + (1 − γ)F1 (·; θ/k) : 0 < γ1 ¬ γ ¬ 1},
gdzie γ1 ∈ (0, 1], a k ­ 2 całkowite. Zaburzenie πγ1 ,k (θ) jest
zbiorem mieszanek dwóch rozkładów wykładniczych o
gęstościach postaci
γ
(1 − γ)k −kx/θ
fγ (x; θ) = e −x/θ +
e
,
θ
θ
x > 0, θ > 0,
Rodzina rozkładów πγ1 ,k (θ) jest uporządkowana rosnąco
względem γ według porządku ilorazu wiarogodności dla
każdego θ, a stąd również dla γ ¬ γ 0 zachodzą relacje:
Fγ (·; θ) ¬hr Fγ 0 (·; θ),
Fγ (·; θ) ¬st Fγ 0 (·; θ) ∀θ > 0.
Rozkład F1 jako rozkład wykładniczy jest zarówno IFR jak i
DFR, a więc także IFRA i DFRA, natomiast rozkład Fγ dla
γ ∈ [γ1 , 1) jest rozkładem DFR, a więc także DFRA, jako
rozkład mieszanki dwóch rozkładów DFR (wykładniczych).
Zatem statystyka Xn:n /E1 (Xn:n ) jest jednostajnie
najodporniejszym ze względu na obciążenie estymatorem
parametru θ w modelu M̃0 z zaburzeniem πγ1 ,k , w klasie T .
Twierdzenie (2)
Niech dane będą wykładniczy model statystyczny M̃0 i jego
zaburzenie
πγ1 ,k (θ) =
= {Fγ (·; θ) = γF1 (·; θ) + (1 − γ)F1 (·; kθ) : 0 < γ1 ¬ γ ¬ 1}.
Wówczas nieobciążony estymator Tn = Xn:n /E1 (Xn:n ) jest
ciągły względem porządków ilorazu wiarogodności
i hazardowego w odległościach dlr i dhr , niezmienniczych
względem przekształceń rosnących i ciągłych.
Dowód
Nietrudno obliczyć:
dlr (F1 , Fγ ) =
=
fγ (x) sup log
f1 (x) x>0


=
log[γ + (1 − γ)k],
gdy k > (1 + γ)/γ,
log γ,
gdy k ¬ (1 + γ)/γ.
i
dlr (F1,Tn , Fγ,Tn ) = ndlr (F1 , Fγ ).
Wobec tego dla dowolnego ε > 0 istnieje δ = ε/n i dla
każdego rozkładu G ∈ πγ1 ,k (θ) i każdego θ > 0
dlr (F1 , G ) < δ
⇒
dlr (L(Tn , F1 ), L(Tn , G )) < ε.
Podobnie można pokazac, że
dhr (F1 , Fγ ) = log
1
= dhr (F1,Tn , Fγ,Tn ).
γ
Podobne wyniki można uzyskać dla jednostajnie
najodporniejszych ze względu na obciążenie estymatorów
parametru skali w ogólniejszych modelach, gdy zaburzenia są
generowane przez inne porządki stochastyczne, niezmiennicze
wzgledem transformacji rosnących jak również uogólnionych
transformacji TTT i składania dystrybuant.
Literatura
J. Bartoszewicz (1986), Bias-robust estimation of the scale
parameter, Prob. and Math. Statist. 7, 103-113.
J. Bartoszewicz (1987), Bias-robust estimates based on order
statistics and spacings in the exponential model, Zastos. Mat.
19, 57-63.
J. Bartoszewicz i M.Benduch (2009), Some properties of the
generalized TTT transform, J. Statist. Plann. Inference 139,
2008-2017.
J. Bartoszewicz i M.Frąszczak (2010), Invariance of some
stochastic orders under compositions of distributions, złożone
do druku.
F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel,
Robust Statistics. The Approach Based on Influence
Functions, Wiley, New York 1986.
P.J. Huber, Robust Statistics, Wiley, New York 1981.
E.L. Lehmann and J. Rojo (1992), Invariant directional
orderings. Ann. Statist. 20, 2100-2110.
R. Zieliński (1977), Robustness: a quantitative approach, Bull.
Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys. 25,
1281-1286.
R. Zieliński (1983). Robust statistical procedures: A general
approach, Lecture Notes in Mathematics 982, Springer,
283-295.