x g

Transkrypt

x g
Statystyka
Matematyczna
Anna Janicka
wykład V, 21.03.2016
WŁASNOŚCI ESTYMATORÓW, CZ. I
Plan na dzisiaj
1. Podstawowe własności estymatorów:
obciążenie estymatora
estymatory nieobciążone
2. Mierniki jakości: porównywanie estymatorów
ryzyko estymatora
nieporównywalne estymatory
estymator nieobciążony o minimalnej wariancji
3. Informacja Fishera
Własności estymatorów
Czy nie robimy za dużych błędów? Czy
estymujemy to, co chcemy?
θˆ ma przybliżać θ.
Ogólniej: gˆ ( X ) ma przbliżać g(θ ).
Chcemy: mały błąd przybliżenia. Ale
błąd jest zmienną losową (dane są losowe)
→ możemy badać wartość oczekiwaną błędu
błąd zależy od nieznanego θ.
→ trudno...
Obciążenie estymatora
Jeśli statystyka θˆ( X ) jest estymatorem θ :
obciążenie estymatora to
b(θ ) = Eθ (θˆ( X ) − θ ) = Eθ θˆ( X ) − θ
Jeśli statystyka gˆ ( X ) jest estymatorem g(θ ):
obciążenie estymatora to
b(θ ) = Eθ (gˆ ( X ) − g (θ )) = Eθ gˆ ( X ) − g (θ )
Estymator θˆ( X ) / gˆ ( X ) jest nieobciążony,
jeśli b(θ ) = 0 dla ∀θ ∈ Θ
inne oznaczenia, np: Bθ (gˆ )
Przypomnienie z wykładu 3: model normalny
Model normalny: X1, X2, ..., Xn są próbką z
rozkładu N(µ, σ2). µ, σ nieznane.
Tw. W modelu normalnym, statystyki X i
S2 są niezależnymi zmiennymi
2
σ
losowymi, t. że
X ~ N ( µ, n )
n −1
W szczególności:
σ
2
S ~ χ (n − 1)
2
2
2
σ
E µ ,σ X = µ, oraz Varµ ,σ X =
n
4
σ
2
E µ ,σ S = σ , oraz Varµ ,σ S =
2
2
2
(n − 1)
Obciążenie estymatora – Przykład 1
W modelu normalnym: dowolnym, o nieznanym µ:
Estymator µ̂ = X jest nieobciążonym
estymatorem µ:
E µ ,σ µˆ ( X ) = E µ ,σ X = E
1
µ ,σ n
1
X
=
∑i =1 i n nµ = µ
n
Podobnie, µˆ1 = X 1 jest nieobciążonym
estymatorem µ:
E µ ,σ µˆ1( X ) = E µ ,σ X 1 = µ
Estymator µˆ 2 = 5 jest obciążony:
E µ ,σ µˆ 2 ( X ) = E µ ,σ 5 = 5 ≠ µ np. dla µ = 2
obciążenie: b( µ ) = 5 − µ
Obciążenie estymatora – Przykład 1 cd.
2
(
X
−
X
)
∑i =1 i 2 jest
obciążonym estymatorem σ :
2
ˆ
S
=
Estymator
E µ ,σ Sˆ 2 ( X ) = E µ ,σ
=
1
n
1
n
(n( µ
1
n
n
2
2
2
1
(
X
−
X
)
=
E
(
X
−
n
X
)
∑i =1 i
µ ,σ ∑
i
n
n
2
+ σ ) − n( µ +
2
2
σ2
)
n) = σ −
2
σ2
n
≠σ2
2
(
X
−
X
)
∑i =1 i 2
jest nieobciążonym estymatorem σ :
Zaś estymator S =
2
E µ ,σ S ( X ) = E
2
=
1
µ ,σ n −1
1
n −1
(n( µ
n
1
n −1
2
(
)
X
−
X
=
∑i =1 i
n
2
+ σ ) − n( µ +
2
2
1
n −1
σ2
n
E µ ,σ ( ∑ X i2 − nX 2 )
)) = (σ
1
n −1
2
(n − 1)) = σ
2
analogicznie: nie tylko dla modelu normalnego
Obciążenie estymatora – Przykład 1 cd (2)
Obciążenie estymatora Sˆ 2 =
to
b(σ ) = −
1
n
∑
n
(
X
−
X
)
i
i =1
2
σ2
n
gdy n → ∞, obciążenie dąży do 0, a więc
ten estymator też jest OK dla dużych
prób
dla dowolnego rozkładu
mającego wariancję
Asymptotyczna nieobciążoność
Estymator gˆ ( X ) parametru g(θ ) jest
asymptotycznie noeobciążony, jeśli
∀θ ∈ Θ :
lim b(θ ) = 0
n →∞
Jak porównywać estymatory?
Chcemy minimalizować błąd
estymatora; estymator, który mniej się
myli jest lepszy.
Błąd może być na + albo na -, stąd
standardowo patrzy się na kwadrat
błędu (średni kwadrat odchylenia
estymatora od wartości estymowanej)
Ryzyko estymatora (ryzyko kwadratowe)
Jeśli statystyka θˆ( X ) jest estymatorem θ :
ryzyko estymatora θˆ( X ) to funkcja
2
ˆ
ˆ
R(θ ,θ ) = Eθ (θ ( X ) − θ )
Jeśli statystyka gˆ ( X ) jest estymatorem g(θ ):
ryzyko estymatora gˆ ( X ) to funkcja
2
ˆ
ˆ
R(θ , g ) = Eθ (g ( X ) − g (θ ))
My rozważać będziemy tylko ryzyko kwadratowe (błąd
średniokwadratowy). Możliwe też inne (np. z modułem)
Własności ryzyka kwadratowego
Mamy:
2
ˆ
R(θ , g ) = b (θ ) + Var (gˆ )
A zatem dla estymatorów nieobciążonych
ryzyko to wariancja estymatora
Ryzyko estymatora – Przykład 1
Model: X1, X2, ..., Xn są próbką z rozkładu o
średniej µ, wariancji σ2. µ, σ nieznane.
Ryzyko estymatora µ̂ = X (nieobc.):
2
R( µ,σ , X ) = E µ ,σ ( X − µ ) = Varµ ,σ X =
2
σ
Ryzyko estymatora µˆ1 = X 1 (nieobc.):
n
R( µ,σ , X 1 ) = E µ ,σ ( X 1 − µ ) = Varµ ,σ X 1 = σ
2
Ryzyko estymatora µˆ 2 = 5 (obc.):
R( µ,σ ,5) = E µ ,σ (5 − µ ) = (5 − µ )
2
2
2
Ryzyko estymatora – Przykład 1 cd.
Ryzyko estymatora S =
2
1
n −1
∑
n
(
X
−
X
)
i
i =1
2
2σ
R( µ,σ , S ) = E µ ,σ (S − σ ) = Varµ ,σ S =
n −1
4
2
2
2 2
2
ˆ
Ryzyko estymatora S =
2
1
n
∑
n
(
X
−
X
)
i
i =1
2
R( µ,σ , Sˆ 2 ) = E µ ,σ (Sˆ 2 − σ 2 )2 = b 2 (σ ) + Varµ ,σ Sˆ 2
σ
(n − 1) 2σ
2n − 1 4
σ
= 2 +
=
2
2
n
n
n −1
n
4
w modelu dowolnym:
analogicznie, tylko inne wzory
2
4
R( µ,σ , S 2 ) > R( µ,σ , Sˆ 2 )
Ryzyko i obciążenie estymatora – Przykład 2.
Model Poissona: X1, X2, ..., Xn są próbką z
rozkładu Poissona z nieznanym
parametrem θ.
θˆNW = ... = X
b(θ ) = 0
R(θ , X ) = Varθ X = Var
1
θ n
∑
n
i =1
Xi =
θ
n
Porównywanie estymatorów
Estymator gˆ1( X ) jest lepszy od gˆ 2 ( X ) , jeśli
∀θ ∈ Θ
R(θ , gˆ1 ) ≤ R(θ , gˆ 2 )
oraz
∃θ ∈ Θ
R(θ , gˆ1 ) < R(θ , gˆ 2 )
a zatem: jeden estymator jest lepszy od drugiego tylko
jeśli cały wykres funkcji ryzyka jednego leży pod
wykresem drugiego; jeśli wykresy się krzyżują, to
estymatory są nieporównywalne
Porównywanie estymatorów – cd.
Z uwagi na to, że bardzo wiele
estymatorów jest nieporównywalnych,
porównywanie byle czego nie ma sensu;
trzeba się ograniczyć do pewnej klasy
estymatorów.
Jeśli porównujemy dwa estymatory
nieobciążone, to lepszy będzie ten, który
ma mniejszą wariancję.
Porównanie estymatorów – Przykład 1.
W modelu dowolnym:
Spośród estymatorów µˆ = X oraz µˆ1 = X 1
lepszy jest (dla n>1) estymator µ̂
Estymatory µˆ = X oraz µˆ 2 = 5 są
nieporównywalne, tak samo jak
estymatory µˆ1 = X 1 oraz µˆ 2 = 5
Spośród estymatorów S 2 oraz Sˆ 2
lepszy jest Ŝ 2
Estymator nieobciążony o minimalnej wariancji
Ograniczamy poszukiwania/porównania do
estymatorów nieobciążonych. W tej klasie
często da się znaleźć estymator najlepszy:
Statystyka g*(X) jest estymatorem
nieobciążonym o minimalnej wariancji
dla g(θ), jeśli
g*(X) jest nieobciążonym estymatorem g(θ),
dla każdego nieobciążonego estymatora gˆ ( X )
Varθ g * ( X ) ≤ Varθ gˆ ( X ) dla θ∈Θ
Jak stwierdzić, że estymator ma minimalną
wariancję?
W ogólności nie da się dowolnie
zmniejszać wariancji estymatorów
nieobciążonych – dla wielu modeli
probabilistycznych istnieje pewna
granica zmniejszania wariancji. Zależy
ona od konkretnego rozkładu i od
wielkości próby.
Informacja Fishera
Jeśli model statystyczny z obs. X1, X2, ..., Xn i
p-stwem fθ spełnia warunki regularności, tzn.:
1. Θ jest przedziałem otwartym 1-wymiarowym.
2. Nośnik rozkładu {x: fθ(x)>0} nie zależy od θ.
3. Istnieje pochodna dfθ .
dθ
to można zdefiniować Informację Fishera
zawartą w obserwacjach X1, X2, ..., Xn:
I n (θ ) = E
(
d
θ dθ
ln fθ ( X 1, X 2 ,..., X n ))
2
nie zakładamy tu niezależności X1, X2, ..., Xn
Informacja Fishera – co oznacza
Miara tego, jak wiele może powiedzieć
próba wielkości n (uśredniona) o
wartości nieznanego parametru θ.
Np. jeśli funkcja gęstości wokół θ jest
płaska, to informacja zawarta w (jednej)
obserwacji nie będzie pozwalała
różnicować naszych przewidywań co do
θ. Jeśli jednak funkcja gęstości wokół θ
nie jest płaska, to info o wynikach wnosi
wiele.
Informacja Fishera – cd.
Wzory dla różnych przypadków:
jeśli rozkład ciągły
2


 fθ ( x )dx
In (θ ) = ∫ 

f
(
x
)
X θ

dfθ ( x )
dθ
jeśli rozkład dyskretny
2


 Pθ ( x )
In (θ ) = ∑ 

x∈X  Pθ ( x ) 
dPθ ( x )
dθ
jeśli fθ dwukrotnie różniczkowalna
I n (θ ) = −E
(
d2
θ dθ 2
ln fθ ( X 1, X 2 ,..., X n )
)
Informacja Fishera – cd. (2)
Jeśli próba składa się z niezależnych
zmiennych losowych o identycznych
rozkładach, to wówczas z uwagi na
multiplikatywność prawdopodobieństwa
oraz własności logarytmu
I n (θ ) = nI1(θ )
I1(θ) jest informacją Fishera zawartą w pojedynczej
obserwacji
Informacja Fishera – przykład
Rozkład wykładniczy exp(λ)
I1(λ ) = ... =
1
λ
2