PORÓWNYWANIE ESTYMATORÓW, OBCIĄŻENIE X = (X1,...,Xn
Transkrypt
PORÓWNYWANIE ESTYMATORÓW, OBCIĄŻENIE X = (X1,...,Xn
PORÓWNYWANIE ESTYMATORÓW, OBCIĄŻENIE X = (X1, . . . , Xn) - próbka z rozkładu Pθ , θ ∈ Θ. Rozważmy bardziej ogólny problem: chcemy oszacować wartość g(θ), gdzie g : Θ 7→ R jest zadaną funkcją. Estymatorem g(θ), jak już wiemy, może być dowolna statystyka gb : X n 7→ R. Definicja. Funkcję R(θ) = Eθ (b g (X) − g(θ))2, θ ∈ Θ, nazywamy błędem średniokwadratowym (BŚK) estymatora gb. Błąd średniokwadratowy nazywa się także funkcją ryzyka przy kwadratowej funkcji straty. Definicja. Jeśli gb(X) jest estymatorem dla g(θ), to b(θ) = Eθ (b g (X) − g(θ)) = Eθ gb(X) − g(θ), θ ∈ Θ, nazywamy obciążeniem tego estymatora. Mówimy, że estymator jest nieobciążony, jeśli b(θ) ≡ 0, czyli jeśli Eθ gb(X) = g(θ), ∀θ ∈ Θ. Przykład 1. Dystrybuanta empiryczna n ∑ 1 Fbn(x) = 1(−∞,x](Xi) n i=1 1 jest estymatorem nieobciążonym wartości dystrybuanty F (x) w każdym punkcie x, bowiem 1∑ 1∑ b E Fn(x) = E1(−∞,x](Xi) = P (Xi 6 x) = F (x) n i=1 n i=1 n n (patrz temat Rozkład empiryczny. Dystrybuanta empiryczna). Przykład 2. Średnia z próby X̄ jest estymatorem nieobciążonym wartości oczekiwanej Eθ Xi = µ, bowiem 1 Eθ X̄ = (Eθ X1 + . . . + Eθ Xn) = µ. n Stwierdzenie: R(θ) = Varθ gb(X) + b2(θ). Istotnie, R(θ) = Eθ (b g (X)−g(θ))2 = Eθ (b g (X) − Eθ gb(X) + Eθ gb(X) − g(θ))2 = Eθ (b g (X) − Eθ gb(X))2 + Eθ (Eθ gb(X) − g(θ))2 +2Eθ (b g (X) − Eθ gb(X))(Eθ gb(X) − g(θ)) = Varθ gb(X) + b2(θ). Tak więc BŚK jest sumą dwóch odmiennych składników. 2 Definicja. Mówimy, że estymator gb1(X) jest lepszy niż gb2(X), jeśli dla odpowiednich wartości BŚK zachodzi R1(θ) 6 R2(θ) ∀θ ∈ Θ oraz dla pewnego θ ∈ Θ zachodzi R1(θ) < R2(θ). Przykład 3. X = (X1, . . . , Xn) - próbka z rozkładu N (µ, 1). Chcemy oszacować µ. Weźmy µ b1 = X̄, µ b2 ≡ 5. Otrzymujemy: 1 R1(µ) = , R2(µ) = (µ − 5)2. n Zgodnie z powyższą definicją, nie możemy powiedzieć, który z tych dwóch estymatorów jest lepszy! Przykład 4. X = (X1, . . . , Xn) - próbka z rozkładu N (µ, σ 2). Chcemy oszacować σ 2 (µ też jest nieznane). Weźmy 1 ∑ 2 2 σ b1 = S = (Xi − X̄)2, n − 1 i=1 n ∑ 1 2 2 (Xi − X̄)2. σ b2 = Sb = n i=1 n Wartość oczekiwana zmiennej losowej o rozkładzie χ2(n− 1) wynosi n − 1, wariancja wynosi 2(n − 1). Zatem (patrz temat Podstawowe problemy statystyki matematycznej. 3 Statystyki i ich rozkłady) (n − 1)S 2 Eθ =n−1 σ2 (n − 1)S 2 = 2(n − 1) Varθ 2 σ Więc =⇒ Eθ S 2 = σ 2, =⇒ 2σ 4 Varθ S = . n−1 2 4 2σ R1(σ 2) = . n−1 Ponieważ n−1 2 S , Sb2 = n to 4 4 2 2 2σ 2(n − 1)σ (n − 1) (n − 1)σ , Varθ Sb2 = · = . Eθ Sb2 = n n2 n−1 n2 Zatem ( 2 )2 4 2(n − 1)σ σ (2n − 1)σ 4 2 2 R2(σ ) = + − = < R (σ ). 1 2 2 n n n Definicja. Estymator g ∗(X) nazywamy estymatorem nieobciążonym o minimalnej wariancji dla g(θ), jeśli jest on estymatorem nieobciążonym oraz posiada najmniejszą wariancję wśród estymatorów nieobciążonych. 4