x g
Transkrypt
x g
Statystyka Matematyczna Anna Janicka wykład V, 21.03.2016 WŁASNOŚCI ESTYMATORÓW, CZ. I Plan na dzisiaj 1. Podstawowe własności estymatorów: obciążenie estymatora estymatory nieobciążone 2. Mierniki jakości: porównywanie estymatorów ryzyko estymatora nieporównywalne estymatory estymator nieobciążony o minimalnej wariancji 3. Informacja Fishera Własności estymatorów Czy nie robimy za dużych błędów? Czy estymujemy to, co chcemy? θˆ ma przybliżać θ. Ogólniej: gˆ ( X ) ma przbliżać g(θ ). Chcemy: mały błąd przybliżenia. Ale błąd jest zmienną losową (dane są losowe) → możemy badać wartość oczekiwaną błędu błąd zależy od nieznanego θ. → trudno... Obciążenie estymatora Jeśli statystyka θˆ( X ) jest estymatorem θ : obciążenie estymatora to b(θ ) = Eθ (θˆ( X ) − θ ) = Eθ θˆ( X ) − θ Jeśli statystyka gˆ ( X ) jest estymatorem g(θ ): obciążenie estymatora to b(θ ) = Eθ (gˆ ( X ) − g (θ )) = Eθ gˆ ( X ) − g (θ ) Estymator θˆ( X ) / gˆ ( X ) jest nieobciążony, jeśli b(θ ) = 0 dla ∀θ ∈ Θ inne oznaczenia, np: Bθ (gˆ ) Przypomnienie z wykładu 3: model normalny Model normalny: X1, X2, ..., Xn są próbką z rozkładu N(µ, σ2). µ, σ nieznane. Tw. W modelu normalnym, statystyki X i S2 są niezależnymi zmiennymi 2 σ losowymi, t. że X ~ N ( µ, n ) n −1 W szczególności: σ 2 S ~ χ (n − 1) 2 2 2 σ E µ ,σ X = µ, oraz Varµ ,σ X = n 4 σ 2 E µ ,σ S = σ , oraz Varµ ,σ S = 2 2 2 (n − 1) Obciążenie estymatora – Przykład 1 W modelu normalnym: dowolnym, o nieznanym µ: Estymator µ̂ = X jest nieobciążonym estymatorem µ: E µ ,σ µˆ ( X ) = E µ ,σ X = E 1 µ ,σ n 1 X = ∑i =1 i n nµ = µ n Podobnie, µˆ1 = X 1 jest nieobciążonym estymatorem µ: E µ ,σ µˆ1( X ) = E µ ,σ X 1 = µ Estymator µˆ 2 = 5 jest obciążony: E µ ,σ µˆ 2 ( X ) = E µ ,σ 5 = 5 ≠ µ np. dla µ = 2 obciążenie: b( µ ) = 5 − µ Obciążenie estymatora – Przykład 1 cd. 2 ( X − X ) ∑i =1 i 2 jest obciążonym estymatorem σ : 2 ˆ S = Estymator E µ ,σ Sˆ 2 ( X ) = E µ ,σ = 1 n 1 n (n( µ 1 n n 2 2 2 1 ( X − X ) = E ( X − n X ) ∑i =1 i µ ,σ ∑ i n n 2 + σ ) − n( µ + 2 2 σ2 ) n) = σ − 2 σ2 n ≠σ2 2 ( X − X ) ∑i =1 i 2 jest nieobciążonym estymatorem σ : Zaś estymator S = 2 E µ ,σ S ( X ) = E 2 = 1 µ ,σ n −1 1 n −1 (n( µ n 1 n −1 2 ( ) X − X = ∑i =1 i n 2 + σ ) − n( µ + 2 2 1 n −1 σ2 n E µ ,σ ( ∑ X i2 − nX 2 ) )) = (σ 1 n −1 2 (n − 1)) = σ 2 analogicznie: nie tylko dla modelu normalnego Obciążenie estymatora – Przykład 1 cd (2) Obciążenie estymatora Sˆ 2 = to b(σ ) = − 1 n ∑ n ( X − X ) i i =1 2 σ2 n gdy n → ∞, obciążenie dąży do 0, a więc ten estymator też jest OK dla dużych prób dla dowolnego rozkładu mającego wariancję Asymptotyczna nieobciążoność Estymator gˆ ( X ) parametru g(θ ) jest asymptotycznie noeobciążony, jeśli ∀θ ∈ Θ : lim b(θ ) = 0 n →∞ Jak porównywać estymatory? Chcemy minimalizować błąd estymatora; estymator, który mniej się myli jest lepszy. Błąd może być na + albo na -, stąd standardowo patrzy się na kwadrat błędu (średni kwadrat odchylenia estymatora od wartości estymowanej) Ryzyko estymatora (ryzyko kwadratowe) Jeśli statystyka θˆ( X ) jest estymatorem θ : ryzyko estymatora θˆ( X ) to funkcja 2 ˆ ˆ R(θ ,θ ) = Eθ (θ ( X ) − θ ) Jeśli statystyka gˆ ( X ) jest estymatorem g(θ ): ryzyko estymatora gˆ ( X ) to funkcja 2 ˆ ˆ R(θ , g ) = Eθ (g ( X ) − g (θ )) My rozważać będziemy tylko ryzyko kwadratowe (błąd średniokwadratowy). Możliwe też inne (np. z modułem) Własności ryzyka kwadratowego Mamy: 2 ˆ R(θ , g ) = b (θ ) + Var (gˆ ) A zatem dla estymatorów nieobciążonych ryzyko to wariancja estymatora Ryzyko estymatora – Przykład 1 Model: X1, X2, ..., Xn są próbką z rozkładu o średniej µ, wariancji σ2. µ, σ nieznane. Ryzyko estymatora µ̂ = X (nieobc.): 2 R( µ,σ , X ) = E µ ,σ ( X − µ ) = Varµ ,σ X = 2 σ Ryzyko estymatora µˆ1 = X 1 (nieobc.): n R( µ,σ , X 1 ) = E µ ,σ ( X 1 − µ ) = Varµ ,σ X 1 = σ 2 Ryzyko estymatora µˆ 2 = 5 (obc.): R( µ,σ ,5) = E µ ,σ (5 − µ ) = (5 − µ ) 2 2 2 Ryzyko estymatora – Przykład 1 cd. Ryzyko estymatora S = 2 1 n −1 ∑ n ( X − X ) i i =1 2 2σ R( µ,σ , S ) = E µ ,σ (S − σ ) = Varµ ,σ S = n −1 4 2 2 2 2 2 ˆ Ryzyko estymatora S = 2 1 n ∑ n ( X − X ) i i =1 2 R( µ,σ , Sˆ 2 ) = E µ ,σ (Sˆ 2 − σ 2 )2 = b 2 (σ ) + Varµ ,σ Sˆ 2 σ (n − 1) 2σ 2n − 1 4 σ = 2 + = 2 2 n n n −1 n 4 w modelu dowolnym: analogicznie, tylko inne wzory 2 4 R( µ,σ , S 2 ) > R( µ,σ , Sˆ 2 ) Ryzyko i obciążenie estymatora – Przykład 2. Model Poissona: X1, X2, ..., Xn są próbką z rozkładu Poissona z nieznanym parametrem θ. θˆNW = ... = X b(θ ) = 0 R(θ , X ) = Varθ X = Var 1 θ n ∑ n i =1 Xi = θ n Porównywanie estymatorów Estymator gˆ1( X ) jest lepszy od gˆ 2 ( X ) , jeśli ∀θ ∈ Θ R(θ , gˆ1 ) ≤ R(θ , gˆ 2 ) oraz ∃θ ∈ Θ R(θ , gˆ1 ) < R(θ , gˆ 2 ) a zatem: jeden estymator jest lepszy od drugiego tylko jeśli cały wykres funkcji ryzyka jednego leży pod wykresem drugiego; jeśli wykresy się krzyżują, to estymatory są nieporównywalne Porównywanie estymatorów – cd. Z uwagi na to, że bardzo wiele estymatorów jest nieporównywalnych, porównywanie byle czego nie ma sensu; trzeba się ograniczyć do pewnej klasy estymatorów. Jeśli porównujemy dwa estymatory nieobciążone, to lepszy będzie ten, który ma mniejszą wariancję. Porównanie estymatorów – Przykład 1. W modelu dowolnym: Spośród estymatorów µˆ = X oraz µˆ1 = X 1 lepszy jest (dla n>1) estymator µ̂ Estymatory µˆ = X oraz µˆ 2 = 5 są nieporównywalne, tak samo jak estymatory µˆ1 = X 1 oraz µˆ 2 = 5 Spośród estymatorów S 2 oraz Sˆ 2 lepszy jest Ŝ 2 Estymator nieobciążony o minimalnej wariancji Ograniczamy poszukiwania/porównania do estymatorów nieobciążonych. W tej klasie często da się znaleźć estymator najlepszy: Statystyka g*(X) jest estymatorem nieobciążonym o minimalnej wariancji dla g(θ), jeśli g*(X) jest nieobciążonym estymatorem g(θ), dla każdego nieobciążonego estymatora gˆ ( X ) Varθ g * ( X ) ≤ Varθ gˆ ( X ) dla θ∈Θ Jak stwierdzić, że estymator ma minimalną wariancję? W ogólności nie da się dowolnie zmniejszać wariancji estymatorów nieobciążonych – dla wielu modeli probabilistycznych istnieje pewna granica zmniejszania wariancji. Zależy ona od konkretnego rozkładu i od wielkości próby. Informacja Fishera Jeśli model statystyczny z obs. X1, X2, ..., Xn i p-stwem fθ spełnia warunki regularności, tzn.: 1. Θ jest przedziałem otwartym 1-wymiarowym. 2. Nośnik rozkładu {x: fθ(x)>0} nie zależy od θ. 3. Istnieje pochodna dfθ . dθ to można zdefiniować Informację Fishera zawartą w obserwacjach X1, X2, ..., Xn: I n (θ ) = E ( d θ dθ ln fθ ( X 1, X 2 ,..., X n )) 2 nie zakładamy tu niezależności X1, X2, ..., Xn Informacja Fishera – co oznacza Miara tego, jak wiele może powiedzieć próba wielkości n (uśredniona) o wartości nieznanego parametru θ. Np. jeśli funkcja gęstości wokół θ jest płaska, to informacja zawarta w (jednej) obserwacji nie będzie pozwalała różnicować naszych przewidywań co do θ. Jeśli jednak funkcja gęstości wokół θ nie jest płaska, to info o wynikach wnosi wiele. Informacja Fishera – cd. Wzory dla różnych przypadków: jeśli rozkład ciągły 2 fθ ( x )dx In (θ ) = ∫ f ( x ) X θ dfθ ( x ) dθ jeśli rozkład dyskretny 2 Pθ ( x ) In (θ ) = ∑ x∈X Pθ ( x ) dPθ ( x ) dθ jeśli fθ dwukrotnie różniczkowalna I n (θ ) = −E ( d2 θ dθ 2 ln fθ ( X 1, X 2 ,..., X n ) ) Informacja Fishera – cd. (2) Jeśli próba składa się z niezależnych zmiennych losowych o identycznych rozkładach, to wówczas z uwagi na multiplikatywność prawdopodobieństwa oraz własności logarytmu I n (θ ) = nI1(θ ) I1(θ) jest informacją Fishera zawartą w pojedynczej obserwacji Informacja Fishera – przykład Rozkład wykładniczy exp(λ) I1(λ ) = ... = 1 λ 2