[D]

Transkrypt

[D]
Wykład 8
Teoria estymacji
TEORIA ESTYMACJI
(X, {Pθ, θ ∈ Θ}) - model statystyczny
(przestrzeń próby X wraz z rodziną rozkładów Pθ)
X1, X2,........, Xn – próba n-elementowa (Xi ∈ X)
θn = θn(X1, X2,........, Xn) - estymator prawdziwej
wartości
parametru
θ
(funkcja
określona
na
próbie)
^
Przykład:
θn = θn(X1, X2,........, Xn) = (X1 + X2 +........+ Xn ) / n –
- estymator wartości oczekiwanej E(X)
PoŜądane właściwości estymatorów
- zgodność
θn(X1, X2,........, Xn) → θ
n→∞
- nieobciąŜoność
(∀n) E{θn(X1, X2,........, Xn)} = θ
bn - obciąŜenie estymatora (ang. bias): bn = E{θn(X1, X2,........, Xn)} - θ
Estymator θn jest dodatnio (optymistycznie) obciąŜony, gdy bn > 0.
- efektywność
Estymator θn jest tym efektywniejszy im ma mniejszą wariancję V{θn}.
Kres dolny wariancji jest dany przez nierówność Cramera-Rao.
- odporność (ang. robustness)
Estymator jest tym odporniejszy im słabiej zaleŜy od załoŜeń a priori o
rozkładach (np. pewne (nieodporne) estymatory wykazują optymalne
własności tylko wtedy, gdy rozkłady są bliskie normalnym)
Efektywność estymatora θn względem nieobciąŜonego estymatora
najefektywniejszego θn*
eff(θn) = E{(θn* - θ)2} / E{(θn - θ )2 } = V{θn*}/ V{θn}
Nierówność Cramera-Rao.
fn(xn;θ) - gęstość rozkładu n-wymiarowej próbki xn
(xn = [x1,x2,......,xn]T, θn - nieobciąŜony estymator parametru θ)
fn(xn;θ) = f1(x1;θ) f2(x2;θ).................fn(xn;θ)
V{θn} ≥ 1 / E{(∂ln(fn(xn; θ)) / ∂θ)2} = 1 / [n E{(∂ln(f1(x1; θ)) / ∂θ)2}]
Równość zachodzi wtedy, gdy
∂ln(fn(xn;θ))/∂θ = c(θ) (θn(xn) - θ),
gdzie c(θ) jest stałą lub funkcją zaleŜną tylko od θ.
Informacja Fishera I1(θ)
I1(θ) = E{(∂ln(f1(x1; θ)) / ∂θ)2} = - E{(∂2ln(f1(x1; θ) / ∂θ2)}
I1(θ) - ilość informacji o θ zawarta w X1,
In(θ) - ilość informacji o θ zawarta w X1,....., Xn
In(θ) = n I1(θ) - własność sumowalności
JeŜeli V{θn*}= 1 / n I1(θ) oraz θn* jest estymatorem
nieobciąŜonym, to θn* jest estymatorem najefektywniejszym
Statystyki dostateczne
Def.: Statystyka T = φ(x1,x2,........, xn) jest statystyką dostateczną dla θ,
jeŜeli dla kaŜdej wartości t tej statystyki, rozkład warunkowy
P{X / T = t} nie zaleŜy od θ.
(T zawiera tyle samo informacji o co pierwotne dane X. Statystyki
dostateczne pozwalają na redukcję danych bez straty informacji)
Kryterium faktoryzacji: Statystyka Tn(x1,x2,........, xn) jest statystyką
dostateczną wtedy i tylko wtedy, gdy gęstość rozkładu
prawdopodobieństwa próby f(x1,x2,........, xn;θ) moŜna przedstawić w
postaci:
f(x1,x2,........, xn; θ) = g(Tn(xn);θ) h(xn)
gdzie funkcja h(xn) nie zaleŜy od θ a funkcja zaleŜna od θ, g(Tn(xn);θ),
zaleŜy od xn poprzez wartości Tn(xn).
Przykład:
Rodzina rozkładów wykładniczych {Pθ, θ ∈ Θ }
KaŜdy rozkład Pθ z rodziny wykładniczej ma gęstość fθ(x) o postaci:
fθ(x) = exp { Σ (cj(θ) Tj(x) - b(θ)} h(x)
j=1,..,k
gdzie T1(x), T2(x),......,Tk(x) są funkcjami liniowo niezaleŜnymi oraz
{c1(θ), c2(θ),..., ck(θ)} jest podzbiorem k-wymiarowym przestrzeni Rk.
Do rodziny rozkładów wykładniczych naleŜą rozkład dwumianowy,
normalny, geometryczny, wykładniczy, Poissona.
JeŜeli x1, x2,........, xn jest próbą z pewnego rozkładu Pθ z rodziny
wykładniczej, to
[Σ T1(xi), Σ T2(xi),...., Σ Tk(xi)]
i=1,..,n
jest statystyką dostateczną.
i=1,..,n
i=1,..,n
ENMW - estymatory nieobciąŜone z minimalną
wariancją
Konstrukcja ENMW w oparciu o statystyki dostateczne:
1. θn(xn) - dowolny estymator nieobciąŜony parametru θ
2. Tn(xn) - statystyka dostateczna dla θ
3. E{θn(xn) / Tn(xn)} jest ENMW
Przykład:
Konstrukcja estymatorów metodą momentów
(K. Pearson)
-estymacja współczynnika korelacji
Konstrukcja estymatorów metodą najmniejszych
kwadratów
- estymacja współczynników równań regresji
Konstrukcja estymatorów θ i* metodą największej wiarogodności
(Fisher)
Niech X będzie zmienną losową o gęstości f(x; θ 1; θ2 ;......, θk)
X1, X2,........, Xn - n-elementowa próba
L(θ 1; θ2 ;......, θk) - funkcja wiarogodności
L(θ 1; θ2 ;......, θk) = Π f(xi; θ 1; θ2 ;......, θk)
i=1,...,n
W przypadku zmiennej dyskretnej:
L(θ1; θ2;......, θk) = Π Pθ n(X = xi)
i=1,...,n
gdzie (θn = [θ1, θ2,......, θn]T.
L(θ 1*; θ 2*;......, θ k* ) = max L(θ1; θ2;......, θk)
Zwykle szukamy maksimum ln L(θ1;θ2;.....,θk) zamiast maksimum L(θ1;θ2;.....;θk).
Konstrukcja estymatorów θ i* metodą największej
wiarogodności
Przykład 1: rozkład zero – jedynkowy - P(X = 1) = p, P(X = 0) = 1 - p,
(x1,x2,........,xn) – próba n-elementowa
m = (x1 + x2 +........+ xn) – liczba zaobserwowanych jedynek
L(p) = pm(1 - p)n-m - funkcja wiarogodności
W(p) = m ln p + (n -m) ln (1 - p) – logarytm funkcji wiarogodności
W′ (p) = m / p + (n - m) / (1 - p)
W′ (p) = 0 ⇒ p* = m / n
Przykład 2: rozkład Poissona - P(X = k) = λk e- λ / k!
L(λ) = Π P(X = ki) = Π λki e-λ / ki! = e- λn λk1 +....+kn / k1!.... kn!
i=1,...,n
i=1,...,n
W(λ) = ln L(λ) = -n λ + n kśr .ln λ - Σ ln ki!
i=1,...,n
W′ (p) = 0 ⇒ λ* = kśr
Wykład 7
Statystyki opisowe
Statystyka opisowa zajmuje się wstępnym opracowaniem wyników
pomiarów (próbki) bez posługiwania się rachunkiem
prawdopodobieństwa. Nie wyciągamy wniosków dotyczących
populacji generalnej.
Niech x1, x2, x3,....., xn będzie próbką n - elementową. n – liczność
(liczebność). Parametry obliczone z próbki są nazywane
statystykami.
Populacja generalna
Próba
Próba uporządkowana
x1, x2,........, xn → xi(1) ≤ xi(2) ≤ ....... ≤ xi(n)
Szereg rozdzielczy
< xi -1, xi) - przedział lub kategoria ("klasy") wartości badanej zmiennej
losowej X
ni
- liczebność i-tej klasy
Szereg rozdzielczy stanowi K par liczb (x•i, ni ): środki klas x•i oraz ich
liczności ni.
x•i = (xi -1 + xi) / 2
Histogram
ni / n
- częstości
częstości skumulowane
rozkład kumulacyjny
Histogram
16
14
12
ni
10
8
6
4
2
0
0
20
40
60
80
100
120
140
160
xi
. Histogram próbki. Zaznaczono granice klas (na osi x) i ilość
elementów w klasie (na osi y)
Wykres skumulowanego prawdopodobieństwa
100
80
pi
60
40
20
0
20
40
60
80
100
120
140
160
xi
Wykres skumulowanego prawdopodobieństwa pi(xi)
[wyraŜonego w %] tego, Ŝe znajdziemy w próbce wartość ≤ xi
Charakterystyki połoŜenia
_
- średnia arytmetyczna
( x = Σ xi / n - średnia z próby)
i = 1,....,n
- średnia waŜona xw (xw = Σ ni x•i / n, gdzie ni jest licznością i-tej klasy)
_ i = 1,....,K
n
-średnia geometryczna g liczb dodatnich xi
g = n ∏ xi
(pomiar w jednostkach względnych np. km/godz.)
i =1
_
−1
1 n 1 
- średnia harmoniczna h róŜnych od zera liczb
h =  ∑ 
x1, x2, x3,...,xn nazywamy odwrotność
 n i =1 x i 
średniej arytmetycznej odwrotności tych liczb
_
_
-średnia kwadratowa xk: xk = [(1/n) Σ (xi)2 ]1/2
Przykład: Gęstość zaludnienia w dwu 60 – tysięcznych miastach
wynosiła odpowiednio 400 osób / km2 i 600 osób / km2. Jaka była
przeciętna gęstość zaludnienia xh w tych miastach?
xh = 2 / (1/400 + 1/600) = 480 osób / km2
Charakterystyki połoŜenia
_
- mediana (Me, wartość środkowa)
- modalna (Mo, dominanta, wartość najczęściej występująca w
zbiorowości )
-Kwantyle
Q1, Q2, Q3
D1, D2,....., D9
C1, C2,....., C99
- kwartyle
- decyle
- centyle
x(k) - k-ta statystyka pozycyjna (oparta na próbie uporządkowanej)
x([nλ] + 1)
- kwantyl rzędu λ (0 < λ <1)
[n λ]
- część całkowita liczby n
Charakterystyki rozrzutu
- rozstęp R = xmax - xmin - róŜnica pomiędzy największym a
najmniejszym elementem próby
- wariancja z próby
_
s2 = (1/n) Σ (xi - x )2
i = 1,....,n
I
- odchylenie standardowe
s = ( s2 )1/2
Charakterystyki kształtu rozkładu
Momentem zwykłym ml rzędu l próbki x1, x2, x3,..., xn nazywamy średnią
arytmetyczną l-tych potęg wartości xi
1 n l
ml = ∑ xi
n i =1
_
ZauwaŜmy, Ŝe m1 = x.
Momentem centralnym Ml rzędu l próbki x1, x2, x3,..., xn nazywamy
średnią arytmetyczną l-tych potęg odchyleń wartości xi od średniej
arytmetycznej próbki.
1n
l
Ml = ∑ (xi − x)
n i =1
ZauwaŜmy, Ŝe M1 = 0, M2 = s2.
- współczynnik asymetrii
- współczynnik spłaszczenia (kurtoza)
Wykres ramkowy
180
160
140
120
100
xi
95%
80
75%
60
50%
40
25%
5%
20
0
-20
A
. Wykres ramkowy: wartość średnia (kółko z poziomą kreską),
wartości ekstremalne (poziome kreski), kwartyle (pudełko),
kwantyle 0.05 i 0.95 (wąsy), kwantyle 0.01 i 0.99 (krzyŜyki)
Dystrybuanta empiryczna
(z próby n-elementowej)
Fn(x) = #{1≤ j ≤ n: xj < x} / n
- rozkład z próby
pn(x) = #{j: xj = x} / n
Tw. Gliwienki - Cantelliego:
Niech
Dn = sup | Fn(x) - F(x) |
-∞ < x < ∞
JeŜeli próba x1, x2,........, xn pochodzi z populacji o
dystrybuancie F, to Dn → 0 z prawdopodobieństwem 1.