[D]
Transkrypt
[D]
Wykład 8 Teoria estymacji TEORIA ESTYMACJI (X, {Pθ, θ ∈ Θ}) - model statystyczny (przestrzeń próby X wraz z rodziną rozkładów Pθ) X1, X2,........, Xn – próba n-elementowa (Xi ∈ X) θn = θn(X1, X2,........, Xn) - estymator prawdziwej wartości parametru θ (funkcja określona na próbie) ^ Przykład: θn = θn(X1, X2,........, Xn) = (X1 + X2 +........+ Xn ) / n – - estymator wartości oczekiwanej E(X) PoŜądane właściwości estymatorów - zgodność θn(X1, X2,........, Xn) → θ n→∞ - nieobciąŜoność (∀n) E{θn(X1, X2,........, Xn)} = θ bn - obciąŜenie estymatora (ang. bias): bn = E{θn(X1, X2,........, Xn)} - θ Estymator θn jest dodatnio (optymistycznie) obciąŜony, gdy bn > 0. - efektywność Estymator θn jest tym efektywniejszy im ma mniejszą wariancję V{θn}. Kres dolny wariancji jest dany przez nierówność Cramera-Rao. - odporność (ang. robustness) Estymator jest tym odporniejszy im słabiej zaleŜy od załoŜeń a priori o rozkładach (np. pewne (nieodporne) estymatory wykazują optymalne własności tylko wtedy, gdy rozkłady są bliskie normalnym) Efektywność estymatora θn względem nieobciąŜonego estymatora najefektywniejszego θn* eff(θn) = E{(θn* - θ)2} / E{(θn - θ )2 } = V{θn*}/ V{θn} Nierówność Cramera-Rao. fn(xn;θ) - gęstość rozkładu n-wymiarowej próbki xn (xn = [x1,x2,......,xn]T, θn - nieobciąŜony estymator parametru θ) fn(xn;θ) = f1(x1;θ) f2(x2;θ).................fn(xn;θ) V{θn} ≥ 1 / E{(∂ln(fn(xn; θ)) / ∂θ)2} = 1 / [n E{(∂ln(f1(x1; θ)) / ∂θ)2}] Równość zachodzi wtedy, gdy ∂ln(fn(xn;θ))/∂θ = c(θ) (θn(xn) - θ), gdzie c(θ) jest stałą lub funkcją zaleŜną tylko od θ. Informacja Fishera I1(θ) I1(θ) = E{(∂ln(f1(x1; θ)) / ∂θ)2} = - E{(∂2ln(f1(x1; θ) / ∂θ2)} I1(θ) - ilość informacji o θ zawarta w X1, In(θ) - ilość informacji o θ zawarta w X1,....., Xn In(θ) = n I1(θ) - własność sumowalności JeŜeli V{θn*}= 1 / n I1(θ) oraz θn* jest estymatorem nieobciąŜonym, to θn* jest estymatorem najefektywniejszym Statystyki dostateczne Def.: Statystyka T = φ(x1,x2,........, xn) jest statystyką dostateczną dla θ, jeŜeli dla kaŜdej wartości t tej statystyki, rozkład warunkowy P{X / T = t} nie zaleŜy od θ. (T zawiera tyle samo informacji o co pierwotne dane X. Statystyki dostateczne pozwalają na redukcję danych bez straty informacji) Kryterium faktoryzacji: Statystyka Tn(x1,x2,........, xn) jest statystyką dostateczną wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby f(x1,x2,........, xn;θ) moŜna przedstawić w postaci: f(x1,x2,........, xn; θ) = g(Tn(xn);θ) h(xn) gdzie funkcja h(xn) nie zaleŜy od θ a funkcja zaleŜna od θ, g(Tn(xn);θ), zaleŜy od xn poprzez wartości Tn(xn). Przykład: Rodzina rozkładów wykładniczych {Pθ, θ ∈ Θ } KaŜdy rozkład Pθ z rodziny wykładniczej ma gęstość fθ(x) o postaci: fθ(x) = exp { Σ (cj(θ) Tj(x) - b(θ)} h(x) j=1,..,k gdzie T1(x), T2(x),......,Tk(x) są funkcjami liniowo niezaleŜnymi oraz {c1(θ), c2(θ),..., ck(θ)} jest podzbiorem k-wymiarowym przestrzeni Rk. Do rodziny rozkładów wykładniczych naleŜą rozkład dwumianowy, normalny, geometryczny, wykładniczy, Poissona. JeŜeli x1, x2,........, xn jest próbą z pewnego rozkładu Pθ z rodziny wykładniczej, to [Σ T1(xi), Σ T2(xi),...., Σ Tk(xi)] i=1,..,n jest statystyką dostateczną. i=1,..,n i=1,..,n ENMW - estymatory nieobciąŜone z minimalną wariancją Konstrukcja ENMW w oparciu o statystyki dostateczne: 1. θn(xn) - dowolny estymator nieobciąŜony parametru θ 2. Tn(xn) - statystyka dostateczna dla θ 3. E{θn(xn) / Tn(xn)} jest ENMW Przykład: Konstrukcja estymatorów metodą momentów (K. Pearson) -estymacja współczynnika korelacji Konstrukcja estymatorów metodą najmniejszych kwadratów - estymacja współczynników równań regresji Konstrukcja estymatorów θ i* metodą największej wiarogodności (Fisher) Niech X będzie zmienną losową o gęstości f(x; θ 1; θ2 ;......, θk) X1, X2,........, Xn - n-elementowa próba L(θ 1; θ2 ;......, θk) - funkcja wiarogodności L(θ 1; θ2 ;......, θk) = Π f(xi; θ 1; θ2 ;......, θk) i=1,...,n W przypadku zmiennej dyskretnej: L(θ1; θ2;......, θk) = Π Pθ n(X = xi) i=1,...,n gdzie (θn = [θ1, θ2,......, θn]T. L(θ 1*; θ 2*;......, θ k* ) = max L(θ1; θ2;......, θk) Zwykle szukamy maksimum ln L(θ1;θ2;.....,θk) zamiast maksimum L(θ1;θ2;.....;θk). Konstrukcja estymatorów θ i* metodą największej wiarogodności Przykład 1: rozkład zero – jedynkowy - P(X = 1) = p, P(X = 0) = 1 - p, (x1,x2,........,xn) – próba n-elementowa m = (x1 + x2 +........+ xn) – liczba zaobserwowanych jedynek L(p) = pm(1 - p)n-m - funkcja wiarogodności W(p) = m ln p + (n -m) ln (1 - p) – logarytm funkcji wiarogodności W′ (p) = m / p + (n - m) / (1 - p) W′ (p) = 0 ⇒ p* = m / n Przykład 2: rozkład Poissona - P(X = k) = λk e- λ / k! L(λ) = Π P(X = ki) = Π λki e-λ / ki! = e- λn λk1 +....+kn / k1!.... kn! i=1,...,n i=1,...,n W(λ) = ln L(λ) = -n λ + n kśr .ln λ - Σ ln ki! i=1,...,n W′ (p) = 0 ⇒ λ* = kśr Wykład 7 Statystyki opisowe Statystyka opisowa zajmuje się wstępnym opracowaniem wyników pomiarów (próbki) bez posługiwania się rachunkiem prawdopodobieństwa. Nie wyciągamy wniosków dotyczących populacji generalnej. Niech x1, x2, x3,....., xn będzie próbką n - elementową. n – liczność (liczebność). Parametry obliczone z próbki są nazywane statystykami. Populacja generalna Próba Próba uporządkowana x1, x2,........, xn → xi(1) ≤ xi(2) ≤ ....... ≤ xi(n) Szereg rozdzielczy < xi -1, xi) - przedział lub kategoria ("klasy") wartości badanej zmiennej losowej X ni - liczebność i-tej klasy Szereg rozdzielczy stanowi K par liczb (x•i, ni ): środki klas x•i oraz ich liczności ni. x•i = (xi -1 + xi) / 2 Histogram ni / n - częstości częstości skumulowane rozkład kumulacyjny Histogram 16 14 12 ni 10 8 6 4 2 0 0 20 40 60 80 100 120 140 160 xi . Histogram próbki. Zaznaczono granice klas (na osi x) i ilość elementów w klasie (na osi y) Wykres skumulowanego prawdopodobieństwa 100 80 pi 60 40 20 0 20 40 60 80 100 120 140 160 xi Wykres skumulowanego prawdopodobieństwa pi(xi) [wyraŜonego w %] tego, Ŝe znajdziemy w próbce wartość ≤ xi Charakterystyki połoŜenia _ - średnia arytmetyczna ( x = Σ xi / n - średnia z próby) i = 1,....,n - średnia waŜona xw (xw = Σ ni x•i / n, gdzie ni jest licznością i-tej klasy) _ i = 1,....,K n -średnia geometryczna g liczb dodatnich xi g = n ∏ xi (pomiar w jednostkach względnych np. km/godz.) i =1 _ −1 1 n 1 - średnia harmoniczna h róŜnych od zera liczb h = ∑ x1, x2, x3,...,xn nazywamy odwrotność n i =1 x i średniej arytmetycznej odwrotności tych liczb _ _ -średnia kwadratowa xk: xk = [(1/n) Σ (xi)2 ]1/2 Przykład: Gęstość zaludnienia w dwu 60 – tysięcznych miastach wynosiła odpowiednio 400 osób / km2 i 600 osób / km2. Jaka była przeciętna gęstość zaludnienia xh w tych miastach? xh = 2 / (1/400 + 1/600) = 480 osób / km2 Charakterystyki połoŜenia _ - mediana (Me, wartość środkowa) - modalna (Mo, dominanta, wartość najczęściej występująca w zbiorowości ) -Kwantyle Q1, Q2, Q3 D1, D2,....., D9 C1, C2,....., C99 - kwartyle - decyle - centyle x(k) - k-ta statystyka pozycyjna (oparta na próbie uporządkowanej) x([nλ] + 1) - kwantyl rzędu λ (0 < λ <1) [n λ] - część całkowita liczby n Charakterystyki rozrzutu - rozstęp R = xmax - xmin - róŜnica pomiędzy największym a najmniejszym elementem próby - wariancja z próby _ s2 = (1/n) Σ (xi - x )2 i = 1,....,n I - odchylenie standardowe s = ( s2 )1/2 Charakterystyki kształtu rozkładu Momentem zwykłym ml rzędu l próbki x1, x2, x3,..., xn nazywamy średnią arytmetyczną l-tych potęg wartości xi 1 n l ml = ∑ xi n i =1 _ ZauwaŜmy, Ŝe m1 = x. Momentem centralnym Ml rzędu l próbki x1, x2, x3,..., xn nazywamy średnią arytmetyczną l-tych potęg odchyleń wartości xi od średniej arytmetycznej próbki. 1n l Ml = ∑ (xi − x) n i =1 ZauwaŜmy, Ŝe M1 = 0, M2 = s2. - współczynnik asymetrii - współczynnik spłaszczenia (kurtoza) Wykres ramkowy 180 160 140 120 100 xi 95% 80 75% 60 50% 40 25% 5% 20 0 -20 A . Wykres ramkowy: wartość średnia (kółko z poziomą kreską), wartości ekstremalne (poziome kreski), kwartyle (pudełko), kwantyle 0.05 i 0.95 (wąsy), kwantyle 0.01 i 0.99 (krzyŜyki) Dystrybuanta empiryczna (z próby n-elementowej) Fn(x) = #{1≤ j ≤ n: xj < x} / n - rozkład z próby pn(x) = #{j: xj = x} / n Tw. Gliwienki - Cantelliego: Niech Dn = sup | Fn(x) - F(x) | -∞ < x < ∞ JeŜeli próba x1, x2,........, xn pochodzi z populacji o dystrybuancie F, to Dn → 0 z prawdopodobieństwem 1.