próbka x

Transkrypt

próbka x
Metody probabilistyczne i statystyka
Wykład
Estymacja
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
7
Metody probabilistyczne i statystyka
Wykład 7
20. Estymacja punktowa
Estymacja punktowa – metoda szacowania pewnego nieznanego
parametru rozkładu zmiennej losowej X (cechy populacji), np. EX, D2X,
na podstawie wyników próby losowej dla zmiennej X
(tj. na podstawie wartości pewnej konkretnej próbki)
Estymator parametru θ rozkładu zmiennej X to dowolna statystyka
Tn = Tn (X1,…, Xn), której wartości przyjmujemy za ocenę wielkości
parametru θ
(20.1) Uwagi
a)
b)
Jeśli (x1,…, xn) jest dowolną próbką dla cechy X i tn = Tn(x1,…, xn),
to θ ≈ tn
Dla dowolnego parametru θ można określić wiele estymatorów
(np. dla θ = EX można rozważać średnią arytmetyczną, geometryczną,
harmoniczną, medianę z próbki), ale zależy nam, aby estymator spełniał
pewne własności gwarantujące jego jakość
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Estymatory zgodne
Estymator Tn to estymator zgodny parametru θ, jeśli
(20.2)
∀ ε>0 lim P (| Tn − θ |≥ ε ) = 0
n→∞
⇔ ∀ ε>0 lim P (| Tn − θ |< ε ) = 1
n→∞
(20.3) Uwagi
a)
b)
c)
Zbieżność z warunków (20.2) jest zbieżnością według
prawdopodobieństwa lub zbieżnością stochastyczną
Dla estymatora zgodnego ze wzrostem liczebności próbki wzrasta
dokładność oszacowania parametru θ
Dla danego parametru θ można utworzyć wiele estymatorów
zgodnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Estymatory obciążone i nieobciążone
Estymator Tn to estymator nieobciążony parametru θ, jeśli
E (Tn ) = θ dla każdego n ∈ »
(20.4)
(20.5) Uwaga
Estymator nieobciążony szacuje parametr θ bez błędu
systematycznego
Jeżeli E(Tn) istnieje, ale E(Tn) ≠ θ,
to Tn nazywamy estymatorem obciążonym parametru θ,
zaś różnicę E(Tn) – θ nazywamy obciążeniem estymatora
Estymator Tn to estymator asymptotycznie nieobciążony
parametru θ, jeśli
lim E (Tn ) − θ = 0
(20.6)
n→∞
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Estymatory efektywne
Kolejnym kryterium, umożliwiającym ocenę estymatorów jest
wariancja, która powinna być jak najmniejsza
(20.7) Twierdzenie
Jeśli estymator Tn parametru θ jest (asymptotycznie) nieobciążony oraz
lim D 2 (Tn ) = 0, to Tn jest estymatorem zgodnym
n →∞
Tn i Tn* – dwa estymatory nieobciążone parametru θ, mające skończone
wariancje D2(Tn) i D2(Tn* )
Estymator Tn jest estymatorem efektywniejszym niż estymator Tn* , jeśli
(20.8)
D 2 (Tn ) < D 2 (Tn* )
Estymator najefektywniejszy (efektywny) – estymator nieobciążony Tn
danego parametru θ, który ma najmniejszą wariancję spośród wszystkich
nieobciążonych estymatorów parametru θ
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Nierówność Rao-Cramera
Dla prawie wszystkich rozkładów zmiennych losowych (za wyjątkiem
rozkładu jednostajnego) wariancja dowolnego nieobciążonego
estymatora Tn parametru θ spełnia tzw. nierówność Rao-Cramera:
1
(20.9)
D 2 (Tn ) ≥
2
n ⋅ E [ ∂θ∂ ln f ( X , θ) ]
gdzie f jest gęstością zmiennej losowej X typu ciągłego lub rozkładem
prawdopodobieństwa zmiennej losowej X typu skokowego
2
n ⋅ E [ ∂θ∂ ln f ( X , θ) ] – informacja Fishera, zawarta w próbce
(20.10) Wniosek
Jeśli dla pewnego estymatora nieobciążonego Tn parametru θ
w warunku (20.9) zachodzi równość, to estymator ten jest
najefektywniejszy
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
21. Estymacja podstawowych parametrów
rozkładu
(21.1) Twierdzenie
Jeśli istnieje wartość oczekiwana m = EX zmiennej losowej X
(cechy w populacji), to średnia z próby
X = 1n ( X 1 + X 2 + ... + X n )
jest zgodnym i nieobciążonym estymatorem wartości oczekiwanej m = EX
(21.2) Twierdzenie
Jeśli zmienna losowa X ma rozkład normalny N(m,σ) o znanej wartości σ, to
średnia z próby X jest najefektywniejszym estymatorem wartości oczekiwanej
m = EX
(21.3) Uwaga
Jeśli chcemy oszacować wartość oczekiwaną m cechy X w pewnej populacji
o nieznanym rozkładzie, to na podstawie n-elementowej próbki (x1,…, xn)
obliczamy średnią arytmetyczną x = 1n ( x1 + x2 + ... + xn ) i przyjmujemy
m≈x
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Estymacja wariancji
(21.4) Twierdzenie
Jeśli istnieje skończona wariancja σ2 = D2X zmiennej
losowej X, to statystyka
2
n
2
1
S = n ∑ i =1 ( X i − X )
gdzie X = 1n ( X 1 + X 2 + ... + X n ) , jest zgodnym
i asymptotycznie nieobciążonym estymatorem wariancji σ2
(21.5) Twierdzenie
Estymator
2
n
2
2
n
1
ˆ
S = n−1 S = n−1 ∑ i=1 ( X i − X )
jest estymatorem zgodnym i nieobciążonym wariancji σ2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Estymacja wariancji
(21.6) Twierdzenie
Jeżeli wartość oczekiwana m = EX zmiennej losowej X jest
znana, to statystyka
n
2
2
1
S * = n ∑ i =1 ( X i − m )
jest estymatorem zgodnym i nieobciążonym wariancji σ2
(21.7) Twierdzenie
Jeśli zmienna losowa X ma rozkład normalny N(m,σ)
i m jest znane, to S *2 jest estymatorem
najefektywniejszym wariancji σ2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Estymacja wskaźnika struktury
X ma charakter niemierzalny – podstawowym parametrem
populacji jest frakcja p elementów wyróżnionych przez tą
cechę w populacji, zwana wskaźnikiem struktury badanej
cechy populacji (częstość względna)
Jeśli populacja jest n-elementowa, zaś m jej elementów
posiada badaną cechę, to
m
p=
n
Jeśli w próbce n-elementowej z populacji, m elementów
posiada badaną cechę, to
m
p≈
n
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Estymacja wskaźnika struktury
Aby utworzyć model matematyczny rozkładu cechę jakościową
zamienia się na ilościową dla dowolnego elementu populacji ω:
gdy ω posiada wyróżnioną cechę
1
X (ω) = 
0 gdy ω nie posiada wyróżnionej cechy
Tak zdefiniowana zmienna losowa ma rozkład 0-1 z parametrem p,
tj. P (X = 1) = p, P ( X = 0) = q = 1−p
Jeśli (x1,…, xn) jest próbką dla zmiennej losowej X, odpowiadającą
próbce elementów (ω 1,…, ω n), w której m elementów ma wyróżnioną
cechę, to w ciągu tym jest m jedynek, a zatem x1+…+ xn = m
W rezultacie
p ≈ 1n ( x1 + ... + x n )
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Estymacja wskaźnika struktury
(21.8) Twierdzenie
Średnia arytmetyczna z próby
M 1
= ( X 1 + ... + X n )
n n
jest zgodnym, nieobciążonym i najefektywniejszym
estymatorem parametru p rozkładu 0-1 zmiennej losowej X,
tj. P (X = 1) = p, P ( X = 0) = q = 1−p
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 7
Zestawienie estymatorów
Tablica 21.1. Podstawowe estymatory
Parametr
Estymator
Własności estymatora
Wartość
oczekiwana
m = EX
Wariancja
σ2 = D2X
X=
1
n
( X 1 + ... + X n )
mediana z próby
S *2 =
1
n
∑ i=1 ( X i − m )
2
S2 =
1
n
∑ (X
2
n
Sˆ 2 =
Wskaźnik
struktury p
Współczynnik
zmienności
n
i =1
n
n −1
i
−X)
S2
Klasy rozkładów
zgodny, nieobciążony
dla N(m,σ) – estymator
najefektywniejszy
zgodny, asymptotycznie
nieobciążony
dowolny
zgodny, nieobciążony
dla N(m,σ) – estymator
najefektywniejszy
zgodny, asymptotycznie
nieobciążony
dowolny
zgodny, nieobciążony
dowolny
M 1
= ( X 1 + ... + X n ) zgodny, nieobciążony
najefektywniejszy
n n
S
V=
zgodny
X
0-1
dowolny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład
7
Dziękuję za uwagę
Opracowała Joanna Banaś