powiedzmy

Transkrypt

powiedzmy
ZAGADNIENIE ESTYMACJI. ESTYMACJA
PUNKTOWA I PRZEDZIAŁOWA
Mamy populację generalną i interesujemy się pewną
cechą X jednostek statystycznych, a dokładniej pewną
charakterystyką liczbową θ tej cechy (np. średnią wartością tej cechy).
Przeprowadzamy doświadczenia, w wyniku których mamy próbę losową (x1, . . . , xn). Na podstawie obserwacji
chcemy odpowiedzieć na pewne pytania na temat nieznanego θ ∈ Θ.
Celem estymacji θ jest odpowiedź na pytanie: Ile mniej
więcej wynosi wartość parametru θ ?
Formalizacja probabilistyczno-statystyczna tego zagadnienia:
{xi} - niezależne zmienne losowe o tym samym rozkładzie (=rozkładzie cechy X), którego wartość oczekiwana θ (=średnia wartość cechy X) nie jest znana;
mamy oszacować θ.
Są dwa podstawowe sposoby estymacji (szacowania) θ:
1. estymacja punktowa (wynik estymacji brzmi: θ wynosi mniej więcej, powiedzmy, θ0);
2. estymacja przedziałowa (wynik estymacji brzmi: θ
1
leży w przedziale, powiedzmy, [θ−, θ+] z określoną dozą
pewności, czyli z prawdopodobieństwem 1−α zadanym
z góry).
Przykład 1. Mamy oszacować średnią procentową zawartość tłuszczu w mleku pochodzącym od pewnego
producenta. Zbadaliśmy 10 kartonów z mlekiem i uzyskaliśmy następujące wyniki:
3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24.
Definicja. Statystyką nazywamy każdą funkcję
T (x1, . . . , xn) od próby (jest to zmienną losową).
Postać statystyki nie może zależeć od nieznanego parametru.
n
Przykłady statystyk: x̄ = x1+···+x
,
n
n
przykłady nie statystyk: x1+···+x
,
θ
∑
n
1
2
n ∑ i=1 (xi − x̄) ,
n
1
2
(x
−
θ)
.
i
i=1
n
Definicja. Estymatorem punktowym parametru θ nazywamy dowolną statystykę T (x1, . . . , xn), która naszym zdaniem dobrze przybliża wartość θ.
2
Rozważmy statystykę x̄ jako estymator nieznanej średniej wartości θ cechy X. Mamy:
x1 + · · · + xn Ex1 + · · · + Exn
E x̄ = E
=
= θ,
n
n
x1 + · · · + xn
1
Varx̄ = Var
= 2 (Varx1 + · · · + Varxn)
n
n
nVarx1 σ 2
=
= ,
n2
n
gdzie przez σ 2 oznaczyliśmy wariancję cechy X.
Zaleta uśredniania - redukcja zmienności.
Definicja. Estymator T (x1, . . . , xn) parametru θ nazywamy nieobciążonym, jeśli
ET (x1, . . . , xn) = θ
∀θ
(średnio estymator szacuje parametr θ bez błędu).
Estymator x̄ jest estymatorem nieobciążonym dla θ.
Definicja. Estymator T (x1, . . . , xn) parametru θ nazywamy zgodnym, jeśli dla n → ∞
T (x1, . . . , xn) → θ
∀θ
w pewnym sensie probabilistycznym, tzn. im większy
jest rozmiar próby, tym lepiej estymator szacuje parametr.
3
Estymator x̄ jest zgodnym estymatorem dla θ (na mocy
Prawa Wielkich Liczb).
Tak, w Przykładzie 1 szacujemy nieznany parametr θ
(średnia procentowa zawartość tłuszczu w mleku) jako
x1 + · · · + x10
x̄ =
= 3,166(6).
10
Przykład 2. Zmierzono objętości V pięciu losowo wybranych kulek z partii kulek lożyskowych, otrzymując wyniki (w cm3): 1,24; 1,38; 1,25; 1,17; 1,27. Znaleźć
ocenę wartości przeciętnej średnicy d kulki pochodzącej
z tej partii.
Jako ocenę wartości przeciętnej średnicy d kulki wybierzemy średnią z próbki x̄ (jak wiemy, jest to estymator
nieobciążony i zgodny dla parametru d). Ponieważ obπd3
jętość kulki i średnica
są
związane
równością
V
=
6 ,
√
otrzymujemy d = 3 6Vπ . Z tego wzoru, podstawiając
wyniki obserwacji objętości, uzyskujemy odpowiednie
wyniki dla średnicy: x1 ≈ 1,33 cm, x2 ≈ 1,38 cm,
x3 ≈ 1,34 cm, x4 ≈ 1,31 cm, x5 ≈ 1,34 cm. Stąd
x̄ ≈ 1,34 cm.
Przykład 3. Zmierzono pola S sześciu losowo wybranych kwadratowych działek z pewnej okolicy, otrzymując wyniki (w m2): 2809; 2916; 2704; 2809; 2601; 2704.
4
Oszacować średnią długość boku a działki z tej okolicy.
Przykład 4. Przeprowadzono badanie zużycia benzyny w losowo wybranej grupie 6 samochodów tej samej marki i tego samego rocznika. Po przejechaniu 200
km drogi uzyskano następujące obserwacji zużycia benzyny (w l): 11,2; 10,8; 10,9; 12,0; 11,8; 11,5. Oszacować
średnie zużycie benzyny θ (w litrach na 100 km jazdy).
Niech jednostki statystyczne albo posiadają pewną własność (kodujemy to jako 1), albo nie (kod - 0). Jak
oszacować nieznana proporcję p jednostek w populacji
posiadających tą własność?
(x1, . . . , xn) - próba z rozkładu zero-jedynkowego o nieznanym prawdopodobieństwie p,
P (X = 1) = p, P (X = 0) = 1 − p, EX = p.
Zatem zagadnienie szacowania parametru p sprowadza się do szacowania nieznanej wartości oczekiwanej.
Więc, proporcja jednostek w próbie posiadających tą
n
, jest dobrym estymatorem
własność, czyli pb = x1+···+x
n
dla p.
Przykład 5. Jedna z agencji badających opinię publiczną w czerwcu 2000 roku przeprowadziła badanie
500 dorosłych obywateli polskich na temat poparcia
(bądź nie) wejścia Polski do UE. Okazało się, że 285
5
osób opowiedziało się pozytywnie na ten temat. Oszacować proporcję p dorosłych obywateli Polski popierających wejście Polski do UE.
Szacujemy p za pomocą proporcji dorosłych obywateli
w próbie popierających wejście do UE, czyli jako pb =
285
500 = 0,57.
Przykład 6. Zgodnie z przeprowadzonym badaniem
na próbie w 300 dorosłych osób w Polsce, 117 osób
miały kłopoty ze snem. Oszacować proporcję p dorosłych obywateli Polski mających kłopoty ze snem.
Niech α ∈ (0, 1) będzie ustaloną liczbą (standardowo
α = 0.05); liczbę 1 − α nazywamy poziomem ufności.
Definicja. Estymatorem przedziałowym (przedziałem
ufności) parametru θ na poziomie ufności 1 − α nazywamy przedział [θ−, θ+], końce którego są statystykami
(czyli θ− = θ−(x1, . . . , xn), θ+ = θ+(x1, . . . , xn)), taki,
że dla dowolnego θ zachodzi
P (θ ∈ [θ−, θ+]) > 1 − α.
Tak naprawdę, zawsze staramy się skonstruować przedział ufności, dla którego powyższe prawdopodobieństwo jest równe 1 − α, ponieważ im mniejsze jest prawdopodobieństwo, tym, na ogół, krótszy jest przedział
[θ−, θ+], a krótszy przedział, przy takim samym pozio6
mie ufności, oznacza bardziej precyzyjne oszacowanie.
Konstrukcja przedziałów ufności dla przypadków:
1. cecha ma rozkład normalny, wariancja σ 2 jest znana;
2. cecha ma rozkład normalny, wariancja σ 2 nie jest
znana;
3. cecha ma rozkład dowolny, ale n jest duże.
1. {xi} - niezależne zmienne losowe o rozkładzie
√ x̄−θ
σ2
2
N (θ, σ ) =⇒ x̄ ma rozkład N (θ, n ) =⇒ n σ ma
rozkład N (0, 1). Weźmy taką liczbę z1−α/2, że
)
(
√ x̄ − θ
6 z1−α/2 = 1 − α.
P −z1−α/2 6 n
σ
Estymator przedziałowy dla θ ma zatem postać:
[
]
σ
σ
[θ−, θ+] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ .
n
n
Długość tego przedziału ufności wynosi 2z1−α/2 √σn i nie
jest losowa. Od czego zależy długość przedziału? Jeśli
σ jest ustalone, to jedynie od poziomu 1 − α i rozmiaru
próbki n. Aby zwiększyć precyzję estymatora poprzez
zmniejszenie długości przedziału ufności, musimy albo
zmniejszyć 1−α, co nie jest rozsądne, albo zwiększyć n.
7
√
∑n
2
2. Zamiast σ bierzemy s =
j=1 (xj − x̄) , zamiast rozkładu N (0, 1) – rozkład Studenta o (n − 1)
stopniach swobody. Estymator przedziałowy dla θ ma
postać:
[
]
s
s
[θ−, θ+] = x̄ − t1−α/2,n−1 √ , x̄ + t1−α/2,n−1 √ .
n
n
1
n−1
Tutaj t1−α/2,n−1 jest taką liczbą, że
(
)
√ x̄ − θ
P −t1−α/2,n−1 6 n
6 t1−α/2,n−1 = 1 − α.
s
Długość tego przedziału ufności wynosi 2t1−α/2,n−1 √sn
i jest losowa. Średnia długość tego przedziału zależy
wyłącznie od 1 − α i n w taki sam sposób, jak w poprzednim punkcie.
3. (estymator przybliżony)
W porównaniu z poprzednim przypadkiem, zamiast rozkładu Studenta ponownie bierzemy rozkład N (0, 1).
Przybliżony estymator przedziałowy dla θ ma zatem
postać:
[
]
s
s
√
√
[θ−, θ+] = x̄ − z1−α/2
, x̄ + z1−α/2
.
n
n
8
W Przykładzie 1 przy założeniu, że cecha ma rozkład
normalny i np. σ = 0,05 stosujemy przedział ufności
z punktu 1. Przy 1 − α = 0,95 otrzymujemy z tablic
z0,975 = 1,960 i
[
]
0,05
0,05
[θ−, θ+] = 3,1667 − 1,960 √ ; 3,1667 + 1,960 √
=
10
10
= [3,1357; 3,1977].
Jeśli nie ma wiedzy o σ, to stosujemy przedział ufności
z punktu 2. Przy 1 − α = 0,95 otrzymujemy z tablic
t0,975,9 = 2,2622 i
]
[
√
√
0,0048
0,0048
; 3,1667+2,2622 √
[θ−, θ+] = 3,1667−2,2622 √
10
10
= [3,1171; 3,2163].
W Przykładzie 2 przy założeniu, że cecha ma rozkład
normalny i np. σ = 0,025 stosujemy przedział ufności
z punktu 1. Przy 1 − α = 0,95 otrzymujemy z tablic
z0,975 = 1,960 i
[
]
0,025
0,025
[d−, d+] = 1,340 − 1,960 √ ; 1,340 + 1,960 √
=
5
5
= [1,318; 1,362].
Jeśli nie ma wiedzy o σ, to stosujemy przedział ufności
z punktu 2. Przy 1 − α = 0,95 otrzymujemy z tablic
t0,975,4 = 2,776 i
9
0,027
0,027
[d−, d+] = [1,340−2,776 √ ; 1,340+2,776 √ ] =
5
5
= [1,307; 1,373].
Niech jednostki statystyczne albo posiadają pewną własność (1), albo nie (0). Cel: oszacowanie nieznanej proporcji p jednostek posiadających tą własność.
(x1, . . . , xn) - próba z rozkładu zero-jedynkowego o nieznanym prawdopodobieństwie p,
P (X = 1) = p, P (X = 0) = 1−p, EX = p, VarX =
p(1−p)
n
p(1−p), Varb
p = Var x1+···+x
=
n
n . Estymator przedziałowy dla nieznanej proporcji p ma postać:
[
]
√
√
pb(1 − pb)
pb(1 − pb)
[p−, p+] = pb − z1−α/2
, pb + z1−α/2
.
n
n
Dla dobrego przybliżenia, oprócz wymaganego warunku,
że n jest duże (powiedzmy n > 100), często wymagane
jest, by nb
p > 5 oraz n(1 − pb) > 5.
Dla danych z Przykładu 5 otrzymujemy następujący
przedział ufności dla p przy 1 − α = 0,95:
√
√
0,57 · 0,43
0,57 · 0,43
[p−, p+] = [0,57−1,96
, 0,57+1,96
]
500
500
= [0,53; 0,61].
Zadanie. Wypisać estymatory przedziałowe w Przykładach 3,4,6. Przyjąć 1 − α = 0,95. Założyć normalność rozkładu cechy w Przykładach 3,4.
10

Podobne dokumenty