Prawdopodobienstwo i statystyka

Transkrypt

Prawdopodobieństwo i statystyka
Wykład XIII:
Przedziały ufności
12 stycznia 2016
Wykład XIII: Przedziały ufności
Problem: jak ocenić jakość przybliżenia parametru
przez estymator?
Niech X , B, {Pθ }θ∈Θ będzie modelem statystycznym i niech
ĝ : X → IR d będzie estymatorem parametru g : Θ → IR d .
W modelach ciągłych (tzn. Pθ ({x}) = 0 dla każdego
x ∈ X i θ ∈ Θ) najczęściej mamy
Pθ ĝ = y0 = 0.
Tymczasem na podstawie estymacji „przyjmujemy”
g (θ) = y0 . Na ile można ufać takiej ocenie wartości
parametru?
Wyjściem może być stosowanie estymatorów jako
odwzorowań przestrzeni próbek o wartościach w
„masywnych” zbiorach.
Obszar ufności
Definicja
Niech X , B, {Pθ }θ∈Θ będzie modelem statystycznym i niech
g : Θ → IR d będzie paramterem.
Niech Ĝ : X → B d będzie obszarem ufności dla parametru g ,
a α ∈ (0, 1) będzie poziomem ufności.
Mówimy, że Ĝ jest obszarem ufności parametru g na poziomie
ufności α, jeśli
Pθ {x ∈ X ; g (θ) ∈ Ĝ (x)}) 1 − α,
dla każdego θ ∈ Θ.
Zbiór Ĝ (x) jest interpretowany jako „obszar ufności” dla
parametru g przy obserwowanym x ∈ X .
Praktycznie zawsze α = 0, 05 lub α = 0, 01 (ulubione
poziomy statystyków).
Przedział ufności
Definicja przedziału ufności
Niech X , B, {Pθ }θ∈Θ będzie modelem statystycznym i
niech g : Θ → IR 1 będzie parametrem.
Oznaczmy przez I rodzinę odcinków [a, b], gdzie
a, b ∈ IR 1 , a < b.
Niech Ĝ : X → I 1 będzie „przedziałem ufności” dla
parametru g , a liczba α ∈ (0, 1) „poziomem ufności”.
Powiemy, że Ĝ jest przedziałem ufności dla parametru g
na poziomie ufności 1 − α, jeśli
Pθ {x ∈ X ; g (θ) ∈ Ĝ (x)}) 1−α,
dla każdego θ ∈ Θ.
Przedział ufności dla średniej ze znaną wariancją
Niech X1 , X2 , . . . , XN będzie próbą prostą z rozkładu
N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy
pomiaru skalibrowanym przyrządem o znanej
dokładności).
Jeśli położymy X̄N =
X1 +X2 +...+XN
N
2
∼ N µ, σN , to
X̄N − µ
√ ∼ N (0, 1).
σ/ N
Niech ζ = ζ1−α/2 będzie takie, że Φ(−ζ) = 1 − Φ(ζ) = α/2.
Wtedy
σ · ζ1−α/2
σ · ζ1−α/2
Pµ X̄N − √
¬ µ ¬ X̄N + √
= 1 − α.
N
N
Piszemy:
σ · ζ1−α/2
µ = X̄N ± √
.
N
Rozkład t-Studenta
Definicja
Rozkładem t-Studenta z n stopniami swobody nazywamy
rozkład zmiennej losowej
tn ∼ r
X0
,
X12 +X22 +...+Xn2
n
gdzie X0 , X1 , X2 , . . . , Xn są niezależne i mają rozkład N (0, 1).
Uwaga: Liczba stopni swobody jest jedynym parametrem
rozkładu t-Studenta. Skąd nazwa: rozkład t-Studenta?
Rozkład t-Studenta
Twierdzenie
Rozkład t-Studenta z n stopniami swobody ma gęstość postaci
x2
Γ(n/2 + 1/2) 1
√
1+
Γ(n/2)
πn
n
ftn (x) =
−(n+1)/2
, x ∈ IR 1 .
Uwaga: Gdy n → ∞, rozkłady tn zbiegają do N (0, 1).
Przedział ufności dla średniej z nieznaną wariancją
N (µ, σ 2 ).
Nie znamy ani µ, ani σ 2 .
Niech
s
S̄N =
(X1 − X̄N )2 + (X2 − X̄N )2 + . . . + (XN − X̄N )2
.
N −1
Przedział ufności dla średniej z nieznaną wariancją
Twierdzenie
Zmienna losowa
√ N X̄N − µ
tN−1 =
S̄N
ma rozkład t-Studenta z N − 1 stopniami swobody.
Wniosek
Jeżeli FtN−1 (τ1−α/2 ) = 1 − α/2, to na poziomie ufności 1 − α
µ = X̄N ±
S̄N · τ1−α/2
√
.
N
Definicja rozkładu chi-kwadrat
Definicja
Rozkładem chi-kwadrat z n stopniami swobody nazywamy
rozkład zmiennej losowej
χ2n ∼ X12 + X22 + . . . + Xn2 ,
gdzie X1 , X2 , . . . , Xn są niezależne i mają rozkład N (0, 1).
Twierdzenie
Rozkład chi-kwadrat z n stopniami swobody na gęstość
fχ2n (x) =
1
x (n/2)−1 e −x/2 , x ∈ IR + ,
n/2
2 Γ(n/2)
jest więc rozkładem gamma z parametrami (n/2, 1/2).
Przedział ufności dla wariancji
Twierdzenie
N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. Zmienna losowa
χ2N−1 =
(N − 1)S̄N2
σ2
ma rozkład chi-kwadrat z N − 1 stopniami swobody.
Wniosek
Jeśli Fχ2N−1 (ξα/2 ) = α/2 i Fχ2N−1 (ξ1−α/2 ) = 1 − α/2, to
przedziałem ufności dla σ 2 na poziomie ufności 1 − α jest
"
(N − 1)S̄N2 (N − 1)S̄N2
,
.
ξ1−α/2
ξα/2
#
Rozkład F -Snedecora
Definicja
Rozkładem F -Snedecora z n stopniami swobody licznika i m
stopniami swobody mianownika nazywamy rozkład zmiennej
losowej
U/n
Fn,m =
,
V /m
gdzie U ∼ χ2n , V ∼ χ2m oraz U i V są niezależne.
Przedział ufności dla ilorazu wariancji
N (µX , σX2 ), a Y1 , Y2 , . . . , YM próbą prostą z rozkładu
N (µY , σY2 ), gdzie nie znamy ani µX i σX2 , ani µY i σY2 .
Niech S̄X2 będzie statystyką S̄N2 zbudowaną na próbce
2
{Xk }, a S̄Y2 będzie statystyką S̄M
zbudowaną na próbce
{Yk }.
Twierdzenie
Zmienna losowa
FN−1,M−1 =
S̄X2 · σY2
,
S̄Y2 · σX2
ma rozkład F -Snedecora z N − 1 stopniami swobody licznika i
M − 1 stopniami swobody mianownika.
Przedział ufności dla ilorazu wariancji
Wniosek
Niech
FFN−1,M−1 (φα/2 ) = α/2, FFN−1,M−1 (φ1−α/2 ) = 1 − α/2.
Przedziałem ufności dla σY2 /σX2 na poziomie ufności 1 − α jest
S̄ 2
S̄ 2
φα/2 Y2 , φ1−α/2 Y2 .
S̄X
S̄X
"
#
Przedziały ufności dla prawdopodobieństwa
sukcesu w schemacie Bernoullego
Niech X1 , X2 , . . . będzie schematem Bernoullego z
prawdopodo- bieństwem sukcesu θ ∈ (0, 1), a SN liczbą
sukcesów w N próbach.
Rozkład SN jest znany (dwumianowy). „Znamy” więc
również rozkład zmiennej standaryzowanej
q
SN /N − θ
√
θ(1 − θ)/ N
.
W praktyce dużo bardziej efektywna jest aproksymacja
przez rozkład normalny, wynikająca ze sławnego
centralnego twierdzenia granicznego de Abrahama de
Moivre’a i Pierra-Simona Laplace’a.
Centralne twierdzenie graniczne de
Moivre’a-Laplace’a
Twierdzenie
lim
N→∞


Pθ q

SN /N − θ √ ¬ ζ  = Φ(ζ) − Φ(−ζ).
θ(1 − θ)/ N
Przedziały ufności dla prawdopodobieństwa
sukcesu w schemacie Bernoullego
Jeśli Φ(ζ1−α/2 ) = 1 − α/2, to mamy „asymptotycznie”:
Pθ
2
θ(1
ζ1−α/2
− θ) N SN /N − θ
2 ≈ 1 − α.
W szczególności, na „asymptotycznym” poziomie ufności
α mamy
r
θ=
2
SN + ζ1−α/2
/N
2
N + ζ1−α/2
±
ζ1−α/2
ζ2
SN (N−SN )
+ 1−α/2
N
4
2
N + ζ1−α/2
.
Nieparametryczne przedziały ufności dla kwantyli
Niech X1 , X2 , . . . będzie próbą prostą z rozkładu o
dystrybuancie F = FX1 .
Niech ξp będzie kwantylem rzędu p rozkładu F
(zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu
ξp , więc ξp jest określony jednoznacznie).
Połóżmy
LN =
N
X
1I {{Xj ¬ξp }} .
j=1
Zmienna LN ma rozkład dwumianowy!
Z twierdzenia de Moivre’a-Laplace’a wynika, że

LN /N − p
lim P −ζ1−α/2 ¬ q
N→∞
p(1 − p)N

¬ ζ1−α/2 
= Φ(ζ1−α/2 ) − Φ(−ζ1−α/2 ) = 1 − α.
Nieparametryczne przedziały ufności dla kwantyli
Niech k N i k N będą takie, że
k /N − p
k N /N − p
lim q N
= −ζ1−α/2 , lim q
= ζ1−α/2 .
N→∞
N→∞
p(1 − p)/N
p(1 − p)/N
Wtedy
lim PF k N ¬ LN ¬ k N = 1 − α,
N→∞
lub równoważnie
lim PF Xk N :N ¬ ξp ¬ Xk N :N = 1 − α,
N→∞
gdzie Xk:N jest k-tą statystyką porządkową z próby
prostej N-elementowej.
Centralne twierdzenie graniczne
Powszechność rozkładu normalnego wynika z centralnego
twierdzenia granicznego.
Centralne twierdzenie graniczne Paula Lévy’ego
Niech X1 , X2 , . . . , będzie ciągiem niezależnych zmiennych
losowych o jednakowych rozkładach i skończonej i niezerowej
wariancji: 0 < Var (Xk ) < +∞. Wówczas dla dowolnych
a < b,

lim P a <
X1 + X2 + · · · + XN − NEX1
q
N→∞
1
= √
2π
Z b
N Var (X1 )

< b
2
e −(1/2)u du = Φ(b) − Φ(a).
a

Prawdopodobienstwo i statystyka

Transkrypt

Podobne dokumenty

Cecha niezależna

Przedziały ufności

Statystyka stosowana: Lista 7

STATYSTYCZNE METODY WSPOMAGANIA DECYZJI

Estymacja przedziałowa (2 godziny)

ĆWICZENIE 2: Estymacja punktowa i przedziałowa Dane w postaci

zadania na ćwiczenia

zadania

Przedziały ufności dla wariancji i odchylenia standardowego. Model