Przedziały ufności dla wariancji i odchylenia standardowego. Model

Transkrypt

Przedziały ufności dla wariancji i odchylenia standardowego. Model
Przedziały ufności dla wariancji i odchylenia standardowego. Model I.
Cecha X populacji genaralnej ma rozkład normalny N (µ, σ). W oparciu o wyniki małej próby (n < 50) szacujemy
metodą przedziałową nieznaną wariancję σ 2 (lub odchylenie standardowe σ) przy nieznanej wartości średniej µ.
Przedział ufności budujemy w oparciu o statystykę
nS 2
.
σ2
Przedziały ufności dla wariancji i odchylenia standardowego. Model I.
2
2
Z teorii statystyki wiadomo, że zmienna nS
σ 2 ma rozkład χ (chi-kwadrat) o n − 1 stopniach swobody. Oznacza to, że
w tablicach tego rozkładu dla n − 1 stopni swobody można znaleźć zawsze takie liczby χ21 oraz χ22 , aby przy ustalonym
z góry współczynniku ufności 1 − α spełniona była zależność
P
χ21
nS 2
< 2 < χ22
σ
= 1 − α.
Na liczby χ21 oraz χ22 nakłada się warunek
P (χ2 < χ21 ) = P (χ2 > χ22 ) =
1
α.
2
Przedział ufności dla wariancji. Model I.
Dla ustalonego współczynnika ufności 1 − α, liczbę χ21 odczytujemy z tablic wartości krytycznych rozkładu χ2 dla
prawdopodobieństwa 1 − 12 α, zaś liczbę χ22 dla prawdopodobieństwa 12 α przy n − 1 stopniach swobody.
Po przekształceniach otrzymujemy przedział ufności dla parametru σ 2
2
σ ∈
nS 2 nS 2
, 2
χ22
χ1
.
Po uwzględnieniu równości nS 2 = (n − 1)Ŝ 2 otrzymujemy równoważny przedział ufności dla parametru σ 2
σ2 ∈
(n − 1)Ŝ 2 (n − 1)Ŝ 2
,
χ22
χ21
!
.
Przedział ufności dla odchylenia standardowego. Model I.
Dla odchylenia standardowego σ otrzymujemy przedział ufności
σ∈
lub równoważny
σ∈
√
√ !
S n S n
p , p
χ22
χ21
!
√
√
Ŝ n − 1 Ŝ n − 1
p
, p 2
.
χ22
χ1
Przedział ufności dla odchylenia standardowego. Model II.
1
Cecha X populacji genaralnej ma rozkład normalny N (µ, σ) lub asymptotycznie normalny. W oparciu o wyniki
dużej próby (n > 50) szacujemy metodą przedziałową nieznane odchylenie standardowe σ przy nieznanej wartości
średniej µ.
Zmienna losowa S dla dużej próby ma rozkład asymptotycznie normalny N (σ, √σ2n ), zatem zmienna losowa
U=
S−σ
√σ
2n
=
S − σ√
2n
σ
ma rozkład normalny N (0, 1). Oznacza to, że istnieje takie uα , że dla ustalonego współczynnika ufności 1−α spełniony
jest warunek
S − σ√ P 2n < uα ≈ 1 − α.
σ
Przedział ufności dla odchylenia standardowego. Model II.
Po przekształceniach otrzymujemy następujący przedział ufności dla parametru σ
!
√
√
S 2n
S 2n
σ∈ √
, √
.
2n + uα
2n − uα
Wskaźnik struktury.
Dotychczas przy budowie przedziałów ufności uwzględnialiśmy tylko cechy (zmienne losowe) o charakterze mierzalnym.
W praktyce jednak często dysponujemy informacjami o charakterze jakościowym. Wtedy informacje ograniczają się
tylko do dwóch wielkości: n - liczby obserwacji w próbie oraz k - liczby elementów wyróżnionych w tej próbie ze względu
na określoną cechę X. Takie zagadnienie sprowadza się do oszacowania prawdopodobieństwa p zdarzenia losowego
(wskaźnika struktury), a więc prawdopodobieństwa wylosowania z danej populacji elementu posiadającego cechę X.
Prawdopodobieństwo p interpretowane jest jako wskaźnik struktury elementów z wyróżnioną cechą w rozpatrywanej
populacji.
Przedział ufności dla wskaźnika struktury.
Estymatorem wskaźnika struktury jest statystyka K
n , gdzie K jest liczbą sztuk wyróżnonych w n-elementowej próbie.
Wartość tej statystyki dla określonej próby oznaczona będzie przez nk .
Budowa przedziału ufności dla wskaźnika struktury p (zwanego też frakcją) opiera się na rozkładzie estymatora K
n
(dokładnym lub granicznym). Przypadek małej próby jest uciążliwy rachunkowo, więc opracowano tablice, które
podają przedziały ufności dla wskaźników struktury w przypadku małych prób. Jeżeli natomiast dysponujemy dużą
próbą, to wykorzystujemy graniczny rozkład estymatora K
n.
Przedział ufności dla wskaźnika struktury.
!
p(1
−
p)
Dla dużej próby (n > 100) estymator K
p,
. Wynika stąd, że
n ma rozkład asymtotycznie normalny N
n
dla ustalonego współczynnika ufności 1 − α można znaleźć w tablicach rozkładu normalnego N (0, 1) taką liczbę uα ,
dla której spełniony jest warunek


r
K
P −uα < qn
−p
p(1−p)
n
Przybliżony przedział ufności określa więc wzór
s

K
(1 −
K
p ∈  − uα n
n
n
K
n)
< uα  = 1 − α.
s
K
,
+ uα
n
K
n (1
−
n
Wyznaczanie niezbędnej liczby pomiarów
2

K
n )
.
— W wyniku szacowania parametru θ metodą przedziałową otrzymujemy przedział ufności o pewnej długości 2d.
— Niekiedy liczba 2d jest tak duża, że dyskwalifikuje dokonane oszacowanie. Dlatego też szacujemy nieznany parametr
θ dążąc do zapewnienia z góry ustalonej ustalonej długości przedziału 2d.
— Nie zawsze jest to możliwe.
— Parametrem, dla którego można ustalić liczebność próby przy określonej wielkości 2d jest np. wartość średnia.
Wyznaczanie niezbędnej liczby pomiarów
Przypadek I.
— Cecha populacji ma rozkład normalny N (µ, σ).
— Przy ustalonej długości przedziału 2d i współczynniku ufności 1 − α szacujemy metodą przedziałową nieznany
parametr µ przy założeniu,
że znane jest odchylenie
standardowe σ0 .
σ0
σ0
— Otrzymujemy µ ∈ X − uα √ , X + uα √ .
n
n
σ0
— Stąd 2d = 2uα √ .
n
— Wyznaczając n otrzymujemy wzór na liczebność próby przy ustalonej z góry długości przedziału 2d
n=
u2α σ02
.
d2
Wyznaczanie niezbędnej liczby pomiarów
Przypadek II.
— Cecha populacji ma rozkład normalny N (µ, σ).
— Przy ustalonej długości przedziału 2d i współczynniku ufności 1 − α szacujemy metodą przedziałową nieznany
parametr µ przy założeniu, że odchylenie standardowe
σ nie jest znane.
!
Ŝ
Ŝ
— Otrzymujemy µ ∈ X − tα √ , X + tα √
n
n
S
S
lub równoważnieµ ∈ X − tα √
, X + tα √
.
n−1
n−1
Ŝ
S
.
— Stąd 2d = 2tα √ lub równoważnie 2d = 2tα √
n
n−1
— Wyznaczając n otrzymujemy wzór
t2 Ŝ 2
t2 S 2
n = α 2 lub n = α 2 + 1.
d
d
Wyznaczanie niezbędnej liczby pomiarów
Przy wyznaczaniu niezbędnej liczby pomiarów z zastosowaniem tego typu wzoru stosujemy tzw. dwuetapową
procedurę Steina:
— z populacji generalnej losujemy małą próbę wstępną o n0 elementach;
n0
n0
1 X
1 X
— wyznaczamy ŝ2 =
(xi − x)2 lub s2 =
(xi − x)2 ;
n0 − 1 i=1
n0 i=1
— dla podanego współczynnika ufności z tablic rozkładu t-Studenta o n0 − 1 stopniach swobody odczytujemy wartość
krytyczną tα ;
— wyznaczamy n na podstawie odpowiedniego wzoru;
— jeśli n 6 n0 , to liczebność n0 jest wystarczająca;
— jeśli n > n0 , to musimy dolosować próbę o n − n0 elementach.
Rozkład χ2
Zmienna losowa χ2 ma rozkład χ2 o n stopniach swobody, jeżeli jej funkcja gęstości wyraża się wzorem

0
dla x 6 0,


f (x) =
1 n−1 − 1 x

 x 2 e n2
dla x > 0.
n
2
Γ( 2 )2
3
Funkcja Γ nazywa się funkcją gamma Eulera i jest określona wzorem
+∞
Z
Γ(x) =
tx−1 e−t dt, x > 0.
0
Rozkład χ2
Liczbę
χ2α
2
taką, że P (χ >
χ2α )
+∞
Z
=
f (x)dx = α nazywamy wartością krytyczną rozkładu zmiennej losowej
χ2α
χ2 .
Wartości krytyczne χ2α dla danego α i danej liczby stopni swobody n są stablicowane.
Wraz ze wzrostem liczby stopni swobody do nieskończoności rozkład χ2 dąży do rozkładu normalnego. Gdy liczba
stopni swobody jest większa od 30, rozkład normalny daje na ogół dostatecznie dobre przybliżenie rozkładu χ2 .
4