egzStatystyka_2012_U..

Transkrypt

egzStatystyka_2012_U..
Statystyka matematyczna, UMK. Egzamin, czerwiec 2012
1. Rozważamy rodzinę rozkładów Pareto o gęstości:
fθ (x) =





2θ θ
(2 + x)θ+1
dla x > 0




0
dla x ¬ 0.
gdzie θ > 0 jest nieznanym parametrem. Załóżmy, że obserwujemy pojedynczą
zmienną losową X z wyżej podanego rozkładu. Na podstawie obserwacji X testujemy hipotezę zerową H0 : θ = 1 przeciw alternatywie H1 : θ = 4.
(a) Wyznacz obszar krytyczny (obszar odrzuceń H0 ) dla najmocniejszego testu na
poziomie istotności α = 0.1.
(b) Oblicz moc tego testu, 1 − β.
(c) Oblicz p-wartość testu, jeśli zaobserwowano wartość X = 0.01.
Wskazówka: Dystrybuanta zmiennej losowej X jest dana wzorem
Fθ (x) = 1 −
2θ
,
(2 + x)θ
dla x > 0.
Rozwiązanie. Obliczamy iloraz wiarogodności:
24 · 4 (2 + x)−5
f4 (x)
= 1
·
= (stała) · (2 + x)−3 .
f1 (x)
2 · 1 (2 + x)−2
Jest to malejąca funkcja x więc, na mocy Lematu Neymana-Pearsona, najmocniejszy
test na poziomie istotności α = 0.1 ma obszar krytyczny postaci (2 + x)−3 > c̃ czyli
x < c. Wyznaczamy stałą c z faktu, że prawdopodobieństwo błędu I rodzaju ma
być równe α, czyli P1 (X < c) = α. Stosując wzór na dystrybuantę otrzymujemy
równanie
2
P1 (X < c) = F1 (c) = 1 −
= 0.1.
2+c
Rozwiązaniem tego równania jest c = 2/9.
Odpowiedź (a): {x : x < 2/9}.
2
Moc: P4 (X < c) = 1 −
2+c
dystrybuantę.
4
2
=1−
2 + 2/9
!4
= 1 − (0.9)4 , znów ze wzoru na
Odpowiedź (b): Moc 1 − (0.9)4 .
p-wartość dla x = 0.01 analogicznie: P1 (X < x) = 1 −
1/201, znów ze wzoru na dystrybuantę.
Odpowiedź (c): p-wartość 1/201.
2
2
= 1−
=
2+x
2 + 0.01
2. Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie
o gęstości

 1 x1/θ−1 dla 0 < x < 1;
fθ (x) = θ
0
w pozostałych przypadkach,
gdzie θ > 0 jest nieznanym parametrem.
(a) Wyznacz estymator parametru θ metodą największej wiarogodności.
(b) Wyznacz estymator parametru θ metodą momentów.
(c) Czy estymator największej wiarogodności jest w tym przykładzie nieobciążony,
czy nie jest? Uzasadnij odpowiedź.
Wskazówka: Możesz skorzystać z faktu, że
R 1 1 1/θ−1
x
ln xdx
0 θ
= −θ.
Rozwiązanie. Funkcja wiarogodności i jej logarytm są postaci:
iid
L(θ) = fθ (x1 , . . . , xn ) = fθ (x1 ) · . . . · fθ (xn ) =
l(θ) = ln(L(θ)) = −n ln θ +
X
n
1
−1
θ
1
(x1 · . . . · · · xn )1/θ−1 ,
n
θ
x1 , . . . , xn ∈ (0, 1),
ln(xi ),
i=1
n
n
1 X
∂l
= − − 2
ln(xi ).
∂θ
θ θ i=1
Szukamy ekstremów lokalnych:
n
∂l
1X
= 0 ⇐⇒ θ = −
ln(xi ),
∂θ
n i=1
n
∂l
1X
> 0 ⇐⇒ θ < −
ln(xi ),
∂θ
n i=1
n
1X
∂l
< 0 ⇐⇒ θ > −
ln(xi ).
∂θ
n i=1
n
1 P
ln(xi ) znajduje się maksimum lokalne, które jest jednon i=1
cześnie supremum funkcji l. Szkic wykresu logarytmu funkcji wiarogodności wygląda
następująco:
Zatem w punkcie θ = −
Odpowiedź (a): EN W (θ) = −
n
1 P
ln(xi ).
n i=1
Estymator θ uzyskany metodą momentów:
Parametr θ jest jednowymiarowy, więc wystarczy jedno równanie momentowe:
EX = X̄.
Liczymy EX = EX1 :
EX =
Z1
0
1
1
1 Z 1/θ
1
x · x1/θ−1 dx =
x dx = ·
θ
θ
θ
0
Zatem
1
θ
1
x1/θ+1 |x=1
x=0 =
+1
1
θ
1
θ
+1
=
1
.
1+θ
1
1
− 1,
= X̄ ⇐⇒ θ =
1+θ
X̄
Odpowiedź (b): θ̂ =
1
− 1.
X̄
Obciążenie estymatora EN W (θ):
Należy sprawdzić, czy
?
E(EN W (θ)) = θ.
(1)
Liczymy wartość oczekiwaną estymatora:
n
n
1X
1
1X
(∗)
ln(Xi ) = −
E(ln(Xi )) = − nE(ln(X1 ))
E(EN W (θ)) = E −
n i=1
n i=1
n
!
= −E(ln(Xi )) = −
Z1
0
=
− ln(x)x1/θ |10
+
Z1
1
(∗∗)
ln(x) x1/θ−1 dx = −
θ
x1/θ−1 dx = θx1/θ |10 = θ,
0
zatem mamy równość w (1).
(*) - zmienne X1 , . . . , Xn mają ten sam rozkład
(**) - całkowanie przez części
Odpowiedź (c): Estymator EN W (θ) jest nieobciążony.
u = ln(x)
du =
1
x
dv = 1θ x1/θ−1 v = x1/θ
3. Zważono 10 paczek masła i otrzymano nastepuj
ace
wyniki:
,
,
245; 248; 241; 251; 252; 244; 246; 248; 247; 248.
Zakładamy, że jest to próbka losowa z rozkładu normalnego N(µ, σ 2 ) z nieznanymi
parametrami µ i σ.
(a) Oblicz przedział ufności dla µ na poziomie ufności 1 − α = 0.95.
(b) Przeprowadź test hipotezy H0 : µ = 250 przeciwko alternatywie H1 : µ < 250.
Przyjmij poziom istotności α = 0.05.
(c) Przeprowadź test hipotezy H0 : σ = 5 przeciwko alternatywie H1 : σ > 5.
Przyjmij poziom istotności α = 0.05.
Rozwiązanie. Definiujemy zmienną losową X-waga kostki masła ∼ N (µ, σ 2 ), która
ma rozkład normalny z nieznaną wartością oczekiwaną i wariancją. Dysponujemy
próbką x1 = 245, . . . , xn = 248, zatem:
n = 10 (¬ 30),
n
1X
= 247,
x̄ =
n i=1
n
1 X
1
(xi − x̄)2 = (4 + 1 + 36 + 16 + 25 + 9 + 1 + 1 + 0 + 1)
n − 1 i=1
9
94
' 10, 44,
=
9
q
s =
10, 44 ' 3, 2318,
α
α
1 − α = 0, 95 ⇒ α = 0, 05 ⇒ = 0, 025 ⇒ 1 − = 0, 975,
2
2
α
Ft−1
1−
= Ft−1
(0, 975) = 2, 262.
n−1
9
2
s2 =
gdzie Ft−1
1 − α2 - kwantyl rozkładu t-Studenta z n − 1 stopniami swobody rzędu
n−1
α
1 − 2 . Przedział ufności ma postać:
"
x̄ −
Ft−1
n−1
#
α s
α s
√ , x̄ + Ft−1
√ ,
1−
1−
n−1
2
n
2
n
co po podstawieniu do wzoru daje nam
Odpowiedź (a): [244.69, 249.31].
Test t-Studenta (parametryczny test istotności) dla wartości oczekiwanej w modelu
normalnym z nieznaną wariancją:
H0 = µ = 250 vs H1 : µ < 250,
(hipoteza alternatywna lewostronna). Mamy:
µ0 = 250,
α = 0, 05 ⇒ 1 − α = 0, 95,
Ft−1
(1 − α) = Ft−1
(0, 95) = 1, 833.
n−1
9
Statystyka testowa ma postać
Tn =
√ x̄ − µ0 √ 247 − 250
n
= 10
' −2, 935.
s
3, 2318
Obszar krytyczny jest postaci
K = (−∞, −Ft−1
(1 − α)) = (−∞, −1, 833),
n−1
Zatem Tn ∈ K.
Odpowiedź (b): Odrzucamy hipotezę zerową H0 na rzecz hipotezy alternatywnej H1 .
Test istotności dla odchylenia standardowego w modelu normalnym:
H0 = σ = 5 vs H1 : σ > 5,
(hipoteza alternatywna prawostronna). Mamy:
Fχ−1
2
n−1
σ0 = 5 ⇒ σ02 = 25,
α = 0, 05 ⇒ 1 − α = 0, 95,
(1 − α) = Fχ−1
2 (0, 95) = 16, 919,
9
gdzie Fχ−1
(1−α) - kwantyl rozkładu ch-kwadrat z (n−1) stopniami swobody rzędu
2
n−1
1 − α. Statystyka testowa ma postać
Tn = (n − 1)
10, 44
s2
=9
' 3, 76.
2
σ0
25
Obszar krytyczny jest postaci
K=
Fχ−1
(1
2
n−1
− α), ∞ = (16.919, ∞),
zatem Tn ∈
/ K.
Odpowiedź (c): Nie mamy podstaw do odrzucenia hipotezy zerowej H0 .
4. Typowy student spędza X godzin dziennie na czytaniu książek. Zakładamy, że X ma
rozkład normalny N(3, 22 ). Niech X̄ będzie średnią obliczoną na podstawie próbki
1 P20
20 losowo wybranych studentów, tzn. X̄ = 20
i=1 Xi , gdzie Xi s są niezależnymi
zmiennymi losowymi o tym samym rozkładzie co X.
(a) Jaki jest rozkład prawdopodobieństwa zmiennej losowej X̄ ?
(b) Jakie jest prawdopodobieństwo, że X̄ przekroczy 4?
(c) Oblicz E(X̄ − 3)2 .
Rozwiązanie. Wiadomo z wykładu, że jeśli Xi ∼ N (µ, σ 2 ) to dla średniej z próbki,
X̄ ∼ N (µ, σ 2 /n) = N (3, 4/20).
Odpowiedź (a): X̄ ∼ N (3, 1/5).
Standaryzujemy zmienną losową X̄:

P(X̄ > 4) = P
X̄ − 3


4 − 3
>q
= P(Z >
√
5),
1/5
√
√
gdzie Z ∼ N (0, 1). Z tablic odczytujemy P(Z > 5) = 1 − Φ( 5) = 0.1267366.
q
1/5
Odpowiedź (b): P(X̄ > 4) = 0.1267366
Z definicji wariancji E(X̄ − 3)2 = Var(X̄).
Odpowiedź (c): E(X̄ − 3)2 = 1/5.
5. Oznaczono grupę krwi dla 400 osób. Wyniki były następujące: 85 osób miało grupę
A, 90 osób miało grupę B, 105 osób miało grupę AB, pozostali mieli grupę 0. Zweryfikuj hipotezę zerową H0 mówiącą, że rozkład grup jest równomierny (to znaczy każda
z grup ma jednakowe prawdopodobieństwo). Przyjmij poziom istotności α = 0.05.
(a) Podaj wartość statystyki testowej.
(b) Podaj wartość odpowiedniego kwantyla rozkładu χ2 , z którym należy porównać
wartość statystyki.
(c) Podejmij decyzję: ODRZUCAMY H0 / NIE ODRZUCAMY H0 .
Rozwiązanie.
Stosujemy test χ2 zgodności. Ze wzoru
χ2 =
X
i
(Ni − npi )2
npi
(85 − 100)2 (90 − 100)2 (105 − 100)2 (400 − 85 − 90 − 105 − 100)2
=
+
+
+
100
100
100
100
= 7.5,
bo H0 : p1 = p2 = p3 = p4 = 1/4, n = 400.
Odpowiedź (a): χ2 = 7.5.
Odpowiedź (b): Z tablic χ20.95 (3) = 7.85.
Odpowiedź (c): Ponieważ 7.5 < 7.85 więc nie odrzucamy H0 .
6. Rozkład prawdopodobieństwa dziennej sprzedaży produktu A w pewnym sklepie
jest w przybliżeniu normalny, N(100, 302 ). Rozkład dziennej sprzedaży produktu B
jest w przybliżeniu N(150, 402 ). Zakładamy, że wysokości sprzedaży produktów A i
B są niezależne. Oblicz
(a) prawdopodobieństwo, że dzienna sprzedaż A przekroczy 150PLN;
(b) prawdopodobieństwo, że dzienna sprzedaż A będzie większa niż dzienna sprzedaż B;
(c) prawdopodobieństwo, że dzienna sprzedaż każdego z produktów A i B przekroczy 150PLN;
Rozwiązanie. Standaryzujemy A: P(A > 150) = P(Z > 5/3) = 1 − Φ(5/3) . . . z
tablic = 0.0478
Odpowiedź (a): P(A > 150) = 0.0478
Ponieważ A i B są niezależne, więc A − B ∼ (100 − 50, 302 + 402 ) = N (−50, 502 ).
Stąd P(A > B) = P(A − B > 0) . . . standaryzujemy = P(Z > 1) . . . z tablic
= 0.15868.
Odpowiedź (b): P(A > B) = 0.15868.
Ponieważ A i B są niezależne, więc
P(A > 150, B > 150) = P(A > 150)P(B > 150) = 0.0478 ∗ 0.5.
Odpowiedź (c): P(A > 150, B > 150) = 0.0239.
7. Próba losowa prosta X = (X1 , . . . , Xn ) pochodzi z rozkładu P oiss(λ). Rozważmy
estymator parametru θ = 1 + P (X = 3) postaci
n
P
n+
i=1
θ̂(X) =
1{3} (Xi )
.
n
(a) Zbadaj, czy θ̂ jest estymatorem nieobciążonym.
(b) Oblicz jego ryzyko średniokwadratowe.
(c) Sprawdź mocną zgodność estymatora θ̂.
Rozwiązanie. Zdefiniujmy zmienne losowe postaci
Yi = 1{3} (Xi ) =



1, Xi = 3,


0, Xi 6= 3.
,
i = 1, . . . , n.
Są one (podobnie jak X1 , . . . , Xn ) niezależne o tym samym rozkładzie. Ponadto
EY1 = 1 · P (X1 = 3) + 0 · P (X1 6= 3) = P (X1 = 3),
V ar(Y1 ) = EY12 − (EY1 )2 = 12 · P (X1 = 3) + 02 · P (X1 6= 3) − (P (X1 = 3))2
= P (X1 = 3)(1 − P (X1 = 3)).
Mamy więc
n+
θ̂(X) =
n
P
i=1
1{3} (Xi )
=1+
n
n
1X
Yi .
n i=1
Policzmy wartość oczekiwaną estymatora:
n
n
1X
1X
1
(∗)
E θ̂ = E 1 +
Yi = 1 +
E(Yi ) = 1 + nE(Y1 ) = 1 + P (X1 = 3) = θ.
n i=1
n i=1
n
!
(*)-zmienne Y1 , . . . , Yn mają ten sam rozkład.
Odpowiedź (a): θ̂ jest nieobciążonym estymatorem parametru θ.
Ryzyko estymatora θ̂ w punkcie θ jest równe jego wariancji, ponieważ estymator ten
jest nieobciążony. Zatem:
n
n
X
1X
(∗∗) 1
R(θ) = V ar(θ̂) = V ar 1 +
Yi = 2 V ar
Yi
n i=1
n
i=1
1
(∗∗∗∗) 1
=
nV ar(Y1 ) =
V ar(Y1 )
2
n
n
!
(**) - własności wariancji
(***)-zmienne Y1 , . . . , Yn są niezależne
(****)-zmienne Y1 , . . . , Yn mają ten sam rozkład
Odpowiedź (b): R(θ) = n1 P (X1 = 3)(1
− P (X1 = 3)).
!
n
1 X
V ar(Yi )
= 2
n i=1
(∗∗∗)
Wykorzystamy Mocne Prawo Wielkich Liczb. Ponieważ
E|Y1 | = EY1 = P (X1 = 3) < ∞,
możemy sformułować MPWL dla iid zmiennych Y1 , . . . , Yn , . . .:
n
P
i=1
n
Zatem
θ̂ = 1 +
n→∞p.w.
Yi −→
EY1 = P (X1 = 3.)
n
1X
n→∞p.w.
Yi −→
1 + P (X1 = 3) = θ.
n i=1
Odpowiedź (c): Estymator θ̂ jest mocno zgodnym estymatorem parametru θ.