Przykład Szybkość zbieności w CTG:

Transkrypt

Przykład Szybkość zbieności w CTG:
Wykład 5
Nierówność Czebyszewa, CTG
X – zmienna losowa o wartości oczekiwanej
µ i wariancji σ2.
Nierówność Czebyszewa
Dla każdego ε>0
P(| X − µ |> ε ) ≤
σ2
ε2
Przykład
• Samolot zabiera 80 osób. Zakładając, że
waga pasażerów ma pewien rozkład o
wartości oczekiwanej 80 kg i wariancji 10
kg2 oszacować za pomocą nierowności
Czebyszewa prawdopodobieństwo tego,
że łączna waga pasażerów przekroczy
7000 kg.
Wnioski z nierówności Czebyszewa
Centralne Twierdzenie Graniczne
1. Każdy estymator nieobciążony, którego
wariancja maleje do zera wraz ze
wzrostem rozmiaru próby jest zgodny.
• Jeżeli Y ma rozkład normalny to rozkład
(próbkowy) Y jest też normalny (z
mniejszym SD).
• Nawet jeżeli Y nie ma rozkładu
normalnego to dla dużych n rozkład Y jest
bliski normalnemu (warunek dostateczny –
rozkład Y ma skończoną wariancję).
2. Jeżeli wariancja badanego rozkładu jest
skończona to średnia z próby jest
zgodnym estymatorem wartości
oczekiwanej.
Szybkość zbieżności w CTG:
• Co to znaczy ``duże’’ n ?
• To zależy od tego jak bliski rozkładowi
normalnemu jest rozkład Y i jak dużej
dokładności przybliżenia oczekujemy.
• Jeżeli Y ma rozkład normalny to wystarczy
n=
.
• Jeżeli rozkład Y jest w przybliżeniu
symetryczny i nie ma ``ciężkich ogonów’’
to n=30 jest dość duże.
1
Wniosek
• Techniki prezentowane dalej na tym kursie,
dotyczące konstrukcji przedziałów ufności dla µ i
testowania hipotez o średnich, mogą być
również stosowane, gdy rozkład pojedynczych
obserwacji nie jest normalny, o ile tylko rozmiar
prób jest „wystarczająco” duży i rozkład nie ma
„ciężkich ogonów”.
• Założenie o niezależności poszczególnych
obserwacji jest niezbędne.
Przykład:
• Producent ocenia, że 2% jego wyrobów jest
wadliwych. Wyroby te paczkuje się po 40 w jednym
opakowaniu.
• Y = liczba wadliwych wyrobów w losowo wybranej
paczce. Y ma rozkład .........................................
• Niech p̂ = Y/40 = frakcja elementów wadliwych.
• P( p̂ = r ) =
Gdybyśmy otworzyli tysiące paczek, to rozkład frakcji
liczby wadliwych elementów w paczce byłby zgodny
z rozkładem wyliczonym na poprzedniej stronie.
Prawdziwa wartość p jest 0.02 i nie jest nawet
możliwa do zaobserwowania w pojedynczym
eksperymencie, ale na ogół otrzymamy wartości
bliskie 0.02. P-stwo, że p̂ = 0.025 wynosi 36%.
P-stwo, że nasza ocena będzie różnić się nie więcej
niż o 0.03 od prawdziwej wartości wynosi:..............
Rozkład próbkowy estymatora
dla p w rozkładzie dwupunktowym
• Y = liczba sukcesów w n próbach
• y = zaobserwowana liczba sukcesów
• p̂ = Y/n jest estymatorem p
Rozkład p̂ wyznaczamy przy pomocy
(dwumianowego) rozkładu Y!
Pr( pˆ = 0) = Pr(Y = 0) = (1)(.02)0 (.98)40 = 0.45
Pr( pˆ = 0.025) = Pr(Y =1) = (40)(.02)1(.98)39 = 0.36
Pr( pˆ = 0.05) = Pr(Y = 2) = (780)(.02)2 (.98)38 = 0.14
Pr( pˆ = 0.075) = Pr(Y = 3) = (9880)(.02)3 (.98)37 = 0.04
Pr( pˆ ≥ 0.1) = Pr(Y ≥ 4) ≈ 0.01
Przykład
• n=40 i p = 0.02. Jakie jest p-stwo, że
estymator częstości przekracza dwukrotnie (lub
więcej) prawdziwą wartość?
Zatem, jeżeli znajdziemy 3 lub więcej wyrobów
wadliwych w jednej paczce mamy podstawy, żeby
kwestionować twierdzenie producenta o p!
2
Zależność od rozmiaru próby
•
•
•
•
•
•
•
Y ma rozkład Bernoulliego (n,p)
µY=np
Var (Y)=np(1-p)
p̂ =
µ p̂ =
Var ( p̂ )=
UWAGA - p̂ jest nieobciążonym i zgodnym
estymatorem parametru p.
• Dla dużych n rozkład p̂ można przybliżać
rozkładem normalnym.
• Gdy n rośnie, to wariancja
...............
i estymator staje się bardziej ....................
• Przykład; p=0.3.
Rozkład p̂ (gdy p=0.3)
Estymacja wariancji
1
∑ ( X i − µ )2
n
1
S2 =
∑ ( X i − X )2
n −1
2
E ( S0 ) = E ( S 2 ) = σ 2
2
S0 =
n
P(0.25≤ p̂ ≤0.35)
10
0.5
20
0.535
40
0.612
80
0.728
500
0.987
1
(E( X i − µ )4 − σ 4 )
n
E ( X − µ ) 4 (n − 3) 4
Var ( S 2 ) =
−
σ
n
n(n − 1)
2
Var ( S 0 ) =
3
Wnioski
• S02 i S2 są nieobciążonymi estymatorami
wariancji
• Jeżeli czwarty moment rozkładu jest
skończony to są one również
estymatorami zgodnymi
Rozkład χ2
• Definicja: Niech Y1, … Yk będą
niezależnymi zmiennymi losowymi o
rozkładzie N(0,1). Suma kwadratów tych
zmiennych ma rozkład χ2k (rozkład chikwadrat z k stopniami swobody).
Wniosek
• Jeżeli rozmiar próby jest dostatecznie
duży (n>30) to rozkład S2 można
przybliżać rozkładem normalnym o
wartości oczekiwanej σ2 i wariancji
2 σ4 /(n-1).
Estymator wariancji w rozkładzie
normalnym
• Jeżeli obserwacje pochodzą z rozkładu
normalnego to (n-1)S2/σ2 ma rozkład chikwadrat z n-1 stopniami swobody.
Wartość oczekiwana i wariancja
• Jeżeli zmienna X ma rozkład chi-kwadrat z
k stopniami swobody to jej wartość
oczekiwana wynosi
• a jej wariancja wynosi 2k.
• Wniosek z CTG – rozkład chi-kwadrat z k
stopniami swobody przybliżamy przez
N(µ=k, σ2=2k).
Przykład
• W pewnym kraju wzrost mężczyzn można
modelować za pomocą rozkładu
normalnego. W celu oszacowania
wariancji tego rozkładu wylosowano 36
mężczyzn. Oszacuj prawdopodobieństwo,
że wyliczona wariancja próbkowa odchyli
się od rzeczywistej wartości tego
parametru o ponad 4 cm2, jeżeli
rzeczywiste odchylenie standardowe
wynosi σ=5 cm.
4

Podobne dokumenty