Analiza błędów

Transkrypt

Analiza błędów

Estymacja
Estymacją nazywamy szacowanie wartości
parametrów lub postaci rozkładu w populacji
generalnej, na podstawie obserwacji uzyskanych
w próbie losowej.
Opracowanie: dr inż. Małgorzata Rabiej
Estymacja parametryczna
dotyczy szacowania wartości parametrów w
znanym typie rozkładu populacji generalnej.
Estymacja nieparametryczna
dotyczy szacowania nieznanej postaci
funkcyjnej rozkładu.
Estymator.
Definicja.
Estymatorem parametru Q rozkładu
zmiennej losowej X nazywamy taką
statystykę wyznaczoną na podstawie
próby Zn=f(X1, ..., Xn), której rozkład
prawdopodobieństwa zależy od
szacowanego parametru Q.
Błąd szacunku
(estymacji) – różnica pomiędzy wartością
estymatora i parametru
Cechy dobrego estymatora
1. Nieobciążoność
2. Zgodność
3. Efektywność
4. Dostateczność.
Estymator nieobciążony
Estymator nieobciążony to ten, którego
wartość oczekiwana jest dokładnie równa
wartości szacowanego parametru.
(przy wielokrotnym losowaniu próby średnia
z wartości przyjmowanych przez estymator
nieobciążony jest równa wartości
szacowanego parametru).
Obciążoność
Obciążoność oznacza, że oszacowania
dostarczone przez taki estymator są
obarczone błędem systematycznym.
Estymacja
• Obciążeniem estymatora nazywana jest
różnica pomiędzy wartością oczekiwaną i
wartością parametru.
• Dla estymatora nieobciążonego obciążenie = 0.
• Jeśli wraz ze wzrostem liczebności próby
obciążenie bn estymatora maleje, to estymator
nazywany jest estymatorem asymptotycznie
nieobciążonym.
Estymatory zgodne
• Zgodność to własność estymatora
powodująca, że wraz ze wzrostem
liczebności próby wartość estymatora zbliża
się do parametru zbiorowości generalnej.
• Estymator Zn parametru Q nazywamy
zgodnym, jeśli jest stochastycznie zbieżny
do szacowanego parametru Q tzn. jeżeli
lim P{| Zn  Q | }  0
n 
Efektywność estymatora
Efektywnością estymatora nieobciążonego
parametru Q - nazywamy iloraz wariancji
estymatora najefektywniejszego do wariancji
badanego estymatora.
Spośród wszystkich nieobciążonych estymatorów
parametru Q, ten z nich jest najefektywniejszy,
który posiada najmniejszą wariancję.
Odwrotność wariancji estymatora nosi nazwę
precyzji.
Dostateczność (wystarczalność)
• Estymator jest dostateczny, jeśli zawiera
wszystkie informacje, jakie na temat
parametru występują w próbie.
Estymacja punktowa
polega na tym, że jako wartość parametru 
przyjmuje się wartość estymatora tego
parametru, otrzymaną z danej, n-elementowej
próby losowej.
Estymacja przedziałowa
Estymacja przedziałowa polega na zbudowaniu
przedziału liczbowego, który z pewnym, z góry
zadanym prawdopodobieństwem zawiera
nieznaną wartość szacowanego parametru.
To prawdopodobieństwo nazywane jest
współczynnikiem ufności lub poziomem
ufności, a oszacowany przedział - przedziałem
ufności.
Współczynnik ufności oznacza się jako 1-.
Przedział ufności
jest to losowy przedział wyznaczony za
pomocą rozkładu estymatora, a mający tę
własność, że z dużym, z góry zadanym
prawdopodobieństwem pokrywa wartość
szacowanego parametru.
Zapisujemy go zwykle w postaci
P (a< <b) = 1-.
u
u jest taką wartością w standardowym
rozkładzie normalnym, że pole pod krzywą
gęstości w przedziale (- u , u ) równe jest
1-.
P(|U|  u ) = 1-
( u) = 1- (/2),
P(-u  U  u ) = 1- 
( u)- ( -u) = ( u) –(1- ( u))
2(u)-1 =1- 
2(u) =2- 
( u) = 1- /2
Zakładamy, że 1-  = 0,95
 = 0,05
/2 = 0,025
czyli 1-/2 = 0,975
( u) = 1- (/2) =0,975
Kwantyle u(p) rzędu p
rozkładu normalnego N(0,1);
p = 1-/2

0,2
0,1
0,05
0,02
0,01
p
0,90
0,95
0,975
0,99
0,995
u(p)
(u)
1,28
1,64
1,96
2,33
2,58
Przedział ufności dla średniej m w populacji
normalnej ze znanym odchyleniem
standardowym
Założenia: Cecha X ma w populacji generalnej
rozkład N(m, ),  - znane.
Pobrano próbę losową (X1, ..., Xn).
Należy, opierając się na próbie pochodzącej z
tej populacji znaleźć przedział ufności dla
parametru m, przyjmując współczynnik ufności
równy 1- .
Estymatorem wartości oczekiwanej jest
n
1
x   xi
n i 1
o rozkładzie
N(m,

n
)
• Standaryzując x
otrzymujemy U
xm
U
n

•
o rozkładzie N(0,1)
P(|U|  u ) = 1-
P(-u < U < u ) = 1 - 
xm
P(  u  
n  u )  1 



 
P x  u 
 m  x  u
  1  
n
n



 
, x  u
 x  u 

n
n

Przykład
• Do napełniania dwukilowych puszek farbą olejną używa
się automatu dozującego. Z doświadczenia wynika, że
rozkład dozowanych ilości farby jest normalny z
odchyleniem standardowym wynoszącym 1,1 dag.
Dokonano 9 losowych pomiarów wagi zawartości puszek
200,8; 199; 198,6; 197,8; 200,2; 199,8; 200,5; 197,5; 198;
Opierając się na powyższych danych wyznaczymy przedział
ufności dla nieznanej średniej wagi farby dozowanej
przez automat przyjmując 1-  = 0,95.
Rozwiązanie


 
 m  x  u
 x  u 

n
n

x =(200,8 + .....) / 9 =199,2
 = 0,05
( u) = 1- (/2)=0,975,
1,1
1,1 

 m  199,2  1,96
199,2  1,96

9
9

198,5 <m <199,9
Otrzymany przedział ufności (198,5; 199,9) jest
jednym z możliwych do otrzymania
przedziałów, które pokrywają z 95% ufnością
nieznana średnią wagę dozowanej farby olejnej.
Przedział ufności dla średniej m w
populacji normalnej z nieznanym
odchyleniem standardowym.
Założenia: Cecha X ma w populacji generalnej rozkład
N(m, ), m,  - nieznane.
Należy, opierając się na próbie pochodzącej z tej
populacji znaleźć przedział ufności dla parametru
m, przyjmując współczynnik ufności równy 1- .
• W tym przypadku korzystamy z rozkładu tStudenta, który jest niezależny od parametru 
xm
t
n
s
• Obliczamy z próby wartość średnią i odchylenie
standardowe s
P(- t, < t < t, ) = 1-  ,
xm
P(t ,n 1 
n  t ,n 1 )  1  
s

s
s 
P x  t ,n 1
 m  x  t ,n 1
  1  
n
n


s
,
 x  t ,n 1
n

x  t ,n 1
s
n



Tablice t Studenta.
n
4
5
6
10
11
12
13
18
19
25
26
40
=0,1
2,132
2.015
1.943
1,812
1,796
1,782
1,771
1.734
1.729
1.708
1.706
1.684
 = 0,05
2,776
2.571
2.447
2,228
2,201
1,179
2,160
2.552
2.093
2.060
2.056
2.021
 = 0,02
3,747
3,365
3.143
2,764
2,718
2,681
2,650
2.878
2.539
2.485
2.479
2.423
 =0,01
4,604
4.032
3.707
3,169
3,106
3,055
3,012
3.922
2.861
2.787
2.779
2.704
Przykład.
Wytrzymałość pewnego materiału budowlanego jest
zmienną losową o rozkładzie normalnym N(m,).
W celu oszacowania nieznanej średniej m
wytrzymałości tego materiału dokonano pomiarów
na n = 5 wylosowanych niezależnie sztukach tego
materiału. Otrzymano wartości:
20,4, 19,6, 22,1, 20,8, 21,1.
Przyjmując współczynnik ufności 1- = 0,99
zbudować przedział ufności dla nieznanej średniej.
1
X
n
n

i 1
1
s
n 1
104
Xi 
 20,8
5

2
(Xi  X)  0,676  0,82
• Z tablic t-Studenta odczytujemy dla 1- = 0,99 oraz
dla n-1= 4 stopni swobody wartość t = 4.604
Przedział ufności dla wariancji 2
w populacji normalnej
Założenia: Cecha X ma w populacji generalnej rozkład
N(m, ), m,  - nieznane.
Należy, opierając się na próbie pochodzącej z tej
populacji znaleźć przedział ufności dla wariancji ,
przyjmując współczynnik ufności równy 1- .
• Budując przedział ufności będziemy opierać
się na statystyce
(n  1)s
 
2

2
2
W rozkładzie 2 można określić dwie wartości

2

, n 1
2

2

1 , n 1
2
spełniające odpowiednio równości
 2
 
2
P      
, n 1
2

 2
 2


2
P       1 
1 , n 1
2
2


• Z wzorów tych wynika:
 2

2
2

P          1  
1 , n 1
, n 1
2
 2

• Po podstawieniu otrzymamy
 2

(n  1)s 2
2

P   



1



2
1 , n 1
, n 1 

2
 2

• A po przekształceniach

2
 (n  1)s 2
(
n

1
)
s
P 2
 2  2
 
   ,n 1
1 , n 1
2
 2


  1 


Rozkład 2
n
0,05
0,02
0,01
0,98
0,99
2
5.991
7.824
9.210
0.040
0.020
3
7.815
9.837
11.345
0.185
0.115
4
9.488
11.668 13.277
0.429
0.297
5
11.070 13.388 15.086
0.752
0.554
6
12.592 15.033 16.812
1.134
0.872
7
14.067 16.622 18.475
1.564
1.239
Przykład
Badając wytrzymałość elementu konstrukcyjnego
pewnego urządzenia technicznego dokonano n = 4
niezależnych pomiarów wytrzymałości i
otrzymano następujące wyniki:
120, 102, 135, 115.
Zbudować przedziały ufności dla wariancji
wytrzymałości tego elementu, przyjmując
współczynnik ufności =0,96.

2
 (n  1)s 2
(n  1)s
2
P 2
  2
 
   ,n 1
1 , n 1
2
 2
x
=118, s2 = 186
1 -  = 0,96
2

, n 1
2
(n-1)s2 = 558
 = 0,04
 0,185


  1 


1-1/2  =0,98

2
 9,84

1 , n 1
2dr inż. Małgorzata Rabiej
Opracowanie:
Przedział ufności dla wariancji
56,7 < 2 <3016
Przedział ufności dla odchylenia standardowego
7,5 <  < 54,9
Przedział ufności dla odchylenia
standardowego .
Granice przedziału ufności wyznacza się ze
wzoru


 s

s
P

  1 
u
u

1 
1  

2n
2n 
Przedział ufności dla wskaźnika
struktury p.
• Najlepszym estymatorem parametru p jest
wskaźnik struktury uzyskany z próby a więc
k/n czyli częstość sukcesów k w nelementowej próbce
k
p̂ 
n
Budowę przedziału ufności opiera się w oparciu
o twierdzenie graniczne, że dla dostatecznie
dużego n statystyka p̂ ma w przybliżeniu
rozkład
p(1  p)
N(p,
)
n
a statystyka
U
p̂  p
p(1  p)
n
ma rozkład N(0,1)

p̂(1  p̂)
p̂(1  p̂) 
  1 
P p̂  u 
 p  p̂  u 

n
n


Przykład.
Chcemy oszacować jaki procent pracujących
mieszkańców jada obiady w stołówkach
pracowniczych. Pobrano w tym celu próbę liczącą
n=900 osób i okazało się że 300 osób z tej próby
korzysta ze stołówki pracowniczej.
Przyjmując współczynnik ufności =0,95 zbudować
przedział ufności dla procentu badanej kategorii
osób.
k 300
p̂  
 0,333
n 900
D(p̂) 
p̂(1  p̂)
1/ 3  2 / 3
2


 0,016
n
900
90
Z tablicy rozkładu normalnego N(0,1) i dla
=0,05 znajdujemy u = 1,96.
Otrzymujemy następujący przedział ufności
0,333 -1,96*0,016 < p < 0,333 + 1,96*0,0016
czyli
0,302 <p <0,364
Wyznaczanie niezbędnej liczby
pomiarów dla próby.
1. Otrzymany przedział ma długość 2d
2. Połowa długości przedziału ufności d jest
miarą maksymalnego błędu szacunku
Populacja ma rozkład normalny i
znane jest odchylenie
standardowe.

 

,X  u
X  u

n
n


2d  2u 
u
n

d
n
u 
n
2
d
2

2
Przykład
Zbadać, ile niezależnych obserwacji powinna
liczyć próba, by na jej podstawie można było
oszacować średni czas wykonywania przez
robotnika pewnej operacji technicznej z błędem
maksymalnym
29
sek,
przy
danym
współczynniku ufności = 0,95. Wiadomo, że czas
wykonywania tej operacji jest zmienną losową o
rozkładzie normalnym N(m, 40)
•  =40, 2 =1600.
• Z tablic rozkładu normalnego N(0,1) dla
1- =0,95 odczytujemy u =1,96
(1,96)  1600
n
 15,36  16.
2
20
2
Populacja ma rozkład normalny i
nieznana jest wariancja.
s
s 

P X  t ,n 1
 m  X  t ,n 1
  1 
n
n

2 2
t s
n 2
d
Minimalna liczebność próby przy
szacowanie wskaźnika struktury
Oznaczmy q=1-p.
u
pq
d
n
2

u pq
n 2
d
Przykład
Zbadać, ile należy wylosować niezależnie
studentów do próby, by oszacować procent
studentów tej uczelni palących papierosy z
błędem maksymalnym 5% przy
współczynniku ufności =0,90.
Przypuszcza się, że szacowany procent
studentów palących wynosi 70%.
• Dla 1-= 0,90 u =1,64.
Mamy d = 0,05 oraz p = 0,7 , q= 0,3
u pq 1,64  0,7  0,3
n 2 

225
,
96

226
2
d
0,05
2

2

Analiza błędów

Transkrypt

Podobne dokumenty

i przenikające do szpiku kości zimno. Nie śpieszyło się nam więc

L. P Nazwa zespołu Przewodniczący/Członkowie 1. Zespól ds

Nowe perspektywy funkcjonowania rynku finansowego

PSYCHOLOGIA ROZWOJOWA DZIECKA Gr. IV Busko

ZEBRANIA Z RODZICAMI wtorek 6 września 2016r. KLASY I

Tradycja we współczesności. Spis Treści

Dr Przemysław Bąbel Lista osób przyjętych na

L.p. Nazwisko i imię 1. Dutkiewicz Joanna 2. Bialik Magdalena 3

Chichot losu (4 DVD)