Analiza błędów

Transkrypt

Analiza błędów
Estymacja
Estymacją nazywamy szacowanie wartości
parametrów lub postaci rozkładu w populacji
generalnej, na podstawie obserwacji uzyskanych
w próbie losowej.
Opracowanie: dr inż. Małgorzata Rabiej
Estymacja parametryczna
dotyczy szacowania wartości parametrów w
znanym typie rozkładu populacji generalnej.
Estymacja nieparametryczna
dotyczy szacowania nieznanej postaci
funkcyjnej rozkładu.
Opracowanie: dr inż. Małgorzata Rabiej
Estymator.
Definicja.
Estymatorem parametru Q rozkładu
zmiennej losowej X nazywamy taką
statystykę wyznaczoną na podstawie
próby Zn=f(X1, ..., Xn), której rozkład
prawdopodobieństwa zależy od
szacowanego parametru Q.
Opracowanie: dr inż. Małgorzata Rabiej
Błąd szacunku
(estymacji) – różnica pomiędzy wartością
estymatora i parametru
Opracowanie: dr inż. Małgorzata Rabiej
Cechy dobrego estymatora
1. Nieobciążoność
2. Zgodność
3. Efektywność
4. Dostateczność.
Opracowanie: dr inż. Małgorzata Rabiej
Estymator nieobciążony
Estymator nieobciążony to ten, którego
wartość oczekiwana jest dokładnie równa
wartości szacowanego parametru.
(przy wielokrotnym losowaniu próby średnia
z wartości przyjmowanych przez estymator
nieobciążony jest równa wartości
szacowanego parametru).
Opracowanie: dr inż. Małgorzata Rabiej
Obciążoność
Obciążoność oznacza, że oszacowania
dostarczone przez taki estymator są
obarczone błędem systematycznym.
Opracowanie: dr inż. Małgorzata Rabiej
Estymacja
• Obciążeniem estymatora nazywana jest
różnica pomiędzy wartością oczekiwaną i
wartością parametru.
• Dla estymatora nieobciążonego obciążenie = 0.
• Jeśli wraz ze wzrostem liczebności próby
obciążenie bn estymatora maleje, to estymator
nazywany jest estymatorem asymptotycznie
nieobciążonym.
Opracowanie: dr inż. Małgorzata Rabiej
Estymatory zgodne
• Zgodność to własność estymatora
powodująca, że wraz ze wzrostem
liczebności próby wartość estymatora zbliża
się do parametru zbiorowości generalnej.
• Estymator Zn parametru Q nazywamy
zgodnym, jeśli jest stochastycznie zbieżny
do szacowanego parametru Q tzn. jeżeli
lim P{| Zn  Q | }  0
n 
Opracowanie: dr inż. Małgorzata Rabiej
Efektywność estymatora
Efektywnością estymatora nieobciążonego
parametru Q - nazywamy iloraz wariancji
estymatora najefektywniejszego do wariancji
badanego estymatora.
Spośród wszystkich nieobciążonych estymatorów
parametru Q, ten z nich jest najefektywniejszy,
który posiada najmniejszą wariancję.
Odwrotność wariancji estymatora nosi nazwę
precyzji.
Opracowanie: dr inż. Małgorzata Rabiej
Dostateczność (wystarczalność)
• Estymator jest dostateczny, jeśli zawiera
wszystkie informacje, jakie na temat
parametru występują w próbie.
Opracowanie: dr inż. Małgorzata Rabiej
Estymacja punktowa
polega na tym, że jako wartość parametru 
przyjmuje się wartość estymatora tego
parametru, otrzymaną z danej, n-elementowej
próby losowej.
Opracowanie: dr inż. Małgorzata Rabiej
Estymacja przedziałowa
Estymacja przedziałowa polega na zbudowaniu
przedziału liczbowego, który z pewnym, z góry
zadanym prawdopodobieństwem zawiera
nieznaną wartość szacowanego parametru.
To prawdopodobieństwo nazywane jest
współczynnikiem ufności lub poziomem
ufności, a oszacowany przedział - przedziałem
ufności.
Współczynnik ufności oznacza się jako 1-.
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności
jest to losowy przedział wyznaczony za
pomocą rozkładu estymatora, a mający tę
własność, że z dużym, z góry zadanym
prawdopodobieństwem pokrywa wartość
szacowanego parametru.
Zapisujemy go zwykle w postaci
P (a< <b) = 1-.
Opracowanie: dr inż. Małgorzata Rabiej
u
u jest taką wartością w standardowym
rozkładzie normalnym, że pole pod krzywą
gęstości w przedziale (- u , u ) równe jest
1-.
P(|U|  u ) = 1-
Opracowanie: dr inż. Małgorzata Rabiej
( u) = 1- (/2),
Opracowanie: dr inż. Małgorzata Rabiej
P(-u  U  u ) = 1- 
( u)- ( -u) = ( u) –(1- ( u))
2(u)-1 =1- 
2(u) =2- 
( u) = 1- /2
Opracowanie: dr inż. Małgorzata Rabiej
Zakładamy, że 1-  = 0,95
 = 0,05
/2 = 0,025
czyli 1-/2 = 0,975
( u) = 1- (/2) =0,975
Opracowanie: dr inż. Małgorzata Rabiej
Opracowanie: dr inż. Małgorzata Rabiej
Kwantyle u(p) rzędu p
rozkładu normalnego N(0,1);
p = 1-/2

0,2
0,1
0,05
0,02
0,01
p
0,90
0,95
0,975
0,99
0,995
u(p)
(u)
1,28
1,64
1,96
2,33
2,58
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności dla średniej m w populacji
normalnej ze znanym odchyleniem
standardowym
Założenia: Cecha X ma w populacji generalnej
rozkład N(m, ),  - znane.
Pobrano próbę losową (X1, ..., Xn).
Należy, opierając się na próbie pochodzącej z
tej populacji znaleźć przedział ufności dla
parametru m, przyjmując współczynnik ufności
równy 1- .
Opracowanie: dr inż. Małgorzata Rabiej
Estymatorem wartości oczekiwanej jest
n
1
x   xi
n i 1
o rozkładzie
N(m,

n
)
Opracowanie: dr inż. Małgorzata Rabiej
• Standaryzując x
otrzymujemy U
xm
U
n

•
o rozkładzie N(0,1)
Opracowanie: dr inż. Małgorzata Rabiej
P(|U|  u ) = 1-
P(-u < U < u ) = 1 - 
xm
P(  u  
n  u )  1 



 
P x  u 
 m  x  u
  1  
n
n



 
, x  u
 x  u 

n
n

Opracowanie: dr inż. Małgorzata Rabiej
Przykład
• Do napełniania dwukilowych puszek farbą olejną używa
się automatu dozującego. Z doświadczenia wynika, że
rozkład dozowanych ilości farby jest normalny z
odchyleniem standardowym wynoszącym 1,1 dag.
Dokonano 9 losowych pomiarów wagi zawartości puszek
200,8; 199; 198,6; 197,8; 200,2; 199,8; 200,5; 197,5; 198;
Opierając się na powyższych danych wyznaczymy przedział
ufności dla nieznanej średniej wagi farby dozowanej
przez automat przyjmując 1-  = 0,95.
Opracowanie: dr inż. Małgorzata Rabiej
Rozwiązanie


 
 m  x  u
 x  u 

n
n

x =(200,8 + .....) / 9 =199,2
 = 0,05
( u) = 1- (/2)=0,975,
Opracowanie: dr inż. Małgorzata Rabiej
1,1
1,1 

 m  199,2  1,96
199,2  1,96

9
9

198,5 <m <199,9
Otrzymany przedział ufności (198,5; 199,9) jest
jednym z możliwych do otrzymania
przedziałów, które pokrywają z 95% ufnością
nieznana średnią wagę dozowanej farby olejnej.
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności dla średniej m w
populacji normalnej z nieznanym
odchyleniem standardowym.
Założenia: Cecha X ma w populacji generalnej rozkład
N(m, ), m,  - nieznane.
Pobrano próbę losową (X1, ..., Xn).
Należy, opierając się na próbie pochodzącej z tej
populacji znaleźć przedział ufności dla parametru
m, przyjmując współczynnik ufności równy 1- .
Opracowanie: dr inż. Małgorzata Rabiej
• W tym przypadku korzystamy z rozkładu tStudenta, który jest niezależny od parametru 
xm
t
n
s
Opracowanie: dr inż. Małgorzata Rabiej
• Obliczamy z próby wartość średnią i odchylenie
standardowe s
P(- t, < t < t, ) = 1-  ,
xm
P(t ,n 1 
n  t ,n 1 )  1  
s

s
s 
P x  t ,n 1
 m  x  t ,n 1
  1  
n
n


s
,
 x  t ,n 1
n

x  t ,n 1
s
n



Opracowanie: dr inż. Małgorzata Rabiej
Tablice t Studenta.
n
4
5
6
10
11
12
13
18
19
25
26
40
=0,1
2,132
2.015
1.943
1,812
1,796
1,782
1,771
1.734
1.729
1.708
1.706
1.684
 = 0,05
2,776
2.571
2.447
2,228
2,201
1,179
2,160
2.552
2.093
2.060
2.056
2.021
 = 0,02
3,747
3,365
3.143
2,764
2,718
2,681
2,650
2.878
2.539
2.485
2.479
2.423
 =0,01
4,604
4.032
3.707
3,169
3,106
3,055
3,012
3.922
2.861
2.787
2.779
2.704
Przykład.
Wytrzymałość pewnego materiału budowlanego jest
zmienną losową o rozkładzie normalnym N(m,).
W celu oszacowania nieznanej średniej m
wytrzymałości tego materiału dokonano pomiarów
na n = 5 wylosowanych niezależnie sztukach tego
materiału. Otrzymano wartości:
20,4, 19,6, 22,1, 20,8, 21,1.
Przyjmując współczynnik ufności 1- = 0,99
zbudować przedział ufności dla nieznanej średniej.
Opracowanie: dr inż. Małgorzata Rabiej
1
X
n
n

i 1
1
s
n 1
104
Xi 
 20,8
5

2
(Xi  X)  0,676  0,82
• Z tablic t-Studenta odczytujemy dla 1- = 0,99 oraz
dla n-1= 4 stopni swobody wartość t = 4.604
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności dla wariancji 2
w populacji normalnej
Założenia: Cecha X ma w populacji generalnej rozkład
N(m, ), m,  - nieznane.
Pobrano próbę losową (X1, ..., Xn).
Należy, opierając się na próbie pochodzącej z tej
populacji znaleźć przedział ufności dla wariancji ,
przyjmując współczynnik ufności równy 1- .
Opracowanie: dr inż. Małgorzata Rabiej
• Budując przedział ufności będziemy opierać
się na statystyce
(n  1)s
 
2

2
2
Opracowanie: dr inż. Małgorzata Rabiej
W rozkładzie 2 można określić dwie wartości

2

, n 1
2

2

1 , n 1
2
spełniające odpowiednio równości
 2
 
2
P      
, n 1
2

 2
 2


2
P       1 
1 , n 1
2
2


Opracowanie: dr inż. Małgorzata Rabiej
• Z wzorów tych wynika:
 2

2
2

P          1  
1 , n 1
, n 1
2
 2

• Po podstawieniu otrzymamy
 2

(n  1)s 2
2

P   



1



2
1 , n 1
, n 1 

2
 2

Opracowanie: dr inż. Małgorzata Rabiej
• A po przekształceniach

2
 (n  1)s 2
(
n

1
)
s
P 2
 2  2
 
   ,n 1
1 , n 1
2
 2


  1 


Opracowanie: dr inż. Małgorzata Rabiej
Rozkład 2
n
0,05
0,02
0,01
0,98
0,99
2
5.991
7.824
9.210
0.040
0.020
3
7.815
9.837
11.345
0.185
0.115
4
9.488
11.668 13.277
0.429
0.297
5
11.070 13.388 15.086
0.752
0.554
6
12.592 15.033 16.812
1.134
0.872
7
14.067 16.622 18.475
1.564
1.239
Przykład
Badając wytrzymałość elementu konstrukcyjnego
pewnego urządzenia technicznego dokonano n = 4
niezależnych pomiarów wytrzymałości i
otrzymano następujące wyniki:
120, 102, 135, 115.
Zbudować przedziały ufności dla wariancji
wytrzymałości tego elementu, przyjmując
współczynnik ufności =0,96.
Opracowanie: dr inż. Małgorzata Rabiej

2
 (n  1)s 2
(n  1)s
2
P 2
  2
 
   ,n 1
1 , n 1
2
 2
x
=118, s2 = 186
1 -  = 0,96
2

, n 1
2
(n-1)s2 = 558
 = 0,04
 0,185


  1 


1-1/2  =0,98

2
 9,84

1 , n 1
2dr inż. Małgorzata Rabiej
Opracowanie:
Przedział ufności dla wariancji
56,7 < 2 <3016
Przedział ufności dla odchylenia standardowego
7,5 <  < 54,9
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności dla odchylenia
standardowego .
Granice przedziału ufności wyznacza się ze
wzoru


 s

s
P

  1 
u
u

1 
1  

2n
2n 
Opracowanie: dr inż. Małgorzata Rabiej
Przedział ufności dla wskaźnika
struktury p.
• Najlepszym estymatorem parametru p jest
wskaźnik struktury uzyskany z próby a więc
k/n czyli częstość sukcesów k w nelementowej próbce
k
p̂ 
n
Opracowanie: dr inż. Małgorzata Rabiej
Budowę przedziału ufności opiera się w oparciu
o twierdzenie graniczne, że dla dostatecznie
dużego n statystyka p̂ ma w przybliżeniu
rozkład
p(1  p)
N(p,
)
n
a statystyka
U
p̂  p
p(1  p)
n
ma rozkład N(0,1)
Opracowanie: dr inż. Małgorzata Rabiej

p̂(1  p̂)
p̂(1  p̂) 
  1 
P p̂  u 
 p  p̂  u 

n
n


Opracowanie: dr inż. Małgorzata Rabiej
Przykład.
Chcemy oszacować jaki procent pracujących
mieszkańców jada obiady w stołówkach
pracowniczych. Pobrano w tym celu próbę liczącą
n=900 osób i okazało się że 300 osób z tej próby
korzysta ze stołówki pracowniczej.
Przyjmując współczynnik ufności =0,95 zbudować
przedział ufności dla procentu badanej kategorii
osób.
Opracowanie: dr inż. Małgorzata Rabiej
k 300
p̂  
 0,333
n 900
D(p̂) 
p̂(1  p̂)
1/ 3  2 / 3
2


 0,016
n
900
90
Opracowanie: dr inż. Małgorzata Rabiej
Z tablicy rozkładu normalnego N(0,1) i dla
=0,05 znajdujemy u = 1,96.
Otrzymujemy następujący przedział ufności
0,333 -1,96*0,016 < p < 0,333 + 1,96*0,0016
czyli
0,302 <p <0,364
Opracowanie: dr inż. Małgorzata Rabiej
Wyznaczanie niezbędnej liczby
pomiarów dla próby.
1. Otrzymany przedział ma długość 2d
2. Połowa długości przedziału ufności d jest
miarą maksymalnego błędu szacunku
Opracowanie: dr inż. Małgorzata Rabiej
Populacja ma rozkład normalny i
znane jest odchylenie
standardowe.

 

,X  u
X  u

n
n

Opracowanie: dr inż. Małgorzata Rabiej

2d  2u 
u
n

d
n
u 
n
2
d
2

2
Opracowanie: dr inż. Małgorzata Rabiej
Przykład
Zbadać, ile niezależnych obserwacji powinna
liczyć próba, by na jej podstawie można było
oszacować średni czas wykonywania przez
robotnika pewnej operacji technicznej z błędem
maksymalnym
29
sek,
przy
danym
współczynniku ufności = 0,95. Wiadomo, że czas
wykonywania tej operacji jest zmienną losową o
rozkładzie normalnym N(m, 40)
Opracowanie: dr inż. Małgorzata Rabiej
•  =40, 2 =1600.
• Z tablic rozkładu normalnego N(0,1) dla
1- =0,95 odczytujemy u =1,96
(1,96)  1600
n
 15,36  16.
2
20
2
Opracowanie: dr inż. Małgorzata Rabiej
Populacja ma rozkład normalny i
nieznana jest wariancja.
s
s 

P X  t ,n 1
 m  X  t ,n 1
  1 
n
n

2 2
t s
n 2
d
Opracowanie: dr inż. Małgorzata Rabiej
Minimalna liczebność próby przy
szacowanie wskaźnika struktury
Oznaczmy q=1-p.
u
pq
d
n
2

u pq
n 2
d
Opracowanie: dr inż. Małgorzata Rabiej
Przykład
Zbadać, ile należy wylosować niezależnie
studentów do próby, by oszacować procent
studentów tej uczelni palących papierosy z
błędem maksymalnym 5% przy
współczynniku ufności =0,90.
Przypuszcza się, że szacowany procent
studentów palących wynosi 70%.
Opracowanie: dr inż. Małgorzata Rabiej
• Dla 1-= 0,90 u =1,64.
Mamy d = 0,05 oraz p = 0,7 , q= 0,3
u pq 1,64  0,7  0,3
n 2 

225
,
96

226
2
d
0,05
2

2
Opracowanie: dr inż. Małgorzata Rabiej