Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby

Transkrypt

Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby
Pobieranie próby. Rozkład χ2
Graficzne przedstawianie próby

Histogram

Estymatory – przykład
■ Próby z rozkładów cząstkowych
■ Próby ze skończonej populacji
■ Próby z rozkładu normalnego
■ Rozkład χ2

Postać i własności

Znaczenie i zastosowania

Związek z estymatorem wariancji
■ Pobieranie próby z odliczaniem. Próbki
■
KADD – Pobieranie próby. Rozkład chi2
1
Graficzne przedstawianie próby
Rozważamy próbę: x1, x2, ..., xn, która zależy od
jednej zmiennej x. Możemy ją przedstawić jako
wykres 1D – punkty na osi x – będzie to wtedy
jednowymiarowy wykres punktowy.
■ Zwykle stosujemy wykres 2D – tzw. histogram:

Dzielimy przedział zmienności x (lub jego część)
na r przedziałów o jednakowej szerokości Δx:
■
1, 2,  ,r

Środki przedziałów znajdują się w punktach:
x 1, x 2,  , x r

Na osi y odkładamy liczbę elementów próby
przypadającą na dany przedział:
n1, n2,  , nr

Otrzymujemy wykres częstości
KADD – Pobieranie próby. Rozkład chi2
2
Histogram – rysunek
błędy =  n k
wykres
schodkowy
KADD – Pobieranie próby. Rozkład chi2
3
Histogram – szerokość przedziału
xmin = -2.0
Δx = 0.1
r = 100
xmin = -2.0
Δx = 0.2
r = 50
xmin = -2.0
Δx = 0.4
r = 25
Im więcej przedziałów tym
informacja o próbie
dokładniejsza
■ Większa ilość przedziałów
powoduje jednak większe
wahania statystyczne od
punktu do punktu
■ Pole pod krzywą
schodkową jest
proporcjonalne do
wielkości próby
(przeskalowująć przez 1/n
otrzymujemy częstość). 4
■
KADD – Pobieranie próby. Rozkład chi2
Estymatory – przykład
Badamy “nieznany” rozkład prawdopodobieństwa
poprzez estymatory
■ Symulujemy taką sytuację poprzez generację
1000 prób z rozkładu Gaussa o wartości średniej 0
i wariancji 1. Każda próba ma liczność r.
■ Badamy zachowanie estymatorów charakterystyk
rozkładu i estymatorów ich błedów w funkcji
liczności r.
■
1
1
2




 X =  S  X =S  X =
SX 
X =  X 1  X 2  X n 
n
n
S
1
2
2


S
=
S = S =

X
−
X

∑
i
 n−1
 2n−1
1
2
2
2
2
2
2



S2 =

X
−
X


X
−
X


X
−
X

{ 1
}  S =S
2
n
n−1
n−1

KADD – Pobieranie próby. Rozkład chi2

5
Estymatory – histogramy
r = 20
r = 50
r = 100
r = 200
KADD – Pobieranie próby. Rozkład chi2
6
Próby z rozkładów cząstkowych
■
Dzielimy populację G na podpopulacje Gi, które są
opisane gęstościami prawdopodobieństwa fi(x).
x
F i  x=∫−∞ f i  x dx=P  X  x∣x∈G i 
■
Dla całej populacji
mamy:
t
t
F  x=P  X  x∣x∈G =∑i=1 P  X  x∣X ∈G i  P  X ∈G i =∑i=1 P  X ∈G i  F i  x
■
a dla gęstości prawdopodobieństwa:
t
f  x=∑i=1 P  X ∈G i  f i  x
■
W skrócie oznaczamy P(xGi)=pi. Obliczamy
wartość średnią:
∞
t
∞
t
x =E { X }=∫−∞ xf  x dx=∑i=1 pi ∫−∞ xf i  x dx=∑i=1 pi x i
czyli wartość średnia z populacji to średnia
ważona wartości średnich podpopulacji
pomnożonych przez ich prawdopodobieństwa
KADD – Pobieranie próby. Rozkład chi2
7
Wariancja rozkładów cząstkowych
■
Wariancja dla próby z rozkładów
cząstkowych
t
 2  X =E { x− x 2 }=∑i=1 p i E {[ x− x i  x i − x ]2 }
=∑i=1 p i {   x i − x 
t
2
i
2
}
jest średnią ważoną wariancji z podpopulacji i
wariancji wartości średniej podpopulacji względem
wartości średniej z całej populacji.
■ Z każdej populacji wybieramy próbkę o liczności
ni, w sumie n elementów. Średnia wynosi wtedy:
t
n
t
1
1
 p= ∑ ∑ X ij = ∑ ni X
i
X
n i=1 j=1
n i=1
i
■
Wartość oczekiwana i wariancja to:
t
1
 p }= ∑ ni x i
E {X
n i=1
t
t
t
ni 2
1
1
1
2
2
2
2
2



  X p = 2 ∑i=1 ni E { X i − x i  }= 2 ∑i=1 ni   X i = ∑i=1  i
n
n
n
n
KADD – Pobieranie próby. Rozkład chi2
8
Estymatory dla rozkładów cząstkowych
■
Estymatory dla prób z rozkładów cząstkowych nie
mogą zależeć od dowolnego podziału cząstek n.
Warunek ten jest spełniony tylko dla pi = ni/n:
t
i
X =∑i=1 pi X
t
t
 2  X =∑i=1 pi2  2  X i =∑i=1
■
2
pi 2
i
ni
Można zadać pytanie, jaka jest optymalna
wielkość próbek ni, która pozwala na minimalizację
wariancji. Rozwiązaniem jest:
ni =n pi  i / ∑ pi  i
czyli liczność próbki z podpopulacji i musi być
proporcjonalna do jej prawdopodobieństwa
mnożonego przez jej odchylenie standardowe
KADD – Pobieranie próby. Rozkład chi2
9
Próba ze skończonej populacji
Mamy populację o N elementach y1, y2, ..., yn.
Pobieramy z niej próbę n elementów X1, X2, ..., Xn.
■ Prawdopodobieństwo pobrania każdego elementu y
jest jednakowe,N stąd
2
N
N
■
■
1
E { y }= y = y =
N
1
  y=
N −1
∑ j=1 y j
2
{∑
j=1
1
y −
N
2
j
Szczególnie ważna jest suma kwadratów:
∑
j=1
yj
}
N
2

y
−
y

∑ j=1 j 
■
Wartości yi nie są ograniczone, ale mamy warunek:
N
∑ j=1  y j − y =0
■
Mówimy, że liczba stopni swobody wynosi tu N-1.
Suma kwadratów przez liczbę stopni swobody to
odchylenie średnie kwadratowe. Często używamy
pierwiastka z odchylenia kwadratowego (RMS).
10
KADD – Pobieranie próby. Rozkład chi2
Pobieranie próby z rozkładu normalnego
■
Badamy populację opisaną rozkładem Gaussa o
wartości średniej a i wariancji σ2. Z tej populacji
wybieramy próbę o liczności n. Napiszmy funkcję
charakterystyczną wartości średniej:
n
{
   }
2

t
t
2 2
 X t =exp itaexp − t / 2  ⇒  X t = exp i aexp −
n
2 n
■
Rozpatrując zmienną
 −a= X
 − x
X

2 t 2
 X −a t =exp −
2n

mamy:
2
ponownie otrzymujemy funkcję charakterystyczną
rozkładu normalnego, ale ze zmienioną wariancją:
 = 2  X / n
2 X
KADD – Pobieranie próby. Rozkład chi2
11
Rozkład χ2
Rozpatrujemy rozkład normalny (a=0, σ=1):
 X t =exp −t 2 / 2 n 
■ Pobieramy z niego próbę n elementów i tworzymy z
nich sumę kwadratów:
■
X 2 = X 12  X 22  X 2n
■
Można udowodnić, że wielkość X2 ma dystrybuantę:

1
2
−1 −1/ 2 u
F  =
u
e
du
∫
 0
  2
2
■
gdzie λ=1/2 n, a n to liczba stopni swobody.
Wprowadzamy oznaczenie:
1
k=
  2
i otrzymujemy gęstość prawdopodobieństwa
2
2 −1 −1/ 2 2
f  =k⋅ 
e
KADD – Pobieranie próby. Rozkład chi2
12
Rozkład χ2 – parametry
■
Funkcja charakterystyczna rozkładu χ2 to:
 t =1−2 it −
2
■
Korzystając z własności f. charakterystycznej
otrzymujemy natychmiast, że suma dwóch
różnych rozkładów χ2 o n1 i n2 stopniach swobody
daje rozkład χ2 o n=n1+n2 stopniach swobody.
Różniczkując f. charakterystyczną mamy:
E { X 2 }=−i  ' 0=2 ≡n
2
E { X 2 2 }=−i  ' ' 0=4 2 4 
2
■
2
  X =E { X  }− E { X } =4 ≡2 n
2
2
2 2
2
czyli wartość średnia rozkładu χ2 wynosi n, a
wariancja – 2n.
KADD – Pobieranie próby. Rozkład chi2
13
Rozkład χ2 – wykres
■
Wykresy rozkładu χ2 oraz
jego dystrybuanty dla n
od 1 do 20.
KADD – Pobieranie próby. Rozkład chi2
14
Rozkład χ2 – zastosowanie
■
Rozkład χ2 stosuje się jako miarę ufności
uzyskanego wyniku. Im mniejsza wartość χ2 tym
pozornie słuszniejszy wynik. Jako miary zaufania
do wyniku używa się wielkości:
W 2 =1 −F 2 
nazywanej poziomem ufności.
■ W rzeczywistych przypadkach mamy do czynienia
z pełnym rozkładem Gaussa o dowolnym a i σ.
Wprowadzamy wtedy odpowiednie przeskalowanie
X2=
 X 1 −a2  X 2−a2  X n−a2
2
a w ogólnym przypadku gdy zmienne są zależne:
T
X =  X −a  B  X −a 
2
KADD – Pobieranie próby. Rozkład chi2
15
Rozkład χ2 a estymator wariancji
■
Nieobciążony i zgodny estymator wariancji z
populacji to:
S2 =
■
1
 2  X 2 − X
 2  X n− X
 2 }
X 1−X
{
n−1
Można udowodnić, że zmienna losowa:
n−1 2
S
2

ma rozkład χ2 z f=n-1 stopniami swobody. Wynika
to stąd, że wyrażenia  X i − X 2 nie są liniowo
niezależne, gdyż zawierają czynnik X , który zależy
od wszystkich wartości X i . Każde dodatkowe
równanie pomiędzy wyrażeniami  X i− X 2 redukuje
liczbę stopni swobody o 1.
KADD – Pobieranie próby. Rozkład chi2
16
Próba z odliczaniem. Próbki
■
Często doświadczenie polega na dokonaniu wielu,
n obserwacji, z których tylko k ma interesujące
właściwości. Resztę, n-k zdarzeń odrzucamy.
Wybieramy więc k z n elementów. Stosuje się tu r.
dwumianowy z parametrami p i q. Poszukujemy
parametru p. Jego estymatorem jest
k
S  p=
n
a jego wariancja wynosi:
p1− p
 S  p=
n
2
■
Łącząc wzory otrzymujemy estymator wariancji
 
1k
k
S S  p=
1−
nn
n
2
KADD – Pobieranie próby. Rozkład chi2
17
Błąd statystyczny
■
Błąd Δk możemy zdefiniować jako:
 k =  S 2 S np
wtedy otrzymamy:

 k = k 1−
■
k
n

Zależy on jedynie od liczby wybranych elementów
i liczności próby. Nazywamy go błędem
statystycznym. Szczególnie ważny jest przypadek,
gdy k«n. Następuje wtedy przejście w granicy do
rozkładu Poissona, parameter λ=np i mamy:
S =S np=k
 =  k
czyli w przybliżeniu błąd statystyczny liczby zliczeń
k jest równy √k
KADD – Pobieranie próby. Rozkład chi2
18
Błąd statystyczny – interpretacja
■
Rozważmy błąd statystyczny bardziej szczegółowo.
Dla dużych k można rozkład Poissona przybliżyć
przez rozkład Gaussa o a=λ i σ2=λ czyli k. Można
wtedy zdefiniować pojęcie granic przedziału
ufności przy zadanym poziomie ufności β=1-α:
P − ≤≤ =1 − ⇒ P  xk∣= =1 −/ 2 ∧P  xk∣=− =1 −/ 2
■
Rozwiązując odpowiednie równania mamy:

k −−
1 −/ 2 =0

■


k −
/ 2 =0


W dalszych rozważaniach stosujemy kilka funkcji:
Ω - funkcję odwrotną do dystrybuanty rozkładu
normalnego Ψ0, oraz funkcję Ω' - odwrotną do
funkcji P'(x)=P(|X|<x)
KADD – Pobieranie próby. Rozkład chi2
19
Błąd statystyczny – wynik
■
Rozwiązując poprzednie równania otrzymujemy
ostateczny wynik:
− =k −  ' 1−a
■
 =k  ' 1−a
Zgodnie z wcześniejszymi założeniami σ2=λ czyli
najlepszy estymator σ2 to k. Tak więc możemy
przepisać wzory:
− =k −  k  ' 1−  =k   k ' 1−
■
Korzystając z poznanych wcześniej wartości
funkcji Ω' zauważamy, że Ω'(α)=1, gdy 1-α=68,3%.
Tak więc rzeczywiście widzimy, że prawdziwa
wartość k znajduje się w przedziale (k-√k, k+√k) z
prawdopodobieństwem odpowiadającym
przedziałowi (a-σ, a+σ) rozkładu Gaussa
0
KADD – Pobieranie próby. Rozkład chi2
2
Górna granica ufności
■
Rozważmy przypadek, gdy nie jest spełniony
warunek o dużym k. Wtedy nie można przybliżyć
r. Poissona przez r. Gaussan i badamy rozkład:
 −
f n ;= e
n!
■
Dla przedziału ufności β=1-α otrzymujemy:
1 −/ 2 =F k ;− 
/ 2 =F k 1 ; 
gdzie F jest dystrybuantą r. Poissona. Ten układ
równań rozwiązujemy numerycznie.
■ Dla bardzo małych próbek szukamy górnej granicy
ufności λ(up). Dostajemy ją rozwiązując
równanie:
k
P nk∣=up ==1−
■
lub
=∑n=0 f n ;up =F k 1 ;up 
W skrajnym przypadku dla k=0, α=F(1;λ(up))
KADD – Pobieranie próby. Rozkład chi2
21