Metody bayesowskie w statystyce.

Transkrypt

Metody bayesowskie
w statystyce
prof. dr hab. W. Niemiro
Spis treści
1.
2.
3.
4.
5.
Klasyczny i bayesowski punkt widzenia w statystyce. Przykłady. . . . . .
Przykład Laplace’a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Podstawy probabilistyczne: warunkowe rozkłady prawdopodobieństwa, warunkowe wartości oczekiwane, twierdzenie Bayesa. . . . . . . . . . . . . .
Warunkowe rozkłady prawdopodobieństwa i wartości oczekiwane. . . . .
Prawdopodobieństwo warunkowe i warunkowa wartość oczekiwana. . . .
Budowa statystycznych modeli bayesowskich. rozkłady a priori i a posteriori , warunkowa niezależność, statystyki dostateczne. . . . . . . . . . .
Podstawowy model bayesowski. . . . . . . . . . . . . . . . . . . . . . . .
Dostateczność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wykładnicze rodziny rozkładów prawdopodobieństwa. . . . . . . . . . . .
Typowe modele bayesowskie ze sprzężonymi rodzinami rozkładów. . . . .
Funkcje straty, estymacja i predykcja bayesowska. . . . . . . . . . . . . .
Teoria decyzji statystycznych . . . . . . . . . . . . . . . . . . . . . . . .
Problemy klasyfikacji/dyskryminacji. . . . . . . . . . . . . . . . . . . . .
Zmienne losowe w Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wielowymiarowe rozkłady normalne. . . . . . . . . . . . . . . . . . . . .
Różne funkcje straty w zadaniach estymacji. . . . . . . . . . . . . . . . .
Testowanie hipotez statystycznych. . . . . . . . . . . . . . . . . . . . . .
Krzywa (α − β) Neymana – Pearsona. . . . . . . . . . . . . . . . . . . .
Testowanie hipotez złożonych w ujęciu bayesowskim. . . . . . . . . . . .
Zbiory (przedziały ufności) w ujęciu bayesowskim. . . . . . . . . . . . . .
Predykcja liniowa i liniowe modele bayesowskie. . . . . . . . . . . . . . .
2
.
.
3
3
.
.
.
5
5
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
15
18
20
23
24
24
28
31
31
35
36
38
39
40
41
3
Metody bayesowskie w statystyce
1.
Klasyczny i bayesowski punkt widzenia w statystyce. Przykłady.
05.10.2006r.
Przykład 1 (Laplace’a).
0
1
n
1
n+1
n
0
1
n+1
1
n+1
1 n−1
1
n + 1 ponumerowanych kul
1
n+1
n
2 n−2
n + 1 urn
n
2
1. Wybieramy jedną z urn z jednakowym prawdopodobieństwem
1
.
n+1
2. Losujemy m razy ze zwracaniem (z/z) z wybranej uprzednio urny.
3. Losujemy jeszcze raz, (n + 1)-szy raz z tejże urny.
Wiadomo, że w m losowaniach wybraliśmy same kule białe.
Jakie jest prawdopodobieństwo, że w kolejnym (n + 1)-szym losowaniu też wyjdzie biała?
U – numer urny wylosowanej w 1-szym etapie
P(U = i) =
1
n+1
i = 0, 1, . . . n
(rozkład a priori )
S – liczba kul białych w m losowaniach 2-go etapu
P(S = k|U = i) =
m
k
n−i
n
k n−k
i
n
X – liczba kul białych w (m + 1)-szym losowaniu 3-go etapu
P(X = 1|U = i) =
P(X = 1|S = m) =
n−i
n
P(X = 0|U = i) =
P(X = 1, S = m)
(Twierdzenie Bayesa)
P(S = m)
i
n
4
i
n
P(S = m|U = i) = 1 −
P(S = m) =
n
X
i=0
m
P(S = m|U = i)P(U = i) =
P(S = m, X = 1) =
n X
i=0
i
1−
n
m+1
n X
i=0
i
1−
n
m
·
1
n+1
1
·
n+1
Zatem:
n
1X
j m+1
1
·
n j=0 n
n+1
P(X = 1|S = m) = i=0X
=
m
n m =
n 1X
1
j
i
1−
n n+1
n j=0 n
i=0
n X
i
1−
n
n
1X
j
f
n j=0 n
m+1
=
n X
j
1
f
n j=0 n
Z 1
−→ Z0
0
xm+1 dx
1
xm dx
=
m+1
m+2
` Rozkład prawdopodobieństwa definiuje się przy pomocy prawdopodobieństwa warunkowego.
` Subiektywna interpretacja prawdopodobieństwa na 1-szym etapie.
` Twierdzenie Bayesa.
` Nacisk na predykcję.
Przykład 2 (Kapsle Tymbark).
60 kapsli
50 różnych napisów
200 dalszych kapsli
X = ? różnych napisów
50
1
951
51
52
– prawdopodobieństwo wyboru urny
S = 50
X=?
Zadanie domowe 1.
P(X = 190|U = 1000)
Algorytm 1.
U
S
ukryte
znamy
X
chcemy przewidzieć
1000
5
1. Losujemy z rozkładu U , P(U = i) =
1
951
(z rozkładu a priori)
2. Znając U losujemy z rozkładu S|U
rozkład a posteriori
P(U = i|S = 50)
Jeśli S 6= 50, odrzuć (przejdź do 1)
Jeśli S = 50, wylosuj X|U , zapamiętaj
Przykład 3.
Są 2 typy kierowców ostrożni – O i ryzykanci – R. Na jednego ostrożnego przypada 4
ryzykantów. Jeśli kierowca jest ostrożny, to powoduje szkodę w ciągu roku z prawdopodobieństwem 0.1. Jeśli kierowca jest ryzykantem, to powoduje szkodę w ciągu roku z
prawdopodobieństwem 0.4.
1. Ubezpieczamy nowego kierowcę. Jakie jest prawdopodobieństwo, że zgłosi szkodę?
2. Kierowca zgłosił szkodę w 1-szym roku ubezpieczenia. Jakie jest prawdopodobieństwo, że jest typu O?
3. Kierowca zgłosił szkodę w 1-szym roku. Jakie jest prawdopodobieństwo, że zgłosi
szkodę i w 2-gim roku?
4. Kierowca zgłosił szkody w dwóch kolejnych latach. Jakie jest prawdopodobieństwo,
że zgłosi szkodę i w trzecim roku?
2.
Podstawy probabilistyczne: warunkowe rozkłady
prawdopodobieństwa, warunkowe wartości oczekiwane, twierdzenie Bayesa.
19.10.2006r.
Warunkowe rozkłady prawdopodobieństwa i wartości oczekiwane.
Gęstość rozkładu prawdopodobieństwa:
(X , A, µ)
przestrzeń
σ-ciało
miara σ-skończona
A ⊆ 2X , µ : A −→
R+
(Ω, F, P) – przestrzeń probabilistyczna
X : Ω −→ X – zmienna losowa o wartościach w X
∀A∈A
X −1 (A) = {ω ∈ Ω; X(ω) ∈ A} = {X ∈ A} ∈ F
6
Rozkład prawdopodobieństwa zmiennej losowej X
A 3 A 7−→ P(X ∈ A) = PX (A)
PX : A −→ [0, 1]
P : F → [0, 1]
Ω
X
−1
X
X
(A)
A
P
PX
Definicja 1.
Rozkład prawdopodobieństwa zmiennej losowej X ma gęstość f = fX : X −→ R+ ,
jeśli:
P(X ∈ A) =
∀A∈A
Przykład 4.
X = Rd ,
µ – miara Lebesgue’a,
Z
A
Z
A
f (x)µ(dx) =
Z
A
f dµ
A – σ - ciało borelowskie
f (x)µ(dx) =
Z
A
f (x)dx
Przykład 5.
X – przeliczalny, lub skończony,
µ – miara licząca, tzn.:
µ(A) =
Z
A
= 2X
#A jeśli A jest skończony
∞ w p.p.
(A
f (x)µ(dx) =
X
f (x)
x∈A

(X , A, µ) 
(Y , B, ν) 
przestrzeń z miarami σ - skończonymi
(X × Y , A ⊗ B, µ ⊗ ν)
A ⊗ B = σ({A × B;
A ∈ A,
B ∈ B})
przestrzeń dyskretna
7
B
:
:
ν(B)
C
:
:
A
µ(A)
µ ⊗ ν(A × B) = µ(A) · ν(B)
Umowa 1.
f : X × Y −→ R
Z Z
x
tw. F ubiniego
f (x, y)µ ⊗ ν(dx, dy)
=
Y
X ×Y
(X, Y ) : Ω −→ X × Y
X
f (x, y)µ(dx)ν(dy) =
Z
Y
Z
X
f (x, y)dxdy
– zmienna losowa, czyli odwzorowanie mierzalne
względem σ - ciała produktowego
Definicja 2.
Rozkład prawdopodobieństwa zmiennej losowej (X, Y ) ma gęstość łączną f = fX,Y ,
X × Y −→ R+ , jeśli:
x
∀C∈A⊗B
f (x, y)µ(dx)ν(dy) = P (X, Y ) ∈ C
C
Uwaga 1.
Wystarczy jeśli
Z Z
B
A
f (x, y)µ(dx)ν(dy) = P(X ∈ A, Y ∈ B) ∀A∈A
Uwaga 2.
Rozkład brzegowy zmiennej losowej X ma gęstość
fX (x) =
P(X ∈ A) tw. F ubiniego
=
Z
A
Z
Y
f (x, y)ν(dy)
fX (x)µ(dx)
Uwaga 3.
Jeżeli X i Y – dyskretne, to
fX (x) = P(X = x) =
X
y
f (x, y)
f (x, y) = P(X = x, Y = y)
∀B∈B
8
Definicja 3.
Załóżmy, że: (X, Y ) : Ω −→ X × Y
ma gęstość łączną f .
Gęstość warunkową określamy wzorem:

 f (x,y)
f (y|x) = fY |X (y|x) =

fX (x)
jeśli fX (x) > 0
0
w p.p.
Uwaga 4.
Jeżeli X i Y dyskretne, to:
f (y|x) =
P(X = x, Y = y)
= P(Y = y|X = x)
P(X = x)
Definicja 4.
Prawdopodobieństwo warunkowe
P(Y ∈ B|X = x) =
Z
B
ozn.
f (y|x)ν(dy) = p(B, x)
1. Dla dowolnego x, z wyjątkiem zbioru N = {x; f (x) = 0}
p(·, x) jest miarą probabilistyczną
na (Y , B)
Z
Jeżeli fX (x) > 0, to
Y
f (y|x)ν(dy) = 1
2. Dla dowolnego B ∈ B
p(B, ·) : (X , A) −→ R – jest mierzalne
Uwaga 5.
Jeżeli X jest przestrzenią dyskretną, to:
P(Y ∈ B|X = x) =
Przykład 6.
U , V – niezależne o rozkładzie U(0, 1)
P(Y ∈ B, X = x)
P(X = x)
v
1
2
fU,V (u, v) = 1 dla (u, v) ∈ [0, 1]
1
Przykład 7.
Niech: X = min(U, V ) i Y = max(U, V )


fX,Y (x, y) = f (x, y) = 
2 0¬x¬y¬1
fX (x) =
f (y|x) =
x
f (x, y)dy =
f (x,y)
fX (x)


=
Y
1
C
0 w p.p.
X, Y ∈ C ⇔ (U, V ) ∈ C
Z 1
u
lub
Z 1
x
(U, V ) ∈ C
2dy = 2(1 − x)
1
1−x
0¬x¬y¬1
0
w p.p.
1
X
9
f (y|x) jest gęstością rozkładu U(x, 1)
P Y >
9
|X
10
=x =
1
Z 1
f (y, x)dy =
9
10


1

1
10
dla x >
·
1
1−x
dla x
9
10
9
10
x
1
Definicja 5.
Warunkowa wartość oczekiwana
Z
E(Y |X = x) =
Y
yf (y|x)dy
Uwaga 6.
Bardziej ogólnie, jeśli h : Y −→ R lub Rd
E h(Y )|X = x =
Z
Y
h(y)f (y|x)dy
Uwaga 7.
Rozpatrujemy warunkową wartość oczekiwaną jako funkcję x
E h(Y )|X = x = r(x)
r : X −→ R lub Rd
25.10.2006r.
Prawdopodobieństwo warunkowe i warunkowa wartość oczekiwana.
X, Y : Ω −→ X × Y
f (x, y) – gęstość względem µ ⊗ ν ,
µ, ν – albo miary Lebesqea albo miary liczące
konwencja: µ(dx) = dx,
f (y|x) =
f (x,y)
fX (x)
df
P(Y ∈ B|X = x) =
Z
B
f (y|x)dy
Przykład 8.
U1 , U2 – niezależne ∼ U(0, 1)
X = min(U1 , U2 ) , Y = max(U1 , U2 )
f (x, y) =

2 ,
0 ,
0¬x¬y¬1
w p. p.
Dla ustalonego x ∈ (0, 1)
f (y|x) =

 1
, y ∈ (x, 1)
0 ,
w p. p.
1−x
Rozkład warunkowy przy danym X = x jest U(x, 1)
ν(dy) = dy
10
Wzór na prawdopodobieństwo całkowite
Z
P(Y ∈ B) =
P(Y ∈ B|X = x)fX (x)dx
X
Dowód.
P(Y ∈ B) =
Z
=
Z
B
X
fY (y)dy =
Z
B
Z Z
B
X
f (x, y)dxdy =
Z Z
B
X
f (y|x)fX (x)dxdy
f (y|x)dy fX (x)dx
2
Wzór Bayesa
f (x|y) =
f (y|x)fX (x)
fY (y)
Dowód.
f (x|y) =
f (x, y)
fY (y)
2
Jeżeli µ i ν – miary liczące
f (x, y) = P(X = x, Y = y) , fX (x) = P(X = x) , f (y|x) = P(Y = y|X = x)
P(Y ∈ B) =
X
x
P(Y ∈ B|X = x)P(X = x)
Wzór Bayesa dla miar liczących
P(X = x|Y = y) =
P(Y = y|X = x)P(X = x)
P(Y = y)
Definicja 6.
E (Y |X = x) =
Z
Y
yf (y|x)dy = r(y) ,
r : X −→ Y
Wzór na prawdopodobieństwo całkowite
EY =
Z
X
E (Y |X = x) fX (x)dx
Dowód.
EY =
Z
=
Z
EY =
Z
Y
X
X
yfY (y)dy =
Z
Y
Z
Y
y
Z
X
f (x, y)dxdy =
Z
Y
y
Z
X
f (y|x)fX (x)dxdy
yf (y|x)dy fX (x)dx
E (Y |X = x)fX (x)dx =
Z
X
r(x)fX (x)dx = E r(X)
2
11
Definicja 7.
Zmienną losową r(X) oznaczamy E (Y |X)
Ω
X
GGGGGA
r
GGGGA
X
Y
r(X) = r ◦ X
r(X)(ω) = r(X(ω))
Wniosek 1 (Wzór na prawdopodobieństwo całkowite).
E Y = E E (Y |X)
Własności warunkowej wartości oczekiwanej – E (Y |X)
0. E (Y |X) jest funkcją zmiennej losowej X
1. E (Y1 + Y2 |X) = E (Y1 |X) + E (Y2 |X)
2. E (aY |X) = aE (Y |X)
3. Jeżeli X i Y są niezależne, to E (Y |X) = E Y
4. E (h(Y )|X = x) =
R
Y
5. E (h(Y, X)|X = x) =
h(y)f (y|x)dy ,
R
Y
f (x, y) = fX (x)fY (y)
f (y|x) = fY (y)
E (Y |X = x) = E Y
h : Y −→ R
h(y, x)f (y|x)dy ,
h : Y × X −→ R
6. E (h(Y )g(X)|X = x) = g(x)E (h(Y )|X = x)
E (h(Y )g(X)|X) = g(X)E (h(Y )|X)
7. E E (Y |X) = E Y
Definicja 8.
V ar(Y |X = x) =
Z
Y
ozn.
(y − r(x))2 f (y|x)dy = v(x)
Definicja 9.
Zmienną losową v(X) ozn. V ar(Y |X)
V ar(Y |X) = E [(Y − E (Y |X))2 |X] = E (Y 2 |X) − E (Y |X)2
Ponieważ:
V ar(Y |X) = E [(Y − E (Y |X))2 |X] = E [Y 2 − 2Y E (Y |X) + E (Y |X)2 |X]
= E (Y 2 |X) − 2E (Y |X)E (Y |X) + E (Y |X)2 = E (Y 2 |X) − E (Y |X)2
Twierdzenie 1.
V ar(Y ) = E V ar(Y |X) + V arE (Y |X)
12
Dowód. V ar(Y ) = E v(X) + V ar r(X) ,
V ar(Y ) =
=
=
Z
2
ZY
(y − m) fY (y)dy =
Z
X
Z
Y
Z
X
Y
Z
X
Z
Y
Z
X
Z
X
Y
(y − m)2 f (y|x)fX (x)dydx
(y − r(x) + r(x) − m)2 f (y|x)dyfX (x)dx
(y − r(x))2 f (y|x)dy fX (x)dx +
{z
|
=
Z
m = E Y = E r(X)
Z
X
(r(x) − m)2
}
v(x)
Z
Y
f (y|x)dy fX (x)dx
|
{z
}
1
v(x)fX (x)dx + V ar r(X) = E v(X) + V ar r(X)
(y − r(x))(r(x) − m)f (y|x)dyfX (x)dx =
Z
X
Z
(r(x) − m)
Y
(y − r(x))f (y|x)dyfX (x)dx
{z
|
}
0
2
Przykład 9.
X=0
X=1
O ¡@ R
¡
ª
¡
t d d
V ar(Y |X = 0) =
V ar(Y |X = 1) =
E (Y |X = 0) =
E (Y |X = 1) =
1
3
2
3
2
9
2
9
V ar(Y |X) =
@
@
R
t t d
t–Y =1
d–Y =0
2
9
E V ar(Y |X) =
2
9
V arE (Y |X) =
1
4·9
26.10.2006r.
Specyfikacja rozkładu łącznego przez rozkłady warunkowe.
O¡¡ @@R
ª
¡
t d
@
R
t d d
X
Y
t–Y =1
d–Y =0
P(X = 0) = 12 = P(X = R)
P(Y = 1|X = 0) = 21
P(Y 6= 1|X = R) = 13
Przykład 10.
N – liczba rozszerzeń. N ∼ P oiss(λ). Każde roszczenie jest uwzględniane z prawdopodobieństwem p lub odrzucane z prawdopodobieństwem q = 1 − p, niezależnie dla każdego
roszczenia.
K – liczba roszczeń uwzględnionych. P(K = k) = „?”
13
P(K = k|N = n) =
P(K = k) =
∞
X
n=k
n
k
P(K = k|N = n)P(N = n) =
= e−λ pk
i=n−k
= e−λ
3.
pk q n−k
∞
X
n=k
n k n−k −λ λn
p q e
k
n!
!
∞
λn
pk X
λn−k λk n−k
n!
q n−k
= e−λ
q
n!
k! n=k (n − k)!
n=k k!(n − k)!
∞
X
∞
(λp)k X
(λp)k λq
(λp)k
(λq)i
= e−λ
e = e−λp
,
k! i=0 i!
k!
k!
K ∼ P oiss(λp)
Budowa statystycznych modeli bayesowskich. rozkłady a priori i a posteriori , warunkowa niezależność, statystyki dostateczne.
Definicja 10.
Załóżmy, że X, Y1 , Y2 mają łączną gęstość na X × Y1 × Y2 . Mówimy, że Y1 i Y2 są
warunkowo niezależne przy danym X jeśli
ozn. Y1 Y2
X
²
f (y1 , y2 |x) = f (y1 |x)f (y2 |x)
∀x,y1 ,y2
²
Wniosek 2.
Jeśli Y1 Y2 X, to f (y2 |x, y1 ) = f (y2 |x)
Dowód.
f (y2 |x, y1 ) =
f (x, y1 , y2 )
f (y1 , y2 |x)f (x)
f (y1 |x)f (y2 |x)f (x)
=
=
= f (y2 |x)
f (x, y1 )
f (y1 |x)f (x)
f (y1 |x)f (x)
2
(Y1 , . . . , Yn )
X
²
Uogólnienie:
f (y1 , . . . , yn |x) =
n
Y
i=1
f (yi |x)
I Rzucamy monetę.
II Losujemy kolejno z tej samej, wybranej urny z/z kule Y1 , . . . , Yn
Podstawowy model statystyki bayesowskiej.
Y – przestrzeń obserwacji
Y – zmienna losowa interpretowana jako „obserwacja”
Rodzina rozkładów prawdopodobieństwa na przestrzeni Y o gęstościach fθ (y) (względem
ustalonej miary ν na σ - ciele A)
θ – parametr rozkładu prawdopodobieństwa, θ ∈ P – przestrzeń parametrów
Y , A, {fθ ν : θ ∈ P}
– przestrzeń statystyczna
14
gdzie fθ ν oznacza miarę probabilistyczną o gęstości fθ względem ν
Jeżeli na zbiorze P mamy σ - ciało C i miara probabilistyczna πµ (o gęstości π względem
miary µ na P)
Y , A, {fθ ν : θ ∈ P}, C, πµ = Y , {fθ : θ ∈ P}, π
– bayesowska przestrzeń statystyczna
Y 6y
fθ
π
-θ
P
Łączny rozkład prawdopodobieństwa na P × Y ma gęstość
df
f (θ, y) = π(θ)fθ (y)
Możemy traktować parametr jako zmienną losową Θ o rozkładzie prawdopodobieństwa π
Gęstość warunkowa
f (y|θ) =
f (θ, y)
= fθ (y)
π(θ)
Terminologia
π – rozkład a priori
f (y|θ) = fθ (y) – wiarogodność
Rozkład a posteriori
πy (θ) = f (θ|y) =
f (y|θ)π(θ)
,
f (y)
gdzie f (y) =
Z
P
f (y|θ)π(θ)dθ
Przykład 11.
Y = {0, 1, . . . , n} – przestrzeń obserwacji
P = [0, 1] – przestrzeń parametrów
Y – liczba sukcesów w schemacie Bernoulliego z prawdopodobieństwem sukcesu θ i liczbą
doświadczeń n
!
n k
P(Y = k|θ) =
θ (1 − θ)n−k = f (k|θ)
k
π – rozkład jednostajny U(0, 1)
π(θ) ≡ 1
f (k) =
Z 1
0
!
!
!
!
n k
n Z1 k
n Γ(k + 1)Γ(n − k + 1)
n k!(n − k)!
n−k
n−k
θ (1 − θ) dθ =
θ (1 − θ) dθ =
=
k
k 0
k
Γ(n + 2)
k (n + 1)!
15
Stąd
f (k|θ)π(θ)
πk (θ) =
=
f (k)
n
k
θk (1 − θ)n−k
n k!(n−k)!
k (n+1)!
=
(n + 1)! k
θ (1 − θ)n−k
k!(n − k)!
n k
= (n + 1)
θ (1 − θ)n−k = const · θk (1 − θ)n−k
k
!
a posteriori
a priori
1
0
0.3
n = 100
k = 30
const θ30 (1 − θ)70
n = 10
k=3
const θ3 (1 − θ)7
1
Szukamy max gęstości
log πk (θ) = const + k log θ + (n − k) log(1 − θ)
0
1
1
log πk (θ) = k · + (n − k) ·
· (−1)
θ
1−θ
1
1
k · + (n − k) ·
· (−1) = 0
θ
1−θ
1
1
k · = (n − k) ·
θ
1−θ
k(1 − θ) = (n − k)θ
(n − k + k)θ = k
k
θ=
n
Definicja 11.
Mówimy, że Θ ∼ Beta(α, β), jeśli ma gęstość
π(θ) =
Γ(α + β) α−1
θ (1 − θ)β−1 ,
Γ(α)Γ(β)
dla 0 < θ < 1 ,
α>0,
β>0
Beta(1, 1) ∼ U (0, 1)
Beta(2, 1) ∼ 2θ
Beta(1, 2) ∼ 2(1 − θ)
02.11.2006r.
Podstawowy model bayesowski.
Przestrzeń
P ×Y
µ
ν
16
Θ
Y
df
f (θ; y) = π(θ)f (y|θ)
gdzie
π(θ) – rozkład a priori , (gęstość względem miary µ)
f (y|θ) – wiarogodność, (gęstość względem miary ν)
Zwykle (niekoniecznie) Y = (Y1 , . . . , Yn ),
danym Θ = θ
Y1 , . . . , Yn – są warunkowo niezależne przy
f (θ; y1 , . . . , yn ) = π(θ)
Y
i
f (yi |θ)
Y = Y1n
Rozkład brzegowy obserwacji
f (y) =
Z
P
f (θ, y)dθ
f (y1 , . . . , yn ) =
Z
f (θ, y1 , . . . , yn )dθ
P
πy (θ) = f (θ|y) =
π(θ)f (y|θ)
∝ π(θ)f (θ)
f (y)
Definicja 12.
g1 (θ) ∝ g2 (θ)
∃c6=0
g1 (θ) = cg2 (θ)
Y = Y1n+1 , Θ, Y1 , . . . , Yn , Yn+1
Czasami
gdzie
f (y) =
⇔
Θ
– nieobserwowana zmienna losowa; („wymyślona”)
Y1 , . . . , Yn – obserwacje
Yn+1
– nieobserwowana zmienna losowa; (nie znamy jej, ale poznamy)
Z
f (y|θ)π(θ)dθ
f (y2 |y1 ) =
Z
f (y2 |θ, y1 )f (θ|y1 )dθ
Rozkład predykcyjny
f (yn+1 |y1 , . . . , yn ) =
Przykład 12.
Bernoulli/Beta
Z
f (yn+1 |y1 , . . . , yn , θ)f (θ|y1 , . . . , yn )dθ =
P = [0, 1] ,
Z
f (yn+1 |θ)πy1 ,...,yn (θ)dθ
Y = {0, 1}n+1
Schemat Bernoulliego z nieznanym prawdopodobieństwem sukcesu θ
Y1 , . . . , Yn , Yn+1

P
= 1) = θ = P(Y = 1|θ) = f (1|θ)
Pθ (Y = 0) = 1 − θ = P(Y = 0|θ) = f (0|θ)
θ (Y
17
f (y|θ) = θy (1 − θ)1−y
f (y1 , . . . , yn |θ) = Pθ (Y1 = y1 , · · · , Yn = yn ) = θΣyi (1 − θ)n−Σyi – rozkład Bernoulliego
Rozkład a priori Θ ∼ Beta(α, β)
π(θ) =
Γ(α + β) α−1
θ (1 − θ)β−1 ∝ θα−1 (1 − θ)β−1
Γ(α)Γ(β)
πy1 ,...,yn (θ) ∝ θα−1 (1−θ)β−1 θΣyi (1−θ)n−Σyi = θα+ΣYi −1 (1−θ)β+n−Σyi −1 ∼ Beta(α+Σyi , β+n−Σyi )
α + Σyi
α
α+β
Σyi
n
α
=
·
+
·
= (1 − z)
+y·z
α+β+n
α+β α+β+n
n α+β+n
α+β
n
gdzie z =
α+β+n
dla n → ∞ z → 1
E (Θ|y1 , . . . , yn ) =
α
– średnia a priori
α+β
y – średnia z obserwacji
Rozkład brzegowy
Γ(α + β) α+Σyi −1
θ
(1 − θ)β+n−Σyi −1 dθ
0 Γ(α)Γ(β)
Γ(α + β) Γ(α + Σyi )Γ(β + n − Σyi )
Γ(α + β) Γ(α + s)Γ(β + n − s)
=
·
=
·
Γ(α)Γ(β)
Γ(α + β + n)
Γ(α)Γ(β)
Γ(α + β + n)
f (y1 , . . . , yn ) = P(Y1 = y1 , . . . , Yn = yn ) =
=
α(α + 1)(α + 2) . . . (α + s − 1)β(β + 1)(β + 2) . . . (β + n − s − 1)
(α + β)(α + β + 1) . . . (α + β + n − 1)
=
−α(−α − 1)(−α − 2) . . . (−α − s + 1)(−β)(−β − 1)(−β − 2) . . . (−β − n + s + 1)
(−α − β)(−α − β − 1) . . . (−α − β − n + 1)
=
−α
−β
s
n−s
−α−β
n
P
Yi = s =
·
−α
−β
s
n−s
−α−β
n
X
Z 1
s!(n − s)!
=
n!
−α
−β
s
n−s
−α−β
n
1
· n = P(Y1 = y1 , . . . , Yn = yn )
s
Rozkład predykcyjny
f (1|y1 , . . . , yn ) = P(Yn+1 = 1|y1 , . . . , yn ) =
=
Z 1
0
Z 1
0
P(Yn+1 = 10|θ)πy1 ,...,yn (θ)dθ
θπy1 ,...,yn (θ)dθ = E (Θ|y1 , . . . , yn ) =
α
(1 − z) + y · z
α+β
Przykład Laplace’a
Y1 , . . . , Yn , Yn+1
P(Y1 = y1 , . . . , Yn = yn |θ) = θΣyi (1 − θ)n−Σyi ,
gdzie θ =
k
m
18
Rozkład a priori
π(
z=
n
n
=
n+α+β
n+2
k
k
1
) = P(Θ = ) =
m
m
m+1
P(Yn+1 = 1|Y1 = . . . = Yn = 1) = 21 ·
n
n+1
2
+1·
=
n+2
n+2
n+2
w granicy
09.11.2006r.
Dostateczność.
Y – przestrzeń obserwacji
P – przestrzeń parametrów
{fθ } – rodzina rozkładów prawdopodobieństwa na Y
π – rozkład a priori na P
Y6
fθ (y) = f (y|θ)
df
f (θ, y) = fθ (y)π(θ)
Definicja 13.
Statystyka jest to funkcja mierzalna
θ
-
P
T : Y −→ T
Przykład 13.
Y = Rn , Y = (Y1 , . . . , Yn )
1X
Y =
Yi
n i
T : Rn −→ R
Definicja 14.
Statystyka T jest dostateczna, jeśli dla każdego θ rozkład warunkowy zmiennej Y przy
danym T (Y ) = t jest taki sam (nie zależy od θ).
Y i T – przestrzenie dyskretne (założenie upraszczające)
Definicja 15.
T jest dostateczne, jeśli Pθ (Y = y|T (Y ) = t) – nie zależy od θ
Uwaga 8 (DOST).
Pθ (Y = y|T (Y ) = t) = 0, jeśli T (y) 6= t
rozkład warunkowy jest skupiony na {y; T (y) = t}
19
Uwaga 9.
W modelu bayesowskim dostateczność można zapisać
P(Y = y|T (Y ) = t, Θ = θ) = P(Y = y|T (Y ) = t)
Definicja 16 (FAKT). Kryterium faktoryzacji
T jest dostateczna, jeśli
fθ (y) = Pθ (Y = y) = P(Y = y|Θ = θ)
daje się przedstawić jako
hθ T (y) g(y) (nie zależy od θ)
Definicja 17 (WN).
Warunkowa niezależność
P Y = y, Θ = θ|T (Y ) = t = P Y = y|T (Y ) = t P Θ = θ|T (Y ) = t
Umowa:
df
T = T (Y )
Definicja 18 (BDOST). Bayesowska dostateczność
P Θ = θ|Y = y = P Θ = θ|T (Y ) = T (y)
Twierdzenie 2.
DOST ⇔ FAKT ⇔ WN ⇔ BDOST
Dowód. DOST ⇒ FAKT
fθ (y) = P(Y = y|Θ = θ) = P(Y = y, T = T (y)|Θ = θ)
= P(Y = y|T = T (y), Θ = θ)P(T = T (y)|Θ = θ)
DOST
= P(Y = y|T = T (y))P(T = T (y)|Θ = θ)
FAKT ⇒ BDOST
P(Θ = θ|Y = y) =
P(Y = y|Θ = θ)P(Θ = θ)
=
P(Y = y)
hθ T (y) g(y)P(Θ = θ)
P(Y = y)
hθ T (y) g(y)P(Θ = θ)
=X = P(Θ = θ|T = T (y))
hθ0 T (y) g(y)P(Θ = θ0 )
θ0
P(Θ = θ|Y = y, T = T (y)) = P(Θ = θ|T = T (y))
WN ⇔ DOST ⇔ BDOST
Przykład 14.
Model Bin/Beta
2
20
Y1 , . . . , Y n
f (1|θ) = P(Yi = 1|θ) = θ ,
P(Yi = 0|θ) = 1 − θ = f (0|θ)
Y1 , . . . , Yn – warunkowo niezależne |θ
π(θ) =
Γ(α + β) α−1
θ (1 − θ)β−1
Γ(α)Γ(β)
Kryterium faktoryzacji
n Y
WN
f (y1 , . . . , yn |θ) = f (y1 |θ) . . . f (yn |θ) =
S(y) =
X
θyi (1 − θ)1−yi = θΣyi (1 − θ)n−Σyi · 1
i=1
yi – jest statystyką dostateczną
Rozkład warunkowy
(Y1 , . . . , Yn ) przy danym S(Y1 , . . . , Yn ) =
P Y1 = y 1 , . . . , Y n = y n |
=
X
X
Yi = S
Yi = s =

0
 P(Y1 =y1 ,...,Yn =yn ,S=s)
P(S=s)
jeśli
P
yi 6= s
P(Y1 = y1 , . . . , Yn = yn ) θs (1 − θ)n−s
1
= n
= n
P(S = s)
θs (1 − θ)n−s
s
s
BDOST
πy (θ) = f (θ|y1 , . . . , yn ) =
f (θ|y1 , . . . , yn ) = f (θ|S = s)
f (y1 , . . . , yn |θ)π(θ)
∝ θΣyi (1 − θ)n−Σyi θα−1 (1 − θ)β−1
f (y1 , . . . , yn )
gdzie s =
P
yi
Jeśli f (y|θ) i π(θ) są gęstościami względem dowolnych miar σ - skończonych, to
FAKT
f (y|θ) = hθ T (y) g(y)
WN
f (y, θ|t) = f (y|t)f (θ|t)
BDOST
f (θ|y) = f (θ|t)
gdzie t = T (y)
15.11.2006r.
Wykładnicze rodziny rozkładów prawdopodobieństwa.
X – przestrzeń obserwacji
X – zmienna losowa (obserwacja) o gęstości fθ (x) ,
x∈X ,
θ∈Θ
Definicja 19.
Rodzina rozkładów prawdopodobieństwa na X jest rodziną wykładniczą jeśli gęstości są
postaci:
!
(∗)
fθ (x) = exp
k
X
j=1
Tj (x)gj (θ) + g0 (θ) h(x) ,
θ∈Θ
21
Przykład 15.
Rodzina rozkładów U (0, θ), θ > 0 nie jest rozkładem, wykładniczym (ponieważ zbiór na
którym sie zeruje ta gęstość zależy od θ)
1
fθ (x) = 1[0,θ] (x)
θ
Przykład 16.
{Ex(θ) : θ > 0} jest rodziną wykładniczą,
X = [0, ∞)
fθ (x) = θe−θx = exp(−θx + log θ)
Przykład 17.
{P oiss(θ) : θ > 0} jest rodziną wykładniczą,
fθ (x) = e−θ
θx
= exp
x!
X = {0, 1, 2, . . .}
− θ + x log θ
Przykład 18.
{Gamma(α, λ) : α > 0, λ > 0} jest rodziną wykładniczą,
λα α−1 −λx
fα,λ (x) =
x e
= exp
Γ(α)
1
x!
X = [0, ∞),
λα
− λx + (α − 1) log x + log
Γ(α)
θ = (α, λ)
!
Jeżeli X1 , . . . , Xn jest próbką (iid) ∼ fθ , to
fθ (x1 , . . . , xn ) =
n
Y
i=1
fθ (xi ) = exp

k
X
n
X
j=1
i=1

!
Tj (xi ) gj (θ) + ng0 (θ)

n
Y

i=1
h(xi )
Z kryterium faktoryzacji wynika, że



Pn
i=1
T1 (Xi ), . . . ,
Pn
i=1
– jest k - wymiarową statystyką dostateczną
Tk (Xi )
gdzie
n – rozmiar próbki
k – ilość składników rodziny wykładniczej
Naturalna parametryzacja rodziny wykładniczej
fθ (x) = exp

k
X

`(θ) = − log
j=1
Z
X


Tj (x)θj + `(θ) h(x)
exp

k
X

j=1



Tj (x)θj h(x)dx

`(θ) = `(θ1 , . . . , θk )
Stwierdzenie 1.
E θ Tj (X) = −
∂`(θ)
∂θj
22
Dowód.
Z
Z
∂ Z
∂
0=
fθ (x)dx =
fθ (x)dx =
∂θj X
X
X ∂θj
=
Z
X
Tj (x)fθ (x)dx +
∂`
Tj (x) +
∂θj

!
exp 
k
X
r=1

Tr (x)θr + `(θ)h(x)dx
∂` Z
∂`
fθ (x)dx = E θ Tj (X) +
∂θj X
∂θj
2
Przykład 19.
Rozkład dwumianowy,
Bin(p, n) ,
p ∈ (0, 1)
n
o n
n x
fp (x) =
p (1 − p)n−x = exp x log p + (n − x) log(1 − p)
x
x
!
p
= exp x log
+ n log(1 − p)
1−p
(
θ = log
)
n
x
!
!
p
1−p
`(θ) = n log(1 − p) = n log
1
1 + eθ
eθ
∂`
= −n ·
= −n · p
∂θ
1 + eθ
Definicja 20.
Dla rodziny wykładniczej postaci (∗) rodzina gęstości
π(θ) = πα (θ) ∝ exp

k
X

j=1
αj gj (θ) + α0 g0 (θ)



nazywa się sprzężoną rodziną rozkładów a priori ,
α = (α0 , α1 , . . . , αk )
Załóżmy, że X1 , . . . , Xn są warunkowo iid (przy danym θ) o gęstości fθ
Stwierdzenie 2.
Rozkład a posteriori ma postać
π(θ|x1 ) ∝ fθ (x1 )π(θ) ∝ exp

k
X

= exp

k X

j=1
j=1
α10 = α1 +
n
X
i=1

k
X


Tj (x)gj (θ) + g0 (θ) exp
αj + Tj (x) gj (θ) + (α0 + 1)g0 (θ)
π(θ|x1 , . . . , xn ) ∝ fθ (x1 , . . . , xn )π(θ) ∝ exp
gdzie


αj gj (θ) + α0 g0 (θ)





k
X

T1 (xi )
j=1


j=1
αj +
n
X
i=1
!
Tj (xi ) gj (θ) + (α0 + n)g0 (θ)



= πα (θ)
23
..
.
αk0 = αk +
n
X
i=1
Tk (xi )
α00 = α0 + n
Przykład 20.
{Ex(θ) : θ > 0}
fθ (x) = θe−θx = exp − θx + log θ
n


fθ (x1 , . . . , xn ) = exp  − θ
o


n
X
xi + n log θ
i=1
sprzężona rodzina rozkładów a priori
πα (θ) = πα0 ,α1 (θ) ∝ exp − θα1 + α0 log θ = θα0 exp − α1 · θ = Gamma(α0 + 1, α1 )
n
o
n
o
Gamma(α0 + n + 1, α1 + Σxi )
16.11.2006r.
Typowe modele bayesowskie ze sprzężonymi rodzinami rozkładów.
Bin/Beta
X1 , . . . , X n
P(Xi = 1|θ) = θ = f (1|θ)
θ ∈ (0, 1)
P(Xi = 0|θ) = 1 − θ = f (0|θ)
rozkład a priori
π(θ) =
Γ(α + β) α−1
θ (1 − θ)β−1 ∝ θα−1 (1 − θ)β−1
Γ(α)Γ(β)
U(0, 1) = Beta(1, 1)
f (x1 , . . . , xn |θ)π(θ)
∝
f (θ|x1 , . . . , xn ) =
f (x1 , . . . , xn )
n
Y
=
=θ
xi
1−xi
θ (1 − θ)
i=1
Σxi +α−1
n
Y
i=1
!
f (xi |θ) π(θ)
!
π(θ) = θΣxi (1 − θ)n−Σxi θα−1 (1 − θ)β−1
(1 − θ)n−Σxi +β−1 ∼ Beta(Σxi + α, n − Σxi + β)
Beta(α + 2, 3 + β)
α, β = 1
)
2 sukcesy i 3 porażki
θbB = E (θ|x1 , . . . , xn ) =
⇒
Beta(3, 4)
s+α
– estymator bayesowski parametru θ
n+α+β
24
θb =
s
n
x
1−x
fθ (x) = θ (1 − θ)
θ
= exp x log θ + (1 − x) log(1 − θ) = exp x log
+ log(1 − θ)
1−θ
X
xi – statystyka dostateczna
Sprzężona rodzina rozkładu a priori
θ
π(θ) ∝ exp α1 log
+ α0 log(1 − θ)
1−θ
∝
θ
1−θ
!α1
(1 − θ)α0 = θα1 (1 − θ)α0 −α1 ∼ Beta(α1 + 1, α0 − α1 + 1)
Poisson/Gamma
f (k|θ) = P(X = k) = e−θ
θk
,
k!
X ∼ P oiss(θ)
rozkład a priori
λα α−1 −λθ
π(θ) =
θ e
∝ θα−1 e−λθ rozkład a posteriori
Γ(α)
f (x1 , . . . , xn )|θ)π(θ)
f (θ|x1 , . . . , xn ) =
∝
f (x1 , . . . , xn )
=
n
Y
θ xi
i=1
θbB = E (θ|X1 , . . . , Xn ) =
4.
xi !
e
−θ
n
Y
i=1
!
f (xi |θ) π(θ)
!
θα−1 e−λθ ∝ θΣxi θα−1 e−λθ e−nθ = θΣxi +α−1 e−(λ+n)θ
s+α
∼ Gamma(s + α, λ + n) ,
λ+n
gdzie s = Σxi
Funkcje straty, estymacja i predykcja bayesowska.
23.11.2006r.
Teoria decyzji statystycznych.
{Pθ ; θ ∈ Θ} – rodzina rozkładów prawdopodobieństwa na X
X – obserwacja, X ∼ Pθ
A – przestrzeń akcji (decyzji), a ∈ A
Definicja 21.
Reguła decyzyjna
δ : X −→ A
„na podstawie (losowej) obserwacji X podejmujemy akcję (decyzję) δ(X)”
25
Definicja 22.
Funkcja strat
L : P × A −→ R
(R+ )
L(θ, a) – strata jaką ponosi statystyk, jeśli podejmie akcję a, a wartością parametru jest θ
GRA
I gracz – Natura
II gracz – Statystyk
wybiera θ ∈ Θ
losujemy X ∼ Pθ
wybiera a ∈ A
a = δ(X)
1940 Abraham Wald
Pθ – ma gęstość fθ
Definicja 23.
Funkcja ryzyka
R(θ, δ) = E θ L(θ, δ(X)) =
Z
X
L(θ, δ(X))fθ (x)dx
Przykład 21 (estymacja).
P ⊆ R, A = R
L(θ, a) = (θ − a)2 – kwadratowa funkcja straty
R(θ, δ) = E θ (θ − δ(X))2
δ – estymator, δ(X) ≈ θ̂(X)
L(θ, a) = |θ − a| – błąd absolutny
P = R+ = (0, ∞)
L(θ, a) =
L(θ, a) =
Przykład 24 (testowanie hipotez).
P = {θ0 , θ1 }
H0 – hipoteza zerowa
H1 – hipoteza alternatywna
X ∼ Pθ
θ = θ0
lub
θ = θ1
A = {a0 , a1 }
a0 – brak podstaw do odrzucenia H0
|θ − a|
θ
(θ − a)2
θ2
26
a1 – odrzucamy H0 na rzecz H1
Rzut kostką
X = {1, 2, . . . , 6}
Pθ0
Pθ1
1 2 3 4 5 6
1
6
1
6
1
6
1
6
1
6
1
1
6
1
6
−
2 3 4 5
1
100
1
6
1
6
1
6
1
6
6
1
6
+
1
100
„oszukana kostka”
„dobra kostka”
L(θ0 , a0 ) = L(θ1 , a1 ) = 0
L(θ1 , a0 ) = L(θ0 , a1 ) = 1
δ(x) =

a
1
 a0
; jeśli x = 6
; w p.p.
1 2 3 4 5 6
1
6
|
1
6
1
6
1
6
a0
{z
1
6
a1
} |{z}
R(θ0 , δ) = E θ0 L(θ0 , δ(X)) = Pθ0 (δ(X) = a1 ) =
R(θ1 , δ) = E θ1 L(θ1 , δ(X)) = Pθ1 (δ(X) = a0 ) =
1
6
– obszar krytyczny
błąd I - go rodzaju
5
1
−
6 100
błąd II - go rodzaju
decyzje
PP
PP
PP
PP statystyka
PP
stan
PP
PP
natury
P
a0
a1
H0 : θ0
O.K.
błąd I - szego rodzaju
ozn. α
H1 : θ1
błąd II - go rodzaju
ozn. β
O.K.
6β
s
5
6
1
6
−
1
100
= R(θ1 , δ)
s
1
6
-
α = R(θ0 , δ)
Zadanie domowe 2.
Znaleźć funkcję ryzyka dla wszystkich reguł decyzyjnych.
27
Przykład 25.
∼
N (θ, 1)
X = (X1 , . . . Xn ) iid
L(θ, a) = (θ − a)2
X = δ1 (X)
R(θ, δ1 ) = E θ (θ − X)2 = V arθ (X) =
1
n
6
1
n
-
θ
P
Estymator bayesowski dla rozkładu a priori θ ∼ N (m, a2 )
θbB = zX + (1 − z)m
na2
na2
z= 2
= 2
na + δ 2
na + 1
2
σ =1
R(δ2 )
R(δ3 )
1
n
R(δ1 )
r
m
P
δ3 (X) = m
R(θ, δ3 ) = E θ (θ − m)2 = (θ − m)2
Definicja 24.
Ryzyko bayesowskie (dla rozkładu a priori π)
r(δ) = r(π, δ) = E L(Θ, δ(X))
=
Z Z
P
X
L(θ, δ(x))fθ (x)dxπ(θ)dθ =
Z
P
R(θ, δ)π(θ)dθ =
Z
P
r(δ) = E E L(Θ, δ(X)|X)
=
Z
X
E L(Θ, δ(X)|X = x) f (x)dx =
|
{z
ryzyko a posteriori
gdzie f (θ|x) =
fθ (x)π(θ)
f (x)
}
Z
Z
X
P
|
L(θ, δ(x))f (θ|x)dθf (x)dx
{z
E L(Θ, δ(X))|Θ = θ π(θ)dθ
ryzyko a posteriori
}
28
Jak zminimalizować r(δ)?
Dla każdego x ∈ X znajdujemy δ(x) dla którego
Z
P
Przykład 26.
∼
X = (X1 , . . . Xn ) iid
N (θ, σ 2 ),
L(θ, a) = (θ − a)2
L(θ, a)f (θ|x)dθ −→ min
a
Θ ∼ N (m, a2 )
σ
Θ | X1 , . . . Xn ∼ N zX + (1 − z)m, naa2 +σ
2
2 2
Ryzyko a posteriori
E (Θ − d)2 |X1 , . . . Xn
h
E (Θ − d)2 jest najmniejsze dla d∗ = zX + (1 − z)m,
i
r∗ =
a2 σ 2
na2 +σ 2
30.11.2006r.
Problemy klasyfikacji/dyskryminacji.
R. Fisher 1930
Obiekt opisany „wektorem cech” X = (X1 , . . . , Xd ) należy do jednej z k klas. Na podstawie
obserwacji X mamy zdecydować, do której klasy zaliczyć obiekt.
P = {1, 2, . . . , k} – identyfikator klasy (przestrzeń parametrów)
X ⊆ Rd – przestrzeń obserwacji
A = {1, 2, . . . , k} lub A = {0, 1, . . . , k} – przestrzeń decyzji, (0 – zawieszenie decyzji)
Rozkłady prawdopodobieństwa wektora X przy danym θ ∈ P są znane.
(gęstość fθ ) f1 , . . . , fk – gęstości w klasach
π(θ) = πθ – prawdopodobieństwo a priori pojawienia się obiektu z klasy θ
π1 + . . . + πk = 1
Funkcja strat L(θ, a) – macierz k × (k + 1)
L(θ, θ) = 0
L(θ, a) 0
L(θ, 0) ¬ L(θ, a) dla dowolnego a 6= θ
Reguła decyzyjna δ : X −→ A
Obszary decyzyjne Dj = {x ∈ X ; δ(x) = j}
ozn.
θ=i
a=j
29
D1
X
D2
f1 (x)π1 = max
D0
Dk
D3
Ryzyko
h
i
Ri =E L(i, δ(X))|θ = i =
=
k Z
X
j=0 Dj
Z
L(i, j)fi (x)dx =
L(i, δ(x))fi (x)dx
X
k
X
j=0
L(i, j)P(X ∈ Dj |θ = i)
|
{z
Z
Dj
}
fj (x)dx
Ryzyko bayesowskie
r=
k
X
i=1
r=
Z
X
πi L(i, j)P(X ∈ Dj |θ = i)
{z
ryzyko a posteriori
k
X
i=1
i=1 j=0
gdzie f (x) =
E L Θ, δ(X)|X = x f (x)dx
|
rx =
k X
k
X
πi Ri = E L θ, δ(X) =
i=1
}
L i, δ(x) P(θ = i|X = x) =
|
{z
k
X
}
k
X
L i, δ(x) π(i|x)
πi fi (x)
gdzie π(i|x) =
i=1
Reguła bayesowska δ(x) dla ustalonego x δ ∗ (x) = j ∗ , jeśli
X
L(i, j ∗ )π(i, x) ¬
i
X
L(i, j)π(i, x)
∀j
L(i, j)fi (x)πi
∀j
i
m
X
i
L(i, j ∗ )fi (x)πi ¬
X
i
Przykład 27.
0 ; j = i
L(i, j) =
A = P = {1, . . . , k}
1 ; j 6= i
r = P(θ 6= δ(X)) – prawdopodobieństwo błędnej klasyfikacji
Reguła bayesowska
X
i
L(i, j)fi (x)πi =
δ ∗ (x) = j ∗ dla takiego j ∗ , że
X
fi (x)πi = f (x) − fj (x)πj −→ min
j
i6=j
fj ∗ (x)πj ∗ fj (x)πj
∗
π(j |x) π(j|x) ∀j
∀j
fi (x)πi
f (x)
30
Przykład 28.


0 ; j = i
L(i, j) = λ ; j = 0– zawieszenie decyzji



1 ; j 6= i j 6= 0– błędna klasyfikacja
P
i

1 − π(j|x) ;
L(i, j)π(i|x) = 
λ;
Reguła bayesowska
Niech π(j ∗ |x) π(j, x)
jeśli j 6= 0
jeśli j = 0
∀j

j ∗
; jeśli 1 − π(j ∗ |x) ¬ λ
δ (x) = 
0 ; jeśli 1 − π(j ∗ |x) λ
∗
λ ∈ (0, 1)
π(j ∗ ) 1 − λ
π(j ∗ ) ¬ 1 − λ
Przykład 29.
Dwa rozkłady normalne, d=1
fi (x) = √
1
exp −
2πσ
1
(x
2σ 2
µ1
− µi ) 2
i = 1, 2
µ2
Funkcja strat
a=1
a=2
a=0
θ=1
0
L(1, 2) L(1, 0)
θ = 2 L(2, 1)
0
L(2, 0)
"
rx =
P
#



L(2, 1)π(2|x) ;
j=1
j=2
i L(i, j)π(i|x) = L(1, 2)π(1|x) ;


L(1, 0)π(1|x) + L(2, 0)π(2|x) ; j = 0
10 :
L(2, 1)π(2|x) ¬ L(1, 0)π(1|x) + L(2, 0)
L(2, 1)f2 (x)π2 ¬ L(1, 0)f1 (x)π1 + L(2, 0)f2 (x)π2
L(2, 1)
f2
f2
π2 ¬ L(1, 0)π1 + L(2, 0) π2
f1
f1
i
f2 h
L(2, 1) − L(2, 0) π2 ¬ L(1, 0)π1
f1
δ ∗ (x) = 1
⇔
f2 (x)
π1 L(1, 0)
i = c1
¬ h
f1 (x)
π2 L(2, 1) − L(2, 0)
31
δ ∗ (x) = 2
⇔
f2 (x)

f1 (x)
δ ∗ (x) = 0
⇔
c1 ¬
Zmienne losowe w

x=



x1
.. 
d
.
∈R

h
π1 L(1, 2) − L(1, 0)
i
π2 L(2, 0)
= c2
f2 (x)
¬ c2
f1 (x)
14.12.2006r.
R
d.
xd
f (x) = f (x1 , . . . , xd ) – gęstość rozkładu prawdopodobieństwa
X1

.. 

X = (X1 , . . . , Xd )T = 
 . 
Xd


E X = (E X1 , . . . , E Xd )T = µ
d
V ar X = Cov(Xi , Xj )
i,j=1
= E (X − µ)(X − µ)T
d
= E (Xi − µi )(Xj − µj )
Twierdzenie 3.
X ∼ fX ,
h : Rd −→ Rd – dyfeomorfizm,
i,j=1
df
Y = h(X) ,
Dh
−1
=
∂h−1
i (y)
∂yj
1 T
z z
2
Wtedy Y ma gęstość fY , gdzie
fY (y) = fX h−1 (y) detDh−1 (y)
5.
Wielowymiarowe rozkłady normalne.
Z = (Z1 , . . . , Zd )T ,
gdzie Zi
∼
iid
N (0, 1)
EZ =0
V ar Z = I
Z ∼ N (0, I)
fZ (z) =
d
Y
i=1
1
√ exp
2π
1 2
z
2 i
!

− d2
= (2π)

d
d
1X
exp 
zi2  = (2π)− 2 exp
2 i=1
h : Rd −→ Rd ,
x = h(z) = Rz – przekształcenie liniowe,
h−1 (x) = R−1 x,
det R 6= 0
nieosobliwe
fX (x) = fZ (z) det R−1 = (2π)− 2 det R−1 exp − 12 xT (R−1 )T (R−1 )x
d
Ale
V ar X = E XX T = E RZZ T RT = R(E ZZ T )RT = RRT = Σ ,
det Σ = (det R)2
32
Stąd
− d2
fX (x) = (2π)
gdzie:
Σ = V ar X ,
Y ∼ N (µ, Σ) ,
EY =µ,
− 12
(det Σ)
exp
−
1 T −1
x Σ x
2
X ∼ N (0, Σ)
Y =X +µ,
X ∼ N (0, Σ)
V ar Y = Σ
− d2
fY (y) = (2π)
− 12
(det Σ)
exp
−
1
(y
2
T
−1
− µ) Σ (y − µ)
Przykład 30.
Dyskryminacja dwóch rozkładów normalnych π1 , π2 = 1 − π1 gdzie π1 – to prawdopodobieństwo, że obiekt pochodzi z pierwszej klasy
Jeśli i = 1, to X ∼ N (µ1 , Σ1 )
i = 2, to X ∼ N (µ2 , Σ2 )
Funkcja straty L12 , L21
L11 = L22 = 0
Reguła bayesowska
δ(x) =


1 ;
f2 (x)
f1 (x)
¬
π1 L12
π2 L21
12
log ff21 (x)
¬ log ππ21 LL21
(x)

2 ;
f2 (x)
f1 (x)
>
π1 L12
π2 L21
(x)
log ff21 (x)
> log ππ12 LL12
21
1
f2 (x)
T −1
Σ1
+(x−µ1 )T Σ−1
=
log det
1 (x−µ1 )−(x−µ2 ) Σ2 (x−µ2 )
det Σ2
f1 (x)
2
!
– funkcja kwadratowa
Obszary decyzyjne
Di = {x; δ(x) = i}
µ2
µ1
Przykład 31.
Dwa rozkłady normalne N (µ1 , Σ) , N (µ2 , Σ) z tą samą macierzą kowariancji.
(x)
=
log ff12 (x)
1
2
(x − µ1 )T Σ−1 (x − µ1 ) − (x − µ2 )T Σ−1 (x − µ2 )
33
π1 = π2 ,
L12 = L21
Σ=I 

1 ;
2 ;
kx − µ1 k > kx − µ2 k
δ(x) = 
x−
(minimalizacja prawdopodobieństwa błędnej klasyfikacji)
µ1 +µ2 T
(µ2
2
− µ1 ) < 0
kx − µ1 k2 < kx − µ2 k2
⇔
Definicja 25.
Odległość Mahalanobisa: kx − yk2Σ = (x − y)T Σ−1 (x − y)

1 ;
δ(x) = 
kx − µ1 kΣ < kx − µ2 kΣ
2 ; kx − µ1 kΣ > kx − µ2 kΣ
Przykład 32.
Dyskryminacja krozkładów normalnych N (µ1 , Σ), . . . , N (µk , Σ) ze wspólną macierzą ko0 ; i = j
, πi = k1
wariancji Li,j =
1 ; i 6= j
δ(x) = i∗ , jeśli fi∗ (x) fi (x) dla wszystkich i
π(i|x) =
f (x) =
− d2
fi (x) = (2π)
δ(x) = i∗
jeśli
− 12
(det Σ)
exp
−
1
(x
2
T
−1
− µi ) Σ (x − µi )
fi (x)
f (x)
1X
fj (x)
k j
kx − µi∗ kΣ ¬ kx − µi kΣ
µ1
µ2
µ3
21.12.2006r.
34
Definicja 26.
P
Niech (Y1 , . . . , Yd ) będzie zmienną losową o wartościach w Rd taką, że di=1 Yi = 1, zaś
(Y1 , . . . , Yd−1 ) mają gęstość
fα1 ,...,αd (y1 , . . . , yd−1 ) =
dla 0 ¬ yi ,
d−1
X
i=1
Γ(α1 + . . . + αd ) α1 −1
αd−1 −1
y1
. . . yd−1
(1 − y1 − . . . − yd−1 )αd −1
Γ(α1 ) . . . Γ(αd )
!
yi ¬ 1
Mówimy, że (Y1 , . . . , Yd ) ma rozkład Dirichleta D(α1 , . . . , αd ),
αi > 0
Definicja 27.
N1 , . . . , Nd ma rozkład wielomianowy M(n, θ1 , . . . , θd ), jeśli


n!
P(N1 = n1 , . . . , Nd = nd ) =  n1 !...nd !
θ1n1 . . . θdnd
0
jeśli n1 + . . . + nd = n
w p. p.
Uwaga 10.
(N1 , N2 ) ∼ M(n, θ1 , θ2 ) ≡ N1 ∼ Bin(n, θ1 )
Uwaga 11.
(Y1 , Y2 ) ∼ D(α1 , α2 ) ≡ Y1 ∼ Be(α1 , α2 )
Stwierdzenie 3.
Jeśli (N1 , . . . , Nd ) ∼ M(n, θ1 , . . . , θd )|θ1 , . . . , θd warunkowo i (θ1 , . . . , θd ) ma rozkład a priori
D(α1 , . . . , αd ), to rozkład a posteriori jest D(α1 + n1 , . . . , αd + nd )
Dowód.
π(θ|n) =π(θ1 , . . . , θd−1 |n1 , . . . , nd ) ∝ f (n|θ)π(θ) = f (n1 , . . . , nd |θ1 , . . . , θd−1 )π(θ1 , . . . , θd−1 )
=θ1n1 . . . θdnd θ1α1 −1 . . . θdαd −1 = θ1α1 +n1 −1 . . . θdαd +nd −1 ,
gdzie θd = (1 − θ1 − . . . − θd−1 )
2
Estymatory bayesowskie parametrów θ1 , . . . , θd
αi
– a priori
E (θi ) =
α1 + . . . + αd
α i + ni
– a posteriori
α 1 + n1 + . . . + α d + nd
(αi – pseudo-zliczenia)
E (θi |n1 , . . . , nd ) =
Normalny/Normalny
X1 , . . . , Xn |θ
∼
iid
N (θ, σ 2 )
θ ∼ N (m, a2 )
35
σ 2 – znane
Normalny/IG
X1 , . . . , Xn |ν
ν=
1
σ2
∼
iid
N (µ, ν1 )
µ – znane
ν ∼ Gamma(α, λ)
σ 2 ∼ IG(α, λ)
– „precyzja”
a posteriori : σ 2 ∼ IG
n
2
+ α, λ +
1
f (x1 , . . . , xn |ν) =
ν2
√
2π
1
2
!n
(xi − µ)2
P
(
exp
gęstość a priori
π(ν) =
n
n
νX
−
(xi − µ)2 ∝ ν 2 exp
2 i=1
)
(
n
νX
−
(xi − µ)2
2 i=1
)
λα α−1 −λν
ν e
∝ ν α−1 e−λν
Γ(α)
gęstość a posteriori
π(ν|x1 , . . . , xn ) ∝ ν
n
+α−1
2
(
exp
−ν λ+
1
2
n
X
i=1
2
(xi − µ)
)
Definicja 28.
Y ∼ IG(α, λ) ≡
1
∼ Gamma(α, λ)
Y
Różne funkcje straty w zadaniach estymacji.
θ∈P⊆R
Reguła decyzyjna δ : X −→ R ,
δ(x) – estymator θ
1. Funkcja kwadratowa L(θ, a) = (θ − a)2
min E (θ − a)2 ,
a∗ = E θ ,
E (θ − a∗ )2 = V ar(θ)
a
Estymator bayesowski
min E [(θ − δ(X))2 |X] ,
δ
δ ∗ (X) = E (θ|X)
E [(θ − δ ∗ (X))2 |X] = V ar(θ|X) – ryzyko a posteriori
Ryzyko bayesowskie E V ar(θ|X)
2. Wartość bezwzględna błędu L(θ, a) = |θ − a|
min E |θ − a| ,
a∗ = med(θ)
a
0
f (a) = |a| ,
f (a) = sign(a)
∂
∂
∂
E |θ − a| = E
|θ − a| = E
|a − θ| = E sign(a − θ) = −P(θ > a) + P(θ < a) = 0
∂a
∂a
∂a
P(θ > a) = P(θ < a)
Lemat 1.
E (θ − a)+ =
Z ∞
a
P(θ > x)dx
36
Lemat 2.
E |θ − a| = E (θ − a)+ + E (a − θ)+ =
Q(a) =
Z ∞
a
[1 − F (x)]dx +
Z a
−∞
Z ∞
a
P(θ > x)dx +
Z a
−∞
P(θ − x)dx
F (x)dx
Jeżeli F jest ciągła w a, to
∂
Q(a) = F (a) − [1 − F (a)] = 2F (a) − 1
∂a
Jeżeli F (a−) < F (a), to
∂
Q(a) = 2F (a−) − 1
∂a−
∂
Q(a) = 2F (a) − 1
∂a+
∂
∂
Q(a) ¬ 0 ¬
Q(a)
∂a−
∂a
04.01.2007r.
Testowanie hipotez statystycznych.
Przypadek dwóch hipotez prostych.
P = {0, 1} – przestrzeń parametrów
H0 :
θ=0
f (x|0) = f0 (x)
X ∼ f0
H1 :
θ=1
f (x|1) = f1 (x)
X ∼ f1
δ – reguła decyzyjna (test),
Funkcja straty
L(0, 1) = L(1, 0) = 1
L(0, 0) = L(1, 1) = 0
Rozkład a priori π0 , π1
Błąd
I rodzaju
II rodzaju
δ : X −→ A = {0, 1}
0 – nie mamy podstaw do odrzucenia H0
1 – odrzucamy H0 na rzecz H1
π0 + π1 = 1,
πi = P(Θ = i) dla i = 1, 2
P(δ(X) = 1|Θ = 0) = P0 (δ(X) = 1) = α(δ) = E L 0, δ(X) |Θ = 0
P(δ(X) = 0|Θ = 1) = P1 (δ(X) = 0) = β(δ) = E L 1, δ(X) |Θ = 1
Zbiór ryzyka
R=
α(δ), β(δ) : δ jest testem
37
Przykład 33.
X = {1, 2, 3}
x
1
2
3
f1
1
6
2
6
3
6
f0
3
6
2
6
1
6
f1
f0
1
3
1
3
β
1
5
6
4
6
3
6
2
6
1
6
1
6
2
6
3
6
4
6
5
6
α
1
Reguły bayesowskie przy wszystkich możliwych rozkładach a priori
jeśli
f1 (x)
f0 (x)
>
π0
π1
δ(x) = 1 lub 0 jeśli
f1 (x)
f0 (x)
=
π0
π1
f1 (x)
f0 (x)
<
π0
π1






1,




0,
jeśli
=c
test ilorazu wiarogodności
=c
δ0 = 1 − δ
α(δ 0 ) = 1 − α(δ)
β(δ 0 ) = 1 − β(δ)
Definicja 29.
δ ∗ jest najmocniejszym testem na poziomie istotności α∗ , jeśli
1. α(δ ∗ ) ¬ α∗
2. Jeśli α(δ ∗ ) ¬ α∗ , to β(δ ∗ ) ¬ β(δ)
Lemat 3 (Neymana – Pearsona). Jeżeli δ ∗ jest najmocniejszym testem na poziomie istotności α∗ ∈ (0, 1) i α(δ ∗ ) = α∗ , to istnieje c ∈ [0, ∞) takie, że
∗
δ (x) =


1 ,
jeśli
f1 (x)
f0 (x)
>c

0 ,
jeśli
f1 (x)
f0 (x)
<c
(∗)
Jeżeli δ ∗ spełnia (∗) i α(δ ∗ ) = α∗ , to δ ∗ jest najmocniejszy na poziomie istotności α∗ .
38
Przykład 34.
X = [0, 1]
f0 (x) = 1
f1 (x) = 2x
f1 (x)
= 2x
f0 (x)
α(δ) = P0 (2X > c) = P0 (X > ac ) = 1 −
β(δ) = P1 (2X ¬ c) = P1 (X ¬
c
)
2
=
c
2
c
2
!2
β(α) = (1 − α)2
Najmocniejszy test na poziomie istotności α∗ = 0.005
α = 0.005
β = (1 − α)2 = (0.95)2
δ : X −→ [0, 1]
Test zrandomizowany
δ(x) – prawdopodobieństwo podjęcia decyzji 1, (odrzucenie hipotezy H0 )
Zbiór ryzyka dla reguł zrandomizowanych jest wypukły.
δ1
α(δ1 ), β(δ1 )
δ2
α(δ2 ), β(δ2 )
δ = λδ1 + (1 − λ)δ2
α(δ) =
Z
β(δ) =
Z
X
δ(x)f0 (x)dx
X
1 − δ(x) f1 (x)dx
Przykład (33 c. d.). Najmocniejszy test niezrandomizowany na poziomie istotności α∗ =
0.05 jest δ(x) ≡ 0 (nigdy nie odrzucamy).
Najmocniejszy test zrandomizowany na poziomie istotności α∗ = 0.05 jest δ(x) ≡ 0.
δ(x) =



0 ,



1
20
1
6
jeśli x = 1 lub x = 2
=
6
20
=
3
10
, jeśli x = 3
Y6
θ
Krzywa (α − β) Neymana – Pearsona.
H0 :
θ=0
f0
-
P
11.01.2007r.
39
h=
H1 :
θ=1
f1
f1
f0
Testy ilorazu wiarogodności:



1 ;
jeśli h(x) > c
δ(x) = % ; jeśli h(x) = c



0 ; jeśli h(x) < c
dokładniej, jeśli h(x) = c, to bierzemy

1 ;
z prawdopodobieństwem %
δ(x) = 
0 ; z prawdopodobieństwem 1 − %
α(c, %) =
Z
β(c, %) =
Z
{h>c}
{h<c}
f0 + %
Z
{h=c}
f1 + (1 − %)
F0 (c) = P0 (h ¬ c) =
Z
F1 (c) = P1 (h ¬ c) =
Z
f0
Z
{h=c}
{h¬c}
{h¬c}
f1
f0
f1
α(c, %) = 1 − F0 (c) + %[F0 (c) − F0 (c−)] = E 0
f1
1(h ¬ c)
f0
β(c, %) = F1 (c−) + (1 − %)[F1 (c) − F1 (c−)] = E 0 h 1(h ¬ c)
Testowanie hipotez złożonych w ujęciu bayesowskim.
f (x|θ) – wiarogodność
π(θ) – a priori
π(θ|x) – a posteriori
H0 :
θ ∈ P0 ⊂ P
P0 ∩ P1 = ∅
H1 :
θ ∈ P1 ⊂ P
P1 = P \ P0
P(H0 |X = x) = P(θ ∈ P0 |X = x) =
Z
P(H1 |X = x) = P(θ ∈ P1 |X = x) =
Z
P0
P1
π(θ|x)dθ
π(θ|x)dθ
40
Przykład 35.
X1 , . . . , X n
∼
iid
N (θ, σ 2 )
H0 :
θ ¬ θ0
H1 :
θ > θ0
θ ∼ N (m, a2 )
a priori
θ ∼ N zx + (1 − z)m,
a posteriori
P(H0 |x1 , . . . , xn ) =
Z θ0
−∞
a2 σ 2
na2 +σ 2
z=
na2
na2 +σ 2
π(θ|x1 , . . . , xn )dθ = P(θ ¬ θ0 |x1 , . . . , xn )
θ0 − 2x − (1 − z)m √ 2
θ − 2x − (1 − z)m √ 2
na + σ 2 ¬
na + σ 2
=P
aσ
aσ
θ0 − 2x − (1 − z)m √ 2
na + σ 2
=Φ
aσ
H0 :
θ = θ0
H1 :
θ 6= θ0
!
Rozkład a priori
P(θ = θ0 ) = c,
c ∈ (0, 1)
c¡¡ @@1 − c
ª
¡
θ = θ0
R
@
θ ∼ N (m, a2 )
Zbiory (przedziały ufności) w ujęciu bayesowskim.
P
X
π
f
Definicja 30.
Przyporządkowanie x 7−→ C(x) ⊂ P
P θ ∈ C(x)|X = 1 − α
nazywamy przedziałem ufności na poziomie 1 − α
Uwaga 12.
W statystyce klasycznej
P θ ∈ C(x)|θ = 1 − α
!
41
Stwierdzenie 4.
Załóżmy, że π jest gęstością względem miary Lebesque’a.
π(·|x) też jest gęstością względem miary Lebesque’a.
Jeżeli istnieje takie c ∈ (0, ∞), że
P(π(θ|x) > c|x) =
Z
{θ; π(θ|x)>c}
π(θ|x)dθ = 1 − α
to C ∗ (x) = {θ; π(θ|x) > c} jest najmniejszym w sensie miary Lebesgue’a przedziałem
ufności na poziomie 1 − α
Dowód. x ∈ X – ustalone
Jeżeli
Z
C(x)
π(x|θ)dθ = 1 − α, to |C(x)| |C ∗ (x)|
C(x) = C
C ∗ (x) = C ∗
π(θ|x) = π(θ)
Z
C
π =1−α=
Z ∗
C
na C ∗ mamy π > c
poza C ∗ mamy π ¬ c
π
c |C \ C ∗ |
'$
'$
π¬c
Z
C\C ∗
π=
Z
C ∗ \C
π>
Z
C ∗ \C
c = c |C ∗ \ C|
|C \ C ∗ | > |C ∗ \ C|
C∗
C
π>c
&%
|C| > |C ∗ |
&%
jeśli |C \ C ∗ | > 0
2
Predykcja liniowa i liniowe modele bayesowskie.
θ – jednowymiarowa zmienna losowa,
X
Znaleźć funkcję δ : X −→ R taką, żeby E δ(X) − θ
δ ∗ (X) = E (θ|X) –
2
była minimalna
rozwiązanie
Twierdzenie 4.
Jeżeli θ, X1 , . . . , Xn są zmiennymi losowymi X = (X1 , . . . , Xn )T , to funkcja liniowa
δ(x) = δ(X1 , . . . , Xn ) = c0 +
2
minimalizująca E θ − δ(X)
n
X
i=1
ci X i = c0 + cT X
jest dana wzorami
c∗ = V ar(X)−1 Cov(X, θ)
c0 = E θ − cT∗ E X
42
gdzie
V ar(X) = Cov(Xi , Xj ); i, j = 1, . . . , n
Cov(X, θ) = Cov(Xi , θ); i = 1, . . . , n
18.01.2007r.
Empiryczne metody bayesowskie i hierarchiczne modele bayesowskie.
Przykład 36 (normalny/normalny).
∼
X1 , . . . , Xn iid
N (θ, s2 ),
θ ∼ N (m, a2 )
a posteriori
θ ∼ N zX + (1 − z)m,
a2 s2
na2 +s2
,
gdzie:
z=
na2
na2 +s2
θbB = zX + (1 − z)m
Interpretacja ubezpieczeniowa.
θ; X1 , . . . , Xn – sumaryczne szkody zgłoszone przez klienta w poszczególnych latach 1, 2, . . . , n
θ = E (Xi |θ) – średnia wartość szkód dla naszego klienta
s2 = V ar(Xi |θ) – zmienność pomiędzy latami
m – średnia szkoda w całej populacji klientów
a2 – zmienność w populacji klientów
Model uwzględniający próbkę z populacji klientów
¡ @
¡
¡
@
@
¡
ª
¡
θ1
@
?
...
θj
¤
¤
¤²
C
C
C
¤
¤
¤²
CW
p – klientów
θp
¤ C
¤C
¤ C
¤ C
¤C
¤ C
¤
R
@
...
¤
¤
¤
C
C
CW
¤
¤²
C
C
C
C
CW
X11 . . . X1n Xj1 . . . Xjn Xp1 . . . Xpn
Xji – szkody j-tego klienta w i-tym roku, j = 1, . . . , p i = 1, . . . , n
Xji ∼ N (θj , s2 ),
θ1 , . . . , θp
∼
iid
N (m, a2 )
Łączny rozkład prawdopodobieństwa
f (θj ), (xji ) =
p
Y
j=1
π(θj )
n
Y
i=1
f (xji |θj )
43
Empiryczne podejście bayesowskie
Estymujemy rozkład a priori parametru θ na podstawie próbek odpowiadających różnym
„realizacjom” zmiennej losowej θ.
θ1 ; X11 . . . X1n
..
.
θj ; Xj1 . . . Xjn ¾
..
.
Dane
θp ; Xp1 . . . Xpn
1. Na podstawie całej tablicy estymujemy parametry rozkładu a priori m, a2 (i parametr s2 ).
2. W rozwiązaniach bayesowskich wstawiamy wyestymowany rozkład a priori .
Ad. 1.
c
m
p X
p
n
1 X
1X
=X=
Xj ;
Xji =
np j=1 i=1
p j=1
p
n
1X
1 X
2
sb =
(Xji − X j )2 ;
p j=1 n − 1 i=1
ab2 =
1X


gdzie X j =
Xji 



n



n
1X
gdzie X j =
Xji
n i=1
p
1
1 X
(X j − X)2 − sb2
p − 1 j=1
n




estymatory nieobciążone












Ad. 2. Estymator bayesowski parametru θj
θbjB = zX j + (1 − z)m
Estymator empiryczny bayesowski
c
θbjEB = zbX j + (1 − zb)m
gdzie zb =
nab2
nab2 + sb2
Hierarchiczny model bayesowski.
Xji
∼
iid
N (θj , s2 )
s2 ∼ IG(p, c)
θj
∼
iid
N (m, a2 )
m ∼ N (ν, b2 )
a2 ∼ IG(q, d)
τ=
ζ=
1
s2
1
a2
∼ Gamma(p, c)
∼ Gamma(q, d)
Znane: ν, b2 , p, c, q, d
Parametry losowe: s2 , a2 , m, θ1 , . . . , θq
Łączny rozkład
f (xji ), (θj ), m, τ, ζ = h(ζ)g(τ )ϕ(m)
Cel: estymacja bayesowska θj
Y
j
π(θj |m, ζ)
Y
i
f (xji |θj , τ )
44
Próbnik Gibsa.
Rozważmy zmienną losową θ = (θ1 , . . . , θk ) o wartośiach w przestrzeni X k i gęstości
π(θ1 , . . . , θk )
Umiemy losować zmienne losowe jednowymiarowe z gęstości warunkowych
π(θi |θ1 , . . . , θi−1 , θi+1 , . . . , θk )
Generujemy ciąg wektorów losowych θ(0), θ(1), . . . , θ(n), . . .
ozn
Jeżeli θ(n) = (θ1 , . . . , θk ) = θ, to θ(n + 1) = (θ10 , . . . , θk0 ) = θ0 losujemy w k krokach
1.
θ10 ∼ π(·|θ2 , . . . , θk )
2.
..
.
θ20 ∼ π(·|θ10 , θ3 , . . . , θk )
k.
0
θk0 ∼ π(·|θ10 , . . . , θk−1
)
0
0
, θk )
∼ π(·|θ10 , . . . , θk−2
k-1. θk−1
Przy pewnych założeniach na rozkład π
GGGGGGA
θ(n)
π
n→∞
GGGGGGA
Z
n
1X
h θ(t)
h(θ)π(θ)dθ = E π h(θ)
n t=1
n → ∞ Xn