Metody bayesowskie w statystyce.
Transkrypt
Metody bayesowskie w statystyce.
Metody bayesowskie w statystyce prof. dr hab. W. Niemiro Spis treści 1. 2. 3. 4. 5. Klasyczny i bayesowski punkt widzenia w statystyce. Przykłady. . . . . . Przykład Laplace’a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Podstawy probabilistyczne: warunkowe rozkłady prawdopodobieństwa, warunkowe wartości oczekiwane, twierdzenie Bayesa. . . . . . . . . . . . . . Warunkowe rozkłady prawdopodobieństwa i wartości oczekiwane. . . . . Prawdopodobieństwo warunkowe i warunkowa wartość oczekiwana. . . . Budowa statystycznych modeli bayesowskich. rozkłady a priori i a posteriori , warunkowa niezależność, statystyki dostateczne. . . . . . . . . . . Podstawowy model bayesowski. . . . . . . . . . . . . . . . . . . . . . . . Dostateczność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wykładnicze rodziny rozkładów prawdopodobieństwa. . . . . . . . . . . . Typowe modele bayesowskie ze sprzężonymi rodzinami rozkładów. . . . . Funkcje straty, estymacja i predykcja bayesowska. . . . . . . . . . . . . . Teoria decyzji statystycznych . . . . . . . . . . . . . . . . . . . . . . . . Problemy klasyfikacji/dyskryminacji. . . . . . . . . . . . . . . . . . . . . Zmienne losowe w Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wielowymiarowe rozkłady normalne. . . . . . . . . . . . . . . . . . . . . Różne funkcje straty w zadaniach estymacji. . . . . . . . . . . . . . . . . Testowanie hipotez statystycznych. . . . . . . . . . . . . . . . . . . . . . Krzywa (α − β) Neymana – Pearsona. . . . . . . . . . . . . . . . . . . . Testowanie hipotez złożonych w ujęciu bayesowskim. . . . . . . . . . . . Zbiory (przedziały ufności) w ujęciu bayesowskim. . . . . . . . . . . . . . Predykcja liniowa i liniowe modele bayesowskie. . . . . . . . . . . . . . . 2 . . 3 3 . . . 5 5 9 . . . . . . . . . . . . . . . . 13 15 18 20 23 24 24 28 31 31 35 36 38 39 40 41 3 Metody bayesowskie w statystyce 1. Klasyczny i bayesowski punkt widzenia w statystyce. Przykłady. 05.10.2006r. Przykład 1 (Laplace’a). 0 1 n 1 n+1 n 0 1 n+1 1 n+1 1 n−1 1 n + 1 ponumerowanych kul 1 n+1 n 2 n−2 n + 1 urn n 2 1. Wybieramy jedną z urn z jednakowym prawdopodobieństwem 1 . n+1 2. Losujemy m razy ze zwracaniem (z/z) z wybranej uprzednio urny. 3. Losujemy jeszcze raz, (n + 1)-szy raz z tejże urny. Wiadomo, że w m losowaniach wybraliśmy same kule białe. Jakie jest prawdopodobieństwo, że w kolejnym (n + 1)-szym losowaniu też wyjdzie biała? U – numer urny wylosowanej w 1-szym etapie P(U = i) = 1 n+1 i = 0, 1, . . . n (rozkład a priori ) S – liczba kul białych w m losowaniach 2-go etapu P(S = k|U = i) = m k n−i n k n−k i n X – liczba kul białych w (m + 1)-szym losowaniu 3-go etapu P(X = 1|U = i) = P(X = 1|S = m) = n−i n P(X = 0|U = i) = P(X = 1, S = m) (Twierdzenie Bayesa) P(S = m) i n 4 i n P(S = m|U = i) = 1 − P(S = m) = n X i=0 m P(S = m|U = i)P(U = i) = P(S = m, X = 1) = n X i=0 i 1− n m+1 n X i=0 i 1− n m · 1 n+1 1 · n+1 Zatem: n 1X j m+1 1 · n j=0 n n+1 P(X = 1|S = m) = i=0X = m n m = n 1X 1 j i 1− n n+1 n j=0 n i=0 n X i 1− n n 1X j f n j=0 n m+1 = n X j 1 f n j=0 n Z 1 −→ Z0 0 xm+1 dx 1 xm dx = m+1 m+2 ` Rozkład prawdopodobieństwa definiuje się przy pomocy prawdopodobieństwa warunkowego. ` Subiektywna interpretacja prawdopodobieństwa na 1-szym etapie. ` Twierdzenie Bayesa. ` Nacisk na predykcję. Przykład 2 (Kapsle Tymbark). 60 kapsli 50 różnych napisów 200 dalszych kapsli X = ? różnych napisów 50 1 951 51 52 – prawdopodobieństwo wyboru urny S = 50 X=? Zadanie domowe 1. P(X = 190|U = 1000) Algorytm 1. U S ukryte znamy X chcemy przewidzieć 1000 5 Metody bayesowskie w statystyce 1. Losujemy z rozkładu U , P(U = i) = 1 951 (z rozkładu a priori) 2. Znając U losujemy z rozkładu S|U rozkład a posteriori P(U = i|S = 50) Jeśli S 6= 50, odrzuć (przejdź do 1) Jeśli S = 50, wylosuj X|U , zapamiętaj Przykład 3. Są 2 typy kierowców ostrożni – O i ryzykanci – R. Na jednego ostrożnego przypada 4 ryzykantów. Jeśli kierowca jest ostrożny, to powoduje szkodę w ciągu roku z prawdopodobieństwem 0.1. Jeśli kierowca jest ryzykantem, to powoduje szkodę w ciągu roku z prawdopodobieństwem 0.4. 1. Ubezpieczamy nowego kierowcę. Jakie jest prawdopodobieństwo, że zgłosi szkodę? 2. Kierowca zgłosił szkodę w 1-szym roku ubezpieczenia. Jakie jest prawdopodobieństwo, że jest typu O? 3. Kierowca zgłosił szkodę w 1-szym roku. Jakie jest prawdopodobieństwo, że zgłosi szkodę i w 2-gim roku? 4. Kierowca zgłosił szkody w dwóch kolejnych latach. Jakie jest prawdopodobieństwo, że zgłosi szkodę i w trzecim roku? 2. Podstawy probabilistyczne: warunkowe rozkłady prawdopodobieństwa, warunkowe wartości oczekiwane, twierdzenie Bayesa. 19.10.2006r. Warunkowe rozkłady prawdopodobieństwa i wartości oczekiwane. Gęstość rozkładu prawdopodobieństwa: (X , A, µ) przestrzeń σ-ciało miara σ-skończona A ⊆ 2X , µ : A −→ R+ (Ω, F, P) – przestrzeń probabilistyczna X : Ω −→ X – zmienna losowa o wartościach w X ∀A∈A X −1 (A) = {ω ∈ Ω; X(ω) ∈ A} = {X ∈ A} ∈ F 6 Rozkład prawdopodobieństwa zmiennej losowej X A 3 A 7−→ P(X ∈ A) = PX (A) PX : A −→ [0, 1] P : F → [0, 1] Ω X −1 X X (A) A P PX Definicja 1. Rozkład prawdopodobieństwa zmiennej losowej X ma gęstość f = fX : X −→ R+ , jeśli: P(X ∈ A) = ∀A∈A Przykład 4. X = Rd , µ – miara Lebesgue’a, Z A Z A f (x)µ(dx) = Z A f dµ A – σ - ciało borelowskie f (x)µ(dx) = Z A f (x)dx Przykład 5. X – przeliczalny, lub skończony, µ – miara licząca, tzn.: µ(A) = Z A = 2X #A jeśli A jest skończony ∞ w p.p. (A f (x)µ(dx) = X f (x) x∈A (X , A, µ) (Y , B, ν) przestrzeń z miarami σ - skończonymi (X × Y , A ⊗ B, µ ⊗ ν) A ⊗ B = σ({A × B; A ∈ A, B ∈ B}) przestrzeń dyskretna 7 Metody bayesowskie w statystyce B : : ν(B) C : : A µ(A) µ ⊗ ν(A × B) = µ(A) · ν(B) Umowa 1. f : X × Y −→ R Z Z x tw. F ubiniego f (x, y)µ ⊗ ν(dx, dy) = Y X ×Y (X, Y ) : Ω −→ X × Y X f (x, y)µ(dx)ν(dy) = Z Y Z X f (x, y)dxdy – zmienna losowa, czyli odwzorowanie mierzalne względem σ - ciała produktowego Definicja 2. Rozkład prawdopodobieństwa zmiennej losowej (X, Y ) ma gęstość łączną f = fX,Y , X × Y −→ R+ , jeśli: x ∀C∈A⊗B f (x, y)µ(dx)ν(dy) = P (X, Y ) ∈ C C Uwaga 1. Wystarczy jeśli Z Z B A f (x, y)µ(dx)ν(dy) = P(X ∈ A, Y ∈ B) ∀A∈A Uwaga 2. Rozkład brzegowy zmiennej losowej X ma gęstość fX (x) = P(X ∈ A) tw. F ubiniego = Z A Z Y f (x, y)ν(dy) fX (x)µ(dx) Uwaga 3. Jeżeli X i Y – dyskretne, to fX (x) = P(X = x) = X y f (x, y) f (x, y) = P(X = x, Y = y) ∀B∈B 8 Definicja 3. Załóżmy, że: (X, Y ) : Ω −→ X × Y ma gęstość łączną f . Gęstość warunkową określamy wzorem: f (x,y) f (y|x) = fY |X (y|x) = fX (x) jeśli fX (x) > 0 0 w p.p. Uwaga 4. Jeżeli X i Y dyskretne, to: f (y|x) = P(X = x, Y = y) = P(Y = y|X = x) P(X = x) Definicja 4. Prawdopodobieństwo warunkowe P(Y ∈ B|X = x) = Z B ozn. f (y|x)ν(dy) = p(B, x) 1. Dla dowolnego x, z wyjątkiem zbioru N = {x; f (x) = 0} p(·, x) jest miarą probabilistyczną na (Y , B) Z Jeżeli fX (x) > 0, to Y f (y|x)ν(dy) = 1 2. Dla dowolnego B ∈ B p(B, ·) : (X , A) −→ R – jest mierzalne Uwaga 5. Jeżeli X jest przestrzenią dyskretną, to: P(Y ∈ B|X = x) = Przykład 6. U , V – niezależne o rozkładzie U(0, 1) P(Y ∈ B, X = x) P(X = x) v 1 2 fU,V (u, v) = 1 dla (u, v) ∈ [0, 1] 1 Przykład 7. Niech: X = min(U, V ) i Y = max(U, V ) fX,Y (x, y) = f (x, y) = 2 0¬x¬y¬1 fX (x) = f (y|x) = x f (x, y)dy = f (x,y) fX (x) = Y 1 C 0 w p.p. X, Y ∈ C ⇔ (U, V ) ∈ C Z 1 u lub Z 1 x (U, V ) ∈ C 2dy = 2(1 − x) 1 1−x 0¬x¬y¬1 0 w p.p. 1 X 9 Metody bayesowskie w statystyce f (y|x) jest gęstością rozkładu U(x, 1) P Y > 9 |X 10 =x = 1 Z 1 f (y, x)dy = 9 10 1 1 10 dla x > · 1 1−x dla x 9 10 9 10 x 1 Definicja 5. Warunkowa wartość oczekiwana Z E(Y |X = x) = Y yf (y|x)dy Uwaga 6. Bardziej ogólnie, jeśli h : Y −→ R lub Rd E h(Y )|X = x = Z Y h(y)f (y|x)dy Uwaga 7. Rozpatrujemy warunkową wartość oczekiwaną jako funkcję x E h(Y )|X = x = r(x) r : X −→ R lub Rd 25.10.2006r. Prawdopodobieństwo warunkowe i warunkowa wartość oczekiwana. X, Y : Ω −→ X × Y f (x, y) – gęstość względem µ ⊗ ν , µ, ν – albo miary Lebesqea albo miary liczące konwencja: µ(dx) = dx, f (y|x) = f (x,y) fX (x) df P(Y ∈ B|X = x) = Z B f (y|x)dy Przykład 8. U1 , U2 – niezależne ∼ U(0, 1) X = min(U1 , U2 ) , Y = max(U1 , U2 ) f (x, y) = 2 , 0 , 0¬x¬y¬1 w p. p. Dla ustalonego x ∈ (0, 1) f (y|x) = 1 , y ∈ (x, 1) 0 , w p. p. 1−x Rozkład warunkowy przy danym X = x jest U(x, 1) ν(dy) = dy 10 Wzór na prawdopodobieństwo całkowite Z P(Y ∈ B) = P(Y ∈ B|X = x)fX (x)dx X Dowód. P(Y ∈ B) = Z = Z B X fY (y)dy = Z B Z Z B X f (x, y)dxdy = Z Z B X f (y|x)fX (x)dxdy f (y|x)dy fX (x)dx 2 Wzór Bayesa f (x|y) = f (y|x)fX (x) fY (y) Dowód. f (x|y) = f (x, y) fY (y) 2 Jeżeli µ i ν – miary liczące f (x, y) = P(X = x, Y = y) , fX (x) = P(X = x) , f (y|x) = P(Y = y|X = x) P(Y ∈ B) = X x P(Y ∈ B|X = x)P(X = x) Wzór Bayesa dla miar liczących P(X = x|Y = y) = P(Y = y|X = x)P(X = x) P(Y = y) Definicja 6. E (Y |X = x) = Z Y yf (y|x)dy = r(y) , r : X −→ Y Wzór na prawdopodobieństwo całkowite EY = Z X E (Y |X = x) fX (x)dx Dowód. EY = Z = Z EY = Z Y X X yfY (y)dy = Z Y Z Y y Z X f (x, y)dxdy = Z Y y Z X f (y|x)fX (x)dxdy yf (y|x)dy fX (x)dx E (Y |X = x)fX (x)dx = Z X r(x)fX (x)dx = E r(X) 2 11 Metody bayesowskie w statystyce Definicja 7. Zmienną losową r(X) oznaczamy E (Y |X) Ω X GGGGGA r GGGGA X Y r(X) = r ◦ X r(X)(ω) = r(X(ω)) Wniosek 1 (Wzór na prawdopodobieństwo całkowite). E Y = E E (Y |X) Własności warunkowej wartości oczekiwanej – E (Y |X) 0. E (Y |X) jest funkcją zmiennej losowej X 1. E (Y1 + Y2 |X) = E (Y1 |X) + E (Y2 |X) 2. E (aY |X) = aE (Y |X) 3. Jeżeli X i Y są niezależne, to E (Y |X) = E Y 4. E (h(Y )|X = x) = R Y 5. E (h(Y, X)|X = x) = h(y)f (y|x)dy , R Y f (x, y) = fX (x)fY (y) f (y|x) = fY (y) E (Y |X = x) = E Y h : Y −→ R h(y, x)f (y|x)dy , h : Y × X −→ R 6. E (h(Y )g(X)|X = x) = g(x)E (h(Y )|X = x) E (h(Y )g(X)|X) = g(X)E (h(Y )|X) 7. E E (Y |X) = E Y Definicja 8. V ar(Y |X = x) = Z Y ozn. (y − r(x))2 f (y|x)dy = v(x) Definicja 9. Zmienną losową v(X) ozn. V ar(Y |X) V ar(Y |X) = E [(Y − E (Y |X))2 |X] = E (Y 2 |X) − E (Y |X)2 Ponieważ: V ar(Y |X) = E [(Y − E (Y |X))2 |X] = E [Y 2 − 2Y E (Y |X) + E (Y |X)2 |X] = E (Y 2 |X) − 2E (Y |X)E (Y |X) + E (Y |X)2 = E (Y 2 |X) − E (Y |X)2 Twierdzenie 1. V ar(Y ) = E V ar(Y |X) + V arE (Y |X) 12 Dowód. V ar(Y ) = E v(X) + V ar r(X) , V ar(Y ) = = = Z 2 ZY (y − m) fY (y)dy = Z X Z Y Z X Y Z X Z Y Z X Z X Y (y − m)2 f (y|x)fX (x)dydx (y − r(x) + r(x) − m)2 f (y|x)dyfX (x)dx (y − r(x))2 f (y|x)dy fX (x)dx + {z | = Z m = E Y = E r(X) Z X (r(x) − m)2 } v(x) Z Y f (y|x)dy fX (x)dx | {z } 1 v(x)fX (x)dx + V ar r(X) = E v(X) + V ar r(X) (y − r(x))(r(x) − m)f (y|x)dyfX (x)dx = Z X Z (r(x) − m) Y (y − r(x))f (y|x)dyfX (x)dx {z | } 0 2 Przykład 9. X=0 X=1 O ¡@ R ¡ ª ¡ t d d V ar(Y |X = 0) = V ar(Y |X = 1) = E (Y |X = 0) = E (Y |X = 1) = 1 3 2 3 2 9 2 9 V ar(Y |X) = @ @ R t t d t–Y =1 d–Y =0 2 9 E V ar(Y |X) = 2 9 V arE (Y |X) = 1 4·9 26.10.2006r. Specyfikacja rozkładu łącznego przez rozkłady warunkowe. O¡¡ @@R ª ¡ t d @ R t d d X Y t–Y =1 d–Y =0 P(X = 0) = 12 = P(X = R) P(Y = 1|X = 0) = 21 P(Y 6= 1|X = R) = 13 Przykład 10. N – liczba rozszerzeń. N ∼ P oiss(λ). Każde roszczenie jest uwzględniane z prawdopodobieństwem p lub odrzucane z prawdopodobieństwem q = 1 − p, niezależnie dla każdego roszczenia. K – liczba roszczeń uwzględnionych. P(K = k) = „?” 13 Metody bayesowskie w statystyce P(K = k|N = n) = P(K = k) = ∞ X n=k n k P(K = k|N = n)P(N = n) = = e−λ pk i=n−k = e−λ 3. pk q n−k ∞ X n=k n k n−k −λ λn p q e k n! ! ∞ λn pk X λn−k λk n−k n! q n−k = e−λ q n! k! n=k (n − k)! n=k k!(n − k)! ∞ X ∞ (λp)k X (λp)k λq (λp)k (λq)i = e−λ e = e−λp , k! i=0 i! k! k! K ∼ P oiss(λp) Budowa statystycznych modeli bayesowskich. rozkłady a priori i a posteriori , warunkowa niezależność, statystyki dostateczne. Definicja 10. Załóżmy, że X, Y1 , Y2 mają łączną gęstość na X × Y1 × Y2 . Mówimy, że Y1 i Y2 są warunkowo niezależne przy danym X jeśli ozn. Y1 Y2 X ² f (y1 , y2 |x) = f (y1 |x)f (y2 |x) ∀x,y1 ,y2 ² Wniosek 2. Jeśli Y1 Y2 X, to f (y2 |x, y1 ) = f (y2 |x) Dowód. f (y2 |x, y1 ) = f (x, y1 , y2 ) f (y1 , y2 |x)f (x) f (y1 |x)f (y2 |x)f (x) = = = f (y2 |x) f (x, y1 ) f (y1 |x)f (x) f (y1 |x)f (x) 2 (Y1 , . . . , Yn ) X ² Uogólnienie: f (y1 , . . . , yn |x) = n Y i=1 f (yi |x) I Rzucamy monetę. II Losujemy kolejno z tej samej, wybranej urny z/z kule Y1 , . . . , Yn Podstawowy model statystyki bayesowskiej. Y – przestrzeń obserwacji Y – zmienna losowa interpretowana jako „obserwacja” Rodzina rozkładów prawdopodobieństwa na przestrzeni Y o gęstościach fθ (y) (względem ustalonej miary ν na σ - ciele A) θ – parametr rozkładu prawdopodobieństwa, θ ∈ P – przestrzeń parametrów Y , A, {fθ ν : θ ∈ P} – przestrzeń statystyczna 14 gdzie fθ ν oznacza miarę probabilistyczną o gęstości fθ względem ν Jeżeli na zbiorze P mamy σ - ciało C i miara probabilistyczna πµ (o gęstości π względem miary µ na P) Y , A, {fθ ν : θ ∈ P}, C, πµ = Y , {fθ : θ ∈ P}, π – bayesowska przestrzeń statystyczna Y 6y fθ π -θ P Łączny rozkład prawdopodobieństwa na P × Y ma gęstość df f (θ, y) = π(θ)fθ (y) Możemy traktować parametr jako zmienną losową Θ o rozkładzie prawdopodobieństwa π Gęstość warunkowa f (y|θ) = f (θ, y) = fθ (y) π(θ) Terminologia π – rozkład a priori f (y|θ) = fθ (y) – wiarogodność Rozkład a posteriori πy (θ) = f (θ|y) = f (y|θ)π(θ) , f (y) gdzie f (y) = Z P f (y|θ)π(θ)dθ Przykład 11. Y = {0, 1, . . . , n} – przestrzeń obserwacji P = [0, 1] – przestrzeń parametrów Y – liczba sukcesów w schemacie Bernoulliego z prawdopodobieństwem sukcesu θ i liczbą doświadczeń n ! n k P(Y = k|θ) = θ (1 − θ)n−k = f (k|θ) k π – rozkład jednostajny U(0, 1) π(θ) ≡ 1 f (k) = Z 1 0 ! ! ! ! n k n Z1 k n Γ(k + 1)Γ(n − k + 1) n k!(n − k)! n−k n−k θ (1 − θ) dθ = θ (1 − θ) dθ = = k k 0 k Γ(n + 2) k (n + 1)! 15 Metody bayesowskie w statystyce Stąd f (k|θ)π(θ) πk (θ) = = f (k) n k θk (1 − θ)n−k n k!(n−k)! k (n+1)! = (n + 1)! k θ (1 − θ)n−k k!(n − k)! n k = (n + 1) θ (1 − θ)n−k = const · θk (1 − θ)n−k k ! a posteriori a priori 1 0 0.3 n = 100 k = 30 const θ30 (1 − θ)70 n = 10 k=3 const θ3 (1 − θ)7 1 Szukamy max gęstości log πk (θ) = const + k log θ + (n − k) log(1 − θ) 0 1 1 log πk (θ) = k · + (n − k) · · (−1) θ 1−θ 1 1 k · + (n − k) · · (−1) = 0 θ 1−θ 1 1 k · = (n − k) · θ 1−θ k(1 − θ) = (n − k)θ (n − k + k)θ = k k θ= n Definicja 11. Mówimy, że Θ ∼ Beta(α, β), jeśli ma gęstość π(θ) = Γ(α + β) α−1 θ (1 − θ)β−1 , Γ(α)Γ(β) dla 0 < θ < 1 , α>0, β>0 Beta(1, 1) ∼ U (0, 1) Beta(2, 1) ∼ 2θ Beta(1, 2) ∼ 2(1 − θ) 02.11.2006r. Podstawowy model bayesowski. Przestrzeń P ×Y µ ν 16 Θ Y df f (θ; y) = π(θ)f (y|θ) gdzie π(θ) – rozkład a priori , (gęstość względem miary µ) f (y|θ) – wiarogodność, (gęstość względem miary ν) Zwykle (niekoniecznie) Y = (Y1 , . . . , Yn ), danym Θ = θ Y1 , . . . , Yn – są warunkowo niezależne przy f (θ; y1 , . . . , yn ) = π(θ) Y i f (yi |θ) Y = Y1n Rozkład brzegowy obserwacji f (y) = Z P f (θ, y)dθ f (y1 , . . . , yn ) = Z f (θ, y1 , . . . , yn )dθ P Rozkład a posteriori πy (θ) = f (θ|y) = π(θ)f (y|θ) ∝ π(θ)f (θ) f (y) Definicja 12. g1 (θ) ∝ g2 (θ) ∃c6=0 g1 (θ) = cg2 (θ) Y = Y1n+1 , Θ, Y1 , . . . , Yn , Yn+1 Czasami gdzie f (y) = ⇔ Θ – nieobserwowana zmienna losowa; („wymyślona”) Y1 , . . . , Yn – obserwacje Yn+1 – nieobserwowana zmienna losowa; (nie znamy jej, ale poznamy) Z f (y|θ)π(θ)dθ f (y2 |y1 ) = Z f (y2 |θ, y1 )f (θ|y1 )dθ Rozkład predykcyjny f (yn+1 |y1 , . . . , yn ) = Przykład 12. Bernoulli/Beta Z f (yn+1 |y1 , . . . , yn , θ)f (θ|y1 , . . . , yn )dθ = P = [0, 1] , Z f (yn+1 |θ)πy1 ,...,yn (θ)dθ Y = {0, 1}n+1 Schemat Bernoulliego z nieznanym prawdopodobieństwem sukcesu θ Y1 , . . . , Yn , Yn+1 P = 1) = θ = P(Y = 1|θ) = f (1|θ) Pθ (Y = 0) = 1 − θ = P(Y = 0|θ) = f (0|θ) θ (Y 17 Metody bayesowskie w statystyce f (y|θ) = θy (1 − θ)1−y f (y1 , . . . , yn |θ) = Pθ (Y1 = y1 , · · · , Yn = yn ) = θΣyi (1 − θ)n−Σyi – rozkład Bernoulliego Rozkład a priori Θ ∼ Beta(α, β) π(θ) = Γ(α + β) α−1 θ (1 − θ)β−1 ∝ θα−1 (1 − θ)β−1 Γ(α)Γ(β) Rozkład a posteriori πy1 ,...,yn (θ) ∝ θα−1 (1−θ)β−1 θΣyi (1−θ)n−Σyi = θα+ΣYi −1 (1−θ)β+n−Σyi −1 ∼ Beta(α+Σyi , β+n−Σyi ) α + Σyi α α+β Σyi n α = · + · = (1 − z) +y·z α+β+n α+β α+β+n n α+β+n α+β n gdzie z = α+β+n dla n → ∞ z → 1 E (Θ|y1 , . . . , yn ) = α – średnia a priori α+β y – średnia z obserwacji Rozkład brzegowy Γ(α + β) α+Σyi −1 θ (1 − θ)β+n−Σyi −1 dθ 0 Γ(α)Γ(β) Γ(α + β) Γ(α + Σyi )Γ(β + n − Σyi ) Γ(α + β) Γ(α + s)Γ(β + n − s) = · = · Γ(α)Γ(β) Γ(α + β + n) Γ(α)Γ(β) Γ(α + β + n) f (y1 , . . . , yn ) = P(Y1 = y1 , . . . , Yn = yn ) = = α(α + 1)(α + 2) . . . (α + s − 1)β(β + 1)(β + 2) . . . (β + n − s − 1) (α + β)(α + β + 1) . . . (α + β + n − 1) = −α(−α − 1)(−α − 2) . . . (−α − s + 1)(−β)(−β − 1)(−β − 2) . . . (−β − n + s + 1) (−α − β)(−α − β − 1) . . . (−α − β − n + 1) = −α −β s n−s −α−β n P Yi = s = · −α −β s n−s −α−β n X Z 1 s!(n − s)! = n! −α −β s n−s −α−β n 1 · n = P(Y1 = y1 , . . . , Yn = yn ) s Rozkład predykcyjny f (1|y1 , . . . , yn ) = P(Yn+1 = 1|y1 , . . . , yn ) = = Z 1 0 Z 1 0 P(Yn+1 = 10|θ)πy1 ,...,yn (θ)dθ θπy1 ,...,yn (θ)dθ = E (Θ|y1 , . . . , yn ) = α (1 − z) + y · z α+β Przykład Laplace’a Y1 , . . . , Yn , Yn+1 P(Y1 = y1 , . . . , Yn = yn |θ) = θΣyi (1 − θ)n−Σyi , gdzie θ = k m 18 Rozkład a priori π( z= n n = n+α+β n+2 k k 1 ) = P(Θ = ) = m m m+1 P(Yn+1 = 1|Y1 = . . . = Yn = 1) = 21 · n n+1 2 +1· = n+2 n+2 n+2 w granicy 09.11.2006r. Dostateczność. Y – przestrzeń obserwacji P – przestrzeń parametrów {fθ } – rodzina rozkładów prawdopodobieństwa na Y π – rozkład a priori na P Y6 fθ (y) = f (y|θ) df f (θ, y) = fθ (y)π(θ) Definicja 13. Statystyka jest to funkcja mierzalna θ - P T : Y −→ T Przykład 13. Y = Rn , Y = (Y1 , . . . , Yn ) 1X Y = Yi n i T : Rn −→ R Definicja 14. Statystyka T jest dostateczna, jeśli dla każdego θ rozkład warunkowy zmiennej Y przy danym T (Y ) = t jest taki sam (nie zależy od θ). Y i T – przestrzenie dyskretne (założenie upraszczające) Definicja 15. T jest dostateczne, jeśli Pθ (Y = y|T (Y ) = t) – nie zależy od θ Uwaga 8 (DOST). Pθ (Y = y|T (Y ) = t) = 0, jeśli T (y) 6= t rozkład warunkowy jest skupiony na {y; T (y) = t} 19 Metody bayesowskie w statystyce Uwaga 9. W modelu bayesowskim dostateczność można zapisać P(Y = y|T (Y ) = t, Θ = θ) = P(Y = y|T (Y ) = t) Definicja 16 (FAKT). Kryterium faktoryzacji T jest dostateczna, jeśli fθ (y) = Pθ (Y = y) = P(Y = y|Θ = θ) daje się przedstawić jako hθ T (y) g(y) (nie zależy od θ) Definicja 17 (WN). Warunkowa niezależność P Y = y, Θ = θ|T (Y ) = t = P Y = y|T (Y ) = t P Θ = θ|T (Y ) = t Umowa: df T = T (Y ) Definicja 18 (BDOST). Bayesowska dostateczność P Θ = θ|Y = y = P Θ = θ|T (Y ) = T (y) Twierdzenie 2. DOST ⇔ FAKT ⇔ WN ⇔ BDOST Dowód. DOST ⇒ FAKT fθ (y) = P(Y = y|Θ = θ) = P(Y = y, T = T (y)|Θ = θ) = P(Y = y|T = T (y), Θ = θ)P(T = T (y)|Θ = θ) DOST = P(Y = y|T = T (y))P(T = T (y)|Θ = θ) FAKT ⇒ BDOST P(Θ = θ|Y = y) = P(Y = y|Θ = θ)P(Θ = θ) = P(Y = y) hθ T (y) g(y)P(Θ = θ) P(Y = y) hθ T (y) g(y)P(Θ = θ) =X = P(Θ = θ|T = T (y)) hθ0 T (y) g(y)P(Θ = θ0 ) θ0 P(Θ = θ|Y = y, T = T (y)) = P(Θ = θ|T = T (y)) WN ⇔ DOST ⇔ BDOST Przykład 14. Model Bin/Beta 2 20 Y1 , . . . , Y n f (1|θ) = P(Yi = 1|θ) = θ , P(Yi = 0|θ) = 1 − θ = f (0|θ) Y1 , . . . , Yn – warunkowo niezależne |θ π(θ) = Γ(α + β) α−1 θ (1 − θ)β−1 Γ(α)Γ(β) Kryterium faktoryzacji n Y WN f (y1 , . . . , yn |θ) = f (y1 |θ) . . . f (yn |θ) = S(y) = X θyi (1 − θ)1−yi = θΣyi (1 − θ)n−Σyi · 1 i=1 yi – jest statystyką dostateczną Rozkład warunkowy (Y1 , . . . , Yn ) przy danym S(Y1 , . . . , Yn ) = P Y1 = y 1 , . . . , Y n = y n | = X X Yi = S Yi = s = 0 P(Y1 =y1 ,...,Yn =yn ,S=s) P(S=s) jeśli P yi 6= s P(Y1 = y1 , . . . , Yn = yn ) θs (1 − θ)n−s 1 = n = n P(S = s) θs (1 − θ)n−s s s BDOST πy (θ) = f (θ|y1 , . . . , yn ) = f (θ|y1 , . . . , yn ) = f (θ|S = s) f (y1 , . . . , yn |θ)π(θ) ∝ θΣyi (1 − θ)n−Σyi θα−1 (1 − θ)β−1 f (y1 , . . . , yn ) gdzie s = P yi Jeśli f (y|θ) i π(θ) są gęstościami względem dowolnych miar σ - skończonych, to FAKT f (y|θ) = hθ T (y) g(y) WN f (y, θ|t) = f (y|t)f (θ|t) BDOST f (θ|y) = f (θ|t) gdzie t = T (y) 15.11.2006r. Wykładnicze rodziny rozkładów prawdopodobieństwa. X – przestrzeń obserwacji X – zmienna losowa (obserwacja) o gęstości fθ (x) , x∈X , θ∈Θ Definicja 19. Rodzina rozkładów prawdopodobieństwa na X jest rodziną wykładniczą jeśli gęstości są postaci: ! (∗) fθ (x) = exp k X j=1 Tj (x)gj (θ) + g0 (θ) h(x) , θ∈Θ 21 Metody bayesowskie w statystyce Przykład 15. Rodzina rozkładów U (0, θ), θ > 0 nie jest rozkładem, wykładniczym (ponieważ zbiór na którym sie zeruje ta gęstość zależy od θ) 1 fθ (x) = 1[0,θ] (x) θ Przykład 16. {Ex(θ) : θ > 0} jest rodziną wykładniczą, X = [0, ∞) fθ (x) = θe−θx = exp(−θx + log θ) Przykład 17. {P oiss(θ) : θ > 0} jest rodziną wykładniczą, fθ (x) = e−θ θx = exp x! X = {0, 1, 2, . . .} − θ + x log θ Przykład 18. {Gamma(α, λ) : α > 0, λ > 0} jest rodziną wykładniczą, λα α−1 −λx fα,λ (x) = x e = exp Γ(α) 1 x! X = [0, ∞), λα − λx + (α − 1) log x + log Γ(α) θ = (α, λ) ! Jeżeli X1 , . . . , Xn jest próbką (iid) ∼ fθ , to fθ (x1 , . . . , xn ) = n Y i=1 fθ (xi ) = exp k X n X j=1 i=1 ! Tj (xi ) gj (θ) + ng0 (θ) n Y i=1 h(xi ) Z kryterium faktoryzacji wynika, że Pn i=1 T1 (Xi ), . . . , Pn i=1 – jest k - wymiarową statystyką dostateczną Tk (Xi ) gdzie n – rozmiar próbki k – ilość składników rodziny wykładniczej Naturalna parametryzacja rodziny wykładniczej fθ (x) = exp k X `(θ) = − log j=1 Z X Tj (x)θj + `(θ) h(x) exp k X j=1 Tj (x)θj h(x)dx `(θ) = `(θ1 , . . . , θk ) Stwierdzenie 1. E θ Tj (X) = − ∂`(θ) ∂θj 22 Dowód. Z Z ∂ Z ∂ 0= fθ (x)dx = fθ (x)dx = ∂θj X X X ∂θj = Z X Tj (x)fθ (x)dx + ∂` Tj (x) + ∂θj ! exp k X r=1 Tr (x)θr + `(θ)h(x)dx ∂` Z ∂` fθ (x)dx = E θ Tj (X) + ∂θj X ∂θj 2 Przykład 19. Rozkład dwumianowy, Bin(p, n) , p ∈ (0, 1) n o n n x fp (x) = p (1 − p)n−x = exp x log p + (n − x) log(1 − p) x x ! p = exp x log + n log(1 − p) 1−p ( θ = log ) n x ! ! p 1−p `(θ) = n log(1 − p) = n log 1 1 + eθ eθ ∂` = −n · = −n · p ∂θ 1 + eθ Definicja 20. Dla rodziny wykładniczej postaci (∗) rodzina gęstości π(θ) = πα (θ) ∝ exp k X j=1 αj gj (θ) + α0 g0 (θ) nazywa się sprzężoną rodziną rozkładów a priori , α = (α0 , α1 , . . . , αk ) Załóżmy, że X1 , . . . , Xn są warunkowo iid (przy danym θ) o gęstości fθ Stwierdzenie 2. Rozkład a posteriori ma postać π(θ|x1 ) ∝ fθ (x1 )π(θ) ∝ exp k X = exp k X j=1 j=1 α10 = α1 + n X i=1 k X Tj (x)gj (θ) + g0 (θ) exp αj + Tj (x) gj (θ) + (α0 + 1)g0 (θ) π(θ|x1 , . . . , xn ) ∝ fθ (x1 , . . . , xn )π(θ) ∝ exp gdzie αj gj (θ) + α0 g0 (θ) k X T1 (xi ) j=1 j=1 αj + n X i=1 ! Tj (xi ) gj (θ) + (α0 + n)g0 (θ) = πα (θ) 23 Metody bayesowskie w statystyce .. . αk0 = αk + n X i=1 Tk (xi ) α00 = α0 + n Przykład 20. {Ex(θ) : θ > 0} fθ (x) = θe−θx = exp − θx + log θ n fθ (x1 , . . . , xn ) = exp − θ o n X xi + n log θ i=1 sprzężona rodzina rozkładów a priori πα (θ) = πα0 ,α1 (θ) ∝ exp − θα1 + α0 log θ = θα0 exp − α1 · θ = Gamma(α0 + 1, α1 ) n Rozkład a posteriori o n o Gamma(α0 + n + 1, α1 + Σxi ) 16.11.2006r. Typowe modele bayesowskie ze sprzężonymi rodzinami rozkładów. Bin/Beta X1 , . . . , X n P(Xi = 1|θ) = θ = f (1|θ) θ ∈ (0, 1) P(Xi = 0|θ) = 1 − θ = f (0|θ) rozkład a priori π(θ) = Γ(α + β) α−1 θ (1 − θ)β−1 ∝ θα−1 (1 − θ)β−1 Γ(α)Γ(β) U(0, 1) = Beta(1, 1) rozkład a posteriori f (x1 , . . . , xn |θ)π(θ) ∝ f (θ|x1 , . . . , xn ) = f (x1 , . . . , xn ) n Y = =θ xi 1−xi θ (1 − θ) i=1 Σxi +α−1 n Y i=1 ! f (xi |θ) π(θ) ! π(θ) = θΣxi (1 − θ)n−Σxi θα−1 (1 − θ)β−1 (1 − θ)n−Σxi +β−1 ∼ Beta(Σxi + α, n − Σxi + β) Beta(α + 2, 3 + β) α, β = 1 ) 2 sukcesy i 3 porażki θbB = E (θ|x1 , . . . , xn ) = ⇒ Beta(3, 4) s+α – estymator bayesowski parametru θ n+α+β 24 θb = s n x 1−x fθ (x) = θ (1 − θ) θ = exp x log θ + (1 − x) log(1 − θ) = exp x log + log(1 − θ) 1−θ X xi – statystyka dostateczna Sprzężona rodzina rozkładu a priori θ π(θ) ∝ exp α1 log + α0 log(1 − θ) 1−θ ∝ θ 1−θ !α1 (1 − θ)α0 = θα1 (1 − θ)α0 −α1 ∼ Beta(α1 + 1, α0 − α1 + 1) Poisson/Gamma f (k|θ) = P(X = k) = e−θ θk , k! X ∼ P oiss(θ) rozkład a priori λα α−1 −λθ π(θ) = θ e ∝ θα−1 e−λθ rozkład a posteriori Γ(α) f (x1 , . . . , xn )|θ)π(θ) f (θ|x1 , . . . , xn ) = ∝ f (x1 , . . . , xn ) = n Y θ xi i=1 θbB = E (θ|X1 , . . . , Xn ) = 4. xi ! e −θ n Y i=1 ! f (xi |θ) π(θ) ! θα−1 e−λθ ∝ θΣxi θα−1 e−λθ e−nθ = θΣxi +α−1 e−(λ+n)θ s+α ∼ Gamma(s + α, λ + n) , λ+n gdzie s = Σxi Funkcje straty, estymacja i predykcja bayesowska. 23.11.2006r. Teoria decyzji statystycznych. X – przestrzeń obserwacji P – przestrzeń parametrów {Pθ ; θ ∈ Θ} – rodzina rozkładów prawdopodobieństwa na X X – obserwacja, X ∼ Pθ A – przestrzeń akcji (decyzji), a ∈ A Definicja 21. Reguła decyzyjna δ : X −→ A „na podstawie (losowej) obserwacji X podejmujemy akcję (decyzję) δ(X)” 25 Metody bayesowskie w statystyce Definicja 22. Funkcja strat L : P × A −→ R (R+ ) L(θ, a) – strata jaką ponosi statystyk, jeśli podejmie akcję a, a wartością parametru jest θ GRA I gracz – Natura II gracz – Statystyk wybiera θ ∈ Θ losujemy X ∼ Pθ wybiera a ∈ A a = δ(X) 1940 Abraham Wald Pθ – ma gęstość fθ Definicja 23. Funkcja ryzyka R(θ, δ) = E θ L(θ, δ(X)) = Z X L(θ, δ(X))fθ (x)dx Przykład 21 (estymacja). P ⊆ R, A = R L(θ, a) = (θ − a)2 – kwadratowa funkcja straty R(θ, δ) = E θ (θ − δ(X))2 δ – estymator, δ(X) ≈ θ̂(X) Przykład 22 (estymacja). L(θ, a) = |θ − a| – błąd absolutny Przykład 23 (estymacja). P = R+ = (0, ∞) L(θ, a) = L(θ, a) = Przykład 24 (testowanie hipotez). P = {θ0 , θ1 } H0 – hipoteza zerowa H1 – hipoteza alternatywna X ∼ Pθ θ = θ0 lub θ = θ1 A = {a0 , a1 } a0 – brak podstaw do odrzucenia H0 |θ − a| θ (θ − a)2 θ2 26 a1 – odrzucamy H0 na rzecz H1 Rzut kostką X = {1, 2, . . . , 6} Pθ0 Pθ1 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 1 6 1 6 − 2 3 4 5 1 100 1 6 1 6 1 6 1 6 6 1 6 + 1 100 „oszukana kostka” „dobra kostka” L(θ0 , a0 ) = L(θ1 , a1 ) = 0 L(θ1 , a0 ) = L(θ0 , a1 ) = 1 δ(x) = a 1 a0 ; jeśli x = 6 ; w p.p. 1 2 3 4 5 6 1 6 | 1 6 1 6 1 6 a0 {z 1 6 a1 } |{z} R(θ0 , δ) = E θ0 L(θ0 , δ(X)) = Pθ0 (δ(X) = a1 ) = R(θ1 , δ) = E θ1 L(θ1 , δ(X)) = Pθ1 (δ(X) = a0 ) = 1 6 – obszar krytyczny błąd I - go rodzaju 5 1 − 6 100 błąd II - go rodzaju decyzje PP PP PP PP statystyka PP stan PP PP natury P a0 a1 H0 : θ0 O.K. błąd I - szego rodzaju ozn. α H1 : θ1 błąd II - go rodzaju ozn. β O.K. 6β s 5 6 1 6 − 1 100 = R(θ1 , δ) s 1 6 - α = R(θ0 , δ) Zadanie domowe 2. Znaleźć funkcję ryzyka dla wszystkich reguł decyzyjnych. 27 Metody bayesowskie w statystyce Przykład 25. ∼ N (θ, 1) X = (X1 , . . . Xn ) iid L(θ, a) = (θ − a)2 X = δ1 (X) R(θ, δ1 ) = E θ (θ − X)2 = V arθ (X) = 1 n 6 1 n - θ P Estymator bayesowski dla rozkładu a priori θ ∼ N (m, a2 ) θbB = zX + (1 − z)m na2 na2 z= 2 = 2 na + δ 2 na + 1 2 σ =1 R(δ2 ) R(δ3 ) 1 n R(δ1 ) r m P δ3 (X) = m R(θ, δ3 ) = E θ (θ − m)2 = (θ − m)2 Definicja 24. Ryzyko bayesowskie (dla rozkładu a priori π) r(δ) = r(π, δ) = E L(Θ, δ(X)) = Z Z P X L(θ, δ(x))fθ (x)dxπ(θ)dθ = Z P R(θ, δ)π(θ)dθ = Z P r(δ) = E E L(Θ, δ(X)|X) = Z X E L(Θ, δ(X)|X = x) f (x)dx = | {z ryzyko a posteriori gdzie f (θ|x) = fθ (x)π(θ) f (x) } Z Z X P | L(θ, δ(x))f (θ|x)dθf (x)dx {z E L(Θ, δ(X))|Θ = θ π(θ)dθ ryzyko a posteriori } 28 Jak zminimalizować r(δ)? Dla każdego x ∈ X znajdujemy δ(x) dla którego Z P Przykład 26. ∼ X = (X1 , . . . Xn ) iid N (θ, σ 2 ), L(θ, a) = (θ − a)2 L(θ, a)f (θ|x)dθ −→ min a Θ ∼ N (m, a2 ) Rozkład a posteriori σ Θ | X1 , . . . Xn ∼ N zX + (1 − z)m, naa2 +σ 2 2 2 Ryzyko a posteriori E (Θ − d)2 |X1 , . . . Xn h E (Θ − d)2 jest najmniejsze dla d∗ = zX + (1 − z)m, i r∗ = a2 σ 2 na2 +σ 2 30.11.2006r. Problemy klasyfikacji/dyskryminacji. R. Fisher 1930 Obiekt opisany „wektorem cech” X = (X1 , . . . , Xd ) należy do jednej z k klas. Na podstawie obserwacji X mamy zdecydować, do której klasy zaliczyć obiekt. P = {1, 2, . . . , k} – identyfikator klasy (przestrzeń parametrów) X ⊆ Rd – przestrzeń obserwacji A = {1, 2, . . . , k} lub A = {0, 1, . . . , k} – przestrzeń decyzji, (0 – zawieszenie decyzji) Rozkłady prawdopodobieństwa wektora X przy danym θ ∈ P są znane. (gęstość fθ ) f1 , . . . , fk – gęstości w klasach π(θ) = πθ – prawdopodobieństwo a priori pojawienia się obiektu z klasy θ π1 + . . . + πk = 1 Funkcja strat L(θ, a) – macierz k × (k + 1) L(θ, θ) = 0 L(θ, a) 0 L(θ, 0) ¬ L(θ, a) dla dowolnego a 6= θ Reguła decyzyjna δ : X −→ A Obszary decyzyjne Dj = {x ∈ X ; δ(x) = j} ozn. θ=i a=j 29 Metody bayesowskie w statystyce D1 X D2 f1 (x)π1 = max D0 Dk D3 Ryzyko h i Ri =E L(i, δ(X))|θ = i = = k Z X j=0 Dj Z L(i, j)fi (x)dx = L(i, δ(x))fi (x)dx X k X j=0 L(i, j)P(X ∈ Dj |θ = i) | {z Z Dj } fj (x)dx Ryzyko bayesowskie r= k X i=1 r= Z X πi L(i, j)P(X ∈ Dj |θ = i) {z ryzyko a posteriori k X i=1 i=1 j=0 gdzie f (x) = E L Θ, δ(X)|X = x f (x)dx | rx = k X k X πi Ri = E L θ, δ(X) = i=1 } L i, δ(x) P(θ = i|X = x) = | {z k X } rozkład a posteriori k X L i, δ(x) π(i|x) πi fi (x) gdzie π(i|x) = i=1 Reguła bayesowska δ(x) dla ustalonego x δ ∗ (x) = j ∗ , jeśli X L(i, j ∗ )π(i, x) ¬ i X L(i, j)π(i, x) ∀j L(i, j)fi (x)πi ∀j i m X i L(i, j ∗ )fi (x)πi ¬ X i Przykład 27. 0 ; j = i L(i, j) = A = P = {1, . . . , k} 1 ; j 6= i r = P(θ 6= δ(X)) – prawdopodobieństwo błędnej klasyfikacji Reguła bayesowska X i L(i, j)fi (x)πi = δ ∗ (x) = j ∗ dla takiego j ∗ , że X fi (x)πi = f (x) − fj (x)πj −→ min j i6=j fj ∗ (x)πj ∗ fj (x)πj ∗ π(j |x) π(j|x) ∀j ∀j fi (x)πi f (x) 30 Przykład 28. 0 ; j = i L(i, j) = λ ; j = 0– zawieszenie decyzji 1 ; j 6= i j 6= 0– błędna klasyfikacja P i 1 − π(j|x) ; L(i, j)π(i|x) = λ; Reguła bayesowska Niech π(j ∗ |x) π(j, x) jeśli j 6= 0 jeśli j = 0 ∀j j ∗ ; jeśli 1 − π(j ∗ |x) ¬ λ δ (x) = 0 ; jeśli 1 − π(j ∗ |x) λ ∗ λ ∈ (0, 1) π(j ∗ ) 1 − λ π(j ∗ ) ¬ 1 − λ Przykład 29. Dwa rozkłady normalne, d=1 fi (x) = √ 1 exp − 2πσ 1 (x 2σ 2 µ1 − µi ) 2 i = 1, 2 µ2 Funkcja strat a=1 a=2 a=0 θ=1 0 L(1, 2) L(1, 0) θ = 2 L(2, 1) 0 L(2, 0) " rx = P # L(2, 1)π(2|x) ; j=1 j=2 i L(i, j)π(i|x) = L(1, 2)π(1|x) ; L(1, 0)π(1|x) + L(2, 0)π(2|x) ; j = 0 10 : L(2, 1)π(2|x) ¬ L(1, 0)π(1|x) + L(2, 0) L(2, 1)f2 (x)π2 ¬ L(1, 0)f1 (x)π1 + L(2, 0)f2 (x)π2 L(2, 1) f2 f2 π2 ¬ L(1, 0)π1 + L(2, 0) π2 f1 f1 i f2 h L(2, 1) − L(2, 0) π2 ¬ L(1, 0)π1 f1 δ ∗ (x) = 1 ⇔ f2 (x) π1 L(1, 0) i = c1 ¬ h f1 (x) π2 L(2, 1) − L(2, 0) 31 Metody bayesowskie w statystyce δ ∗ (x) = 2 ⇔ f2 (x) f1 (x) δ ∗ (x) = 0 ⇔ c1 ¬ Zmienne losowe w x= x1 .. d . ∈R h π1 L(1, 2) − L(1, 0) i π2 L(2, 0) = c2 f2 (x) ¬ c2 f1 (x) 14.12.2006r. R d. xd f (x) = f (x1 , . . . , xd ) – gęstość rozkładu prawdopodobieństwa X1 .. X = (X1 , . . . , Xd )T = . Xd E X = (E X1 , . . . , E Xd )T = µ d V ar X = Cov(Xi , Xj ) i,j=1 = E (X − µ)(X − µ)T d = E (Xi − µi )(Xj − µj ) Twierdzenie 3. X ∼ fX , h : Rd −→ Rd – dyfeomorfizm, i,j=1 df Y = h(X) , Dh −1 = ∂h−1 i (y) ∂yj 1 T z z 2 Wtedy Y ma gęstość fY , gdzie fY (y) = fX h−1 (y) detDh−1 (y) 5. Wielowymiarowe rozkłady normalne. Z = (Z1 , . . . , Zd )T , gdzie Zi ∼ iid N (0, 1) EZ =0 V ar Z = I Z ∼ N (0, I) fZ (z) = d Y i=1 1 √ exp 2π 1 2 z 2 i ! − d2 = (2π) d d 1X exp zi2 = (2π)− 2 exp 2 i=1 h : Rd −→ Rd , x = h(z) = Rz – przekształcenie liniowe, h−1 (x) = R−1 x, det R 6= 0 nieosobliwe fX (x) = fZ (z) det R−1 = (2π)− 2 det R−1 exp − 12 xT (R−1 )T (R−1 )x d Ale V ar X = E XX T = E RZZ T RT = R(E ZZ T )RT = RRT = Σ , det Σ = (det R)2 32 Stąd − d2 fX (x) = (2π) gdzie: Σ = V ar X , Y ∼ N (µ, Σ) , EY =µ, − 12 (det Σ) exp − 1 T −1 x Σ x 2 X ∼ N (0, Σ) Y =X +µ, X ∼ N (0, Σ) V ar Y = Σ − d2 fY (y) = (2π) − 12 (det Σ) exp − 1 (y 2 T −1 − µ) Σ (y − µ) Przykład 30. Dyskryminacja dwóch rozkładów normalnych π1 , π2 = 1 − π1 gdzie π1 – to prawdopodobieństwo, że obiekt pochodzi z pierwszej klasy Jeśli i = 1, to X ∼ N (µ1 , Σ1 ) i = 2, to X ∼ N (µ2 , Σ2 ) Funkcja straty L12 , L21 L11 = L22 = 0 Reguła bayesowska δ(x) = 1 ; f2 (x) f1 (x) ¬ π1 L12 π2 L21 12 log ff21 (x) ¬ log ππ21 LL21 (x) 2 ; f2 (x) f1 (x) > π1 L12 π2 L21 (x) log ff21 (x) > log ππ12 LL12 21 1 f2 (x) T −1 Σ1 +(x−µ1 )T Σ−1 = log det 1 (x−µ1 )−(x−µ2 ) Σ2 (x−µ2 ) det Σ2 f1 (x) 2 ! – funkcja kwadratowa Obszary decyzyjne Di = {x; δ(x) = i} µ2 µ1 Przykład 31. Dwa rozkłady normalne N (µ1 , Σ) , N (µ2 , Σ) z tą samą macierzą kowariancji. (x) = log ff12 (x) 1 2 (x − µ1 )T Σ−1 (x − µ1 ) − (x − µ2 )T Σ−1 (x − µ2 ) 33 Metody bayesowskie w statystyce π1 = π2 , L12 = L21 Σ=I 1 ; 2 ; kx − µ1 k > kx − µ2 k δ(x) = x− (minimalizacja prawdopodobieństwa błędnej klasyfikacji) µ1 +µ2 T (µ2 2 − µ1 ) < 0 kx − µ1 k2 < kx − µ2 k2 ⇔ Definicja 25. Odległość Mahalanobisa: kx − yk2Σ = (x − y)T Σ−1 (x − y) 1 ; δ(x) = kx − µ1 kΣ < kx − µ2 kΣ 2 ; kx − µ1 kΣ > kx − µ2 kΣ Przykład 32. Dyskryminacja krozkładów normalnych N (µ1 , Σ), . . . , N (µk , Σ) ze wspólną macierzą ko0 ; i = j , πi = k1 wariancji Li,j = 1 ; i 6= j δ(x) = i∗ , jeśli fi∗ (x) fi (x) dla wszystkich i π(i|x) = f (x) = − d2 fi (x) = (2π) δ(x) = i∗ jeśli − 12 (det Σ) exp − 1 (x 2 T −1 − µi ) Σ (x − µi ) fi (x) f (x) 1X fj (x) k j kx − µi∗ kΣ ¬ kx − µi kΣ µ1 µ2 µ3 21.12.2006r. 34 Definicja 26. P Niech (Y1 , . . . , Yd ) będzie zmienną losową o wartościach w Rd taką, że di=1 Yi = 1, zaś (Y1 , . . . , Yd−1 ) mają gęstość fα1 ,...,αd (y1 , . . . , yd−1 ) = dla 0 ¬ yi , d−1 X i=1 Γ(α1 + . . . + αd ) α1 −1 αd−1 −1 y1 . . . yd−1 (1 − y1 − . . . − yd−1 )αd −1 Γ(α1 ) . . . Γ(αd ) ! yi ¬ 1 Mówimy, że (Y1 , . . . , Yd ) ma rozkład Dirichleta D(α1 , . . . , αd ), αi > 0 Definicja 27. N1 , . . . , Nd ma rozkład wielomianowy M(n, θ1 , . . . , θd ), jeśli n! P(N1 = n1 , . . . , Nd = nd ) = n1 !...nd ! θ1n1 . . . θdnd 0 jeśli n1 + . . . + nd = n w p. p. Uwaga 10. (N1 , N2 ) ∼ M(n, θ1 , θ2 ) ≡ N1 ∼ Bin(n, θ1 ) Uwaga 11. (Y1 , Y2 ) ∼ D(α1 , α2 ) ≡ Y1 ∼ Be(α1 , α2 ) Stwierdzenie 3. Jeśli (N1 , . . . , Nd ) ∼ M(n, θ1 , . . . , θd )|θ1 , . . . , θd warunkowo i (θ1 , . . . , θd ) ma rozkład a priori D(α1 , . . . , αd ), to rozkład a posteriori jest D(α1 + n1 , . . . , αd + nd ) Dowód. π(θ|n) =π(θ1 , . . . , θd−1 |n1 , . . . , nd ) ∝ f (n|θ)π(θ) = f (n1 , . . . , nd |θ1 , . . . , θd−1 )π(θ1 , . . . , θd−1 ) =θ1n1 . . . θdnd θ1α1 −1 . . . θdαd −1 = θ1α1 +n1 −1 . . . θdαd +nd −1 , gdzie θd = (1 − θ1 − . . . − θd−1 ) 2 Estymatory bayesowskie parametrów θ1 , . . . , θd αi – a priori E (θi ) = α1 + . . . + αd α i + ni – a posteriori α 1 + n1 + . . . + α d + nd (αi – pseudo-zliczenia) E (θi |n1 , . . . , nd ) = Normalny/Normalny X1 , . . . , Xn |θ ∼ iid N (θ, σ 2 ) θ ∼ N (m, a2 ) 35 Metody bayesowskie w statystyce σ 2 – znane Normalny/IG X1 , . . . , Xn |ν ν= 1 σ2 ∼ iid N (µ, ν1 ) µ – znane ν ∼ Gamma(α, λ) σ 2 ∼ IG(α, λ) – „precyzja” a posteriori : σ 2 ∼ IG n 2 + α, λ + 1 f (x1 , . . . , xn |ν) = ν2 √ 2π 1 2 !n (xi − µ)2 P ( exp gęstość a priori π(ν) = n n νX − (xi − µ)2 ∝ ν 2 exp 2 i=1 ) ( n νX − (xi − µ)2 2 i=1 ) λα α−1 −λν ν e ∝ ν α−1 e−λν Γ(α) gęstość a posteriori π(ν|x1 , . . . , xn ) ∝ ν n +α−1 2 ( exp −ν λ+ 1 2 n X i=1 2 (xi − µ) ) Definicja 28. Y ∼ IG(α, λ) ≡ 1 ∼ Gamma(α, λ) Y Różne funkcje straty w zadaniach estymacji. θ∈P⊆R Reguła decyzyjna δ : X −→ R , δ(x) – estymator θ 1. Funkcja kwadratowa L(θ, a) = (θ − a)2 min E (θ − a)2 , a∗ = E θ , E (θ − a∗ )2 = V ar(θ) a Estymator bayesowski min E [(θ − δ(X))2 |X] , δ δ ∗ (X) = E (θ|X) E [(θ − δ ∗ (X))2 |X] = V ar(θ|X) – ryzyko a posteriori Ryzyko bayesowskie E V ar(θ|X) 2. Wartość bezwzględna błędu L(θ, a) = |θ − a| min E |θ − a| , a∗ = med(θ) a 0 f (a) = |a| , f (a) = sign(a) ∂ ∂ ∂ E |θ − a| = E |θ − a| = E |a − θ| = E sign(a − θ) = −P(θ > a) + P(θ < a) = 0 ∂a ∂a ∂a P(θ > a) = P(θ < a) Lemat 1. E (θ − a)+ = Z ∞ a P(θ > x)dx 36 Lemat 2. E |θ − a| = E (θ − a)+ + E (a − θ)+ = Q(a) = Z ∞ a [1 − F (x)]dx + Z a −∞ Z ∞ a P(θ > x)dx + Z a −∞ P(θ − x)dx F (x)dx Jeżeli F jest ciągła w a, to ∂ Q(a) = F (a) − [1 − F (a)] = 2F (a) − 1 ∂a Jeżeli F (a−) < F (a), to ∂ Q(a) = 2F (a−) − 1 ∂a− ∂ Q(a) = 2F (a) − 1 ∂a+ ∂ ∂ Q(a) ¬ 0 ¬ Q(a) ∂a− ∂a 04.01.2007r. Testowanie hipotez statystycznych. Przypadek dwóch hipotez prostych. X – przestrzeń obserwacji P = {0, 1} – przestrzeń parametrów H0 : θ=0 f (x|0) = f0 (x) X ∼ f0 H1 : θ=1 f (x|1) = f1 (x) X ∼ f1 δ – reguła decyzyjna (test), Funkcja straty L(0, 1) = L(1, 0) = 1 L(0, 0) = L(1, 1) = 0 Rozkład a priori π0 , π1 Błąd I rodzaju II rodzaju δ : X −→ A = {0, 1} 0 – nie mamy podstaw do odrzucenia H0 1 – odrzucamy H0 na rzecz H1 π0 + π1 = 1, πi = P(Θ = i) dla i = 1, 2 P(δ(X) = 1|Θ = 0) = P0 (δ(X) = 1) = α(δ) = E L 0, δ(X) |Θ = 0 P(δ(X) = 0|Θ = 1) = P1 (δ(X) = 0) = β(δ) = E L 1, δ(X) |Θ = 1 Zbiór ryzyka R= α(δ), β(δ) : δ jest testem 37 Metody bayesowskie w statystyce Przykład 33. X = {1, 2, 3} x 1 2 3 f1 1 6 2 6 3 6 f0 3 6 2 6 1 6 f1 f0 1 3 1 3 β 1 5 6 4 6 3 6 2 6 1 6 1 6 2 6 3 6 4 6 5 6 α 1 Reguły bayesowskie przy wszystkich możliwych rozkładach a priori jeśli f1 (x) f0 (x) > π0 π1 δ(x) = 1 lub 0 jeśli f1 (x) f0 (x) = π0 π1 f1 (x) f0 (x) < π0 π1 1, 0, jeśli =c test ilorazu wiarogodności =c δ0 = 1 − δ α(δ 0 ) = 1 − α(δ) β(δ 0 ) = 1 − β(δ) Definicja 29. δ ∗ jest najmocniejszym testem na poziomie istotności α∗ , jeśli 1. α(δ ∗ ) ¬ α∗ 2. Jeśli α(δ ∗ ) ¬ α∗ , to β(δ ∗ ) ¬ β(δ) Lemat 3 (Neymana – Pearsona). Jeżeli δ ∗ jest najmocniejszym testem na poziomie istotności α∗ ∈ (0, 1) i α(δ ∗ ) = α∗ , to istnieje c ∈ [0, ∞) takie, że ∗ δ (x) = 1 , jeśli f1 (x) f0 (x) >c 0 , jeśli f1 (x) f0 (x) <c (∗) Jeżeli δ ∗ spełnia (∗) i α(δ ∗ ) = α∗ , to δ ∗ jest najmocniejszy na poziomie istotności α∗ . 38 Przykład 34. X = [0, 1] f0 (x) = 1 f1 (x) = 2x f1 (x) = 2x f0 (x) α(δ) = P0 (2X > c) = P0 (X > ac ) = 1 − β(δ) = P1 (2X ¬ c) = P1 (X ¬ c ) 2 = c 2 c 2 !2 β(α) = (1 − α)2 Najmocniejszy test na poziomie istotności α∗ = 0.005 α = 0.005 β = (1 − α)2 = (0.95)2 δ : X −→ [0, 1] Test zrandomizowany δ(x) – prawdopodobieństwo podjęcia decyzji 1, (odrzucenie hipotezy H0 ) Zbiór ryzyka dla reguł zrandomizowanych jest wypukły. δ1 α(δ1 ), β(δ1 ) δ2 α(δ2 ), β(δ2 ) δ = λδ1 + (1 − λ)δ2 α(δ) = Z β(δ) = Z X δ(x)f0 (x)dx X 1 − δ(x) f1 (x)dx Przykład (33 c. d.). Najmocniejszy test niezrandomizowany na poziomie istotności α∗ = 0.05 jest δ(x) ≡ 0 (nigdy nie odrzucamy). Najmocniejszy test zrandomizowany na poziomie istotności α∗ = 0.05 jest δ(x) ≡ 0. δ(x) = 0 , 1 20 1 6 jeśli x = 1 lub x = 2 = 6 20 = 3 10 , jeśli x = 3 Y6 θ Krzywa (α − β) Neymana – Pearsona. H0 : θ=0 f0 - P 11.01.2007r. 39 Metody bayesowskie w statystyce h= H1 : θ=1 f1 f1 f0 Testy ilorazu wiarogodności: 1 ; jeśli h(x) > c δ(x) = % ; jeśli h(x) = c 0 ; jeśli h(x) < c dokładniej, jeśli h(x) = c, to bierzemy 1 ; z prawdopodobieństwem % δ(x) = 0 ; z prawdopodobieństwem 1 − % α(c, %) = Z β(c, %) = Z {h>c} {h<c} f0 + % Z {h=c} f1 + (1 − %) F0 (c) = P0 (h ¬ c) = Z F1 (c) = P1 (h ¬ c) = Z f0 Z {h=c} {h¬c} {h¬c} f1 f0 f1 α(c, %) = 1 − F0 (c) + %[F0 (c) − F0 (c−)] = E 0 f1 1(h ¬ c) f0 β(c, %) = F1 (c−) + (1 − %)[F1 (c) − F1 (c−)] = E 0 h 1(h ¬ c) Testowanie hipotez złożonych w ujęciu bayesowskim. P – przestrzeń parametrów X – przestrzeń obserwacji f (x|θ) – wiarogodność π(θ) – a priori π(θ|x) – a posteriori H0 : θ ∈ P0 ⊂ P P0 ∩ P1 = ∅ H1 : θ ∈ P1 ⊂ P P1 = P \ P0 P(H0 |X = x) = P(θ ∈ P0 |X = x) = Z P(H1 |X = x) = P(θ ∈ P1 |X = x) = Z P0 P1 π(θ|x)dθ π(θ|x)dθ 40 Przykład 35. X1 , . . . , X n ∼ iid N (θ, σ 2 ) H0 : θ ¬ θ0 H1 : θ > θ0 θ ∼ N (m, a2 ) a priori θ ∼ N zx + (1 − z)m, a posteriori P(H0 |x1 , . . . , xn ) = Z θ0 −∞ a2 σ 2 na2 +σ 2 z= na2 na2 +σ 2 π(θ|x1 , . . . , xn )dθ = P(θ ¬ θ0 |x1 , . . . , xn ) θ0 − 2x − (1 − z)m √ 2 θ − 2x − (1 − z)m √ 2 na + σ 2 ¬ na + σ 2 =P aσ aσ θ0 − 2x − (1 − z)m √ 2 na + σ 2 =Φ aσ H0 : θ = θ0 H1 : θ 6= θ0 ! Rozkład a priori P(θ = θ0 ) = c, c ∈ (0, 1) c¡¡ @@1 − c ª ¡ θ = θ0 R @ θ ∼ N (m, a2 ) Zbiory (przedziały ufności) w ujęciu bayesowskim. P X π f Definicja 30. Przyporządkowanie x 7−→ C(x) ⊂ P P θ ∈ C(x)|X = 1 − α nazywamy przedziałem ufności na poziomie 1 − α Uwaga 12. W statystyce klasycznej P θ ∈ C(x)|θ = 1 − α ! 41 Metody bayesowskie w statystyce Stwierdzenie 4. Załóżmy, że π jest gęstością względem miary Lebesque’a. π(·|x) też jest gęstością względem miary Lebesque’a. Jeżeli istnieje takie c ∈ (0, ∞), że P(π(θ|x) > c|x) = Z {θ; π(θ|x)>c} π(θ|x)dθ = 1 − α to C ∗ (x) = {θ; π(θ|x) > c} jest najmniejszym w sensie miary Lebesgue’a przedziałem ufności na poziomie 1 − α Dowód. x ∈ X – ustalone Jeżeli Z C(x) π(x|θ)dθ = 1 − α, to |C(x)| |C ∗ (x)| C(x) = C C ∗ (x) = C ∗ π(θ|x) = π(θ) Z C π =1−α= Z ∗ C na C ∗ mamy π > c poza C ∗ mamy π ¬ c π c |C \ C ∗ | '$ '$ π¬c Z C\C ∗ π= Z C ∗ \C π> Z C ∗ \C c = c |C ∗ \ C| |C \ C ∗ | > |C ∗ \ C| C∗ C π>c &% |C| > |C ∗ | &% jeśli |C \ C ∗ | > 0 2 Predykcja liniowa i liniowe modele bayesowskie. θ – jednowymiarowa zmienna losowa, X Znaleźć funkcję δ : X −→ R taką, żeby E δ(X) − θ δ ∗ (X) = E (θ|X) – 2 była minimalna rozwiązanie Twierdzenie 4. Jeżeli θ, X1 , . . . , Xn są zmiennymi losowymi X = (X1 , . . . , Xn )T , to funkcja liniowa δ(x) = δ(X1 , . . . , Xn ) = c0 + 2 minimalizująca E θ − δ(X) n X i=1 ci X i = c0 + cT X jest dana wzorami c∗ = V ar(X)−1 Cov(X, θ) c0 = E θ − cT∗ E X 42 gdzie V ar(X) = Cov(Xi , Xj ); i, j = 1, . . . , n Cov(X, θ) = Cov(Xi , θ); i = 1, . . . , n 18.01.2007r. Empiryczne metody bayesowskie i hierarchiczne modele bayesowskie. Przykład 36 (normalny/normalny). ∼ X1 , . . . , Xn iid N (θ, s2 ), θ ∼ N (m, a2 ) a posteriori θ ∼ N zX + (1 − z)m, a2 s2 na2 +s2 , gdzie: z= na2 na2 +s2 θbB = zX + (1 − z)m Interpretacja ubezpieczeniowa. θ; X1 , . . . , Xn – sumaryczne szkody zgłoszone przez klienta w poszczególnych latach 1, 2, . . . , n θ = E (Xi |θ) – średnia wartość szkód dla naszego klienta s2 = V ar(Xi |θ) – zmienność pomiędzy latami m – średnia szkoda w całej populacji klientów a2 – zmienność w populacji klientów Model uwzględniający próbkę z populacji klientów ¡ @ ¡ ¡ @ @ ¡ ª ¡ θ1 @ ? ... θj ¤ ¤ ¤² C C C ¤ ¤ ¤² CW p – klientów θp ¤ C ¤C ¤ C ¤ C ¤C ¤ C ¤ R @ ... ¤ ¤ ¤ C C CW ¤ ¤² C C C C CW X11 . . . X1n Xj1 . . . Xjn Xp1 . . . Xpn Xji – szkody j-tego klienta w i-tym roku, j = 1, . . . , p i = 1, . . . , n Xji ∼ N (θj , s2 ), θ1 , . . . , θp ∼ iid N (m, a2 ) Łączny rozkład prawdopodobieństwa f (θj ), (xji ) = p Y j=1 π(θj ) n Y i=1 f (xji |θj ) 43 Metody bayesowskie w statystyce Empiryczne podejście bayesowskie Estymujemy rozkład a priori parametru θ na podstawie próbek odpowiadających różnym „realizacjom” zmiennej losowej θ. θ1 ; X11 . . . X1n .. . θj ; Xj1 . . . Xjn ¾ .. . Dane θp ; Xp1 . . . Xpn 1. Na podstawie całej tablicy estymujemy parametry rozkładu a priori m, a2 (i parametr s2 ). 2. W rozwiązaniach bayesowskich wstawiamy wyestymowany rozkład a priori . Ad. 1. c m p X p n 1 X 1X =X= Xj ; Xji = np j=1 i=1 p j=1 p n 1X 1 X 2 sb = (Xji − X j )2 ; p j=1 n − 1 i=1 ab2 = 1X gdzie X j = Xji n n 1X gdzie X j = Xji n i=1 p 1 1 X (X j − X)2 − sb2 p − 1 j=1 n estymatory nieobciążone Ad. 2. Estymator bayesowski parametru θj θbjB = zX j + (1 − z)m Estymator empiryczny bayesowski c θbjEB = zbX j + (1 − zb)m gdzie zb = nab2 nab2 + sb2 Hierarchiczny model bayesowski. Xji ∼ iid N (θj , s2 ) s2 ∼ IG(p, c) θj ∼ iid N (m, a2 ) m ∼ N (ν, b2 ) a2 ∼ IG(q, d) τ= ζ= 1 s2 1 a2 ∼ Gamma(p, c) ∼ Gamma(q, d) Znane: ν, b2 , p, c, q, d Parametry losowe: s2 , a2 , m, θ1 , . . . , θq Łączny rozkład f (xji ), (θj ), m, τ, ζ = h(ζ)g(τ )ϕ(m) Cel: estymacja bayesowska θj Y j π(θj |m, ζ) Y i f (xji |θj , τ ) 44 Próbnik Gibsa. Rozważmy zmienną losową θ = (θ1 , . . . , θk ) o wartośiach w przestrzeni X k i gęstości π(θ1 , . . . , θk ) Umiemy losować zmienne losowe jednowymiarowe z gęstości warunkowych π(θi |θ1 , . . . , θi−1 , θi+1 , . . . , θk ) Generujemy ciąg wektorów losowych θ(0), θ(1), . . . , θ(n), . . . ozn Jeżeli θ(n) = (θ1 , . . . , θk ) = θ, to θ(n + 1) = (θ10 , . . . , θk0 ) = θ0 losujemy w k krokach 1. θ10 ∼ π(·|θ2 , . . . , θk ) 2. .. . θ20 ∼ π(·|θ10 , θ3 , . . . , θk ) k. 0 θk0 ∼ π(·|θ10 , . . . , θk−1 ) 0 0 , θk ) ∼ π(·|θ10 , . . . , θk−2 k-1. θk−1 Przy pewnych założeniach na rozkład π GGGGGGA θ(n) π n→∞ GGGGGGA Z n 1X h θ(t) h(θ)π(θ)dθ = E π h(θ) n t=1 n → ∞ Xn