Twierdzenie Bayesa

Transkrypt

Twierdzenie Bayesa
Wnioskowanie_Statystyczne_-_wykład
Twierdzenie Bayesa
Twierdzenie Bayesa można wyprowadzić z elementarnych reguł prawdopodobieństwa, wychodząc z
definicji prawdopodobieństwa warunkowego. Ponieważ interesuje nas głównie weryfikacja hipotez
statystycznych, przekształćmy ten wzór, wstawiając od razu zamiast zdarzeń i hipotezę
i
dane . Wtedy
prawdziwa jest hipoteza
będzie prawdopodobieństwem "wylosowania danych
":
pod warunkiem, że
Analogicznie
Tak naprawdę interesuje nas prawdopodobieństwo prawdziwości hipotezy
opisanego obserwowanymi danymi
. Ponieważ
w świetle zdarzenia
, czyli
, dostajemy
Prawdopodobieństwo
uzyskania w doświadczeniu danych
trudno ocenić bezpośrednio, jeśli
nie wiemy, czy prawdziwa jest odnosząca się do nich hipoteza . W tej sytuacji należy wziąć pod
uwagę wszystkie możliwe hipotezy
, tworzące kompletny, czyli pokrywający całą przestrzeń :
zbiór hipotez
wykluczających się wzajemnie
. Wtedy
Korzystając z (1) dostajemy
Wstawiając tę zależność do (2), i podstawiając za
wyrażający twierdzenie Bayesa:
jedną z możliwych
, dostajemy wzór
Prawdopodobieństwo hipotezy
wyrażone jest przez:
prawdopodobieństwo uzyskania w jej świetle danych , czyli
stopień naszego zaufania do hipotezy
(niezależny od eksperymentu, w którym uzyskaliśmy
dane ), czyli
całkowite prawdopodobieństwo uzyskania danych
w świetle wszystkich możliwych hipotez
, czyli
Najbardziej bulwersujące jest tu
, wyrażające naszą wiarę w hipotezę
niezależną od danych
. Wielkość tę określa się mianem prawdopodobieństwa "a priori" , lub jak proponuje R. Nowak,
"prawdopodobieństwem zaczątkowym" lub "zaczątkiem" . Dla odróżnienia od (szukanego)
prawdopodobieństwa
oznaczmy zaczątek jako
; wzór Bayesa przyjmie wtedy postać
Jeśli nie dysponujemy informacją o kompletnym zbiorze hipotez
prawdopodobieństw dwóch hipotez
i
:
, możemy badać stosunek
Poniższy przykład (zaczerpnięty z raportu D'Agostiniego Bayesian Reasoning in High Energy Physics
- Principles and Applications) ilustruje wykorzystanie twierdzenia Bayesa.
Przykład
Przypadkowo wybrany z populacji (w której na 60 milionów jest około stu tysięcy nosicieli wirusa)
obywatel poddany jest testowi na obecność wirusa HIV. Użyty test wykrywa niemal 100%
przypadków zakażenia, i daje około 0,2% „fałszywych alarmów”. Jakie jest prawdopodobieństwo, że
badany obywatel jest nosicielem wirusa, jeśli test dał wynik pozytywny?
Na pierwszy rzut oka wydaje się, że skoro test wykrywa wirusa fałszywie tylko w dwu przypadkach
na tysiąc, to szukane prawdopodobieństwo wynosi 1-0,2% 99.8%. Jednakże, jeśli wziąć pod uwagę
prawdopodobieństwo a priori (zaczątek) wynoszące 100 000/60 000 000 2% otrzymamy wartość
bliską 50%!
Na początek wyobraźmy sobie wynik tego testu na całej populacji: będzie on pozytywny dla stu
tysięcy zarażonych i dla 0,2% pozostałych, czyli w sumie 220 tysięcy. Wśród nich faktycznych
nosicieli będzie tylko sto tysięcy, pozostali będą ofiarami błędu testu. Prawdopodobieństwo, że
jesteśmy nosicielem, jeśli znaleźliśmy się w tej grupie, jest równe
45% (a nie 99,8%!).
Formalnie możemy dowieść tego wyniku korzystając z (2) i (4). Oznaczmy:
--- prawdopodobieństwo pozytywnego wyniku testu,
--- prawdopodobieństwo, że badany jest nosicielem (zaczątek),
--- prawdopodobieństwo, że badany nie jest nosicielem (również zaczątek).
Z opisu przykładu dostaniemy:
,
,
.
Szukamy
Ponieważ
:
, dostajemy
, czyli ok. 45%
Referencja
Polecam doskonały tekst Giuglio D'Agostini z 1995 roku pt. "Probability and Measurement
Uncertainty in Physics - a Bayesian Primer", dostępny z https://arxiv.org/abs/hep-ph/9512295

Podobne dokumenty