Twierdzenie Bayesa
Transkrypt
Twierdzenie Bayesa
Wnioskowanie_Statystyczne_-_wykład Twierdzenie Bayesa Twierdzenie Bayesa można wyprowadzić z elementarnych reguł prawdopodobieństwa, wychodząc z definicji prawdopodobieństwa warunkowego. Ponieważ interesuje nas głównie weryfikacja hipotez statystycznych, przekształćmy ten wzór, wstawiając od razu zamiast zdarzeń i hipotezę i dane . Wtedy prawdziwa jest hipoteza będzie prawdopodobieństwem "wylosowania danych ": pod warunkiem, że Analogicznie Tak naprawdę interesuje nas prawdopodobieństwo prawdziwości hipotezy opisanego obserwowanymi danymi . Ponieważ w świetle zdarzenia , czyli , dostajemy Prawdopodobieństwo uzyskania w doświadczeniu danych trudno ocenić bezpośrednio, jeśli nie wiemy, czy prawdziwa jest odnosząca się do nich hipoteza . W tej sytuacji należy wziąć pod uwagę wszystkie możliwe hipotezy , tworzące kompletny, czyli pokrywający całą przestrzeń : zbiór hipotez wykluczających się wzajemnie . Wtedy Korzystając z (1) dostajemy Wstawiając tę zależność do (2), i podstawiając za wyrażający twierdzenie Bayesa: jedną z możliwych , dostajemy wzór Prawdopodobieństwo hipotezy wyrażone jest przez: prawdopodobieństwo uzyskania w jej świetle danych , czyli stopień naszego zaufania do hipotezy (niezależny od eksperymentu, w którym uzyskaliśmy dane ), czyli całkowite prawdopodobieństwo uzyskania danych w świetle wszystkich możliwych hipotez , czyli Najbardziej bulwersujące jest tu , wyrażające naszą wiarę w hipotezę niezależną od danych . Wielkość tę określa się mianem prawdopodobieństwa "a priori" , lub jak proponuje R. Nowak, "prawdopodobieństwem zaczątkowym" lub "zaczątkiem" . Dla odróżnienia od (szukanego) prawdopodobieństwa oznaczmy zaczątek jako ; wzór Bayesa przyjmie wtedy postać Jeśli nie dysponujemy informacją o kompletnym zbiorze hipotez prawdopodobieństw dwóch hipotez i : , możemy badać stosunek Poniższy przykład (zaczerpnięty z raportu D'Agostiniego Bayesian Reasoning in High Energy Physics - Principles and Applications) ilustruje wykorzystanie twierdzenia Bayesa. Przykład Przypadkowo wybrany z populacji (w której na 60 milionów jest około stu tysięcy nosicieli wirusa) obywatel poddany jest testowi na obecność wirusa HIV. Użyty test wykrywa niemal 100% przypadków zakażenia, i daje około 0,2% „fałszywych alarmów”. Jakie jest prawdopodobieństwo, że badany obywatel jest nosicielem wirusa, jeśli test dał wynik pozytywny? Na pierwszy rzut oka wydaje się, że skoro test wykrywa wirusa fałszywie tylko w dwu przypadkach na tysiąc, to szukane prawdopodobieństwo wynosi 1-0,2% 99.8%. Jednakże, jeśli wziąć pod uwagę prawdopodobieństwo a priori (zaczątek) wynoszące 100 000/60 000 000 2% otrzymamy wartość bliską 50%! Na początek wyobraźmy sobie wynik tego testu na całej populacji: będzie on pozytywny dla stu tysięcy zarażonych i dla 0,2% pozostałych, czyli w sumie 220 tysięcy. Wśród nich faktycznych nosicieli będzie tylko sto tysięcy, pozostali będą ofiarami błędu testu. Prawdopodobieństwo, że jesteśmy nosicielem, jeśli znaleźliśmy się w tej grupie, jest równe 45% (a nie 99,8%!). Formalnie możemy dowieść tego wyniku korzystając z (2) i (4). Oznaczmy: --- prawdopodobieństwo pozytywnego wyniku testu, --- prawdopodobieństwo, że badany jest nosicielem (zaczątek), --- prawdopodobieństwo, że badany nie jest nosicielem (również zaczątek). Z opisu przykładu dostaniemy: , , . Szukamy Ponieważ : , dostajemy , czyli ok. 45% Referencja Polecam doskonały tekst Giuglio D'Agostini z 1995 roku pt. "Probability and Measurement Uncertainty in Physics - a Bayesian Primer", dostępny z https://arxiv.org/abs/hep-ph/9512295