Twierdzenie Bayesa

Transkrypt

Twierdzenie Bayesa
Twierdzenie Bayesa
Indukowane Reguły Decyzyjne
Jakub Kuliński
Nr albumu: 53623
Niniejszy skrypt ma na celu usystematyzowanie i uporządkowanie podstawowej wiedzy na
temat twierdzenia Bayesa i jego zastosowaniu w regułach decyzyjnych.
Twierdzenie Bayesa jest bezpośrednio związane z prawdopodobieństwem warunkowym i ma
ono na celu jego korygowanie w oparciu o późniejsze uzyskanie dodatkowych informacji
o zachodzących zdarzeniach.
DEFINICJA 1 – PRAWDOPODOBIEŃSTWO WARUNKOWE
Prawdopodobieństwem warunkowym zajścia zdarzenia
zdarzenia , gdzie ( )
, nazywamy liczbę:
( | )
(
pod warunkiem zajścia
)
( )
Kluczowe z zrozumieniu Twierdzenia Bayesa jest dostrzeżenie, że mamy tu do czynienia ze
zdarzeniami zachodzącymi po sobie i każde z nich niesie za sobą nową, dodatkową
informację o tych zdarzeniach oraz, że te nowe informacje służą korygowaniu
prawdopodobieństwa zdarzenia początkowego. W tym kontekście używa się pojęć
prawdopodobieństwa a priori oraz prawdopodobieństwa a posteriori.
DEFINICJA 2 – PRAWDOPODOBIEŃSTWO A PRIORI
Prawdopodobieństwem a priori nazywamy prawdopodobieństwo obliczane przed
realizacją doświadczenia losowego.
DEFINICJA 3 – PRAWDOPODOBIEŃSTWO A POSTERIORI
Prawdopodobieństwem a posteriori nazywamy prawdopodobieństwo obliczane po
realizacji doświadczenia losowego.
PRZYKŁAD 1
Instytut Gallup’a do swoich badań na temat korzystania z kart płatniczych losowo dobiera
pewną część populacji obywateli USA. Na podstawie własnej wiedzy proszę oszacować
prawdopodobieństwa poniższych zdarzeń:
1) Jakie jest prawdopodobieństwo, że losowo wybrany respondent jest mężczyzną?
2) Po wylosowaniu respondenta ustalono, że palił(-a) on(-a) papierosy. Jakie jest teraz
prawdopodobieństwo, że losowo wybrany respondent był mężczyzną?
[2]
3) Które z powyższych prawdopodobieństw jest prawdopodobieństwem a priori/
a posteriori?
ROZWIĄZANIE
1) Niemal połowę obywateli USA stanowią mężczyźni, zatem można oszacować, że
prawdopodobieństwo wylosowania mężczyzny wynosi
„Wylosowano mężczyznę” jako
( )
⁄
. Oznaczając zdarzenie
, prawdopodobieństwo zdarzenia
wynosi:
;
2) Pomimo tego, że część kobiet pali papierosy to znacznie większy odsetek palących
jest wśród płci męskiej. Przypuszcza się, że 75% palaczy to mężczyźni. Bazując na
dodatkowej informacji („wybrany respondent jest palaczem” – zdarzenie
),
szacujemy, że prawdopodobieństwo wylosowania palącego mężczyzny wynosi
( | )
;
3) Prawdopodobieństwo z 1) – a priori (przed doświadczeniem)
Prawdopodobieństwo z 2) – a posteriori (po doświadczeniu)
Po wyjaśnieniu kluczowych pojęć, można przejść do Twierdzenia Bayesa, które wyjaśnia nie
tyle sam wynik doświadczenia losowego, co jego przebieg:
TWIERDZENIE 1 – WZÓR BAYESA
Niech
będzie ciągiem zdarzeń takim, że
oraz ( )
dla
oraz ∑
. Wtedy:
( | ) ( )
( )
( | )
gdzie:
( )
∑ ( | ) ( )
DOWÓD:
Z definicji na prawdopodobieństwo warunkowe oraz całkowite otrzymujemy:
( | )
(
)
( )
[3]
( | ) ( )
∑
( | ) ( )
( )
PRZYKŁAD 2
Test na rzadką chorobę, która dotyka średnio 1 osobę na tysiąc, daje tzw. „fałszywą
pozytywną odpowiedź” u 4% zdrowych, przy czym u chorych wynik pozytywny występuje
zawsze. Jaka jest szansa, że osoba, u której test dał odpowiedź pozytywną, jest rzeczywiście
chora? Założono, że u chorej osoby nie występują jakiekolwiek objawy choroby.
ROZWIĄZANIE
Niech:
 Zdarzenie
 Zdarzenie
 Zdarzenie
oznacza pozytywną odpowiedź testu,
– osobę chorą,
– osobę zdrową.
Ze wzoru Bayesa można obliczyć:
(
| )
( |
( | ) ( )
) ( )
( | ) (
)
ODPOWIEDŹ: Choć rachunki we wzorze Bayesa są dość proste, to ich wynik może wydawać
się zaskakujący i sprzeczny z intuicją – Szansa, że osoba, u której test wykazał odpowiedź
pozytywną jest rzeczywiście chora, wynosi 2,44%.
PRZYKŁAD 3
Automatyczny nadajnik ratunkowy ELT jest urządzeniem, które w razie wypadku lub awarii
samolotu emituje sygnał ostrzegawczy. 75% tych urządzeń jest produkowanych przez
Awaxes Corp., 20% przez Airsafe, a pozostałe przez chińskiego producenta Ciongshunshi.
Nadajniki produkowane przez Awaxes Corp. charakteryzują się wysokim stopniem
niezawodności – 4 nadajniki na 100 posiadały wady fabryczne. Wśród urządzeń firmy Airsafe
współczynnik ten jest nieznacznie wyższy – 6%. Najgorzej radzi sobie firma Ciongshunshi, w
której to aż 10 nadajników na 100 posiadało wady (co prawdopodobnie tłumaczy ich pozycję
na rynku). Jakie jest prawdopodobieństwo, że uszkodzony nadajnik był wyprodukowany
przez firmą Awaxes Corp.?
[4]
ROZWIĄZANIE
Wprowadzono następujące oznaczenia:





– nadajnik jest niesprawny
– nadajnik jest sprawny
– nadajnik wyprodukowany przez Awaxes Corp.,
– nadajnik wyprodukowany przez Airsafe
– nadajnik wyprodukowany przez Ciongshunshi.
Zdarzenie
Zdarzenie
Zdarzenie
Zdarzenie
Zdarzenie
Szukane prawdopodobieństwo to (
| ). Z danych zadania wynika, że:
(
)
( |
)
(
)
( |
)
(
)
( |
)
) (
)
Dane podstawiamy do wzoru z Twierdzenia 1:
(
| )
( |
) (
)
( |
( |
) (
) (
)
)
( |
ODPOWIEDŹ: Prawdopodobieństwo, że uszkodzony nadajnik pochodził z firmy Awaxes Corp.
wynosi 63,8%
[5]
ZASTOSOWANIE TWIERDZENIA BAYESA
W REGUŁACH DECYZYJNYCH
NAIWNY KLASYFIKATOR BAYESA
Naiwny klasyfikator
Bayesa jest
bardzo dobrym
klasyfikatorem
dla problemów
charakteryzujących się mnogością wymiarów. Opiera się on na założeniu o wzajemnej
niezależności zmiennych niezależnych. Zasadę działania klasyfikatora prezentuje przykład 4.
PRZYKŁAD 4
W tabeli 1 przedstawiono zbiór treningowy z bazy danych zawierającej wyniki badania
dotyczącego analizy profilu klientów pewnego sklepu z komputerami:
Tabela 1 – Zbiór treningowy
Lp.
Wiek
Dochód
Studia
Ocena_kred
Zakup_komp
1
2
3
4
5
6
7
8
9
10
11
12
13
14
<30
<30
[30;40]
>40
>40
>40
[30;40]
<30
<30
>40
<30
[30;40]
[30;40]
>40
wysoki
wysoki
wysoki
średni
niski
niski
niski
średni
niski
średni
średni
średni
wysoki
średni
nie
nie
nie
nie
tak
tak
tak
nie
tak
tak
tak
nie
tak
nie
dobra
znakomita
dobra
dobra
dobra
znakomita
znakomita
dobra
dobra
dobra
znakomita
znakomita
dobra
znakomita
nie
nie
tak
tak
tak
nie
tak
nie
tak
tak
tak
tak
tak
nie
Za pomocą Naiwnego Klasyfikatora Bayesa proszę sprawdzić, czy obiekt X (tzn. osoba
poniżej wieku 30 lat, ze średnim dochodem, z ukończonymi studiami i dobrą oceną
kredytową) zdecyduje się na zakup komputera.
ROZWIĄZANIE
1. Należy obliczyć, dla jakiej wartości i iloczyn
( | )
( ) osiąga maksimum,
gdzie:
( ) oznacza prawdopodobieństwo a priori przynależności obiektu do klasy
(tutaj: decyzja o zakupie komputera) dla
[6]
gdzie 1- „tak”, 2- „nie”
Ze zbioru treningowego obliczamy:
( )
⁄
( )
⁄
2. Następnie należy obliczyć prawdopodobieństwa warunkowe dla wszystkich wartości
atrybutów:
( | )
(
| )
(
(
( | )
| )
(
| )
| )
(
| )
| )
(
| )
(
(
| )
Ze zbioru treningowego obliczamy:
(
(
⁄
| )
(
(
| )
(
⁄
|
(
| )
| )
(
| )
)
| )
(
| )
3. Otrzymane wartości podstawiamy do wzorów na ( | ) oraz ( | ).
( | )
( |
)
(
)
( | )
( |
)
(
)
ODPOWIEDŹ: Obiekt X (tzn. osoba poniżej 30 rż., ze średnim dochodem, dobrą oceną
kredytową i ukończonymi studiami) przynależy do klasy
zdecyduje się na zakup komputera.
[7]
tzn. najprawdopodobniej
Literatura:
R. Sztencel, J. Jakubowski, Rachunek prawdopodobieństwa dla prawie każdego,
Wydawnictwo Script, Warszawa 2006
Materiały
dydaktyczne
z
zajęć
„Rachunek
prawdopodobieństwa”
dr hab., prof. SGH Agata Boratyńska
Materiały dydaktyczne z zajęć „Informatyka” - Politechnika Poznańska
Materiały dydaktyczne Uniwersytetu w Waszyngotnie
[8]
–

Podobne dokumenty