Oglądaj/Otwórz

Transkrypt

Oglądaj/Otwórz
Aproksymacja Sieci Bayesowskiej
ze Struktur Lokalnych
Autoreferat Rozprawy Doktorskiej
Paweł Betliński
1
Pojęcie Sieci Bayesowskiej
Sieć bayesowska (Pearl, 1985, 1988) to acykliczny graf skierowany kodujący łączny rozkład prawdopodobieństwa zmiennych losowych reprezentowanych przez wierzchołki tego grafu. Typowo zmienne te mają skończoną
liczbę możliwych wartości. Informacja o rozkładzie jest reprezentowana za
pośrednictwem parametrów w grafie opisujących rozkład prawdopodobieństwa każdego wierzchołka pod warunkiem jego rodziców.
Następujące dwie obserwacje odnośnie zastosowań sieci bayesowskich są
często rozważane.
Po pierwsze, jedną z fundamentalnych cech sieci bayesowskich jest ich
zdolność do wizualizacji w łatwy do zrozumienia przez człowieka sposób
zależności pomiędzy reprezentowanymi zmiennymi. Ogólnie rzecz ujmując
rodzice jakiejkolwiek zmiennej w sieci bayesowskiej mogą być widziani jako
bezpośrednie przyczyny tej zmiennej.
Wyuczona z tabeli danych sieć bayesowska reprezentuje w przybliżony
sposób łączny rozkład prawdopodobieństwa atrybutów tej tabeli. Z punktu widzenia łatwej percepcji wyuczonych sieci przez człowieka, jak również
zasady minimalnego opisu, jedną z najbardziej pożądanych własności tych
sieci jest ich rzadkość, częściowo rozumiana jako rzadkość ich struktur, to
znaczy rzadkość odpowiadających im grafów.
W rzadszej sieci reprezentującej w przybliżeniu pożądany rozkład danych zbiór bezpośrednich przyczyn (rodziców) każdego atrybutu jest bliższy
minimalnemu możliwemu poprawnemu wyborowi. Zatem rzadsza sieć reprezentuje zależności występujące w rozważanej dziedzinie w zwięzły sposób,
zawierając tylko te istotnie ważne relacje pomiędzy atrybutami.
Po drugie, sieć bayesowska, szczególnie rzadka sieć, może reprezentować łączny rozkład prawdopodobieństwa w istotnie skompresowany sposób.
Bezpośrednia reprezentacja łącznego rozkładu prawdopodobieństwa wymaga pamiętania eksponencjalnej ze względu na liczbę zmiennych ilości parametrów. Tymczasem rzadka sieć, na przykład o ograniczonej liczbie rodziców każdego wierzchołka, wymaga pamiętania jedynie liniowej liczby para1
metrów. Jest to istotna różnica w przypadku rozkładów, które mogą być
zakodowane w takiej strukturze.
Uczenie się wysokiej jakości, rzadkiej na tyle na ile to możliwe, sieci bayesowskiej reprezentującej zależności zadanego zbioru danych jest samo w
sobie wyzwaniem, szczególnie jeśli wymagana jest tu skalowalność metody
ze względu na rosnącą liczbę atrybutów. Bardzo interesujący jest w szczególności proces uczenia struktury sieci bayesowskiej, to znaczy wyznaczania
samego grafu reprezentującego pożądaną sieć.
2
Trudność Uczenia Sieci Bayesowskich
Najistotniejsze rezultaty odnośnie trudności uczenia struktury sieci bayesowskiej są związane z paradygmatem score-based, gdzie problem uczenia odpowiada szukaniu optymalnej ze względu na zadane kryterium struktury sieci.
Kryterium ocenia jakość struktury w kontekście zadanego zbioru danych.
Podstawowa własność jakiegokolwiek rozsądnego kryterium to tak zwana
zgodność, w konsekwencji której asymptotycznie wraz ze wzrostem rozmiaru próby kryterium faworyzuje struktury optymalne—a konkretnie parametrycznie optymalne struktury, które wymagają minimalnej liczby parametrów celem reprezentacji pożądanego generującego próby rozkładu w formie
sieci bayesowskiej.
Jednym z najbardziej rozpoznawalnych kryteriów jest Bayesian-Dirichlet
(BD) metric (Cooper and Herskovits, 1992), które zostało wypracowane
wraz z jednym z pierwszych algorytmów score-based zwanym K2. Dla typowego ustawienia (kryterium to jest wyposażone w parametry definiowane
przez użytkownika) gdzie żadne struktury nie są odrzucane a priori jest to
zgodne kryterium. Szczególny przypadek, BDe metric (Heckerman et al.,
1995), spełnia więcej pożądanych własności, w szczególności tak samo ocenia równoważne w sensie Markowa struktury.
Chickering (1996) wykazał, że dla k > 1 problem wyznaczania dla zadanego wejściowego zbioru danych struktury sieci maksymalizującej kryterium
BD, nawet w ograniczonej przestrzeni przeszukiwań grafów o liczbie rodziców każdego wierzchołka nie przekraczającej k, jest NP-trudny. Co więcej,
wykazał on również, że problem ten pozostaje NP-trudny w przypadku bardziej restrykcyjnej i regularnej miary BDe.
Rezultat ten był istotną przesłanką, że uczenie się struktury sieci bayesowskiej nie może być proste—chociaż wciąż były jeszcze nadzieje związane ze specjalnymi przypadkami. W szczególności każde zgodne kryterium
asymptotycznie wraz ze wzrostem wejściowej próby staje się w pewnym sensie regularne, jako że jego maksimum bezpośrednio odpowiada parametrycznie optymalnej strukturze. Zatem szukanie maksimum w asymptotycznym
scenariuszu idealnego zachowania kryterium mogłoby potencjalnie być łatwym zadaniem. Niestety, Chickering et al. (2004) definitywnie rozwiali te
2
nadzieje. Autorzy wykazali, że w przypadku odpowiadającym wspomnianemu asymptotycznemu scenariuszowi, gdzie na wejściu zadana jest nie skończona próba lecz bezpośredni dostęp do generującego próbę rozkładu, szukanie parametrycznie optymalnej struktury jest NP-trudnym problemem.
Pierwszym rezultatem tej rozprawy jest zaproponowanie alternatywnego do wyżej wspomnianych klasycznych podejść spojrzenia na NP-trudność
uczenia sieci bayesowskiej. Mianowicie, wykazaliśmy, że problem szukania
struktury sieci bayesowskiej o minimalnej liczbie krawędzi reprezentującej łączny rozkład prawdopodobieństwa bezpośrednio wyprowadzony z wejściowego zbioru danych jest problemem NP-trudnym (Betliński and Ślęzak, 2012). Dowód trudności takiego zadania był zainspirowany teoretycznymi rozważaniami odnośnie aproksymacyjnych wersji reduktów decyzyjnych
(Ślęzak, 2002) znanymi z teorii zbirów przybliżonych (Pawlak and Skowron,
2007).
Zaproponowane nowe spojrzenie na NP-trudność uczenia sieci bayesowskich ma pewne ciekawe własności. Z jednej strony ilustruje ono praktyczny
przypadek w oczywisty sposób niedokładnej wiedzy o szukanym rozkładzie
w formie skończonej próby—dokładnie tak jak to widział Chickering (1996).
Z drugiej strony unika ono nieintuicyjnego w przypadku skończonej próby
asymptotycznego kryterium, i zamiast tego operuje na dużo prostszym i bardziej naturalnym pojęciu optymalności—podobnie jak widzieli to Chickering
et al. (2004).
Co więcej, zaproponowane tu spojrzenie ma jedną istotną przewagę nad
klasycznymi spojrzeniami—jest ono bardzo bezpośrednim i prostym sformułowaniem problemu. Do tego aby w pełni zrozumieć klasyczne rezultaty (Chickering, 1996; Chickering et al., 2004) potrzebna jest zaawansowana wiedza w dziedzinie sieci bayesowskich, jak również dobra orientacja w
dziedzinie rachunku prawdopodobieństwa i statystyki. Nasze sformułowanie
problemu może być łatwo zrozumiane przez osobę nie zaznajomioną tak na
prawdę z dziedziną sieci bayesowskich, znającą właściwie parę podstawowych definicji z tej tematyki.
Należy jednak podkreślić, że osiągnięty tu wynik wart jest dalszych badań celem uzyskania silniejszych i bardziej interesujących wniosków. Przykładowo, bardzo interesujące byłoby pokazanie trudności analogicznego problemu dla kryterium parametrycznej optymalności. Minimalna liczba parametrów jest w istocie najbardziej pożądaną własnością sieci. Minimalna
liczba krawędzi może być potencjalnie mniej interesująca. Liczba przechowywanych parametrów rośnie gwałtownie wraz z liczbą rodziców danego
wierzchołka. W konsekwencji wiarygodność tych parametrów gwałtownie
maleje—jako że odzwierciedlają one warunkowy rozkład każdego wierzchołka pod warunkiem zbioru jego rodziców. Potencjalnie więc gęstsza ale mająca mniej rodziców każdego wierzchołka sieć może być bardziej wartościowa
niż sieć najrzadsza w sensie liczby krawędzi.
Po drugie, pewne modyfikacje odzwierciedlające przypadek aproksyma3
cyjnego uczenia byłyby też ważne. W istocie nienaturalnym zadaniem jest
uczenie się sieci ściśle reprezentującej rozkład próby. W takim scenariuszu
nie próbujemy konstruować modeli odnoszących się do najbardziej istotnych aspektów rzeczywistego rozkładu, a zamiast tego zmuszeni jesteśmy
do reprezentowania każdego nieistotnego zjawiska występującego w zadanym zbiorze danych treningowych. Byłoby więc bardzo pożądane wykazać
NP-trudność aproksymacyjnej wersji rozważanego tu problemu, gdzie na
przykład naszym celem jest wyznaczenie najrzadszej sieci reprezentującej w
przybliżeniu rozkład próby, lub/i wyznaczenie w przybliżeniu najrzadszego
grafu.
3
Lokalne Uczenie Sieci Bayesowskich
Główny zakres tematyczny rozprawy mieści się w dziedzinie algorytmów
constraint-based uczenia struktury sieci bayesowskiej, gdzie cała struktura
sieci jest wnioskowana przy użyciu testów statystycznych na warunkową niezależność. Fundamentalna idea tych algorytmów jest taka, by otrzymać za
pośrednictwem wspomnianych testów operujących na odpowiednio dobranych podzbiorach atrybutów wiedzę odnośnie tak zwanych d-separowalności
występujących w optymalnej dla rozważanego rozkładu danych sieci bayesowskiej. Wyuczony zbiór d-separowalności może, przynajmniej w teoretycznych warunkach, gdzie zakładamy, że zdobyta wiedza o nim jest w 100
procentach poprawna, jasno wyznaczać szukaną sieć.
Najbardziej fascynujący i owocny rozwój w dziedzinie uczenia struktury
sieci bayesowskiej nastąpił właśnie dla tych metod. Pierwotne proste rozwiązanie constraint-based zwane SGS (Spirtes et al., 1990), wraz z jego pierwszym istotnym ulepszeniem—algorytmem PC (Spirtes and Glymour, 1991),
wyglądają faktycznie bardzo naiwnie w porównaniu do ekstremalnie dopracowanych mechanizmów stworzonych wiele lat później, takich jak algorytmy
MMHC (Tsamardinos et al., 2006) czy RAI (Yehezkel and Lerner, 2005,
2009).
Dwa główne cele napędzające cały ten rozwój są związane z redukcją
liczby przeprowadzanych testów statystycznych—co najczęściej wiąże się z
poprawą efektywności czasowej metody, oraz redukcją rozmiaru zbiorów warunkowych w testowanych warunkowych niezależnościach—co prowadzi do
poprawy wiarygodności całego procesu uczenia.
Bezdyskusyjnym kamieniem milowym w tym rozwoju był algorytm GS
(Margaritis and Thrun, 2000; Margaritis, 2003), który wyznaczył nowy kierunek, w rezultacie którego powstał cały zespół algorytmów często określany
mianem metod lokalnego uczenia lub lokalnego odkrywania, w tym tak ważne rozwiązania jak wspomniane wcześniej algorytmy MMHC i RAI.
Pomysł stojący za podejściem GS jest taki, by dekomponować problem
uczenia całej sieci na po pierwsze uczenie koców Markowa każdego atrybu-
4
tu (minimalnego podzbioru atrybutów separującego docelową zmienną od
pozostałych w sensie warunkowej niezależności), a następnie przeprowadzenie ostatecznego uczenia globalnej struktury poprzez badanie warunkowych
niezależności w obrębie jedynie tych koców. W przypadku wyuczonych koców o ograniczonym rozmiarze algorytm ten osiąga bardzo dobrą złożoność
czasową w porównaniu do szeregu wcześniejszych podejść, włączając w to
SGS i PC.
W GS po raz pierwszy zaproponowany został teoretycznie poprawny i
efektywny zarazem mechanizm uczenia koców Markowa. Całkowicie nowy
pomysł uczenia struktury sieci z użyciem tych koców jest również teoretycznie poprawny, i jak to wyżej zostało wspomniane również efektywny.
Ale co najważniejsze, algorytm ten stał się wspaniałą inspiracją dla przyszłych rozwiązań. Jednym z kierunków była poprawa procedury uczenia koców Markowa, szczególnie pod kątem jej wiarygodności w praktyce, jako że
jej efektywność już było bardzo dobra. Najbardziej znaczącym ulepszeniem
jest tu metoda IAMB (Tsamardinos et al., 2003a).
Inny kierunek, inspirowany mechanizmem IAMB, jest najbardziej owocny. Pomysł był tu taki, by dekomponować problem uczenia globalnej struktury na jeszcze drobniejsze niż koce Markowa lokalne podzbiory. Algorytm
realizujący tę ideę, zwany MMPC (Tsamardinos et al., 2003b), bezpośrednio
uczy się zbioru sąsiadów każdej zmiennej w optymalnej strukturze sieci bayesowskiej. Jest to wartościowe rozwiązanie, nakierowane na maksymalną redukcję wykonywanych mniej pewnych testów na warunkową niezależność odpowiadających większym zbiorom warunkowym, i co istotne—porównywalne
w sensie efektywności czasowej do swoich poprzedników przy typowych w
praktycznym zastosowaniu założeniach (szczegóły można znaleźć w rozprawie).
MMPC jest bezpośrednim rodzicem i główną inspiracją dla dwóch istotnych i rozpoznawalnych rozwiązań w dziedzinie sieci bayesowskich. Jedno z
rozwiązań, zwane HITON, to metoda uczenia otoczki Markowa wyposażona w wrappering, prowadząca do algorytmu selekcji cech nakierowanego na
problem klasyfikacji (Aliferis et al., 2003, 2010).
Drugie rozwiązanie, zwane MMHC (Tsamardinos et al., 2006), to hybrydowy algorytm uczenia struktury sieci bayesowskiej, stosujący MMPC celem
wyznaczenia szkieletu sieci, a następnie aplikujący techniki score-based w
ograniczonej przez otrzymany szkielet przestrzeni przeszukiwań celem wyznaczenia finalnego skierowanego grafu. Wartość MMHC została potwierdzona w praktyce. W czasie gdy powstała ta metoda nie miała ona praktycznie żadnej poważnej konkurencji—zarówno ze względu na skalowalność
czasową jak i dokładność uczenia—za wyjątkiem algorytmu RAI, który powstał mniej więcej w tym samym czasie, ale przyciągnął większą uwagę parę
lat później po drugiej publikacji (Yehezkel and Lerner, 2009) na poziomie porównywalnym z pracą o MMHC (Tsamardinos et al., 2006). W empirycznej
ewaluacji (Tsamardinos et al., 2006) MMHC przegrał pod względem do5
kładności uczenia w specyficznych scenariuszach jedynie z jednym, równie
dziś rozpoznawalnym, algorytmem score-based, zwanym GES (Chickering,
2002). Należy tu jednak podkreślić, że GES jest bardzo słabo skalowalnym
czasowo rozwiązaniem, szczególnie w porównaniu z MMHC.
Zaproponowane w tej rozprawie rozwiązanie nazwane LBNA (Local Bayesian Networks Aggregation) nie jest algorytmem uczenia struktury sieci
bayesowskiej, lecz mechanizmem wnioskowania takiej globalnej, operującej
na wszystkich atrybutach sieci z lokalnych grafów wyuczonych na podzbiorach atrybutów odpowiadających kocom Markowa każdego atrybutu. Jest to
uogólnienie rdzennej metody lokalnego uczenia—GS. W GS lokalna wiedza
jest wyprowadzana z koców z użyciem ustalonego mechanizmu constraintbased. Tutaj użytkownik ma całkowitą dowolność na poziomie gromadzenia
lokalnej wiedzy—jakikolwiek istniejący algorytm uczenia struktury sieci bayesowskiej może być tu zastosowany. Podobnie jak w GS może być tu użyty jakikolwiek—nie tylko ten oryginalnie zaproponowany (Margaritis and
Thrun, 2000)—pomocniczy algorytm uczenia koców Markowa.
Mechanizm LBNA scalania lokalnych struktur prowadzi do kompletnie
nowych możliwości uczenia struktury sieci bayesowskiej. Jest to efektywne
czasowo rozwiązanie. Ma ono kompletne uzasadnienie teoretyczne—w istocie
cała metodologia LBNA jest praktyczną realizacją teoretycznego wyniku,
który uzyskaliśmy. Rozwiązanie to zostało ocenione empirycznie, ukazując
jego praktyczną użyteczność silnie uzasadnioną statystycznie.
W eksperymentach zastosowaliśmy w LBNA algorytm MMHC w roli
pomocniczego mechanizmu uczenia otoczek Markowa i lokalnych struktur.
Wynikowa złożona metoda uczenia sieci bayesowskiej została porównana na
zbiorach danych wygenerowanych z szeregu dobrze znanych benchmarkowych sieci bayesowskich z dwoma algorytmami: samym MMHC i GES.
Dla treningowych zbiorów danych odpowiadających największym rozważanym benchmarkowym sieciom porównaliśmy jedynie rozwiązanie oparte
na LBNA i pomocniczo MMHC z samym MMHC, jako że niewykonalnym z
punktu widzenia potrzebnej pamięci i czasu było w tych przypadkach użycie
GES. LBNA okazało się być podobnie dobrze skalowalne czasowo ze względu na liczbę atrybutów jak samo MMHC, przy najczęściej istotnie bliższych
rzeczywistości wyuczonych modelach—co wydaje się być naszym najważniejszym empirycznym rezultatem.
Metodologia LBNA wymaga wielu dalszych badań, gdyż potencjał otrzymania nowych ciekawych rezultatów jest duży. Teoretyczne podstawy LBNA
mogą być potencjalnie wzmocnione. W szczególności postawiliśmy w rozprawie hipotezę odnośnie takiego możliwego wzmocnienia. Wierzymy, że jest
ona prawdą, chociaż nie byliśmy jak dotąd w stanie jej wykazać.
Co również wskazaliśmy w tej pracy praktyczna realizacja uzyskanego
teoretycznego wyniku może być zmieniona na kilka sposobów—potencjalnie
prowadząc do algorytmu o istotnie innych empirycznych własnościach. To
może być szczególnie ważne w kontekście jednej z głównych wad LBNA—
6
tendencji do zwracania rzadkich grafów w porównaniu do MMHC i GES.
Ta rzadkość jest generalnie dobrą cechą struktury sieci bayesowskiej, ale
może być problematyczna na przykład w kontekście dokładności klasyfikacji
danych—która również była jednym z mierzonych w eksperymentach czynników. MMHC i GES okazały się pod tym kątem lepsze. Wyuczone z ich
pomocą gęstsze struktury są dalsze od rzeczywistości niż struktury otrzymywane z LBNA, ale ta gęstość umożliwia lepsze dopasowanie się do rozkładu
danych. Potencjalnie pewne inne praktyczne realizacje teoretycznych podstaw LBNA mogą doprowadzić do poprawy w tym aspekcie w przyszłości.
Literatura
C. F. Aliferis, I. Tsamardinos, and A. Statnikov. HITON: A Novel Markov Blanket Algorithm for Optimal Variable Selection. AMIA Annual
Symposium Proceedings, 2003:21–25, 2003.
C. F. Aliferis, A. Statnikov, I. Tsamardinos, S. Mani, and X. D. Koutsoukos. Local Causal and Markov Blanket Induction for Causal Discovery
and Feature Selection for Classification Part I: Algorithms and Empirical
Evaluation. Journal of Machine Learning Research, 11:171–234, 2010.
P. Betliński and D. Ślęzak. The Problem of Finding the Sparsest Bayesian
Network for an Input Data Set is NP-Hard. In Foundations of Intelligent
Systems. 20th International Symposium, ISMIS 2012, Macau, China, December 4-7, 2012. Proceedings, pages 21–30, Berlin, Heidelberg, DE, 2012.
Springer-Verlag.
D. M. Chickering. Learning Bayesian Networks is NP-Complete. In Learning
from Data: Artificial Intelligence and Statistics V, pages 121–130, New
York, NY, 1996. Springer-Verlag.
D. M. Chickering. Optimal Structure Identification with Greedy Search.
Journal of Machine Learning Research, 3:507–554, 2002.
D. M. Chickering, D. Heckerman, and C. Meek. Large-Sample Learning of
Bayesian Networks is NP-Hard. Journal of Machine Learning Research,
5:1287–1330, 2004.
G. F. Cooper and E. Herskovits. A Bayesian method for the induction of
probabilistic networks from data. Machine Learning, 9(4):309–347, 1992.
D. E. Heckerman, D. Geiger, and D. M. Chickering. Learning Bayesian
networks: The combination of knowledge and statistical data. Machine
Learning, 20(3):197–243, 1995.
D. Margaritis. Learning Bayesian Network Model Structure from Data. PhD
thesis, Carnegie Mellon University, 2003.
7
D. Margaritis and S. Thrun. Bayesian Network Induction via Local Neighborhoods. In Advances in Neural Information Processing Systems 12,
pages 505–511, Cambridge, MA, 2000. MIT Press.
Z. Pawlak and A. Skowron. Rudiments of Rough Sets. Information Sciences,
177(1):3–27, 2007.
J. Pearl. Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning. In Proceedings of the Seventh Conference of the Cognitive
Science Society, pages 329–334, Irvine, CA, 1985. University of California.
J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988.
D. Ślęzak. Approximate Entropy Reducts. Fundamenta Informaticae, 53
(3–4):365–390, 2002.
P. Spirtes and C. Glymour. An Algorithm for Fast Recovery of Sparse Causal
Graphs. Social Science Computer Review, 9(1):62–72, 1991.
P. Spirtes, C. Glymour, and R. Scheines. Causality from Probability. In
J. E. Tiles, G. T. McKee, and G. C. Dean, editors, Evolving Knowledge in
Natural Science and Artificial Intelligence, pages 181–199, London, GB,
1990. Pitman.
I. Tsamardinos, C. F. Aliferis, and A. Statnikov. Algorithms for Large Scale
Markov Blanket Discovery. In Proceedings of the Sixteenth International
Florida Artificial Intelligence Research Society Conference (FLAIRS), pages 376–380, Palo Alto, CA, 2003a. AAAI Press.
I. Tsamardinos, C. F. Aliferis, and A. Statnikov. Time and Sample Efficient
Discovery of Markov Blankets and Direct Causal Relations. In Proceedings
of the Ninth International Conference on Knowledge Discovery and Data
Mining (KDD), pages 673–678, New York, NY, 2003b. ACM.
I. Tsamardinos, L. E. Brown, and C. F. Aliferis. The max-min hill-climbing
Bayesian network structure learning algorithm. Machine Learning, 65(1):
31–78, 2006.
R. Yehezkel and B. Lerner. Recursive autonomy identification for Bayesian
network structure learning. In Proceedings of the Tenth International
Workshop on Artificial Intelligence and Statistics, pages 429–436, Bridgetown, BB, 2005.
R. Yehezkel and B. Lerner. Bayesian Network Structure Learning by Recursive Autonomy Identification. Journal of Machine Learning Research,
10:1527–1570, 2009.
8

Podobne dokumenty