Oglądaj/Otwórz
Transkrypt
Oglądaj/Otwórz
Aproksymacja Sieci Bayesowskiej ze Struktur Lokalnych Autoreferat Rozprawy Doktorskiej Paweł Betliński 1 Pojęcie Sieci Bayesowskiej Sieć bayesowska (Pearl, 1985, 1988) to acykliczny graf skierowany kodujący łączny rozkład prawdopodobieństwa zmiennych losowych reprezentowanych przez wierzchołki tego grafu. Typowo zmienne te mają skończoną liczbę możliwych wartości. Informacja o rozkładzie jest reprezentowana za pośrednictwem parametrów w grafie opisujących rozkład prawdopodobieństwa każdego wierzchołka pod warunkiem jego rodziców. Następujące dwie obserwacje odnośnie zastosowań sieci bayesowskich są często rozważane. Po pierwsze, jedną z fundamentalnych cech sieci bayesowskich jest ich zdolność do wizualizacji w łatwy do zrozumienia przez człowieka sposób zależności pomiędzy reprezentowanymi zmiennymi. Ogólnie rzecz ujmując rodzice jakiejkolwiek zmiennej w sieci bayesowskiej mogą być widziani jako bezpośrednie przyczyny tej zmiennej. Wyuczona z tabeli danych sieć bayesowska reprezentuje w przybliżony sposób łączny rozkład prawdopodobieństwa atrybutów tej tabeli. Z punktu widzenia łatwej percepcji wyuczonych sieci przez człowieka, jak również zasady minimalnego opisu, jedną z najbardziej pożądanych własności tych sieci jest ich rzadkość, częściowo rozumiana jako rzadkość ich struktur, to znaczy rzadkość odpowiadających im grafów. W rzadszej sieci reprezentującej w przybliżeniu pożądany rozkład danych zbiór bezpośrednich przyczyn (rodziców) każdego atrybutu jest bliższy minimalnemu możliwemu poprawnemu wyborowi. Zatem rzadsza sieć reprezentuje zależności występujące w rozważanej dziedzinie w zwięzły sposób, zawierając tylko te istotnie ważne relacje pomiędzy atrybutami. Po drugie, sieć bayesowska, szczególnie rzadka sieć, może reprezentować łączny rozkład prawdopodobieństwa w istotnie skompresowany sposób. Bezpośrednia reprezentacja łącznego rozkładu prawdopodobieństwa wymaga pamiętania eksponencjalnej ze względu na liczbę zmiennych ilości parametrów. Tymczasem rzadka sieć, na przykład o ograniczonej liczbie rodziców każdego wierzchołka, wymaga pamiętania jedynie liniowej liczby para1 metrów. Jest to istotna różnica w przypadku rozkładów, które mogą być zakodowane w takiej strukturze. Uczenie się wysokiej jakości, rzadkiej na tyle na ile to możliwe, sieci bayesowskiej reprezentującej zależności zadanego zbioru danych jest samo w sobie wyzwaniem, szczególnie jeśli wymagana jest tu skalowalność metody ze względu na rosnącą liczbę atrybutów. Bardzo interesujący jest w szczególności proces uczenia struktury sieci bayesowskiej, to znaczy wyznaczania samego grafu reprezentującego pożądaną sieć. 2 Trudność Uczenia Sieci Bayesowskich Najistotniejsze rezultaty odnośnie trudności uczenia struktury sieci bayesowskiej są związane z paradygmatem score-based, gdzie problem uczenia odpowiada szukaniu optymalnej ze względu na zadane kryterium struktury sieci. Kryterium ocenia jakość struktury w kontekście zadanego zbioru danych. Podstawowa własność jakiegokolwiek rozsądnego kryterium to tak zwana zgodność, w konsekwencji której asymptotycznie wraz ze wzrostem rozmiaru próby kryterium faworyzuje struktury optymalne—a konkretnie parametrycznie optymalne struktury, które wymagają minimalnej liczby parametrów celem reprezentacji pożądanego generującego próby rozkładu w formie sieci bayesowskiej. Jednym z najbardziej rozpoznawalnych kryteriów jest Bayesian-Dirichlet (BD) metric (Cooper and Herskovits, 1992), które zostało wypracowane wraz z jednym z pierwszych algorytmów score-based zwanym K2. Dla typowego ustawienia (kryterium to jest wyposażone w parametry definiowane przez użytkownika) gdzie żadne struktury nie są odrzucane a priori jest to zgodne kryterium. Szczególny przypadek, BDe metric (Heckerman et al., 1995), spełnia więcej pożądanych własności, w szczególności tak samo ocenia równoważne w sensie Markowa struktury. Chickering (1996) wykazał, że dla k > 1 problem wyznaczania dla zadanego wejściowego zbioru danych struktury sieci maksymalizującej kryterium BD, nawet w ograniczonej przestrzeni przeszukiwań grafów o liczbie rodziców każdego wierzchołka nie przekraczającej k, jest NP-trudny. Co więcej, wykazał on również, że problem ten pozostaje NP-trudny w przypadku bardziej restrykcyjnej i regularnej miary BDe. Rezultat ten był istotną przesłanką, że uczenie się struktury sieci bayesowskiej nie może być proste—chociaż wciąż były jeszcze nadzieje związane ze specjalnymi przypadkami. W szczególności każde zgodne kryterium asymptotycznie wraz ze wzrostem wejściowej próby staje się w pewnym sensie regularne, jako że jego maksimum bezpośrednio odpowiada parametrycznie optymalnej strukturze. Zatem szukanie maksimum w asymptotycznym scenariuszu idealnego zachowania kryterium mogłoby potencjalnie być łatwym zadaniem. Niestety, Chickering et al. (2004) definitywnie rozwiali te 2 nadzieje. Autorzy wykazali, że w przypadku odpowiadającym wspomnianemu asymptotycznemu scenariuszowi, gdzie na wejściu zadana jest nie skończona próba lecz bezpośredni dostęp do generującego próbę rozkładu, szukanie parametrycznie optymalnej struktury jest NP-trudnym problemem. Pierwszym rezultatem tej rozprawy jest zaproponowanie alternatywnego do wyżej wspomnianych klasycznych podejść spojrzenia na NP-trudność uczenia sieci bayesowskiej. Mianowicie, wykazaliśmy, że problem szukania struktury sieci bayesowskiej o minimalnej liczbie krawędzi reprezentującej łączny rozkład prawdopodobieństwa bezpośrednio wyprowadzony z wejściowego zbioru danych jest problemem NP-trudnym (Betliński and Ślęzak, 2012). Dowód trudności takiego zadania był zainspirowany teoretycznymi rozważaniami odnośnie aproksymacyjnych wersji reduktów decyzyjnych (Ślęzak, 2002) znanymi z teorii zbirów przybliżonych (Pawlak and Skowron, 2007). Zaproponowane nowe spojrzenie na NP-trudność uczenia sieci bayesowskich ma pewne ciekawe własności. Z jednej strony ilustruje ono praktyczny przypadek w oczywisty sposób niedokładnej wiedzy o szukanym rozkładzie w formie skończonej próby—dokładnie tak jak to widział Chickering (1996). Z drugiej strony unika ono nieintuicyjnego w przypadku skończonej próby asymptotycznego kryterium, i zamiast tego operuje na dużo prostszym i bardziej naturalnym pojęciu optymalności—podobnie jak widzieli to Chickering et al. (2004). Co więcej, zaproponowane tu spojrzenie ma jedną istotną przewagę nad klasycznymi spojrzeniami—jest ono bardzo bezpośrednim i prostym sformułowaniem problemu. Do tego aby w pełni zrozumieć klasyczne rezultaty (Chickering, 1996; Chickering et al., 2004) potrzebna jest zaawansowana wiedza w dziedzinie sieci bayesowskich, jak również dobra orientacja w dziedzinie rachunku prawdopodobieństwa i statystyki. Nasze sformułowanie problemu może być łatwo zrozumiane przez osobę nie zaznajomioną tak na prawdę z dziedziną sieci bayesowskich, znającą właściwie parę podstawowych definicji z tej tematyki. Należy jednak podkreślić, że osiągnięty tu wynik wart jest dalszych badań celem uzyskania silniejszych i bardziej interesujących wniosków. Przykładowo, bardzo interesujące byłoby pokazanie trudności analogicznego problemu dla kryterium parametrycznej optymalności. Minimalna liczba parametrów jest w istocie najbardziej pożądaną własnością sieci. Minimalna liczba krawędzi może być potencjalnie mniej interesująca. Liczba przechowywanych parametrów rośnie gwałtownie wraz z liczbą rodziców danego wierzchołka. W konsekwencji wiarygodność tych parametrów gwałtownie maleje—jako że odzwierciedlają one warunkowy rozkład każdego wierzchołka pod warunkiem zbioru jego rodziców. Potencjalnie więc gęstsza ale mająca mniej rodziców każdego wierzchołka sieć może być bardziej wartościowa niż sieć najrzadsza w sensie liczby krawędzi. Po drugie, pewne modyfikacje odzwierciedlające przypadek aproksyma3 cyjnego uczenia byłyby też ważne. W istocie nienaturalnym zadaniem jest uczenie się sieci ściśle reprezentującej rozkład próby. W takim scenariuszu nie próbujemy konstruować modeli odnoszących się do najbardziej istotnych aspektów rzeczywistego rozkładu, a zamiast tego zmuszeni jesteśmy do reprezentowania każdego nieistotnego zjawiska występującego w zadanym zbiorze danych treningowych. Byłoby więc bardzo pożądane wykazać NP-trudność aproksymacyjnej wersji rozważanego tu problemu, gdzie na przykład naszym celem jest wyznaczenie najrzadszej sieci reprezentującej w przybliżeniu rozkład próby, lub/i wyznaczenie w przybliżeniu najrzadszego grafu. 3 Lokalne Uczenie Sieci Bayesowskich Główny zakres tematyczny rozprawy mieści się w dziedzinie algorytmów constraint-based uczenia struktury sieci bayesowskiej, gdzie cała struktura sieci jest wnioskowana przy użyciu testów statystycznych na warunkową niezależność. Fundamentalna idea tych algorytmów jest taka, by otrzymać za pośrednictwem wspomnianych testów operujących na odpowiednio dobranych podzbiorach atrybutów wiedzę odnośnie tak zwanych d-separowalności występujących w optymalnej dla rozważanego rozkładu danych sieci bayesowskiej. Wyuczony zbiór d-separowalności może, przynajmniej w teoretycznych warunkach, gdzie zakładamy, że zdobyta wiedza o nim jest w 100 procentach poprawna, jasno wyznaczać szukaną sieć. Najbardziej fascynujący i owocny rozwój w dziedzinie uczenia struktury sieci bayesowskiej nastąpił właśnie dla tych metod. Pierwotne proste rozwiązanie constraint-based zwane SGS (Spirtes et al., 1990), wraz z jego pierwszym istotnym ulepszeniem—algorytmem PC (Spirtes and Glymour, 1991), wyglądają faktycznie bardzo naiwnie w porównaniu do ekstremalnie dopracowanych mechanizmów stworzonych wiele lat później, takich jak algorytmy MMHC (Tsamardinos et al., 2006) czy RAI (Yehezkel and Lerner, 2005, 2009). Dwa główne cele napędzające cały ten rozwój są związane z redukcją liczby przeprowadzanych testów statystycznych—co najczęściej wiąże się z poprawą efektywności czasowej metody, oraz redukcją rozmiaru zbiorów warunkowych w testowanych warunkowych niezależnościach—co prowadzi do poprawy wiarygodności całego procesu uczenia. Bezdyskusyjnym kamieniem milowym w tym rozwoju był algorytm GS (Margaritis and Thrun, 2000; Margaritis, 2003), który wyznaczył nowy kierunek, w rezultacie którego powstał cały zespół algorytmów często określany mianem metod lokalnego uczenia lub lokalnego odkrywania, w tym tak ważne rozwiązania jak wspomniane wcześniej algorytmy MMHC i RAI. Pomysł stojący za podejściem GS jest taki, by dekomponować problem uczenia całej sieci na po pierwsze uczenie koców Markowa każdego atrybu- 4 tu (minimalnego podzbioru atrybutów separującego docelową zmienną od pozostałych w sensie warunkowej niezależności), a następnie przeprowadzenie ostatecznego uczenia globalnej struktury poprzez badanie warunkowych niezależności w obrębie jedynie tych koców. W przypadku wyuczonych koców o ograniczonym rozmiarze algorytm ten osiąga bardzo dobrą złożoność czasową w porównaniu do szeregu wcześniejszych podejść, włączając w to SGS i PC. W GS po raz pierwszy zaproponowany został teoretycznie poprawny i efektywny zarazem mechanizm uczenia koców Markowa. Całkowicie nowy pomysł uczenia struktury sieci z użyciem tych koców jest również teoretycznie poprawny, i jak to wyżej zostało wspomniane również efektywny. Ale co najważniejsze, algorytm ten stał się wspaniałą inspiracją dla przyszłych rozwiązań. Jednym z kierunków była poprawa procedury uczenia koców Markowa, szczególnie pod kątem jej wiarygodności w praktyce, jako że jej efektywność już było bardzo dobra. Najbardziej znaczącym ulepszeniem jest tu metoda IAMB (Tsamardinos et al., 2003a). Inny kierunek, inspirowany mechanizmem IAMB, jest najbardziej owocny. Pomysł był tu taki, by dekomponować problem uczenia globalnej struktury na jeszcze drobniejsze niż koce Markowa lokalne podzbiory. Algorytm realizujący tę ideę, zwany MMPC (Tsamardinos et al., 2003b), bezpośrednio uczy się zbioru sąsiadów każdej zmiennej w optymalnej strukturze sieci bayesowskiej. Jest to wartościowe rozwiązanie, nakierowane na maksymalną redukcję wykonywanych mniej pewnych testów na warunkową niezależność odpowiadających większym zbiorom warunkowym, i co istotne—porównywalne w sensie efektywności czasowej do swoich poprzedników przy typowych w praktycznym zastosowaniu założeniach (szczegóły można znaleźć w rozprawie). MMPC jest bezpośrednim rodzicem i główną inspiracją dla dwóch istotnych i rozpoznawalnych rozwiązań w dziedzinie sieci bayesowskich. Jedno z rozwiązań, zwane HITON, to metoda uczenia otoczki Markowa wyposażona w wrappering, prowadząca do algorytmu selekcji cech nakierowanego na problem klasyfikacji (Aliferis et al., 2003, 2010). Drugie rozwiązanie, zwane MMHC (Tsamardinos et al., 2006), to hybrydowy algorytm uczenia struktury sieci bayesowskiej, stosujący MMPC celem wyznaczenia szkieletu sieci, a następnie aplikujący techniki score-based w ograniczonej przez otrzymany szkielet przestrzeni przeszukiwań celem wyznaczenia finalnego skierowanego grafu. Wartość MMHC została potwierdzona w praktyce. W czasie gdy powstała ta metoda nie miała ona praktycznie żadnej poważnej konkurencji—zarówno ze względu na skalowalność czasową jak i dokładność uczenia—za wyjątkiem algorytmu RAI, który powstał mniej więcej w tym samym czasie, ale przyciągnął większą uwagę parę lat później po drugiej publikacji (Yehezkel and Lerner, 2009) na poziomie porównywalnym z pracą o MMHC (Tsamardinos et al., 2006). W empirycznej ewaluacji (Tsamardinos et al., 2006) MMHC przegrał pod względem do5 kładności uczenia w specyficznych scenariuszach jedynie z jednym, równie dziś rozpoznawalnym, algorytmem score-based, zwanym GES (Chickering, 2002). Należy tu jednak podkreślić, że GES jest bardzo słabo skalowalnym czasowo rozwiązaniem, szczególnie w porównaniu z MMHC. Zaproponowane w tej rozprawie rozwiązanie nazwane LBNA (Local Bayesian Networks Aggregation) nie jest algorytmem uczenia struktury sieci bayesowskiej, lecz mechanizmem wnioskowania takiej globalnej, operującej na wszystkich atrybutach sieci z lokalnych grafów wyuczonych na podzbiorach atrybutów odpowiadających kocom Markowa każdego atrybutu. Jest to uogólnienie rdzennej metody lokalnego uczenia—GS. W GS lokalna wiedza jest wyprowadzana z koców z użyciem ustalonego mechanizmu constraintbased. Tutaj użytkownik ma całkowitą dowolność na poziomie gromadzenia lokalnej wiedzy—jakikolwiek istniejący algorytm uczenia struktury sieci bayesowskiej może być tu zastosowany. Podobnie jak w GS może być tu użyty jakikolwiek—nie tylko ten oryginalnie zaproponowany (Margaritis and Thrun, 2000)—pomocniczy algorytm uczenia koców Markowa. Mechanizm LBNA scalania lokalnych struktur prowadzi do kompletnie nowych możliwości uczenia struktury sieci bayesowskiej. Jest to efektywne czasowo rozwiązanie. Ma ono kompletne uzasadnienie teoretyczne—w istocie cała metodologia LBNA jest praktyczną realizacją teoretycznego wyniku, który uzyskaliśmy. Rozwiązanie to zostało ocenione empirycznie, ukazując jego praktyczną użyteczność silnie uzasadnioną statystycznie. W eksperymentach zastosowaliśmy w LBNA algorytm MMHC w roli pomocniczego mechanizmu uczenia otoczek Markowa i lokalnych struktur. Wynikowa złożona metoda uczenia sieci bayesowskiej została porównana na zbiorach danych wygenerowanych z szeregu dobrze znanych benchmarkowych sieci bayesowskich z dwoma algorytmami: samym MMHC i GES. Dla treningowych zbiorów danych odpowiadających największym rozważanym benchmarkowym sieciom porównaliśmy jedynie rozwiązanie oparte na LBNA i pomocniczo MMHC z samym MMHC, jako że niewykonalnym z punktu widzenia potrzebnej pamięci i czasu było w tych przypadkach użycie GES. LBNA okazało się być podobnie dobrze skalowalne czasowo ze względu na liczbę atrybutów jak samo MMHC, przy najczęściej istotnie bliższych rzeczywistości wyuczonych modelach—co wydaje się być naszym najważniejszym empirycznym rezultatem. Metodologia LBNA wymaga wielu dalszych badań, gdyż potencjał otrzymania nowych ciekawych rezultatów jest duży. Teoretyczne podstawy LBNA mogą być potencjalnie wzmocnione. W szczególności postawiliśmy w rozprawie hipotezę odnośnie takiego możliwego wzmocnienia. Wierzymy, że jest ona prawdą, chociaż nie byliśmy jak dotąd w stanie jej wykazać. Co również wskazaliśmy w tej pracy praktyczna realizacja uzyskanego teoretycznego wyniku może być zmieniona na kilka sposobów—potencjalnie prowadząc do algorytmu o istotnie innych empirycznych własnościach. To może być szczególnie ważne w kontekście jednej z głównych wad LBNA— 6 tendencji do zwracania rzadkich grafów w porównaniu do MMHC i GES. Ta rzadkość jest generalnie dobrą cechą struktury sieci bayesowskiej, ale może być problematyczna na przykład w kontekście dokładności klasyfikacji danych—która również była jednym z mierzonych w eksperymentach czynników. MMHC i GES okazały się pod tym kątem lepsze. Wyuczone z ich pomocą gęstsze struktury są dalsze od rzeczywistości niż struktury otrzymywane z LBNA, ale ta gęstość umożliwia lepsze dopasowanie się do rozkładu danych. Potencjalnie pewne inne praktyczne realizacje teoretycznych podstaw LBNA mogą doprowadzić do poprawy w tym aspekcie w przyszłości. Literatura C. F. Aliferis, I. Tsamardinos, and A. Statnikov. HITON: A Novel Markov Blanket Algorithm for Optimal Variable Selection. AMIA Annual Symposium Proceedings, 2003:21–25, 2003. C. F. Aliferis, A. Statnikov, I. Tsamardinos, S. Mani, and X. D. Koutsoukos. Local Causal and Markov Blanket Induction for Causal Discovery and Feature Selection for Classification Part I: Algorithms and Empirical Evaluation. Journal of Machine Learning Research, 11:171–234, 2010. P. Betliński and D. Ślęzak. The Problem of Finding the Sparsest Bayesian Network for an Input Data Set is NP-Hard. In Foundations of Intelligent Systems. 20th International Symposium, ISMIS 2012, Macau, China, December 4-7, 2012. Proceedings, pages 21–30, Berlin, Heidelberg, DE, 2012. Springer-Verlag. D. M. Chickering. Learning Bayesian Networks is NP-Complete. In Learning from Data: Artificial Intelligence and Statistics V, pages 121–130, New York, NY, 1996. Springer-Verlag. D. M. Chickering. Optimal Structure Identification with Greedy Search. Journal of Machine Learning Research, 3:507–554, 2002. D. M. Chickering, D. Heckerman, and C. Meek. Large-Sample Learning of Bayesian Networks is NP-Hard. Journal of Machine Learning Research, 5:1287–1330, 2004. G. F. Cooper and E. Herskovits. A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 9(4):309–347, 1992. D. E. Heckerman, D. Geiger, and D. M. Chickering. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, 20(3):197–243, 1995. D. Margaritis. Learning Bayesian Network Model Structure from Data. PhD thesis, Carnegie Mellon University, 2003. 7 D. Margaritis and S. Thrun. Bayesian Network Induction via Local Neighborhoods. In Advances in Neural Information Processing Systems 12, pages 505–511, Cambridge, MA, 2000. MIT Press. Z. Pawlak and A. Skowron. Rudiments of Rough Sets. Information Sciences, 177(1):3–27, 2007. J. Pearl. Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning. In Proceedings of the Seventh Conference of the Cognitive Science Society, pages 329–334, Irvine, CA, 1985. University of California. J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988. D. Ślęzak. Approximate Entropy Reducts. Fundamenta Informaticae, 53 (3–4):365–390, 2002. P. Spirtes and C. Glymour. An Algorithm for Fast Recovery of Sparse Causal Graphs. Social Science Computer Review, 9(1):62–72, 1991. P. Spirtes, C. Glymour, and R. Scheines. Causality from Probability. In J. E. Tiles, G. T. McKee, and G. C. Dean, editors, Evolving Knowledge in Natural Science and Artificial Intelligence, pages 181–199, London, GB, 1990. Pitman. I. Tsamardinos, C. F. Aliferis, and A. Statnikov. Algorithms for Large Scale Markov Blanket Discovery. In Proceedings of the Sixteenth International Florida Artificial Intelligence Research Society Conference (FLAIRS), pages 376–380, Palo Alto, CA, 2003a. AAAI Press. I. Tsamardinos, C. F. Aliferis, and A. Statnikov. Time and Sample Efficient Discovery of Markov Blankets and Direct Causal Relations. In Proceedings of the Ninth International Conference on Knowledge Discovery and Data Mining (KDD), pages 673–678, New York, NY, 2003b. ACM. I. Tsamardinos, L. E. Brown, and C. F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31–78, 2006. R. Yehezkel and B. Lerner. Recursive autonomy identification for Bayesian network structure learning. In Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, pages 429–436, Bridgetown, BB, 2005. R. Yehezkel and B. Lerner. Bayesian Network Structure Learning by Recursive Autonomy Identification. Journal of Machine Learning Research, 10:1527–1570, 2009. 8