Opracowanie - Instytut Łączności
Transkrypt
Opracowanie - Instytut Łączności
Zakład Zaawansowanych Technik Informacyjnych (Z-6) Metody modelowania strumieni danych Praca statutowa nr 06.30.002.9 Warszawa, grudzień 2009 Metody modelowania strumieni danych Praca statutowa nr 06.30.002.9 Słowa kluczowe: data-mining, strumień danych Kierownik pracy: dr inż. Szymon Jaroszewicz Wykonawcy pracy: dr inż. Szymon Jaroszewicz dr inż. Janusz Granat c Copyright by Instytut Łączności, Warszawa 2009 Spis treści 1 Wstęp 3 2 Publikacje powstałe w ramach pracy 3 3 Streszczenie uzyskanych wyników 3.1 Modelowanie przy pomocy metody największej wiarygodności na strumieniach danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Znajdowanie interesujących sekwencji . . . . . . . . . . . . . . . . . . . . 3.3 Znajdowanie interesujących zbiorów atrybutów numerycznych . . . . . . 4 Literatura 5 2 4 5 5 1 Wstęp Ilość danych zbieranych i gromadzonych w ostatnich latach przez firmy, agencje rządowe i inne organizacje wzrasta w bardzo szybkim tempie. Bazy danych, których wielkość mierzona jest w petabajtach, nie są już rzadkością. Przechowywanie i analiza tej ilości danych stwarza oczywiście poważne problemy technologiczne i jest bardzo kosztowna. Często jednak przechowywanie wszystkich danych jest niecelowe, istotna jest jedynie możliwość wykonania bieżących analiz i budowy modeli opisujących dane oraz przewidujących ich przyszłe zachowanie. Przykładem mogą tu być sieci telekomunikacyjne, które generują olbrzymią ilość danych o ruchu sieciowym. Znaczna część samych danych, np. trasa w sieci każdego z pakietów nie jest istotna, ważna jest jednak możliwość uzyskania modeli ruchu w sieci, wykrywania problemów itp. Obserwacja ta dała początek dziedzinie analizy strumieni danych [1, 4]. W metodzie tej dane traktuje się jako ciągły strumień, który nie jest nigdzie przechowywany. Dostępne są jedynie aktualne dane, których tylko niewielka część może być przechowywana. Oczywiście wymaga to gruntownej zmiany algorytmów analizy i modelowania danych, gdyż w znakomitej większości zakładają one możliwość wielokrotnego przeglądania całych danych. W ostatnich latach opracowanych zostało wiele algorytmów umożliwiających dokładne lub przybliżone wyznaczanie statystyk, takich jak rozkłady brzegowe czy kwantyle ze strumieni danych. Powstały też metody budowy klasyfikatorów takich jak drzewa decyzyjne oraz metody przybliżonego znajdowania reguł asocjacyjnych, czyli wszystkich zdarzeń powtarzających się z pewną minimalną częstością. W niniejszej pracy opracowane zostały algorytmy dotyczące ważnych problemów związanych z analizą strumieni danych. Przede wszystkim chodzi tu o metodę największej wiarygodności, jedną z najważniejszych technik statystycznych, która w ramach pracy została dostosowana do danych strumieniowych. Innym ważnym zagadnieniem rozważanym w pracy jest znajdowanie interesujących sekwencji czasowych. Proponowana metoda polega na jednoczesnej budowie modelu opisującego dane i znajdowaniu sekwencji, których prawdopodobieństwo odbiega od przewidywań modelu. W ramach pracy opracowano również – opartą o wyniki poprzednich prac statutowych – metodę znajdowania interesujących zbiorów atrybutów numerycznych, pozwalającą na jednoczesne interaktywne modelowanie i eksplorację danych. 2 Publikacje powstałe w ramach pracy W ramach pracy powstały trzy publikacje, których listę zamieszczono poniżej. W pracy Maximum Likelihood Estimation on Data Streams przedstawiono wyniki dotyczące zastosowania metody największej wiarygodności na danych strumieniowych. Praca Using interesting sequences to interactively build Hidden Markov Models jest znaczącym rozszerzeniem poprzednio opracowanej metody autora. Dodane zostały wyniki dotyczące znajdowania interesujących sekwencji czasowych zaczynających się w dowolnym punkcie czasowym, a także wiele wyników eksperymentalnych. Zagadnieniu znajdowania interesujących zbiorów atrybutów numerycznych poświęcony jest rozdział Discovering Interesting Patterns in Numerical Data with Background Knowledge, który ukazał się w pracy zbiorowej [2]. 3 1. Szymon Jaroszewicz. Maximum Likelihood Estimation on Data Streams, praca przygotowana do wysłania 2. Szymon Jaroszewicz. Using interesting sequences to interactively build Hidden Markov Models, paraca wysłana do Data Mining and Knowledge Discovery 3. Szymon Jaroszewicz. Discovering Interesting Patterns in Numerical Data with Background Knowledge w Rare Association Rule Mining and Knowledge Discovery: Technologies for Infrequent and Critical Event Detection, IGI, 2009, str. 118–130 3 3.1 Streszczenie uzyskanych wyników Modelowanie przy pomocy metody największej wiarygodności na strumieniach danych Metoda największej wiarygodności jest jedną z najważniejszych metod nowoczesnej statystyki. Obejmuje ona bardzo wiele podstawowych metod takich jak regresja liniowa, logistyczna, uogólnione modele liniowe a także wiele nowszych podejść takich jak sieci Markowa. Mimo swojej popularności w statystyce, metoda największej wiarygodności nie została wyczerpująco opracowana w kontekście strumieni danych. Istniejące metody dotyczą przede wszystkim regresji liniowej, w przypadku której możliwe jest łatwe uaktualnianie niezbędnych statystyk dostatecznych w miarę napływu nowych danych. W pracy przedstawiono metodę, która pozwala na optymalizację dowolnych wypukłych zadań największej wiarygodności na strumieniach danych. Proponowana metoda stanowi połączenie dwóch podejść. Pierwszym jest typowe podejście stosowane w strumieniach danych polegające na pobieraniu ze strumienia próbki danych i uczeniu modelu na takiej próbce. Podejście takie daje względnie dobrą dokładność, która jednak nie poprawia się w miarę napływu większej ilości danych. Drugim podejściem jest zastosowanie metod optymalizacji stochastycznej, a konkretnie algorytmu Robbinsa-Monro [3]. Podejście to charakteryzuje się stałą poprawą jakości modelu, jednak zbieżność jest bardzo wolna. Zaproponowano więc podejście łączące zalety obu metod. Ze strumienia danych pobierane są kolejne próbki i na każdej próbce budowany jest pełny model przy użyciu metody największej wiarygodności. Próbki te jednak są agregowane przy pomocy algorytmu Robbinsa-Monro co ma zapewnić stały wzrost dokładności modelu. Niestety opisana ‘naiwna’ wersja algorytmu nie działa poprawnie i po początkowym bardzo szybkim wzroście dokładności jakość modelu systematycznie spada. Przyczyną tego jest to, że agregowane cząstkowe rozwiązania mogą mieć bardzo duże wartości, które powodują bardzo znaczne zaburzenia estymowanych wartości. Rozwiązaniem jest ograniczenie zmian wag modelu, problemem jednak jest to, że stopień w jakim należy je ograniczyć zależy od danych i nie jest znany z góry. Opracowano więc algorytm, który testuje jednocześnie wiele różnych ograniczeń i wybiera to, które daje aktualnie najlepsze wyniki. Algorytm został przebadany w eksperymentach, w których szybko osiągał bardzo dobrą dokładność, która stabilnie wzrastała w miarę napływu kolejnych danych. 4 3.2 Znajdowanie interesujących sekwencji W ramach pracy znacząco rozszerzono również metodę znajdowania interesujących sekwencji czasowych. Metoda polega na jednoczesnym zastosowaniu ukrytego modelu Markowa opisującego proces generujący dane sekwencje i metod znajdowania często powtarzających się sekwencji w danych. Główna iteracja algorytmu polega na znalezieniu sekwencji czasowych, których prawdopodobieństwo w danych odbiega od prawdopodobieństw przewidywanych przez model. Sekwencje te są uznane za interesujące, gdyż reprezentują zależności w danych, które nie są jeszcze uwzględnione w modelu. Użytkownik aktualizuje następnie model tak, aby nowa sekwencja była modelowana poprawnie. W pracy metoda została rozszerzona na przypadek sekwencji zaczynających się w dowolnym momencie czasowym. Wymagało to opracowania nowego algorytmu znajdowania sekwencji często powtarzających się ciągów symboli emitowanych przez ukryty model Markowa w pewnym skończonym horyzoncie czasowym. W pracy powstała bardzo wydajna metoda, która nie zależy od horyzontu czasowego. Dzięki temu czas znajdowania często emitowanych sekwencji praktycznie nie ma wpływu na pozostałe kroki algorytmu. Metoda została przetestowana na biologicznych danych dotyczących struktury białek. W ramach pracy przeprowadzono również szereg eksperymentów porównujących ukryte modele Markowa budowane interaktywnie i automatycznie. Wykazano eksperymentalnie, że modele budowane automatycznie nie oddają poprawnie wewnętrznej struktury modelu nawet we względnie prostych przypadkach. Podano również teoretyczne uzasadninie tego faktu, mianowicie, ukryte modele Markowa o różnych parametrach mogą być probabilistycznie równoważne i żadna w pełni automatyczna metoda nie będzie w stanie ich rozróżnić. Powstały w ramach pracy artykuł został wysłany do czasopisma Data Mining and Knowledge Discovery. 3.3 Znajdowanie interesujących zbiorów atrybutów numerycznych Opracowano również metodę znajdowania interesujących zbiorów atrybutów numerycznych. Metoda ta również korzysta z jawnej, probabilistycznej reprezentacji wiedzy dziedzinowej. Do reprezentacji wiedzy zastosowano tutaj sieci bayesowskie. Zależności między atrybutami reprezentowane są przez wielomiany zadanego stopnia. Zależności, które są obecne w danych, a nie w modelu, podawane są użytkownikowi, który odpowiednio uaktualnia model. W ramach pracy powstał rozdział, który ukazał się w książce [2]. Literatura [1] M. Gaber, A. Zaslavsky, and S. Krishnaswamy. Mining data streams: a review. SIGMOD Record, (2):18–26, June 2005. [2] Yun-Sing Koh and Nathan Rountree, editors. Rare Association Rule Mining and Knowledge Discovery: Technologies for Infrequent and Critical Event Detection. IGI, 2009. 5 [3] H.J. Kushner and G.G. Yin. Stochastic Approximation and Recursive Algorithms and Applications. Springer, 2003. [4] S. Muthukrishnan. Data Streams: Algorithms and Applications. Foundations and Trends in Theoretical Computer Science. now Publishers Inc., 2005. 6