Opracowanie - Instytut Łączności

Transkrypt

Opracowanie - Instytut Łączności
Zakład Zaawansowanych Technik Informacyjnych
(Z-6)
Metody modelowania strumieni danych
Praca statutowa nr 06.30.002.9
Warszawa, grudzień 2009
Metody modelowania strumieni danych
Praca statutowa nr 06.30.002.9
Słowa kluczowe: data-mining, strumień danych
Kierownik pracy: dr inż. Szymon Jaroszewicz
Wykonawcy pracy:
dr inż. Szymon Jaroszewicz
dr inż. Janusz Granat
c Copyright by Instytut Łączności, Warszawa 2009
Spis treści
1 Wstęp
3
2 Publikacje powstałe w ramach pracy
3
3 Streszczenie uzyskanych wyników
3.1 Modelowanie przy pomocy metody największej wiarygodności na strumieniach danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Znajdowanie interesujących sekwencji . . . . . . . . . . . . . . . . . . . .
3.3 Znajdowanie interesujących zbiorów atrybutów numerycznych . . . . . .
4
Literatura
5
2
4
5
5
1
Wstęp
Ilość danych zbieranych i gromadzonych w ostatnich latach przez firmy, agencje rządowe
i inne organizacje wzrasta w bardzo szybkim tempie. Bazy danych, których wielkość mierzona jest w petabajtach, nie są już rzadkością. Przechowywanie i analiza tej ilości danych
stwarza oczywiście poważne problemy technologiczne i jest bardzo kosztowna. Często
jednak przechowywanie wszystkich danych jest niecelowe, istotna jest jedynie możliwość
wykonania bieżących analiz i budowy modeli opisujących dane oraz przewidujących ich
przyszłe zachowanie. Przykładem mogą tu być sieci telekomunikacyjne, które generują
olbrzymią ilość danych o ruchu sieciowym. Znaczna część samych danych, np. trasa w
sieci każdego z pakietów nie jest istotna, ważna jest jednak możliwość uzyskania modeli
ruchu w sieci, wykrywania problemów itp.
Obserwacja ta dała początek dziedzinie analizy strumieni danych [1, 4]. W metodzie tej dane traktuje się jako ciągły strumień, który nie jest nigdzie przechowywany.
Dostępne są jedynie aktualne dane, których tylko niewielka część może być przechowywana. Oczywiście wymaga to gruntownej zmiany algorytmów analizy i modelowania danych, gdyż w znakomitej większości zakładają one możliwość wielokrotnego przeglądania
całych danych. W ostatnich latach opracowanych zostało wiele algorytmów umożliwiających dokładne lub przybliżone wyznaczanie statystyk, takich jak rozkłady brzegowe
czy kwantyle ze strumieni danych. Powstały też metody budowy klasyfikatorów takich
jak drzewa decyzyjne oraz metody przybliżonego znajdowania reguł asocjacyjnych, czyli
wszystkich zdarzeń powtarzających się z pewną minimalną częstością.
W niniejszej pracy opracowane zostały algorytmy dotyczące ważnych problemów związanych z analizą strumieni danych. Przede wszystkim chodzi tu o metodę największej
wiarygodności, jedną z najważniejszych technik statystycznych, która w ramach pracy została dostosowana do danych strumieniowych. Innym ważnym zagadnieniem rozważanym
w pracy jest znajdowanie interesujących sekwencji czasowych. Proponowana metoda polega na jednoczesnej budowie modelu opisującego dane i znajdowaniu sekwencji, których
prawdopodobieństwo odbiega od przewidywań modelu.
W ramach pracy opracowano również – opartą o wyniki poprzednich prac statutowych
– metodę znajdowania interesujących zbiorów atrybutów numerycznych, pozwalającą na
jednoczesne interaktywne modelowanie i eksplorację danych.
2
Publikacje powstałe w ramach pracy
W ramach pracy powstały trzy publikacje, których listę zamieszczono poniżej. W pracy
Maximum Likelihood Estimation on Data Streams przedstawiono wyniki dotyczące zastosowania metody największej wiarygodności na danych strumieniowych. Praca Using
interesting sequences to interactively build Hidden Markov Models jest znaczącym rozszerzeniem poprzednio opracowanej metody autora. Dodane zostały wyniki dotyczące
znajdowania interesujących sekwencji czasowych zaczynających się w dowolnym punkcie
czasowym, a także wiele wyników eksperymentalnych.
Zagadnieniu znajdowania interesujących zbiorów atrybutów numerycznych poświęcony jest rozdział Discovering Interesting Patterns in Numerical Data with Background
Knowledge, który ukazał się w pracy zbiorowej [2].
3
1. Szymon Jaroszewicz. Maximum Likelihood Estimation on Data Streams, praca
przygotowana do wysłania
2. Szymon Jaroszewicz. Using interesting sequences to interactively build Hidden Markov Models, paraca wysłana do Data Mining and Knowledge Discovery
3. Szymon Jaroszewicz. Discovering Interesting Patterns in Numerical Data with
Background Knowledge w Rare Association Rule Mining and Knowledge Discovery:
Technologies for Infrequent and Critical Event Detection, IGI, 2009, str. 118–130
3
3.1
Streszczenie uzyskanych wyników
Modelowanie przy pomocy metody największej wiarygodności na strumieniach danych
Metoda największej wiarygodności jest jedną z najważniejszych metod nowoczesnej statystyki. Obejmuje ona bardzo wiele podstawowych metod takich jak regresja liniowa,
logistyczna, uogólnione modele liniowe a także wiele nowszych podejść takich jak sieci
Markowa.
Mimo swojej popularności w statystyce, metoda największej wiarygodności nie została
wyczerpująco opracowana w kontekście strumieni danych. Istniejące metody dotyczą
przede wszystkim regresji liniowej, w przypadku której możliwe jest łatwe uaktualnianie
niezbędnych statystyk dostatecznych w miarę napływu nowych danych.
W pracy przedstawiono metodę, która pozwala na optymalizację dowolnych wypukłych zadań największej wiarygodności na strumieniach danych. Proponowana metoda
stanowi połączenie dwóch podejść. Pierwszym jest typowe podejście stosowane w strumieniach danych polegające na pobieraniu ze strumienia próbki danych i uczeniu modelu
na takiej próbce. Podejście takie daje względnie dobrą dokładność, która jednak nie poprawia się w miarę napływu większej ilości danych. Drugim podejściem jest zastosowanie
metod optymalizacji stochastycznej, a konkretnie algorytmu Robbinsa-Monro [3]. Podejście to charakteryzuje się stałą poprawą jakości modelu, jednak zbieżność jest bardzo
wolna.
Zaproponowano więc podejście łączące zalety obu metod. Ze strumienia danych pobierane są kolejne próbki i na każdej próbce budowany jest pełny model przy użyciu
metody największej wiarygodności. Próbki te jednak są agregowane przy pomocy algorytmu Robbinsa-Monro co ma zapewnić stały wzrost dokładności modelu. Niestety
opisana ‘naiwna’ wersja algorytmu nie działa poprawnie i po początkowym bardzo szybkim wzroście dokładności jakość modelu systematycznie spada. Przyczyną tego jest to, że
agregowane cząstkowe rozwiązania mogą mieć bardzo duże wartości, które powodują bardzo znaczne zaburzenia estymowanych wartości. Rozwiązaniem jest ograniczenie zmian
wag modelu, problemem jednak jest to, że stopień w jakim należy je ograniczyć zależy
od danych i nie jest znany z góry. Opracowano więc algorytm, który testuje jednocześnie
wiele różnych ograniczeń i wybiera to, które daje aktualnie najlepsze wyniki.
Algorytm został przebadany w eksperymentach, w których szybko osiągał bardzo
dobrą dokładność, która stabilnie wzrastała w miarę napływu kolejnych danych.
4
3.2
Znajdowanie interesujących sekwencji
W ramach pracy znacząco rozszerzono również metodę znajdowania interesujących sekwencji czasowych. Metoda polega na jednoczesnym zastosowaniu ukrytego modelu
Markowa opisującego proces generujący dane sekwencje i metod znajdowania często powtarzających się sekwencji w danych. Główna iteracja algorytmu polega na znalezieniu
sekwencji czasowych, których prawdopodobieństwo w danych odbiega od prawdopodobieństw przewidywanych przez model. Sekwencje te są uznane za interesujące, gdyż reprezentują zależności w danych, które nie są jeszcze uwzględnione w modelu. Użytkownik
aktualizuje następnie model tak, aby nowa sekwencja była modelowana poprawnie.
W pracy metoda została rozszerzona na przypadek sekwencji zaczynających się w dowolnym momencie czasowym. Wymagało to opracowania nowego algorytmu znajdowania sekwencji często powtarzających się ciągów symboli emitowanych przez ukryty model
Markowa w pewnym skończonym horyzoncie czasowym. W pracy powstała bardzo wydajna metoda, która nie zależy od horyzontu czasowego. Dzięki temu czas znajdowania
często emitowanych sekwencji praktycznie nie ma wpływu na pozostałe kroki algorytmu.
Metoda została przetestowana na biologicznych danych dotyczących struktury białek.
W ramach pracy przeprowadzono również szereg eksperymentów porównujących ukryte
modele Markowa budowane interaktywnie i automatycznie. Wykazano eksperymentalnie,
że modele budowane automatycznie nie oddają poprawnie wewnętrznej struktury modelu
nawet we względnie prostych przypadkach. Podano również teoretyczne uzasadninie tego
faktu, mianowicie, ukryte modele Markowa o różnych parametrach mogą być probabilistycznie równoważne i żadna w pełni automatyczna metoda nie będzie w stanie ich
rozróżnić.
Powstały w ramach pracy artykuł został wysłany do czasopisma Data Mining and
Knowledge Discovery.
3.3
Znajdowanie interesujących zbiorów atrybutów numerycznych
Opracowano również metodę znajdowania interesujących zbiorów atrybutów numerycznych. Metoda ta również korzysta z jawnej, probabilistycznej reprezentacji wiedzy dziedzinowej. Do reprezentacji wiedzy zastosowano tutaj sieci bayesowskie. Zależności między atrybutami reprezentowane są przez wielomiany zadanego stopnia. Zależności, które
są obecne w danych, a nie w modelu, podawane są użytkownikowi, który odpowiednio
uaktualnia model. W ramach pracy powstał rozdział, który ukazał się w książce [2].
Literatura
[1] M. Gaber, A. Zaslavsky, and S. Krishnaswamy. Mining data streams: a review.
SIGMOD Record, (2):18–26, June 2005.
[2] Yun-Sing Koh and Nathan Rountree, editors. Rare Association Rule Mining and
Knowledge Discovery: Technologies for Infrequent and Critical Event Detection. IGI,
2009.
5
[3] H.J. Kushner and G.G. Yin. Stochastic Approximation and Recursive Algorithms and
Applications. Springer, 2003.
[4] S. Muthukrishnan. Data Streams: Algorithms and Applications. Foundations and
Trends in Theoretical Computer Science. now Publishers Inc., 2005.
6

Podobne dokumenty