streszczenie rozprawy doktorsk-69

Transkrypt

streszczenie rozprawy doktorsk-69
Instytut Badań Systemowych
Polskiej Akademii Nauk
Streszczenie rozprawy doktorskiej
„Miękkie” metody obliczeń komputerowych
w bayesowskiej analizie szeregów czasowych
Mgr Katarzyna Kaczmarek
Promotor: Prof. dr hab. inż. Olgierd Hryniewicz
WARSZAWA 2015
1
Wstęp
Motywacją dla rozważanych w rozprawie zagadnień jest problem, z którym spotkałam się
w praktyce i dotyczy prognozowania szeregów czasowych o małej liczbie obserwacji, na przykład szeregów czasowych, opisujących sprzedaż nowopowstałego produktu.
W dużych przedsiębiorstwach zazwyczaj istnieją zespoły ekspertów odpowiedzialnych za
prognozowanie sprzedaży w oparciu o dostępne historyczne dane, wiedzę na temat zachowań
rynku, konkurencji, obserwowane trendy sprzedaży czy planowane akcje promocyjne. Eksperci uczestniczą w planowaniu strategicznym, które zapewnia konsekwentne ukierunkowanie
działalności przedsiębiorstwa. Jednocześnie osoby te często nie posiadają szerokiej wiedzy
matematycznej, by móc starannie przełożyć swoje doświadczenie na założenia konieczne do
budowy wybranych modeli prognozowania. Szczególnie problematyczne jest wyznaczanie prognoz, gdy liczba historycznych danych w szeregu czasowym jest niewielka.
W literaturze dostępne są liczne publikacje opisujące komputerowe metody prognozowania.
Dla problemów dotyczących małych zbiorów danych, dobre rezultaty w praktyce osiągają metody bayesowskie [Geweke, 2005, Geweke and Whiteman, 2006, Clemen and Winkler, 1999],
także [Beer et al., 2013, Stein et al., 2013], umożliwiające włączenie dodatkowej wiedzy a priori
wyrażonej w postaci rozkładów prawdopodobieństwa. Kluczowe jednak jest odpowiednie zdefiniowanie tych rozkładów.
W ostatnich latach nastąpił rozwój komputerowych metod przetwarzania informacji, szczególnie metod data-miningowych. „Miękkie” metody obliczeń komputerowych (ang. soft computing) dostarczają intuicyjnej wiedzy, podsumowującej zbiory danych, w tym danych niedokładnych, niejasnych, a nawet zaburzonych. Możliwości wynikające z wykorzystania wiedzy
powstałej w wyniku uczenia maszynowego do budowania modeli prognozowania wydają się
bardzo obiecujące.
„Miękkie” metody obliczeń komputerowych formalizują umiejętność, jaką posiada człowiek, wnioskowania oraz podejmowania decyzji w sytuacjach niepewnych i cechujących się brakiem precyzji. Paradygmat „Computing with words” [Zadeh, 1997, Zadeh, 2000, Zadeh, 2006]
jest zorientowany na przetwarzanie nieprecyzyjnych określeń, jak np.: mało, dużo, podobnie,
możliwe. W rozprawie informacja wyrażona za pomocą nieprecyzyjnych etykiet i podsumowań
lingwistycznych, jest nazywana informacją nieprecyzyjną.
Istotnym problemem w praktyce jest jednak brak narzędzi umożliwiających inteligentne
połączenie informacji nieprecyzyjnej i tradycyjnych metod prognozowania. Wybór modeli, ich
parametrów oraz zdefiniowanie rozkładów prawdopodobieństwa, spoczywający na ekspertach
danej dziedziny, jest zadaniem trudnym, a nieuważny ich dobór często rzutuje na niską jakość otrzymanych wyników. Potrzebne są intuicyjne narzędzia, wspomagające proces wyboru
modeli prognozowania i ustalania ich założeń. Celem pracy jest opracowanie metod umożliwiających automatyczne określanie założeń dla wybranych modeli prognozowania.
1.1
Postawiony problem badawczy
W obliczu wielu dostępnych modeli, naturalnym wydaje się pytanie, które z nich należy wybrać, by prognozy były dokładne oraz zrozumiałe dla użytkowników. Istotny w celu osiągnięcia
satysfakcjonujących wyników prognozowania jest zarówno odpowiedni dobór modeli, jaki i ich
założeń.
1
Formalnie, niech y = {yt }nt=1 ∈ Y będzie prognozowanym szeregiem czasowym, Y jest
przestrzenią dyskretnych szeregów czasowych, n ∈ {nmin , ..., nmax } ⊆ N . Dalej, niech M
będzie przestrzenią probabilistycznych modeli prognostycznych, M = {M1 , M2 , ..., MJ } ⊆ M
jest skończonym zbiorem zawierającym wybrane modele.
Prognoza ω powstaje w wyniku uśredniania bayesowskiego:
p(ω|y, M ) =
J
X
p(Mj |y, M )p(ω|y, Mj )
(1)
j=1
Na mocy twierdzenia Bayesa gęstości a posteriori dla modeli {M1 , M2 , ..., MJ } zdefiniowane
są następująco:
p(Mj )p(y|Mj )
p(Mj )p(y|Mj )
p(Mj |y, M ) =
= PJ
(2)
p(y|M )
j=1 p(Mj )p(y|Mj )
gdzie p(Mj ); Mj ∈ M to rozkłady prawdopodobieństwa a priori.
Tradycyjne podejście do analizy bayesowskiej zakłada, że rozkłady a priori zostają ustalone
na podstawie subiektywnej wiedzy eksperckiej [Kass and Raftery, 1995]. Teoretyczne i empiryczne rozważania wskazują, że rozkłady a priori mają istotne znaczenie na wynik uśredniania bayesowskiego, w szczególności, gdy w szeregu czasowym występuje mało obserwacji
[Ley and Steel, 2009].
Problem postawiony w pracy, stanowi automatyczna konstrukcja rozkładów prawdopodobieństwa a priori, celem budowy wybranych modeli prognozowania dla krótkich szeregów
czasowych. Rozkłady zbudowane zostają na podstawie informacji nieprecyzyjnej, uzyskanej z
pomocą „miękkich” metod obliczeń komputerowych.
1.2
Teza rozprawy
Zastosowanie „miękkich” metod obliczeń komputerowych do konstrukcji rozkładów prawdopodobieństwa a priori na modelach probabilistycznych jest dobrym narzędziem do eksploracji
i prognozowania szeregów czasowych.
1.3
Cele badawcze
Głównym celem rozprawy doktorskiej jest:
- konstrukcja rozkładów prawdopodobieństwa a priori dla modeli probabilistycznych, opisujących krótkie szeregi czasowe na podstawie analizy nieprecyzyjnych
informacji, uzyskanych z wykorzystaniem nowoczesnych metod eksploracji danych.
Drugim celem rozprawy jest:
- opracowanie modelu analizy danych zgodnego z ludzką percepcją i umożliwiającego przełożenie informacji nieprecyzyjnej, sformułowanej przez ekspertów
danej dziedziny, na rozkłady prawdopodobieństwa a priori, stosowane w bayesowskich modelach predykcyjnych.
2
Pobocznym celem rozprawy jest:
- dokonanie przeglądu osiągnięć, trendów i wyzwań w interdyscyplinarnych badaniach dotyczących zastosowania „miękkich” metod obliczeń komputerowych
w analizie szeregów czasowych.
Postawione powyżej cele osiągnięto, proponując nowatorskie podejście oparte o algorytmy
klasyfikacji, uczenia maszynowego oraz zaawansowane algorytmy segmentacji i sumaryzacji
danych w postaci szeregów czasowych. Zaproponowane nowatorskie algorytmy automatycznej konstrukcji rozkładów a priori (implementacja w języku Python) korzystają z danych
wynikowych TREND ANALYSIS SYSTEM, narzędzia utworzonego w Instytucie Badań Systemowych PAN przez zespół Prof. Janusza Kacprzyka [Kacprzyk et al., 2011].
2
2.1
Przegląd literatury
Eksploracja szeregów czasowych
Dokonano przeglądu podstawowych czynności eksploracji szeregów czasowych, czyli metod
segmentacji, identyfikacji trendów, klasteryzacji, klasyfikacji pod nadzorem oraz bez nadzoru,
algorytmów sumaryzacji lingwistycznej oraz prognozowania.
W rozdziale uwaga poświęcona jest podsumowaniom lingwistycznym Yagera [Yager, 1982]
w postaci rozmytych zdań [Kacprzyk and Zadrożny, 2002, Kacprzyk, 2008, Wilbik, 2010] zawierających uogólnione kwantyfikatory w sensie Zadeha. Przykład podsumowania lingwistycznego stanowi zdanie: „Większość rosnących trendów jest krótkich”. Omówione zostały wybrane
ważne wskaźniki oceny jakości podsumowań lingwistycznych, czyli stopień prawdy (ang. degree
of truth), pokrycia (ang. support), nieprecyzyjności (ang. degree of imprecision).
Rozdział zawiera także opis wybranych metod odkrywania zależności czasowych i reguł asocjacyjnych oraz wybrane najważniejsze aspekty uczenia maszynowego, w szczególności klasyfikacji szeregów czasowych [Berthold and Hand, 2007, Koronacki and Ćwik, 2005,
Vapnik, 1998]. Przedstawiony jest klasyfikator oparty o maszyny wektorów podpierających
oraz metoda k-najbliższych sąsiadów.
2.2
Prognozowanie szeregów czasowych
W rozdziale przedstawione zostały wybrane najważniejsze narzędzia analizy i prognozowania szeregów czasowych. Na mocy twierdzenia „No Free Lunch” można wyciągnąć wniosek,
że spośród licznych modeli matematycznych, nie ma metody najlepszej dla dowolnego problemu predykcji [Wolpert, 1996]. W rozprawie postawiono problem dotyczący prognozowania
krótkich szeregów czasowych.
Omówione zostały wybrane modele prognostyczne, w szczególności modele autoregresyjne
według metodologii Box’a i Jenkins’a [Box et al., 2008, D’Urso et al., 2013]. Omówiona została ogólna koncepcja prognozowania szeregów czasowych oraz przedstawiono wybrane własności procesów stochastycznych takich, jak funkcja autokorelacji i autokowariancji. Analiza
szeregów jest procesem iteracyjnym i składa się z następujących etapów: identyfikacja procesu
stochastycznego na podstawie szeregu czasowego; estymacja parametrów modelu probabilistycznego; diagnostyczne sprawdzenie, że wybrany model jest odpowiedni. Omówiono także
praktyczne metody ewaluacji jakości prognoz [Makridakis and Hibon, 2000].
3
Następnie omówiono wybrane metody estymacji, w szczególności podejście bayesowskie.
Metody bayesowskie dla szeregów czasowych [Geweke, 2005, Geweke and Whiteman, 2006]
umożliwiają estymację rozkładu prawdopodobieństwa dla dowolnego parametru oraz modelowanie niepewności związanej z wyborem modelu probabilistycznego. Kluczowe dla satysfakcjonujących wyników jest poprawne określenie rozkładów a priori.
Następnie dokonano przeglądu osiągnięć, trendów i wyzwań w interdyscyplinarnych badaniach, dotyczących zastosowania „miękkich” metod obliczeń komputerowych w analizie
i prognozowaniu szeregów czasowych. Podane zostały liczne referencje do wybranych istotnych prac w zakresie tych badań, na przykład: [Yarushkina et al., 2011, Burda et al., 2014,
Chen and Chang, 2010, Song and Chissom, 1993], także [Hryniewicz and Kaczmarek, 2015,
Hryniewicz and Kaczmarek, 2014, Kaczmarek and Hryniewicz, 2013, Kaczmarek et al., 2015].
3
Nowatorskie metody konstrukcji rozkładów a priori
Przypomnijmy, że głównym celem rozprawy doktorskiej jest konstrukcja rozkładów prawdopodobieństwa a priori dla modeli probabilistycznych, opisujących szeregi czasowe na podstawie
analizy informacji nieprecyzyjnej. Rozważane w rozprawie szeregi są to dyskretne ciągi wartości rzeczywistych, natomiast nieprecyzyjne etykiety oraz podsumowania lingwistyczne opisane
są za pomocą trapezoidalnych liczb nieostrych.
Cel rozprawy został osiągnięty poprzez opracowanie nowatorskiego podejścia
z zastosowaniem nieprecyzyjnych etykiet i podsumowań lingwistycznych, obejmującego 2 nowatorskie metody prognozowania w ujęciu Bayes’a oraz innowacyjny
algorytm klasyfikacji.
3.1
Klasyfikacja szeregów czasowych z zastosowaniem podsumowań lingwistycznych
Opracowano nowatorski algorytm klasyfikacji z zastosowaniem podsumowań lingwistycznych
(ang. Classification with Linguistic Summaries (C-LS)). Algorytm wykorzystuje wybrane
metody klasyfikacji, segmentacji szeregów czasowych (wybrane algorytmy bottom-up, topdown, broken-line [Sklansky and Gonzalez, 1980]) oraz sumaryzacji [Kacprzyk et al., 2006,
Kacprzyk and Wilbik, 2009, Wilbik, 2010, Wilbik and Keller, 2012]. Zaproponowane podejście opiera działanie o maszyny wektorów podpierających (SVM) [Cortes and Vapnik, 1995]
oraz metodę k-najbliższych sąsiadów (k-NN) [Cover and Hart, 1967].
3.2
Prognozowanie autoregresyjnych szeregów czasowych z zastosowaniem
podsumowań lingwistycznych
Opracowano bayesowską metodę predykcji dla krótkich szeregów czasowych (ang. Bayesian
Autoregression with Linguistic Summaries (F-LS)) z zastosowaniem nieprecyzyjnej wiedzy
eksperckiej o przewidywanych trendach dla prognozowanych zjawisk.
Podstawowe założenie dla wprowadzonego podejścia stanowi fakt, że w celu wyznaczenia
prognozy nie ograniczamy się do jednego modelu probabilistycznego. Zastosowany jest mechanizm bayesowskie do modelowania niepewności związanej z wyborem modelu prognostycznego
i umożliwiający analizę wielu modeli.
4
Na Rysunku 1. przedstawiony został schemat ilustrujący ogólną strukturę zaproponowanego podejścia.
Rysunek 1: Schemat zaproponowanej nowatorskiej metody “Autoregresja z zastosowaniem
podsumowań lingwistycznych” (F-LS).
Pierwszym etapem działania metody jest zbudowanie bazy wiedzy. W tym celu wybrać należy modele probabilistyczne do dalszych rozważań. Modele powinny różnić się przede
wszystkim w sposób jakościowy. W przykładach rozważany jest m.in. następujący podzbiór
3 modeli: model autoregresji pierwszego rzędu z silną dodatnią autokorelacją, model autoregresji pierwszego rzędu z silną ujemną autokorelacją i model autoregresji pierwszego rzędu
o nieznacznej autokorelacji.
Następnie, na podstawie wybranych modeli, wygenerowana zostaje baza wzorcowych szeregów czasowych i dla nich uruchomione zostają algorytmy data-miningowe. Utworzona zostaje
informacja nieprecyzyjna w postaci podsumowań lingwistycznych i uruchomione zostają dla
niej algorytmy uczenia pod nadzorem.
Tabela przedstawia przykłady nieprecyzyjnych etykiet rozważanych do budowy podsumowań. Nieprecyzyjne etykiety opisane są za pomocą trapezoidalnych liczb nieostrych.
Tablica 1 Przykłady atrybutów i ich nieprecyzyjnych etykiet.
Obiekt
Trend
Zbiór
podsumowań lingwistycznych
Atrybut
długość
dynamika zmian
zmienność
liczba elementów
zbioru
Etykiety nieprecyzyjne
short, medium, long
rosnący, stały, umiarkowany
niskie, umiarkowane, wysokie
większość
Rozważane są podsumowanie lingwistyczne w postaci: Q t jest S oraz Q t, które są
W, jest S , gdzie S, W to zbiory rozmyte, Q to kwantyfikator rozmyty. W wyniku działania
metod data-miningowych, wygenerowany zostaje zbiór reguł klasyfikacyjnych.
5
Podsumowując, najważniejsze kroki etapu budowy bazy wiedzy w niniejszym algorytmie
są następujące:
1. S := zdefiniuj liczby rozmyte
2. [Yms , C s ] := wygeneruj s = kxJ realizacji szeregów z modeli autoregresyjnych Mi dla
i ∈ J zdefiniowanych następująco:
y˜t =
p
X
φi yt−i
˜ + at
(3)
i=1
gdzie at ∼ N (0, σ 2 ), y˜t = yt − µ, φ1 ∈ (−1, 1), σ 2 = 0.1.
3. LI s := utwórz podsumowania lingwistyczne dla Yms
4. V s := oblicz wskaźniki jakości podsumowań dla LI s
5. CL := zbuduj klasyfikator (względem modeli probabilsitycznych) na próbie uczącej
[LI s , C s ].
Drugim etapem działania metody jest wydobycie informacji a priori o krótkich szeregach. Następuje ewaluacja podsumowań lingwistycznych dla krótkich szeregów czasowych,
by możliwa była ich klasyfikacja względem modeli probabilistycznych:
1. [LI E , V E ] := utwórz wstępne podsumowania dla prognozowanego szeregu y
2. T E := ewaluacja podsumowań lingwistycznych przez człowieka na podstawie LI E , V E .
Ostatnim etapem działania metody jest automatyczne wyznaczenie rozkładów prawdopodobieństwa i symulacja Łańcuchów Markowa Monte Carlo - MCMC. W oparciu o
wyniki data-miningowe i komunikację z użytkownikem (walidację wyników) przeprowadzone
zostaje zadanie klasyfikacji i otrzymane w jej wyniku wagi przełożone zostają na estymowane
rozkłady prawdopodobieństwa a priori dla poszczególnych modeli p(Mj |M ). Rozkłady te są
wykorzystane w symulacji a posteriori MCMC, której celem jest wyznaczenie prognozy i jej
rozkładu predyktywnego. Poniżej znajduje się podsumowanie najważniejszych kroków:
1. ScMi := zaklasyfikuj T E na podstawie v E , CL do Mi
2. P := utwórz p(Mj |M ) na podstawie wag klasyfikacji dla modeli ScMi
3. yn+1 := wyznacz prognozę i następujące rozkłady predyktywne dla y w oparciu o symulacje a posteriori MCMC:
p(Mj |y, M ) =
p(Mj )p(y|Mj )
p(Mj )p(y|Mj )
= PJ
p(y|M )
j=1 p(Mj )p(y|Mj )
p(ω|y, M ) =
J
X
p(Mj |y, M )p(ω|y, Mj )
j=1
6
(4)
(5)
Przypomnijmy, że drugim celem rozprawy doktorskiej jest opracowanie modelu analizy
danych zgodnego z ludzką percepcją, umożliwiającego przełożenie informacji nieprecyzyjnej,
sformułowanej przez ekspertów danej dziedziny na rozkłady prawdopodobieństwa a priori.
Powyższy cel osiągnięto poprzez zaprojektowanie niniejszej metody. Ekspert udziela odpowiedzi dotyczących stopnia prawdziwości prezentowanych wyrażeń lingwistycznych. Przykładami
weryfikowanych wyrażeń lingwistycznych w języku naturalnym są: Zazwyczaj wartości dla szeregu X są niskie, Prawie nigdy długie trendy są rosnące.
3.3
Prognozowanie szeregów czasowych w oparciu o regresję liniową z zastosowaniem informacji nieprecyzyjnej
Opracowano metodę predykcji ciągów informacji lingwistycznej (ang. Bayesian Regression
with Linguistic Labels (F-LL)). Zaproponowana metoda obejmuje m.in. analizę szeregów
z próby uczącej, segmentację szeregów czasowych, przetwarzanie wyrażeń nieprecyzyjnych,
wnioskowanie bayesowskie.
Na Rysunku 2. przedstawiony został schemat ilustrujący działanie metody.
Rysunek 2: Schemat zaproponowanej nowatorskiej metody “Regresja z zastosowaniem podsumowan lingwistycznych” (F-LL).
Nieprecyzyjne etykiety służą do konstrukcji rozkładów w zadaniu regresji liniowej. Kroki
algorytmu są następujące:
1. S := zdefiniuj liczby rozmyte
2. Y k := zdefiniuj zbiór uczących szeregów
3. S k := segmentacja Y k
4. X k,y,S := utwórz ciągi informacji nieprecyzyjnej dla Y k .
Następnie zadanie estymacji parametrów modelu regresji rozwiązane zostaje z zastosowaniem algorytmu Gibbs Sampling [Gelfand and Smith, 1990]:
1. zastosuj ciągi informacji nieprecyzyjnej X k,y,S jako macierz objaśniającą w modelu wektorowej regresji liniowej:
y = Xβ + , ∼ N (0, σ 2 In )
(6)
2. θ = (β, σ) := estymacja w oparciu o próbkowanie Gibbsa
3. yn+1 := wyznacz prognozę dla y.
7
4
Wyniki badań eksperymentalnych
Przedstawione w poprzednim rozdziale nowatorskie metody, zostały poddane weryfikacji na
danych dotyczących rzeczywistych problemów. W rozdziale 4 rozprawy zestawione są wyniki
eksperymentalne.
Analizie porównawczej poddana została efektywność proponowanych metod oraz ich adekwatność dla przykładowych zbiorów danych benchmarkowych. Przeprowadzono również analizy dla zbioru danych rzeczywistych, pochodzących z rynku farmaceutycznego. Analizowane
zbiory danych są następujące:
1. Dane symulacyjne uzyskane z modeli autoregresyjnych.
2. Dane sprzedaży dla 6 produktów z rynku farmaceutycznego.
3. Dane benchmarkowe, tj.: wybrane szeregi czasowe ze zbioru dostępnego on-line M3Competition [Makridakis and Hibon, 2000] oraz wybrane szeregi ze zbioru Uniwersytetu
Kalifornijskiego [Keogh et al., 2011].
Opisane eksperymenty i symulacje ilustrują działanie proponowanych metod oraz umożliwiają analizę ich dokładności, a także interpretowalności generowanych przez nie wyników.
4.1
Badania symulacyjne
Na Rysunku 3. przedstawione zostały przykładowe szeregi z rozważanego zbioru danych będące realizacją 2 różnych modeli.
Rysunek 3: Szeregi będące realizacją (a) M1 : φ1 = 0.0 (b) M10 : φ1 = 0.9.
Rozważmy dla przykładu podsumowanie lingwistyczne o treści: ”większość trendów w szeregu ma wartości bliskie zeru”. Na podstawie oceny wizualnej, intuicyjne wydaje się stwierdzenie, że dla szeregów będących realizacją modelu M1 : φ1 = 0.0, powyższe podsumowanie
jest prawdziwe. Natomiast, dla szeregów będących realizacją modelu M10 : φ1 = 0.9, podsumowanie to nie wydaje się prawdziwe. Tego typu instuicyjne spostrzeżenia zostały poddane
weryfikacji na różnych zbiorach danych.
Na podstawie licznych analiz, zauważono, że rzeczywiście zbiory danych lingwistycznych
podsumowujących szeregi czasowe różnią się dla szeregów autoregresyjnych, będących realizacją różnych modeli probabilistycznych. Liczne eksperymenty potwierdziły także, że wektory
zawierające stopnie prawdziwości dla podsumowań lingwistycznych, są istotnymi zmiennymi
(atrybutami) w analizie dyskryminacyjnej szeregów czasowych.
8
Tablica 2 Średnie wartości stopnia prawdy dla podsumowań szeregów będących realizacją 10
różnych modeli.
Linguistic summary description
Among all y most are short
Among all y most are low
Among all y most are moderate
Among all y most are medium
Among all decr y most are mod
Among all decr y most are med
Among all med y most are cons
Among all long y most are cons
M1
1.00
0.47
0.47
0.51
0.34
0.17
0.83
1.00
M2
1.00
0.61
0.35
0.51
0.05
0.14
0.82
1.00
M3
0.95
0.45
0.53
0.64
0.25
0.24
0.85
1.00
M4
0.97
0.43
0.51
0.65
0.39
0.28
0.85
1.00
M5
0.83
0.26
0.74
0.76
0.37
0.21
0.93
1.00
M6
0.71
0.22
0.81
0.88
0.44
0.46
0.96
1.00
M7
0.62
0.21
0.77
0.90
0.45
0.41
0.97
1.00
M8
0.69
0.18
0.77
0.90
0.64
0.54
0.93
1.00
M9
0.57
0.21
0.88
0.95
0.71
0.58
0.95
1.00
M10
0.49
0.14
0.86
0.98
0.71
0.69
0.97
1.00
Rysunek 4: Analiza dokładności klasyfikatora względem liczby atrybutów, czyli liczby podsumowań lingwistycznych.
Rysunek 5: Analiza dokładności klasyfikatora względem liczby klas.
9
Tablica 2 przedstawia średnie wartości stopnia prawdy dla podsumowań szeregów będących realizacją 10 różnych modeli.
Rysunki 4 i 5 przedstawiają wyniki analizy klasyfikatora.Najdokładniejszą klasyfikację
uzyskano dla zredukowanej przestrzeni atrybutów (do 9 wybranych najprostszych podsumowań lingwistycznych).
Ponadto, wyniki dowiodły, że opracowana metoda dot. przewidywanych trendów, pozwala
na dokładną estymację parametrów modelu oraz w konsekwencji dokładniejsze prognozy w
porównaniu do tradycyjnych metod, nieuwzględniających dodatkowej informacji nieprecyzyjnej. Analizą porównawczą objęte zostały tradycyjna metoda Bayes’a z rozkładami a priori
nazywanymi „noninformativeóraz 2 wybrane popularne powszechnie metody estymacji parametrów modeli autoregresji powstałe na mocy równań Yule-Walker’a [Yule, 1927] oraz algorytmu Burg’a [Burg, 1968]. Tablica 3 i Rysunek 6 prezentują wyniki.
Tablica 3 Suma średniokwadratowych błędów (próba n=100) dla estymowanego współczynnika autoregresji według bayesowskich i tradycyjnych metod estymacji.
Metoda
B: F-LS
B: uninf
T: Burg
T: Y-W
Liczba obserwacji w szeregu
10
11
12
13
14
1.95 1.84 1.92 1.78 1.81
9.85 9.63 7.89 7.82 7.51
8.42 8.41 7.10 6.60 5.96
8.54 8.37 7.31 6.69 6.21
czasowym
15
16
1.74 1.65
7.12 5.69
5.55 4.95
5.66 5.10
17
1.69
5.93
5.03
5.23
18
1.76
5.95
4.68
4.84
19
1.61
5.31
4.25
4.46
20
1.63
4.92
4.12
4.32
50
0.96
1.58
1.41
1.44
100
0.58
0.81
0.74
0.75
Rysunek 6: Suma średniokwadratowych błędów (próba n=100) dla estymowanego współczynnika autoregresji według bayesowskich i tradycyjnych metod estymacji.
Wybrane najważniejsze wnioski z przeprowadzonych symulacji są następujące:
- Autorska metoda jest szczególnie odpowiednia dla krótkich szeregów.
- Dla szeregów o 10 obserwacjach: zmniejszenie błędu średniokwadratowego dla estymowanego
współczynnika autoregresji o 76% oraz zwiększenie dokładności prognozy o 1 krok naprzód
o 7%, w porównaniu do tradycyjnych metod estymacji (Yule-Walke’a, algorytm Burg’a).
- Dla szeregów o 20 obserwacjach: zmniejszenie błędu średniokwadratowego dla estymowanego
współczynnika autoregresji o 60% oraz zwiększenie dokładności prognozy o 1 krok naprzód
o 3%, w porównaniu do tradycyjnych metod estymacji (Yule-Walke’a, algorytm Burg’a).
10
Zauważono także, że dla szeregów o długości 50, 100, nie ma istotnych różnic pomiędzy
podejściem bayesowskim a tradycyjnymi metodami estymacji.
4.2
Szeregi czasowe sprzedaży
Dokonano oceny dokładności i użyteczności metody na podstawie analizy wyników prognozowania rzeczywistej sprzedaży wybranych produktów z rynku farmaceutycznego w okresie
4-5 lat. Bardzo dobre wyniki uzyskane zostały z zastosowaniem metody regresyjnej. Tablica
4 przedstawia wyniki klasyfikacji, natomiast Tablica 5 zestawia średnie błędy prognoz.
Tablica 4 Wynik klasyfikacji dla problemu 3-klas szeregów szeregów farmaceutycznych.
Scores
C1
C2
C3
Prod 1
0.02 0.39 0.59
Prod 2
0.86 0.10
0.04
Prod 3
0.92 0.06
0.02
Prod 4
0.58 0.23
0.19
Prod 5
0.94 0.04
0.02
Prod 6
0.08 0.46
0.45
Tablica 5 Porównanie średniego błędu prognoz.
h=1
APE
F-LL
P1
0.036
P2
0.202
P3
0.900
P4
0.026
P5
0.188
0.703
P6
ALL 0.342
h=1
APE
VAR
0.129
0.317
0.745
0.326
0.364
0.559
0.407
Najważniejsze wnioski z przeprowadzonych analiz dla badanego zbioru danych rzeczywistych są następujące:
- Współczynnik korelacji dla szeregów rzeczywistych i ciągów nieprecyzyjnych o informacji
lingwistycznej wyższy średnio o 20%, niż dla szeregów rzeczywistych między sobą.
- Średnia dokładność prognozy porównywalna z dokładnością tradycyjnego modelu wektorowej autoregresji.
- Parametry modelu są łatwe do zinterpretowania przez ekspertów ze względu na powiązanie
z pojęciami w języku naturalnym - kluczowa zaleta metody.
11
4.3
Zbiory danych benchmarkowych
Analizą porównawczą objęte zostały 26 benchmarkowe metody prognozowania oraz rzeczywiste dane (dostępne online) ze zbioru M3-Competition [Makridakis and Hibon, 2000]. Tablica
6 przedstawia rozważane metody benchmarkowe.
Tablica 6 Wybrane najlepsze benchmarkowe metody prognozowania z M3-Competition [Makridakis and Hibon, 2000].
Nazwa metody
Naive2
Robust-Trend
Flores /Pearce2
SmartFcs*
Theta
Comb S-H-D
ARARMA
Single
ForecastX*
RBF
ForecastPro*
Auto-ANN
B-J Auto
Autor
M. Hibon
N. Meade
B.Flores, S. Pearce
C. Smart
V. Assimakopoulos
M. Hibon
N. Meade
M. Hibon
J. Galt
M. Adya, S. Armstrong,
F. Collopy, M. Kennedy
R. Goodrich, E. Stellwagen
K. Ord, S. Balkin
M. Hibon
Opis
Podejście naiwne z redukcją trendów sezonowych
Nieparametryczny model Holt’a
System ekspertowy
System ekspertowy
Metoda oparta na dekompozycji szeregów
Model oparty o analizę trendu
Modele ARIMA
Metoda wygładzania wykładniczego
System ekspertowy
System regułowy
System ekspertowy (dokonuje połączenia m.in. modeli Box-Jenkins, wygładzania wykładniczego, modeli Poissona, metody Croston’a, modeli średniej ruchomej)
Metoda oparta o sztuczne sieci neuronowe
Modele ARIMA
Tablice 7 i 8 prezentują osiągnięte wyniki dla podzbioru krótkich szeregów czasowych.
W klasyfikacji medalowej zaproponowana metoda bayesowska z zastosowaniem informacji
nieprecyzyjnej okazała się najlepsza. Dla analizowanych szeregów benchmarkowych błąd prognozowania wynosi 6.7% (według sMAPE), dostarczając 2. najlepszy wynik w porównaniu
do benchmarkowych metod prognozowania. Ponadto, dla 40% szeregów z rozważanej próby,
zaproponowana metoda uzyskała lepszy wynik, niż metoda o najlepszym średnim błędzie ForecastPRO.
Następnie, analizie poddano podzbiór szeregów o 47 obserwacjach przy dodatkowym założeniu, że nie dopuszcza się ewaluacji podsumowań przez ekspertów (przyjęte są tylko automatyczne podsumowania uzyskane z danych). Metoda z tym założeniem oznaczona jest F-LS*.
Uzyskane wyniki zestawione zostały w Tablicy 9.
Dla analizowanych szeregów benchmarkowych o długości 47 obserwacji błąd prognozowania wyniósł 4.16%, dostarczając najlepszy wynik w porównaniu do najlepszych benchmarkowych metod prognozowania.
Podsumowując, opracowana metoda przetwarza informacje łatwe do interpretacji dla człowieka oraz dostarcza bardzo dobrych wyników prognozowania dla licznych rozważanych zbiorów danych.
12
Tablica 7 Klasyfikacja medalowa. TOP-3 oraz najmniej dokładne metody dla N1-N10 z
M3-Competition. F-LS to autorska metoda, a pozostałe to wybrane najlepsze metody benchmarkowe z konkursu.
TOP-3
Metoda
I II III ... XV
ARARMA
0 1
1
1
Auto-ANN
2 0
0
1
B-J Auto
0 0
0
1
F-LS
2 0 1
0
Comb S-H-D
0 0
0
0
Flores /Pearce2 0 1
0
2
ForecastPro
0 0
1
1
ForecastX
1 0
1
0
Naive2
1 1
1
0
RBF
0 1
1
0
Robust-Trend
2 2
0
1
SimpleBayes
1 1
0
1
Single
0 1
1
0
SmartFcs
1 1
0
2
Theta
0 1
3
0
Tablica 8 Średni błąd prognoz według sMAPE (ang. symmetric mean absolute percentage
error ) oraz MSE (ang. mean square error ) dla zbioru N1-N10 z M3-Competition. F-LS to
autorska metoda, a pozostałe to wybrane najlepsze metody benchmarkowe z konkursu.
Method
ForecastX
F-LS
Comb S-H-D
Robust-Trend
Theta
RBF
Auto-ANN
ForecastPro
B-J Auto
Naive2
Single
SmartFcs
ARARMA
Flores /Pearce2
Avg sMAPE
sMAPE
6.1
6.7
6.7
6.8
6.8
6.9
7.2
7.4
7.4
7.7
7.7
8.5
8.7
9.3
7.3
sMAPE/Avg sMAPE
17%
9%
9%
8%
7%
6%
2%
-1%
-1%
-5%
-5%
-15%
-19%
-26%
13
Method
ForecastX
F-LS
Comb S-H-D
Robust-Trend
Theta
RBF
Auto-ANN
ForecastPro
B-J Auto
Naive2
Single
SmartFcs
ARARMA
Flores /Pearce2
Avg MSE
MSE
163 932
215 497
213 472
163 502
290 809
202 272
242 197
380 393
289 332
266 264
266 264
408 525
392 000
312 760
269 743
MSE/Avg MSE
39%
20%
21%
39%
-8%
25%
10%
-41%
-7%
1%
1%
-51%
-45%
-16%
Tablica 9 Średni błąd prognoz według sMAPE (ang. symmetric mean absolute percentage error ) dla podzbioru szeregów o 47 obserwacjach z M3-Competition. F-LS* to autorska metoda,
a pozostałe to wybrane najlepsze metody benchmarkowe z konkursu.
N 156
N 157
N 158
N 159
N 160
N 164
N 165
N 166
N 167
N 168
Średnia
5
F-LS*
2.33
2.60
3.41
5.12
5.60
2.23
2.23
7.11
6.50
4.49
4.16
ForecastX
11.92
11.72
2.02
48.05
4.68
1.93
2.20
26.45
6.15
10.23
12.53
ForecastPRO
17.58
17.97
3.04
19.58
10.08
5.90
5.51
7.11
6.15
18.30
11.12
Podsumowanie
Głównym celem rozprawy doktorskiej była konstrukcja rozkładów prawdopodobieństwa a priori
dla modeli probabilistycznych, opisujących krótkie szeregi czasowe na podstawie analizy nieprecyzyjnych informacji, uzyskanych z wykorzystaniem nowoczesnych metod eksploracji danych. Drugim celem rozprawy było opracowanie modelu analizy danych zgodnego z ludzką
percepcją i umożliwiającego przełożenie informacji nieprecyzyjnej, sformułowanej przez ekspertów danej dziedziny, na rozkłady prawdopodobieństwa a priori stosowane w bayesowskich
modelach predykcyjnych.
W rozprawie zaproponowane zostały dwie nowatorskie metody konstrukcji rozkładów
prawdopodobieństwa a priori, stosowanych w bayesowskiej analizie szeregów czasowych. Zaproponowane metody wykorzystują algorytmy klasyfikacji i uczenia maszynowego oraz zaawansowane algorytmy segmentacji i automatycznych podsumowań dla danych o postaci szeregów czasowych. Opracowane nowatorskie metody konstrukcji rozkładów różnią się między
sobą zastosowanymi metodami data-miningowymi i sposobem reprezentacji informacji nieprecyzyjnej. Wszystkie metody korzystają z algorytmów segmentacji szeregów czasowych i
wspierają analizę krótkich szeregów czasowych.
Skuteczność działania wprowadzonych metod potwierdzona została wynikami eksperymentalnymi dla benchmarkowych zbiorów danych. Przeprowadzono również analizy dla danych rzeczywistych, pochodzących z rynku farmaceutycznego. Przeprowadzone eksperymenty
i symulacje potwierdziły efektywność zaproponowanego podejścia. Ponadto, reprezentacja szeregów czasowych jako wektorów podsumowań lingwistycznych, pozwala na bardzo dokładną
klasyfikację szeregów do modeli probabilistycznych.
Rozprawa zbudowana jest z 5 rozdziałów. Pierwszy rozdział służy wprowadzeniu w rozważaną problematykę oraz sformułowaniu problemu badawczego. Rozdział 2. ma za cel przegląd
literatury tematu i przedstawienie podstawowych zagadnień, definicji i algorytmów. Nowatorskie metody konstrukcji rozkładów prawdopodobieństwa opisane są w Rozdziale 3. Efektywność zaproponowanych metod potwierdzona została licznymi badaniami, których wyniki
14
przedstawione są w Rozdziale 4. Rozdział 5 stanowi podsumowanie rozprawy. Spis literatury
znajduje się w ostatnim rozdziale. Załączniki do rozprawy to pseudokod wybranych algorytmów oraz tabele przedstawiające zbiory danych treningowych i testowych.
Za moje najważniejsze oryginalne osiągnięcia w niniejszej pracy uważam:
1. Opracowanie nowatorskiego podejścia zastosowania podsumowań lingwistycznych do
konstrukcji rozkładów prawdopodobieństwa a priori dla modeli prognostycznych.
2. Opracowanie modelu predykcyjnego zgodnego z ludzką percepcją.
3. Opracowanie samouczącej się bazy wiedzy w oparciu o metody data-miningowe.
4. Wyniki eksperymentalne potwierdzają efektywność podejścia dla rozważanych zbiorów
danych.
5. Opracowanie metody klasyfikacji szeregów czasowych, reprezentowanych jako wektory
podsumowań lingwistycznych.
6. Dokonanie przeglądu osiągnięć w interdyscyplinarnych badaniach, dotyczących zastosowania „miękkich” metod obliczeń komputerowych w analizie szeregów czasowych.
Dalsze kierunki badań obejmują:
- Analizę kolejnych (innych) sposobów reprezentacji informacji zgodnej z ludzką percepcją
(np.: inne formy podsumowań lingwistycznych, reguły asocjacyjne, zależności czasowe).
- Konstrukcję rozkładów prawdopodobieństwa (także a posteriori) dla kolejnych (innych) modeli prognostycznych.
- Połączenie alternatywnych interpretacji zmiennych lingwistycznych (stworzenie profili ekspertów, wartości etykiet zmienne w czasie).
- Analizę porównawcza informacji lingwistycznej uzyskanej w sposób automatyczny z subiektywnymi ocenami ekspertów.
- Rozmycie rozkładów prawdopodobieństwa.
Wyniki przeprowadzonych eksperymentów dowodzą tezy rozprawy, że zaproponowane metody przetwarzania informacji nieprecyzyjnej do konstrukcji rozkładów prawdopodobieństwa a priori na opisujących szereg czasowy modelach probabilistycznych, są dobrym narzędziem do eksploracji i prognozowania krótkich
szeregów czasowych.
15
Podziękowania. Badania wsparte były przez stypendium naukowe w ramach programu
Międzynarodowe Projekty Doktoranckie pt.: „International PhD Studies in Intelligent Computing”. Program realizowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego, Program Operacyjny Kapitał Ludzki.
Kontakt:
Katarzyna Kaczmarek
Zakład Metod Stochastycznych
Instytut Badań Systemowych PAN
ul. Newelska 6, 01-447 Warszawa
e-mail: [email protected]
Literatura
[Beer et al., 2013] Beer, M., Ferson, S., and Kreinovich, V. (2013). Imprecise probabilities in
engineering analyses. Mechanical Systems and Signal Processing, pages 4–29.
[Berthold and Hand, 2007] Berthold, M. and Hand, D. (2007). Intelligent data analysis. An
Introduction. Springer.
[Box et al., 2008] Box, G., Jenkins, G., and Reinsel, G. (2008). Time Series Analysis, 4th
Edition. Wiley.
[Burda et al., 2014] Burda, M., Stepnicka, M., and Stepnickowa, L. (2014). Fuzzy rule-based
ensamble for time series prediction: Progresses with associations mining. In Strengthening
Links Between Data Analysis and Soft Computing, volume 315, pages 261–271.
[Burg, 1968] Burg, J. (1968). A new analysis technique for time series data. Advanced Study
Institute on Signal Processing, NATO. Enschede.
[Chen and Chang, 2010] Chen, S. and Chang, Y. (2010). Multi-variable fuzzy forecasting
based on fuzzy clustering and fuzzy rule interpolation techniques. Inf. Sci., 180(24):4772–
4783.
[Clemen and Winkler, 1999] Clemen, R. and Winkler, R. (1999). Combining probability distributions from experts in risk analysis. Risk Analysis, 19(2):187–203.
[Cortes and Vapnik, 1995] Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine Learning, 20:273–297.
[Cover and Hart, 1967] Cover, T. and Hart, P. (1967). Nearest neighbor pattern classification.
IEEE Transactions on Information Theory, pages 21–27.
[D’Urso et al., 2013] D’Urso, P., Lallo, D., and Maharaj, E. (2013). Autoregressive modelbased fuzzy clustering and its application for detecting information redundancy in air pollution monitoring networks. Soft Computing, pages 83–131.
16
[Geweke, 2005] Geweke, J. (2005). Contemporary bayesian econometrics and statistics. Wiley
series in probability and statistics.
[Geweke and Whiteman, 2006] Geweke, J. and Whiteman, C. (2006). Handbook of Economic
Forecasting, volume 1. Elsevier.
[Hryniewicz and Kaczmarek, 2014] Hryniewicz, O. and Kaczmarek, K. (2014). Forecasting
short time series with the bayesian autoregression and the soft computing prior information.
In Strengthening Links Between Data Analysis and Soft Computing, volume 315, pages 79–
86. Springer.
[Hryniewicz and Kaczmarek, 2015] Hryniewicz, O. and Kaczmarek, K. (2015). Bayesian analysis of time series using granular computing approach. Applied Soft Computing.
[Kacprzyk, 2008] Kacprzyk, J. (2008). Linguistic summarization of time series using a fuzzy
quantifier driven aggregation. Fuzzy Sets Syst, 159 (12):1485–1499.
[Kacprzyk and Wilbik, 2009] Kacprzyk, J. and Wilbik, A. (2009). Using fuzzy linguistic summaries for the comparison of time series: an application to the analysis of investment fund
quotations. In IFSA/EUSFLAT Conf. 2009, pages 1321 – 1326.
[Kacprzyk et al., 2011] Kacprzyk, J., Wilbik, A., Partyka, A., and Ziółkowski, A. (2011).
Trend Analysis System. Systems Research Institute, Polish Academy of Sciences, Warsaw.
[Kacprzyk et al., 2006] Kacprzyk, J., Wilbik, A., and Zadrożny, S. (2006). Linguistic summarization of trends: a fuzzy logic based approach. In Proc. of the 11th International
Conference Information Processing and Management of Uncertainty in Knowledge-based
Systems, page 2166–2172.
[Kacprzyk and Zadrożny, 2002] Kacprzyk, J. and Zadrożny, S. (2002). Protoforms of linguistic data summaries: towards more general natural-language-based data mining tools. Soft
Computing Systems, IOS Press, Amsterdam, pages 417–425.
[Kaczmarek and Hryniewicz, 2013] Kaczmarek, K. and Hryniewicz, O. (2013). Linguistic
knowledge about temporal data in bayesian linear regression model to support forecasting
of time series. In Proc. of Federated Conference on Computer Science and Information
Systems, pages 655 – 658.
[Kaczmarek et al., 2015] Kaczmarek, K., Hryniewicz, O., and Kruse, R. (2015). Human input
about linguistic summaries in time series forecasting. In Proc. of The Eighth International
Conference on Advances in Computer-Human Interactions ACHI 2015.
[Kass and Raftery, 1995] Kass, R. and Raftery, A. (1995). Bayes factors. Journal of the
American Statistical Association, 90:773–795.
[Keogh et al., 2011] Keogh, E., Zhu, Q., Hu, B., Hao, Y., Xi, X., Wei, L., and
Ratanamahatana, C. (2011).
The ucr time series classification/clustering page:
www.cs.ucr.edu/˜eamonn/timeseriesdata/.
[Koronacki and Ćwik, 2005] Koronacki, J. and Ćwik, J. (2005). Statystyczne systemy uczące
się. Wydawnictwo Naukowo Techniczne, Warszawa.
17
[Ley and Steel, 2009] Ley, E. and Steel, M. (2009). On the effect of prior assumptions in
bayesian model averaging with applications to growth regression. Journal of Applied Econometrics, 24:651–674.
[Makridakis and Hibon, 2000] Makridakis, S. and Hibon, M. (2000). The m3-competition:
results, conclusions and implications. International Journal of Forecasting, pages 451–476.
[Sklansky and Gonzalez, 1980] Sklansky, J. and Gonzalez, V. (1980). Fast polygonal approximation of digitized curves. Pattern Recognition, 12(5):327–331.
[Song and Chissom, 1993] Song, Q. and Chissom, B. (1993). Fuzzy time series and its models.
Fuzzy Sets Syst., 54(3):269–277.
[Stein et al., 2013] Stein, M., Beer, M., and Kreinovich, V. (2013). Bayesian approach for
inconsistent information. Information Sciences, pages 96–111.
[Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory. Wiley, New York.
[Wilbik, 2010] Wilbik, A. (2010). Linguistic summaries of time series using fuzzy sets and
their application for performance analysis of mutual funds. PhD thesis, Systems Research
Institute, Polish Academy of Sciences, Warsaw, Poland.
[Wilbik and Keller, 2012] Wilbik, A. and Keller, J. (2012). A distance metric for a space of
linguistic summaries. Fuzzy Sets and Systems, 208:79–94.
[Wolpert, 1996] Wolpert, D. (1996). The lack of a priori distinctions between learning algorithms. Neural Computation, pages 1341–1390.
[Yager, 1982] Yager, R. (1982). A new approach to the summarization of data. Information
Science, 28 (1):69–86.
[Yarushkina et al., 2011] Yarushkina, N., Perfilieva, I., Afanasieva, T., Igonin, A., Romanov,
A., and Shishkina, V. (2011). Time series processing and forecasting using soft computing
tools. In RSFDGrC’11 Proceedings of the 13th international conference on Rough sets,
fuzzy sets, data mining and granular computing, pages 155–162. Springer-Verlag Berlin,
Heidelberg.
[Yule, 1927] Yule, G. (1927). On a method of investigating periodicities in disturbed series
with special reference to wolfer’s sunspot numbers. Philosophical Transactions of the Royal
Society of London, 226:267–298.
[Zadeh, 1997] Zadeh, L. A. (1997). Towards a theory of fuzzy information granulation and
its centrality in human reasoning and fuzzy logic. Fuzzy Sets and Systems, 90:111–127.
[Zadeh, 2000] Zadeh, L. A. (2000). From computing with numbers to computing with words
- from manipulation of measurements to manipulation of perceptions. Intelligent Systems
and Soft Computing in Lecture Notes in Computer Science, 1804:3–40.
[Zadeh, 2006] Zadeh, L. A. (2006). Generalized theory of uncertainty - principal concepts and
ideas. Computational Statistics and Data Analysis, 51(1):15–46.
18