Wykrywanie rozmytych wzorców w trendach dla potrzeb

Transkrypt

Wykrywanie rozmytych wzorców w trendach dla potrzeb
WYKRYWANIE ROZMYTYCH WZORCÓW W TRENDACH DLA POTRZEB
PROGNOZOWANIA REGUŁOWEGO
JACEK CZERNIAK
Instytut BadaĔ Systemowych PAN
IWONA FILIPOWICZ
Uniwersytet Kazimierza Wielkiego w Bydgoszczy
Streszczenie
Artykuł dotyczy zagadnienia poszukiwania wzorców w trendach.
W opracowaniu zaproponowana została metoda wykrywania wzorców w trendach
zapisanych w sposób lingwistyczny. Zmienne lingwistyczne przyjmuj swe wartoci
w wyniku zastosowania oblicze w domenie logiki rozmytej. Nastpuje, zatem
w pierwszym etapie rozmycie (ang. fuzzyfication) danych ródłowych. O poziomie
podobiestwa sekwencji trendu decyduj ustalane parametry, którymi s: rozmiar
ramki wzorca (ang. frame size), procentowa zgodno sekwencji trendu z ramk
ustalan na wstpie, poziom odniesienia oznaczajcy minimaln liczb fragmentów
trendu zgodnych z ramk (ang. threshold) oraz czsto wystpie wzorca (ang.
frequency). Wykryte w ten sposób wzorce charakteryzuj si, z natury rzeczy, rónym
wsparciem, oraz współczynnikami podobiestwa zarówno całoci i poszczególnych
elementów. Na potrzeby niniejszego badania opracowano dedykowany program
komputerowy wykonujcy poszukiwania wzorców. Jako materiał badawczy posłuył
zestaw danych głównego indeksu GPW tj. WIG z lat 2000–2008. Te wstpne badania
stanowi pocztek do wypracowania metod prognozowania opartego na regułach
(ang. rule base forecasting) i w takim kierunku prowadzone bd dalsze
dowiadczenia.
Słowa kluczowe: trend, prognozowanie regułowe, rozpoznawanie wzorców.
1. Wprowadzenie
Prognozowanie oparte na regułach (ang. Rule-based Forecasting, RBF) integruje dane
statystyczne i wiedzĊ dziedzinową w celu wykreowania bardziej precyzyjnych metod
prognozowania. MoĪna uogólniając powiedzieü, Īe RBF jest swego rodzaju systemem
eksperckim, który wykorzystuje właĞciwoĞci szeregów czasowych oraz wybrane techniki
ekstrapolacji danych. W pierwotnych implementacjach twórców metody reguły zostały
sformułowane w oparciu o studium literaturowe, wywiady, ankiety oraz wiedzĊ dziedzinową
piĊciu ekspertów ([1], [2], [9]). Kalibracja podstawowej wersji reguł nastąpiła z uĪyciem 90
szeregów czasowych, a ich walidacja z zastosowaniem kolejnych 36. W tym sensie, RBF jest
systemem eksploracji wiedzy, który z powodzeniem łączy techniki statystyczne z wiedzą
dziedzinową. Aktualne implementacje systemu ekspertowego zawierają ok. 100 reguł, które łączą
prognozy czterech podstawowych metod ekstrapolacji tj. błądzenia losowego (ang. random walk),
regresji liniowej (ang. linear regression), wygładzania wykładniczego Holt’a (ang. Holt's
exponential smoothing) oraz wygładzania wykładniczego Brown’a (ang. Brown's exponential
smoothing). W pracach ([9], [10], [11]) autorzy podają, iĪ zarówno wyniki niezaleĪnych badaĔ jak
Jacek Czerniak, Iwona Filipowicz
Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego
47
i ostatnich udziałów w M-3 Competition wykazały, Īe RBF jest dokładniejsze niĪ wiodące
standardy takie jak metody błądzenia losowego bądĨ równego obciąĪenia łączy (ang. equal
weights combining). Prognozowanie regułowe jest intensywnie rozwijającą siĊ dyscypliną wiedzy,
która zdobywa coraz wiĊkszą rzeszĊ zwolenników. Bibliografia RBF jest powszechnie dostĊpna,
a jej przywoływanie, nawet w czĊĞci, nie jest celem tej pracy. JednakĪe naleĪy wymieniü
przynajmniej trójkĊ autorów: J.S. Armstrong, M. Adya oraz F. Collopy, których publikacje
wytyczają trendy badawcze Ğrodowiska skupionego wokół International Journal of Forecasting.
W tym artykule skupiono siĊ na sformułowaniu metody wykrywania wzorców danych
rzeczywistych prezentowanych w szeregu czasowym. Na wstĊpie dane te poddano procedurze
rozmycia. Wykryte zostały wzorce sekwencji literałów, które w sposób rozmyty opisują
powtarzające siĊ tendencje w badanym ciągu danych. Wyniki te posłuĪą w nastĊpnych badaniach
do sformułowania reguł predykcji krótkoterminowej trendu.
WejĞciem jest zbiór danych lingwistycznych, wykreowanych za pomocą logiki rozmytej,
opisujący przebieg trendu tzw. benchmarku giełdowego. Jako materiał badawczy posłuĪył zestaw
danych głównego indeksu GPW tj. WIG z lat 2000–2008. Rysunek 1 przedstawia te dane
w postaci wykresu poglądowego.
80000
70000
60000
50000
40000
30000
20000
10000
2008-07-14
2008-02-21
2007-10-01
2007-05-15
2006-12-20
2006-08-03
2006-03-14
2005-10-14
2005-05-31
2005-01-07
2004-08-23
2004-04-02
2003-11-13
2003-07-01
2003-02-10
2002-09-18
2002-04-30
2001-12-06
2001-07-20
2001-02-28
2000-10-10
2000-05-24
2000-01-03
0
Rys. 1. WIG z lat 2000–2008
W tabeli 1 zostały zgromadzone dane Ĩródłowe WIG. Zawierają one standardowe informacje
z dnia sesji, tj. kurs otwarcia, kurs zamkniĊcia, wartoĞü maksymalną i minimalną oraz zmianĊ kursu w stosunku do wartoĞci z dnia poprzedniego. WartoĞci zmiany kursu (tj. kolumna Zmn. w tabeli
1) zostały przekształcone na wartoĞci lingwistyczne (tj. kolumna Fuzzy w tabeli 1). Reguły
rozmycia dobrano na podstawie wiedzy eksperckiej oraz eksperymentów. Nie są one, zatem stałe
i bĊdą zaleĪne od konkretnego szeregu danych.
48
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
Tabela 1. Dane ródłowe WIG
2. Formalne ujcie problemu
W poszukiwaniach wzorców trendu posłuĪymy siĊ odległoĞcią Hamminga oraz
czĊstotliwoĞcią. Rozpoczniemy od przedstawienia pojĊü i wzorów matematycznych
wykorzystanych w naszym zagadnieniu.
Symbolem A oznaczmy skoĔczony zbiór literałów. ZałóĪmy, Īe dany jest zestaw literałów
opisujących w sposób rozmyty ciąg C = c1, c2, . . . , cn nad A, tzn. ci ∈A dla i = 1, . . . , n. LiczbĊ
naturalną n nazywamy długoĞcią ciągu.
Przez m-wzorzec rozumiemy dowolny fragment ciągu o długoĞci m, 1 ≤ m ≤ n. Tak wiĊc,
w C moĪna wyróĪniü (n ෥ m + 1) takich fragmentów o postaciach ci ci+1 . . . ci+m−1, przy czym i =
1, . . . , n෥m+1. Zatem, liczba róĪnych m-wzorców jest ograniczona z góry przez (n ෥m + 1).
Przypomnijmy, Īe odległoĞü d Hamminga pomiĊdzy wzorcami B = b1 . . . bm oraz D = d1 . . .
dm, dana jest wzorem
(1)
d ( B, D ) =
# {j : b j ≠ d j
∧ 1 ≤ j ≤ m}
m
Mówimy, Īe m-wzorzec B wystĊpuje z dokładnoĞcią (1෥) (krócej: (1෥)-wystĊpuje) w ciągu
C od pozycji j-tej, jeĞli
∃j ∈ {1,..., n − m + 1} d ( B, c j ...c j + m −1 ) < δ
CzĊstotliwoĞü f(⋅,⋅) wystĊpowania m-wzorca B, z dokładnoĞcią (1෥), w ciągu C okreĞlamy
nastĊpującym wzorem
(2)
f ( B, C ) =
# {j : d ( B, c j ...c j + m −1 ) < δ
∧ 1 ≤ j ≤ n − m + 1}
n − m +1
Jacek Czerniak, Iwona Filipowicz
Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego
49
Niech k bĊdzie wartoĞcią kroku, 1 k << n, natomiast q czĊĞcią całkowitą ilorazu n − m + k .
k
Teraz bĊdziemy badaü (1−) -wystĊpowanie m-wzorców w ciągu C w odniesieniu do kroku k.
Symbolem fk(y, y) oznaczmy czĊstotliwoĞü wzglĊdem kroku k. ĝciĞlej ujmując, jest to
czĊstotliwoĞü (1෥)-wystĊpowania m-wzorca B w ciągu C od pozycji jk+1, gdzie j przebiega
zbiór ^0, 1, . . . , q෥1`. Zatem, uwzglĊdniając krok k wzór (2) przyjmuje postaü
(3)
f k ( B, C ) =
# {j : d ( B, c j⋅k +1 ...c j⋅k + m ) < δ
∧ 0 ≤ j ≤ q − 1}
q
Wybierzmy liczbĊ naturalną m taką, Īe 1 m <<n. WeĨmy dowolny m-wzorzec B z ciągu C.
Ustalmy procentowe wsparcie S oraz procentowy próg wiarygodnoĞci T. W naszym algorytmie
ramka wypełniona wzorcem B przesuwa siĊ po ciągu C z krokiem k, z lewa na prawo poczynając
od pozycji pierwszej. Dla kaĪdego j = 0, 1,..., q෥1 fragment cj·k+1…cj·k+m jest porównywany
z ramką w sensie odległoĞci Hamminga okreĞlonej wzorem (1). JeĞli wielkoĞü
(1෥d(B, cj·k+1…cj·k+m))y100% jest wiĊksza od wsparcia S, to uznajemy fragment cj·k+1…cj·k+m za
”waĪny", poniewaĪ wspiera wystĊpowanie B z procentową dokładnoĞcią S. Dla danego wzorca B
zliczamy ”waĪne” fragmenty posługując siĊ wzorem (3). JeĞli wartoĞü fk(B,C)y100% przekracza
próg wiarygodnoĞci T, to uznajemy wzorzec B za S-wystĊpujący w ciągu C z zadowalającą
czĊstotliwoĞcią.
Wynikiem działania algorytmu jest wyszukanie wszystkich m-wzorców wystĊpujących
w ciągu C z dokładnoĞcią osiągającą, co najmniej wsparcie S oraz procentową czĊstotliwoĞcią
przewyĪszającą próg wiarygodnoĞci T.
3. Algorytm
Metodyka poszukiwania wzorców trendu została przedstawiona na rysunku 2. Na początku
nastĊpuje wprowadzenie zestawu danych lingwistycznych opisujących przebieg trendu w badanym
okresie. W celu przyspieszenia poszukiwaĔ dane zostają przekonwertowane do postaci
numerycznej. NastĊpnie do pamiĊci wprowadzamy parametry:
• m – rozmiar ramki,
• S – wsparcie podane w procentach,
• T – próg wiarygodnoĞci podany w procentach,
• k – wielkoĞü kroku.
Wyniki poĞrednie zostały przypisane zmiennym q, s, P oraz Z. Znaczenie wielkoĞci ramki jest
zgodne z intuicyjną interpretacją. Parametr wsparcie okreĞla procentową minimalną zgodnoĞü
badanych podciągów trendu z tymczasowym wzorcem zapisanym w ramce. Próg wiarygodnoĞci
toĪsamy jest z iloĞcią podciągów trendu, które spełniły postulat minimalnego wsparcia.
Dany jest ciąg literałów opisujący w sposób rozmyty pewien szereg czasowy, np. „ucdducduccuudcuucd…”, którego symbole oznaczają odpowiednio u – up, c – constans, d – down.
ZałóĪmy, Īe szereg składa siĊ z n elementów naleĪących do zbioru {u, c, d}. Poszukiwanie
wzorców przebiega według nastĊpujących kroków:
50
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
• ustalenie rozmiaru ramki – m,
• pobranie m kolejnych elementów z szeregu podstawowego do ramki – wzorca,
• ustalenie kroku k, o jaki przesuwamy ramkĊ począwszy od lewego skrajnego elementu
szeregu aĪ do (n-m+k)–tego elementu szeregu podstawowego. Przesuwanie odbywa siĊ z krokiem
k, gdzie k∈{1, 2, …,m}, tzn. pierwsza pozycja ustawienia ramki w szeregu wynosi 1, druga
pozycja ustawienia ramki w szeregu wynosi (k+1), itd.
STAR
Wczytanie trendu
zapisanego lingwistycznie
Konwersja danych do
postaci numerycznej
Ustawienie parametrów
poszukiwaĔ:
ƒRozmiar ramki (m),
ƒWsparcie (S),
ƒPróg wiarygodnoĞci (T).
Zainicjowanie ramkiwzorca i poszukiwanie
ramek podobnych
STOP
Prezentacja
populacji wynikowej
TAK
Koniec
poszukiwaĔ?
NIE
Rys. 2. Uogólniony algorytm rozpoznawania wzorców
Wyliczenie wartoĞci q, która jest maksymalną liczbą wystąpieĔ m-wzorca w szeregu
podstawowym o długoĞci n w odniesieniu do kroku k, tzn. q jest czĊĞcią całkowitą ilorazu
n−m+k .
k
KaĪda pozycja ramki porównywana jest z odpowiednią pozycją m-elementowego fragmentu
szeregu podstawowego. JeĪeli pozycje są równe to zliczamy je w zmiennej s. Zatem, s okreĞla
liczbĊ takich samych pozycji w ramce oraz m-elementowym fragmencie szeregu. Zmienna
s
P = ⋅100% opisuje procentową zgodnoĞü ramki wzorca z badanym aktualnie fragmentem
m
szeregu podstawowego.
Ustalenie wsparcia S. JeĞli P ≥ S, to zwiĊkszamy o 1 wartoĞü zmiennej Z. Zatem, Z okreĞla liczbĊ
S-wystąpieĔ aktualnego wzorca w szeregu.
Jacek Czerniak, Iwona Filipowicz
Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego
Ustalenie progu wiarygodnoĞci T. JeĪeli
,
Z
⋅ 100% ≥ T
q
51
to wypisujemy ramkĊ poniewaĪ procentowa
liczba jej S-wystąpieĔ w szeregu podstawowym przekroczyła próg wiarygodnoĞci T.
PowyĪsze operacje powtarzamy dla kaĪdej ramki o rozmiarze m. ZawartoĞü ramki powstaje
z kolejnych m elementów szeregu podstawowego zaczynając od 1-elementu dla ramki pierwszej,
od 2-elementu dla ramki drugiej, itd. W przypadku nie znalezienia w szeregu podstawowym
Īadnej ramki o poziomie wsparcia S rozmiar ramki zmniejszany o 1 i algorytm startuje od
początku. Po-zwala to rozszerzyü algorytm o poszukiwania wzorców najczĊĞciej wystĊpujących,
bądĨ „najlepszych” wartoĞci parametru T. MoĪliwoĞü uzmiennienia rozmiaru ramki zezwala
równieĪ na szukanie wzorców o rozmiarach mieszczących siĊ w ustalonym przedziale, np. od m1
do m2.
4. Eksperyment
Do przeprowadzenia eksperymentów poszukiwania wzorców został stworzony program
komputerowy. Działa on zgodnie z algorytmem przedstawionym w poprzednim paragrafie. Dane
przechodzą proces przetwarzania, aby w efekcie uĪytkownik mógł zapoznaü siĊ z listą wzorców.
Przykładowy zrzut ekranu, jaki widzi uĪytkownik aplikacji przedstawiono na rysunku 3.
W wyniku działania programu uĪytkownik moĪe przeĞledziü uzyskane wzorce. Przed kaĪdą
grupą wzorców wystĊpują parametry FS, S oraz T oznaczające odpowiednio:
• FS – rozmiar ramki,
• S – wsparcie podane w procentach,
• T – próg wiarygodnoĞci,
• ~X – liczba wystąpieĔ wzorca B w szeregu C, tzn. ~X = fk (B, C)•q,
• |X – liczba zgodnych pozycji wzorca B z badanymi q fragmentami szeregu C, tzn.
q
|X =
# {j :
b j = ci⋅ k + j
∧ 1 ≤ j ≤ m}.
i =1
Rys. 3. Zrzut ekranu programu do poszukiwania wzorców trendu
52
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
Rys. 4 przedstawia kilka przykładowych wyników uzyskanych dla róĪnych parametrów
wejĞciowych FS, S oraz T.
Widoczne na rysunku 4 kodowe oznaczenia ze zbioru trójelementowego {1,0,1} są skutkiem
implementacji symboliki opisanej w poprzednim paragrafie i oznaczającej odpowiednio „1”– up,
„0” – constans, „–1”– down. Ta zmiana została podyktowana wyłącznie chĊcią przyspieszenia
obliczeĔ.
Rys. 4. Wyszukane wzorce trendu
5. Analiza i interpretacja wyników
Wyniki poszukiwania wzorców w rozmytym szeregu czasowym uzyskanym po przetworzeniu
danych indeksu WIG bez wstĊpnej segmentacji były trudne do interpretacji. Załamanie
koniunktury pod koniec 2007 roku czyniło je bardzo przybliĪonym. Ostatecznie zdecydowano siĊ
na zastosowanie wstĊpnej eksperckiej segmentacji trendu. Na podstawie komentarzy doradców
inwestycyjnych przygotowywanych dla klientów indywidualnych i dostĊpnych w archiwach
portali internetowych wyodrĊbniono cztery podokresy badanego szeregu oznaczone odpowiednio
literami od A do D. W sposób wizualny podział ten zaprezentowano na rysunku 5.
Na podstawie wyników tabeli 2 widaü, Īe wzorce zostały znalezione w kaĪdym
z wyodrĊbnionych segmentów trendu. Przy czym w wiĊkszoĞci przypadków wzorce wykryte
w początkowym odcinku segmentu, znajdywały wsparcie takĪe w dalszej jego czĊĞci. Ta
prawidłowoĞü trąciła na sile w odcinkach bezpoĞrednio poprzedzających zmianĊ trendu. Dobre
wsparcie w wiĊkszoĞci segmentów uzyskiwały wzorce na poziomie 5% długoĞci segmentu.
W badanym zestawie danych umoĪliwiło to tygodniową predykcjĊ trendu, co dla indeksu
giełdowego wydaje siĊ byü wynikiem interesującym.
Zaobserwowano równieĪ taką prawidłowoĞü, iĪ w segmentach bezpoĞrednio związanych
z załamaniem siĊ koniunktury, iloĞü wykrywanych wzorców była mniejsza. W powyĪej tabeli
pokazano tylko zestawienie wzorców, które uzyskiwały minimum 80% zgodnoĞci
w odpowiadającym im fragmentom badanego szeregu. Ten próg zgodnoĞci był maksymalny dla
Jacek Czerniak, Iwona Filipowicz
Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego
53
naszego szeregu i reprezentowany we wszystkich segmentach. Wzorce przekraczające 90%
zgodnoĞci zaobserwowano tylko w dwóch pierwszych segmentach szeregu. Zestawienie
porównawcze dla całego rozpatrywanego okresu obejmującego recesjĊ nie było moĪliwe na tym
poziomie.
80000
70000
D
60000
C
50000
40000
30000
B
A
20000
10000
2008-09-19
2008-07-04
2008-04-14
2008-01-23
2007-10-29
2007-08-09
2007-05-22
2007-02-27
2006-12-06
2006-09-18
2006-06-29
2006-04-05
2006-01-06
2005-10-17
2005-07-28
2005-05-10
2005-02-15
2004-11-29
2004-09-08
2004-06-22
2004-03-30
2004-01-12
2003-10-17
2003-08-01
2003-05-14
2003-02-20
2002-11-28
2002-09-09
2002-06-20
2002-03-27
2002-01-08
2001-10-15
2001-07-26
2001-05-08
2001-02-13
2000-11-22
2000-09-04
2000-06-14
2000-03-21
2000-01-03
0
Rys. 5. WIG z lat 2000–2008 z trendem
Tabela 2. Wzorce o zgodnoci min 80% wraz z iloci wystpie i sumarycznym wsparciem
54
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
6. Wnioski i kierunki dalszych bada
Przedstawione powyĪej doĞwiadczenia stanowiły pierwszy krok do bardziej precyzyjnych badaĔ nad wykrywaniem prawidłowoĞci w trendach. Kolejnym etapem bĊdzie przejĞcie
z uproszczonego modelu danych wejĞciowych {up, const., down} do modelu opracowanego w IBS
i opisanego w pracach [3],[4],[7],[8]. Pozwoli to na rezygnacjĊ z segmentacji eksperckiej na
korzyĞü automatycznej segmentacji trendu, oraz wyszukiwanie wzorców składających siĊ
z pewnej iloĞci segmentów, co nie jest zadaniem trywialnym. W tym rodzaju opisu trendu
zastosowano nastĊpujące miary:
• duration ∈ {short, medium, long},
• dynamics ∈ decresing, constant, incresing},
• variability ∈ {low,high}.
Jako, Īe jest to przejĞcie od płaskiego jednowymiarowego opisu trendu do oĞmiu wymiarów,
z których kaĪdy jest wyraĪony liczbą rozmytą, wydaje siĊ celowe zastosowanie wizualizacji dla
lepszej percepcji rzeczywistoĞci. KaĪdy z oĞmiu parametrów wycinka trendu odłoĪony jest na
innym boku oĞmiokąta foremnego. SzerokoĞü podstaw powstałych trójkątów jest wprost
proporcjonalna do wartoĞci funkcji przynaleĪnoĞci danego parametru opisanego liczbą rozmytą.
IdeĊ tĊ przedstawia rysunek 6.
Rys. 6. Wizualizacja opisu trendu 8D
Strzałka pokazuje kierunek przejĞcia od tabeli opisującej wycinek trendu do myĞlenia
geometrycznego. Wzorzec bĊdzie, zatem zbiorem oĞmiokątów foremnych i takie zestawy bĊdą ze
sobą porównywane w miejsce przytoczonych powyĪej „ramek”. Innym alternatywnym sposobem
wizualizacji fragmentów trendu moĪe byü stoĪek o podstawie oĞmiokąta foremnego. W jego
wierzchołku zbiegaü siĊ bĊdą przeskalowane linie reprezentujące wartoĞci funkcji przynaleĪnoĞci
do poszczególnych atrybutów. Wydaje siĊ, Īe takie wizualizowanie metod segmentacji pozwoli na
lepszą interpretacjĊ wyników dla potrzeb prognozowania regułowego.
Jacek Czerniak, Iwona Filipowicz
Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego
55
%LEOLRJUDILD
[1] Adya M., Corrections to rule-base forecasting: findings from a replication, International
Journal of Forecasting, 16, 2000, pp. 125–128.
[2] Adya M., Collopy F., Amstrong J., Kennedy M., Automatic identification of time series
features for rule-base forecasting, International Journal of Forecasting, 17, pp. 143–157.
[3] Kacprzyk J., Wilbik A., ZadroĪny S., On some types of linguistic summaries of time seties,
in: Proceedings of 3rd International IEEE Conference Intelligent Systems, London, UK,
Sept. 4–6, 2006, IEEE Press, pp. 373–378.
[4] ZadroĪny S., Kacprzyk J., On the use of linguistic summaries for text categorization, in:
Proceedings of IPMU’2004 – International Conference on Information Processing and
Management of Uncertainty in Knowledge-based Systems, 2004, vol. 2, pp. 1373–1380.
[5] Li Wei, Eamonn J., Semi-supervised time series classification, KDD 2006, pp. 748–753.
[6] Xiaopeng Xi, Eamonn J., Shelton C., Li Wei, Chotirat A, Fast time seriesclassification using
numerosity reduction, ICML 2006, pp. 1033–1040.
[7] Kacprzyk J., Wilbik A., Using Fuzzy Linguistic Summaries for the Comparison of Time
Series: an application to the analysis of investment fund quotations, IFSA/EUSFLAT Conf.
2009, pp. 1321–1326.
[8] Kacprzyk J., Wilbik A., ZadroĪny S., Linguistic summarization of time series using a fuzzy
quantifier driven aggregation, Fuzzy Sets and Systems 159 (12) 2008, pp. 1485–1499.
[9] Adya, M., Armstrong, J. S., Collopy, F., & Kennedy, M.. An application of rule-based
forecasting to a situation lacking domain knowledge, International Journal of Forecasting, 16
(2000), pp. 477–484.
[10] Armstrong J.S., Findings from evidence-based forecasting: Methods for reducing forecast
error, International Journal of Forecasting 22 (2006), pp. 583–598.
[11] Armstrong, J.S., Adya M. & Collopy F., Rule-based forecasting: Using judgment in timeseries extrapolation, in J.S. Armstrong (ed.), Principles of Forecasting. Norwell, MA:
Kluwer Academic Publishers, 2001.
56
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
DETECTION OF FUZZY PATTERNS IN TRENDS
FOR RULE BASE FORECASTING PURPOSES
Summary
The article deals with the search for patterns in trends. Authors of the study
proposed the method for detection of patterns in trends noted in linguistic way.
Linguistic variables assume their values as a result of calculations applied in the
fuzzy logic domain. Hence source data are subject to fuzzyfication in the first phase.
The following determined parameters decide on the trend sequence similarity level:
the frame size of the pattern, the percentage conformity of the trend sequence with
regard to the frame determined at the beginning, the reference level indicating the
minimum (threshold) number of trend fragments compliant with the frame, the
frequency of pattern occurrence. It is natural that patterns determined this way are
characterized by different support and by different similarity factors both for the
whole as well as for individual components. A special computer programme
designed to search patterns has been developed for the purpose of this study. As the
research material, authors used the set of data of the main WSE index, i.e. WIG from
the years 2000–2008. This preliminary study constitutes the initial phase of
development of the rule base forecasting method and this shall be the direction of
future research.
Keywords: trend, rule base forecasting, pattern detection.
Jacek Czerniak
Instytut BadaĔ Systemowych PAN
ul. Newelska 6, 01-447 Warszawa
Iwona Filipowicz
Instytut Techniki UKW
ul. Chodkiewicza 30, 85-064 Bydgoszcz
e-mail: [email protected]
[email protected]