Wykrywanie rozmytych wzorców w trendach dla potrzeb
Transkrypt
Wykrywanie rozmytych wzorców w trendach dla potrzeb
WYKRYWANIE ROZMYTYCH WZORCÓW W TRENDACH DLA POTRZEB PROGNOZOWANIA REGUŁOWEGO JACEK CZERNIAK Instytut BadaĔ Systemowych PAN IWONA FILIPOWICZ Uniwersytet Kazimierza Wielkiego w Bydgoszczy Streszczenie Artykuł dotyczy zagadnienia poszukiwania wzorców w trendach. W opracowaniu zaproponowana została metoda wykrywania wzorców w trendach zapisanych w sposób lingwistyczny. Zmienne lingwistyczne przyjmuj swe wartoci w wyniku zastosowania oblicze w domenie logiki rozmytej. Nastpuje, zatem w pierwszym etapie rozmycie (ang. fuzzyfication) danych ródłowych. O poziomie podobiestwa sekwencji trendu decyduj ustalane parametry, którymi s: rozmiar ramki wzorca (ang. frame size), procentowa zgodno sekwencji trendu z ramk ustalan na wstpie, poziom odniesienia oznaczajcy minimaln liczb fragmentów trendu zgodnych z ramk (ang. threshold) oraz czsto wystpie wzorca (ang. frequency). Wykryte w ten sposób wzorce charakteryzuj si, z natury rzeczy, rónym wsparciem, oraz współczynnikami podobiestwa zarówno całoci i poszczególnych elementów. Na potrzeby niniejszego badania opracowano dedykowany program komputerowy wykonujcy poszukiwania wzorców. Jako materiał badawczy posłuył zestaw danych głównego indeksu GPW tj. WIG z lat 2000–2008. Te wstpne badania stanowi pocztek do wypracowania metod prognozowania opartego na regułach (ang. rule base forecasting) i w takim kierunku prowadzone bd dalsze dowiadczenia. Słowa kluczowe: trend, prognozowanie regułowe, rozpoznawanie wzorców. 1. Wprowadzenie Prognozowanie oparte na regułach (ang. Rule-based Forecasting, RBF) integruje dane statystyczne i wiedzĊ dziedzinową w celu wykreowania bardziej precyzyjnych metod prognozowania. MoĪna uogólniając powiedzieü, Īe RBF jest swego rodzaju systemem eksperckim, który wykorzystuje właĞciwoĞci szeregów czasowych oraz wybrane techniki ekstrapolacji danych. W pierwotnych implementacjach twórców metody reguły zostały sformułowane w oparciu o studium literaturowe, wywiady, ankiety oraz wiedzĊ dziedzinową piĊciu ekspertów ([1], [2], [9]). Kalibracja podstawowej wersji reguł nastąpiła z uĪyciem 90 szeregów czasowych, a ich walidacja z zastosowaniem kolejnych 36. W tym sensie, RBF jest systemem eksploracji wiedzy, który z powodzeniem łączy techniki statystyczne z wiedzą dziedzinową. Aktualne implementacje systemu ekspertowego zawierają ok. 100 reguł, które łączą prognozy czterech podstawowych metod ekstrapolacji tj. błądzenia losowego (ang. random walk), regresji liniowej (ang. linear regression), wygładzania wykładniczego Holt’a (ang. Holt's exponential smoothing) oraz wygładzania wykładniczego Brown’a (ang. Brown's exponential smoothing). W pracach ([9], [10], [11]) autorzy podają, iĪ zarówno wyniki niezaleĪnych badaĔ jak Jacek Czerniak, Iwona Filipowicz Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego 47 i ostatnich udziałów w M-3 Competition wykazały, Īe RBF jest dokładniejsze niĪ wiodące standardy takie jak metody błądzenia losowego bądĨ równego obciąĪenia łączy (ang. equal weights combining). Prognozowanie regułowe jest intensywnie rozwijającą siĊ dyscypliną wiedzy, która zdobywa coraz wiĊkszą rzeszĊ zwolenników. Bibliografia RBF jest powszechnie dostĊpna, a jej przywoływanie, nawet w czĊĞci, nie jest celem tej pracy. JednakĪe naleĪy wymieniü przynajmniej trójkĊ autorów: J.S. Armstrong, M. Adya oraz F. Collopy, których publikacje wytyczają trendy badawcze Ğrodowiska skupionego wokół International Journal of Forecasting. W tym artykule skupiono siĊ na sformułowaniu metody wykrywania wzorców danych rzeczywistych prezentowanych w szeregu czasowym. Na wstĊpie dane te poddano procedurze rozmycia. Wykryte zostały wzorce sekwencji literałów, które w sposób rozmyty opisują powtarzające siĊ tendencje w badanym ciągu danych. Wyniki te posłuĪą w nastĊpnych badaniach do sformułowania reguł predykcji krótkoterminowej trendu. WejĞciem jest zbiór danych lingwistycznych, wykreowanych za pomocą logiki rozmytej, opisujący przebieg trendu tzw. benchmarku giełdowego. Jako materiał badawczy posłuĪył zestaw danych głównego indeksu GPW tj. WIG z lat 2000–2008. Rysunek 1 przedstawia te dane w postaci wykresu poglądowego. 80000 70000 60000 50000 40000 30000 20000 10000 2008-07-14 2008-02-21 2007-10-01 2007-05-15 2006-12-20 2006-08-03 2006-03-14 2005-10-14 2005-05-31 2005-01-07 2004-08-23 2004-04-02 2003-11-13 2003-07-01 2003-02-10 2002-09-18 2002-04-30 2001-12-06 2001-07-20 2001-02-28 2000-10-10 2000-05-24 2000-01-03 0 Rys. 1. WIG z lat 2000–2008 W tabeli 1 zostały zgromadzone dane Ĩródłowe WIG. Zawierają one standardowe informacje z dnia sesji, tj. kurs otwarcia, kurs zamkniĊcia, wartoĞü maksymalną i minimalną oraz zmianĊ kursu w stosunku do wartoĞci z dnia poprzedniego. WartoĞci zmiany kursu (tj. kolumna Zmn. w tabeli 1) zostały przekształcone na wartoĞci lingwistyczne (tj. kolumna Fuzzy w tabeli 1). Reguły rozmycia dobrano na podstawie wiedzy eksperckiej oraz eksperymentów. Nie są one, zatem stałe i bĊdą zaleĪne od konkretnego szeregu danych. 48 POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 Tabela 1. Dane ródłowe WIG 2. Formalne ujcie problemu W poszukiwaniach wzorców trendu posłuĪymy siĊ odległoĞcią Hamminga oraz czĊstotliwoĞcią. Rozpoczniemy od przedstawienia pojĊü i wzorów matematycznych wykorzystanych w naszym zagadnieniu. Symbolem A oznaczmy skoĔczony zbiór literałów. ZałóĪmy, Īe dany jest zestaw literałów opisujących w sposób rozmyty ciąg C = c1, c2, . . . , cn nad A, tzn. ci ∈A dla i = 1, . . . , n. LiczbĊ naturalną n nazywamy długoĞcią ciągu. Przez m-wzorzec rozumiemy dowolny fragment ciągu o długoĞci m, 1 ≤ m ≤ n. Tak wiĊc, w C moĪna wyróĪniü (n m + 1) takich fragmentów o postaciach ci ci+1 . . . ci+m−1, przy czym i = 1, . . . , nm+1. Zatem, liczba róĪnych m-wzorców jest ograniczona z góry przez (n m + 1). Przypomnijmy, Īe odległoĞü d Hamminga pomiĊdzy wzorcami B = b1 . . . bm oraz D = d1 . . . dm, dana jest wzorem (1) d ( B, D ) = # {j : b j ≠ d j ∧ 1 ≤ j ≤ m} m Mówimy, Īe m-wzorzec B wystĊpuje z dokładnoĞcią (1) (krócej: (1)-wystĊpuje) w ciągu C od pozycji j-tej, jeĞli ∃j ∈ {1,..., n − m + 1} d ( B, c j ...c j + m −1 ) < δ CzĊstotliwoĞü f(⋅,⋅) wystĊpowania m-wzorca B, z dokładnoĞcią (1), w ciągu C okreĞlamy nastĊpującym wzorem (2) f ( B, C ) = # {j : d ( B, c j ...c j + m −1 ) < δ ∧ 1 ≤ j ≤ n − m + 1} n − m +1 Jacek Czerniak, Iwona Filipowicz Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego 49 Niech k bĊdzie wartoĞcią kroku, 1 k << n, natomiast q czĊĞcią całkowitą ilorazu n − m + k . k Teraz bĊdziemy badaü (1−) -wystĊpowanie m-wzorców w ciągu C w odniesieniu do kroku k. Symbolem fk(y, y) oznaczmy czĊstotliwoĞü wzglĊdem kroku k. ĝciĞlej ujmując, jest to czĊstotliwoĞü (1)-wystĊpowania m-wzorca B w ciągu C od pozycji jk+1, gdzie j przebiega zbiór ^0, 1, . . . , q1`. Zatem, uwzglĊdniając krok k wzór (2) przyjmuje postaü (3) f k ( B, C ) = # {j : d ( B, c j⋅k +1 ...c j⋅k + m ) < δ ∧ 0 ≤ j ≤ q − 1} q Wybierzmy liczbĊ naturalną m taką, Īe 1 m <<n. WeĨmy dowolny m-wzorzec B z ciągu C. Ustalmy procentowe wsparcie S oraz procentowy próg wiarygodnoĞci T. W naszym algorytmie ramka wypełniona wzorcem B przesuwa siĊ po ciągu C z krokiem k, z lewa na prawo poczynając od pozycji pierwszej. Dla kaĪdego j = 0, 1,..., q1 fragment cj·k+1…cj·k+m jest porównywany z ramką w sensie odległoĞci Hamminga okreĞlonej wzorem (1). JeĞli wielkoĞü (1d(B, cj·k+1…cj·k+m))y100% jest wiĊksza od wsparcia S, to uznajemy fragment cj·k+1…cj·k+m za ”waĪny", poniewaĪ wspiera wystĊpowanie B z procentową dokładnoĞcią S. Dla danego wzorca B zliczamy ”waĪne” fragmenty posługując siĊ wzorem (3). JeĞli wartoĞü fk(B,C)y100% przekracza próg wiarygodnoĞci T, to uznajemy wzorzec B za S-wystĊpujący w ciągu C z zadowalającą czĊstotliwoĞcią. Wynikiem działania algorytmu jest wyszukanie wszystkich m-wzorców wystĊpujących w ciągu C z dokładnoĞcią osiągającą, co najmniej wsparcie S oraz procentową czĊstotliwoĞcią przewyĪszającą próg wiarygodnoĞci T. 3. Algorytm Metodyka poszukiwania wzorców trendu została przedstawiona na rysunku 2. Na początku nastĊpuje wprowadzenie zestawu danych lingwistycznych opisujących przebieg trendu w badanym okresie. W celu przyspieszenia poszukiwaĔ dane zostają przekonwertowane do postaci numerycznej. NastĊpnie do pamiĊci wprowadzamy parametry: • m – rozmiar ramki, • S – wsparcie podane w procentach, • T – próg wiarygodnoĞci podany w procentach, • k – wielkoĞü kroku. Wyniki poĞrednie zostały przypisane zmiennym q, s, P oraz Z. Znaczenie wielkoĞci ramki jest zgodne z intuicyjną interpretacją. Parametr wsparcie okreĞla procentową minimalną zgodnoĞü badanych podciągów trendu z tymczasowym wzorcem zapisanym w ramce. Próg wiarygodnoĞci toĪsamy jest z iloĞcią podciągów trendu, które spełniły postulat minimalnego wsparcia. Dany jest ciąg literałów opisujący w sposób rozmyty pewien szereg czasowy, np. „ucdducduccuudcuucd…”, którego symbole oznaczają odpowiednio u – up, c – constans, d – down. ZałóĪmy, Īe szereg składa siĊ z n elementów naleĪących do zbioru {u, c, d}. Poszukiwanie wzorców przebiega według nastĊpujących kroków: 50 POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 • ustalenie rozmiaru ramki – m, • pobranie m kolejnych elementów z szeregu podstawowego do ramki – wzorca, • ustalenie kroku k, o jaki przesuwamy ramkĊ począwszy od lewego skrajnego elementu szeregu aĪ do (n-m+k)–tego elementu szeregu podstawowego. Przesuwanie odbywa siĊ z krokiem k, gdzie k∈{1, 2, …,m}, tzn. pierwsza pozycja ustawienia ramki w szeregu wynosi 1, druga pozycja ustawienia ramki w szeregu wynosi (k+1), itd. STAR Wczytanie trendu zapisanego lingwistycznie Konwersja danych do postaci numerycznej Ustawienie parametrów poszukiwaĔ: Rozmiar ramki (m), Wsparcie (S), Próg wiarygodnoĞci (T). Zainicjowanie ramkiwzorca i poszukiwanie ramek podobnych STOP Prezentacja populacji wynikowej TAK Koniec poszukiwaĔ? NIE Rys. 2. Uogólniony algorytm rozpoznawania wzorców Wyliczenie wartoĞci q, która jest maksymalną liczbą wystąpieĔ m-wzorca w szeregu podstawowym o długoĞci n w odniesieniu do kroku k, tzn. q jest czĊĞcią całkowitą ilorazu n−m+k . k KaĪda pozycja ramki porównywana jest z odpowiednią pozycją m-elementowego fragmentu szeregu podstawowego. JeĪeli pozycje są równe to zliczamy je w zmiennej s. Zatem, s okreĞla liczbĊ takich samych pozycji w ramce oraz m-elementowym fragmencie szeregu. Zmienna s P = ⋅100% opisuje procentową zgodnoĞü ramki wzorca z badanym aktualnie fragmentem m szeregu podstawowego. Ustalenie wsparcia S. JeĞli P ≥ S, to zwiĊkszamy o 1 wartoĞü zmiennej Z. Zatem, Z okreĞla liczbĊ S-wystąpieĔ aktualnego wzorca w szeregu. Jacek Czerniak, Iwona Filipowicz Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego Ustalenie progu wiarygodnoĞci T. JeĪeli , Z ⋅ 100% ≥ T q 51 to wypisujemy ramkĊ poniewaĪ procentowa liczba jej S-wystąpieĔ w szeregu podstawowym przekroczyła próg wiarygodnoĞci T. PowyĪsze operacje powtarzamy dla kaĪdej ramki o rozmiarze m. ZawartoĞü ramki powstaje z kolejnych m elementów szeregu podstawowego zaczynając od 1-elementu dla ramki pierwszej, od 2-elementu dla ramki drugiej, itd. W przypadku nie znalezienia w szeregu podstawowym Īadnej ramki o poziomie wsparcia S rozmiar ramki zmniejszany o 1 i algorytm startuje od początku. Po-zwala to rozszerzyü algorytm o poszukiwania wzorców najczĊĞciej wystĊpujących, bądĨ „najlepszych” wartoĞci parametru T. MoĪliwoĞü uzmiennienia rozmiaru ramki zezwala równieĪ na szukanie wzorców o rozmiarach mieszczących siĊ w ustalonym przedziale, np. od m1 do m2. 4. Eksperyment Do przeprowadzenia eksperymentów poszukiwania wzorców został stworzony program komputerowy. Działa on zgodnie z algorytmem przedstawionym w poprzednim paragrafie. Dane przechodzą proces przetwarzania, aby w efekcie uĪytkownik mógł zapoznaü siĊ z listą wzorców. Przykładowy zrzut ekranu, jaki widzi uĪytkownik aplikacji przedstawiono na rysunku 3. W wyniku działania programu uĪytkownik moĪe przeĞledziü uzyskane wzorce. Przed kaĪdą grupą wzorców wystĊpują parametry FS, S oraz T oznaczające odpowiednio: • FS – rozmiar ramki, • S – wsparcie podane w procentach, • T – próg wiarygodnoĞci, • ~X – liczba wystąpieĔ wzorca B w szeregu C, tzn. ~X = fk (B, C)•q, • |X – liczba zgodnych pozycji wzorca B z badanymi q fragmentami szeregu C, tzn. q |X = # {j : b j = ci⋅ k + j ∧ 1 ≤ j ≤ m}. i =1 Rys. 3. Zrzut ekranu programu do poszukiwania wzorców trendu 52 POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 Rys. 4 przedstawia kilka przykładowych wyników uzyskanych dla róĪnych parametrów wejĞciowych FS, S oraz T. Widoczne na rysunku 4 kodowe oznaczenia ze zbioru trójelementowego {1,0,1} są skutkiem implementacji symboliki opisanej w poprzednim paragrafie i oznaczającej odpowiednio „1”– up, „0” – constans, „–1”– down. Ta zmiana została podyktowana wyłącznie chĊcią przyspieszenia obliczeĔ. Rys. 4. Wyszukane wzorce trendu 5. Analiza i interpretacja wyników Wyniki poszukiwania wzorców w rozmytym szeregu czasowym uzyskanym po przetworzeniu danych indeksu WIG bez wstĊpnej segmentacji były trudne do interpretacji. Załamanie koniunktury pod koniec 2007 roku czyniło je bardzo przybliĪonym. Ostatecznie zdecydowano siĊ na zastosowanie wstĊpnej eksperckiej segmentacji trendu. Na podstawie komentarzy doradców inwestycyjnych przygotowywanych dla klientów indywidualnych i dostĊpnych w archiwach portali internetowych wyodrĊbniono cztery podokresy badanego szeregu oznaczone odpowiednio literami od A do D. W sposób wizualny podział ten zaprezentowano na rysunku 5. Na podstawie wyników tabeli 2 widaü, Īe wzorce zostały znalezione w kaĪdym z wyodrĊbnionych segmentów trendu. Przy czym w wiĊkszoĞci przypadków wzorce wykryte w początkowym odcinku segmentu, znajdywały wsparcie takĪe w dalszej jego czĊĞci. Ta prawidłowoĞü trąciła na sile w odcinkach bezpoĞrednio poprzedzających zmianĊ trendu. Dobre wsparcie w wiĊkszoĞci segmentów uzyskiwały wzorce na poziomie 5% długoĞci segmentu. W badanym zestawie danych umoĪliwiło to tygodniową predykcjĊ trendu, co dla indeksu giełdowego wydaje siĊ byü wynikiem interesującym. Zaobserwowano równieĪ taką prawidłowoĞü, iĪ w segmentach bezpoĞrednio związanych z załamaniem siĊ koniunktury, iloĞü wykrywanych wzorców była mniejsza. W powyĪej tabeli pokazano tylko zestawienie wzorców, które uzyskiwały minimum 80% zgodnoĞci w odpowiadającym im fragmentom badanego szeregu. Ten próg zgodnoĞci był maksymalny dla Jacek Czerniak, Iwona Filipowicz Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego 53 naszego szeregu i reprezentowany we wszystkich segmentach. Wzorce przekraczające 90% zgodnoĞci zaobserwowano tylko w dwóch pierwszych segmentach szeregu. Zestawienie porównawcze dla całego rozpatrywanego okresu obejmującego recesjĊ nie było moĪliwe na tym poziomie. 80000 70000 D 60000 C 50000 40000 30000 B A 20000 10000 2008-09-19 2008-07-04 2008-04-14 2008-01-23 2007-10-29 2007-08-09 2007-05-22 2007-02-27 2006-12-06 2006-09-18 2006-06-29 2006-04-05 2006-01-06 2005-10-17 2005-07-28 2005-05-10 2005-02-15 2004-11-29 2004-09-08 2004-06-22 2004-03-30 2004-01-12 2003-10-17 2003-08-01 2003-05-14 2003-02-20 2002-11-28 2002-09-09 2002-06-20 2002-03-27 2002-01-08 2001-10-15 2001-07-26 2001-05-08 2001-02-13 2000-11-22 2000-09-04 2000-06-14 2000-03-21 2000-01-03 0 Rys. 5. WIG z lat 2000–2008 z trendem Tabela 2. Wzorce o zgodnoci min 80% wraz z iloci wystpie i sumarycznym wsparciem 54 POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 6. Wnioski i kierunki dalszych bada Przedstawione powyĪej doĞwiadczenia stanowiły pierwszy krok do bardziej precyzyjnych badaĔ nad wykrywaniem prawidłowoĞci w trendach. Kolejnym etapem bĊdzie przejĞcie z uproszczonego modelu danych wejĞciowych {up, const., down} do modelu opracowanego w IBS i opisanego w pracach [3],[4],[7],[8]. Pozwoli to na rezygnacjĊ z segmentacji eksperckiej na korzyĞü automatycznej segmentacji trendu, oraz wyszukiwanie wzorców składających siĊ z pewnej iloĞci segmentów, co nie jest zadaniem trywialnym. W tym rodzaju opisu trendu zastosowano nastĊpujące miary: • duration ∈ {short, medium, long}, • dynamics ∈ decresing, constant, incresing}, • variability ∈ {low,high}. Jako, Īe jest to przejĞcie od płaskiego jednowymiarowego opisu trendu do oĞmiu wymiarów, z których kaĪdy jest wyraĪony liczbą rozmytą, wydaje siĊ celowe zastosowanie wizualizacji dla lepszej percepcji rzeczywistoĞci. KaĪdy z oĞmiu parametrów wycinka trendu odłoĪony jest na innym boku oĞmiokąta foremnego. SzerokoĞü podstaw powstałych trójkątów jest wprost proporcjonalna do wartoĞci funkcji przynaleĪnoĞci danego parametru opisanego liczbą rozmytą. IdeĊ tĊ przedstawia rysunek 6. Rys. 6. Wizualizacja opisu trendu 8D Strzałka pokazuje kierunek przejĞcia od tabeli opisującej wycinek trendu do myĞlenia geometrycznego. Wzorzec bĊdzie, zatem zbiorem oĞmiokątów foremnych i takie zestawy bĊdą ze sobą porównywane w miejsce przytoczonych powyĪej „ramek”. Innym alternatywnym sposobem wizualizacji fragmentów trendu moĪe byü stoĪek o podstawie oĞmiokąta foremnego. W jego wierzchołku zbiegaü siĊ bĊdą przeskalowane linie reprezentujące wartoĞci funkcji przynaleĪnoĞci do poszczególnych atrybutów. Wydaje siĊ, Īe takie wizualizowanie metod segmentacji pozwoli na lepszą interpretacjĊ wyników dla potrzeb prognozowania regułowego. Jacek Czerniak, Iwona Filipowicz Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego 55 %LEOLRJUDILD [1] Adya M., Corrections to rule-base forecasting: findings from a replication, International Journal of Forecasting, 16, 2000, pp. 125–128. [2] Adya M., Collopy F., Amstrong J., Kennedy M., Automatic identification of time series features for rule-base forecasting, International Journal of Forecasting, 17, pp. 143–157. [3] Kacprzyk J., Wilbik A., ZadroĪny S., On some types of linguistic summaries of time seties, in: Proceedings of 3rd International IEEE Conference Intelligent Systems, London, UK, Sept. 4–6, 2006, IEEE Press, pp. 373–378. [4] ZadroĪny S., Kacprzyk J., On the use of linguistic summaries for text categorization, in: Proceedings of IPMU’2004 – International Conference on Information Processing and Management of Uncertainty in Knowledge-based Systems, 2004, vol. 2, pp. 1373–1380. [5] Li Wei, Eamonn J., Semi-supervised time series classification, KDD 2006, pp. 748–753. [6] Xiaopeng Xi, Eamonn J., Shelton C., Li Wei, Chotirat A, Fast time seriesclassification using numerosity reduction, ICML 2006, pp. 1033–1040. [7] Kacprzyk J., Wilbik A., Using Fuzzy Linguistic Summaries for the Comparison of Time Series: an application to the analysis of investment fund quotations, IFSA/EUSFLAT Conf. 2009, pp. 1321–1326. [8] Kacprzyk J., Wilbik A., ZadroĪny S., Linguistic summarization of time series using a fuzzy quantifier driven aggregation, Fuzzy Sets and Systems 159 (12) 2008, pp. 1485–1499. [9] Adya, M., Armstrong, J. S., Collopy, F., & Kennedy, M.. An application of rule-based forecasting to a situation lacking domain knowledge, International Journal of Forecasting, 16 (2000), pp. 477–484. [10] Armstrong J.S., Findings from evidence-based forecasting: Methods for reducing forecast error, International Journal of Forecasting 22 (2006), pp. 583–598. [11] Armstrong, J.S., Adya M. & Collopy F., Rule-based forecasting: Using judgment in timeseries extrapolation, in J.S. Armstrong (ed.), Principles of Forecasting. Norwell, MA: Kluwer Academic Publishers, 2001. 56 POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 DETECTION OF FUZZY PATTERNS IN TRENDS FOR RULE BASE FORECASTING PURPOSES Summary The article deals with the search for patterns in trends. Authors of the study proposed the method for detection of patterns in trends noted in linguistic way. Linguistic variables assume their values as a result of calculations applied in the fuzzy logic domain. Hence source data are subject to fuzzyfication in the first phase. The following determined parameters decide on the trend sequence similarity level: the frame size of the pattern, the percentage conformity of the trend sequence with regard to the frame determined at the beginning, the reference level indicating the minimum (threshold) number of trend fragments compliant with the frame, the frequency of pattern occurrence. It is natural that patterns determined this way are characterized by different support and by different similarity factors both for the whole as well as for individual components. A special computer programme designed to search patterns has been developed for the purpose of this study. As the research material, authors used the set of data of the main WSE index, i.e. WIG from the years 2000–2008. This preliminary study constitutes the initial phase of development of the rule base forecasting method and this shall be the direction of future research. Keywords: trend, rule base forecasting, pattern detection. Jacek Czerniak Instytut BadaĔ Systemowych PAN ul. Newelska 6, 01-447 Warszawa Iwona Filipowicz Instytut Techniki UKW ul. Chodkiewicza 30, 85-064 Bydgoszcz e-mail: [email protected] [email protected]