streszczenie rozprawy doktorsk-48

Transkrypt

streszczenie rozprawy doktorsk-48
Streszczenie rozprawy doktorskiej
Linguistic summaries of time series using fuzzy sets and their
application for performance analysis of investment funds
(Podsumowania lingwistyczne szeregów czasowych z użyciem zbiorów rozmytych i
ich zastosowanie do analizy notowań wartości funduszu inwestycyjnego)
mgr inż. Anna Wilbik
1
Wprowadzenie
W pracy rozważamy niektóre aspekty wspomagania podejmowania decyzji w kontekście inwestycji finansowych, w szczególności funduszy inwestycyjnych. Rozważamy następującą
sytuację. Decydent musi podjąć decyzję, ile pieniędzy oraz w jaki fundusz (lub ogólniej,
w jaki instrument finansowy) ma zainwestować. Jego decyzja jest oparta na różnych aspektach oraz dostępnej informacji, a także na jego doświadczeniu, nastawieniu (głównie w
sensie skłonności do ryzyka), intuicji, itp. Te ostatnie kwestie, które dotyczą bardziej kognitywnych lub psychologicznych aspektów podejmowania decyzji, nie będą tutaj rozważane.
Decyzje inwestycyjne dotyczą oczywiście przyszłości (w sensie wyników), ale są oparte na
wiedzy i percepcji teraźniejszości oraz przeszłości, które – w przeciwieństwie do przyszłości
– są znane.
Decydent dysponuje obiektywną informacją o notowaniach funduszy inwestycyjnych,
czyli o cenach jednostki funduszu, dla pewnego okresu w przeszłości. Dodatkowo, może
dysponować wynikami analiz statystycznych szeregu czasowego utworzonego z tych notowań, danymi makroekonomicznymi, kursami wymiany walut, itp. Może także posiadać
dodatkową wiedzę, wynikającą z doświadczenia, analiz nieformalnych, innych źródeł informacji, intuicji, itp., która jest przykładem tzw. wiedzy niejawnej (ang. tacit knowledge)
trudnej do wyartykułowania i przekazania innym, w przeciwieństwie do wiedzy jawnej
(ang. explicit knowledge), która jest „obiektywna”, możliwa do wyrażenia przy pomocy
słów, liczb, znaków, czy też symboli oraz obrazów.
Te przeszkody mogą sprawić, że użycie tradycyjnych, formalnych narzędzi do podej-
1
mowania decyzji będzie trudne, a nawet niemożliwe. Skutecznym rozwiązaniem może
być zastosowanie paradygmatu wspomagania podejmowania decyzji (ang. decision support paradigm), por. np. książka Holsappla i Whinstona [5] lub strona Dana Powera
http://DSSResources.com. Zasadniczo zakłada on, że decydent jest autonomiczny, w
tym sensie, że ostateczna decyzja należy do niego, a analityk (w naszym przypadku, proponowana metoda) wspiera tylko decydenta, a nie zastępuje go. Możemy więc dostarczyć
dodatkową informację, zapewnić gląd w dane, wizualizację i werbalizację danych, itp., które
mogą okazać się pomocne podczas podejmowania decyzji.
W naszym kontekście zakładamy, że dla decydenta ważne są – po pierwsze – przeszłe
wyniki funduszu inwestycyjnego, oraz – po drugie – porównanie tych wyników z jego benchmarkiem. Istotną kwestią jest to, czy zachowanie się notowań funduszu podążało za notowaniami założonego benchmarku w pewnym okresie, oczywiście dobrze by było, gdyby
był lepszy. To znaczy chcemy ocenić ich podobieństwo.
W niniejszej pracy poświęcono głównie uwagę analizie przeszłych wartości notowań funduszu inwestycyjnego. Można tutaj zacytować wiele znanych opinii wiodących ekspertów
i guru z dziedziny finansów i inwestowania. McGowan stwierdza [18]: „W zasadzie, wyniki
funduszu inwestycyjnego są porównywane z benchmarkiem. Względne stopy zwrotu mierzą,
czy fundusz dobrze działał w porównaniu z benchmarkiem. Względne stopy zwrotu są
ważne, ponieważ informują inwestorów, czy otrzymują to, za co płacą – zysk większy niż
oferuje benchmark. . . Fundusze są zarządzanie tak, aby uzyskać zakładany zysk. Celem
absolutnej stopy zwrotu jest bycie zawsze powyżej zera, niezależnie od rynku. I niezależnie
od benchmarków”.
Można przytoczyć wiele innych, podobnych w duchu cytatów. W pracy rozpatrujemy
zarówno bezwzględne jak względne stopy zwrotu.
W pracy zaproponowano zastosowanie podsumowań lingwistycznych dla szeregów czasowych, używając idei zaproponowanej przez Yagera [19, 20, 21], Kacprzyka [7], Kacprzyka
i Yagera [11], oraz Kacprzyka, Yagera i Zadrożnego [12, 13], Kacprzyka i Zadrożnego [15,
14], rozszerzając ją na kontekst dynamiczny, czyli szeregów czasowych. Podsumowania
szeregów czasowych, które proponujemy, są w rzeczywistości podsumowaniami trendów
(segmentów) zidentyfikowanych jako odcinki przez metodę kawałkami liniowej aproksymacji szeregów czasowych. Proponowane podsumowania lingwistyczne są zasadniczo interpretowane jako proporcje liczby elementów posiadających pewne własności. Takie pod-
2
sumowania, jak na przykład „among all segments, most are short” (czyli: wśród wszystkich
segmentów, większość jest krótkich) lub w bardziej zaawansowanej formie „among all long
segments, most are slowly increasing” (wśród wszystkich długich segmentów, większość jest
wolno rosnących) mogą zostać łatwo zinterpretowane przy użyciu rachunku zdań z kwantyfikatorami lingwistycznymi Zadeha [23]. Najważniejszym elementem tej interpretacji jest
kwantyfikator lingwistyczny, tutaj „most” (większość), który jest interpretowany jako proporcja elementów posiadających pewną własność (np. długość segmentu) do wszystkich
rozważanych elementów (np. wszystkich segmentów).
W pracy przedstawiamy również nową metodę porównywania szeregów czasowych za
pomocą podsumowań lingwistycznych. Ta metoda opiera się na założeniu, że jeżeli równocześnie występujące segmenty mogą zostać opisane przez takie same cechy, to szeregi czasowe zbudowane z tych segmentów są podobne. Rozszerzając tę ideę, zaproponowano
metodę oceny podobieństwa dwóch szeregów czasowych jako podobieństwo podsumowań
lingwistycznych opisujących te szeregi.
Celem pracy jest propozycja i dogłębna analiza numeryczna metody otrzymywania
obszernej, „globalnej” charakterystyki szeregów czasowych za pomocą podsumowań lingwistycznych z elementami logiki rozmytej, która jest narzędziem służącym do zapewnienia
prostej i skutecznej reprezentacji, radzącej sobie z nieprecyzyjnością znaczeń, tak charakterystyczną dla języka naturalnego. Co więcej, zaproponowane metody zostały zaimplementowane w postaci systemu komputerowego, który jest używany do obszernej analizy
notowań funduszu inwestycyjnego, porównania z benchmarkiem i innymi indeksami giełdowymi. Ta analiza obejmuje analizę wielokryterialną podsumowań lingwistycznych i w
tym celu używamy zarówno podstawowej metody średniej ważonej (wagi mogą zostać
określone przez ekspertów) jak i bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP zaproponowanej przez Figueirę, Greco i Słowińskiego [4]. Nasze podejście jest skierowane głównie na użycie idei
leżących u podłoża paradygmatu Zadeha [24] „obliczeń na słowach” (ang. computing with
words), zwłaszcza w perspektywie generowania języka naturalnego (NLG - ang. natural
language generation), jak pokazano u Kacprzyka and Zadrożnego [16, 17].
Podstawowa teza pracy jest wyrażona w następujący sposób:
Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wygenerowane używając aparatu logiki rozmytej. Takie podsumowania mogą być
3
użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości
notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez
porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania
lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno
metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za
pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego
podejmowania decyzji, a mianowicie metody GRIP1 może zostać skutecznie
zastosowana do oceny i wyboru najlepszych podsumowań.
Ta bardzo ogólna teza może zostać uzupełniona przez dokładny opis tego, co zostało
zrobione:
• zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozszerzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera
i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych,
• zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform
w sensie Zadeha,
• pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym
(a mianowicie, rachunku zdań Zadeha z kwantyfikatorami liongwistycznymi, operatorów uporządkowanej średniej ważonej (OWA), całek Choqueta i Sugeno) podczas
tworzenia podsumowań lingwistycznych szeregów czasowych,
• użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adaptując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe,
• zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono sposoby i kryteria jego oceny,
• zaproponowano nową metodę porównywania szeregów czasowych przez porównywania ich podsumowań lingwistycznych,
• zaproponowano zastosowanie zarówno bezpośredniej metody średniej ważonej jak i
wielokryterialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco
i Słowińskiego [4].
1
Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4].
4
2
Segmentacja szeregu czasowego
Jako trend cząstkowy (segment) rozumiemy zachowanie się ciągu czasowego w sensie wzrostu
lub spadku, z pewną intensywnością, lub przyjmowanie stałych wartości na pewnym odcinku czasu.
Wśród metod do analizy trendów cząstkowych można wyróżnić dwie główne grupy. W
pierwszym przypadku, rodzaja trendów (np. rosnący, stały, malejący) są z góry określone.
Najbardziej popularne metody są oparte na wykrywaniu zmian znaku pierwszej i drugiej
pochodnej funkcji aproksymującej punkty należące do ciągu czasowego [3]. W drugim
przypadku, nie ma wcześniej ustalonych wzorców. Dlatego też wzorce są wykrywane automatycznie, za pomocą np. analizy skupień [6].
Do wyznaczania trendów cząstkowych w pracy stosuje się 5 algorytmów opartych na
tzw. strategii „on-line, „bottom-up” i „top-down”.
Trendy częstkowe (segmenty), rozumiane jako zachowanie się ciągu odcinków przybliżających szeregi czasowe, charakteryzujemy za pomocą trzech cech:
• dynamiki zmian,
• czasu trwania,
• zmienności,
które poniżej omówimy.
2.1
Dynamika zmian
Pod pojęciem dynamika zmian rozumiemy szybkości zmian wartości ciągu czasowego.
Możemy opisać ją jako nachylenie linii (odcinka), reprezentującej trend, czyli kąt nachylenia.
Powyższa procedura może prowadzić do zbyt dużej liczby możliwych nachyleń odcinków
odpowiadającym segmentom. Dlatego proponuje się zastosowanie granulacji wartości nachyleń, spełniającej oczekiwania użytkowania i wymagania zadania. W tym przypadku
użytkownik może sam zbudować skalę lingwistyczną opisujacą różne nachylenia linii reprezentującej trend. Na przykład, użytkownik może stworzyć następującą skalę:
• szybko malejący,
• malejący,
• wolno malejący,
5
• stały,
• wolno rosnący,
• rosnący,
• szybko rosnący.
Oczywiście, można wybrać większą lub mniejszą liczbę określeń lingwistycznych, ale
zgodnie z tzw. magiczneą liczbą Milera, 7 ± 2, jest dobrym wyborem, ponieważ ma uzasadnienie psychologiczne.
Rysunek 1 przedstawia nachylenia i odpowiadające im przykładowe określenia lingwistyczne (por. [1, 2]).
Rysunek 1: Graficzna reprezentacja przykładowych określeń lingwistycznych dynamiki
zmian
Odwzorowujemy więc pojedynczą wartość η, opisującą dynamikę zmian trendu zidentyfikowanego za pomocą wybranej metody, w określenie lingwistyczne (a więc w odpowiadający mu zbiór rozmyty), które najlepiej pasuje do danego kąta. Wtedy powiemy, że dany
trend jest na przykład „malejący w stopniu 0,8”, jeżeli µmalejacy (η) = 0.8, gdzie µmalejacy
jest funkcją przynależności zbioru rozmytego reprezentującego „malejący”, która najlepiej
pasuje dla kąta η opisującego rozważany trend.
6
2.2
Czas trwania
Czas trwania opisuje długość pojedyńczego trendu. I to też będziemy traktować jak
zmienną lingwistyczną. Na przykład, wartość lingwistyczna „długi” zdefiniowana jako zbiór
rozmyty, dla którego można przyjąć, że funkcja przynależności jest pokazana na Rysunku 2,
gdzie oś OX jest osią czasu mierzonego w jednostkach, które są używane w rozpatrywanym
ciągu czasowym.
Rysunek 2: Przykład funkcji przynależności zbioru rozmytego reprezentującego „długi” dla
czasu trwania
Właściwa definicja pojęć lingwistycznych opisujących czas trwania zależy od perspektywy przyjętej prze użytkownika. Użytkownik analizując dane może przyjąć ten lub inny
horyzont czasowy w zależności od swoich potrzeb.
2.3
Zmienność
Zmienność wskazuje na to, jak bardzo grupa danych (w sensie przyjmowanych wartości)
„ jest rozrzucona”. Tradycyjnie stosuje się pięć statystycznych miar zmienności:
• Zakres (ang. range), czyli „wartość maksymalna – wartość minimalna”. Chociaż
zakres jest obliczeniowo najłatwiejszą miarą zmienności, nie jest często używany,
ponieważ miara ta jest oparta tylko na wartości dwóch skrajnych punktów. Przez
to miara ta jest bardzo wrażliwa na obecność punktów oddalonych i dlatego może
niepoprawnie opisywać prawdziwą zmienność;
• Rozstęp międzykwartylowy (ang. the interquartile range (IQR)) obliczany jako
trzeci kwartyl minus pierwszy kwartyl, i może być interpretowany jako środkowe
50% danych. Ta miara zmienności jest odporna na obecność punktów oddalonych, a
obliczeniowo jest tak samo łatwa jak zakres.
• Wariancja jest obliczana jako 1/n
P
i (xi
7
− x̄)2 , gdzie x̄ jest wartością średnią;
• Odchylenie standardowe, czyli pierwiastek kwadratowy z wariancji; zarówno wariancja jak i odchylenie standardowe są wrażliwe na obecność skrajnych wartości;
• Średnie odchylenie absolutne (ang. the mean absolute deviation (MAD)), obP
liczane jako 1/n i |xi − x̄|. Miara ta ma bardzo prostą interpretację intuicyjną jako
„średnie odchylenie od średniej”.
W pracy przyjmujemy, podobnie jak dla dynamiki zmian, że stopień zmienności jest
również określony jako jedna z przyjętych 7±2 wartości lingwistycznych. A zatem, do
określenia stosujemy zmienności jedną z metod statystycznych, a otrzymany wynik utożsamiamy z najbliższym mu określeniem lingwistycznym.
3
Podsumowania lingwistyczne
3.1
Podsumowania lingwistyczne danych numerycznych
Podsumowanie lingwistyczne jest rozumiane jako zdanie przypominające zdanie w
języku naturalnym, które określa istotę (z pewnego punktu widzenia) zbioru danych.
Przyjmuje się, że zbiór danych jest numeryczny i zwykle duży, przez co niezrozumiały
dla człowieka.
Jednym z najprostszych i najbardziej intuicyjnie zrozumiałych podejść do lingwistycznych podsumowań danych numerycznych jest podejście Yagera (por. Yager [19], Kacprzyk
i Yager [11] oraz Kacprzyk, Yager i Zadrożny [12]). Przyjmuje się w nim następujące oznaczenia:
• Y = {y1 , . . . , yn } jest zbiorem obiektów (rekordów) w bazie danych, np. zbiór pracowników;
• A = {A1 , . . . , Am } jest zbiorem atrybutów opisujących obiekty z zbioru Y , np. pensja, wiek, i tym podobne w bazie danych pracowników, a Aj (yi ) oznacza wartość
atrybutu Aj dla obiektu yi .
Podsumowanie lingwistyczne zbioru danych D składa się z:
• sumaryzatora (ang. summarizer ) P , czyli atrybutu razem z wartością lingwistyczną określoną dla dziedziny atrybutu Aj (np. „mała” dla atrybutu „pensja”);
8
• kwantyfikatora (ang. quantity in agreement ) Q, lingwistycznego (np. „większość”);
• stopnia prawdy T podsumowania, to jest liczby z przedziału [0, 1] określającej
stopień prawdziwości podsumowania (np. 0.7); zwykle, będą nas interesować tylko
podsumowania z dużą wartością T ;
• Ponadto, może być również kwalifikator (ang. qualifier ) R, czyli kolejny atrybut
razem z wartością lingwistyczną określoną dla dziedziny atrybutu Ak określający
pewien podzbiór rozmyty w Y , do którego odnosi się sumaryzator (np. „młody” dla
atrybutu „wiek”).
Podsumowanie lingwistyczne można więc zilustrować na następującym przykładzie:
T (większość pracowników zarabia mało) = 0.7
(1)
a bardziej złożona forma może zawierać kwalifikator („młodych”), np.:
T (większość młodych pracowników zarabia mało) = 0.82
(2)
Zatem, istotą podsumowań lingwistycznych jest zdanie z kwantyfikatorami lingwistycznymi w sensie Zadeha [23], które dla zdania (1) można zapisać jako:
Qy są P
(3)
QRy są P
(4)
a dla zdania (2) jako:
Stopień prawdy T odpowiada stopniowi prawdy zadania (3) lub (4).
Zwykle przyjmuje się, że kwantyfikator lingwistyczny Q – proporcjonalny i niemalejący,
bo takie są istotne w naszym kontekście – jest zbiorem rozmytym w [0, 1], jak na przykład:



1
for x > 0.8


µQ (x) =
(5)
2x − 0.6 for 0.3 < x < 0.8



 0
for x < 0.3
Wtedy, stopnie prawdy (z [0, 1]) zdań (3) i (4) są obliczane, odpowiednio, jako:
!
n
1X
µP (yi )
n
T (Qy’s are P ) = µQ
(6)
i=1
T (QRy’s are P ) = µQ
Pn
(µP (yi ) ∧ µS (yi ))
i=1P
n
i=1 µR (yi )
9
(7)
3.2
Podsumowania lingwistyczne szeregów czasowych
Pojęcie protoformy, zaproponowane przez Zadeha [25], jest bardzo wygodnym narzędziem
podczas pracy nad podsumowaniami lingwistycznymi, tak jak sugerowali to Kacprzyk i
Zadrożny [15]. Dlatego też zostało użyte w niniejszej pracy. Protoforma jest pewnym
prototypem (szablonem) zdania z kwantyfikatorem lingwistycznym.
Protoformy są niezwykle użyteczne z wielu powodów, ponieważ umożliwiają opracowanie ogólnych narzędzi i technik dla różnych stwierdzeń dotyczących wielu dziedzin i
problemów, a ich forma jest zrozumiała dla ekspertów dziedzinowych.
Podsumowania mogą więc zostać przedstawione za pomocą poniższych protoform (podajemy tu oryginalne sformułowania angielskojęzyczne użyte w pracy):
• protoforma prosta:
Among all segments, Q are P
(8)
np.: „Among all segments, most are slowly increasing”, czyli wśród wszystkich segmentów, większość jest wolno rosnąca.
• protoforma rozszerzona:
Among all R segments, Q are P
(9)
np.: „Among all short segments, most are slowly increasing”, czyli wśród wszystkich
krótkich segmentów, większość jest wolno rosnąca.
Możemy rozszerzyć protoformy (8) i (9) dodając do nich wyrażenie określające czas,
ET , jak: „ostatnio”, „początkowo” lub „w maju 2010”, itp. (cf. Kacprzyk, Wilbik [10]).
Takie protoformy temporalne mają następującą postać:
• protoforma prosta:
ET among all segments, Q are P
(10)
np.: „Recently, among all segments, most are slowly increasing”, czyli ostatnio wśród
wszystkich segmentów, większość jest wolno rosnąca.
• protoforma rozszerzona:
ET among all R segments, Q are P
(11)
np.: „Initially, among all short segments, most are slowly increasing” czyli początkowo
wśród wszystkich krótkich segmentów, większość jest wolno rosnąca.
10
Aby ocenić jakość podsumowań lingwistycznych możemy użyć kryteriów oceny jakości
zaadaptowanych z przypadku statystycznego. Oprócz podstawowego kryterium – stopnia prawdy – w pracy zastosowano kilka miar zaproponowanych w pracach Kacprzyka i
Strykowskiego [9, 8], Kacprzyka i Yagera [11] oraz Yagera, Forda i Canasa [22]. Zaproponowano również kilka nowych kryteriów, wśród których stopień zogniskowania odgrywa
istotną rolę podczas generacji podsumowań.
Podsumowania lingwistyczne oceniamy według następujących kryteriów:
• stopień prawdy (truth value),
• stopień niedokładności (degree of imprecision),
• stopień specyficzności (degree of specificity),
• stopień rozmytości (degree of fuzziness),
• stopień liczności [degree of covering (support)],
• stopień zogniskowania (degree of focus),
• stopień trafności (degree of appropriateness),
• miara informatywności (measure of informativeness),
• długość podsumowania (length of the summary).
Do efektywniejszego tworzenia podsumowań opracowaliśmy algorytm oparty na ogólnej
zasadzie typu „dziel i zwyciężaj”.
W rezultacie otrzymujemy zbiór prawdziwych podsumowań lingwistycznych. Z tego
zbioru możemy wybrać podzbiór najlepszych podsumowań na podstawie kryteriów oceny
jakości podsumowań. W tym celu możemy znaleźć podsumowania, których wartości oceny
są Pareto-optymalne, lub zastosować tradycyjną metodę ważonych średnich.
Inna możliwość to użycie algorytmu GRIP, zaproponowanego przez Figueirę, Greco i
Słowińskiego [4]. Metoda ta znajduje relacje preferencji dla pary rozważanych opcji (w
naszym przypadku podsumowań), jak również informacje o intensywności tych preferencji.
Metoda GRIP buduje zbiór funkcji oceny zgodnych z informacją o preferencjach w
postaci częściowego porządku. Użytkownik udostępnia informacje dotyczącą swoich preferencji, czyli:
11
• częściowy porządek %, gdzie x % y oznacza „x jest przynajmniej tak dobre jak y”,
• częściowy porządek %∗ , gdzie (x, y) %∗ (w, z) oznacza „x jest lepsze niż y przynajmniej w takim stopniu jak w jest lepsze niż z”,
• częściowy porządek %∗i , gdzie (x, y) %∗i (w, z) oznacza „x jest lepsze niż y przynajmniej w takim stopniu jak w jest lepsze niż z dla kryterium ci ”.
gdzie x, y, w, z są opcjami. Zatem informacja o preferencjach nie musi byc kompletna.
Co więcej dostępny jest częściowy porządek %i , gdzie x %i y oznacza „x jest przynajmniej tak dobre jak y dla kryterium ci ”, dostępne bezpośrednio z oceny opcji x i y dla tego
kryterium [4].
Ta informacja jest reprezentowana przez zbiór liniowych ograniczeń. Następnie algorytm próbuje znaleźć funkcję oceny (funkcję użyteczności marginalnej dla każdego kryterium) zgodną z tymi preferencjami. Kiedy preferencje są spójne, tzn. istnieje przynajmniej jedna taka funkcja, algorytm tworzy między innymi graf rankingowy. Szczegóły
algorytmu dostępne są w pracy Figueiry, Greco i Słowińskiego [4].
4
Porównanie szeregów czasowych
W pracy zaproponowano również dwie nowe metody porównywania szeregów czasowych
opartych na idei „miękkiego” konsensusu w grupie agentów.
W pierwszej z tych metod stopień podobieństwa dwóch szeregów czasowych jest rozumiany jako stopień, do którego np. „większość” długich, jednocześnie występujących segmentów jest podobna (tzn. np. „przynajmniej połowa” ich cech jest podobna).
Druga metoda zakłada, że jeżeli szeregi są opisane przez podobne podsumowania lingwistyczne, wtedy można uznać, że są one podobne. Zatem stopień podobieństwa dwóch
szeregów czasowych jest obliczany jako stopień, do którego np. „większość” ważnych podsumowań lingwistycznych jednego z szeregów ma wartości stopnia prawdy podobne do
„przynajmniej połowy” podobnych podsumowań opisujących drugi z szeregów.
5
Wyniki numeryczne
Przeprowadzono wyczeropujace badania numeryczne zaproponowanych metod i algorytmów na rzeczywistych szeregach czasowych notowań funduszu inwestycyjnego. Wybrano
12
fundusz akcji, który inwestuje przynajmniej 66% udziałów w akcje notowane na Warszawskiej Giełdzie Papierów Wartościowych.
Fundusz został założony w kwietniu 1998, początkowo jego benchmarkiem był indeks
WIG 20, a od stycznia 2002 benchmarkiem dla tego funduszu jest indeks WIG. Ponieważ
w 2002 roku zmieniła się strategia funduszu, w naszych testach analizowaliśmy notowania
funduszu od początku stycznia 2002 do grudnia 2009.
Wykres notowań funduszu został pokazany na Rysunku 3.
Mutual fund quotations
45
30
15
0
02-01-2002
02-01-2004
02-01-2006
02-01-2008
04-01-2010
Rysunek 3: Wykres notowań funduszu
Wartość jednej jednostki 2 stycznia 2002 wynosiła 12,06 zł, a 31 grudnia 2009 – 35,82
zł. Minimalna cena jednostki w tym okresie to 9,35 zł, zaś maksymalna to 57,85 zł.
Warszawski Indeks Giełdowy WIG to pierwszy indeks giełdowy i jest obliczany od
16 kwietnia 1991 roku. WIG obejmuje wszystkie spółki notowane na Giełdzie Papierów
Wartościowych w Warszawie (GPW), które spełniają pewne kryteria. W indeksie WIG
obowiązuje zasada dywersyfikacji, mająca na celu ograniczenie udziału pojedynczej spółki
i sektora giełdowego. Jest on indeksem dochodowym i przy jego obliczaniu uwzględnia się
zarówno ceny zawartych w nim akcji, jak i dochody z dywidend i praw poboru.
Wykres historycznych notowań indeksu WIG jest pokazany na Rysunku 4.
Warszawski Indeks Giełdowy Dużych Spółek WIG 20 jest obliczany od 16 kwietnia
1994 roku na podstawie wartości portfela akcji 20 największych i najbardziej płynnych
spółek z podstawowego rynku akcji. WIG 20 jest indeksem typu cenowego, co oznacza,
że przy jego obliczaniu bierze się pod uwagę jedynie ceny zawartych w nim transakcji, a
nie uwzględnia się dochodów z akcji (dywidend, praw poboru). W indeksie WIG 20 nie
mogą uczestniczyć spółki z indeksów mWIG40 i sWIG80 oraz więcej niż 5 spółek z jednego
13
WIG index quotations
60000
45000
30000
15000
0
02-01-2002
02-01-2004
02-01-2006
02-01-2008
04-01-2010
Rysunek 4: Wykres historycznych notowań indeksu WIG (wartości zamknięcia)
sektora giełdowego.
Wykres historycznych notowań indeksu WIG 20 jest pokazany na rysunku 5.
WIG20 quotations
3000
1500
0
02-01-2002
02-01-2004
02-01-2006
02-01-2008
04-01-2010
Rysunek 5: Wykres historycznych notowań indeksu WIG 20 (wartości zamknięcia)
Więcej informacji na temat indeksów WIG oraz WIG 20 można znaleźć na stronach
GPW (www.gpw.pl).
W eksperymentach używano różnych metod segmentacji oraz różnej granulacji, a mianowicie z 3, 5 oraz 7 etykietami lingwistycznymi dla każdego atrybutu (długości, dynamiki
zmian i zmienności).
W pierwszej kolejności przedstawimy wyniki dotyczące efektywności algorytmu generującego podsumowania lingwistyczne. Zakładamy, że minimalna akceptowana wartość stopnia prawdy to 0,75, a stopnia zogniskowania to 0,1. Użyto kwantyfikatora lingwistycznego
„większość”.
W Tabeli 1 zestawiono liczby wszystkich możliwych podsumowań lingwistycznych oraz
14
Tablica 1: Liczba wszystkich możliwych podsumowań lingwistycznych oraz utworzonych i
sprawdzonych przez algorytm
liczba
liczba wszystkich
liczba utworzonych
atrybutów
możliwych podsumowań
i sprawdzonych przez algorytm
3
5
7
prosta
rozszeżona
prosta
rozszeżona
protoforma
protoforma
protoforma
protoforma
63
216
9
81
23.8%
31.0%
15
145
7.0%
16.1%
21
210
4.1%
8.9%
215
511
900
2352
utworzonych i sprawdzonych przez algorytm.
W innych testach numerycznych otrzymano podobne wartości.
Przykładowe podsumowania lingwistyczne pokazane są w Tabeli 2 dla podsumowań
klasycznych oraz w Tabeli 3 dla podsumowań temporalnych.
Przyjrzyjmy się teraz pierwszemu podsumowaniu z Tabeli 2: „Among all segments,
at least about a half are constant”, czyli „wśród wszystkich segmentów, przynajmniej
połowa jest stała”. Podsumowanie to, typu prostego, ma bardzo wysoką wartość stopnia prawdy (T ), równą 1.0. Nie jest zbyt precyzyjne, o czym świadczą wyższa wartość
stopnia niedokładności (di ) i niższa stopnia specyficzności (ds ) niż innych podsumowań.
Podsumowanie to ma bardzo dużą wartość stopnia liczności (dc ), świadczącą o tym, że
około 60% wszystkich segmentów jest mniej lub bardziej stałych. Wartość stopnia trafności
(da ) jest równa 0.0 ponieważ to podsumowania ma długość (dl ) równą 1, tzn. ma tylko
jedną wartość lingwistyczną. Podsumowanie to niesie dużo informacji, ponieważ miara
informatywności (I) jest stosunkowo wysoka.
Dla przykładu z Tabeli 3 przeanalizujmy podsumowanie oznaczone identyfikatorem
„a10”: „from the crisis beginning among all medium segments, almost all are constant”, czyli
„od początku kryzysu wśród wszystkich segmentów o średniej długości, prawie wszystkie
segmenty są stałe”. Początek krysysu określono jako mniej więcej wrzesień 2007. To
podsumowanie ma również bardzo wysoki stopień prawdy. Jest podsumowaniem typu
15
Tablica 2: Wyniki dla protoformy klasycznej i 5 etykiet – segmentacja za pomocą metody opartej na stożkach dla ε = 1
id
1∗
2∗
3
4
5
6
7
8
9∗
16
10
11
12∗
13∗
14∗
15
16∗
17
18
19
linguistic summary
Among all segments, at least about a half are constant
Among all short segments, at least about a half are constant
Among all moderate segments, at least about a half are short
Among all moderate segments, at least about a half are constant
Among all high segments, at least about a half are short
Among all high segments, at least about a half are constant
Among all medium segments, almost all are constant
Among all medium segments, at least about a half are very
high
Among all medium and constant segments, at least about a
half are very high
Among all short and moderate segments, at least about a half
are constant
Among all slowly decreasing segments, at least about a half
are short
Among all medium segments, at least about a half are constant and very high
Among all constant segments, at least about a half are very
high
Among all decreasing segments, most are very short
Among all short and high segments, at least about a half are
constant
Among all very high segments, most are constant
Among all medium and very high segments, almost all are
constant
Among all slowly increasing segments, most are short
Among all short and very high segments, most are constant
T
1.0000
1.0000
1.0000
1.0000
df oc
1.0000
0.4411
0.2625
0.2625
di
0.4090
0.2977
0.3750
0.4060
ds
0.6425
0.7425
0.6892
0.6617
df
0.0655
0.0553
0.1033
0.1103
dc
0.6045
0.2563
0.1420
0.1527
da
0.0000
0.0413
0.1049
0.0238
dl
1
2
2
2
I
0.3655
0.1520
0.0736
0.0671
1.0000
1.0000
1.0000
1.0000
0.2451
0.2451
0.2433
0.2433
0.3417
0.3727
0.2310
0.3583
0.7225
0.6950
0.8325
0.7042
0.1033
0.1103
0.0937
0.1000
0.1526
0.1465
0.2243
0.1396
0.1778
0.0067
0.3089
0.1715
2
2
2
2
0.0785
0.0717
0.1402
0.0736
1.0000
0.2243
0.3481
0.7042
0.0770
0.1211
0.1629
3
0.1376
1.0000
0.1420
0.3304
0.6617
0.0553
0.0872
0.0446
3
0.0852
1.0000
0.1115
0.2883
0.7518
0.0553
0.0715
0.0895
2
0.0396
0.9857
0.2433
0.3528
0.7042
0.0853
0.1211
0.1629
3
0.1460
0.9365
0.6045
0.3393
0.7117
0.0770
0.2965
0.2252
2
0.1759
0.9307
0.8970
0.1184
0.1526
0.3563
0.3227
0.7333
0.6950
0.0960
0.0553
0.0906
0.0739
0.2545
0.0222
2
3
0.0400
0.0872
0.8924
0.8405
0.3974
0.1396
0.3560
0.2267
0.7533
0.8325
0.1353
0.0853
0.2965
0.1211
0.2252
0.1629
2
3
0.1426
0.1362
0.8124
0.7942
0.1324
0.1419
0.3050
0.3302
0.7935
0.7533
0.1137
0.1137
0.0935
0.0989
0.1404
0.0183
2
3
0.0495
0.0955
Tablica 3: Wyniki dla protoformy temporalnej z wyrażeniem temporalnym „od poczatku kryzysu (from the crisis beginning)” dla 5 etykiet
– segmentacja za pomocą metody opartej na stożkach dla ε = 1
id
a1∗
a2∗
a3∗
a4∗
a5
a6
a7
17
a9∗
a10
a11
a12
a13
a14
a15∗
a16
a17
linguistic summary
from the crisis beginning among all segments, at least about a half
are constant
from the crisis beginning among all constant segments, at least
about a half are short
from the crisis beginning among all short segments, at least about
a half are constant
from the crisis beginning among all very high segments, at least
about a half are constant
from the crisis beginning among all very high segments, at least
about a half are short
from the crisis beginning among all moderate segments, at least
about a half are constant
from the crisis beginning among all high segments, at least about
a half are constant
from the crisis beginning among all high segments, at least about
a half are short
from the crisis beginning among all medium segments, almost all
are constant
from the crisis beginning among all short and very high segments,
at least about a half are constant
from the crisis beginning among all slowly decreasing segments, at
least about a half are short
from the crisis beginning among all short and moderate segments,
at least about a half are constant
from the crisis beginning among all slowly increasing segments, at
least about a half are short
from the crisis beginning among all short and slowly decreasing
segments, at least about a half are high
from the crisis beginning among all decreasing segments, most are
very short
from the crisis beginning among all moderate segments, at least
about a half are short
T
1.0000
df oc
1.0000
di
0.3893
ds
0.5450
df
0.1603
dc
0.2821
da
0.0000
dl
2
I
0.2083
1.0000
0.5006
0.3107
0.6444
0.1290
0.1429
0.0929
3
0.0983
1.0000
0.4600
0.3107
0.6444
0.1290
0.1429
0.0929
3
0.0903
1.0000
0.3458
0.3420
0.6213
0.1452
0.1099
0.0877
3
0.0612
1.0000
0.3458
0.3188
0.6419
0.1400
0.0995
0.0697
3
0.0671
1.0000
0.3075
0.3920
0.5838
0.1703
0.0983
0.0818
3
0.0448
1.0000
0.2496
0.3670
0.6088
0.1702
0.0802
0.0697
3
0.0416
1.0000
0.2496
0.3438
0.6294
0.1650
0.0765
0.0838
3
0.0456
1.0000
0.2273
0.2608
0.7119
0.1578
0.1186
0.3865
3
0.0746
1.0000
0.1765
0.3226
0.6213
0.1290
0.0635
0.1872
4
0.0659
1.0000
0.1617
0.3037
0.6514
0.1290
0.0570
0.1070
3
0.0328
1.0000
0.1485
0.3353
0.5838
0.1290
0.0524
0.1529
4
0.0508
1.0000
0.1453
0.3037
0.6514
0.1290
0.0525
0.1052
3
0.0295
1.0000
0.1011
0.3506
0.6158
0.1650
0.0286
0.1017
4
0.0359
0.9887
0.1438
0.3548
0.6375
0.1595
0.0644
0.2704
3
0.0294
0.8850
0.3075
0.3688
0.6044
0.1650
0.0837
0.0280
3
0.0435
rozszerzonego, i jego stopień zogniskowania (df oc ) jest równy prawie 0,23, zatem warunek
kwalifikatora spełnia prawie 23% segmentów. To podsumowanie jest bardziej konkretne
niż inne podsumowania, o czym świadczą niższa wartość stopnia niedokładności (di ) i
wyższa stopnia specyficzności (ds ) niż innych podsumowań. Podsumowanie to może być
zaskakujące dla użytkownika, ponieważ stopień trafności (da ) jest równy prawie 0,39.
Ponieważ każde podsumowanie jest oceniane przez kilka miar oceny jakości podsumowań,
możemy wykorzystać te wartości aby wybrać podzbiór najlepszych podsumowań. W tym
celu możemy znaleźć podsumowania Pareto optymalne, posłużyć się średnią ważoną lub
użyć algorytmu GRIP (zaproponowanego przez Figueira, Greco and Słowińskiego [4]).
Przedstawimy teraz jedynie zastosowanie algorytmu GRIP na przykładzie podsumowań
lingwistycznych pokazanych w Tabeli 2. W pierwszej kolumnie Tabeli 2 pokazany jest identyfikator zdania. Podsumowania podzielono na dwie grupy: podsumowania bardziej interesujące dla użytkownika (czyli o numerach 1, 2, 9, 12, 13, 14 i 16) oraz mniej ciekawe. Podsumowania oznaczone gwiazdką (przy identyfikatorze) należą do pierwszej grupy bardziej
interesujących podsumowań. Zatem są one bardziej preferowane przez użytkownika, niż te
z grupy drugiej.
Dodatkowo, określono następujące preferencje pomiedzy podsumowaniami z pierwszej
grupy:
• podsumowanie 1 jest preferowane bardziej niż podsumowanie 2,
• podsumowanie 1 jest preferowane bardziej niż podsumowanie 7,
• podsumowanie 1 jest preferowane bardziej niż podsumowanie 16.
W tym przykładzie naszymi kryteriami były tylko stopień prawdy, stopień zogniskowania,
liczności, trafności oraz miara informatywności.
Podane preferencje nie są sprzeczne i otrzymano następujące wyniki.
Rysunek 6 przedstawia używany w metodzie GRIP graf rankingowy. Węzły reprezentują podsumowania, oznaczone liczbami od 1 do 19. Niebieskie strzałki to preferencje
określone przez użytkownika, czarne zaś oznaczają relacje wyindukowane przez system
GRIP.
W tym przykładzie są to:
• 13 jest preferowane bardziej niż 16,
• 7 jest preferowane bardziej niż 9,
• 7 jest preferowane bardziej niż 14,
18
Rysunek 6: Graf rankingowy
• 3 jest preferowane bardziej niż 11
• 5 jest preferowane bardziej niż 6,
• 5 jest preferowane bardziej niż 8,
• 8 jest preferowane bardziej niż 11,
• 8 jest preferowane bardziej niż 18,
• 17 jest preferowane bardziej niż 18.
Pierwsze 3 preferencje dotyczą podsumowań z pierwszej grupy, która zawiera podsumowania oznaczone jako bardziej interesujące.
Na Rysunku 7 pokazano ranking, oparty na funkcji użyteczności, otrzymany z użyciem
algorytmu GRIP.
Można zauważyć, że wszystkie podsumowania z pierwszej grupy są wyżej w rankingu,
niż podsumowania z drugiej grupy. Funkcje użyteczności marginalnej dla poszczególnych
kryteriów są pokazane na Rysunku 8.
Możemy zauważyć, że najważniejszym kryterium jest miara informatywności, drugim
najważniejszym kryterium jest stopień trafności, a trzecim – stopien zogniskowania. Pozostałe dwa kryteria wydają się mieć mniejsze znaczenie.
Powyższe podsumowania, wraz z informację o preferencjach, można traktować jako
„zbiór uczący”. Wystarczy dodać nowy zbiór podsumowań, np. pokazany w Tabeli 3, aby
otrzymać ich częściowe uporządkowanie, zgodne z podanymi wcześniej preferencjami. W
pierwszej kolumnie znajduje się identyfikator podsumowania (litera „a” i kolejny numer).
Te podsumowania również podzielono na 2 grupy: pierwszą, zawierającą bardziej in19
Rysunek 7: Ranking podsumowań lingwistycznych
Rysunek 8: Funkcje użyteczności marginalnej dla poszczególnych kryteriów
20
teresujące podsumowania, oznaczone gwiazdką (a1, a2, a3, a4, a9, a15), oraz drugą, zawierającą mniej interesujące.
Rysunek 9 przedstawia graf rankingowy. Węzły niebieskie, oznaczone numerami od 1 do
19, reprezentują podsumowania ze „zbioru uczącego”, natomiast czerwone, oznaczone jako
„a1” – „a16”, reprezentują nowe podsumowania ze „zbioru testującego”. Niebieskie strzałki
reprezentują preferencje podane wyżej. Czarne strzałki to preferencje wyindukowane przez
system GRIP.
Rysunek 9: Graf rankingowy
Można zauważyć, że żadne z podsumowań z drugiej grupy nie jest preferowane bardziej
niż jakiekolwiek z grupy pierwszej, bardziej interesującej.
Można również zauważyć kilka interesujących preferencji dla podsumowań ze „zbioru
testującego”, np.:
• a2 jest preferowane bardziej niż a3,
• a3 jest preferowane bardziej niż a4,
• a9 jest preferowane bardziej niż a15, itp.
Można również zauważyć, że zachodzą relacje preferencji pomiędzy podsumowaniami
ze zbiorów „uczącego” i „testującego”, na przykład:
• 1 jest preferowane bardziej niż a1,
21
• 7 jest preferowane bardziej niż a15,
• a3 jest preferowane bardziej niż 11, etc.
Te wyniki są zachęcające, ponieważ otrzymaliśmy graf z wieloma czarnymi krawędziami
reprezentującymi wyindukowane preferencje, co jest rzadkie, ale bardzo pożądane.
Rysunek 10: Ranking podsumowań lingwistycznych
Na Rysunku 10 pokazano ranking na podstawie funkcji użyteczności. W tym rankingu
prawie wszystkie podsumowania, które są uważane za interesujące, są wyżej w rankingu
niż te mniej interesujące. Jedynym wyjątkiem jest podsumowanie „a5” należące do drugiej
grupy, które znajduje się w rankingu wyżej niż 2 podsumowania z pierwszej grupy, mianowicie „a4” i „a15”.
Przedstawimy teraz kilka wyników dotyczących oceny podobieństwa funduszu i jego
benchmarku.
Porównujemy zbiór kilkunastu najbardziej prawdziwych, tzn. z minimalną wartością
stopnia prawdy równą 0,75 oraz stopnia zogniskowania 0,1, podsumowań klasycznej protoformy opisujących fundusz z podobnymi zbiorami najbardziej prawdziwych podsumowań
opisujących indeksy odpowiednio WIG i WIG 20. Agregując stopnie podobieństw podsumowań otrzymujemy stopień podobieństwa funduszu i indeksu.
22
Zatem stopień podobieństwa pomiędzy funduszem a indeksem WIG jest równy 0,9807,
podczas gdy dla funduszu i indeksu WIG 20 jest on równy 0,9760.
Możemy również porównać temporalne podsumowania lingwistyczne. Wtedy stopień
podobieństwa pomiędzy wartościami dziennych notowań wartości funduszu a indeksu WIG
jest równy 0,9674, podczas gdy dla funduszu i indeksu WIG 20 jest równy 0,9596, zatem
różnica jest nieco bardziej widoczna, niż w przypadku porównania na podstawie klasycznych podsumowań. Dodatkowo można obliczyć stopnie podobieństwa dla poszczególnych
okresów. W naszym przypadku są one pokazane w Tabeli 4.
Tablica 4: Stopnie podobieństwa między notowaniami funduszu a indeksami giełdowymi
dla wyrażeń temporalnych
stopień podobieństwa
stopień podobieństwa
funduszu i WIGu
funduszu i WIGu 20
initially
0.9554
0.9609
in the middle
0.9369
0.9280
wyrażenie temporalne
from the crisis begin
6
1
0.9702
Podsumowanie
W pracy:
• zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozszerzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera
i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych,
• zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform
w sensie Zadeha,
• pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym
(a mianowicie, rachunek zdań Zadeha z kwantyfikatorami lingwistycznymi, operatory uporządkowanej średniej ważonej (OWA), całki Choqueta i Sugeno) podczas
tworzenia podsumowań lingwistycznych szeregów czasowych,
• użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adaptując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe,
23
• zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono sposoby i kryteria jego oceny,
• zaproponowano nową metodę porównywania szeregów czasowych przez porównywania ich podsumowań lingwistycznych,
• zaproponowano zastosowanie do wielokryterialnej oceny podsumowań lingwistycznych
szeregów czasowych zarówno bezpośredniej metody średniej ważonej jak i wielokryterialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco i Słowińskiego [4].
Pokazano więc, że teza pracy:
Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wygenerowane używając aparatu logiki rozmytej. Takie podsumowania mogą być
użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości
notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez
porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania
lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno
metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za
pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego
podejmowania decyzji, a mianowicie metody GRIP2 może zostać skutecznie
zastosowana do oceny i wyboru najlepszych podsumowań,
jest prawdziwa.
Literatura
[1] I. Batyrshin and L. Sheremetov. Perception based functions in qualitative forecasting. In
I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors, Perception-based Data
Mining and Decision Making in Economics and Finance. Springer-Verlag, Berlin and Heidelberg, 2006.
[2] I. Batyrshin, L. Sheremetov, and R. Herrera-Avelar. Perception based patterns in time series data mining. In I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors,
Perception-based Data Mining and Decision Making in Economics and Finance. SpringerVerlag, Berlin and Heidelberg, 2006.
2
Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4].
24
[3] J. Colomer, J. Melendez, J. L. de la Rosa, and J. Augilar-Martin. A qualitative/quantitative
representation of signals for supervision of continuous systems. In Proceedings of the European
Control Conference -ECC97, Brussels, 1997.
[4] J. R. Figueira, S. Greco, and R. Słowinski. Building a set of additive value functions representing a reference preorder and intensities of preference: Grip method. European Journal of
Operational Research, 195(2):460–486, 2009.
[5] C. Holsapple and A. Whinston. Decision Support Systems: A Knowldege-based Approach.
Minneapolis: West Publishing, 1996.
[6] F. Höppner. Knowledge Discovery from Sequential Data. PhD thesis, TU Braunschweig, 2003.
[7] J. Kacprzyk. Intelligent data analysis via linguistic data summaries: a fuzzy logic approach.
In R. Decker and W. Gaul, editors, Classification and Information Processing at the Turn of
Millennium, pages 153–161. Springer-Verlag, Berlin, Heidelberg, New York, 2000.
[8] J. Kacprzyk and P. Strykowski. Linguistic data summaries for intelligent decision support.
In R. Felix, editor, Proceedings of EFDAN’99-4th European Workshop on Fuzzy Decision
Analysis and Recognition technology for Management, pages 3–12, 1999.
[9] J. Kacprzyk and P. Strykowski. Linguistic summaries of sales data at a computer retailer: a
case study. In Proceedings of IFSA’99, volume 1, pages 29–33, 1999.
[10] J. Kacprzyk and A. Wilbik. Temporal linguistic summaries of time series using fuzzy logic.
In Proceedings of IPMU2010 (in press), 2010.
[11] J. Kacprzyk and R. R. Yager. Linguistic summaries of data using fuzzy logic. International
Journal of General Systems, 30:33–154, 2001.
[12] J. Kacprzyk, R. R. Yager, and S. Zadrożny. A fuzzy logic based approach to linguistic summaries of databases. International Journal of Applied Mathematics and Computer Science,
10:813–834, 2000.
[13] J. Kacprzyk, R. R. Yager, and S. Zadrożny. Fuzzy linguistic summaries of databases for
an efficient business data analysis and decision support. In J. Z. W. Abramowicz, editor,
Knowledge Discovery for Business Information Systems, pages 129–152. Kluwer, Boston, 2001.
[14] J. Kacprzyk and S. Zadrożny. Fuzzy linguistic data summaries as a human consistent, user
adaptable solution to data mining. In B. Gabrys, K. Leiviska, and J. Strackeljan, editors,
Do Smart Adaptive Systems Exist?, pages 321–339. Springer, Berlin, Heidelberg, New York,
2005.
[15] J. Kacprzyk and S. Zadrożny. Linguistic database summaries and their protoforms: toward
natural language based knowledge discovery tools. Information Sciences, 173:281–304, 2005.
[16] J. Kacprzyk and S. Zadrożny. Data mining via protoform based linguistic summaries: Some
possible relations to natural language generation. In 2009 IEEE Symposium Series on Computational Intelligence Proceedings, pages 217–224, Nashville, TN, 2009.
[17] J. Kacprzyk and S. Zadrożny. Computing with words is an implementable paradigm: fuzzy
queries, linguistic data summaries and natural language generation. IEEE Transactions on
Fuzzy Systems, 2010. (forthcoming).
[18] L. McGowan.
The answer to ‘what are absolute return mutual funds?’
depends on who you ask.
http://mutualfunds.about.com/od/typesoffunds/a/
Absolute_return_fund_basics.htm.
25
[19] R. R. Yager. A new approach to the summarization of data. Information Sciences, 28:69–86,
1982.
[20] R. R. Yager. On linguistic summaries in data. In G. Piatetsky-Shapiro and W. J. Frawley,
editors, Knowledge Discovery in Databases, pages 347–363. MIT Press, Cambridge, USA,
1991.
[21] R. R. Yager. Database discovery using fuzzy sets. International Journal of Intelligent Systems,
11(9):691–712, 1996.
[22] R. R. Yager, K. M. Ford, and A. J. Cañas. An approach to the linguistic summarization
of data. In B. Bouchon-Meunier, R. R. Yager, and L. A. Zadeh, editors, Uncertainty in
Knowledge Bases, 3rd International Conference on Information Processing and Management
of Uncertainty in Knowledge-Based Systems, IPMU ’90, Paris, France, July 2-6, 1990, Proceedings, pages 456–468. Springer, 1990.
[23] L. A. Zadeh. Toward a theory of fuzzy information granulation and its centrality in human
reasoning and fuzzy logic. Fuzzy Sets and Systems, 9(2):111–127, 1983.
[24] L. A. Zadeh. Fuzzy logic = computing with words. IEEE Transactions on Fuzzy Systems,
4:103–111, 1996.
[25] L. A. Zadeh. A prototype-centered approach to adding deduction capabilities to search engines
– the concept of a protoform. In Proceedings of the Annual Meeting of the North American
Fuzzy Information Processing Society (NAFIPS 2002), pages 523–525, 2002.
26

Podobne dokumenty