streszczenie rozprawy doktorsk-48
Transkrypt
streszczenie rozprawy doktorsk-48
Streszczenie rozprawy doktorskiej Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds (Podsumowania lingwistyczne szeregów czasowych z użyciem zbiorów rozmytych i ich zastosowanie do analizy notowań wartości funduszu inwestycyjnego) mgr inż. Anna Wilbik 1 Wprowadzenie W pracy rozważamy niektóre aspekty wspomagania podejmowania decyzji w kontekście inwestycji finansowych, w szczególności funduszy inwestycyjnych. Rozważamy następującą sytuację. Decydent musi podjąć decyzję, ile pieniędzy oraz w jaki fundusz (lub ogólniej, w jaki instrument finansowy) ma zainwestować. Jego decyzja jest oparta na różnych aspektach oraz dostępnej informacji, a także na jego doświadczeniu, nastawieniu (głównie w sensie skłonności do ryzyka), intuicji, itp. Te ostatnie kwestie, które dotyczą bardziej kognitywnych lub psychologicznych aspektów podejmowania decyzji, nie będą tutaj rozważane. Decyzje inwestycyjne dotyczą oczywiście przyszłości (w sensie wyników), ale są oparte na wiedzy i percepcji teraźniejszości oraz przeszłości, które – w przeciwieństwie do przyszłości – są znane. Decydent dysponuje obiektywną informacją o notowaniach funduszy inwestycyjnych, czyli o cenach jednostki funduszu, dla pewnego okresu w przeszłości. Dodatkowo, może dysponować wynikami analiz statystycznych szeregu czasowego utworzonego z tych notowań, danymi makroekonomicznymi, kursami wymiany walut, itp. Może także posiadać dodatkową wiedzę, wynikającą z doświadczenia, analiz nieformalnych, innych źródeł informacji, intuicji, itp., która jest przykładem tzw. wiedzy niejawnej (ang. tacit knowledge) trudnej do wyartykułowania i przekazania innym, w przeciwieństwie do wiedzy jawnej (ang. explicit knowledge), która jest „obiektywna”, możliwa do wyrażenia przy pomocy słów, liczb, znaków, czy też symboli oraz obrazów. Te przeszkody mogą sprawić, że użycie tradycyjnych, formalnych narzędzi do podej- 1 mowania decyzji będzie trudne, a nawet niemożliwe. Skutecznym rozwiązaniem może być zastosowanie paradygmatu wspomagania podejmowania decyzji (ang. decision support paradigm), por. np. książka Holsappla i Whinstona [5] lub strona Dana Powera http://DSSResources.com. Zasadniczo zakłada on, że decydent jest autonomiczny, w tym sensie, że ostateczna decyzja należy do niego, a analityk (w naszym przypadku, proponowana metoda) wspiera tylko decydenta, a nie zastępuje go. Możemy więc dostarczyć dodatkową informację, zapewnić gląd w dane, wizualizację i werbalizację danych, itp., które mogą okazać się pomocne podczas podejmowania decyzji. W naszym kontekście zakładamy, że dla decydenta ważne są – po pierwsze – przeszłe wyniki funduszu inwestycyjnego, oraz – po drugie – porównanie tych wyników z jego benchmarkiem. Istotną kwestią jest to, czy zachowanie się notowań funduszu podążało za notowaniami założonego benchmarku w pewnym okresie, oczywiście dobrze by było, gdyby był lepszy. To znaczy chcemy ocenić ich podobieństwo. W niniejszej pracy poświęcono głównie uwagę analizie przeszłych wartości notowań funduszu inwestycyjnego. Można tutaj zacytować wiele znanych opinii wiodących ekspertów i guru z dziedziny finansów i inwestowania. McGowan stwierdza [18]: „W zasadzie, wyniki funduszu inwestycyjnego są porównywane z benchmarkiem. Względne stopy zwrotu mierzą, czy fundusz dobrze działał w porównaniu z benchmarkiem. Względne stopy zwrotu są ważne, ponieważ informują inwestorów, czy otrzymują to, za co płacą – zysk większy niż oferuje benchmark. . . Fundusze są zarządzanie tak, aby uzyskać zakładany zysk. Celem absolutnej stopy zwrotu jest bycie zawsze powyżej zera, niezależnie od rynku. I niezależnie od benchmarków”. Można przytoczyć wiele innych, podobnych w duchu cytatów. W pracy rozpatrujemy zarówno bezwzględne jak względne stopy zwrotu. W pracy zaproponowano zastosowanie podsumowań lingwistycznych dla szeregów czasowych, używając idei zaproponowanej przez Yagera [19, 20, 21], Kacprzyka [7], Kacprzyka i Yagera [11], oraz Kacprzyka, Yagera i Zadrożnego [12, 13], Kacprzyka i Zadrożnego [15, 14], rozszerzając ją na kontekst dynamiczny, czyli szeregów czasowych. Podsumowania szeregów czasowych, które proponujemy, są w rzeczywistości podsumowaniami trendów (segmentów) zidentyfikowanych jako odcinki przez metodę kawałkami liniowej aproksymacji szeregów czasowych. Proponowane podsumowania lingwistyczne są zasadniczo interpretowane jako proporcje liczby elementów posiadających pewne własności. Takie pod- 2 sumowania, jak na przykład „among all segments, most are short” (czyli: wśród wszystkich segmentów, większość jest krótkich) lub w bardziej zaawansowanej formie „among all long segments, most are slowly increasing” (wśród wszystkich długich segmentów, większość jest wolno rosnących) mogą zostać łatwo zinterpretowane przy użyciu rachunku zdań z kwantyfikatorami lingwistycznymi Zadeha [23]. Najważniejszym elementem tej interpretacji jest kwantyfikator lingwistyczny, tutaj „most” (większość), który jest interpretowany jako proporcja elementów posiadających pewną własność (np. długość segmentu) do wszystkich rozważanych elementów (np. wszystkich segmentów). W pracy przedstawiamy również nową metodę porównywania szeregów czasowych za pomocą podsumowań lingwistycznych. Ta metoda opiera się na założeniu, że jeżeli równocześnie występujące segmenty mogą zostać opisane przez takie same cechy, to szeregi czasowe zbudowane z tych segmentów są podobne. Rozszerzając tę ideę, zaproponowano metodę oceny podobieństwa dwóch szeregów czasowych jako podobieństwo podsumowań lingwistycznych opisujących te szeregi. Celem pracy jest propozycja i dogłębna analiza numeryczna metody otrzymywania obszernej, „globalnej” charakterystyki szeregów czasowych za pomocą podsumowań lingwistycznych z elementami logiki rozmytej, która jest narzędziem służącym do zapewnienia prostej i skutecznej reprezentacji, radzącej sobie z nieprecyzyjnością znaczeń, tak charakterystyczną dla języka naturalnego. Co więcej, zaproponowane metody zostały zaimplementowane w postaci systemu komputerowego, który jest używany do obszernej analizy notowań funduszu inwestycyjnego, porównania z benchmarkiem i innymi indeksami giełdowymi. Ta analiza obejmuje analizę wielokryterialną podsumowań lingwistycznych i w tym celu używamy zarówno podstawowej metody średniej ważonej (wagi mogą zostać określone przez ekspertów) jak i bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP zaproponowanej przez Figueirę, Greco i Słowińskiego [4]. Nasze podejście jest skierowane głównie na użycie idei leżących u podłoża paradygmatu Zadeha [24] „obliczeń na słowach” (ang. computing with words), zwłaszcza w perspektywie generowania języka naturalnego (NLG - ang. natural language generation), jak pokazano u Kacprzyka and Zadrożnego [16, 17]. Podstawowa teza pracy jest wyrażona w następujący sposób: Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wygenerowane używając aparatu logiki rozmytej. Takie podsumowania mogą być 3 użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP1 może zostać skutecznie zastosowana do oceny i wyboru najlepszych podsumowań. Ta bardzo ogólna teza może zostać uzupełniona przez dokładny opis tego, co zostało zrobione: • zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozszerzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych, • zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform w sensie Zadeha, • pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym (a mianowicie, rachunku zdań Zadeha z kwantyfikatorami liongwistycznymi, operatorów uporządkowanej średniej ważonej (OWA), całek Choqueta i Sugeno) podczas tworzenia podsumowań lingwistycznych szeregów czasowych, • użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adaptując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe, • zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono sposoby i kryteria jego oceny, • zaproponowano nową metodę porównywania szeregów czasowych przez porównywania ich podsumowań lingwistycznych, • zaproponowano zastosowanie zarówno bezpośredniej metody średniej ważonej jak i wielokryterialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco i Słowińskiego [4]. 1 Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4]. 4 2 Segmentacja szeregu czasowego Jako trend cząstkowy (segment) rozumiemy zachowanie się ciągu czasowego w sensie wzrostu lub spadku, z pewną intensywnością, lub przyjmowanie stałych wartości na pewnym odcinku czasu. Wśród metod do analizy trendów cząstkowych można wyróżnić dwie główne grupy. W pierwszym przypadku, rodzaja trendów (np. rosnący, stały, malejący) są z góry określone. Najbardziej popularne metody są oparte na wykrywaniu zmian znaku pierwszej i drugiej pochodnej funkcji aproksymującej punkty należące do ciągu czasowego [3]. W drugim przypadku, nie ma wcześniej ustalonych wzorców. Dlatego też wzorce są wykrywane automatycznie, za pomocą np. analizy skupień [6]. Do wyznaczania trendów cząstkowych w pracy stosuje się 5 algorytmów opartych na tzw. strategii „on-line, „bottom-up” i „top-down”. Trendy częstkowe (segmenty), rozumiane jako zachowanie się ciągu odcinków przybliżających szeregi czasowe, charakteryzujemy za pomocą trzech cech: • dynamiki zmian, • czasu trwania, • zmienności, które poniżej omówimy. 2.1 Dynamika zmian Pod pojęciem dynamika zmian rozumiemy szybkości zmian wartości ciągu czasowego. Możemy opisać ją jako nachylenie linii (odcinka), reprezentującej trend, czyli kąt nachylenia. Powyższa procedura może prowadzić do zbyt dużej liczby możliwych nachyleń odcinków odpowiadającym segmentom. Dlatego proponuje się zastosowanie granulacji wartości nachyleń, spełniającej oczekiwania użytkowania i wymagania zadania. W tym przypadku użytkownik może sam zbudować skalę lingwistyczną opisujacą różne nachylenia linii reprezentującej trend. Na przykład, użytkownik może stworzyć następującą skalę: • szybko malejący, • malejący, • wolno malejący, 5 • stały, • wolno rosnący, • rosnący, • szybko rosnący. Oczywiście, można wybrać większą lub mniejszą liczbę określeń lingwistycznych, ale zgodnie z tzw. magiczneą liczbą Milera, 7 ± 2, jest dobrym wyborem, ponieważ ma uzasadnienie psychologiczne. Rysunek 1 przedstawia nachylenia i odpowiadające im przykładowe określenia lingwistyczne (por. [1, 2]). Rysunek 1: Graficzna reprezentacja przykładowych określeń lingwistycznych dynamiki zmian Odwzorowujemy więc pojedynczą wartość η, opisującą dynamikę zmian trendu zidentyfikowanego za pomocą wybranej metody, w określenie lingwistyczne (a więc w odpowiadający mu zbiór rozmyty), które najlepiej pasuje do danego kąta. Wtedy powiemy, że dany trend jest na przykład „malejący w stopniu 0,8”, jeżeli µmalejacy (η) = 0.8, gdzie µmalejacy jest funkcją przynależności zbioru rozmytego reprezentującego „malejący”, która najlepiej pasuje dla kąta η opisującego rozważany trend. 6 2.2 Czas trwania Czas trwania opisuje długość pojedyńczego trendu. I to też będziemy traktować jak zmienną lingwistyczną. Na przykład, wartość lingwistyczna „długi” zdefiniowana jako zbiór rozmyty, dla którego można przyjąć, że funkcja przynależności jest pokazana na Rysunku 2, gdzie oś OX jest osią czasu mierzonego w jednostkach, które są używane w rozpatrywanym ciągu czasowym. Rysunek 2: Przykład funkcji przynależności zbioru rozmytego reprezentującego „długi” dla czasu trwania Właściwa definicja pojęć lingwistycznych opisujących czas trwania zależy od perspektywy przyjętej prze użytkownika. Użytkownik analizując dane może przyjąć ten lub inny horyzont czasowy w zależności od swoich potrzeb. 2.3 Zmienność Zmienność wskazuje na to, jak bardzo grupa danych (w sensie przyjmowanych wartości) „ jest rozrzucona”. Tradycyjnie stosuje się pięć statystycznych miar zmienności: • Zakres (ang. range), czyli „wartość maksymalna – wartość minimalna”. Chociaż zakres jest obliczeniowo najłatwiejszą miarą zmienności, nie jest często używany, ponieważ miara ta jest oparta tylko na wartości dwóch skrajnych punktów. Przez to miara ta jest bardzo wrażliwa na obecność punktów oddalonych i dlatego może niepoprawnie opisywać prawdziwą zmienność; • Rozstęp międzykwartylowy (ang. the interquartile range (IQR)) obliczany jako trzeci kwartyl minus pierwszy kwartyl, i może być interpretowany jako środkowe 50% danych. Ta miara zmienności jest odporna na obecność punktów oddalonych, a obliczeniowo jest tak samo łatwa jak zakres. • Wariancja jest obliczana jako 1/n P i (xi 7 − x̄)2 , gdzie x̄ jest wartością średnią; • Odchylenie standardowe, czyli pierwiastek kwadratowy z wariancji; zarówno wariancja jak i odchylenie standardowe są wrażliwe na obecność skrajnych wartości; • Średnie odchylenie absolutne (ang. the mean absolute deviation (MAD)), obP liczane jako 1/n i |xi − x̄|. Miara ta ma bardzo prostą interpretację intuicyjną jako „średnie odchylenie od średniej”. W pracy przyjmujemy, podobnie jak dla dynamiki zmian, że stopień zmienności jest również określony jako jedna z przyjętych 7±2 wartości lingwistycznych. A zatem, do określenia stosujemy zmienności jedną z metod statystycznych, a otrzymany wynik utożsamiamy z najbliższym mu określeniem lingwistycznym. 3 Podsumowania lingwistyczne 3.1 Podsumowania lingwistyczne danych numerycznych Podsumowanie lingwistyczne jest rozumiane jako zdanie przypominające zdanie w języku naturalnym, które określa istotę (z pewnego punktu widzenia) zbioru danych. Przyjmuje się, że zbiór danych jest numeryczny i zwykle duży, przez co niezrozumiały dla człowieka. Jednym z najprostszych i najbardziej intuicyjnie zrozumiałych podejść do lingwistycznych podsumowań danych numerycznych jest podejście Yagera (por. Yager [19], Kacprzyk i Yager [11] oraz Kacprzyk, Yager i Zadrożny [12]). Przyjmuje się w nim następujące oznaczenia: • Y = {y1 , . . . , yn } jest zbiorem obiektów (rekordów) w bazie danych, np. zbiór pracowników; • A = {A1 , . . . , Am } jest zbiorem atrybutów opisujących obiekty z zbioru Y , np. pensja, wiek, i tym podobne w bazie danych pracowników, a Aj (yi ) oznacza wartość atrybutu Aj dla obiektu yi . Podsumowanie lingwistyczne zbioru danych D składa się z: • sumaryzatora (ang. summarizer ) P , czyli atrybutu razem z wartością lingwistyczną określoną dla dziedziny atrybutu Aj (np. „mała” dla atrybutu „pensja”); 8 • kwantyfikatora (ang. quantity in agreement ) Q, lingwistycznego (np. „większość”); • stopnia prawdy T podsumowania, to jest liczby z przedziału [0, 1] określającej stopień prawdziwości podsumowania (np. 0.7); zwykle, będą nas interesować tylko podsumowania z dużą wartością T ; • Ponadto, może być również kwalifikator (ang. qualifier ) R, czyli kolejny atrybut razem z wartością lingwistyczną określoną dla dziedziny atrybutu Ak określający pewien podzbiór rozmyty w Y , do którego odnosi się sumaryzator (np. „młody” dla atrybutu „wiek”). Podsumowanie lingwistyczne można więc zilustrować na następującym przykładzie: T (większość pracowników zarabia mało) = 0.7 (1) a bardziej złożona forma może zawierać kwalifikator („młodych”), np.: T (większość młodych pracowników zarabia mało) = 0.82 (2) Zatem, istotą podsumowań lingwistycznych jest zdanie z kwantyfikatorami lingwistycznymi w sensie Zadeha [23], które dla zdania (1) można zapisać jako: Qy są P (3) QRy są P (4) a dla zdania (2) jako: Stopień prawdy T odpowiada stopniowi prawdy zadania (3) lub (4). Zwykle przyjmuje się, że kwantyfikator lingwistyczny Q – proporcjonalny i niemalejący, bo takie są istotne w naszym kontekście – jest zbiorem rozmytym w [0, 1], jak na przykład: 1 for x > 0.8 µQ (x) = (5) 2x − 0.6 for 0.3 < x < 0.8 0 for x < 0.3 Wtedy, stopnie prawdy (z [0, 1]) zdań (3) i (4) są obliczane, odpowiednio, jako: ! n 1X µP (yi ) n T (Qy’s are P ) = µQ (6) i=1 T (QRy’s are P ) = µQ Pn (µP (yi ) ∧ µS (yi )) i=1P n i=1 µR (yi ) 9 (7) 3.2 Podsumowania lingwistyczne szeregów czasowych Pojęcie protoformy, zaproponowane przez Zadeha [25], jest bardzo wygodnym narzędziem podczas pracy nad podsumowaniami lingwistycznymi, tak jak sugerowali to Kacprzyk i Zadrożny [15]. Dlatego też zostało użyte w niniejszej pracy. Protoforma jest pewnym prototypem (szablonem) zdania z kwantyfikatorem lingwistycznym. Protoformy są niezwykle użyteczne z wielu powodów, ponieważ umożliwiają opracowanie ogólnych narzędzi i technik dla różnych stwierdzeń dotyczących wielu dziedzin i problemów, a ich forma jest zrozumiała dla ekspertów dziedzinowych. Podsumowania mogą więc zostać przedstawione za pomocą poniższych protoform (podajemy tu oryginalne sformułowania angielskojęzyczne użyte w pracy): • protoforma prosta: Among all segments, Q are P (8) np.: „Among all segments, most are slowly increasing”, czyli wśród wszystkich segmentów, większość jest wolno rosnąca. • protoforma rozszerzona: Among all R segments, Q are P (9) np.: „Among all short segments, most are slowly increasing”, czyli wśród wszystkich krótkich segmentów, większość jest wolno rosnąca. Możemy rozszerzyć protoformy (8) i (9) dodając do nich wyrażenie określające czas, ET , jak: „ostatnio”, „początkowo” lub „w maju 2010”, itp. (cf. Kacprzyk, Wilbik [10]). Takie protoformy temporalne mają następującą postać: • protoforma prosta: ET among all segments, Q are P (10) np.: „Recently, among all segments, most are slowly increasing”, czyli ostatnio wśród wszystkich segmentów, większość jest wolno rosnąca. • protoforma rozszerzona: ET among all R segments, Q are P (11) np.: „Initially, among all short segments, most are slowly increasing” czyli początkowo wśród wszystkich krótkich segmentów, większość jest wolno rosnąca. 10 Aby ocenić jakość podsumowań lingwistycznych możemy użyć kryteriów oceny jakości zaadaptowanych z przypadku statystycznego. Oprócz podstawowego kryterium – stopnia prawdy – w pracy zastosowano kilka miar zaproponowanych w pracach Kacprzyka i Strykowskiego [9, 8], Kacprzyka i Yagera [11] oraz Yagera, Forda i Canasa [22]. Zaproponowano również kilka nowych kryteriów, wśród których stopień zogniskowania odgrywa istotną rolę podczas generacji podsumowań. Podsumowania lingwistyczne oceniamy według następujących kryteriów: • stopień prawdy (truth value), • stopień niedokładności (degree of imprecision), • stopień specyficzności (degree of specificity), • stopień rozmytości (degree of fuzziness), • stopień liczności [degree of covering (support)], • stopień zogniskowania (degree of focus), • stopień trafności (degree of appropriateness), • miara informatywności (measure of informativeness), • długość podsumowania (length of the summary). Do efektywniejszego tworzenia podsumowań opracowaliśmy algorytm oparty na ogólnej zasadzie typu „dziel i zwyciężaj”. W rezultacie otrzymujemy zbiór prawdziwych podsumowań lingwistycznych. Z tego zbioru możemy wybrać podzbiór najlepszych podsumowań na podstawie kryteriów oceny jakości podsumowań. W tym celu możemy znaleźć podsumowania, których wartości oceny są Pareto-optymalne, lub zastosować tradycyjną metodę ważonych średnich. Inna możliwość to użycie algorytmu GRIP, zaproponowanego przez Figueirę, Greco i Słowińskiego [4]. Metoda ta znajduje relacje preferencji dla pary rozważanych opcji (w naszym przypadku podsumowań), jak również informacje o intensywności tych preferencji. Metoda GRIP buduje zbiór funkcji oceny zgodnych z informacją o preferencjach w postaci częściowego porządku. Użytkownik udostępnia informacje dotyczącą swoich preferencji, czyli: 11 • częściowy porządek %, gdzie x % y oznacza „x jest przynajmniej tak dobre jak y”, • częściowy porządek %∗ , gdzie (x, y) %∗ (w, z) oznacza „x jest lepsze niż y przynajmniej w takim stopniu jak w jest lepsze niż z”, • częściowy porządek %∗i , gdzie (x, y) %∗i (w, z) oznacza „x jest lepsze niż y przynajmniej w takim stopniu jak w jest lepsze niż z dla kryterium ci ”. gdzie x, y, w, z są opcjami. Zatem informacja o preferencjach nie musi byc kompletna. Co więcej dostępny jest częściowy porządek %i , gdzie x %i y oznacza „x jest przynajmniej tak dobre jak y dla kryterium ci ”, dostępne bezpośrednio z oceny opcji x i y dla tego kryterium [4]. Ta informacja jest reprezentowana przez zbiór liniowych ograniczeń. Następnie algorytm próbuje znaleźć funkcję oceny (funkcję użyteczności marginalnej dla każdego kryterium) zgodną z tymi preferencjami. Kiedy preferencje są spójne, tzn. istnieje przynajmniej jedna taka funkcja, algorytm tworzy między innymi graf rankingowy. Szczegóły algorytmu dostępne są w pracy Figueiry, Greco i Słowińskiego [4]. 4 Porównanie szeregów czasowych W pracy zaproponowano również dwie nowe metody porównywania szeregów czasowych opartych na idei „miękkiego” konsensusu w grupie agentów. W pierwszej z tych metod stopień podobieństwa dwóch szeregów czasowych jest rozumiany jako stopień, do którego np. „większość” długich, jednocześnie występujących segmentów jest podobna (tzn. np. „przynajmniej połowa” ich cech jest podobna). Druga metoda zakłada, że jeżeli szeregi są opisane przez podobne podsumowania lingwistyczne, wtedy można uznać, że są one podobne. Zatem stopień podobieństwa dwóch szeregów czasowych jest obliczany jako stopień, do którego np. „większość” ważnych podsumowań lingwistycznych jednego z szeregów ma wartości stopnia prawdy podobne do „przynajmniej połowy” podobnych podsumowań opisujących drugi z szeregów. 5 Wyniki numeryczne Przeprowadzono wyczeropujace badania numeryczne zaproponowanych metod i algorytmów na rzeczywistych szeregach czasowych notowań funduszu inwestycyjnego. Wybrano 12 fundusz akcji, który inwestuje przynajmniej 66% udziałów w akcje notowane na Warszawskiej Giełdzie Papierów Wartościowych. Fundusz został założony w kwietniu 1998, początkowo jego benchmarkiem był indeks WIG 20, a od stycznia 2002 benchmarkiem dla tego funduszu jest indeks WIG. Ponieważ w 2002 roku zmieniła się strategia funduszu, w naszych testach analizowaliśmy notowania funduszu od początku stycznia 2002 do grudnia 2009. Wykres notowań funduszu został pokazany na Rysunku 3. Mutual fund quotations 45 30 15 0 02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010 Rysunek 3: Wykres notowań funduszu Wartość jednej jednostki 2 stycznia 2002 wynosiła 12,06 zł, a 31 grudnia 2009 – 35,82 zł. Minimalna cena jednostki w tym okresie to 9,35 zł, zaś maksymalna to 57,85 zł. Warszawski Indeks Giełdowy WIG to pierwszy indeks giełdowy i jest obliczany od 16 kwietnia 1991 roku. WIG obejmuje wszystkie spółki notowane na Giełdzie Papierów Wartościowych w Warszawie (GPW), które spełniają pewne kryteria. W indeksie WIG obowiązuje zasada dywersyfikacji, mająca na celu ograniczenie udziału pojedynczej spółki i sektora giełdowego. Jest on indeksem dochodowym i przy jego obliczaniu uwzględnia się zarówno ceny zawartych w nim akcji, jak i dochody z dywidend i praw poboru. Wykres historycznych notowań indeksu WIG jest pokazany na Rysunku 4. Warszawski Indeks Giełdowy Dużych Spółek WIG 20 jest obliczany od 16 kwietnia 1994 roku na podstawie wartości portfela akcji 20 największych i najbardziej płynnych spółek z podstawowego rynku akcji. WIG 20 jest indeksem typu cenowego, co oznacza, że przy jego obliczaniu bierze się pod uwagę jedynie ceny zawartych w nim transakcji, a nie uwzględnia się dochodów z akcji (dywidend, praw poboru). W indeksie WIG 20 nie mogą uczestniczyć spółki z indeksów mWIG40 i sWIG80 oraz więcej niż 5 spółek z jednego 13 WIG index quotations 60000 45000 30000 15000 0 02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010 Rysunek 4: Wykres historycznych notowań indeksu WIG (wartości zamknięcia) sektora giełdowego. Wykres historycznych notowań indeksu WIG 20 jest pokazany na rysunku 5. WIG20 quotations 3000 1500 0 02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010 Rysunek 5: Wykres historycznych notowań indeksu WIG 20 (wartości zamknięcia) Więcej informacji na temat indeksów WIG oraz WIG 20 można znaleźć na stronach GPW (www.gpw.pl). W eksperymentach używano różnych metod segmentacji oraz różnej granulacji, a mianowicie z 3, 5 oraz 7 etykietami lingwistycznymi dla każdego atrybutu (długości, dynamiki zmian i zmienności). W pierwszej kolejności przedstawimy wyniki dotyczące efektywności algorytmu generującego podsumowania lingwistyczne. Zakładamy, że minimalna akceptowana wartość stopnia prawdy to 0,75, a stopnia zogniskowania to 0,1. Użyto kwantyfikatora lingwistycznego „większość”. W Tabeli 1 zestawiono liczby wszystkich możliwych podsumowań lingwistycznych oraz 14 Tablica 1: Liczba wszystkich możliwych podsumowań lingwistycznych oraz utworzonych i sprawdzonych przez algorytm liczba liczba wszystkich liczba utworzonych atrybutów możliwych podsumowań i sprawdzonych przez algorytm 3 5 7 prosta rozszeżona prosta rozszeżona protoforma protoforma protoforma protoforma 63 216 9 81 23.8% 31.0% 15 145 7.0% 16.1% 21 210 4.1% 8.9% 215 511 900 2352 utworzonych i sprawdzonych przez algorytm. W innych testach numerycznych otrzymano podobne wartości. Przykładowe podsumowania lingwistyczne pokazane są w Tabeli 2 dla podsumowań klasycznych oraz w Tabeli 3 dla podsumowań temporalnych. Przyjrzyjmy się teraz pierwszemu podsumowaniu z Tabeli 2: „Among all segments, at least about a half are constant”, czyli „wśród wszystkich segmentów, przynajmniej połowa jest stała”. Podsumowanie to, typu prostego, ma bardzo wysoką wartość stopnia prawdy (T ), równą 1.0. Nie jest zbyt precyzyjne, o czym świadczą wyższa wartość stopnia niedokładności (di ) i niższa stopnia specyficzności (ds ) niż innych podsumowań. Podsumowanie to ma bardzo dużą wartość stopnia liczności (dc ), świadczącą o tym, że około 60% wszystkich segmentów jest mniej lub bardziej stałych. Wartość stopnia trafności (da ) jest równa 0.0 ponieważ to podsumowania ma długość (dl ) równą 1, tzn. ma tylko jedną wartość lingwistyczną. Podsumowanie to niesie dużo informacji, ponieważ miara informatywności (I) jest stosunkowo wysoka. Dla przykładu z Tabeli 3 przeanalizujmy podsumowanie oznaczone identyfikatorem „a10”: „from the crisis beginning among all medium segments, almost all are constant”, czyli „od początku kryzysu wśród wszystkich segmentów o średniej długości, prawie wszystkie segmenty są stałe”. Początek krysysu określono jako mniej więcej wrzesień 2007. To podsumowanie ma również bardzo wysoki stopień prawdy. Jest podsumowaniem typu 15 Tablica 2: Wyniki dla protoformy klasycznej i 5 etykiet – segmentacja za pomocą metody opartej na stożkach dla ε = 1 id 1∗ 2∗ 3 4 5 6 7 8 9∗ 16 10 11 12∗ 13∗ 14∗ 15 16∗ 17 18 19 linguistic summary Among all segments, at least about a half are constant Among all short segments, at least about a half are constant Among all moderate segments, at least about a half are short Among all moderate segments, at least about a half are constant Among all high segments, at least about a half are short Among all high segments, at least about a half are constant Among all medium segments, almost all are constant Among all medium segments, at least about a half are very high Among all medium and constant segments, at least about a half are very high Among all short and moderate segments, at least about a half are constant Among all slowly decreasing segments, at least about a half are short Among all medium segments, at least about a half are constant and very high Among all constant segments, at least about a half are very high Among all decreasing segments, most are very short Among all short and high segments, at least about a half are constant Among all very high segments, most are constant Among all medium and very high segments, almost all are constant Among all slowly increasing segments, most are short Among all short and very high segments, most are constant T 1.0000 1.0000 1.0000 1.0000 df oc 1.0000 0.4411 0.2625 0.2625 di 0.4090 0.2977 0.3750 0.4060 ds 0.6425 0.7425 0.6892 0.6617 df 0.0655 0.0553 0.1033 0.1103 dc 0.6045 0.2563 0.1420 0.1527 da 0.0000 0.0413 0.1049 0.0238 dl 1 2 2 2 I 0.3655 0.1520 0.0736 0.0671 1.0000 1.0000 1.0000 1.0000 0.2451 0.2451 0.2433 0.2433 0.3417 0.3727 0.2310 0.3583 0.7225 0.6950 0.8325 0.7042 0.1033 0.1103 0.0937 0.1000 0.1526 0.1465 0.2243 0.1396 0.1778 0.0067 0.3089 0.1715 2 2 2 2 0.0785 0.0717 0.1402 0.0736 1.0000 0.2243 0.3481 0.7042 0.0770 0.1211 0.1629 3 0.1376 1.0000 0.1420 0.3304 0.6617 0.0553 0.0872 0.0446 3 0.0852 1.0000 0.1115 0.2883 0.7518 0.0553 0.0715 0.0895 2 0.0396 0.9857 0.2433 0.3528 0.7042 0.0853 0.1211 0.1629 3 0.1460 0.9365 0.6045 0.3393 0.7117 0.0770 0.2965 0.2252 2 0.1759 0.9307 0.8970 0.1184 0.1526 0.3563 0.3227 0.7333 0.6950 0.0960 0.0553 0.0906 0.0739 0.2545 0.0222 2 3 0.0400 0.0872 0.8924 0.8405 0.3974 0.1396 0.3560 0.2267 0.7533 0.8325 0.1353 0.0853 0.2965 0.1211 0.2252 0.1629 2 3 0.1426 0.1362 0.8124 0.7942 0.1324 0.1419 0.3050 0.3302 0.7935 0.7533 0.1137 0.1137 0.0935 0.0989 0.1404 0.0183 2 3 0.0495 0.0955 Tablica 3: Wyniki dla protoformy temporalnej z wyrażeniem temporalnym „od poczatku kryzysu (from the crisis beginning)” dla 5 etykiet – segmentacja za pomocą metody opartej na stożkach dla ε = 1 id a1∗ a2∗ a3∗ a4∗ a5 a6 a7 17 a9∗ a10 a11 a12 a13 a14 a15∗ a16 a17 linguistic summary from the crisis beginning among all segments, at least about a half are constant from the crisis beginning among all constant segments, at least about a half are short from the crisis beginning among all short segments, at least about a half are constant from the crisis beginning among all very high segments, at least about a half are constant from the crisis beginning among all very high segments, at least about a half are short from the crisis beginning among all moderate segments, at least about a half are constant from the crisis beginning among all high segments, at least about a half are constant from the crisis beginning among all high segments, at least about a half are short from the crisis beginning among all medium segments, almost all are constant from the crisis beginning among all short and very high segments, at least about a half are constant from the crisis beginning among all slowly decreasing segments, at least about a half are short from the crisis beginning among all short and moderate segments, at least about a half are constant from the crisis beginning among all slowly increasing segments, at least about a half are short from the crisis beginning among all short and slowly decreasing segments, at least about a half are high from the crisis beginning among all decreasing segments, most are very short from the crisis beginning among all moderate segments, at least about a half are short T 1.0000 df oc 1.0000 di 0.3893 ds 0.5450 df 0.1603 dc 0.2821 da 0.0000 dl 2 I 0.2083 1.0000 0.5006 0.3107 0.6444 0.1290 0.1429 0.0929 3 0.0983 1.0000 0.4600 0.3107 0.6444 0.1290 0.1429 0.0929 3 0.0903 1.0000 0.3458 0.3420 0.6213 0.1452 0.1099 0.0877 3 0.0612 1.0000 0.3458 0.3188 0.6419 0.1400 0.0995 0.0697 3 0.0671 1.0000 0.3075 0.3920 0.5838 0.1703 0.0983 0.0818 3 0.0448 1.0000 0.2496 0.3670 0.6088 0.1702 0.0802 0.0697 3 0.0416 1.0000 0.2496 0.3438 0.6294 0.1650 0.0765 0.0838 3 0.0456 1.0000 0.2273 0.2608 0.7119 0.1578 0.1186 0.3865 3 0.0746 1.0000 0.1765 0.3226 0.6213 0.1290 0.0635 0.1872 4 0.0659 1.0000 0.1617 0.3037 0.6514 0.1290 0.0570 0.1070 3 0.0328 1.0000 0.1485 0.3353 0.5838 0.1290 0.0524 0.1529 4 0.0508 1.0000 0.1453 0.3037 0.6514 0.1290 0.0525 0.1052 3 0.0295 1.0000 0.1011 0.3506 0.6158 0.1650 0.0286 0.1017 4 0.0359 0.9887 0.1438 0.3548 0.6375 0.1595 0.0644 0.2704 3 0.0294 0.8850 0.3075 0.3688 0.6044 0.1650 0.0837 0.0280 3 0.0435 rozszerzonego, i jego stopień zogniskowania (df oc ) jest równy prawie 0,23, zatem warunek kwalifikatora spełnia prawie 23% segmentów. To podsumowanie jest bardziej konkretne niż inne podsumowania, o czym świadczą niższa wartość stopnia niedokładności (di ) i wyższa stopnia specyficzności (ds ) niż innych podsumowań. Podsumowanie to może być zaskakujące dla użytkownika, ponieważ stopień trafności (da ) jest równy prawie 0,39. Ponieważ każde podsumowanie jest oceniane przez kilka miar oceny jakości podsumowań, możemy wykorzystać te wartości aby wybrać podzbiór najlepszych podsumowań. W tym celu możemy znaleźć podsumowania Pareto optymalne, posłużyć się średnią ważoną lub użyć algorytmu GRIP (zaproponowanego przez Figueira, Greco and Słowińskiego [4]). Przedstawimy teraz jedynie zastosowanie algorytmu GRIP na przykładzie podsumowań lingwistycznych pokazanych w Tabeli 2. W pierwszej kolumnie Tabeli 2 pokazany jest identyfikator zdania. Podsumowania podzielono na dwie grupy: podsumowania bardziej interesujące dla użytkownika (czyli o numerach 1, 2, 9, 12, 13, 14 i 16) oraz mniej ciekawe. Podsumowania oznaczone gwiazdką (przy identyfikatorze) należą do pierwszej grupy bardziej interesujących podsumowań. Zatem są one bardziej preferowane przez użytkownika, niż te z grupy drugiej. Dodatkowo, określono następujące preferencje pomiedzy podsumowaniami z pierwszej grupy: • podsumowanie 1 jest preferowane bardziej niż podsumowanie 2, • podsumowanie 1 jest preferowane bardziej niż podsumowanie 7, • podsumowanie 1 jest preferowane bardziej niż podsumowanie 16. W tym przykładzie naszymi kryteriami były tylko stopień prawdy, stopień zogniskowania, liczności, trafności oraz miara informatywności. Podane preferencje nie są sprzeczne i otrzymano następujące wyniki. Rysunek 6 przedstawia używany w metodzie GRIP graf rankingowy. Węzły reprezentują podsumowania, oznaczone liczbami od 1 do 19. Niebieskie strzałki to preferencje określone przez użytkownika, czarne zaś oznaczają relacje wyindukowane przez system GRIP. W tym przykładzie są to: • 13 jest preferowane bardziej niż 16, • 7 jest preferowane bardziej niż 9, • 7 jest preferowane bardziej niż 14, 18 Rysunek 6: Graf rankingowy • 3 jest preferowane bardziej niż 11 • 5 jest preferowane bardziej niż 6, • 5 jest preferowane bardziej niż 8, • 8 jest preferowane bardziej niż 11, • 8 jest preferowane bardziej niż 18, • 17 jest preferowane bardziej niż 18. Pierwsze 3 preferencje dotyczą podsumowań z pierwszej grupy, która zawiera podsumowania oznaczone jako bardziej interesujące. Na Rysunku 7 pokazano ranking, oparty na funkcji użyteczności, otrzymany z użyciem algorytmu GRIP. Można zauważyć, że wszystkie podsumowania z pierwszej grupy są wyżej w rankingu, niż podsumowania z drugiej grupy. Funkcje użyteczności marginalnej dla poszczególnych kryteriów są pokazane na Rysunku 8. Możemy zauważyć, że najważniejszym kryterium jest miara informatywności, drugim najważniejszym kryterium jest stopień trafności, a trzecim – stopien zogniskowania. Pozostałe dwa kryteria wydają się mieć mniejsze znaczenie. Powyższe podsumowania, wraz z informację o preferencjach, można traktować jako „zbiór uczący”. Wystarczy dodać nowy zbiór podsumowań, np. pokazany w Tabeli 3, aby otrzymać ich częściowe uporządkowanie, zgodne z podanymi wcześniej preferencjami. W pierwszej kolumnie znajduje się identyfikator podsumowania (litera „a” i kolejny numer). Te podsumowania również podzielono na 2 grupy: pierwszą, zawierającą bardziej in19 Rysunek 7: Ranking podsumowań lingwistycznych Rysunek 8: Funkcje użyteczności marginalnej dla poszczególnych kryteriów 20 teresujące podsumowania, oznaczone gwiazdką (a1, a2, a3, a4, a9, a15), oraz drugą, zawierającą mniej interesujące. Rysunek 9 przedstawia graf rankingowy. Węzły niebieskie, oznaczone numerami od 1 do 19, reprezentują podsumowania ze „zbioru uczącego”, natomiast czerwone, oznaczone jako „a1” – „a16”, reprezentują nowe podsumowania ze „zbioru testującego”. Niebieskie strzałki reprezentują preferencje podane wyżej. Czarne strzałki to preferencje wyindukowane przez system GRIP. Rysunek 9: Graf rankingowy Można zauważyć, że żadne z podsumowań z drugiej grupy nie jest preferowane bardziej niż jakiekolwiek z grupy pierwszej, bardziej interesującej. Można również zauważyć kilka interesujących preferencji dla podsumowań ze „zbioru testującego”, np.: • a2 jest preferowane bardziej niż a3, • a3 jest preferowane bardziej niż a4, • a9 jest preferowane bardziej niż a15, itp. Można również zauważyć, że zachodzą relacje preferencji pomiędzy podsumowaniami ze zbiorów „uczącego” i „testującego”, na przykład: • 1 jest preferowane bardziej niż a1, 21 • 7 jest preferowane bardziej niż a15, • a3 jest preferowane bardziej niż 11, etc. Te wyniki są zachęcające, ponieważ otrzymaliśmy graf z wieloma czarnymi krawędziami reprezentującymi wyindukowane preferencje, co jest rzadkie, ale bardzo pożądane. Rysunek 10: Ranking podsumowań lingwistycznych Na Rysunku 10 pokazano ranking na podstawie funkcji użyteczności. W tym rankingu prawie wszystkie podsumowania, które są uważane za interesujące, są wyżej w rankingu niż te mniej interesujące. Jedynym wyjątkiem jest podsumowanie „a5” należące do drugiej grupy, które znajduje się w rankingu wyżej niż 2 podsumowania z pierwszej grupy, mianowicie „a4” i „a15”. Przedstawimy teraz kilka wyników dotyczących oceny podobieństwa funduszu i jego benchmarku. Porównujemy zbiór kilkunastu najbardziej prawdziwych, tzn. z minimalną wartością stopnia prawdy równą 0,75 oraz stopnia zogniskowania 0,1, podsumowań klasycznej protoformy opisujących fundusz z podobnymi zbiorami najbardziej prawdziwych podsumowań opisujących indeksy odpowiednio WIG i WIG 20. Agregując stopnie podobieństw podsumowań otrzymujemy stopień podobieństwa funduszu i indeksu. 22 Zatem stopień podobieństwa pomiędzy funduszem a indeksem WIG jest równy 0,9807, podczas gdy dla funduszu i indeksu WIG 20 jest on równy 0,9760. Możemy również porównać temporalne podsumowania lingwistyczne. Wtedy stopień podobieństwa pomiędzy wartościami dziennych notowań wartości funduszu a indeksu WIG jest równy 0,9674, podczas gdy dla funduszu i indeksu WIG 20 jest równy 0,9596, zatem różnica jest nieco bardziej widoczna, niż w przypadku porównania na podstawie klasycznych podsumowań. Dodatkowo można obliczyć stopnie podobieństwa dla poszczególnych okresów. W naszym przypadku są one pokazane w Tabeli 4. Tablica 4: Stopnie podobieństwa między notowaniami funduszu a indeksami giełdowymi dla wyrażeń temporalnych stopień podobieństwa stopień podobieństwa funduszu i WIGu funduszu i WIGu 20 initially 0.9554 0.9609 in the middle 0.9369 0.9280 wyrażenie temporalne from the crisis begin 6 1 0.9702 Podsumowanie W pracy: • zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozszerzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych, • zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform w sensie Zadeha, • pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym (a mianowicie, rachunek zdań Zadeha z kwantyfikatorami lingwistycznymi, operatory uporządkowanej średniej ważonej (OWA), całki Choqueta i Sugeno) podczas tworzenia podsumowań lingwistycznych szeregów czasowych, • użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adaptując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe, 23 • zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono sposoby i kryteria jego oceny, • zaproponowano nową metodę porównywania szeregów czasowych przez porównywania ich podsumowań lingwistycznych, • zaproponowano zastosowanie do wielokryterialnej oceny podsumowań lingwistycznych szeregów czasowych zarówno bezpośredniej metody średniej ważonej jak i wielokryterialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco i Słowińskiego [4]. Pokazano więc, że teza pracy: Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wygenerowane używając aparatu logiki rozmytej. Takie podsumowania mogą być użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP2 może zostać skutecznie zastosowana do oceny i wyboru najlepszych podsumowań, jest prawdziwa. Literatura [1] I. Batyrshin and L. Sheremetov. Perception based functions in qualitative forecasting. In I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors, Perception-based Data Mining and Decision Making in Economics and Finance. Springer-Verlag, Berlin and Heidelberg, 2006. [2] I. Batyrshin, L. Sheremetov, and R. Herrera-Avelar. Perception based patterns in time series data mining. In I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors, Perception-based Data Mining and Decision Making in Economics and Finance. SpringerVerlag, Berlin and Heidelberg, 2006. 2 Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4]. 24 [3] J. Colomer, J. Melendez, J. L. de la Rosa, and J. Augilar-Martin. A qualitative/quantitative representation of signals for supervision of continuous systems. In Proceedings of the European Control Conference -ECC97, Brussels, 1997. [4] J. R. Figueira, S. Greco, and R. Słowinski. Building a set of additive value functions representing a reference preorder and intensities of preference: Grip method. European Journal of Operational Research, 195(2):460–486, 2009. [5] C. Holsapple and A. Whinston. Decision Support Systems: A Knowldege-based Approach. Minneapolis: West Publishing, 1996. [6] F. Höppner. Knowledge Discovery from Sequential Data. PhD thesis, TU Braunschweig, 2003. [7] J. Kacprzyk. Intelligent data analysis via linguistic data summaries: a fuzzy logic approach. In R. Decker and W. Gaul, editors, Classification and Information Processing at the Turn of Millennium, pages 153–161. Springer-Verlag, Berlin, Heidelberg, New York, 2000. [8] J. Kacprzyk and P. Strykowski. Linguistic data summaries for intelligent decision support. In R. Felix, editor, Proceedings of EFDAN’99-4th European Workshop on Fuzzy Decision Analysis and Recognition technology for Management, pages 3–12, 1999. [9] J. Kacprzyk and P. Strykowski. Linguistic summaries of sales data at a computer retailer: a case study. In Proceedings of IFSA’99, volume 1, pages 29–33, 1999. [10] J. Kacprzyk and A. Wilbik. Temporal linguistic summaries of time series using fuzzy logic. In Proceedings of IPMU2010 (in press), 2010. [11] J. Kacprzyk and R. R. Yager. Linguistic summaries of data using fuzzy logic. International Journal of General Systems, 30:33–154, 2001. [12] J. Kacprzyk, R. R. Yager, and S. Zadrożny. A fuzzy logic based approach to linguistic summaries of databases. International Journal of Applied Mathematics and Computer Science, 10:813–834, 2000. [13] J. Kacprzyk, R. R. Yager, and S. Zadrożny. Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support. In J. Z. W. Abramowicz, editor, Knowledge Discovery for Business Information Systems, pages 129–152. Kluwer, Boston, 2001. [14] J. Kacprzyk and S. Zadrożny. Fuzzy linguistic data summaries as a human consistent, user adaptable solution to data mining. In B. Gabrys, K. Leiviska, and J. Strackeljan, editors, Do Smart Adaptive Systems Exist?, pages 321–339. Springer, Berlin, Heidelberg, New York, 2005. [15] J. Kacprzyk and S. Zadrożny. Linguistic database summaries and their protoforms: toward natural language based knowledge discovery tools. Information Sciences, 173:281–304, 2005. [16] J. Kacprzyk and S. Zadrożny. Data mining via protoform based linguistic summaries: Some possible relations to natural language generation. In 2009 IEEE Symposium Series on Computational Intelligence Proceedings, pages 217–224, Nashville, TN, 2009. [17] J. Kacprzyk and S. Zadrożny. Computing with words is an implementable paradigm: fuzzy queries, linguistic data summaries and natural language generation. IEEE Transactions on Fuzzy Systems, 2010. (forthcoming). [18] L. McGowan. The answer to ‘what are absolute return mutual funds?’ depends on who you ask. http://mutualfunds.about.com/od/typesoffunds/a/ Absolute_return_fund_basics.htm. 25 [19] R. R. Yager. A new approach to the summarization of data. Information Sciences, 28:69–86, 1982. [20] R. R. Yager. On linguistic summaries in data. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases, pages 347–363. MIT Press, Cambridge, USA, 1991. [21] R. R. Yager. Database discovery using fuzzy sets. International Journal of Intelligent Systems, 11(9):691–712, 1996. [22] R. R. Yager, K. M. Ford, and A. J. Cañas. An approach to the linguistic summarization of data. In B. Bouchon-Meunier, R. R. Yager, and L. A. Zadeh, editors, Uncertainty in Knowledge Bases, 3rd International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, IPMU ’90, Paris, France, July 2-6, 1990, Proceedings, pages 456–468. Springer, 1990. [23] L. A. Zadeh. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy Sets and Systems, 9(2):111–127, 1983. [24] L. A. Zadeh. Fuzzy logic = computing with words. IEEE Transactions on Fuzzy Systems, 4:103–111, 1996. [25] L. A. Zadeh. A prototype-centered approach to adding deduction capabilities to search engines – the concept of a protoform. In Proceedings of the Annual Meeting of the North American Fuzzy Information Processing Society (NAFIPS 2002), pages 523–525, 2002. 26