Spis treści (*) - Katedra Ekonometrii i Informatyki
Transkrypt
Spis treści (*) - Katedra Ekonometrii i Informatyki
Spis treści Wstęp................................................................................................................. 9 Podstawowe oznaczenia stosowane w książce.................................................. 1. PODEJŚCIE SYMBOLICZNE W BADANIACH EKONOMICZNYCH..................................................................................................... 1.1. Uwagi dotyczące przyjętych w rozdziale konwencji nomenklaturowych . 1.2 Podejście jakościowe a podejście ilościowe............................................ 1.3. Celowość stosowania podejścia symbolicznego w badaniach ekonomicznych.................................................................................................. 2. 15 16 31 35 37 38 39 41 42 43 44 45 48 MIARY ODLEGŁOŚCI I MIARY ZALEŻNOŚCI DLA DANYCH SYMBOLICZNYCH............................................................................. 51 3.1. Miary odległości dla danych symbolicznych.......................................... 3.2. Miara dopasowania dla obiektów symbolicznych................................... 3.3. Podstawowe statystyki i miary zależności dla danych symbolicznych opisanych zmiennymi różnych typów..................................................... 4. 15 DANE SYMBOLICZNE....................................................................... 35 2.1. Typy zmiennych symbolicznych............................................................. 2.2. Tablica danych symbolicznych, obiekt symboliczny, zmienna symboliczna........................................................................................................ 2.3. Typy zależności między zmiennymi symbolicznymi.............................. 2.4. Obiekty symboliczne pierwszego i drugiego rzędu oraz obiekty syntetyczne....................................................................................................... 2.5. Obiekty symboliczne boolowskie i probabilistyczne.............................. 2.6. Tworzenie obiektów symbolicznych z komputerowych baz danych...... 2.7. Ścieżki analizy danych symbolicznych................................................... 2.8. Podstawowe techniki analizy danych symbolicznych............................. 2.9. Wizualizacja danych symbolicznych....................................................... 2.10. Klasyfikacja metod podejścia symbolicznego......................................... 3. 13 51 62 63 METODY PODEJŚCIA SYMBOLICZNEGO BADANIA STRUKTURY ZBIORU DANYCH SYMBOLICZNYCH.............................. 66 4.1. Analiza skupień....................................................................................... Dudek A._HAB_Metody analizy..._2013.indb 5 66 2013-04-22 09:09:06 6 Spis treści 4.1.1.Procedura analizy skupień....................................................................... 4.1.2.Metody doboru zmiennych...................................................................... 4.1.3.Metody klasyfikacji................................................................................. 4.1.4.Ustalenie liczby klas................................................................................ 4.1.5.Ocena, interpretacja i profilowanie klas.................................................. 4.1.6.Generowanie symulacyjnych zbiorów danych symbolicznych............... 4.1.7.Zastosowanie klasyfikacji dynamicznej danych zawierających obiekty symboliczne probabilistyczne w badaniu struktury gospodarki chińskiej.......................................................................................................... 4.1.8.Zastosowanie metod klasyfikacji danych symbolicznych w badaniu segmentacyjnym systemów informatycznych zarządzania przedsiębiorstwem klasy ERP na rynku polskim........................................................ 4.2. Skalowanie wielowymiarowe.................................................................. 4.3. Analiza głównych składowych................................................................ 4.3.1.Aspekty obliczeniowe analizy głównych składowych dla danych symbolicznych................................................................................................ 4.3.2.Zastosowanie analizy głównych składowych i klasyfikacji dynamicznej danych symbolicznych opisanych zmiennymi symbolicznymi interwałowymi w badaniu innowacyjności krajów Unii Europejskiej................ 4.3.3.Interpretacja wyników badań................................................................... 4.4. Samoorganizujące się mapy Kohonena................................................... 5. 66 68 71 79 82 83 88 97 108 117 117 127 132 135 METODY PODEJŚCIA SYMBOLICZNEGO OPISU ZALEŻNOŚCI DLA DANYCH SYMBOLICZNYCH.......................................... 140 5.1. Analiza dyskryminacyjna........................................................................ 5.1.1.Wieloraka analiza dyskryminacyjna........................................................ 5.1.2. Analiza dyskryminacyjna oparta na estymatorach intensywności......... 5.1.3.Wykorzystanie analizy dyskryminacyjnej opartej na estymatorach intensywności dla danych symbolicznych zawierających boolowskie obiekty symboliczne w filtrowaniu wiadomości e-mail.......................... 5.2. Drzewa klasyfikacyjne............................................................................. 5.2.1.Drzewa klasyfikacyjne oparte na optymalnym podziale......................... 5.2.2.Bayesowskie drzewa klasyfikacyjne....................................................... 5.2.3.Warstwowe drzewa klasyfikacyjne.......................................................... 5.2.4.Podejście wielomodelowe....................................................................... 5.2.5.Wykorzystanie metody konstrukcji drzewa klasyfikacyjnego dla danych symbolicznych w ocenie wiarygodności kredytobiorców.............. 5.3. Analiza regresji........................................................................................ 5.3.1.Analiza regresji dla zmiennych symbolicznych interwałowych............. 5.3.2.Nieliniowa analiza regresji typu MLP..................................................... Dudek A._HAB_Metody analizy..._2013.indb 6 140 140 143 146 150 150 155 156 158 161 168 170 171 2013-04-22 09:09:06 Spis treści7 ZAKOŃCZENIE............................................................................................. 175 Załącznik A. Oprogramowanie komputerowe − pakiet symbolicDA................ Załącznik B. Zbiory danych symbolicznych wykorzystane w badaniach......... Literatura............................................................................................................ Spis rysunków ................................................................................................... Spis tabel............................................................................................................ Summary............................................................................................................ Dudek A._HAB_Metody analizy..._2013.indb 7 181 183 198 215 217 219 2013-04-22 09:09:06 Wstęp Nowe wyzwania, które rewolucja technologiczna z przełomu XX i XXI wieku postawiła przed naukami społecznymi, w tym przed ekonomią, powodują konieczność redefiniowania istniejących i tworzenia nowych metod badawczych. Z jednej strony dostępne do analizy są zbiory (bazy) danych o niespotykanych przed rewolucją informacyjną rozmiarach liczonych w setkach tysięcy, milionach czy nawet dziesiątkach milionów obiektów. Z drugiej zaś strony zdolności obliczeniowe współczesnych komputerów pozwalają na dużo bardziej precyzyjną analizę, której celem jest nie tylko znajdowanie wyników liczbowych, ale również wykrywanie reguł, związków logicznych i wzorców w analizowanych danych, co dotychczas leżało raczej w sferze interpretacji badań niż było ich integralną częścią. Te dwa czynniki wyznaczają kierunki rozwoju nowoczesnych metod analizy danych. Pod koniec XX wieku jedną z najważniejszych prób odpowiedzi na te wyzwania był rozwój metod analizy danych symbolicznych w ramach podejścia symbolicznego wyróżniających się spośród znanych wcześniej metod analizy danych ekonomicznych m.in.: 1. Możliwością odwzorowywania modelowanych zjawisk ekonomicznych na dane symboliczne reprezentujące nie tylko liczby, ale również dane tekstowe, przedziały liczbowe, listy kategorii oraz rozkłady dyskretne zmiennych. Operowanie na takich danych nie jest wprawdzie „zastrzeżone” dla podejścia symbolicznego i można znaleźć przykłady rozszerzania znanych metod wielowymiarowej analizy statystycznej na niestandardowe formaty danych, ale dopiero podejście symboliczne tworzy całościowy i spójny zestaw narzędzi służących do operowania na tego typu wartościach. 2. Możliwością definiowania reguł logicznych i hierarchicznych zależności dla danych wykorzystywanych w metodach tego podejścia. 3. Rozszerzoną postacią wyników badań. Rezultatem wielu metod podejścia symbolicznego jest wykrycie i zapisanie w postaci reguł symbolicznych zależności logicznych w modelowanym wycinku rzeczywistości. 4. Brakiem ograniczeń wielkości analizowanych danych pierwotnych. Metody podejścia symbolicznego, wykorzystujące agregację danych pierwotnych w obiekty symboliczne drugiego rzędu (obiekty symboliczne w sensie Arystotelesa-Didaya), nie nakładają w praktyce żadnych ograniczeń na rozmiar danych wejściowych często pochodzących z komputerowych baz danych. Agregacja danych nie jest wprawdzie cechą unikalną podejścia symbolicznego, ale położenie dużego nacisku na prawidłowość procesu agregacji oraz rozszerzona forma danych wynikowych powodują, że w trakcie tego procesu utrata informacji jest minimalizowana. Dudek A._HAB_Metody analizy..._2013.indb 9 2013-04-22 09:09:06 10 Wstęp Głównym celem pracy jest opracowanie na podstawie literatury i badań własnych spójnej i całościowej koncepcji danych symbolicznych, metod i narzędzi ich analizy, przetwarzania i interpretacji wyników oraz przeprowadzenie oceny zastosowania podejścia symbolicznego w badaniach społeczno-ekonomicznych. Cel główny pracy zostanie osiągnięty przez realizację celów cząstkowych, którymi są: –– przedstawienie podstaw koncepcyjnych podejścia symbolicznego, związanych z nim pojęć tablicy danych symbolicznych, obiektu symbolicznego i zmiennej symbolicznej oraz określenie cech wspólnych i cech dystynktywnych z powszechnie używanymi w ekonomii podejściami: ilościowym i jakościowym, –– zaproponowanie systematyki metod podejścia symbolicznego i przedstawienie szczegółów implementacyjnych najważniejszych spośród tych metod, –– przedstawienie zastosowań podejścia symbolicznego w analizie zjawisk ekonomicznych dla rzeczywistych, skompletowanych przez autora zbiorów danych symbolicznych. Celowi głównemu oraz celom pomocniczym pracy jest podporządkowana jej struktura. Praca składa się z pięciu rozdziałów uzupełnionych wstępem, zakończeniem, spisem wykorzystanej literatury przedmiotu oraz załącznikami. Rozdział pierwszy zawiera propozycję umiejscowienia podejścia symbolicznego w ekonomii. Przedstawiono w nim charakterystykę dwu najważniejszych podejść w analizie danych ekonomicznych – podejścia ilościowego i podejścia jakościowego − oraz wyróżniono cechy podejścia symbolicznego odróżniające je od podejścia zarówno jakościowego, jak i ilościowego i stanowiące o tym, że podejście symboliczne można traktować jako nową podgałąź analizy danych ekonomicznych. W rozdziale drugim przedstawione są najważniejsze zagadnienia analizy danych symbolicznych. Zdefiniowano w nim pojęcia zmiennej symbolicznej, tablicy danych symbolicznych i obiektu symbolicznego, omówiono typy zależności między zmiennymi symbolicznymi, zdefiniowano pojęcia obiektów symbolicznych boolowskich i probabilistycznych, pojęcia obiektów symbolicznych pierwszego rzędu, drugiego rzędu i syntetycznych obiektów symbolicznych oraz przedstawiono różnicę między polską a zagraniczną (w większości anglojęzyczną i francuskojęzyczną) terminologią dotyczącą tego typu obiektów symbolicznych. Zaproponowano rozróżnienie na dwie ścieżki analizy danych symbolicznych, a także dokonano zestawienia technik wykorzystywanych w podejściu symbolicznym. Ponadto w rozdziale dokonano klasyfikacji metod analizy danych symbolicznych w zależności od typu badania oraz od wykorzystywanych w badaniu zmiennych opisujących tablicę danych symbolicznych. W rozdziale trzecim scharakteryzowano miary odległości wykorzystywane w odniesieniu do danych symbolicznych. Konstrukcja miar odległości dotyczących danych symbolicznych wymaga uwzględnienia dwóch istotnych trudności niewystępujących w przypadku tradycyjnej macierzy danych: braku zdefiniowania dla danych symbolicznych podstawowych operatorów matematycznych oraz faktu, że Dudek A._HAB_Metody analizy..._2013.indb 10 2013-04-22 09:09:06 Wstęp11 obiekty symboliczne są zazwyczaj charakteryzowane przez zmienne symboliczne różnych typów, z różnymi realizacjami, połączonymi zależnościami różnych typów. W rozdziale przedstawiono konstrukcję uwzględniających te ograniczenia najważniejszych miar odległości dla danych symbolicznych. Opisano w nim również częściowe i pełne miary dopasowania obiektów symbolicznych oraz najważniejsze statystyki i miary zależności dla jednej lub wielu zmiennych symbolicznych. Rozdział czwarty przedstawia metody podejścia symbolicznego badania struktury zbioru danych symbolicznych. Scharakteryzowano w nim procedurę analizy skupień dla danych symbolicznych, przedstawiono ograniczenia tej procedury wynikające z postaci danych symbolicznych oraz zaproponowane modyfikacje metod doboru zmiennych, właściwego podziału na partycje oraz konstrukcji indeksów oceny jakości klasyfikacji, a także przedstawiono problemy dotyczące definiowania skupień dla danych symbolicznych. W rozdziale tym opisano również metody redukcji wymiarowości danych symbolicznych: analizę składowych głównych, skalowanie wielowymiarowe i samoorganizujące się mapy Kohonena. Opisy metod uzupełnione są badaniami wykorzystującymi metody podejścia symbolicznego badania struktury zbioru (tablicy danych symbolicznych). Są to badania struktury gospodarki chińskiej z wykorzystaniem klasyfikacji dynamicznej obiektów symbolicznych probabilistycznych drugiego rzędu odpowiadających prowincjom i miastom wydzielonym Chińskiej Republiki Ludowej, badanie poziomu i struktury innowacyjności w Unii Europejskiej z zastosowaniem klasyfikacji dynamicznej obiektów symbolicznych drugiego rzędu opisanych zmiennymi symbolicznymi interwałowymi oraz badanie segmentacyjne stosowanych w Polsce zintegrowanych systemów informatycznych zarządzania przedsiębiorstwami klasy ERP z zastosowaniem klasyfikacji boolowskich obiektów symbolicznych pierwszego rzędu. Rozdział piąty przedstawia metody podejścia symbolicznego badające zależności między zmiennymi. W grupie metod analizy dyskryminacyjnej przedstawiono wieloraką analizę dyskryminacyjną oraz analizę dyskryminacyjną opartą na estymatorach intensywności, a także opis autorskiego programu Symbolic Kernel Discriminant Analysis Spam Filter, służącego do filtrowania niezamawianej poczty elektronicznej w środowisku programu pocztowego MS Outlook za pomocą analizy dyskryminacyjnej opartej na estymatorach intensywności. W grupie metod analizy dyskryminacyjnej przeprowadzanej za pomocą drzewa klasyfikacyjnego zaprezentowano algorytmy konstrukcji drzew klasyfikacyjnych opartych na optymalnym podziale, bayesowskich drzew klasyfikacyjnych oraz warstwowych drzew klasyfikacyjnych oraz opisano badanie oceny wiarygodności kredytobiorców banku wykorzystujące metodę konstrukcji drzewa klasyfikacyjnego dla danych symbolicznych opartego na optymalnym podziale. Rozdział zawiera również charakterystykę metod analizy regresji w odniesieniu do danych symbolicznych opisanych zmiennymi symbolicznymi interwałowymi oraz nieliniowej analizy regresji typu Multilayer Perceptron. Dudek A._HAB_Metody analizy..._2013.indb 11 2013-04-22 09:09:06 12 Wstęp Integralną częścią niniejszej rozprawy jest pakiet programistyczny środowiska R symbolicDA zawierający implementację większości prezentowanych metod i algorytmów podejścia symbolicznego w tym popularnym środowisku statystycznym. Załącznik A zawiera charakterystykę pakietu symbolicDA. Pierwotnie załącznik ten miał zawierać również kod źródłowy funkcji pakietu, które posłużyły do wykonania badań opisanych w książce, ale ze względu na to, że tak jak w przypadku każdego innego złożonego programu komputerowego podlega on ciągłym zmianom, został on umieszczony na stronie internetowej Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu (http://wgrit.ae.jgora.pl/keii/ symbolicDA/index.html), dzięki czemu czytelnik będzie miał zawsze dostęp do jego najbardziej aktualnej wersji. W Załączniku B przedstawione są zbiory danych symbolicznych wykorzystane w badaniach z rozdziałów czwartego i piątego. Autor pragnie podziękować prof. Tadeuszowi Kuflowi i prof. Pawłowi Luli za bardzo dokładne przeanalizowanie koncepcji i formy tego opracowania, a także za cenne, konstruktywne uwagi, które wpłynęły na ostateczny kształt monografii. W trakcie całego procesu powstawania pracy, na różnych jej etapach, autor zawsze mógł liczyć na konsultacje z prof. Eugeniuszem Gatnarem (mimo Jego napiętego harmonogramu), za co chciałby w tym miejscu wyrazić podziękowania. Szczególne zaś wyrazy wdzięczności należą się prof. Markowi Walesiakowi, który był spiritus movens tego przedsięwzięcia, oraz wszystkim koleżankom i kolegom z Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu. Bez ich wartościowych uwag wygłaszanych w trakcie wielogodzinnych katedralnych seminariów poświęconych analizie danych symbolicznych i podejściu symbolicznemu w badaniach ekonomicznych ta książka miałaby na pewno inną postać. Dudek A._HAB_Metody analizy..._2013.indb 12 2013-04-22 09:09:06