Spis treści (*) - Katedra Ekonometrii i Informatyki

Transkrypt

Spis treści (*) - Katedra Ekonometrii i Informatyki
Spis treści
Wstęp................................................................................................................. 9
Podstawowe oznaczenia stosowane w książce.................................................. 1.
PODEJŚCIE SYMBOLICZNE W BADANIACH EKONOMICZNYCH..................................................................................................... 1.1. Uwagi dotyczące przyjętych w rozdziale konwencji nomenklaturowych .
1.2 Podejście jakościowe a podejście ilościowe............................................ 1.3. Celowość stosowania podejścia symbolicznego w badaniach ekonomicznych.................................................................................................. 2.
15
16
31
35
37
38
39
41
42
43
44
45
48
MIARY ODLEGŁOŚCI I MIARY ZALEŻNOŚCI DLA DANYCH
SYMBOLICZNYCH............................................................................. 51
3.1. Miary odległości dla danych symbolicznych.......................................... 3.2. Miara dopasowania dla obiektów symbolicznych................................... 3.3. Podstawowe statystyki i miary zależności dla danych symbolicznych
opisanych zmiennymi różnych typów..................................................... 4.
15
DANE SYMBOLICZNE....................................................................... 35
2.1. Typy zmiennych symbolicznych............................................................. 2.2. Tablica danych symbolicznych, obiekt symboliczny, zmienna symboliczna........................................................................................................ 2.3. Typy zależności między zmiennymi symbolicznymi.............................. 2.4. Obiekty symboliczne pierwszego i drugiego rzędu oraz obiekty syntetyczne....................................................................................................... 2.5. Obiekty symboliczne boolowskie i probabilistyczne.............................. 2.6. Tworzenie obiektów symbolicznych z komputerowych baz danych...... 2.7. Ścieżki analizy danych symbolicznych................................................... 2.8. Podstawowe techniki analizy danych symbolicznych............................. 2.9. Wizualizacja danych symbolicznych....................................................... 2.10. Klasyfikacja metod podejścia symbolicznego......................................... 3.
13
51
62
63
METODY PODEJŚCIA SYMBOLICZNEGO BADANIA STRUKTURY ZBIORU DANYCH SYMBOLICZNYCH.............................. 66
4.1. Analiza skupień....................................................................................... Dudek A._HAB_Metody analizy..._2013.indb 5
66
2013-04-22 09:09:06
6
Spis treści
4.1.1.Procedura analizy skupień....................................................................... 4.1.2.Metody doboru zmiennych...................................................................... 4.1.3.Metody klasyfikacji................................................................................. 4.1.4.Ustalenie liczby klas................................................................................ 4.1.5.Ocena, interpretacja i profilowanie klas.................................................. 4.1.6.Generowanie symulacyjnych zbiorów danych symbolicznych............... 4.1.7.Zastosowanie klasyfikacji dynamicznej danych zawierających obiekty
symboliczne probabilistyczne w badaniu struktury gospodarki chińskiej.......................................................................................................... 4.1.8.Zastosowanie metod klasyfikacji danych symbolicznych w badaniu
segmentacyjnym systemów informatycznych zarządzania przedsiębiorstwem klasy ERP na rynku polskim........................................................ 4.2. Skalowanie wielowymiarowe.................................................................. 4.3. Analiza głównych składowych................................................................ 4.3.1.Aspekty obliczeniowe analizy głównych składowych dla danych symbolicznych................................................................................................ 4.3.2.Zastosowanie analizy głównych składowych i klasyfikacji dynamicznej
danych symbolicznych opisanych zmiennymi symbolicznymi interwałowymi w badaniu innowacyjności krajów Unii Europejskiej................ 4.3.3.Interpretacja wyników badań................................................................... 4.4. Samoorganizujące się mapy Kohonena................................................... 5.
66
68
71
79
82
83
88
97
108
117
117
127
132
135
METODY PODEJŚCIA SYMBOLICZNEGO OPISU ZALEŻNOŚCI DLA DANYCH SYMBOLICZNYCH.......................................... 140
5.1. Analiza dyskryminacyjna........................................................................ 5.1.1.Wieloraka analiza dyskryminacyjna........................................................ 5.1.2. Analiza dyskryminacyjna oparta na estymatorach intensywności......... 5.1.3.Wykorzystanie analizy dyskryminacyjnej opartej na estymatorach intensywności dla danych symbolicznych zawierających boolowskie
obiekty symboliczne w filtrowaniu wiadomości e-mail.......................... 5.2. Drzewa klasyfikacyjne............................................................................. 5.2.1.Drzewa klasyfikacyjne oparte na optymalnym podziale......................... 5.2.2.Bayesowskie drzewa klasyfikacyjne....................................................... 5.2.3.Warstwowe drzewa klasyfikacyjne.......................................................... 5.2.4.Podejście wielomodelowe....................................................................... 5.2.5.Wykorzystanie metody konstrukcji drzewa klasyfikacyjnego dla danych symbolicznych w ocenie wiarygodności kredytobiorców.............. 5.3. Analiza regresji........................................................................................ 5.3.1.Analiza regresji dla zmiennych symbolicznych interwałowych............. 5.3.2.Nieliniowa analiza regresji typu MLP..................................................... Dudek A._HAB_Metody analizy..._2013.indb 6
140
140
143
146
150
150
155
156
158
161
168
170
171
2013-04-22 09:09:06
Spis treści7
ZAKOŃCZENIE............................................................................................. 175
Załącznik A. Oprogramowanie komputerowe − pakiet symbolicDA................ Załącznik B. Zbiory danych symbolicznych wykorzystane w badaniach......... Literatura............................................................................................................ Spis rysunków ................................................................................................... Spis tabel............................................................................................................ Summary............................................................................................................ Dudek A._HAB_Metody analizy..._2013.indb 7
181
183
198
215
217
219
2013-04-22 09:09:06
Wstęp
Nowe wyzwania, które rewolucja technologiczna z przełomu XX i XXI wieku postawiła przed naukami społecznymi, w tym przed ekonomią, powodują konieczność
redefiniowania istniejących i tworzenia nowych metod badawczych.
Z jednej strony dostępne do analizy są zbiory (bazy) danych o niespotykanych
przed rewolucją informacyjną rozmiarach liczonych w setkach tysięcy, milionach
czy nawet dziesiątkach milionów obiektów. Z drugiej zaś strony zdolności obliczeniowe współczesnych komputerów pozwalają na dużo bardziej precyzyjną analizę,
której celem jest nie tylko znajdowanie wyników liczbowych, ale również wykrywanie reguł, związków logicznych i wzorców w analizowanych danych, co dotychczas
leżało raczej w sferze interpretacji badań niż było ich integralną częścią. Te dwa
czynniki wyznaczają kierunki rozwoju nowoczesnych metod analizy danych.
Pod koniec XX wieku jedną z najważniejszych prób odpowiedzi na te wyzwania
był rozwój metod analizy danych symbolicznych w ramach podejścia symbolicznego wyróżniających się spośród znanych wcześniej metod analizy danych ekonomicznych m.in.:
1. Możliwością odwzorowywania modelowanych zjawisk ekonomicznych na
dane symboliczne reprezentujące nie tylko liczby, ale również dane tekstowe, przedziały liczbowe, listy kategorii oraz rozkłady dyskretne zmiennych. Operowanie na
takich danych nie jest wprawdzie „zastrzeżone” dla podejścia symbolicznego i można znaleźć przykłady rozszerzania znanych metod wielowymiarowej analizy statystycznej na niestandardowe formaty danych, ale dopiero podejście symboliczne
tworzy całościowy i spójny zestaw narzędzi służących do operowania na tego typu
wartościach.
2. Możliwością definiowania reguł logicznych i hierarchicznych zależności dla
danych wykorzystywanych w metodach tego podejścia.
3. Rozszerzoną postacią wyników badań. Rezultatem wielu metod podejścia
symbolicznego jest wykrycie i zapisanie w postaci reguł symbolicznych zależności
logicznych w modelowanym wycinku rzeczywistości.
4. Brakiem ograniczeń wielkości analizowanych danych pierwotnych. Metody
podejścia symbolicznego, wykorzystujące agregację danych pierwotnych w obiekty
symboliczne drugiego rzędu (obiekty symboliczne w sensie Arystotelesa-Didaya),
nie nakładają w praktyce żadnych ograniczeń na rozmiar danych wejściowych często
pochodzących z komputerowych baz danych. Agregacja danych nie jest wprawdzie
cechą unikalną podejścia symbolicznego, ale położenie dużego nacisku na prawidłowość procesu agregacji oraz rozszerzona forma danych wynikowych powodują, że
w trakcie tego procesu utrata informacji jest minimalizowana.
Dudek A._HAB_Metody analizy..._2013.indb 9
2013-04-22 09:09:06
10
Wstęp
Głównym celem pracy jest opracowanie na podstawie literatury i badań własnych spójnej i całościowej koncepcji danych symbolicznych, metod i narzędzi ich
analizy, przetwarzania i interpretacji wyników oraz przeprowadzenie oceny zastosowania podejścia symbolicznego w badaniach społeczno-ekonomicznych.
Cel główny pracy zostanie osiągnięty przez realizację celów cząstkowych, którymi są:
–– przedstawienie podstaw koncepcyjnych podejścia symbolicznego, związanych
z nim pojęć tablicy danych symbolicznych, obiektu symbolicznego i zmiennej
symbolicznej oraz określenie cech wspólnych i cech dystynktywnych z powszechnie używanymi w ekonomii podejściami: ilościowym i jakościowym,
–– zaproponowanie systematyki metod podejścia symbolicznego i przedstawienie
szczegółów implementacyjnych najważniejszych spośród tych metod,
–– przedstawienie zastosowań podejścia symbolicznego w analizie zjawisk ekonomicznych dla rzeczywistych, skompletowanych przez autora zbiorów danych
symbolicznych.
Celowi głównemu oraz celom pomocniczym pracy jest podporządkowana jej
struktura.
Praca składa się z pięciu rozdziałów uzupełnionych wstępem, zakończeniem,
spisem wykorzystanej literatury przedmiotu oraz załącznikami.
Rozdział pierwszy zawiera propozycję umiejscowienia podejścia symbolicznego
w ekonomii. Przedstawiono w nim charakterystykę dwu najważniejszych podejść w
analizie danych ekonomicznych – podejścia ilościowego i podejścia jakościowego
− oraz wyróżniono cechy podejścia symbolicznego odróżniające je od podejścia zarówno jakościowego, jak i ilościowego i stanowiące o tym, że podejście symboliczne
można traktować jako nową podgałąź analizy danych ekonomicznych.
W rozdziale drugim przedstawione są najważniejsze zagadnienia analizy danych
symbolicznych. Zdefiniowano w nim pojęcia zmiennej symbolicznej, tablicy danych
symbolicznych i obiektu symbolicznego, omówiono typy zależności między zmiennymi symbolicznymi, zdefiniowano pojęcia obiektów symbolicznych boolowskich
i probabilistycznych, pojęcia obiektów symbolicznych pierwszego rzędu, drugiego
rzędu i syntetycznych obiektów symbolicznych oraz przedstawiono różnicę między
polską a zagraniczną (w większości anglojęzyczną i francuskojęzyczną) terminologią
dotyczącą tego typu obiektów symbolicznych. Zaproponowano rozróżnienie na dwie
ścieżki analizy danych symbolicznych, a także dokonano zestawienia technik wykorzystywanych w podejściu symbolicznym. Ponadto w rozdziale dokonano klasyfikacji metod analizy danych symbolicznych w zależności od typu badania oraz od wykorzystywanych w badaniu zmiennych opisujących tablicę danych symbolicznych.
W rozdziale trzecim scharakteryzowano miary odległości wykorzystywane
w odniesieniu do danych symbolicznych. Konstrukcja miar odległości dotyczących
danych symbolicznych wymaga uwzględnienia dwóch istotnych trudności niewystępujących w przypadku tradycyjnej macierzy danych: braku zdefiniowania dla
danych symbolicznych podstawowych operatorów matematycznych oraz faktu, że
Dudek A._HAB_Metody analizy..._2013.indb 10
2013-04-22 09:09:06
Wstęp11
obiekty symboliczne są zazwyczaj charakteryzowane przez zmienne symboliczne
różnych typów, z różnymi realizacjami, połączonymi zależnościami różnych typów.
W rozdziale przedstawiono konstrukcję uwzględniających te ograniczenia najważniejszych miar odległości dla danych symbolicznych. Opisano w nim również częściowe i pełne miary dopasowania obiektów symbolicznych oraz najważniejsze statystyki i miary zależności dla jednej lub wielu zmiennych symbolicznych.
Rozdział czwarty przedstawia metody podejścia symbolicznego badania struktury zbioru danych symbolicznych. Scharakteryzowano w nim procedurę analizy
skupień dla danych symbolicznych, przedstawiono ograniczenia tej procedury wynikające z postaci danych symbolicznych oraz zaproponowane modyfikacje metod doboru zmiennych, właściwego podziału na partycje oraz konstrukcji indeksów oceny
jakości klasyfikacji, a także przedstawiono problemy dotyczące definiowania skupień dla danych symbolicznych. W rozdziale tym opisano również metody redukcji
wymiarowości danych symbolicznych: analizę składowych głównych, skalowanie
wielowymiarowe i samoorganizujące się mapy Kohonena. Opisy metod uzupełnione
są badaniami wykorzystującymi metody podejścia symbolicznego badania struktury
zbioru (tablicy danych symbolicznych). Są to badania struktury gospodarki chińskiej z wykorzystaniem klasyfikacji dynamicznej obiektów symbolicznych probabilistycznych drugiego rzędu odpowiadających prowincjom i miastom wydzielonym
Chińskiej Republiki Ludowej, badanie poziomu i struktury innowacyjności w Unii
Europejskiej z zastosowaniem klasyfikacji dynamicznej obiektów symbolicznych
drugiego rzędu opisanych zmiennymi symbolicznymi interwałowymi oraz badanie
segmentacyjne stosowanych w Polsce zintegrowanych systemów informatycznych
zarządzania przedsiębiorstwami klasy ERP z zastosowaniem klasyfikacji boolowskich obiektów symbolicznych pierwszego rzędu.
Rozdział piąty przedstawia metody podejścia symbolicznego badające zależności między zmiennymi. W grupie metod analizy dyskryminacyjnej przedstawiono
wieloraką analizę dyskryminacyjną oraz analizę dyskryminacyjną opartą na estymatorach intensywności, a także opis autorskiego programu Symbolic Kernel Discriminant Analysis Spam Filter, służącego do filtrowania niezamawianej poczty
elektronicznej w środowisku programu pocztowego MS Outlook za pomocą analizy
dyskryminacyjnej opartej na estymatorach intensywności. W grupie metod analizy dyskryminacyjnej przeprowadzanej za pomocą drzewa klasyfikacyjnego zaprezentowano algorytmy konstrukcji drzew klasyfikacyjnych opartych na optymalnym
podziale, bayesowskich drzew klasyfikacyjnych oraz warstwowych drzew klasyfikacyjnych oraz opisano badanie oceny wiarygodności kredytobiorców banku wykorzystujące metodę konstrukcji drzewa klasyfikacyjnego dla danych symbolicznych
opartego na optymalnym podziale. Rozdział zawiera również charakterystykę metod analizy regresji w odniesieniu do danych symbolicznych opisanych zmiennymi symbolicznymi interwałowymi oraz nieliniowej analizy regresji typu Multilayer
Perceptron.
Dudek A._HAB_Metody analizy..._2013.indb 11
2013-04-22 09:09:06
12
Wstęp
Integralną częścią niniejszej rozprawy jest pakiet programistyczny środowiska
R symbolicDA zawierający implementację większości prezentowanych metod
i algorytmów podejścia symbolicznego w tym popularnym środowisku statystycznym. Załącznik A zawiera charakterystykę pakietu symbolicDA. Pierwotnie załącznik ten miał zawierać również kod źródłowy funkcji pakietu, które posłużyły do
wykonania badań opisanych w książce, ale ze względu na to, że tak jak w przypadku
każdego innego złożonego programu komputerowego podlega on ciągłym zmianom, został on umieszczony na stronie internetowej Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu (http://wgrit.ae.jgora.pl/keii/
symbolicDA/index.html), dzięki czemu czytelnik będzie miał zawsze dostęp do jego
najbardziej aktualnej wersji.
W Załączniku B przedstawione są zbiory danych symbolicznych wykorzystane
w badaniach z rozdziałów czwartego i piątego.
Autor pragnie podziękować prof. Tadeuszowi Kuflowi i prof. Pawłowi Luli za
bardzo dokładne przeanalizowanie koncepcji i formy tego opracowania, a także
za cenne, konstruktywne uwagi, które wpłynęły na ostateczny kształt monografii.
W trakcie całego procesu powstawania pracy, na różnych jej etapach, autor zawsze
mógł liczyć na konsultacje z prof. Eugeniuszem Gatnarem (mimo Jego napiętego
harmonogramu), za co chciałby w tym miejscu wyrazić podziękowania. Szczególne
zaś wyrazy wdzięczności należą się prof. Markowi Walesiakowi, który był spiritus movens tego przedsięwzięcia, oraz wszystkim koleżankom i kolegom z Katedry
Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu. Bez ich
wartościowych uwag wygłaszanych w trakcie wielogodzinnych katedralnych seminariów poświęconych analizie danych symbolicznych i podejściu symbolicznemu
w badaniach ekonomicznych ta książka miałaby na pewno inną postać.
Dudek A._HAB_Metody analizy..._2013.indb 12
2013-04-22 09:09:06

Podobne dokumenty