Wybór metody preprocessingu zmiennych wejściowych do

Transkrypt

Wybór metody preprocessingu zmiennych wejściowych do
Agata Raszka1
Wybór metody preprocessingu zmiennych wej ciowych do prognozowania płacenia
przez przedsi biorstwo dywidendy
1. Wprowadzenie
Termin sztuczna inteligencja został zaproponowany w 1956 roku przez profesora
Massachusetts Institute of Technology Johna McCarthy, podczas konferencji w której brali
udział naukowcy z ró nych dziedzin, zajmuj cy si
konferencji zdefiniowali sztuczn
inteligencj
ludzk
wiadomo ci . Uczestnicy
jako "konstruowanie maszyn, o których
działaniu dałoby si powiedzie , e s podobne do ludzkich przejawów inteligencji"2.
Na znaczeniu zyskały przede wszystkim sztuczne sieci neuronowe (SSN) i algorytmy
genetyczne, metody wy ej wspomnianej sztucznej inteligencji.
Dziedzina sieci neuronowych zaistniała dopiero w 1943 roku wraz z wydaniem
historycznej pracy McCulloch'a i Pitts'a. Przedstawiono w niej po raz pierwszy matematyczny
opis komórki nerwowej oraz powi zanie jej z problemem przetwarzania danych, co
rozwini to w kolejnych pracach tych samych autorów. Zaprezentowany model wywarł wielki
wpływ na pó niejszy rozwój tej dziedziny. Pierwsze sieci neuronowe zacz to budowa
ju w latach 50-tych.
Pomimo i post p w badaniach nad sztucznymi sieciami neuronowymi dokonywał si
głównie w USA, prace były publikowane równie w innych krajach. W Polsce zajmowano si
problematyk sieci neuronowych i ich uczenia od samego pocz tku istnienia tej dziedziny.
Wydano szereg ksi ek zajmuj cych si problematyk sieci neuronowych, w ród których
nale y wymieni
monografie Gawro skiego (1970), Kulikowskiego (1972) i Brodziaka
(1974). Zainteresowanie sieciami neuronowymi w połowie lat 80-tych znajduje te odbicie
w Polsce, gdzie wydano monografie Tadeusiewicza (1992), Korbicza, Obuchowicza
i Uci skiego (1974), Kacprzaka i lota (1995). Przetłumaczono tak e monografi Hertza,
Krogha i Palmera (1993).
Sztuczne sieci neuronowe s bardzo intensywnie wykorzystywane w sferze
problemów ekonomicznych, do których nale y przede wszystkim prognozowanie. Artykuł ten
podejmuje prób wyboru odpowiedniej metody preprocessingu danych wej ciowych wła nie
prognozowania płacenie przez przedsi biorstwo dywidendy. Wykorzystamy do tego program
Statistica 7 i program Estimatic.
1
Studentka III roku Informatyki i ekonometrii,
Paweł Ro czak, Implementacja i wykorzystanie wielowarstwowej sieci perceptronowej w modelowaniu
makroekonomicznym, http://pawelrosczak.republika.pl/mlp/ai.html
2
2. Opis problematyki badawczej
Dywidenda to cz
wypracowanego przez spółk zysku, która jest wypłacana
wszystkim posiadaczom akcji. O wypłacie dywidendy decyduje walne zgromadzenie
akcjonariuszy - czyli zebranie wszystkich wła cicieli firmy. Zgromadzenie akcjonariuszy
obraduje po sporz dzeniu sprawozdania finansowego za dany rok obrachunkowy.
Dywindend mo na wypłaci oczywi cie tylko w roku, w którym spółka wypracowała zysk.
Wszystkie akcje zwykłe uprawniaj
dywidendy maj
do jednakowej dywidendy. Do uzyskania wy szej
jedynie prawo zało yciele spółki, którzy s
posiadaczami akcji
uprzywilejowanych. Dywidenda jest wypłacana wszystkim akcjonariuszom, którzy posiadaj
akcje spółki w dniu przyj tym jako dzie ustalenia prawa do dywidendy.
Regularne wypłacanie dywidendy przez przedsi biorstwo wiadczy o jej dobrej
kondycji
finansowej, a tym samym pozytywnie wpływa na wizerunek spółki w ród
inwestorów, gdy pozwala dzieli si zyskiem z akcjonariuszami. Praktycznie nie warto
kupowa akcji tylko dla dywidendy, gdy dywidenda to wypłata jednorazowa i nie powinna
by głównym czynnikiem wyboru akcji. Warto pami ta , e dywidenda jest wypłacana za rok
poprzedni, a kurs akcji reaguje na bie c sytuacj w firmie. Mo e si okaza , e rok za który
jest wypłacana był dobry finansowo, ale sytuacja rynkowa uległa pogorszeniu i obecnie zyski
spadaj , a wraz z nimi kurs akcji. W praktyce mo e to oznacza dla inwestora poniesienie
straty, je li trzyma on akcje głównie w oczekiwaniu na dywidend . Najrozs dniejszym
rozwi zaniem wydaje si
trzymanie akcji ze wzgl du na dobre perspektywy firmy
i oczekiwany stabilny wzrost kursu akcji.
Dywidenda jako uprawnienie maj tkowe akcjonariusza nie posiada tak istotnego
znaczenia dla akcjonariuszy polskich spółek jak to ma miejsce w krajach Europy Zachodniej
oraz w Stanach Zjednoczonych. Szczególnie za Atlantykiem dywidenda stanowi dla
akcjonariuszy podstawowe ródło dochodu. W Polsce zbyt mało spółek wypłaca dywidend
st d brak przywi zania do tego typu instrumentu3.
Istnieje wiele czynników kształtuj cych płacenie dywidendy. Nale y do nich 28
wska ników:
Zmienne rynkowe:
X1 – Roczna stopa zwrotu w %
X2 – Współczynnik zmienno ci 1 : X = Pmax − Pmin * 100
2
X3 – Współczynnik zmienno ci 2 :
Pmax
Pmax − Pkoniec
X2 =
* 100
Pmax
3
Beata Binek, Paweł Heciak, Michał St pniewski, Dominika Waltz – Komierowska, Prawa i obowi zki
akcjonariuszy spółek publicznych, http://www.e-msp.pl/static/msp/files/kpwig/akcjonariusz.pdf
X4 – Udział spółki w obrotach giełdy w %
X5 – Wska nik obrotu w %
X6 – Logarytm dziesi tny warto ci obrotów w mln zł
X7 – logarytm dziesi tny kapitalizacji na koniec roku w tys. zł
X8 – Udział w kapitalizacji giełdy w ko cu roku w %
Zmienne fundamentalne:
X9 – Wynik finansowy netto w mld zł
X10 – Aktywa ogółem w mld zł
X11 – Logarytm warto ci ksi gowej w ko cu roku w mld zł
X12 – Przychody ze sprzeda y netto w mld zł
X13 – Wynik finansowy netto na 1 akcj w zł
X14 – Warto ksi gowa na 1 akcj w zł w ko cu roku
X15 – Mar a zysku netto w %
X16 – Stopa zwrotu z kapitału własnego w %
X17 – Stopa zwrotu z aktywów ogółem w %
Zmienne rynkowo – fundamentalne:
X18 – Roczny zysk (strata) netto na 1 akcj do ceny akcji w ko cu roku (zysk do ceny)
X19 – Warto ksi gowa do warto ci rynkowej w ko cu roku
X20 – zerojedynkowa: 0 – ujemny wynik finansowy, 1 – dodatni wynik
Zmienne makroekonomiczne:
Z1 – Dynamika PKB w cenach stałych
Z2 – Dynamika nakładów inwestycyjnych w cenach stałych
Z3 – Dynamika importu w cenach stałych
Z4 – Dynamika eksportu
Z5 – rednioroczny kurs dolara w zł
Z6 – Dynamika indeksu WIG
Z7 – Dynamika indeksu WIG20
Z8 – Udział firm z ujemn warto ci ksi gow na Giełdzie Papierów Warto ciowych
w Warszawie
Zmienne te zostały wykorzystane do budowy modelu jako zmienne obja niaj ce.
Dodatkowo ka de z 1041 przedsi biorstw zostało opisane zmienn obja nian Y, tzn.
zmienn grupuj c populacj na dwie grupy przedsi biorstw – na płac ce i nie płac ce
dywidend w badanym okresie.
3. Opis metody
Za pomoc sztucznych sieci neuronowych istnieje mo liwo
problemów. Mo na je podzieli
rozwi zywania wielu
na 2 kategorie: klasyfikacyjne (celem klasyfikacji jest
przydzielenie rozpatrywanego przypadku do jednej ze zdefiniowanych wcze niej klas. Dla
poszczególnych przypadków nale y okre li na wyj ciu pojedyncz zmienn nominaln ) oraz
regresyjne (celem regresji jest prognozowanie warto ci okre lonej zmiennej i dla
poszczególnych rozpatrywanych przypadków na wyj ciu sieci nale y okre li pojedyncz
zmienn numeryczn )4. Prezentowane badania wykorzystuj model regresji (Regression).
Aby dokona
analizy porównawczej metod preprocessingu, czyli wst pnego
przygotowania danych na wej cie do SSN, musimy przede wszystkim wybra jeden
rodzaj sieci. Do wyboru mamy ich kilka, m.in.: sie liniowa (Linear), probabilistyczna sie
neuronowa (PNN), sie realizuj ca uogólnion regresj (GRNN), radialne funkcje bazowe
(Radial basis function RBF) oraz perceptron trzy- i czterowarstwowy (MLP). Wybór został
dokonany na podstawie analizy statystycznej (porównaniu poddano
rednie bł dy dla
zbiorów: ucz cego, walidacyjnego i testowego) próbek zło onych z 50 losowo
wygenerowanych sieci ka dego rodzaju (Rys.1.).
2,5
2
redni bł d uczenia
1,5
redni bł d walidacji
1
redni bł d testowania
0,5
0
Linear
PNN lub
GRNN
RBF
Three layer
perceptron
Four layer
perceptron
Rys. 1. Analiza statystyczna rodzajów SSN
Analiza wskazuje na celowe u ycie perceptronu trójwarstwowego (z jedna warstw
ukryt ). Poza tym jest to najpopularniejszy rodzaj sieci. Wymaga uczenia iteracyjnego, które
bywa czasochłonne, ale otrzymane sieci s niedu e, szybkie i daj wyniki lepsze ni innego
rodzaju sieci5. Dynamiczny rozwój tych sieci zapocz tkowany ponownie od lat
osiemdziesi tych owocuje niezliczon ilo ci zastosowa praktycznie w ka dej dziedzinie.
Mimo takiego rozpowszechnienia nale y jednak podkre li
e sie typu MLP jest jedynie
pewn gał zi bada nad systemami neuronowymi w ogóle, obejmuj cymi tak e struktury
rekurencyjne, jednowarstwowe, czy uczone bez nadzoru.
4
P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL.Wprowadzenie do sieci neuronowych, StatSoft,
Kraków 2001, s. 12
5
P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik problemowy, StatSoft, Kraków 2001,
s. 184
4. Program bada
Badania zrealizowano w nast puj cych etapach:
1. Wyznaczono najlepsz
sie
zbudowan
na kompletnym zestawie zmiennych
wej ciowych (28-elementowym).
2. Wyznaczono najlepsze sieci zbudowane na zmiennych wej ciowych wskazanych
przez wykorzystane metody:
-
selekcj krokow post puj c (22 zmienne);
-
selekcj krokow wsteczn (16 zmiennych);
-
algorytm genetyczny (3 zmienne).
3. Wyznaczono najlepsz sie dla zbioru zmiennych niezale nych wybranych za pomoc
wska ników pojemno ci informacyjnej (metoda Hellwiga – 4 zmienne).
4. Wyznaczono warto ci progowe klasyfikacji (granice decyzyjne) dla poszczególnych
metod.
5. Wyznaczono dla poszczególnych sieci ogóln skuteczno
oraz bł dy I i II rodzaju.
6. Zaproponowano optymaln metod preprocessingu zmiennych obja niaj cych.
Program Statistica 7 domy lnie podzielił przypadki w proporcjach 2:1:1, co dla
naszych bada oznacza 521 przypadków do uczenia, 260 do walidacji i 260 do testowania
sieci.
5. Wyniki bada
5.1. Budowa modelu bez preprocessingu zmiennych wej ciowych
Na pocz tek zbudowano sie , która zgodnie z zało eniami b dzie zawierała komplet
zmiennych wej ciowych. Najlepsz sieci okazała si model (Tab.1.):
Tab. 1. Sie neuronowa zbudowana na wszystkich zmiennych wej ciowych
5.2. Budowa modelu z preprocessingiem zmiennych wej ciowych
Do najtrudniejszych decyzji, jakie musz zosta podj te przez projektanta sieci
neuronowych, nale y wybór wła ciwego zestawu zmiennych wej ciowych. Du e sieci s
bardziej kłopotliwe ni sieci małe, co powoduje, e czasami dobrym rozwi zaniem jest
odrzucenie pewnych zmiennych, nawet je li posiadaj pewn warto
informacyjn . W ten
sposób uda si zredukowa liczb zmiennych wej ciowych, a przez to wielko
zło ono
sieci oraz
obliczeniow problemu. Jedn z metod gwarantuj cych wybór najlepszego zbioru
zmiennych wej ciowych jest podj cie prób uczenia sieci w oparciu o ka dy z mo liwych
zbiorów zmiennych wej ciowych, sprawdzenie jako ci modelu i wybranie na tej podstawie
najlepszego rozwi zania.
Preprocessing danych wej ciowych b dziemy realizowa za pomoc algorytmów
doboru cech, do których zaliczamy: selekcj
wsteczn
krokow
i algorytmy genetyczne oraz za pomoc
post puj c , selekcj
krokow
metody wska ników pojemno ci
informacyjnej.
5.2.1 Optymalizacja zmiennych wej ciowych za pomoc selekcji krokowej post puj cej
Algorytm selekcji krokowej post puj cej (Forward selection) znajduje na pocz tku
tak zmienn , która najlepiej przewiduje warto
wyj ciow , a nast pnie dodaje kolejn
zmienn , która najbardziej poprawia model. Proces ten jest kontynuowany do momentu
wyczerpania zmiennych albo do momentu osi gni cia braku poprawy modelu przy
doł czaniu kolejnych zmiennych. Post puj cy dobór zmiennych zaleci mo na dla wi kszej
liczby potencjalnych zmiennych wej ciowych. Algorytm ten jest o wiele szybszy, ale mo e
zgubi wa ne zmienne, których wł czenie do modelu znacznie poprawia jego jako . Metod
krokow post puj c wybieramy, gdy chcemy szybko otrzyma jaki wynik. W naszym
przypadku metoda ta wyznaczyła nast puj ce zmienne wej ciowe (Tab.2.):
Tab. 2. Zmienne wej ciowe wygenerowane przez selekcj krokow post puj c w programie
Statistica 7
Najlepsz sieci na takim podzbiorze danych okazał si model (Tab.3.):
Tab. 3. Sie neuronowa zbudowana na zmiennych wskazanych przez selekcj krokow post puj c
5. 2.2 Optymalizacja zmiennych wej ciowych za pomoc selekcji krokowej wstecznej
Algorytm selekcji krokowej wstecznej (Backward selection) pracuje w przeciwnym
kierunku. Zaczyna ze wszystkimi zmiennymi, usuwaj c po jednej. Zaczyna od usuwania tych,
których brak najmniej psuje jako
predykcji. Wsteczny dobór zmiennych zaleci mo na przy
niewielkiej liczbie potencjalnych zmiennych wej ciowych6. Metod
krokow
wsteczn
wybieramy, gdy chcemy otrzyma dokładniejsz analiz cech. Przy zastosowaniu tej metody
przestrze wej
6
Ibidem s. 12
zredukowano do podprzestrzeni 16-wymiarowej (Tab.4.):
Tab. 4. Zmienne wej ciowe wygenerowane przez selekcj krokow wsteczn w programie Statistica
7
Najlepsz sieci na takim zestawie zmiennych wej ciowych okazał si model (Tab.5.):
Tab. 5. Sie neuronowa zbudowana na zmiennych wskazanych przez selekcj krokow wsteczn
5. 2.3 Optymalizacja zmiennych wej ciowych za pomoc algorytmu genetycznego
Algorytmy genetyczne (Genetic Algorithm) s szczególnie efektywn technika
poszukiwa w zagadnieniach kombinatorycznych, gdzie trzeba podejmowa szereg zale nych
od siebie decyzji binarnych. Za pomoc
tej metody zbiór danych wej ciowych mo na
zakodowa w postaci ci gu binarnego 28-elementowego. Wyst pienie zera na konkretnej
pozycji oznacza eliminacj zmiennej przyporz dkowanej do tej pozycji. Wyst pienie jedynki
b dzie analogicznie oznaczało pozostawienie danej zmiennej.
W programie Statistica 7 znajdujemy wiele parametrów algorytmu genetycznego,
takich jak wielko
populacji (Population), liczba pokole
(Generations), współczynnik
mutacji (Mutation rate) oraz współczynnik krzy owania (Crossover rate). Warto ci tych
współczynników pozostawiono na poziomie proponowanym przez system, uznaj c je za
odpowiednie dla prowadzonych bada : Population = 100, Mutation rate = 0,1, Generations =
100 oraz Crossover rate = 1,0.
Nale y okre li tak e warto
współczynnika wygładzania (Smoothing). Na szcz cie
sieci, które algorytm genetyczny wykorzystuje do swoich testów nie s zbytnio wra liwe na
precyzyjn warto
tego współczynnika i w przypadku naszego zadania warto
domy lna 0,1
7
b dzie odpowiednia .
Dla danych o du ej liczbie przypadków algorytm doboru cech mo e potrzebowa
du o czasu obliczeniowego. W takim przypadku zastosowa mo na próbkowanie (Sampling).
Mo emy wybra pewien dodatkowy wpływ na proces eliminacji niechcianych
zmiennych poprzez okre lenie warto ci kary jednostkowej (Unit penalty). Warto
ta
mno ona jest przez liczb neuronów w sieci i wynik dodawany jest do bł du w trakcie oceny
jako ci ka dej z rozwa anych sieci. Mechanizm ten powoduje karanie du ych sieci i sprzyja
tworzeniu
sieci
oszcz dnych,
zarówno
pod
wzgl dem
struktury,
jak
i
liczby
wykorzystywanych sygnałów wej ciowych. W naszym przypadku wszystkie zmienne
7
P.Lula, R.Tadeusiewicz, Kurs u ytkownika programu na przykładach, StatSoft, Kraków 2001, str. 60
i nast pna
wej ciowe wnosz
istotne informacje charakteryzuj ce zmienn
definiowanie kary jednostkowej mo e okaza
si
obja nian , dlatego
potrzebne. Niezerowa warto
kary
jednostkowej faworyzuje mniejsze sieci i zwykle zwi ksza sprawno . Natomiast gdy
współczynnik ten jest zbyt du y, to od jako ci sieci staje si wa niejsza liczba zmiennych8.
Musimy pami ta ,
e typowe warto ci tego współczynnika mieszcz
si
w przedziale
9
[0,001;0,01] . Przed uruchomieniem algorytmu genetycznego przeprowadzono kilka
eksperymentów, maj cych na celu okre lenie jej wła ciwej warto ci. Warto
kary
jednostkowej domy lnie ustawiona na 0,0001 spowodowała ograniczenie liczby wej
do 19
elementów (Tab.6.):
Tab. 6. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0001
Tablice 7-14 prezentuj dobór zmiennych przy zastosowaniu ró nych kar jednostkowych:
Tab. 7. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00017
Tab. 8 Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0002
Tab. 9. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00055
Tab. 10. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00075
Tab. 11. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00085
Tab. 12. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0015
Tab. 13. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0025
8
P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik problemowy, StatSoft, Kraków 2001,
str. 126
9
P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Kurs u ytkownika programu w przykładach,
StatSoft, Kraków 2001, str. 61
Tab. 14. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0035
Jak wida , liczba zmiennych wej ciowych zmienia si wraz ze wzrostem warto ci
kary jednostkowej na coraz mniejsz . Dokładne kształtowanie si
liczby zmiennych
liczba zmiennych wej ciowych
wej ciowych wobec kary jednostkowej przedstawia poni szy wykres (Rys.2.):
20
18
16
14
12
10
8
6
4
2
0
0,0001 0,00017 0,0002 0,00055 0,00075 0,00085 0,0015
0,0025
0,0035
kara jednostkowa
Rys. 2. Genetic Algorithm Selection
Spo ród trzech zbiorów o najmniejszej liczbie wej
najlepsz sie utworzył zbiór przy karze
jednostkowej 0,0025 (pole Error w tablicach 12-14) i to on posłu ył do dalszych bada .
Tablica 15 przedstawia współczynniki jako ciowe sieci zbudowanej na wybranych zmiennych
wej ciowych.
Tab. 15. Sie utworzona na zbiorze zmiennych wskazanych przez algorytm genetyczny
5.2.4 Optymalizacja zmiennych wej ciowych za pomoc metody Hellwiga
Metoda Hellwiga pozwala na wybór zmiennych obja niaj cych silnie skorelowanych
ze zmienn obja nian i jednocze nie słabo skorelowanych mi dzy sob . Tworzymy macierz
R (macierz współczynników korelacji pomi dzy zmiennymi obja niaj cymi) oraz macierz Ro
(macierz
współczynników
korelacji
pomi dzy
zmienn
obja nian
a
zmiennymi
obja niaj cymi). Nast pnie obliczamy indywidualne wska niki pojemno ci informacyjnej:
H lj = r j2 /(1 +
m
i =1
i≠ j
rij )
l = 1,2, ... , L
j = 1,2, ... , m
Wska niki te oblicza si dla ka dej zmiennej w obr bie ka dej kombinacji zmiennych
obja niaj cych. Integralne wska niki pojemno ci informacyjnej dla ka dej kombinacji
potencjalnych zmiennych obja niaj cych oblicza si jako sum indywidualnych pojemno ci
zmiennych wyst puj cych w danej kombinacji. Najwi ksz warto
pojemno ci informacyjnej maj
wyst puj ce zmienne s
skorelowane mi dzy sob
te kombinacje zmiennych obja niaj cych, dla których
mocno skorelowane ze zmienn
10
integralnych wska ników
obja nian
natomiast słabo
. Program Estimatic wskazał zmienne X2, X9, X13 oraz X20 dla
warto ci integralnego wska nika pojemno ci informacyjnej równego 0,20644. Najlepsz
sieci utworzon dla tych zmiennych okazał si model przedstawiony w Tabeli 16.
Tab. 16. Sie neuronowa utworzona na zmiennych wskazanych za pomoc metody Hellwiga
5.3.Wyznaczenie warto ci progowych
Zadaniem utworzonych przez nas modeli SSN jest poprawne zaklasyfikowanie
przedsi biorstw do jednej z dwóch grup firm, tj. tych, które zapłac
lub nie zapłac
dywidend . St d wyj cie ka dej sieci zawiera tylko jeden neuron, przyjmuj cy
w procesie uczenia sieci warto ci 0 lub 1. Nale y jednak zauwa y , e warto ci wyj
poszczególnych testowanych sieci nie s równe warto ciom zadanym w próbie ucz cej, lecz
przyjmuj warto ci z przedziału (0,1), któr mo emy traktowa jako stopie przynale no ci
do okre lonej klasy. W zwi zku z tym nale y ustali próg , na podstawie którego warto ci
wyj
uto samia
przyporz dkowana
si
b d
z odpowiedni
badana
firma.
z prawdopodobie stwem pojawienia si
grup
Warto
przedsi biorstw do której zostanie
progow
wyznaczymy
zgodnie
obiektów nale cych do okre lonej grupy,
oszacowanych dla grupy ucz cej, walidacyjnej i testowej11 (Tab.17.):
Tab. 17. Warto ci progowe dla poszczególnych metod doboru zmiennych wej ciowych
Metoda
Wszystkie zmienne
Selekcja krokowa
post puj ca
Selekcja krokowa
wsteczna
Algorytm genetyczny
10
Zbiór
uczenie
walidacja
testowanie
uczenie
walidacja
testowanie
uczenie
walidacja
testowanie
uczenie
walidacja
Liczba zer
367
196
189
378
198
176
366
193
193
371
191
Liczba jedynek
154
64
71
143
62
84
155
67
67
150
69
Próg
0,29
0,32
0,31
0,35
M. Gruszczy ski i inni, Ekonometria, Oficyna Wydawnicza SGH, Warszawa1996, str. 15
T. Korol, B. Prusak, Upadło przedsi biorstw a wykorzystanie sztucznej inteligencji, CeDeWu, Warszawa
2005, str. 156
11
Metoda Hellwiga
testowanie
uczenie
walidacja
testowanie
190
370
187
195
70
151
73
65
0,31
5.4 Wyznaczenie parametrów oceny jako ci klasyfikacji
Jako
klasyfikacji oceniono na podstawie bł du I i II rodzaju (B1, B2) oraz ogólnej
skuteczno ci sieci (S) za pomoc nast puj cych wzorów:
B1 =
D1
⋅ 100%
NPD
B2 =
D2
⋅ 100%
PD
S = 1−
D1 + D 2
⋅ 100%
NPD + PD
gdzie:
D1 – liczba przedsi biorstw nie płac cych dywidendy zaklasyfikowanych przez sie jako
firmy płac ce
NPD – liczba przedsi biorstw nie płac cych dywidendy w próbie ucz cej /walidacyjnej
/testowej
D2 - liczba przedsi biorstw płac cych dywidend zaklasyfikowanych przez sie jako firmy nie
płac ce
PD - liczba przedsi biorstw płac cych dywidend w próbie ucz cej /walidacyjnej /testowej
Ogólna skuteczno
informuje nas, jaki procent stanowi ogółem prawidłowo
zakwalifikowane przypadki (przedsi biorstwa płac ce i nie płac ce dywidend ). Bł d I
rodzaju okre la bł dn decyzj zakwalifikowania przedsi biorstwa nie płac cego dywidendy
na płac ce. Bł d II rodzaju okre la bł dn
decyzj
zakwalifikowania przedsi biorstwa
płac cego dywidend na nie płac ce. Przyj to, e bardziej szkodliwy b dzie w tym
przypadku Bł d I rodzaju. Wyniki uzyskanych oblicze przedstawia Tabela 18:
Tab. 18. Zestawienie wyników klasyfikacji przedsi biorstw poszczególnych metod
Skuteczno
Bł d I rodzaju
Bł d II rodzaju
Skuteczno
Zbiór
Wszystkie
zmienne
uczenie
walidacja
testowanie
uczenie
walidacja
testowanie
uczenie
walidacja
testowanie
18,3%
17,3%
27,5%
18,8%
23,4%
32,4%
81,6%
81,2%
71,2%
6.Wnioski z bada
Selekcja
krokowa
post puj ca
29,9%
29,3%
31,8%
25,2%
27,4%
27,4%
71,4%
71,2%
69,6%
Metoda
Selekcja
krokowa
wsteczna
27,9%
32,6%
34,2%
13,5%
17,9%
13,4%
76,4%
71,2%
71,2%
Algorytm
genetyczny
Metoda
Hellwiga
37,2%
37,2%
31,6%
32,0%
17,4%
31,4%
64,3%
68,1%
68,5%
29,2%
26,2%
29,2%
20,5%
26,0%
18,5%
73,3%
73,8%
73,5%
Analiza wyników zawartych w Tabeli 18 pozwala stwierdzi ,
e bł dy s
do
znaczne. Utworzone sieci charakteryzuj si zarówno du ymi bł dami I rodzaju, jak i II
rodzaju.
wiadczy to z pewno ci o tym, e problem przewidywania decyzji o wypłacie
dywidendy obarczony jest bardzo du
losowo ci .
Najlepsze efekty uzyskała sie
utworzona na kompletnym zestawie zmiennych
wej ciowych. Oznacza to, e w ród badanych zmiennych obja niaj cych brak jest takich,
które samodzielnie lub w kombinacji z mała liczb pozostałych, dysponowałyby du ym
potencjałem informacyjnym. Ka de ograniczenie zmiennych tylko zmniejsza ten potencjał.
W sieci
utworzonej
na
zbiorze
wskazanym
przez
krokow
selekcj
post puj c
zminimalizowanie liczby cech opisuj cych obiekt do 22 spowodowało zmniejszenie
efektywno ci odpowiednio dla zbioru ucz cego, walidacyjnego i testowego o 10,2 %, 10%
oraz 1,6%. W sieci utworzonej na zbiorze tylko 3-elementowym wskazanym przez algorytm
genetyczny efektywno
wida skuteczno
spadła o wiele bardziej odpowiednio o 17,3%, 13,1% oraz 2,7%. Jak
na zbiorze testowym wykazała najmniejsze spadki.
Nale y tak e zauwa y , e mimo prawie identycznej ogólnej skuteczno ci zarówno
modelu utworzonego na zbiorze wskazanym przez selekcj
krokow
post puj c
jak
i krokow wsteczn , model pierwszy wygenerował wi ksze bł dy I rodzaju uznane przez nas
za bardziej szkodliwe. Porównuj c wszystkie cztery metody wyra nie wida
bł dami I rodzaju charakteryzuje si
e najwi kszymi
algorytm genetyczny, ale tylko w odniesieniu do
zbiorów: ucz cego i walidacyjnego. Na zbiorze testowym wida wyra n popraw tego
wska nika. wiadczy to mo e o wi kszej zdolno ci predykcyjnej tego modelu, wynikaj cej
prawdopodobnie z lepszego „uogólnienia” problemu. Zdolno
generalizacji to jako
działania na niedost pnych w procesie uczenia, nowo powstałych danych.
Dodatkowo brak zaufania do pozostałych modeli mo e budzi niewystarczaj ca liczba
przypadków ucz cych u ytych w trakcie bada . Jak wynika z Tabeli 19 liczba minimalnych
przypadków12 dla poszczególnych metod znacznie przewy sza liczebno
dost pnego nam
zbioru 521 przypadków w zbiorze ucz cym, a tym samym powa nie podwa a ich
wiarygodno
ze wzgl du na mo liwo
zbytniego dopasowania si do danych.
Tab. 19. Zestawienie minimalnej liczebno ci przypadków dla poszczególnych metod
Metoda
Wszystkie zmienne
Selekcja krokowa post puj ca
Selekcja krokowa wsteczna
Algorytm genetyczny
12
Minimum przypadków w zbiorze ucz cym 2N
268435456
4194306
65536
8
W literaturze wiatowej przyjmuje si , e je li na wej ciu SSN pojawia si N- wymiarowy wektor, to
powinni my dysponowa 2N przypadkami ucz cymi.
Nale y tak e zauwa y , e redukcja zmiennych wej ciowych z wykorzystaniem AG
zminimalizowała zró nicowanie jako ci klasyfikacji dla uczenia, walidacji i testowania.
Zjawisko takie te przemawia za uznaniem wi kszych zdolno ci predykcyjnych takiego
modelu.
Literatura
1) M. Gruszczy ski i inni, Ekonometria, Oficyna Wydawnicza SGH, Warszawa 1996
2) T. Korol, B. Prusak, Upadło
przedsi biorstw a wykorzystanie sztucznej inteligencji,
CeDeWu, Warszawa 2005
3) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Kurs u ytkownika
programu
w przykładach, StatSoft, Kraków 2001
4) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik
problemowy, StatSoft, Kraków 2001
5) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Wprowadzenie do sieci
neuronowych, StatSoft, Kraków 2001
6) Paweł Ro czak, Implementacja i wykorzystanie wielowarstwowej sieci perceptronowej
w modelowaniu makroekonomicznym, http://pawelrosczak.republika.pl/mlp/ai.html
7) Beata Binek, Paweł Heciak, Michał St pniewski, Dominika Waltz – Komierowska,
Prawa
i
obowi zki
akcjonariuszy
spółek
msp.pl/static/msp/files/kpwig/akcjonariusz.pdf
publicznych,
http://www.e-

Podobne dokumenty