Wybór metody preprocessingu zmiennych wejściowych do
Transkrypt
Wybór metody preprocessingu zmiennych wejściowych do
Agata Raszka1 Wybór metody preprocessingu zmiennych wej ciowych do prognozowania płacenia przez przedsi biorstwo dywidendy 1. Wprowadzenie Termin sztuczna inteligencja został zaproponowany w 1956 roku przez profesora Massachusetts Institute of Technology Johna McCarthy, podczas konferencji w której brali udział naukowcy z ró nych dziedzin, zajmuj cy si konferencji zdefiniowali sztuczn inteligencj ludzk wiadomo ci . Uczestnicy jako "konstruowanie maszyn, o których działaniu dałoby si powiedzie , e s podobne do ludzkich przejawów inteligencji"2. Na znaczeniu zyskały przede wszystkim sztuczne sieci neuronowe (SSN) i algorytmy genetyczne, metody wy ej wspomnianej sztucznej inteligencji. Dziedzina sieci neuronowych zaistniała dopiero w 1943 roku wraz z wydaniem historycznej pracy McCulloch'a i Pitts'a. Przedstawiono w niej po raz pierwszy matematyczny opis komórki nerwowej oraz powi zanie jej z problemem przetwarzania danych, co rozwini to w kolejnych pracach tych samych autorów. Zaprezentowany model wywarł wielki wpływ na pó niejszy rozwój tej dziedziny. Pierwsze sieci neuronowe zacz to budowa ju w latach 50-tych. Pomimo i post p w badaniach nad sztucznymi sieciami neuronowymi dokonywał si głównie w USA, prace były publikowane równie w innych krajach. W Polsce zajmowano si problematyk sieci neuronowych i ich uczenia od samego pocz tku istnienia tej dziedziny. Wydano szereg ksi ek zajmuj cych si problematyk sieci neuronowych, w ród których nale y wymieni monografie Gawro skiego (1970), Kulikowskiego (1972) i Brodziaka (1974). Zainteresowanie sieciami neuronowymi w połowie lat 80-tych znajduje te odbicie w Polsce, gdzie wydano monografie Tadeusiewicza (1992), Korbicza, Obuchowicza i Uci skiego (1974), Kacprzaka i lota (1995). Przetłumaczono tak e monografi Hertza, Krogha i Palmera (1993). Sztuczne sieci neuronowe s bardzo intensywnie wykorzystywane w sferze problemów ekonomicznych, do których nale y przede wszystkim prognozowanie. Artykuł ten podejmuje prób wyboru odpowiedniej metody preprocessingu danych wej ciowych wła nie prognozowania płacenie przez przedsi biorstwo dywidendy. Wykorzystamy do tego program Statistica 7 i program Estimatic. 1 Studentka III roku Informatyki i ekonometrii, Paweł Ro czak, Implementacja i wykorzystanie wielowarstwowej sieci perceptronowej w modelowaniu makroekonomicznym, http://pawelrosczak.republika.pl/mlp/ai.html 2 2. Opis problematyki badawczej Dywidenda to cz wypracowanego przez spółk zysku, która jest wypłacana wszystkim posiadaczom akcji. O wypłacie dywidendy decyduje walne zgromadzenie akcjonariuszy - czyli zebranie wszystkich wła cicieli firmy. Zgromadzenie akcjonariuszy obraduje po sporz dzeniu sprawozdania finansowego za dany rok obrachunkowy. Dywindend mo na wypłaci oczywi cie tylko w roku, w którym spółka wypracowała zysk. Wszystkie akcje zwykłe uprawniaj dywidendy maj do jednakowej dywidendy. Do uzyskania wy szej jedynie prawo zało yciele spółki, którzy s posiadaczami akcji uprzywilejowanych. Dywidenda jest wypłacana wszystkim akcjonariuszom, którzy posiadaj akcje spółki w dniu przyj tym jako dzie ustalenia prawa do dywidendy. Regularne wypłacanie dywidendy przez przedsi biorstwo wiadczy o jej dobrej kondycji finansowej, a tym samym pozytywnie wpływa na wizerunek spółki w ród inwestorów, gdy pozwala dzieli si zyskiem z akcjonariuszami. Praktycznie nie warto kupowa akcji tylko dla dywidendy, gdy dywidenda to wypłata jednorazowa i nie powinna by głównym czynnikiem wyboru akcji. Warto pami ta , e dywidenda jest wypłacana za rok poprzedni, a kurs akcji reaguje na bie c sytuacj w firmie. Mo e si okaza , e rok za który jest wypłacana był dobry finansowo, ale sytuacja rynkowa uległa pogorszeniu i obecnie zyski spadaj , a wraz z nimi kurs akcji. W praktyce mo e to oznacza dla inwestora poniesienie straty, je li trzyma on akcje głównie w oczekiwaniu na dywidend . Najrozs dniejszym rozwi zaniem wydaje si trzymanie akcji ze wzgl du na dobre perspektywy firmy i oczekiwany stabilny wzrost kursu akcji. Dywidenda jako uprawnienie maj tkowe akcjonariusza nie posiada tak istotnego znaczenia dla akcjonariuszy polskich spółek jak to ma miejsce w krajach Europy Zachodniej oraz w Stanach Zjednoczonych. Szczególnie za Atlantykiem dywidenda stanowi dla akcjonariuszy podstawowe ródło dochodu. W Polsce zbyt mało spółek wypłaca dywidend st d brak przywi zania do tego typu instrumentu3. Istnieje wiele czynników kształtuj cych płacenie dywidendy. Nale y do nich 28 wska ników: Zmienne rynkowe: X1 – Roczna stopa zwrotu w % X2 – Współczynnik zmienno ci 1 : X = Pmax − Pmin * 100 2 X3 – Współczynnik zmienno ci 2 : Pmax Pmax − Pkoniec X2 = * 100 Pmax 3 Beata Binek, Paweł Heciak, Michał St pniewski, Dominika Waltz – Komierowska, Prawa i obowi zki akcjonariuszy spółek publicznych, http://www.e-msp.pl/static/msp/files/kpwig/akcjonariusz.pdf X4 – Udział spółki w obrotach giełdy w % X5 – Wska nik obrotu w % X6 – Logarytm dziesi tny warto ci obrotów w mln zł X7 – logarytm dziesi tny kapitalizacji na koniec roku w tys. zł X8 – Udział w kapitalizacji giełdy w ko cu roku w % Zmienne fundamentalne: X9 – Wynik finansowy netto w mld zł X10 – Aktywa ogółem w mld zł X11 – Logarytm warto ci ksi gowej w ko cu roku w mld zł X12 – Przychody ze sprzeda y netto w mld zł X13 – Wynik finansowy netto na 1 akcj w zł X14 – Warto ksi gowa na 1 akcj w zł w ko cu roku X15 – Mar a zysku netto w % X16 – Stopa zwrotu z kapitału własnego w % X17 – Stopa zwrotu z aktywów ogółem w % Zmienne rynkowo – fundamentalne: X18 – Roczny zysk (strata) netto na 1 akcj do ceny akcji w ko cu roku (zysk do ceny) X19 – Warto ksi gowa do warto ci rynkowej w ko cu roku X20 – zerojedynkowa: 0 – ujemny wynik finansowy, 1 – dodatni wynik Zmienne makroekonomiczne: Z1 – Dynamika PKB w cenach stałych Z2 – Dynamika nakładów inwestycyjnych w cenach stałych Z3 – Dynamika importu w cenach stałych Z4 – Dynamika eksportu Z5 – rednioroczny kurs dolara w zł Z6 – Dynamika indeksu WIG Z7 – Dynamika indeksu WIG20 Z8 – Udział firm z ujemn warto ci ksi gow na Giełdzie Papierów Warto ciowych w Warszawie Zmienne te zostały wykorzystane do budowy modelu jako zmienne obja niaj ce. Dodatkowo ka de z 1041 przedsi biorstw zostało opisane zmienn obja nian Y, tzn. zmienn grupuj c populacj na dwie grupy przedsi biorstw – na płac ce i nie płac ce dywidend w badanym okresie. 3. Opis metody Za pomoc sztucznych sieci neuronowych istnieje mo liwo problemów. Mo na je podzieli rozwi zywania wielu na 2 kategorie: klasyfikacyjne (celem klasyfikacji jest przydzielenie rozpatrywanego przypadku do jednej ze zdefiniowanych wcze niej klas. Dla poszczególnych przypadków nale y okre li na wyj ciu pojedyncz zmienn nominaln ) oraz regresyjne (celem regresji jest prognozowanie warto ci okre lonej zmiennej i dla poszczególnych rozpatrywanych przypadków na wyj ciu sieci nale y okre li pojedyncz zmienn numeryczn )4. Prezentowane badania wykorzystuj model regresji (Regression). Aby dokona analizy porównawczej metod preprocessingu, czyli wst pnego przygotowania danych na wej cie do SSN, musimy przede wszystkim wybra jeden rodzaj sieci. Do wyboru mamy ich kilka, m.in.: sie liniowa (Linear), probabilistyczna sie neuronowa (PNN), sie realizuj ca uogólnion regresj (GRNN), radialne funkcje bazowe (Radial basis function RBF) oraz perceptron trzy- i czterowarstwowy (MLP). Wybór został dokonany na podstawie analizy statystycznej (porównaniu poddano rednie bł dy dla zbiorów: ucz cego, walidacyjnego i testowego) próbek zło onych z 50 losowo wygenerowanych sieci ka dego rodzaju (Rys.1.). 2,5 2 redni bł d uczenia 1,5 redni bł d walidacji 1 redni bł d testowania 0,5 0 Linear PNN lub GRNN RBF Three layer perceptron Four layer perceptron Rys. 1. Analiza statystyczna rodzajów SSN Analiza wskazuje na celowe u ycie perceptronu trójwarstwowego (z jedna warstw ukryt ). Poza tym jest to najpopularniejszy rodzaj sieci. Wymaga uczenia iteracyjnego, które bywa czasochłonne, ale otrzymane sieci s niedu e, szybkie i daj wyniki lepsze ni innego rodzaju sieci5. Dynamiczny rozwój tych sieci zapocz tkowany ponownie od lat osiemdziesi tych owocuje niezliczon ilo ci zastosowa praktycznie w ka dej dziedzinie. Mimo takiego rozpowszechnienia nale y jednak podkre li e sie typu MLP jest jedynie pewn gał zi bada nad systemami neuronowymi w ogóle, obejmuj cymi tak e struktury rekurencyjne, jednowarstwowe, czy uczone bez nadzoru. 4 P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL.Wprowadzenie do sieci neuronowych, StatSoft, Kraków 2001, s. 12 5 P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik problemowy, StatSoft, Kraków 2001, s. 184 4. Program bada Badania zrealizowano w nast puj cych etapach: 1. Wyznaczono najlepsz sie zbudowan na kompletnym zestawie zmiennych wej ciowych (28-elementowym). 2. Wyznaczono najlepsze sieci zbudowane na zmiennych wej ciowych wskazanych przez wykorzystane metody: - selekcj krokow post puj c (22 zmienne); - selekcj krokow wsteczn (16 zmiennych); - algorytm genetyczny (3 zmienne). 3. Wyznaczono najlepsz sie dla zbioru zmiennych niezale nych wybranych za pomoc wska ników pojemno ci informacyjnej (metoda Hellwiga – 4 zmienne). 4. Wyznaczono warto ci progowe klasyfikacji (granice decyzyjne) dla poszczególnych metod. 5. Wyznaczono dla poszczególnych sieci ogóln skuteczno oraz bł dy I i II rodzaju. 6. Zaproponowano optymaln metod preprocessingu zmiennych obja niaj cych. Program Statistica 7 domy lnie podzielił przypadki w proporcjach 2:1:1, co dla naszych bada oznacza 521 przypadków do uczenia, 260 do walidacji i 260 do testowania sieci. 5. Wyniki bada 5.1. Budowa modelu bez preprocessingu zmiennych wej ciowych Na pocz tek zbudowano sie , która zgodnie z zało eniami b dzie zawierała komplet zmiennych wej ciowych. Najlepsz sieci okazała si model (Tab.1.): Tab. 1. Sie neuronowa zbudowana na wszystkich zmiennych wej ciowych 5.2. Budowa modelu z preprocessingiem zmiennych wej ciowych Do najtrudniejszych decyzji, jakie musz zosta podj te przez projektanta sieci neuronowych, nale y wybór wła ciwego zestawu zmiennych wej ciowych. Du e sieci s bardziej kłopotliwe ni sieci małe, co powoduje, e czasami dobrym rozwi zaniem jest odrzucenie pewnych zmiennych, nawet je li posiadaj pewn warto informacyjn . W ten sposób uda si zredukowa liczb zmiennych wej ciowych, a przez to wielko zło ono sieci oraz obliczeniow problemu. Jedn z metod gwarantuj cych wybór najlepszego zbioru zmiennych wej ciowych jest podj cie prób uczenia sieci w oparciu o ka dy z mo liwych zbiorów zmiennych wej ciowych, sprawdzenie jako ci modelu i wybranie na tej podstawie najlepszego rozwi zania. Preprocessing danych wej ciowych b dziemy realizowa za pomoc algorytmów doboru cech, do których zaliczamy: selekcj wsteczn krokow i algorytmy genetyczne oraz za pomoc post puj c , selekcj krokow metody wska ników pojemno ci informacyjnej. 5.2.1 Optymalizacja zmiennych wej ciowych za pomoc selekcji krokowej post puj cej Algorytm selekcji krokowej post puj cej (Forward selection) znajduje na pocz tku tak zmienn , która najlepiej przewiduje warto wyj ciow , a nast pnie dodaje kolejn zmienn , która najbardziej poprawia model. Proces ten jest kontynuowany do momentu wyczerpania zmiennych albo do momentu osi gni cia braku poprawy modelu przy doł czaniu kolejnych zmiennych. Post puj cy dobór zmiennych zaleci mo na dla wi kszej liczby potencjalnych zmiennych wej ciowych. Algorytm ten jest o wiele szybszy, ale mo e zgubi wa ne zmienne, których wł czenie do modelu znacznie poprawia jego jako . Metod krokow post puj c wybieramy, gdy chcemy szybko otrzyma jaki wynik. W naszym przypadku metoda ta wyznaczyła nast puj ce zmienne wej ciowe (Tab.2.): Tab. 2. Zmienne wej ciowe wygenerowane przez selekcj krokow post puj c w programie Statistica 7 Najlepsz sieci na takim podzbiorze danych okazał si model (Tab.3.): Tab. 3. Sie neuronowa zbudowana na zmiennych wskazanych przez selekcj krokow post puj c 5. 2.2 Optymalizacja zmiennych wej ciowych za pomoc selekcji krokowej wstecznej Algorytm selekcji krokowej wstecznej (Backward selection) pracuje w przeciwnym kierunku. Zaczyna ze wszystkimi zmiennymi, usuwaj c po jednej. Zaczyna od usuwania tych, których brak najmniej psuje jako predykcji. Wsteczny dobór zmiennych zaleci mo na przy niewielkiej liczbie potencjalnych zmiennych wej ciowych6. Metod krokow wsteczn wybieramy, gdy chcemy otrzyma dokładniejsz analiz cech. Przy zastosowaniu tej metody przestrze wej 6 Ibidem s. 12 zredukowano do podprzestrzeni 16-wymiarowej (Tab.4.): Tab. 4. Zmienne wej ciowe wygenerowane przez selekcj krokow wsteczn w programie Statistica 7 Najlepsz sieci na takim zestawie zmiennych wej ciowych okazał si model (Tab.5.): Tab. 5. Sie neuronowa zbudowana na zmiennych wskazanych przez selekcj krokow wsteczn 5. 2.3 Optymalizacja zmiennych wej ciowych za pomoc algorytmu genetycznego Algorytmy genetyczne (Genetic Algorithm) s szczególnie efektywn technika poszukiwa w zagadnieniach kombinatorycznych, gdzie trzeba podejmowa szereg zale nych od siebie decyzji binarnych. Za pomoc tej metody zbiór danych wej ciowych mo na zakodowa w postaci ci gu binarnego 28-elementowego. Wyst pienie zera na konkretnej pozycji oznacza eliminacj zmiennej przyporz dkowanej do tej pozycji. Wyst pienie jedynki b dzie analogicznie oznaczało pozostawienie danej zmiennej. W programie Statistica 7 znajdujemy wiele parametrów algorytmu genetycznego, takich jak wielko populacji (Population), liczba pokole (Generations), współczynnik mutacji (Mutation rate) oraz współczynnik krzy owania (Crossover rate). Warto ci tych współczynników pozostawiono na poziomie proponowanym przez system, uznaj c je za odpowiednie dla prowadzonych bada : Population = 100, Mutation rate = 0,1, Generations = 100 oraz Crossover rate = 1,0. Nale y okre li tak e warto współczynnika wygładzania (Smoothing). Na szcz cie sieci, które algorytm genetyczny wykorzystuje do swoich testów nie s zbytnio wra liwe na precyzyjn warto tego współczynnika i w przypadku naszego zadania warto domy lna 0,1 7 b dzie odpowiednia . Dla danych o du ej liczbie przypadków algorytm doboru cech mo e potrzebowa du o czasu obliczeniowego. W takim przypadku zastosowa mo na próbkowanie (Sampling). Mo emy wybra pewien dodatkowy wpływ na proces eliminacji niechcianych zmiennych poprzez okre lenie warto ci kary jednostkowej (Unit penalty). Warto ta mno ona jest przez liczb neuronów w sieci i wynik dodawany jest do bł du w trakcie oceny jako ci ka dej z rozwa anych sieci. Mechanizm ten powoduje karanie du ych sieci i sprzyja tworzeniu sieci oszcz dnych, zarówno pod wzgl dem struktury, jak i liczby wykorzystywanych sygnałów wej ciowych. W naszym przypadku wszystkie zmienne 7 P.Lula, R.Tadeusiewicz, Kurs u ytkownika programu na przykładach, StatSoft, Kraków 2001, str. 60 i nast pna wej ciowe wnosz istotne informacje charakteryzuj ce zmienn definiowanie kary jednostkowej mo e okaza si obja nian , dlatego potrzebne. Niezerowa warto kary jednostkowej faworyzuje mniejsze sieci i zwykle zwi ksza sprawno . Natomiast gdy współczynnik ten jest zbyt du y, to od jako ci sieci staje si wa niejsza liczba zmiennych8. Musimy pami ta , e typowe warto ci tego współczynnika mieszcz si w przedziale 9 [0,001;0,01] . Przed uruchomieniem algorytmu genetycznego przeprowadzono kilka eksperymentów, maj cych na celu okre lenie jej wła ciwej warto ci. Warto kary jednostkowej domy lnie ustawiona na 0,0001 spowodowała ograniczenie liczby wej do 19 elementów (Tab.6.): Tab. 6. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0001 Tablice 7-14 prezentuj dobór zmiennych przy zastosowaniu ró nych kar jednostkowych: Tab. 7. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00017 Tab. 8 Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0002 Tab. 9. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00055 Tab. 10. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00075 Tab. 11. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,00085 Tab. 12. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0015 Tab. 13. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0025 8 P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik problemowy, StatSoft, Kraków 2001, str. 126 9 P.Lula, R.Tadeusiewicz, STATISTICA Neural Networks PL. Kurs u ytkownika programu w przykładach, StatSoft, Kraków 2001, str. 61 Tab. 14. Zmienne wej ciowe wybrane przez algorytm genetyczny z kar jednostkow 0,0035 Jak wida , liczba zmiennych wej ciowych zmienia si wraz ze wzrostem warto ci kary jednostkowej na coraz mniejsz . Dokładne kształtowanie si liczby zmiennych liczba zmiennych wej ciowych wej ciowych wobec kary jednostkowej przedstawia poni szy wykres (Rys.2.): 20 18 16 14 12 10 8 6 4 2 0 0,0001 0,00017 0,0002 0,00055 0,00075 0,00085 0,0015 0,0025 0,0035 kara jednostkowa Rys. 2. Genetic Algorithm Selection Spo ród trzech zbiorów o najmniejszej liczbie wej najlepsz sie utworzył zbiór przy karze jednostkowej 0,0025 (pole Error w tablicach 12-14) i to on posłu ył do dalszych bada . Tablica 15 przedstawia współczynniki jako ciowe sieci zbudowanej na wybranych zmiennych wej ciowych. Tab. 15. Sie utworzona na zbiorze zmiennych wskazanych przez algorytm genetyczny 5.2.4 Optymalizacja zmiennych wej ciowych za pomoc metody Hellwiga Metoda Hellwiga pozwala na wybór zmiennych obja niaj cych silnie skorelowanych ze zmienn obja nian i jednocze nie słabo skorelowanych mi dzy sob . Tworzymy macierz R (macierz współczynników korelacji pomi dzy zmiennymi obja niaj cymi) oraz macierz Ro (macierz współczynników korelacji pomi dzy zmienn obja nian a zmiennymi obja niaj cymi). Nast pnie obliczamy indywidualne wska niki pojemno ci informacyjnej: H lj = r j2 /(1 + m i =1 i≠ j rij ) l = 1,2, ... , L j = 1,2, ... , m Wska niki te oblicza si dla ka dej zmiennej w obr bie ka dej kombinacji zmiennych obja niaj cych. Integralne wska niki pojemno ci informacyjnej dla ka dej kombinacji potencjalnych zmiennych obja niaj cych oblicza si jako sum indywidualnych pojemno ci zmiennych wyst puj cych w danej kombinacji. Najwi ksz warto pojemno ci informacyjnej maj wyst puj ce zmienne s skorelowane mi dzy sob te kombinacje zmiennych obja niaj cych, dla których mocno skorelowane ze zmienn 10 integralnych wska ników obja nian natomiast słabo . Program Estimatic wskazał zmienne X2, X9, X13 oraz X20 dla warto ci integralnego wska nika pojemno ci informacyjnej równego 0,20644. Najlepsz sieci utworzon dla tych zmiennych okazał si model przedstawiony w Tabeli 16. Tab. 16. Sie neuronowa utworzona na zmiennych wskazanych za pomoc metody Hellwiga 5.3.Wyznaczenie warto ci progowych Zadaniem utworzonych przez nas modeli SSN jest poprawne zaklasyfikowanie przedsi biorstw do jednej z dwóch grup firm, tj. tych, które zapłac lub nie zapłac dywidend . St d wyj cie ka dej sieci zawiera tylko jeden neuron, przyjmuj cy w procesie uczenia sieci warto ci 0 lub 1. Nale y jednak zauwa y , e warto ci wyj poszczególnych testowanych sieci nie s równe warto ciom zadanym w próbie ucz cej, lecz przyjmuj warto ci z przedziału (0,1), któr mo emy traktowa jako stopie przynale no ci do okre lonej klasy. W zwi zku z tym nale y ustali próg , na podstawie którego warto ci wyj uto samia przyporz dkowana si b d z odpowiedni badana firma. z prawdopodobie stwem pojawienia si grup Warto przedsi biorstw do której zostanie progow wyznaczymy zgodnie obiektów nale cych do okre lonej grupy, oszacowanych dla grupy ucz cej, walidacyjnej i testowej11 (Tab.17.): Tab. 17. Warto ci progowe dla poszczególnych metod doboru zmiennych wej ciowych Metoda Wszystkie zmienne Selekcja krokowa post puj ca Selekcja krokowa wsteczna Algorytm genetyczny 10 Zbiór uczenie walidacja testowanie uczenie walidacja testowanie uczenie walidacja testowanie uczenie walidacja Liczba zer 367 196 189 378 198 176 366 193 193 371 191 Liczba jedynek 154 64 71 143 62 84 155 67 67 150 69 Próg 0,29 0,32 0,31 0,35 M. Gruszczy ski i inni, Ekonometria, Oficyna Wydawnicza SGH, Warszawa1996, str. 15 T. Korol, B. Prusak, Upadło przedsi biorstw a wykorzystanie sztucznej inteligencji, CeDeWu, Warszawa 2005, str. 156 11 Metoda Hellwiga testowanie uczenie walidacja testowanie 190 370 187 195 70 151 73 65 0,31 5.4 Wyznaczenie parametrów oceny jako ci klasyfikacji Jako klasyfikacji oceniono na podstawie bł du I i II rodzaju (B1, B2) oraz ogólnej skuteczno ci sieci (S) za pomoc nast puj cych wzorów: B1 = D1 ⋅ 100% NPD B2 = D2 ⋅ 100% PD S = 1− D1 + D 2 ⋅ 100% NPD + PD gdzie: D1 – liczba przedsi biorstw nie płac cych dywidendy zaklasyfikowanych przez sie jako firmy płac ce NPD – liczba przedsi biorstw nie płac cych dywidendy w próbie ucz cej /walidacyjnej /testowej D2 - liczba przedsi biorstw płac cych dywidend zaklasyfikowanych przez sie jako firmy nie płac ce PD - liczba przedsi biorstw płac cych dywidend w próbie ucz cej /walidacyjnej /testowej Ogólna skuteczno informuje nas, jaki procent stanowi ogółem prawidłowo zakwalifikowane przypadki (przedsi biorstwa płac ce i nie płac ce dywidend ). Bł d I rodzaju okre la bł dn decyzj zakwalifikowania przedsi biorstwa nie płac cego dywidendy na płac ce. Bł d II rodzaju okre la bł dn decyzj zakwalifikowania przedsi biorstwa płac cego dywidend na nie płac ce. Przyj to, e bardziej szkodliwy b dzie w tym przypadku Bł d I rodzaju. Wyniki uzyskanych oblicze przedstawia Tabela 18: Tab. 18. Zestawienie wyników klasyfikacji przedsi biorstw poszczególnych metod Skuteczno Bł d I rodzaju Bł d II rodzaju Skuteczno Zbiór Wszystkie zmienne uczenie walidacja testowanie uczenie walidacja testowanie uczenie walidacja testowanie 18,3% 17,3% 27,5% 18,8% 23,4% 32,4% 81,6% 81,2% 71,2% 6.Wnioski z bada Selekcja krokowa post puj ca 29,9% 29,3% 31,8% 25,2% 27,4% 27,4% 71,4% 71,2% 69,6% Metoda Selekcja krokowa wsteczna 27,9% 32,6% 34,2% 13,5% 17,9% 13,4% 76,4% 71,2% 71,2% Algorytm genetyczny Metoda Hellwiga 37,2% 37,2% 31,6% 32,0% 17,4% 31,4% 64,3% 68,1% 68,5% 29,2% 26,2% 29,2% 20,5% 26,0% 18,5% 73,3% 73,8% 73,5% Analiza wyników zawartych w Tabeli 18 pozwala stwierdzi , e bł dy s do znaczne. Utworzone sieci charakteryzuj si zarówno du ymi bł dami I rodzaju, jak i II rodzaju. wiadczy to z pewno ci o tym, e problem przewidywania decyzji o wypłacie dywidendy obarczony jest bardzo du losowo ci . Najlepsze efekty uzyskała sie utworzona na kompletnym zestawie zmiennych wej ciowych. Oznacza to, e w ród badanych zmiennych obja niaj cych brak jest takich, które samodzielnie lub w kombinacji z mała liczb pozostałych, dysponowałyby du ym potencjałem informacyjnym. Ka de ograniczenie zmiennych tylko zmniejsza ten potencjał. W sieci utworzonej na zbiorze wskazanym przez krokow selekcj post puj c zminimalizowanie liczby cech opisuj cych obiekt do 22 spowodowało zmniejszenie efektywno ci odpowiednio dla zbioru ucz cego, walidacyjnego i testowego o 10,2 %, 10% oraz 1,6%. W sieci utworzonej na zbiorze tylko 3-elementowym wskazanym przez algorytm genetyczny efektywno wida skuteczno spadła o wiele bardziej odpowiednio o 17,3%, 13,1% oraz 2,7%. Jak na zbiorze testowym wykazała najmniejsze spadki. Nale y tak e zauwa y , e mimo prawie identycznej ogólnej skuteczno ci zarówno modelu utworzonego na zbiorze wskazanym przez selekcj krokow post puj c jak i krokow wsteczn , model pierwszy wygenerował wi ksze bł dy I rodzaju uznane przez nas za bardziej szkodliwe. Porównuj c wszystkie cztery metody wyra nie wida bł dami I rodzaju charakteryzuje si e najwi kszymi algorytm genetyczny, ale tylko w odniesieniu do zbiorów: ucz cego i walidacyjnego. Na zbiorze testowym wida wyra n popraw tego wska nika. wiadczy to mo e o wi kszej zdolno ci predykcyjnej tego modelu, wynikaj cej prawdopodobnie z lepszego „uogólnienia” problemu. Zdolno generalizacji to jako działania na niedost pnych w procesie uczenia, nowo powstałych danych. Dodatkowo brak zaufania do pozostałych modeli mo e budzi niewystarczaj ca liczba przypadków ucz cych u ytych w trakcie bada . Jak wynika z Tabeli 19 liczba minimalnych przypadków12 dla poszczególnych metod znacznie przewy sza liczebno dost pnego nam zbioru 521 przypadków w zbiorze ucz cym, a tym samym powa nie podwa a ich wiarygodno ze wzgl du na mo liwo zbytniego dopasowania si do danych. Tab. 19. Zestawienie minimalnej liczebno ci przypadków dla poszczególnych metod Metoda Wszystkie zmienne Selekcja krokowa post puj ca Selekcja krokowa wsteczna Algorytm genetyczny 12 Minimum przypadków w zbiorze ucz cym 2N 268435456 4194306 65536 8 W literaturze wiatowej przyjmuje si , e je li na wej ciu SSN pojawia si N- wymiarowy wektor, to powinni my dysponowa 2N przypadkami ucz cymi. Nale y tak e zauwa y , e redukcja zmiennych wej ciowych z wykorzystaniem AG zminimalizowała zró nicowanie jako ci klasyfikacji dla uczenia, walidacji i testowania. Zjawisko takie te przemawia za uznaniem wi kszych zdolno ci predykcyjnych takiego modelu. Literatura 1) M. Gruszczy ski i inni, Ekonometria, Oficyna Wydawnicza SGH, Warszawa 1996 2) T. Korol, B. Prusak, Upadło przedsi biorstw a wykorzystanie sztucznej inteligencji, CeDeWu, Warszawa 2005 3) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Kurs u ytkownika programu w przykładach, StatSoft, Kraków 2001 4) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Przewodnik problemowy, StatSoft, Kraków 2001 5) P. Lula, R. Tadeusiewicz, STATISTICA Neural Networks PL. Wprowadzenie do sieci neuronowych, StatSoft, Kraków 2001 6) Paweł Ro czak, Implementacja i wykorzystanie wielowarstwowej sieci perceptronowej w modelowaniu makroekonomicznym, http://pawelrosczak.republika.pl/mlp/ai.html 7) Beata Binek, Paweł Heciak, Michał St pniewski, Dominika Waltz – Komierowska, Prawa i obowi zki akcjonariuszy spółek msp.pl/static/msp/files/kpwig/akcjonariusz.pdf publicznych, http://www.e-