Zagadnienie porzŕdkowania podmiotów gospodarczych z punktu

Transkrypt

Zeszyty
Naukowe nr
740
2007
Akademii Ekonomicznej w Krakowie
Katarzyna Frodyma
Katedra Statystyki
Zagadnienie porzàdkowania
podmiotów gospodarczych z punktu
widzenia ich sytuacji finansowej
1. Wprowadzenie
Niniejszy artykuł jest pierwszym etapem szerszych badań związanych z klasyfikacją podmiotów gospodarczych z punktu widzenia ich zdolności kredytowej.
Podany przykład empiryczny dotyczy nieco węższego zagadnienia, gdyż przedsiębiorstwa oceniane są jedynie za pomocą wskaźników analizy finansowej. Jest
to więc część oceny zdolności kredytowej oparta na miernikach ilościowych.
Autorka ma jednak nadzieję, że otrzymane wyniki będą mogły zostać wykorzystane w przyszłości.
Analiza osiąganych wyników gospodarowania w firmie składa się z reguły
z dwóch części1: analizy opisowej oraz analizy sprawozdań finansowych. Druga
część składa się z kilku podstawowych sprawozdań finansowych, takich jak:
bilans firmy, rachunek zysku i strat, rachunek przepływów finansowych.
Szczegółowej analizy sytuacji finansowej firmy dokonuje się biorąc pod uwagę
wskaźniki finansowe, które wyznaczane są na podstawie wcześniej wymienionych
sprawozdań finansowych.
Najogólniej wskaźniki analizy finansowej podzielić można na cztery grupy2:
1) wskaźniki płynności finansowej – charakteryzują zdolność firmy do terminowego regulowania należności; do najczęściej stosowanych wskaźników wchodzących w skład tej grupy należą wskaźnik płynności bieżącej oraz wskaźnik
płynności szybkiej;
1
2
Por. [Czekaj, Dresler 1998].
Szerzej zob. [Ziemba 2001], [Czekaj, Dresler 1998].
112
Katarzyna Frodyma
2) wskaźniki zadłużenia – obrazują strukturę finansowania majątku przedsiębiorstwa; najczęściej w praktyce wylicza się wskaźnik ogólnego zadłużenia
(wskaźnik zadłużenia aktywów), wskaźnik zadłużenia kapitału własnego oraz
wskaźnik zadłużenia długookresowego;
3) wskaźniki rentowności – najogólniej ujmując, świadczą one o zdolności
firmy do generowania zysku; najczęściej wyznacza się: wskaźnik rentowności
netto, wskaźnik rentowności brutto, wskaźnik rentowności kapitałów własnych
oraz wskaźnik rentowności aktywów;
4) wskaźniki efektywności (aktywności) – świadczą o wykorzystaniu aktywów
firmy i charakteryzują jej pozycję finansową; należą do nich: wskaźnik rotacji
należności, wskaźnik rotacji zobowiązań oraz wskaźnik rotacji aktywów.
Często w literaturze przedmiotu3 wskazuje się również piątą grupę: wskaźniki
wartości rynkowej firmy.
Celem prowadzonych badań jest próba stworzenia jednolitego systemu klasyfikacji przedsiębiorstw, który będzie pomocny przy podejmowaniu decyzji, czy kredyt ma zostać przyznany, czy też należy odrzucić wniosek kredytowy. Zadaniem
stworzonego systemu będzie również pomoc, już w trakcie trwania umowy kredytowej, przy przyporządkowywaniu kredytu do poszczególnych grup ryzyka.
Działalność kredytowa jest jednym z głównych obszarów działalności banku,
ponadto jest to działalność obarczona największym ryzykiem. Ryzyko kredytowe4
jest obok ryzyka płynności, ryzyka stopy procentowej oraz ryzyka dewizowego
(kursowego) głównym elementem ryzyka bankowego. W związku z jego wpływem na ogólną kondycję banku należy je mierzyć i oceniać. W ostatnich latach
coraz większe znaczenie zyskują metody matematyczne oraz statystyczne oceny
ryzyka kredytowego, których głównym aspektem jest ocena zdolności kredytowej
przedsiębiorstwa ubiegającego się o kredyt. Przy czym przez zdolność kredytową
rozumie się zdolność do spłaty zaciągniętego kredytu wraz z odsetkami, w terminach określonych w umowie. Teoria statystyki dysponuje metodami taksonomicznymi, które mogą zostać wykorzystane do stworzenia całościowego systemu
oceny przedsiębiorstw.
Wybór metody oceny zdolności kredytowej, a następnie metody zakwalifikowania konkretnego przedsiębiorstwa do określonej grupy ryzyka kredytowego jest
niezbędny do podjęcia właściwej decyzji odnośnie do udzielenia kredytu, a także
określenia konkretnych warunków umowy kredytowej.
Obowiązek dokonywania przez bank oceny zdolności kredytowej klienta
wynika bezpośrednio z prawa bankowego5. Rozporządzenie Ministra Finansów
3
Por. [Czekaj, Dresler 1998], [Statystyczne metody…, 1998].
Szerzej zob. [Petterson 1995], [Stolarz 1996], [Wiatr 2004].
5
Szerzej zob. [Jagiełło, Tomczyk 2003].
4
Zagadnienie porządkowania podmiotów…
113
z dnia 10 grudnia 2003 r. w sprawie zasad tworzenia rezerw na ryzyko związane
z działalnością banków (Dz.U. nr 218, poz. 2147), nie tylko określa grupy ryzyka
i związane z nimi rezerwy, ale również ramowe kryteria klasyfikacji przedsiębiorstw do poszczególnych grup ryzyka. Prawo bankowe przywiduje pięć grup
ryzyka kredytowego:
– kategoria „normalne”,
– kategoria „pod obserwacją”,
– grupy „zagrożone” (w tym: kategoria „poniżej standardu”, kategoria „wątpliwe”, kategoria „stracone”).
Podmioty klasyfikowane są do grup z uwzględnieniem dwóch kryteriów: kryterium terminowości spłaty kapitału lub odsetek oraz kryterium oceny sytuacji
ekonomiczno-finansowej dłużnika.
2. Metody oceny zdolnoÊci kredytowej
Przez lata istnienia systemu bankowego na świecie powstało wiele metod oceny
zdolności kredytowej, nie powstał jednak żaden jednolity wzorzec. Dziś niemal
każdy bank komercyjny stosuje inne kryteria przyznawania kredytów. Mimo
wypracowania przez wiele lat praktyki pewnych ramowych schematów dotyczących badania oceny zdolności kredytowej, brak jest jednoznacznej odpowiedzi na
pytanie, jak klasyfikować klientów, aby zminimalizować ryzyko kredytowe.
Jedną z pierwszych metod oceny sytuacji ekonomiczno-finansowej przedsiębiorstw była metoda wskaźnikowa6. Metoda ta polega na zastosowaniu głównych
wskaźników ekonomicznych, takich jak wskaźniki płynności finansowej, wskaźniki rentowności, wskaźniki wspomagania finansowego, a obecnie często wzbogacona jest także o ocenę konkretnej inwestycji.
Do najbardziej rozpowszechnionych metod badania zdolności kredytowej
należą modele scoringowe7, które polegają na stworzeniu agregatowego wskaźnika,
nazywanego indeksem8. W metodzie tej wybranym wskaźnikom ekonomicznym
przyporządkowuje się odpowiednie wagi na podstawie obserwacji o charakterze
statystycznym. Scoring można określić jako system automatycznej i obiektywnej
oceny obiektu, wprowadzony w rezultacie doświadczeń, uzasadniony przykładami
i statystykami9. Pierwszym etapem credit-scoringu jest wybór wskaźników, które
posłużą do oceny przedsiębiorstw. Jest to etap niezwykle trudny. Ogólne wskazówki zawarte są w obowiązującym rozporządzeniu. Przez pewien okres liczba
6
Por. [Różański 2001], [Strahl 2000].
Szerzej zob. [Janc, Kraska 2001].
8
Zob. [Kuryłek 2000].
9
[Boguszewski, Gelińska 2004].
7
114
Katarzyna Frodyma
wskaźników brana pod uwagę podczas analizy gwałtownie rosła. Spowodowane
było to głównie rozwojem informatyki; bardziej skomplikowane obliczenia nie
stanowiły już problemu. Jak się jednak okazało w tym przypadku, ilość nie przechodziła w jakość. Dziś każdy bank stara się samodzielnie określić optymalną
liczbę wskaźników. Następnie należy określić odpowiednią bazę odniesienia, aby
móc właściwie ocenić poziom i kierunki zmian zachodzących w przedsiębiorstwie.
W niniejszej pracy wykorzystano optymalne wartości wskaźników zaczerpnięte
z literatury przedmiotu. Kolejnym etapem badania jest stworzenie agregatowego
wskaźnika, na podstawie którego bank będzie podejmował decyzje, czy udzielić
kredytu, a następnie zakwalifikować kredytobiorcę do określonej grupy ryzyka
kredytowego. Najpoważniejszym problemem na tym etapie jest przyznanie wag
poszczególnym wskaźnikom wchodzącym w skład indeksu.
W końcu należy wybrać odpowiedni sposób klasyfikacji przedsiębiorstw.
W tym celu stosuje się różne metody10, które najogólniej można podzielić na:
– metody statystyczno-matematyczne (analiza dyskryminacyjna, regresja liniowa,
regresja logistyczna, drzewo klasyfikacyjne, metoda najbliższego sąsiada),
– metody niestatystyczne (programowanie matematyczne, sieci neuronowe,
algorytm genetyczny, systemy eksperckie).
Ponadto wśród metod oceny zdolności kredytowej znane są także metody
wielokryterialne, zwane również metodami punktowymi. Mają one tę zaletę,
że uwzględniają nie tylko kryteria o charakterze mierzalnym, ale również niemierzalne. Ich mocną stroną jest także to, że stosuje się w nich daleko idącą standaryzację, która pozwala na relatywnie szybkie uzyskiwanie wyników. Wadą zaś
tych metod jest subiektywizm oceny (odnoszący się głównie do oceny kryteriów
niemierzalnych).
W XXI w. codziennością stały się komputery. Również w bankowości korzysta się z nowoczesnych osiągnięć informatyki. Jedną z metod oceny zdolności
kredytowej, w której wykorzystywane są osiągnięcia informatyki, są algorytmy
genetyczne11. Pozwalają one na stosunkowo szybką ocenę, dzięki czemu zdecydowanie skraca się czas rozpatrywania wniosków kredytowych. Istnieje możliwość
wprowadzania nie tylko obiektywnych ocen liczbowych, ale również subiektywnej oceny pewnych kryteriów. Metoda ta wymaga jednak stworzenia dużej bazy
danych historycznych.
Zaawansowaną technologicznie metodą są systemy hybrydowe, czyli połączenie sieci neuronowych z systemami eksperckimi. Sieci neuronowe dobrze
rozpoznają zależności miedzy różnymi zjawiskami12, jednak trudno jest uzyskać
10
Zob. [Batóg 1997], [Dziechciarz, Walesiak 2000], [Gantar 1999], [Matuszyk 2003], [Gasik 1998],
[Grabiński 1992], [Grabiński, Wydymus, Zeliaś 1989].
11
Szerzej zob. [Gwiazda 1998].
12
Por. [Witkowska 2002].
115
informacje dotyczące sposobu dojścia do określonych informacji. Dlatego też etap
zastosowania sieci neuronowych często poprzedza się oceną wniosków kredytowych z wykorzystaniem systemów eksperckich, których zadaniem jest wstępne
odrzucenie tych wniosków, które odrzuciłby inspektor kredytowy.
3. Porzàdkowanie spó∏ek publicznych województwa
ma∏opolskiego
Przedstawiony przykład empiryczny to pierwsze podejście autorki do tego typu
badań. Badaniem objęte zostały jedynie spółki mające siedzibę główną na terenie
województwa małopolskiego. W kolejnych pracach autorka zamierza rozszerzyć analizę na wszystkie spółki w Polsce, biorąc pod uwagę również cechy jakościowe.
3.1. Dobór badanych spółek
Dane liczbowe dotyczą spółek publicznych działających w województwie małopolskim. Pod pojęciem spółki publicznej rozumie się spółkę, której akcje chociaż
jednej emisji dopuszczone zostały do obrotu publicznego przez Komisję Papierów
Wartościowych i Giełdy (KPWiG). Przedsiębiorstwo, będąc spółką publiczną,
od dnia udostępnienia prospektu do publicznej wiadomości zaczyna podlegać
tzw. obowiązkom informacyjnym ciągłym, a więc obowiązkowi przekazywania
do publicznej wiadomości określonych ustawowo informacji w formie raportów
bieżących i raportów okresowych. Obowiązek ten ma charakter ciągły i ustaje
dopiero z chwilą wycofania lub wykluczenia papierów wartościowych emitenta
z publicznego obrotu. W województwie małopolskim siedzibę główną miało 21
spółek publicznych13:
– Alma Market SA (dawniej: Firma Handlowa KrakChemia SA, Kraków),
– Ampli SA (Tarnów),
– Artman SA (dawniej: Artman Sp. z o.o., Kraków),
– Bank BPH SA (dawniej: Bank Przemysłowo-Handlowy SA, Kraków),
– Browary Polskie Brok-Strzelec (dawniej: Małopolski Browar Strzelec SA,
Kraków),
– Comarch SA (Kraków),
– Deutsche Bank PBC SA (dawniej: Bank Współpracy Regionalnej SA, Kraków),
– Fabryka Elementów Hydrauliki Ponar-Wadowice SA (Wadowice),
– Firma Chemiczna Dwory SA (dawniej: Zakłady Chemiczne Oświęcim SA,
Oświęcim),
– Grupa Kęty SA (dawniej: Zakłady Metali Lekkich Kęty SA, Kęty),
13
Dane na dzień 2.12.2004 r.
Katarzyna Frodyma
116
– Grupa Onet.pl SA (dawniej: Optimus SA, Nowy Sącz),
– Instal Kraków SA (dawniej: Instal Kraków Sp. z o.o.; Kraków),
– Interia.pl SA (dawniej: Interia.pl Sp. z o.o., Kraków),
– Korporacja Gospodarcza Efekt SA (Kraków),
– Naftobudowa SA (Kraków),
– Nowosądecka Fabryka Urządzeń Górniczych Nowomag SA (Nowy Sącz),
– Optimus SA (dawniej: Optimus Technologie SA, Nowy Sącz),
– Unimil SA (dawniej: Przedsiębiorstwo Przemysłowo-Handlowe Unimil
Sp. z o.o., Dobczyce),
– Vistula SA (dawniej: Zakłady Przemysłu Odzieżowego Vistula SA, Kraków),
– Zakład Przemysłu Hutniczego Stalprodukt SA w Bochni (Bochnia),
– Zakłady Przemysłu Cukierniczego Wawel SA (Kraków).
Dwie z wymienionych spółek nie zostały uwzględnione w analizie z uwagi
na specyfikę ich działalności. Są to Bank BPH SA oraz Deutsche Bank PBC SA.
Informacje dotyczące pozostałych spółek pochodzą ze strony internetowej: ISI
Emerging Markets14, wskaźniki finansowe pochodzą z bazy Corporate Database
i dotyczą 2002 r., oparte są na danych oficjalnych audytowanych. Wskaźniki
dwóch przedsiębiorstw (Optimus SA oraz Nowomag SA) wyznaczone zostały na
podstawie danych surowych pochodzących z bilansu oraz rachunku zysków i strat.
Dane finansowe tych spółek (bilans, rachunek wyników, rachunek przepływów
finansowych) pochodzą z „Monitora Polskiego B”15.
3.2. Opis wybranych wskaêników analizy finansowej
Wyboru zestawu wskaźników do oceny sytuacji finansowej badanych spółek
dokonano opierając się na Rozporządzeniu Ministra Finansów (obowiązującym
wszystkie banki) oraz biorąc pod uwagę wskaźniki stosowane zazwyczaj przez
polskie banki komercyjne, dostępność danych, a także teorię finansów dotyczącą
poszczególnych mierników.
Wskaźniki płynności finansowej
majątek obrotowy
.
zobowiązania krótkoterminowe
Jest to wskaźnik, który informuje o zdolności firmy do regulowania swoich
zobowiązań bieżących. Jak wynika z praktyki16, jego wartość powinna mieścić
się w przedziale 〈 1,2; 2,0 〉. Wartość poniżej 1 może świadczyć o kłopotach z płyna) wskaźnik płynności bieżącej (x1) =
14
http://site.securities.com.
„Monitor Polski B” w wersji elektronicznej znajduje się na stronach ISI Emerging Markets.
16
Szerzej zob. [Czekaj, Dresler 1998].
15
117
nością, a tendencja spadkowa wskaźnika jest sygnałem informującym o możliwości wystąpienia trudności płatniczych. Także zbyt wysoka wartość tego wskaźnika
nie jest wskazana, gdyż świadczy o nadpłynności, czyli niepełnym wykorzystaniu
zobowiązań krótkoterminowych jako źródła finansowania majątku obrotowego.
Ważne jest, aby zwrócić uwagę na fakt, iż w dużej mierze optymalny poziom
tego wskaźnika zależy od rodzaju działalności gospodarczej i jest on branżowo
zróżnicowany.
majątek obrotowy – zapasy
.
b) wskaźnik płynności szybkiej (x2) =
zobowiązania krótkoterminowe
Wskaźnik ten, zwany także wskaźnikiem podwyższonej płynności, mierzy
zdolność firmy do natychmiastowej spłaty długu. Wartość tego wskaźnika17 oscylować powinna wokół 1; w praktyce możemy mówić o dobrej płynności, jeśli jego
wartość mieści się w przedziale 〈 1,0; 1,2 〉. Również tutaj wartość poniżej jedności
może być sygnałem kłopotów z terminowym regulowaniem zobowiązań.
Wskaźniki zadłużenia
a) wskaźnik ogólnego zadłużenia (x3) =
zobowiązania ogółem
aktywa ogółem
Im wyższy jest poziom tego wskaźnika, tym ryzyko finansowe jest wyższe,
ponieważ wyższy jest poziom zadłużenia, choć należy pamiętać, że w znacznym
stopniu jego wysokość zależy od branży (banki i firmy leasingowe charakteryzują
się wysoką wartością tego wskaźnika).
zobowiązania ogółem
.
b) wskaźnik zadłużenia kapitału własnego (x4) =
kapitały własne
Wskaźnik ten określa zaangażowanie kapitału obcego w stosunku do kapitału
własnego. Według standardów międzynarodowych18 (UNIDO, Bank Światowy)
optymalna relacja pomiędzy tymi kapitałami powinna wynosić od 67% (kapitał
własny) do 33% (kapitał obcy), choć dopuszcza się relację 50% : 50%.
Wskaźniki rentowności
a) wskaźnik rentowności netto (x5) =
wynik netto
.
przychody ze sprzedaży
Informuje on, ile wyniku finansowego netto uzyskuje się z jednej złotówki
pochodzącej ze sprzedaży. Pożądany jest wysoki poziom tego wskaźnika, ponieważ
im wyższa jego wartość, tym wyższa jest efektywność osiąganych dochodów.
17
18
Por. [Czekaj, Dresler 1998].
Por. ibidem.
Katarzyna Frodyma
118
b) wskaźnik rentowności kapitałów własnych (x6) =
wynik netto
.
kapitały własne
Wskaźnik ten zwany jest także wskaźnikiem zyskowności kapitału własnego
lub stopą zwrotu z kapitału własnego (ROE). Wysoki poziom tego wskaźnika
świadczy o korzystnej sytuacji finansowej przedsiębiorstwa, możliwości powstania
nadwyżki finansowej, a co za tym idzie, perspektywie dalszego rozwoju firmy.
wynik netto
.
c) wskaźnik rentowności aktywów (x7) =
kapitały własne
Wskaźnik rentowności (zyskowności) aktywów (ROA) pokazuje, jak efektywnie firma zarządza swoim majątkiem. W praktyce banki, udzielając kredytu,
oczekują, aby wskaźnik ten znajdował się na poziomie 2–6%, ale im wyższy jest
jego poziom, tym lepiej.
Wskaźnik efektywności
a) wskaźnik rotacji mależności (x8) =
.
przeciętny stan należności
Trudno jest określić optymalny poziom tego wskaźnika, zwykle porównuje
się go do wartości z ubiegłych okresów lub z sytuacją występującą w innych firmach danej branży. Zadowalający jest jego poziom z przedziału 〈 7; 10 〉. Wartość
poniżej 7 oznacza, że przedsiębiorstwo kredytuje swoich klientów, co wiąże się
z zamrożeniem środków. Im dłuższy jest ten okres, tym firma szybciej przekształca
należności w środki pieniężne i tym mniej potrzebuje kapitału własnego i obcego
do finansowania tych należności.
.
b) wskaźnik rotacji aktywów (x9) =
przeciętny poziom aktywów
Jedna z interpretacji tego wskaźnika mówi, że jego wartość informuje, jaką
wartość sprzedaży osiągnięto z zaangażowania 1 zł aktywów. W związku z tym
im wyższa jest wartość tego wskaźnika, tym lepiej.
Tabela 1. Wskaźniki finansowe dla spółek publicznych województwa małopolskiego
Nazwa spółki
Wskaźnik
x1
x2
x3
x4
Alma Market SA 0,5436 0,1990 0,5459 1,2934
x5
x6
2,0268
8,3226
x7
x8
x9
3,5125 51,6237 1,7019
Ampli SA
1,0625 0,8000 0,7182 2,6005 –2,8487 –18,9291 –5,2280 2,2304 1,4093
Artman SA
1,1929 0,3256 0,4910 1,6784
4,7039
35,0751
10,2622 18,1641 2,8812
Brok-Strzelec SA 0,5913 0,5259 0,6338 1,9939
0,7988
1,1931
0,3793
3,5764 0,5427
119
cd. tabeli 1
Nazwa spółki
Wskaźnik
x1
x2
x3
x4
x5
x6
x7
7,0409
4,3347
3,2349 0,8175
Comarch SA
3,4570 3,2782 0,3406 0,5533
6,2546
x8
x9
Dwory SA
0,7241 0,4775 0,5041 1,1868
1,0988
2,7657
1,1748
7,0066 1,1113
Efekt SA
1,1062 0,9663 0,2287 0,3310
4,1997
3,2992
2,2798
7,4038 0,5597
Instal Kraków
SA
2,0050 1,9246 0,3440 0,5789
1,3878
2,8812
1,7120
2,7289 1,1994
Interia.pl SA
8,8620 8,8008 0,0563 0,0622 –54,7590 –56,5373 –51,1377 3,3490 0,7381
Kęty SA
1,3241 0,8979 0,4044 0,7454
Naftobudowa SA 0,8292 0,7797 0,7795
4,6212
7,5588
4,1008
4,0557 0,8460
5,7311 –5,9227 –68,8210 –9,3611 2,9283 1,4485
Nowomag SAa
0,9074 0,5725 0,7995 6,3860
3,3842
46,8141
5,8611
4,6079 1,6357
Onet.pl SA
5,6089 5,6089 0,0186 0,0193
3,8443
1,2817
1,2329
0,6677 0,1598
Optimus SAa
0,9551
0,7529 0,5760 2,6288 –29,3654 –343,9571 –75,3625 12,6736 3,8075
Ponar-Wadowice
6,1026 3,3534
SA
0,1014
0,1340 –18,2058 –21,4465 –16,2401 5,0867 0,8800
Stalprodukt SA
0,9918 0,5971 0,4965 1,3785
1,4311
6,2098
2,2365 5,3254 1,5769
Unimil SA
5,6033 4,7301 0,0879 0,1064
6,6243
8,6111
7,1155
Vistula SA
1,0652 0,6036 0,4920 1,3696 –59,4506 –171,7467 –61,6972 2,2069 0,8094
Wawel SA
1,7043
1,1976 0,4380 0,8082
2,1287
6,9378
3,7600
4,6422 1,0608
4,3228 1,7849
a
wskaźniki obliczone na podstawie danych rzeczywistych
Źródło: ISI Emerging Markets.
Wartość wskaźników x1–x9 dla 14 badanych spółek publicznych województwa
małopolskiego zawiera tabela 1.
3.3. Charakterystyki opisowe
Dla wybranych wskaźników wyznaczono charakterystyki opisowe, które
zawiera tabela 2. Warto zwrócić szczególną uwagę na dwa pierwsze wskaźniki.
Średnia wartość wskaźnika płynności bieżącej wynosi 2,35, czyli znajduje się
ponad obszarem optymalnym dla tej miary, mediana zaś wynosi jedynie 1,11, co
świadczy o tym, że 50% spółek charakteryzowało się za niską płynnością finansową. Podobnie sytuacja wygląda, jeżeli chodzi o współczynnik płynności szybkiej; w tym przypadku również średnia wartość wskazywałaby na nadpłynność
spółek, ale mediana informuje nas, że 50 % spółek miała za niską (bo mniejszą
od 1) płynność natychmiastową. W przypadku wskaźnika zadłużenia aktywów
średnia (0,42) niewiele różni się od mediany (0,49) i obie wartości wskazują na
niski poziom zadłużenia. Dla wskaźnika zadłużenia kapitału własnego różnice
Katarzyna Frodyma
120
Tabela 2. Charakterystyki opisowe dla wszystkich spółek
Wskaźnik
Średnia
Mediana
Minimum
Maksimum
Odchylenie
standardowe
x1
2,3493
1,1062
0,5436
8,8620
2,4024
1,9153
0,8000
0,1990
8,8008
2,2848
x3
0,4240
0,4910
0,0186
0,7995
0,2387
1,5571
1,1868
0,0193
6,3860
1,7775
x2
x4
–6,7394
1,4311
–59,4506
6,6243
19,8491
x6
–28,6025
2,8812
–343,9571
46,8141
89,6906
x8
x5
x7
–9,0034
1,7120
–75,3625
10,2622
24,9535
7,6755
4,3228
0,6677
51,6237
11,3848
x9
1,3142
1,1113
0,1598
3,8075
0,8531
Źródło: obliczenia własne.
między średnią i medianą są znaczące, ale w efekcie obie wartości świadczą
o zbyt dużym zadłużeniu pasywów. W przypadku grupy wskaźników rentowności średnia zawsze jest mniejsza od zera i świadczy o tym, że przeciętnie firmy
ponosiły straty. Mediany jednak są dodatnie, co oznacza, że przynajmniej 50%
spółek osiągnęło zyski. Średnia wskaźnika rotacji należności (7,65) świadczyłaby
o dobrej polityce należnościami, jednak mediana na poziomie 4,32 wskazuje na to,
że przynajmniej połowa spółek kredytuje swoich odbiorców. Natomiast zarówno
średnia (1,31), jak i mediana (1,11) świadczą o dobrym wykorzystaniu aktywów
(wskaźnik rotacji aktywów).
3.4. Korelacje pomi´dzy poszczególnymi wskaênikami
Zbadano korelację liniową pomiędzy poszczególnymi wskaźnikami, wyniki
zawiera tabela 3.
Wśród badanych spółek występuje silna, statystycznie istotna korelacja
w trzech grupach wskaźników (wskaźniki płynności, zadłużenia i rentowności),
brak jest zależności jedynie w grupie wskaźników efektywności. Najsilniejsza statystycznie istotna korelacja dodatnia występuje pomiędzy wskaźnikiem płynności
bieżącej oraz wskaźnikiem płynności szybkiej (0,97). Wysoka jest również korelacja pomiędzy rentownością netto a rentownością aktywów (0,91), rentownością
aktywów i rentownością kapitałów własnych (0,90), a także pomiędzy zadłużeniem aktywów a zadłużeniem kapitału własnego (0,83). Nieco niższa zależność
występuje pomiędzy rentownością kapitałów własnych oraz rentownością netto
(0,66). Co ciekawe, pomiędzy wskaźnikami z różnych grup występuje jedynie
statystycznie istotna korelacja ujemna – najsilniejsza pomiędzy zadłużeniem
aktywów i płynnością bieżącą (–0,82) oraz zadłużeniem aktywów i płynnością
121
szybką (–0,78). Zdecydowanie słabsza korelacja ujemna występuje pomiędzy
zadłużeniem kapitału własnego a płynnością bieżącą (–0,50), rentownością kapitałów własnych i rotacją aktywów (–0,49) oraz zadłużeniem kapitału własnego
i płynnością szybką (–0,46).
Tabela 3. Macierz korelacji pomiędzy wskaźnikami
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
1,00
0,97
–0,82
–0,50
–0,33
0,07
–0,18
–0,26
–0,38
x2
0,97
1,00
–0,78
–0,46
–0,33
0,05
–0,20
–0,28
–0,41
x3
–0,82
–0,78
1,00
0,83
0,13
–0,13
0,03
0,16
0,45
x4
–0,50
–0,46
0,83
1,00
0,07
–0,12
–0,02
–0,01
0,36
x5
–0,33
–0,33
0,13
0,07
1,00
0,66
0,91
0,13
–0,03
x6
0,07
0,05
–0,13
–0,12
0,66
1,00
0,90
0,02
–0,49
x7
–0,18
–0,20
0,03
–0,02
0,91
0,90
1,00
0,09
–0,29
x8
–0,26
–0,28
0,16
–0,01
0,13
0,02
0,09
1,00
0,37
x9
–0,38
–0,41
0,45
0,36
–0,03
–0,49
–0,29
0,37
1,00
Kursywą oznaczone zostały wartości statystycznie istotne, wartości p-value < 0,05
Na podstawie wyników badania korelacji można stwierdzić, że łatwiej jest
podnieść ocenę sytuacji finansowej poprawiając tylko jeden ze wskaźników płynności, gdyż wtedy niemal automatycznie poprawie ulegnie również drugi wskaźnik. Również duża korelacja wskaźników zadłużenia świadczy o tym, że poprawa
jednego z tych wskaźników spowoduje lepszą ocenę sytuacji firmy ze względu na
drugi wskaźnik. Zdecydowanie najbardziej poprawia swoją sytuację (w ramach
tak dobranych wskaźników) firma, która osiąga dobre wyniki odnoszące się do
rentowności. W związku z korelacją dodatnią poprawa jednego ze wskaźników
powoduje poprawę pozostałych dwóch miar. Gorsza sytuacja jest w grupie wskaźników efektywności (brak korelacji). Poprawa wskaźnika rotacji należności nie
musi przynosić automatycznie poprawy wskaźnika rotacji aktywów.
3.5. Uporzàdkowanie spółek
Dla każdej spółki obliczono, ile wskaźników analizy finansowej przyjęło
wartości optymalne lub najlepsze z możliwych, a ile wskaźników miało wartości
świadczące o słabszej kondycji finansowej.
Katarzyna Frodyma
122
Tabela 4. Podział wskaźników
Dobra kondycja
finansowa
Słaba kondycja
finansowa
Liczba zmiennych
Alma Market SA
5
5
10
Ampli SA
1
9
10
Artman SA
5
5
10
Brok-Strzelec SA
4
6
10
Comarch SA
4
6
10
Dwory SA
6
4
10
Efekt SA
4
6
10
Instal Kraków SA
6
4
10
Interia.pl SA
0
10
10
Kęty SA
5
5
10
Naftobudowa SA
1
9
10
Nowomag SA
4
6
10
Onet.pl SA
3
7
10
Optimus SA
3
6
10
Ponar-Wadowice SA
0
10
10
Stalprodukt SA
4
6
10
Unimil SA
4
6
10
Vistula SA
0
10
10
Wawel SA
8
2
10
Nazwa spółki
Przyznając poszczególnym spółkom wartość 1, jeżeli wartość danego wskaźnika jest zadowalająca, oraz 0 w przeciwnym wypadku, otrzymamy pierwsze
uporządkowanie badanych spółek. Wartość zmiennej syntetycznej (która jest
sumą zmiennych zero-jedynkowych, zmienne te w większości są skorelowane ze
sobą) informuje o liczbie wskaźników, pod względem których spółka miała dobre
wyniki.
Uporządkowanie spółek pod względem tej zmiennej przedstawia tabela 5 oraz
rys. 1. Można zauważyć, że zdecydowanie najlepszą spółką w tym zestawieniu
są Zakłady Przemysłu Cukierniczego Wawel SA, które osiągnęły zadowalający
poziom pod względem 7 z 9 wskaźników. Następnie utworzyła się grupa 13
spółek, które miały 5, 4 lub 3 wskaźniki na zadowalającym poziomie. Ostatnią
grupę stanowią te spółki, dla których tylko jeden lub żaden ze wskaźników nie
osiągnął optymalnego poziomu. Warto zwrócić uwagę, że są w tej grupie tylko
123
te spółki, które w 2002 r. poniosły stratę. Jedyną spółką, która poniosła stratę,
a mimo to trzy jej wskaźniki osiągnęły wystarczający poziom, jest Optimus SA.
Tabela 5. Uporządkowanie spółek pod względem liczby wskaźników, które przyjęły
pożądaną wartość
Nazwa spółki
Wartość zmiennej
Wawel SA
7
Dwory SA
5
Instal Kraków SA
5
Alma Market SA
5
Artman SA
5
Kęty SA
5
Brok-Strzelec SA
4
Comarch SA
4
Efekt SA
4
Nowomag SA
4
Stalprodukt SA
4
Unimil SA
4
Onet.pl SA
3
Optimus SA
3
Ampli SA
1
Naftobudowa SA
1
Interia.pl SA
0
Ponar-Wadowice SA
0
Vistula SA
0
Na takie uporządkowanie spółek może mieć wpływ nadreprezentacja rentowności. W trzech grupach wskaźników znajdują się po dwie miary. Jedynie
rentowność reprezentowana jest przez trzy wskaźniki. Zauważona wcześniej
korelacja pomiędzy wskaźnikami tej grupy (por. punkt 3.3) może powodować, że
przedsiębiorstwo zajmie wyższą pozycje, głównie dlatego, iż rentowność jest jego
mocną stroną.
Do dalszej analizy wzięto pod uwagę tylko 13 spółek, tj. te które w 2002 r.
wypracowały zysk.
W kolejnym uszeregowaniu uwzględniono, jaką pozycję zajmowała spółka
ze względu na każdy ze wskaźników. Porangowano spółki, nadając rangę 1 spółce
najgorszej, a rangę 13 najlepszej. Następnie zsumowano rangi za każdy wskaźnik
Katarzyna Frodyma
124
i na tej podstawie uszeregowano spółki, od tej, która ze względu na wyróżnione
wskaźniki charakteryzowała się najlepszą sytuacją finansową, do najsłabszej. Jak
wynika z tabeli 6, najlepszą sytuacją finansową odznaczał się Artman SA, najsłabszą zaś Onet.pl SA.
Tabela 6. Uporządkowanie spółek pod względem sumy rang
Nazwa spółki
Artman SA
Wawel SA
Wskaźnik
x1
x2
12,5
6
Alma Market SA
x5
x6
x7
x8
x9
Suma
6
x3
6,5
x4
5
11
12
13
12
13
84,5
12,5
6,5
11,5
6
7
8
6
12
82,0
6
12,5
6,5
5
5
10
7
13
11
76,0
12,5
6
6,5
11,5
10
9
9
5
5
74,5
Unimil SA
6
6
6,5
5
13
11
12
8
6
73,5
Nowomag SA
6
6
6,5
5
7
13
11
7
10
71,5
Kęty SA
Comarch SA
6
6
6,5
11,5
12
8
10
3
4
67,0
Efekt SA
6
6
6,5
5
9
5
6
11
3
57,5
56,5
Stalprodukt SA
6
6
6,5
5
4
6
5
9
9
Instal Kraków SA
6
6
6,5
11,5
3
4
4
2
8
51,0
Dwory SA
6
6
6,5
5
2
3
3
10
7
48,5
Brok-Strzelec SA
6
6
13
5
1
1
1
4
2
39,0
Onet.pl SA
6
6
6,5
5
8
2
2
1
1
37,5
Na różnice pomiędzy tymi dwoma uporządkowaniami może mieć wpływ
fakt, że w pierwszej metodzie każdy wskaźnik miał taką samą wagę, firma mogła
otrzymać jeden punkt lub zero w zależności od tego, czy wskaźnik miał wartość
optymalną czy też nie. W drugiej metodzie wskaźniki rentowności i efektywności
punktowane są od 1 aż do 13 punktów. Pozostałe wskaźniki zaś w związku z tym,
że ich optymalny poziom mieści się w pewnym przedziale, punktowane były tylko
dwoma wartościami (6 i 12,5; 6,5 i 13 lub 5 i 11,5). W efekcie liczba punktów
przyznanych danej spółce nie zależała tylko od jej sytuacji, ale również od tego,
jakie wartości wskaźnika osiągnęły pozostałe spółki.
Następnie spółki uszeregowano za pomocą miernika syntetycznego19, zaproponowanego przez D. Strahl [1990], który jest średnią z odpowiednio unormowanych
wartości opisujących dany obiekt. Wyznaczany jest on według wzoru:
19
Za: [Statystyczne metody…, 1998].
qi =
1 m '
∑ xij ,
m j =1
125
i = 1, …, n, j = 1, …, m ,
(1)
gdzie:
xi'j – znormalizowana wartość j-tej cechy dla i-tego obiektu,
n – liczba analizowanych obiektów,
m – liczba przyjętych cech.
Normalizacji poddano wszystkie 9 wskaźników (por. punkt 3.2), przy czym
cztery pierwsze w związku z tym, że ich wartość optymalna mieści się w pewnym
przedziale, poddane zostały unitaryzacji zerowanej20 według wzorów:
 xij − min

 c1 j − min

xij' = 
1
 x − max
 ij
 c2 j − max
dla
xij < c1 j
dla c1 j ≤ xij ≤ c2 j ,
dla
xij > c2 j
xij' ∈ [ 0; 1] ,
(2)
gdzie:
c1j – dolna granica zalecanego przedziału,
c2j – górna granica zalecanego przedziału.
Wskaźniki rentowności oraz efektywności zaklasyfikowano jako stymulanty
i skorzystano ze wzoru:
x − min
xij' = ij
xij' ∈ [ 0; 1] .
(3)
,
max− min
Tabela 7 zawiera znormalizowane wskaźniki finansowe dla 13 spółek, które
osiągnęły zysk, oraz miernik syntetyczny wyznaczony zgodnie ze wzorem (1).
Tabela 7. Znormalizowane wartości wskaźników
Nazwa spółki
Wskaźnik
x1
x2
x3
x4
0,86 0,87
x5
x6
x7
x8
0,67 0,74 0,20 0,34
x9
Miernik
syntetyczny
Artman SA
0,99 0,16
1,00
0,65
Wawel SA
1,00 1,00 0,76 1,00 0,23 0,13 0,06 0,07 0,60
0,54
Kęty SA
1,00 0,87 0,70 1,00 0,66 0,14 0,06 0,07 0,25
0,53
Comarch SA
0,60 0,53 0,58 1,00 0,94 0,13 0,07 0,05 0,24
0,46
Instal Kraków SA
1,00 0,84 0,59 1,00 0,10 0,04 0,01 0,04 0,38
0,44
Alma Market SA
0,00 0,00 0,96 0,95 0,21
0,43
20
Szerzej zob. [Kukuła 2000].
0,16 0,05 1,00 0,57
Katarzyna Frodyma
126
cd. tabeli 7
Wskaźnik
Nazwa spółki
x2
x1
x3
x4
x5
x6
x7
x8
x9
Miernik
syntetyczny
Stalprodukt SA
0,68 0,50 0,87 0,93 0,11
0,11 0,02 0,09 0,52
0,43
Efekt SA
0,86 0,96 0,38 0,65 0,58 0,05 0,02 0,13
Nowomag SA
0,55 0,47
Dwory SA
0,27 0,35 0,88 0,97 0,05 0,03 0,00 0,12 0,35
0,34
Brok-Strzelec SA
0,07 0,41 1,00 0,82 0,00 0,00 0,02 0,06 0,14
0,28
Unimil SA
0,00 0,20 0,13
0,13 0,08 0,33
0,25
Onet.pl SA
0,00 0,00 0,00 0,00 0,52 0,00 0,00 0,00 0,00
0,06
0,15
0,42
0,00 0,00 0,44 1,00 0,10 0,08 0,54
0,35
0,18 1,00 0,16
0,7
0,6481
0,6
0,5378 0,5278
0,5
0,4594 0,4440
0,4318 0,4255 0,4197
0,4
0,3540 0,3365
0,3
0,2751
0,2455
0,2
0,1
0,0584
or
y
ok
SA
-S
trz
el
ec
SA
U
ni
m
il
SA
O
ne
t.p
lS
A
w
Br
D
ag
SA
A
om
kt
S
N
ow
Ef
e
kt
SA
od
u
St
al
pr
A
lm
aM
ar
ke
t
SA
SA
SA
lK
ra
kó
w
ch
SA
In
sta
Co
m
ar
SA
K
ęt
y
el
W
aw
A
rtm
an
SA
0,0
Rys. 1. Uporządkowanie spółek pod względem miernika syntetycznego
Źródło: opracowanie własne na podstawie tabeli 7.
Jak wynika z tabeli 7, najlepszą sytuacją finansową opisaną miernikiem syntetycznym charakteryzował się Artman SA. Jest to sytuacja analogiczna do poprzedniego uszeregowania, także w obu przypadkach Wawel SA zajmował drugą pozycję. Zdecydowanie lepiej niż poprzednio wypadł Onet.pl SA, zaś Brok-Strzelec SA
w przypadku dwóch ostatnich uporządkowań znajdował się na ostatnich miejscach
(por. rys. 1).
127
Na koniec zbadano zgodność uszeregowań otrzymanych wszystkimi trzema
metodami. W tym celu skorzystano ze współczynnika korelacji rang Spearmana,
wyrażonego wzorem:
n
ρ = 1−
6∑ di2
i =1
2
n(n − 1)
,
(4)
gdzie:
di – różnica pomiędzy rangami,
n – liczba analizowanych przedsiębiorstw.
Tabela 8 zawiera wartości rang dla każdej spółki ze względu na poszczególne
porządkowania (przy czym spółce, która w danym uporządkowaniu zajmowała
pierwsze miejsce, nadano wartość 1).
Tabela 8. Rangi spółek ze względu na poszczególne metody uszeregowań
Metoda porządkowania
Nazwa spółki
Alma Market SA
Artman SA
zmienna zero-jedynkowa
suma rang
poszczególnych
wskaźników
miernik
syntetyczny
4
3
6
4
1
1
Brok-Strzelec SA
9,5
12
11
Comarch SA
9,5
7
4
Dwory SA
4
11
10
9,5
8
8
Instal Kraków SA
4
10
5
Kęty SA
4
4
3
Efekt SA
Nowomag SA
9,5
6
9
Onet.pl SA
13
13
13
Stalprodukt SA
9,5
9
7
Unimil SA
9,5
5
12
Wawel SA
1
2
2
Na podstawie tych rang obliczono wartości współczynnika korelacji rang
Spearmana dla wszystkich par uszeregowań. Najsłabsza zgodność występuje
pomiędzy uporządkowaniem pod względem zmiennej zero-jedynkowej a uporządkowaniem pod względem rang (ρ = 0,61), silniejsza pomiędzy uszeregowaniem
128
Katarzyna Frodyma
pod względem miernika syntetycznego i rang (ρ = 0,70). Najbardziej wyraźna
zgodność występuje dla uszeregowań pod względem zmiennej zero-jedynkowej
i miernika syntetycznego (ρ = 0,73).
4. Podsumowanie
W przeprowadzonych badaniach dokonano trzech różnych uporządkowań
spółek publicznych z punktu widzenia ich sytuacji finansowej. Sytuacja ta mierzona była wybranymi wskaźnikami analizy finansowej, brane więc były pod
uwagę jedynie cechy ilościowe. Przy wyborze wskaźników oraz przy określaniu
granic, które świadczą o dobrej kondycji finansowej, kierowano się literaturą
przedmiotu.
W przyszłości prowadzone badania rozszerzone zostaną o oparty na metodach
statystycznych wybór wskaźników analizy finansowej, a także ocenę optymalnych
wartości dla poszczególnych wskaźników. Autorka zamierza również sprawdzić,
w jaki sposób na kolejność uporządkowania spółek pod względem miernika syntetycznego wpływają sposoby normalizacji danych.
Mimo zastosowania różnych metod porządkowania uzyskano w miarę zgodne
wyniki uszeregowań. W grupie 19 spółek publicznych województwa małopolskiego w czołówce firm o najlepszej sytuacji finansowej znajdują się takie przedsiębiorstwa, jak: Alma Market SA, Artman SA, Grupa Kęty SA i Zakłady Przemysłu Cukierniczego Wawel SA. We wszystkich uporządkowaniach najsłabszą
spółką (z grupy spółek, które w 2002 r. wypracowały zysk) był Onet.pl SA.
Kolejne badania rozszerzone zostaną także o cechy jakościowe w celu pełniejszej oceny zdolności kredytowej przedsiębiorstw. Spółki będą nie tylko porządkowane, ale przede wszystkim zostanie dokonana ich klasyfikacja na co najmniej
dwie grupy. Firmy, których sytuacja pozwala sądzić, że zaciągnięty kredyt zostanie spłacony (czyli te, które kredyt otrzymają), oraz takie, które nie posiadają
zdolności kredytowej, w związku z czym ich podanie zostanie odrzucone.
Literatura
Boguszewski L., Gelińska B. [2004], Podstawy statystyczne i uniwersalna funkcjonalność
scoring, II edycja Konferencji Naukowej „Interdyscyplinarne wykorzystanie metod
ilościowych”, http://knmi.wzr.pl/dok/scoring.pdf, Szczecin.
Batóg J. [1997], Propozycja klasyfikacji firm według sytuacji ekonomiczno-finansowej,
„Taksonomia”, z. 4.
Czekaj J., Dresler Z. [1998], Zarządzanie finansami przedsiębiorstw. Podstawy teorii,
Wydawnictwo Naukowe PWN, Warszawa.
Dziechciarz J., Walesiak M. [2000], Klasyfikacji firm rodzinnych w Polsce, „Taksonomia”,
z. 7.
129
Gantar E. [1999], Drzewo klasyfikacyjne: nieparametryczna metoda dyskryminacji
obiektów, „Badania Operacyjne i Decyzje”, nr 1.
Gasik A. [1998], Zastosowanie analizy dyskryminacji do oceny zdolności kredytowej
przedsiębiorstw [w:] Metody i zastosowania badań operacyjnych, red. T. Trzaskalik,
Katowice.
Grabiński T. [1992], Metody taksonometrii, AE w Krakowie, Kraków.
Grabiński T., Wydymus S., Zeliaś A. [1989], Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, PWN, Warszawa.
Gwiazda T.D. [1998], Algorytmy genetyczne. Zastosowanie w finansach, Wydawnictwo
Wyższej Szkoły Przedsiębiorczości i Zarządzania im. L. Koźmińskiego, Warszawa.
Jagiełło R., Tomczyk M. [2003], Wybrane zewnętrzne regulacje dotyczące ryzyka kredytowego, Zeszyty Naukowe nr 30, SGH, Warszawa.
Janc A., Kraska M. [2001], Credit-scoring. Nowoczesna metoda oceny zdolności kredytowej,
Biblioteka Menedżera i Bankowca, Warszawa.
Kukuła K. [2000], Metoda unitaryzacji zerowej, Wydawnictwo Naukowe PWN, Warszawa.
Kuryłek W. [2000], Credit scoring – podejście statystyczne, „Bank”, nr 11.
Matyszyk A. [2003], Przyglądając się kredytobiorcom, „Bank”, nr 2.
Petterson R. [1995], Poradnik kredytowy dla bankowców, Twigger, Warszawa.
Różański J. [2001], Ewolucja metod oceny sytuacji ekonomiczno-finansowej przedsiębiorstwa w nowoczesnej gospodarce rynkowej, „Przegląd Organizacji”, nr 10.
Statystyczne metody oceny ryzyka w działalności gospodarczej [1998], A. Malina,
B. Pawełek, S. Wanat, A. Zeliaś, Wydawnictwo AE w Krakowie, Kraków.
Stolarz B. [1996], Istota, przejawy i pomiar ryzyka kredytowego, Zeszyty Naukowe, AE
w Krakowie, Kraków, nr 477.
Strahl D. [1990], Metody programowania rozwoju społeczno-gospodarczego, PWE,
Warszawa.
Strahl D. [2000], Ocena zdolności kredytowej, przykłady i zadania, Wydawnictwo AE
we Wrocławiu, Wrocław.
Wiatr S.M. [2004], Kierunki zmian polskiego systemu szacowania ryzyka kredytowego
– próba oceny, „Bank i Kredyt”, nr 1.
Witkowska D. [2002], Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienia finansowe, Wydawnictwo C.H. Beck, Warszawa.
Ziemba E. [2001], Komputerowa implementacja modeli zarządzania ryzykiem kredytowym,
„Bank”, nr 5.
Classifying Economic Entities According to their Financial Situation
In this article, the issue of classifying economic entities according to their financial
situation is presented. The financial situation was assessed on the basis of selected financial
analysis indicators. The empirical example related to public companies in the Małopolskie
voivodship. The researched companies were classified using three methods (binary variable,
rank sum of individual indicators, composite measure). Finally, an attempt was made to
compare the different classifications. The conducted research is the first stage of broader
research on the classification of economic entities from the point of view of their credit
rating. Thus, not only the financial situation, but also the economic situation, must be evaluated (both quantitative and qualitative indicators).
Zeszyty
Naukowe nr
740
2007
Roman Huptas
Katedra Statystyki
Zastosowanie algorytmu EM
do estymacji parametrów
rozk∏adu na podstawie danych
pogrupowanych
1. Wprowadzenie
W niniejszym artykule podjęty zostanie problem maksymalizacji wiarygodnościowej funkcji oceny, gdy w zbiorze danych występują zmienne, których wartości
z jakichś powodów nie zostały zaobserwowane. Algorytmem, który może posłużyć do rozwiązywania problemów brakujących danych w badanych strukturach
danych w kontekście wiarygodności, jest tzw. algorytm EM.
Algorytm EM jest skuteczną metodą iteracyjnego obliczania estymatorów największej wiarygodności (ENW)1, stosowaną w rozwiązywaniu wielu problemów
określanych jako problemy z niekompletnymi danymi, gdzie algorytmy takie jak
metoda Newtona-Raphsona mogą okazać się zbyt skomplikowane. W każdej iteracji algorytmu EM są wykonywane dwa kroki, nazywane krokiem E (expectation
step) i krokiem M (maximization step). Stąd jego nazwa – algorytm EM. Po raz
pierwszy nazwy tej użyli A.P. Dempster, N.M. Laird i D.B. Rubin w pracy [Dempster, Laird, Rubin 1977]. Na problemy z niekompletnymi danymi składają się nie
tylko sytuacje, gdy mamy do czynienia z ewidentnie niekompletnymi danymi,
takie jak: struktury z brakującymi danymi, modele z obciętymi rozkładami,
pogrupowane czy też ocenzurowane obserwacje, ale także problemy, gdzie niekompletność nie jest taka oczywista i naturalna. Do tych drugich zaliczymy model
efektów losowych, mieszanki rozkładów, estymację komponentów wariancyjnych,
1
Zob. [Magiera 2002, s. 146].
132
Roman Huptas
iteracyjną ważoną metodę najmniejszych kwadratów, analizę czynnikową czy też
modele logarytmiczno-liniowe.
Ze względu na zastosowanie algorytmu EM w rozwiązywaniu problemów
z brakującymi danymi jest on związany z pewną metodą estymacji ad hoc.
W metodzie tej parametry są estymowane po nadaniu brakującym danym pewnych wartości początkowych. Następnie te brakujące dane są „uwiarygadniane”
za pomocą wyestymowanych parametrów, a potem parametry są estymowane na
nowo, itd. aż do uzyskania zbieżności.
Główną ideą algorytmu EM jest powiązanie danego problemu z niekompletnymi danymi z odpowiednim problemem z danymi kompletnymi, dla którego
estymacja metodą największej wiarygodności jest pod względem obliczeniowym
dużo prostsza. Metodologia algorytmu EM opiera się na przeformułowaniu problemu z niekompletnymi danymi w terminach problemu z kompletnymi danymi,
który jest prostszy do rozwiązania, ustaleniu związku pomiędzy funkcjami wiarygodności tych dwóch problemów i wykorzystaniu prostszej pod względem obliczeniowym estymacji metodą największej wiarygodności do rozwiązania problemu
z danymi kompletnymi w kroku M algorytmu iteracyjnego.
Krok E algorytmu EM polega na „stworzeniu” danych dla problemu z danymi
kompletnymi przy użyciu zaobserwowanych danych niekompletnych, tak aby możliwe było wykonanie prostszego kroku M dla kompletnych danych. Mówiąc bardziej precyzyjnie, w kroku E tworzona jest funkcja wiarygodności dla problemu
z danymi kompletnymi. Opiera się ona częściowo na nieobserwowanych danych,
zatem jest ona zastępowana przez jej warunkową wartość oczekiwaną względem
obserwowanych danych. Krok E jest wykonywany przy użyciu bieżących wartości
dla nieznanych parametrów. W kroku M szukamy maksimum utworzonej w kroku
E funkcji wiarygodności. Rozpoczynając od odpowiedniej wartości początkowej
parametru, powtarzamy kroki E i M aż do uzyskania zbieżności.
Często w praktyce uzyskanie estymatorów największej wiarygodności może
nastręczać poważne trudności. Trudności te mogą wynikać np. z wielomodalności funkcji wiarygodności oraz niemożliwości uzyskania jawnych analitycznych
rozwiązań równań wiarygodności. W takich przypadkach można zastosować
iteracyjne metody znajdowania estymatorów największej wiarygodności. Pomocna
może okazać się tutaj metoda Newtona-Raphsona albo jej warianty.
Stosowanie metody Newtona-Raphsona może się wiązać z poważnymi trudnościami obliczeniowymi. Przypuśćmy, że liczba nieznanych parametrów w modelu
wynosi d. Metoda Newtona-Raphsona wymaga w każdej iteracji obliczenia macierzy informacji o wymiarach d × d oraz rozwiązania układu d równań liniowych.
Liczba wszystkich operacji arytmetycznych z tym związanych będzie bardzo duża
i będzie gwałtownie wzrastać, jeśli liczba d nieznanych parametrów będzie rosła.
Ponadto metoda Newtona-Raphsona, dla pewnych problemów, wymaga niereali-
Zastosowanie algorytmu EM do estymacji…
133
stycznie dokładnej wartości początkowej dla parametru, by ciąg rozwiązań iteracyjnych zbiegał do właściwego rozwiązania równań wiarygodności.
W rezultacie, gdy niefortunnie zostanie wybrany punkt startowy, algorytm
może „ugrzęznąć” w maksimum lokalnym. Dotyczy to zwłaszcza modeli statystycznych z wieloma parametrami. W przypadku innych metod typu Newtona
sytuacja wygląda podobnie. Alternatywą dla metod typu Newtona może być algorytm EM.
2. Opis algorytmu EM
Pojęcie danych niekompletnych zawiera w sobie typowe znaczenie brakujących
danych, tzn. takich, które są możliwe do uzyskania, ale również odnosi się do
sytuacji, w których dane kompletne byłyby możliwe do uzyskania tylko w ramach
hipotetycznego eksperymentu, którego realizacja nie jest praktycznie możliwa
(por. [McLachlan, Krishnan 1997, s. 21]).
Niech Y będzie wektorem losowym, modelującym obserwacje niekompletne,
o funkcji gęstości względem miary Lebesgueʼa g(y; Ψ), gdzie:
Ψ = (Ψ1, …, Ψd)T
jest wektorem nieznanych parametrów z przestrzeni parametrów Ω. Funkcja wiarygodności dla Ψ przy zadanym wektorze obserwacji y ma postać:
L (Ψ) = g(y; Ψ) .
~
Estymator największej wiarygodności jest definiowany jako rozwiązanie Ψ równania wiarygodności (por. [Magiera 2002, s. 167]):
∂
L(Ψ) = 0
∂Ψ
albo równoważnie:
∂
ln L (Ψ) = 0 ,
∂Ψ
(1)
w którym osiągane jest globalne maksimum L (Ψ).
Niech x będzie wektorem danych kompletnych. Wektor danych obserwowanych
y jest wówczas traktowany jako wektor danych niekompletnych i jako funkcja
danych kompletnych. Zatem y = y(x) (por. [Dempster, Laird, Rubin 1977, s. 1],
[McLachlan, Krishnan 1997, s. 22]).
Niech X będzie wektorem losowym, modelującym dane kompletne i mającym
funkcję gęstości względem miary Lebesgueʼa gc (x; Ψ). Wtedy logarytm funkcji
wiarygodności nieobserwowanych danych kompletnych ma postać:
Roman Huptas
134
ln Lc(Ψ) = ln gc (x; Ψ) .
Mamy, formalnie, dwie przestrzenie prób X i Y oraz odwzorowanie wielo-jednoznaczne z przestrzeni X w przestrzeń Y. Zamiast obserwować wektor danych
kompletnych x w przestrzeni X, obserwujemy wektor danych niekompletnych
y = y(x) w przestrzeni Y. Związek między funkcjami gęstości danych kompletnych
i danych niekompletnych ma postać:
g( y 0 ; Ψ) =
∫ χ( y ) gc (x; Ψ) dµ (x) ,
0
gdzie X(y0) = {x ∈ X : y(x) = y0}, μ(x) jest odpowiednio skonstruowaną miarą na
X(y0 ), a y0 jest ustalone.
Należy nadmienić, że w pracach [Dempster, Laird, Rubin 1977], [McLachlan,
Krishnan 1997] i [Wu 1983] kwestia odpowiednio skonstruowanej miary nie jest
poruszana. W pracach tych związek między gęstościami g i gc ma postać:
g( y 0 ; Ψ) =
∫ χ( y ) gc (x; Ψ) dx ,
0
co nie zawsze jest formalnie poprawne.
Algorytm EM rozwiązuje równanie wiarygodności (1) dla niekompletnych
danych pośrednio, wykorzystując logarytm funkcji wiarygodności kompletnych
danych ln L c (Ψ). Oczywiście, funkcja ln L c (Ψ) jest nieobserwowalna. Jest ona
zatem zastępowana przez jej warunkową wartość oczekiwaną względem wektora
Y, przy użyciu bieżącej wartości parametru Ψ.
Niech
Q (Ψ, Φ) = EΦ{ln Lc (Ψ) | Y = y} ,
gdzie operator E wartości oczekiwanej ma indeks dolny Φ w celu zaznaczenia,
że ta warunkowa wartość oczekiwana jest obliczana z użyciem wartości Φ dla
parametru Ψ.
Niech Ψ (0) będzie pewną wartością początkową parametru Ψ. Wtedy w pierwszej iteracji krok E wymaga obliczenia wyrażenia:
Q (Ψ, Ψ(0)) = EΨ (0){ln Lc (Ψ) | Y = y} .
W kroku M maksymalizujemy Q(Ψ, Ψ(0)) względem Ψ po całej przestrzeni parametrów Ω. Wybieramy zatem Ψ(1), takie że:
Q (Ψ(1), Ψ(0)) ≥ Q (Ψ, Ψ(0))
dla wszystkich Ψ ∈ Ω. W drugiej iteracji ponownie wykonywane są kroki E i M,
ale tym razem wartość parametru Ψ(0) jest zastąpiona przez Ψ(1) (wartość parametru Ψ uzyskana w pierwszej iteracji).
135
Kroki E i M w (k + 1)-szej iteracji są zdefiniowane następująco (zob. [McLachlan, Krishnan 1997, s. 22])2:
Krok E. Obliczenie Q(Ψ, Ψ(k)), gdzie:
Q(Ψ, Ψ(k)) = EΨ (k){ln Lc (Ψ) | Y = y} ,
a Ψ(k) oznacza wartość parametru Ψ uzyskaną w k-tej iteracji algorytmu EM.
Krok M. Maksymalizacja Q(Ψ, Ψ (k)) względem Ψ. Wybieramy zatem
Ψ(k + 1) ∈ Ω, takie że:
Q(Ψ(k + 1), Ψ(k)) ≥ Q(Ψ, Ψ(k))
dla wszystkich Ψ ∈ Ω.
Dla zadanego ε > 0 kroki E i M są powtarzane do momentu, gdy po raz
pierwszy:
ln L(Ψ(k + 1)) – ln L(Ψ(k)) < ε ,
lub gdy zostanie spełnione inne kryterium zatrzymania, np. liczba iteracji osiągnie
zadaną z góry wartość maksymalną.
3. Estymacja parametrów rozkładu na podstawie danych
pogrupowanych i obci´tych
Do powstania problemu z niekompletnymi danymi, a następnie do zastosowania algorytmu EM, jako metody obliczania estymatorów największej wiarygodności, może prowadzić zagadnienie pogrupowanych i obciętych danych (zob.
[McLachlan, Krishnan 1997, s. 74], [Dempster, Laird, Rubin 1977, s. 13]). Poniżej
przedstawiony problem to sytuacja ewidentnie niekompletnych danych, choć
należy zaznaczyć, że określenie funkcji wiarygodności danych kompletnych nie
jest takie proste i oczywiste.
Niech W będzie zmienną losową z przestrzeni W o funkcji gęstości f(w; Ψ),
gdzie Ψ jest wektorem nieznanych parametrów. Niech przestrzeń W będzie
podzielona na v rozłącznych klas Wj (j = 1, …, v). Realizacje zmiennej losowej
W są niezależne, ale nie są rejestrowane. Jedynie liczby nj tych obserwacji, które
należą do klasy Wj dla j = 1, …, r, gdzie r ≤ v, są rejestrowane.
Niech wektor:
y = (n1, …, nr)T
będzie wektorem danych niekompletnych (zaobserwowanych) i oznaczmy:
2
Por. [Dempster, Laird, Rubin 1977, s. 6], [Wu 1983, s. 96].
Roman Huptas
136
r
n := ∑ n j .
(2)
j =1
W tym przypadku n traktujemy jako ustalone, co można zinterpretować w ten
sposób, że eksperyment, którego wynikiem jest W, jest przeprowadzony tyle razy,
aż liczba zaobserwowanych danych osiągnie n. Gdy nie obserwujemy nowych
danych, to nie wiemy, czy eksperyment nie został przeprowadzony, czy też jego
wynik trafił do jednej z nieobserwowanych klas. W efekcie liczba powtórzeń
eksperymentu jest nieznana i losowa. Równoważnie, można traktować wszystkie
występujące poniżej rozkłady jako warunkowe względem n.
Przy ustalonym n wektor y pochodzi z rozkładu wielomianowego o wielkości
próby n z r kategoriami, a prawdopodobieństwa wystąpienia kategorii wynoszą
pj (Ψ) / p(Ψ), j = 1, …, r, gdzie:
p j (Ψ ) =
∫W
f (w; Ψ ) dw ,
j
r
p(Ψ) = ∑ p j (Ψ) .
(3)
(4)
j =1
Funkcja wiarygodności dla niekompletnych danych ma postać:
L(Ψ ) =
r
1n j
 p (Ψ ) 
∏  pj(Ψ )  .
j =1
r
n!
∏nj !
(5)
j =1
Wprowadźmy wektor „brakujących” danych dla potrzeb algorytmu EM.
Niech
z = (nr + 1, …, nv)T
oraz
wj = (wj1, …, wjn )T,
j
j = 1, …, v,
gdzie z jest wektorem nieobserwowanych częstości w przypadku obciętych danych
(tzn. gdy r < v), a wj jest wektorem nj nieobserwowanych realizacji zmiennej losowej W, które należą do klasy Wj dla j = 1, …, v.
Niech teraz wektor danych kompletnych ma postać:
x = (yT, zT, w1T, …, wTv )T .
(6)
137
Wektor losowy Y danych niekompletnych będzie miał rozkład wielomianowy,
a tym samym funkcję wiarygodności określoną wzorem (5), jeśli wektor losowy
X danych kompletnych będzie miał rozkład, dla którego funkcja wiarygodności
będzie miała postać (z dokładnością do mnożnika niezależnego od Ψ):
v
nj
Lc (Ψ) = ∏ ∏ f (w jk ; Ψ) ,
(7)
j =1 k =1
gdzie obserwacje wjk ( j = 1, …, v ; k = 1, …, nj ) są realizacjami zmiennej losowej W
dla próby o rozmiarze n + m, zaś:
m=
v
∑ nj
(8)
j = r +1
i jest losowe. Logarytm funkcji wiarygodności powinien więc mieć postać
(z dokładnością do składnika niezależnego od Ψ):
v
nj
ln Lc (Ψ) = ∑ ∑ ln f (w jk ; Ψ) .
(9)
j =1 k =1
Skonstruujmy rozkład brakujących danych tak, aby otrzymać (7) i (9). Funkcję
wiarygodności Lc (Ψ) przedstawmy jako iloczyn:
v
nj
Lc (Ψ) = L (Ψ) d (z | y; Ψ) ∏ ∏ h j (w jk ; Ψ) ,
(10)
j =1 k =1
gdzie d(z | y; Ψ) jest gęstością warunkową wektora losowego Z przy zadanym
Y = y, a hj (w; Ψ), j = 1, …, v, jest gęstością warunkową zmiennej losowej W przy
zadanych Y = y i Z = z, taką że:
h j (w; Ψ) =
f (w; Ψ)
,
p j (Ψ)
1, …,, v ,,
jj == 1,
(11)
tzn. obserwacje wjk (k = 1, …, nj) w celi Wj (j = 1, …, v) są próbą losową rozmiaru
nj z gęstości hj (w; Ψ). Pozostaje określić gęstość d(z | y; Ψ), tak aby Lc (Ψ) miała
postać równoważną (7).
Uwzględniając (5) i (11), logarytm funkcji wiarygodności postaci (10) wynosi:
v
nj
ln Lc ( Ψ ) = ln L ( Ψ ) + ln d (z | y; Ψ ) + ∑∑ ln h j (w jk ; Ψ ) =
j =1 k =1
r
= ∑ n j ln
j =1
p j (Ψ )
p( Ψ )
+ ln
r
n!
∏nj !
v
nj
+ ln d (z | y; Ψ ) + ∑∑ ln
j =1 k =1
f (w jk ; Ψ )
p j (Ψ )
=
j =1
v
nj
r
v
nj
= ∑∑ ln f (w jk ; Ψ ) +∑ n j ln p j ( Ψ ) − ∑∑ ln p j ( Ψ ) − n ln p( Ψ ) +
j =1 k =1
j =1
j =1 k =1
v
nj
ln Lc ( Ψ ) = ln L ( Ψ ) + ln d (z | y; Ψ ) + ∑∑ ln h j (w jk ; Ψ ) =Roman Huptas
138
j =1 k =1
r
= ∑ n j ln
j =1
p j (Ψ )
p( Ψ )
+ ln
r
n!
∏nj !
v
nj
+ ln d (z | y; Ψ ) + ∑∑ ln
j =1 k =1
f (w jk ; Ψ )
p j (Ψ )
=
j =1
nj
v
r
nj
v
= ∑∑ ln f (w jk ; Ψ ) +∑ n j ln p j ( Ψ ) − ∑∑ ln p j ( Ψ ) − n ln p( Ψ ) +
j =1 k =1
j =1
j =1 k =1
+ ln d (z | y; Ψ ) + ln
n!
r
∏nj !
.
j =1
Przekształcając dalej, otrzymujemy:
v
nj
ln Lc ( Ψ ) = ∑ ∑ ln f (w jk ; Ψ ) − ln( p( Ψ ))n −
j =1 k =1
v
∑ ln( p j (Ψ ))n + ln d (z | y; Ψ ) + ln
j
j = r +1
r
n!
∏nj !
=
j =1
v
v n


n
= ∑ ∑ ln f (w jk ; Ψ ) − ln ( p( Ψ ))n ∏ ( p j ( Ψ ))  + ln d (z | y; Ψ ) + ln


j =1 k =1
j = r +1
j
j
r
n!
∏nj !
.
(12)
j =1
Zatem (12) będzie, z dokładnością do składnika niezależnego od Ψ, równe (9),
jeśli d(z | y; Ψ) będzie określona następująco:
d (z | y; Ψ) = C ( p(Ψ))n
v
∏ ( p j (Ψ))n
j
.
(13)
j = r +1
Można pokazać (por. [McLachlan, Krishnan 1997, s. 77]), że (13) zadaje funkcję
gęstości, gdy C =
( m + n − 1)!
(n − 1)!
v
∏ nj !
.
j = r +1
Krok E dla (k+1)-szej iteracji
–
Obliczamy Q(Ψ, Ψ(k) ) = E Ψ(k) {lnL c (Ψ) | Y = y}. Niech Nj będzie zmienną
losową oznaczającą liczbę obserwacji w klasie Wj. Ze względu na konstrukcję
wektorów wj ( j = 1, …, v), z i y, otrzymujemy (por. [McLachlan, Krishnan 1997,
s. 77]):
v
Q( Ψ , Ψ ( k ) ) = ∑ n(jk ) Q j ( Ψ , Ψ ( k ) ) + ln
j =1
139
( m + n − 1)! n
v
∏
j =1
gdzie:
i
n (jk ) !
,
(14)
Qj (Ψ, Ψ(k)) = EΨ(k){ln f (W; Ψ) | W ∈ Wj }

nj
dla
n(jk ) = EΨ ( k ) { N j | Y = y} = 
(k )
(k )
n p j ( Ψ ) p( Ψ ) dlaa
j = 1, …, r
j = r + 1, …, v .
człon (14) nie zależy od Ψ i może być opuszczony przy maksymalizacji
– Drugi
(k)
Q(Ψ, Ψ ). Zatem ostatecznie możemy przyjąć:
v
Q(Ψ, Ψ( k ) ) = ∑ n(jk ) Q j (Ψ, Ψ( k ) ) .
(15)
j =1
Krok M dla (k + 1)-szej iteracji
Maksymalizujemy Q(Ψ, Ψ(k) ) względem Ψ. Wartość parametru Ψ(k + 1) będzie
pierwiastkiem równania ∂Q(Ψ, Ψ(k) ) /∂ Ψ = 0, gdzie:
v
∂
∂
Q(Ψ, Ψ( k ) ) = ∑ n(jk )
Q j (Ψ, Ψ( k ) )
∂Ψ
∂Ψ
j =1
i
{
}
∂
∂
Q j (Ψ , Ψ ( k ) ) = E ( k )
ln f (W ; Ψ ) | W ∈ Wj .
Ψ
∂Ψ
∂Ψ
4. Eksperyment symulacyjny
Zastosowanie algorytmu EM do estymacji parametrów rozkładu dla danych
pogrupowanych, opisane szczegółowo w trzecim punkcie artykułu, skłoniło
do przeprowadzenia eksperymentu symulacyjnego z wykorzystaniem testu χ2
zgodności rozkładu próby losowej z rozkładem teoretycznym, w którym statystyka testowa, zwana statystyką χ2 Pearsona, ma asymptotyczny rozkład χ2 (zob.
[Magiera 2002, s. 244]). W naszym eksperymencie test był przeprowadzany
w przypadku, gdy rozkład teoretyczny postulowany w hipotezie zerowej był
ciągły i zależny od nieznanych parametrów. Gdy rozkład teoretyczny zależy od
nieznanych parametrów, wówczas częstości teoretyczne zależą oczywiście od tych
Roman Huptas
140
parametrów. Aby wyliczyć częstości, należy parametry oszacować. W praktyce
w celu wyestymowania parametrów dla testu stosuje się dwie metody:
1) jako oszacowania nieznanych parametrów przyjmuje się rozwiązania układu
równań wiarygodności, powstałego przy wykorzystaniu funkcji wiarygodności dla
obserwacji zgrupowanych (ENW są oparte na częstościach empirycznych);
2) jako estymatory parametrów przyjmuje się rozwiązania układu równań
wiarygodności dla niezgrupowanych danych (ENW są oparte na oryginalnych
obserwacjach, a obliczenia są zwykle dużo prostsze).
Niech pi będą częstościami teoretycznymi v klas w przypadku, gdy rozkład
teoretyczny jest w pełni określony. Wówczas statystyka χ2 Pearsona ma postać:
v
( N i − npi )2
,
npi
i =1
χ2 = ∑
gdzie Ni jest zmienną losową, której wartość ni dla próby prostej (x1, …, xn) równa
jest liczbie tych obserwacji spośród x1, …, xn, które należą do i-tej klasy przy
określonym podziale zbioru liczb rzeczywistych na v rozłącznych klas. Rozkładem
granicznym przy n → ∞ statystyki χ2 jest rozkład χ2 z v – 1 stopniami swobody.
Niech teraz p~ i będą ENW częstości teoretycznych pi, opartymi na częstościach
empirycznych ni (odpowiada to metodzie 1). Wtedy, przy odpowiednich warunkach regularności, statystyka:
v
~
( N − np )2
~
χ2 = ∑ i ~ i
npi
i =1
ma przy n → ∞ rozkład graniczny χ2 z v – 1 – k stopniami swobody, gdzie k jest
liczbą estymowanych parametrów.
Niech pˆ i będą ENW częstości teoretycznych pi, uzyskanymi dla niezgrupowanych danych, czyli opartymi na oryginalnych obserwacjach (odpowiada to metodzie 2). Wtedy statystyka testowa ma postać:
v
( N i − npˆ i )2
.
npˆ i
i =1
χˆ 2 = ∑
ˆ 2 leży między rozkłaOkazuje się, że rozkład graniczny przy n → ∞ statystyki χ
~2
2
2
ˆ ma więc pewien rozkład, któdami granicznymi statystyk χ i χ . Statystyka χ
rego kwantyle zawierają się między odpowiednimi kwantylami rozkładów χ 2v – k – 1
i χ 2v – 1 . W sposób bardziej precyzyjny mówi o tym następujące twierdzenie.
Twierdzenie 1 [Chernoff, Lehmann 1954]. Asymptotyczny rozkład statystyki
χˆ 2 jest taki jak rozkład:
v − k −1
∑
i =1
yi2 +
141
v −1
∑ λi yi2 ,
i =v− k
gdzie yi są niezależne i pochodzą z rozkładu normalnego N(0, 1), a λi są z przedziału (0, 1) i mogą zależeć od estymowanych parametrów.
Należy nadmienić, że wraz ze wzrostem liczby v klas wartości kwantyli rozkładów χ 2v – k – 1 i χ 2v – 1 (przy tym samym poziomie istotności α) coraz mniej się
różnią. Jeżeli więc liczba klas jest duża i estymujemy małą liczbę parametrów
metodą największej wiarygodności bez grupowania obserwacji, to przy określaniu
obszaru krytycznego można korzystać z wartości kwantyli rozkładu χ2 z v – 1 – k
stopniami swobody. W przeciwnym wypadku używanie statystyki χˆ 2 z rozkładem
granicznym χ2 z v – 1 – k stopniami swobody (co jest dość powszechną praktyką)
powoduje, że rzeczywisty rozmiar testu może być istotnie większy niż zakładany
poziom istotności.
Celem eksperymentu symulacyjnego było porównanie, przy założonych poziomach istotności, empirycznych rozmiarów testów χ2 Pearsona uzyskanych w przypadkach, gdy nieznane parametry estymowane były na podstawie zgrupowanych
danych przy użyciu algorytmu EM oraz na podstawie danych oryginalnych, niezgrupowanych. Rozkład teoretyczny postulowany w hipotezie zerowej był ciągły.
Mieliśmy do czynienia z gęstością rozkładu normalnego z nieznanymi wartością
oczekiwaną μ i wariancją σ2, tzn.
f (w; Ψ) =
 ( w − µ )2 
1
exp −
,
2σ 2 
2 πσ

(16)
gdzie wektor Ψ nieznanych parametrów miał postać Ψ = (μ, σ 2)T.
Dla n-elementowych prób losowych z rozkładu N(0, 1) wyznaczane były liczności ni obserwacji, które znalazły się w kolejnych v podprzedziałach podziału
przedziału (–∞, ∞) postaci (–∞, a1], (a1, a2], …, (av – 2, av – 1], (av – 1, ∞). Estymatory były oparte na tych samych n-elementowych próbach. Po wyznaczeniu esty~2
ˆ2 i χ
. Obliczenia były powtarzane
matorów obliczane były statystyki testowe χ
N = 10 000 razy, za każdym razem dla różnego zestawu danych. Empiryczne
rozmiary testów αemp wyznaczane były dla obszaru krytycznego postaci:
K = {t: t > χ 2v− 3 (1 − α )} ,
gdzie χ 2v – 3(1 – α) jest kwantylem rzędu 1 – α rozkładu χ2 z v – 3 stopniami swobody, a α jest poziomem istotności. Do wygenerowania próby z rozkładu N(0, 1)
użyto generatorów ran1 oraz gamdev, zaczerpniętych z pracy [Press, Teukolsky,
Vetterling, Flannery 1995].
Roman Huptas
142
Wzory na estymatory parametrów μ i σ2 w przypadku algorytmu EM wyprowadzamy opierając się na opisie kroku M z punktu trzeciego uwzględniając, że
mamy do czynienia jedynie z danymi zgrupowanymi (tzn. r = v). Dla (16) funkcja
Q(Ψ, Ψ(k)) przyjmuje postać:
v
1
1
Q( Ψ , Ψ ( k ) ) = − n (ln 2 π + ln σ 2 ) − 2 ∑ n j EΨ ( k ) {(W − µ)2 | W ∈ Wj } ..
2
2σ j =1
Ostatecznie mamy Ψ(k + 1) = (μ(k + 1), (σ2)(k + 1))T, gdzie:
v
∑ n j E Ψ { W | W ∈ Wj }
(k )
µ
( k +1)
=
j =1
v
∑nj
j =1
i
v
∑ n j EΨ {(W − µ( k+1) )2 | W ∈ Wj }
(k )
2 ( k +1)
(σ )
=
j =1
v
∑nj
.
j =1
Warunkowe wartości oczekiwane zostały w programie obliczone w sposób numeryczny przy wykorzystaniu funkcji qromo, zaczerpniętej z pracy [Press, Teukolsky,
Vetterling, Flannery 1995], w celu obliczenia odpowiednich całek. Z kolei estymatory w przypadku danych oryginalnych obliczamy następująco:
~
µ=
n
1
∑ Xi
n i =1
~
σ2 =
n
1
2
( Xi − µ~ ) ,
∑
n i =1
a więc jako odpowiednie momenty z próby.
W tabelach wyników podane zostały założone poziomy istotności i empiryczne
rozmiary testów. Rozmiary empiryczne wyliczono jako:
α emp =
Nk
,
N
gdzie Nk to liczba tych wartości statystyk testowych, które wpadły do obszaru
krytycznego, a N oznacza liczbę powtórzeń symulacji. Za błąd symulacji przyjęto
górne oszacowanie Var ( N k N ) . Dla Nk ~ B(N, α0 ) mamy:
N 
Var  k  =
N 
143
1
α 0 (1 − α 0 )
≤
Var ( N k ) =
2
N
N
1 3
⋅
4 4 ,
N
gdzie α0 jest rzeczywistym rozmiarem testu.
W tabelach 1–4 przedstawiono wyniki uzyskane dla N = 10 000 (błąd symulacji wynosi 0,004), liczności próby n ∈ {100; 500} i liczby klas v ∈ {4; 8}. Granice
klas zostały wyznaczone następująco:
– w przypadku v = 4 mamy (– ∞; –1], (–1; 0], (0; 1], (1; ∞),
– w pozostałych przypadkach mamy dwie skrajne klasy postaci (– ∞; –1,5]
i (1,5; ∞), a przedział (–1,5; 1,5] został podzielony na v – 2 równe podprzedziały.
Eksperyment pokazał, że przy estymacji nieznanych parametrów z wykorzystaniem funkcji wiarygodności po zgrupowaniu danych empiryczne rozmiary testów
są równe, w granicach błędu symulacji, założonym poziomom istotności niezależnie od liczby klas i liczności próbki. W przypadku estymacji parametrów na podstawie oryginalnych obserwacji empiryczne rozmiary testów odbiegają znacznie
od założonych poziomów istotności, gdy liczba klas jest mała. Zwiększając liczbę
klas obserwujemy, że empiryczne rozmiary testów coraz mniej się różnią między
sobą. Liczność próbki z kolei ma niewielki wpływ na rozmiary testów. Widzimy
więc, że sposób estymacji parametrów istotnie wpływa na wyniki testów.
Tabela 1. Empiryczne rozmiary testów dla v = 4, n = 100 i N = 10 000
Poziom istotności α
Empiryczny rozmiar testu αemp
algorytm EM
momenty z próby
0,010
0,010
0,015
0,050
0,052
0,085
0,100
0,104
0,172
algorytm EM
momenty z próby
0,010
0,009
0,011
0,050
0,050
0,055
0,100
0,103
0,113
Roman Huptas
144
algorytm EM
momenty z próby
0,010
0,010
0,015
0,050
0,054
0,084
0,100
0,104
0,173
algorytm EM
momenty z próby
0,010
0,011
0,011
0,050
0,053
0,059
0,100
0,105
0,118
5. Podsumowanie
W artykule został opisany algorytm EM oraz przykład jego zastosowania.
Algorytm EM jest postrzegany jako ogólna iteracyjna metoda optymalizacyjna
do maksymalizowania wiarygodnościowej funkcji oceny przy zadanym modelu
probabilistycznym z brakującymi danymi. Metoda ta jest wrażliwa na warunki
początkowe, stąd wybór różnych warunków początkowych może prowadzić do
uzyskania różnych maksimów lokalnych. W związku z powyższym, w praktyce,
w celu zmniejszenia prawdopodobieństwa zakończenia procesu optymalizacyjnego
na stosunkowo „nieefektywnym” maksimum lokalnym z punktu widzenia funkcji
wiarygodności, wskazane jest uruchomienie algorytmu EM z różnymi warunkami
początkowymi, a następnie wybranie rozwiązania, dla którego otrzymujemy największą wartość funkcji wiarygodności. Niemniej standardowy algorytm EM jest
powszechnie stosowany ze względu na dużą uniwersalność struktury i łatwość,
z jaką algorytm ten może być określony dla wielu różnych problemów.
Literatura
Chernoff H., Lehmann E.L. [1954], The Use of Maximum Likelihood Estimates in χ2
Tests for Goodness of Fit, „Annals of Mathematical Statistics”, vol. 25.
145
Dempster A.P., Laird N.M, Rubin D.B. [1977], Maximum Likelihood from Incomplete Data
via the EM Algorithm (with Discussion), „Journal of the Royal Statistical Society B”,
vol. 39.
Magiera R. [2002], Modele i metody statystyki matematycznej, wyd. 1, GiS, Wrocław.
McLachlan G.J., Krishnan T. [1997], The EM Algorithm and Extensions, John Wiley and
Sons, New York.
Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. [1995], Numerical Recipes
in C. The Art of Scientific Computing, Cambridge University Press, New York.
Wu C.F.J. [1983], On the Convergence Properties of the EM Algorithm, „Annals of Statistics”, vol. 11.
The Application of the EM Algorithm to Estimation of Parameters
of Distribution in Case Data are Grouped
In this article, the Expectation-Maximization (EM) algorithm and its application are
presented. The EM algorithm is a powerful iterative technique for finding maximum
likelihood estimates, which is useful in a wide variety of situations best described as
“incomplete data problems”, where algorithms such as the Newton-Raphson method may
turn out to be more complicated. The popularity of the EM algorithm arises from its
simplicity in implementation, stability in convergence, and applicability in practice. In the
article, the E-step and M-step of the EM algorithm are illustrated with an application. The
application is related to estimating parameters of distribution in case data are grouped and
possibly truncated. The author presents the results of a simulation experiment in which
the sizes of the Pearson chi-square goodness of fit test are obtained in two cases: when
the unknown parameters are estimated from grouped data by means of the EM algorithm
(correct procedure) and when original, ungrouped data are used (a wrong but frequently
used procedure).
Zeszyty
Naukowe nr
740
2007
Joanna Palczewska
Studium Doktoranckie Wydzia∏u Zarzàdzania
Mo˝liwoÊci zastosowania
modelu jednokierunkowej sieci
neuronowej do prognozowania
sygna∏ów kupna i sprzeda˝y
akcji w Êwietle uj´ç w literaturze
przedmiotu
1. Wprowadzenie
W 1943 r. W. McCullock i W. Pitts opublikowali pracę zatytułowaną A Logical
Calculus of Ideas Immancnt in Nervous Activity. Praca ta stała się teoretycznym
fundamentem późniejszego rozwoju sztucznych sieci neuronowych [Gately 1999,
s. 3]. Pod koniec lat czterdziestych wyjaśniono mechanizm pamiętania informacji przez biologiczne sieci neuronowe. Był to istotny element na drodze budowy
sztucznych sieci neuronowych, tj. zestawu wzajemnie połączonych sztucznych
neuronów [Korbicz, Obuchowicz, Uciński 1994, s. 18]. W 1951 r. student MIT
M. Minsky zbudował neuronowy komputer i zaprogramował go tak, by uczył się
rozkładu labiryntu. Były to narodziny badań nad sztuczną inteligencją, a Minskyʼego, który nadal pracuje w MIT, często określa się mianem ojca systemów
ekspertowych [Gately 1999, s. 3]. Istotnym krokiem w rozwoju sieci neuronowych
były prace F. Rosenblatta, w których zostało wprowadzone pojęcie jednokierunkowej sieci wielowarstwowej, gdzie neurony są zorganizowane w kolejno po sobie
następujących warstwach. Warstwą pierwszą jest wejście, a ostatnią wyjście. Były
to sieci typu perceptron [Rymarczyk 1997, s. 32–33].
Pod koniec lat siedemdziesiątych komputery dysponowały już wystarczającą
mocą obliczeniową, by można było rozpocząć praktyczne badania nad sztucznymi
Joanna Palczewska
148
sieciami neuronowymi (SSN). Jednak dopiero, datujący się od 1986 r., rozwój sieci
opartych na algorytmie wstecznej propagacji błędu (back-propagation networks)
sprawił, że sieci neuronowe zaczęto stosować do rozwiązywania konkretnych problemów ekonomicznych, naukowych i przemysłowych.
Ponieważ sieci neuronowe są dostępne, praktycznie rzecz biorąc, dopiero od lat
siedemdziesiątych i ponieważ ich rozwój związany jest m.in. z mocą obliczeniową
komputerów, nadal znajdują się one we wczesnej fazie rozwoju. Szybkość rozwiązywania problemu oraz sama możliwość zastosowania sieci neuronowych zależą od
rozmiarów sieci będących pochodną złożoności problemu i liczby zaprezentowanych
przypadków, jak również mocy obliczeniowej komputera [Gately 1999, s. 3–4].
Pierwowzorem sztucznych sieci neuronowych jest mózg ludzki, który składa
się z ok. 1010 komórek nerwowych, przetwarzających dane w sposób równoległy
w trybie równoczesnej pracy wielu połączonych ze sobą neuronów [Witkowska
2002, s. 2].
Każdy z neuronów jest wyspecjalizowaną komórką biologiczną mogącą przenosić i przetwarzać złożone sygnały elektrochemiczne. Neuron na ogół posiada
rozgałęzioną strukturę wielu wejść informacyjnych (dendryty), scalające sygnały
ze wszystkich tych wejść ciało (perikarion) oraz opuszczający komórkę jako pojedyncze włókno nośnik informacji wyjściowej (akson), powielający potem przewodzony przez siebie wynik pracy neuronu i rozsyłający go do różnych neuronów
odbiorczych poprzez rozgałęzioną strukturę wyjściową (telodendron) [Nałęcz
2000, s. 11]. Budowę tej komórki przedstawia rys. 1.
Dendryty
Korpus komórki nerwowej
Akson
Rys. 1. Budowa biologicznego neuronu
Źródło: opracowanie własne na podstawie: [Tadeusiewicz 1998, s. 9].
Możliwości zastosowania modelu…
149
Sztuczna sieć neuronowa składa się z nieporównywalnie mniejszej liczby elementów, które w dodatku są skrajnie uproszczone w stosunku do swoich pierwowzorów, a sposób połączeń i struktura sieci znacznie odbiegają od biologicznego
oryginału. Stosowane w praktyce sieci najczęściej złożone są z pewnej liczby,
połączonych miedzy sobą, warstw neuronów.
Mimo wielu uproszczeń, sztuczne sieci neuronowe charakteryzują się cechami
zarezerwowanymi dotychczas dla organizmów żywych. Najważniejszymi cechami są:
– zdolność do „uczenia się”, dzięki której sieć neuronowa potrafi nauczyć się
prawidłowych reakcji na określony zespół bodźców,
– umiejętność operowania abstrakcją; sieć neuronowa może bowiem uogólniać
wiedzę zdobytą w procesie trenowania,
– odporność na uszkodzenia, gdyż sieć neuronowa potrafi działać poprawnie,
nawet gdy część jej elementów jest uszkodzona, połączenia zerwane, a informacje
stracone.
Dzięki możliwości uczenia się oraz swoistej strukturze sztuczne sieci neuronowe
wykazują pewne właściwości podobne do procesów myślowych zachodzących
u człowieka. Cechuje je mianowicie:
– zdolność przetwarzania informacji rozmytych, chaotycznych, niekompletnych, a nawet sprzecznych,
– szybkie i efektywne przetwarzanie dużej liczby danych,
– przetwarzanie równoległe, rozproszone,
– skojarzeniowy dostęp do informacji zawartej w sieci (tzw. pamięć skojarzeniowa).
Sztuczne sieci neuronowe konstruowane są bądź jako programy emulujące neurony i ich połączenia na konwencjonalnym komputerze, bądź jako neurokomputery
[Witkowska 2002, s. 2].
Uczenie i stosowanie sztucznych sieci neuronowych wymaga postępowania
według specjalnego schematu działania złożonego z wielu etapów. Realizacja
każdego z nich wpływa na powodzenie całej operacji.
Etap 1 – określenie prognozowanej zmiennej.
Etap 2 – gromadzenie zbiorów danych lub szeregów liczbowych związanych
z prognozowanym zjawiskiem.
Etap 3 – wstępne przetworzenie danych (preprocessing) tak, by łączyły informacje lub przedstawiały je w bardziej użyteczny sposób.
Etap 4 – ustalenie wartości minimalnych i maksymalnych.
Etap 5 – wyodrębnienie testowego zbioru danych.
Etap 6 – wybór odpowiedniej architektury sieci.
Etap 7 – wybór odpowiedniego algorytmu uczenia (algorytmu treningowego).
Etap 8 – uczenie sieci.
Etap 9 – zastosowanie sieci.
Joanna Palczewska
150
Pomimo dużych możliwości, jakie oferują sieci neuronowe, nie nadają się one
do rozwiązywania wszystkich problemów. Sieci neuronowe najlepiej sprawdzają
się tam, gdzie trzeba dopasowywać wzory, wykrywać złożone współzależności
lub korzystać z danych w sposób selektywny. Często wzory zachowań, które
odkrywa sieć, nie są dla człowieka-obserwatora oczywiste. To, że rynek akcji
podąża za rynkiem obligacji, jest w finansach zjawiskiem powszechnie znanym.
Jednak zależność między ceną złota a rynkiem akcji nie jest już tak oczywista.
Działanie sieci neuronowych prognozujących zachowanie rynku akcji można często usprawnić, włączając do zmiennych wejściowych cenę złota. W ten sposób,
uwzględniając ukrytą zależność między ceną złota a zachowaniem rynku akcji,
zwiększamy trafność przewidywań, nawet jeśli jako ludzie nie jesteśmy w stanie
tej zależności określić [Gately 1999, s. 10–12].
2. Budowa neuronu
Sztuczny neuron, będący podstawowym elementem budującym każdą sieć neuronową, jest układem mającym wiele wejść (czyli odbierającym i przetwarzającym
wiele sygnałów wejściowych z różnych źródeł) i jedno wyjście (rys. 2).
x0
w0
x1
w1
y
xn
wn
Rys. 2. Model sztucznego neuronu
Źródło: opracowanie własne na podstawie: [Krawiec, Stefanowski 2003, s. 84].
Forma przetwarzania informacji wejściowych na informację wyjściową uzależniona jest od mogących się zmieniać współczynników wn nazywanych wagami.
W rzeczywistości w biologicznym neuronie odpowiednikiem wagi jest złożony
twór o skomplikowanych właściwościach bioelektrycznych i biochemicznych, tzw.
synapsa (rys. 3). Neurony te można łączyć ze sobą w różny sposób, tworząc sieć
[Tadeusiewicz 1998, s. 9–10].
151
Zakończenie aksonu neurona
wysyłającego informacje
„Waga synapsy”
Ciało neuronu odbierającego
informacje
Rys. 3. Schemat budowy synapsy
Źródło: opracowanie własne na podstawie: [Nałęcz 2000, s. 13].
Każdy z nich przetwarza skończoną liczbę sygnałów wejściowych xi (i = l, …, n)
na jedno wyjście y. Na podstawie danych, wprowadzonych na wejścia sieci, oblicza
się całkowite pobudzenie neuronu e najczęściej jako kombinację liniową wejść,
często uzupełniona wyrazem wolnym (bias), co można zapisać w postaci:
n
e = w0 + ∑ wi xi = w0 + wT x ,
(1)
i =1
gdzie:
x = [xi] – wektor [n x 1] sygnałów wejściowych,
w = [wi] – wektor [n x 1] wag, które z jednej strony wyrażają stopień ważności
informacji przekazywanej i-tym wejściem, a z drugiej, stanowią swego rodzaju
pamięć neuronu, zapamiętują bowiem związki – relacje zachodzące między
sygnałami wejściowymi i sygnałem wyjściowym.
Aby uprościć wszystkie występujące dalej wzory, przyjmiemy, że obok sygnałów wejściowych xi (i = 1, 2, …, n) występować będzie zmienna x0 = l, co pozwala
zapisać wzór na łączne pobudzenie neuronu e w postaci:
n
e = ∑ wi xi = wT x .
i =1
(2)
Sygnał wyjściowy neuronu y zależy od jego całkowitego pobudzenia, co można
zapisać jako:
y = ϕ (e) ,
(3)
Joanna Palczewska
152
gdzie ϕ jest tzw. funkcją aktywacji neuronu, a jej postać określa typ neuronu
i obszar jego zastosowań.
Funkcja aktywacji może przybierać zarówno postać liniową, jak i postacie nieliniowe, w których charakter zależności wiążącej sygnał wyjściowy z sygnałami
wejściowymi może być praktycznie dowolny. W najprostszym neuronie liniowym
jest to funkcja tożsamościowa:
ϕ (e) = e .
(4)
Możliwości sieci neuronowych, budowanych wyłącznie z elementów liniowych,
tj. o funkcji aktywacji (4), są ograniczone. Dlatego we współcześnie używanych
sieciach oprócz neuronów liniowych występują również neurony o nieliniowych
funkcjach aktywacji. Sieci nieliniowe charakteryzują się znacznie szerszym zakresem zastosowań w porównaniu z sieciami liniowymi [Witkowska 2002, s. 2–5].
3. Rodzaje sieci neuronowych
Sposoby połączenia neuronów miedzy sobą i ich wzajemnego współdziałania
wpłynęły na powstanie różnych typów sieci, każdy typ sieci jest z kolei ściśle
powiązany z odpowiednią metodą doboru wag (uczenia) [Osowski 1996, s. 18].
Możliwości gromadzenia i przetwarzania informacji, jakie posiadają pojedyncze neurony, są ograniczone, dlatego w praktyce stosuje się sieci neuronowe.
Sygnały wprowadzane na wejście neuronu są przetwarzane zgodnie z relacjami (1)
lub (2) oraz (3) i przesyłane do innych neuronów, które po odpowiedniej transformacji przekazują sygnały dalej, aż nastąpi wyprowadzenie sygnałów na zewnątrz
sieci. Rodzaj połączeń między neuronami, wejściami i wyjściami zewnętrznymi
określa architekturę (topologię) sieci.
Sztuczne sieci neuronowe są najczęściej budowane z warstw neuronów. Wejścia neuronów należących do pierwszej warstwy stanowią wejścia sieci i ta warstwa nosi nazwę wejściowej (wejście sieci). Natomiast wyjścia neuronów warstwy
ostatniej (wyjściowej) są wyjściami sieci. Między warstwami zewnętrznymi sieci
często umieszcza się tzw. warstwy ukryte.
Warstwa neuronów składa się z m elementów, zatem zawiera m wyjść. Każdemu wyjściu yj odpowiada wprawdzie ten sam wektor sygnałów wejściowych, ale
inny wektor wag wj (j = 1, 2, …, m). Dla neuronów liniowych (tj. o funkcji aktywacji postaci (4)) warstwę przetwarzającą n sygnałów wejściowych na m sygnałów
wyjściowych można przedstawić jako:
y = W Tx ,
(5)
153
gdzie:
y = [yj] – wektor [m x 1] sygnałów wyjściowych,
W = [wij] – macierz [n x m] wag, składająca się z m wektorów wj [n x 1],
x = [xi] – wektor [n x 1] sygnałów wejściowych.
Liczba neuronów w warstwie wejściowej jest zdeterminowana liczbą charakterystyk (sygnałów, zmiennych) niezbędnych do rozwiązania postawionego zadania.
Sygnały wejściowe są przetwarzane liniowo, czy wręcz tożsamościowo zgodnie
z (5). Wyjścia warstwy wejściowej zasilają, jako wejścia, warstwę następną, którą
może być pierwsza warstwa ukryta lub warstwa wyjściowa, w zależności od architektury sieci [Witkowska 2002, s. 8–10].
Ze względu na architekturę sieci neuronowe można podzielić na [Gajda 2001,
s. 222–223]:
– sieci jednokierunkowe (jednowarstwowe, wielowarstwowe),
– sieci rekurencyjne,
– sieci komórkowe.
Jedną z najważniejszych cech sieci neuropodobnych jest zdolność uczenia się.
Należy podkreślić, że jest to samoistna właściwość sieci, niezwiązana z faktem
zastosowania tego, czy innego algorytmu (oprogramowania), jak to się dzieje
w przypadku zwykłych komputerów. Proces uczenia sieci odbywa się poprzez
modyfikowanie wag poszczególnych połączeń. Ponieważ na proces pobudzenia
neuronów wpływają dwa czynniki: wielkość sygnału przewodzonego poszczególnymi połączeniami oraz wagi na tych połączeniach, jest rzeczą naturalną, że
neuron wytworzy właściwą reakcję na określony wzorzec wejściowy, o ile odpowiednio zostaną dopasowane wagi poszczególnych połączeń. Proces modyfikacji
wag w taki sposób, by odpowiedź sieci jako całości osiągnęła naszą akceptację,
nazywamy uczeniem sieci neuronopodobnych [Kamieński 2001, s. 134].
Biorąc pod uwagę sposób prowadzenia treningu można wyróżnić następujące
grupy algorytmów uczących:
– uczenie nadzorowane (z nauczycielem) – dane treningowe zawierają zestaw
sygnałów wejściowych sieci oraz poprawnych reakcji systemu; uczenie polega na
takiej modyfikacji wag, aby rzeczywiste wyjścia były jak najbliższe wartościom
pożądanym;
– uczenie bez nadzoru – w procesie uczenia sieć neuronowa nie otrzymuje
żadnej informacji na temat pożądanych reakcji [Zieliński 2000, s. 142–143];
– uczenie z forsowaniem – w tym wypadku istnieje zewnętrzne źródło danych
[Mierzejewski 2003, s. 4].
Istotne w procesie uczenia się oraz weryfikacji jakości sieci neuronowej są
również zbiory danych, tj.:
– zbiór uczący – zestaw przykładów wykorzystywanych do uczenia, który ma
dopasować parametry (wagi) do połączeń sieci,
154
Joanna Palczewska
– zbiór testowy – zestaw danych, mających ostatecznie dostroić parametry,
których przybliżenie wartości zostały wcześniej obliczone przy użyciu zestawu
danych uczących,
– zbiór weryfikacyjny – zbiór danych używanych jedynie do oszacowania
jakości działania w pełni ukształtowanej sieci na nowym zestawie danych (ocenia
jakość generalizacji modelu) [Siedlecki 2001, s. 71–72].
4. Konstrukcja modelu sieci neuronowej
Konieczność przygotowania się na przyszłe zdarzenia oraz aktywnego kształtowania przyszłości wymusza dzisiaj na decydentach sporządzanie prognoz
gospodarczych. Główną przyczyną zainteresowania przyszłym przebiegiem
różnych zjawisk jest fakt, iż przewidywanie przyszłości jest niezbędnym etapem
w przygotowaniu każdego działania, zwłaszcza sztucznych sytuacji ciągle zmieniającego się środowiska. Jednak nawet naukowe „przewidywanie” przyszłości,
jakim jest proces prognozowania, nie pozwala na uzyskanie w pełni dokładnego
stanu danego zjawiska w przyszłości [Nowak 1998, s. 29, 31].
Wykorzystanie sztucznych sieci neuronowych do prognozowania wymaga:
– zdefiniowania zmiennej prognozowanej oraz zmiennych, które będą pełniły
rolę deskryptorów,
– określenia topologii sieci,
– wybrania okresu, z którego będą pochodziły dane wykorzystane do trenowania,
– ustalenia horyzontu prognozy.
Specyfikacja zmiennych w istotny sposób wpływa na uzyskane wyniki i może
być przyczyną znacznych różnic w wartościach prognoz. Należy pamiętać, że
liczba obserwacji dotyczących kształtowania się zmiennych wejściowych (objaśniających) musi być taka sama jak liczba wzorców treningowych przygotowanych
dla zmiennych wyjściowych (prognozowanych). Dlatego do modelu wprowadza się
jedynie te zmienne, dla których dane statystyczne są dostępne z tą samą częstotliwością pomiaru (choć niekoniecznie z tych samych momentów lub okresów).
Ważnym zagadnieniem jest wyznaczenie okresu, z którego będą pochodziły
obserwacje do próby treningowej. Określenie długości szeregu czasowego podyktowane jest koniecznością kompromisu pomiędzy wymaganą liczbą wzorców
uczących i wykorzystaniem możliwie aktualnych danych, zwłaszcza jeżeli prognozowanie dotyczy zjawisk o znacznej zmienności w czasie, co zachodzi w analizach giełdowych. Przyjmuje się, że liczba obserwacji powinna być przynajmniej
10-krotnie większa od liczby szacowanych parametrów.
Zebrane dane empiryczne powinny zostać poddane wstępnej analizie i przetworzeniu, które obejmują:
155
– weryfikację poprawności i jednorodności danych,
– operacjonalizację danych,
– redukcję wymiaru przestrzeni danych wejściowych,
– wyodrębnienie zależności i wahań cyklicznych.
Przy konstrukcji sieci neuronowych należy uwzględnić:
– zbiór zmiennych wejściowych,
– liczbę warstw ukrytych i liczbę znajdujących się w nich neuronów,
– postać funkcji aktywacji.
W niniejszym artykule przedstawiono model konstrukcji jednokierunkowej
sieci neuronowej do prognozowania sygnałów kupna i sprzedaży akcji. Model
został zaczerpnięty z pracy [Witkowska 2002]. Funkcja aktywacji dla poszczególnych neuronów w tym modelu ma postać logistyczną:
ϕ ( e) =
1
.
1 + exp(−βe)
(6)
Budowa modelu sieci neuronowej przedstawia się następująco:
– 122 zmienne wejściowe,
– cztery neurony ukryte w pierwszej warstwie i dwa elementy w drugiej warstwie ukrytej,
– jeden neuron wyjściowy,
czyli architektura modelu ma postać: 122-4-2-1.
Na wejściu sieci znajdą się zmienne reprezentujące:
1) stopę zwrotu kursów akcji dla x kolejnych sesji giełdowych poprzedzających
notowania analizowanej sesji, czyli:
 K 
kt = ln  t  ,
 K t −1 
(7)
gdzie:
Kt – kurs akcji wybranej spółki dla sesji t-tej, w zł;
2) logarytmy obrotów zanotowanych w ciągu x kolejnych sesji giełdowych
poprzedzających analizowaną sesję, czyli:
vt = ln(Vt) ,
(8)
gdzie:
Vt – wolumen obrotów akcjami wybranej spółki w trakcie trwania sesji
t-tej, w zł;
3) krzywą nachylenia indeksu giełdowego WIG, czyli:
vt = β7[ln(WIGt)] ,
gdzie:
WIGt – indeks giełdowy WIG wyznaczony dla t-tej sesji,
(9)
Joanna Palczewska
156
β7 – symbol funkcji przyporządkowującej wartość współczynnika kierunkowego funkcji trendu opisującej ln(WIGt), oszacowanego na podstawie 7-elementowej próby;
4) logarytmy względnych wartości całkowitych obrotów zanotowanych w trakcie trwania sesji giełdowych, które zostały obliczone dla każdej sesji w stosunku
do średniej obliczonej z trzech poprzednich sesji, czyli:


3Ot
ot = 
,
 Ot −1 + Ot − 2 + Ot − 3 
(10)
gdzie:
Ot – całkowite obroty w trakcie trwania sesji t-tej, w zł.
Natomiast na wyjściu sieć będzie zawierać jedną ze zmiennych zdefiniowaną
jako:
1) bezwzględne przyrosty krzywej nachylenia kursu, wyznaczone w postaci
różnicy współczynników kierunkowych funkcji regresji opisujących logarytmy
wartości cen akcji notowanych w dwóch kolejnych sesjach, czyli:
st1 = β14 ln ( K t +1 ) − β14 ln ( K t ) ,
(11)
2) połowa różnicy współczynników kierunkowych funkcji regresji (11) obliczonych dla kursów akcji z dwóch kolejnych sesji, czyli:
st1 =
β14 ln ( K t +1 ) − β14 ln ( K t )
2
,
(12)
gdzie:
β14 – symbol funkcji przyporządkowującej wartość współczynnika kierunkowego funkcji regresji opisującej ln(Kt), oszacowanej na 14-elementowej próbie,
pozostałe oznaczenia jak poprzednio.
W celu uzyskania prognozy dla krzywej nachylenia kursu, a więc współczynnika
kierunkowego β14[ln(Kt + 1)], za pomocą którego wyznaczać się będzie sygnały
kupna-sprzedaży akcji, należy przekształcić generowane przez sieć wartości wyjść
korzystając z następującego wzoru:
7
β14 ln ( K t +1 ) = β14 ln ( K t − 7 ) ∑ st*− i ,
i =1
gdzie:
s*t – wyznaczona przez sieć wartość wyjścia w momencie t.
(13)
157
W celu uzyskania informacji o udziale poszczególnych przyczyn w całkowitym
błędzie prognozy poszczególne składowe wyrażono w postaci względnej:
WI1 =
I12
⋅ 100 ,
I2
WI 2 =
I 22
⋅ 100 ,
I2
WI 3 =
I 32
⋅ 100 .
I2
(14)
W przypadku prognozowania sygnałów kupna i sprzedaży akcji wartość błędu
względnego nie jest w pełni miarodajnym wskaźnikiem jakości działania sieci.
W celu uzyskania wiarygodnej oceny sieci wprowadza się nowy wskaźnik jakości
działania sieci, który zdefiniowano jako zysk względny uzyskany z transakcji
dokonanych w określonym czasie, odniesiony do maksymalnego zysku, jaki
można było osiągnąć z transakcji opartych na sygnałach kupna i sprzedaży generowanych przez wzorcową zmienną wyjściową. Przy obliczaniu zysków powinna
zostać uwzględniona prowizja maklerska na poziomie 2%.
Z=
ZS
,
ZM
(15)
gdzie:
Z – zysk względny,
ZM – zysk maksymalny,
ZS – zysk osiągnięty na podstawie transakcji prognozowanych przez sieć.
Wskaźnik jakości działania sieci (15) informuje o udziale zysku, jaki zostałby
osiągnięty przez inwestora działającego zgodnie z wygenerowanymi przez sieć
sygnałami kupna i sprzedaży akcji, w stosunku do zysku wyznaczonego dla
wszystkich zaobserwowanych sygnałów transakcji [Witkowska 2002, s. 98–100,
104–107].
5. Podsumowanie
Sztuczne sieci neuronowe stanowią nowoczesne narzędzie analityczne odznaczające się unikatowymi cechami, takimi jak zdolność uczenia się, możliwość
wyciągania wniosków nawet na podstawie niepełnych danych. Zastosowanie
sieci neuronowych zrewolucjonizowało wiele dziedzin, w których analiza danych
odgrywa podstawową rolę. Są one w stanie zautomatyzować zadania związane
z koniecznością analizy coraz większej ilości informacji oraz identyfikowaniem
możliwości.
Sztuczne sieci neuronowe przy braku odpowiedniej wiedzy co do zaistniałych
w gospodarce zjawisk umożliwiają wykrycie zależności między danymi. W sytuacji gdy wiedza o istniejących relacjach ekonomicznych jest niewystarczająca,
wygodnie jest wykorzystać sztuczne sieci neuronowe, zamiast przyjmować trudne
do zweryfikowania założenia modelowe.
158
Joanna Palczewska
Literatura
Gajda J.B. [2001], Prognozowanie i symulacja a decyzje gospodarcze, Wydawnictwo
C.H. Beck, Warszawa.
Gately E. [1999], Sieci neuronowe. Prognozowanie finansowe i projektowanie systemów
transakcyjnych, Biblioteka Inwestora, Warszawa.
Kamieński W.A. [2001], Sztuczne sieci neuronowe, Zamojskie Studia i Materiały, z. 2,
Wyższa Szkoła Zarządzania i Administracji w Zamościu, Zamość.
Korbicz J., Obuchowicz A., Uciński D. [1994], Sztuczne sieci neuronowe. Podstawy i zastosowanie, Akademicka Oficyna Wydawnicza PLJ, Warszawa.
Krawiec K., Stefanowski J. [2003], Uczenie maszynowe i sieci neuronowe, Wydawnictwo
Politechniki Poznańskiej, Poznań.
McCullock W., Pitts W. [1943], A Logical Calculus of Ideas Immancnt in Nervous Activity,
„Bulletin of Mathematical Riophysics”, vol. 5.
Mierzejewski P. [2003], Sieci neuronowe w analizie prognozowania zagrożenia finansowego przedsiębiorstw, Instytut Nauk Ekonomicznych PAN, Warszawa.
Nałęcz M. [2000], Sieci neuronowe, Akademicka Oficyna Wydawnicza Exit, Warszawa.
Nowak E. [1998], Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady,
Placet, Warszawa.
Osowski S. [1996], Sieci neuronowe w ujęciu algorytmicznym, WNT, Warszawa.
Rymarczyk M. [1997], Decyzje. Symulacje. Sieci neuronowe, Wydawnictwo Wyższej
Szkoły Bankowej, Poznań.
Siedlecki J. [2001], Wykorzystanie sztucznych sieci neuronowych w modelowaniu ekonomicznym, AE we Wrocławiu, Wrocław.
Tadeusiewicz R. [1998], Elementarne wprowadzenie do techniki sieci neuronowych
z przykładowymi programami, Akademicka Oficyna Wydawnicza PLJ, Warszawa.
Witkowska D. [2002], Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienia finansowe, Wydawnictwo C.H. Beck, Warszawa.
Zieliński J. [2000], Inteligentne systemy w zarządzaniu – teoria i praktyka, PWN, Warszawa.
The Possibility of Applying a Unidirectional Neural Network Model
in Order to Forecast Share Purchase and Sale Signals in Light
of Literature on the Subject
Financial forecasting is without doubt one of the most developed branches of applying
neural networks in the field of economics. In fact, neural networks are successfully applied
to solve problems in a wide variety of disciplines, such as: finance, medicine, applied
engineering, geology and physics. The aim of this paper is to present the use of artificial
neural networks in forecasting. The author describes a model for constructing artificial
neural networks. What is important is that the construction of a neural model requires
familiarity not only with statistical methods but also knowledge in the field of neural
networks. The model of a neural network presented in the article shows, moreover, that
artificial neural networks may be useful tools in economic forecasting.

Zagadnienie porzŕdkowania podmiotów gospodarczych z punktu

Transkrypt

Podobne dokumenty

Sieci neuronowe - Wszechnica PAN

Szczegółowy wykaz

Sieci neuronowe

Sieci neuronowe - Kognitywistyka

Portfel Akcyjny Skorelowany

PDF: Deep Learning

Kurs: ELEKTRONIKA Kod kursu

elektromonter/elektryk

instalator/elektromonter