Zagadnienie porzŕdkowania podmiotów gospodarczych z punktu
Transkrypt
Zagadnienie porzŕdkowania podmiotów gospodarczych z punktu
Zeszyty Naukowe nr 740 2007 Akademii Ekonomicznej w Krakowie Katarzyna Frodyma Katedra Statystyki Zagadnienie porzàdkowania podmiotów gospodarczych z punktu widzenia ich sytuacji finansowej 1. Wprowadzenie Niniejszy artykuł jest pierwszym etapem szerszych badań związanych z klasyfikacją podmiotów gospodarczych z punktu widzenia ich zdolności kredytowej. Podany przykład empiryczny dotyczy nieco węższego zagadnienia, gdyż przedsiębiorstwa oceniane są jedynie za pomocą wskaźników analizy finansowej. Jest to więc część oceny zdolności kredytowej oparta na miernikach ilościowych. Autorka ma jednak nadzieję, że otrzymane wyniki będą mogły zostać wykorzystane w przyszłości. Analiza osiąganych wyników gospodarowania w firmie składa się z reguły z dwóch części1: analizy opisowej oraz analizy sprawozdań finansowych. Druga część składa się z kilku podstawowych sprawozdań finansowych, takich jak: bilans firmy, rachunek zysku i strat, rachunek przepływów finansowych. Szczegółowej analizy sytuacji finansowej firmy dokonuje się biorąc pod uwagę wskaźniki finansowe, które wyznaczane są na podstawie wcześniej wymienionych sprawozdań finansowych. Najogólniej wskaźniki analizy finansowej podzielić można na cztery grupy2: 1) wskaźniki płynności finansowej – charakteryzują zdolność firmy do terminowego regulowania należności; do najczęściej stosowanych wskaźników wchodzących w skład tej grupy należą wskaźnik płynności bieżącej oraz wskaźnik płynności szybkiej; 1 2 Por. [Czekaj, Dresler 1998]. Szerzej zob. [Ziemba 2001], [Czekaj, Dresler 1998]. 112 Katarzyna Frodyma 2) wskaźniki zadłużenia – obrazują strukturę finansowania majątku przedsiębiorstwa; najczęściej w praktyce wylicza się wskaźnik ogólnego zadłużenia (wskaźnik zadłużenia aktywów), wskaźnik zadłużenia kapitału własnego oraz wskaźnik zadłużenia długookresowego; 3) wskaźniki rentowności – najogólniej ujmując, świadczą one o zdolności firmy do generowania zysku; najczęściej wyznacza się: wskaźnik rentowności netto, wskaźnik rentowności brutto, wskaźnik rentowności kapitałów własnych oraz wskaźnik rentowności aktywów; 4) wskaźniki efektywności (aktywności) – świadczą o wykorzystaniu aktywów firmy i charakteryzują jej pozycję finansową; należą do nich: wskaźnik rotacji należności, wskaźnik rotacji zobowiązań oraz wskaźnik rotacji aktywów. Często w literaturze przedmiotu3 wskazuje się również piątą grupę: wskaźniki wartości rynkowej firmy. Celem prowadzonych badań jest próba stworzenia jednolitego systemu klasyfikacji przedsiębiorstw, który będzie pomocny przy podejmowaniu decyzji, czy kredyt ma zostać przyznany, czy też należy odrzucić wniosek kredytowy. Zadaniem stworzonego systemu będzie również pomoc, już w trakcie trwania umowy kredytowej, przy przyporządkowywaniu kredytu do poszczególnych grup ryzyka. Działalność kredytowa jest jednym z głównych obszarów działalności banku, ponadto jest to działalność obarczona największym ryzykiem. Ryzyko kredytowe4 jest obok ryzyka płynności, ryzyka stopy procentowej oraz ryzyka dewizowego (kursowego) głównym elementem ryzyka bankowego. W związku z jego wpływem na ogólną kondycję banku należy je mierzyć i oceniać. W ostatnich latach coraz większe znaczenie zyskują metody matematyczne oraz statystyczne oceny ryzyka kredytowego, których głównym aspektem jest ocena zdolności kredytowej przedsiębiorstwa ubiegającego się o kredyt. Przy czym przez zdolność kredytową rozumie się zdolność do spłaty zaciągniętego kredytu wraz z odsetkami, w terminach określonych w umowie. Teoria statystyki dysponuje metodami taksonomicznymi, które mogą zostać wykorzystane do stworzenia całościowego systemu oceny przedsiębiorstw. Wybór metody oceny zdolności kredytowej, a następnie metody zakwalifikowania konkretnego przedsiębiorstwa do określonej grupy ryzyka kredytowego jest niezbędny do podjęcia właściwej decyzji odnośnie do udzielenia kredytu, a także określenia konkretnych warunków umowy kredytowej. Obowiązek dokonywania przez bank oceny zdolności kredytowej klienta wynika bezpośrednio z prawa bankowego5. Rozporządzenie Ministra Finansów 3 Por. [Czekaj, Dresler 1998], [Statystyczne metody…, 1998]. Szerzej zob. [Petterson 1995], [Stolarz 1996], [Wiatr 2004]. 5 Szerzej zob. [Jagiełło, Tomczyk 2003]. 4 Zagadnienie porządkowania podmiotów… 113 z dnia 10 grudnia 2003 r. w sprawie zasad tworzenia rezerw na ryzyko związane z działalnością banków (Dz.U. nr 218, poz. 2147), nie tylko określa grupy ryzyka i związane z nimi rezerwy, ale również ramowe kryteria klasyfikacji przedsiębiorstw do poszczególnych grup ryzyka. Prawo bankowe przywiduje pięć grup ryzyka kredytowego: – kategoria „normalne”, – kategoria „pod obserwacją”, – grupy „zagrożone” (w tym: kategoria „poniżej standardu”, kategoria „wątpliwe”, kategoria „stracone”). Podmioty klasyfikowane są do grup z uwzględnieniem dwóch kryteriów: kryterium terminowości spłaty kapitału lub odsetek oraz kryterium oceny sytuacji ekonomiczno-finansowej dłużnika. 2. Metody oceny zdolnoÊci kredytowej Przez lata istnienia systemu bankowego na świecie powstało wiele metod oceny zdolności kredytowej, nie powstał jednak żaden jednolity wzorzec. Dziś niemal każdy bank komercyjny stosuje inne kryteria przyznawania kredytów. Mimo wypracowania przez wiele lat praktyki pewnych ramowych schematów dotyczących badania oceny zdolności kredytowej, brak jest jednoznacznej odpowiedzi na pytanie, jak klasyfikować klientów, aby zminimalizować ryzyko kredytowe. Jedną z pierwszych metod oceny sytuacji ekonomiczno-finansowej przedsiębiorstw była metoda wskaźnikowa6. Metoda ta polega na zastosowaniu głównych wskaźników ekonomicznych, takich jak wskaźniki płynności finansowej, wskaźniki rentowności, wskaźniki wspomagania finansowego, a obecnie często wzbogacona jest także o ocenę konkretnej inwestycji. Do najbardziej rozpowszechnionych metod badania zdolności kredytowej należą modele scoringowe7, które polegają na stworzeniu agregatowego wskaźnika, nazywanego indeksem8. W metodzie tej wybranym wskaźnikom ekonomicznym przyporządkowuje się odpowiednie wagi na podstawie obserwacji o charakterze statystycznym. Scoring można określić jako system automatycznej i obiektywnej oceny obiektu, wprowadzony w rezultacie doświadczeń, uzasadniony przykładami i statystykami9. Pierwszym etapem credit-scoringu jest wybór wskaźników, które posłużą do oceny przedsiębiorstw. Jest to etap niezwykle trudny. Ogólne wskazówki zawarte są w obowiązującym rozporządzeniu. Przez pewien okres liczba 6 Por. [Różański 2001], [Strahl 2000]. Szerzej zob. [Janc, Kraska 2001]. 8 Zob. [Kuryłek 2000]. 9 [Boguszewski, Gelińska 2004]. 7 114 Katarzyna Frodyma wskaźników brana pod uwagę podczas analizy gwałtownie rosła. Spowodowane było to głównie rozwojem informatyki; bardziej skomplikowane obliczenia nie stanowiły już problemu. Jak się jednak okazało w tym przypadku, ilość nie przechodziła w jakość. Dziś każdy bank stara się samodzielnie określić optymalną liczbę wskaźników. Następnie należy określić odpowiednią bazę odniesienia, aby móc właściwie ocenić poziom i kierunki zmian zachodzących w przedsiębiorstwie. W niniejszej pracy wykorzystano optymalne wartości wskaźników zaczerpnięte z literatury przedmiotu. Kolejnym etapem badania jest stworzenie agregatowego wskaźnika, na podstawie którego bank będzie podejmował decyzje, czy udzielić kredytu, a następnie zakwalifikować kredytobiorcę do określonej grupy ryzyka kredytowego. Najpoważniejszym problemem na tym etapie jest przyznanie wag poszczególnym wskaźnikom wchodzącym w skład indeksu. W końcu należy wybrać odpowiedni sposób klasyfikacji przedsiębiorstw. W tym celu stosuje się różne metody10, które najogólniej można podzielić na: – metody statystyczno-matematyczne (analiza dyskryminacyjna, regresja liniowa, regresja logistyczna, drzewo klasyfikacyjne, metoda najbliższego sąsiada), – metody niestatystyczne (programowanie matematyczne, sieci neuronowe, algorytm genetyczny, systemy eksperckie). Ponadto wśród metod oceny zdolności kredytowej znane są także metody wielokryterialne, zwane również metodami punktowymi. Mają one tę zaletę, że uwzględniają nie tylko kryteria o charakterze mierzalnym, ale również niemierzalne. Ich mocną stroną jest także to, że stosuje się w nich daleko idącą standaryzację, która pozwala na relatywnie szybkie uzyskiwanie wyników. Wadą zaś tych metod jest subiektywizm oceny (odnoszący się głównie do oceny kryteriów niemierzalnych). W XXI w. codziennością stały się komputery. Również w bankowości korzysta się z nowoczesnych osiągnięć informatyki. Jedną z metod oceny zdolności kredytowej, w której wykorzystywane są osiągnięcia informatyki, są algorytmy genetyczne11. Pozwalają one na stosunkowo szybką ocenę, dzięki czemu zdecydowanie skraca się czas rozpatrywania wniosków kredytowych. Istnieje możliwość wprowadzania nie tylko obiektywnych ocen liczbowych, ale również subiektywnej oceny pewnych kryteriów. Metoda ta wymaga jednak stworzenia dużej bazy danych historycznych. Zaawansowaną technologicznie metodą są systemy hybrydowe, czyli połączenie sieci neuronowych z systemami eksperckimi. Sieci neuronowe dobrze rozpoznają zależności miedzy różnymi zjawiskami12, jednak trudno jest uzyskać 10 Zob. [Batóg 1997], [Dziechciarz, Walesiak 2000], [Gantar 1999], [Matuszyk 2003], [Gasik 1998], [Grabiński 1992], [Grabiński, Wydymus, Zeliaś 1989]. 11 Szerzej zob. [Gwiazda 1998]. 12 Por. [Witkowska 2002]. Zagadnienie porządkowania podmiotów… 115 informacje dotyczące sposobu dojścia do określonych informacji. Dlatego też etap zastosowania sieci neuronowych często poprzedza się oceną wniosków kredytowych z wykorzystaniem systemów eksperckich, których zadaniem jest wstępne odrzucenie tych wniosków, które odrzuciłby inspektor kredytowy. 3. Porzàdkowanie spó∏ek publicznych województwa ma∏opolskiego Przedstawiony przykład empiryczny to pierwsze podejście autorki do tego typu badań. Badaniem objęte zostały jedynie spółki mające siedzibę główną na terenie województwa małopolskiego. W kolejnych pracach autorka zamierza rozszerzyć analizę na wszystkie spółki w Polsce, biorąc pod uwagę również cechy jakościowe. 3.1. Dobór badanych spółek Dane liczbowe dotyczą spółek publicznych działających w województwie małopolskim. Pod pojęciem spółki publicznej rozumie się spółkę, której akcje chociaż jednej emisji dopuszczone zostały do obrotu publicznego przez Komisję Papierów Wartościowych i Giełdy (KPWiG). Przedsiębiorstwo, będąc spółką publiczną, od dnia udostępnienia prospektu do publicznej wiadomości zaczyna podlegać tzw. obowiązkom informacyjnym ciągłym, a więc obowiązkowi przekazywania do publicznej wiadomości określonych ustawowo informacji w formie raportów bieżących i raportów okresowych. Obowiązek ten ma charakter ciągły i ustaje dopiero z chwilą wycofania lub wykluczenia papierów wartościowych emitenta z publicznego obrotu. W województwie małopolskim siedzibę główną miało 21 spółek publicznych13: – Alma Market SA (dawniej: Firma Handlowa KrakChemia SA, Kraków), – Ampli SA (Tarnów), – Artman SA (dawniej: Artman Sp. z o.o., Kraków), – Bank BPH SA (dawniej: Bank Przemysłowo-Handlowy SA, Kraków), – Browary Polskie Brok-Strzelec (dawniej: Małopolski Browar Strzelec SA, Kraków), – Comarch SA (Kraków), – Deutsche Bank PBC SA (dawniej: Bank Współpracy Regionalnej SA, Kraków), – Fabryka Elementów Hydrauliki Ponar-Wadowice SA (Wadowice), – Firma Chemiczna Dwory SA (dawniej: Zakłady Chemiczne Oświęcim SA, Oświęcim), – Grupa Kęty SA (dawniej: Zakłady Metali Lekkich Kęty SA, Kęty), 13 Dane na dzień 2.12.2004 r. Katarzyna Frodyma 116 – Grupa Onet.pl SA (dawniej: Optimus SA, Nowy Sącz), – Instal Kraków SA (dawniej: Instal Kraków Sp. z o.o.; Kraków), – Interia.pl SA (dawniej: Interia.pl Sp. z o.o., Kraków), – Korporacja Gospodarcza Efekt SA (Kraków), – Naftobudowa SA (Kraków), – Nowosądecka Fabryka Urządzeń Górniczych Nowomag SA (Nowy Sącz), – Optimus SA (dawniej: Optimus Technologie SA, Nowy Sącz), – Unimil SA (dawniej: Przedsiębiorstwo Przemysłowo-Handlowe Unimil Sp. z o.o., Dobczyce), – Vistula SA (dawniej: Zakłady Przemysłu Odzieżowego Vistula SA, Kraków), – Zakład Przemysłu Hutniczego Stalprodukt SA w Bochni (Bochnia), – Zakłady Przemysłu Cukierniczego Wawel SA (Kraków). Dwie z wymienionych spółek nie zostały uwzględnione w analizie z uwagi na specyfikę ich działalności. Są to Bank BPH SA oraz Deutsche Bank PBC SA. Informacje dotyczące pozostałych spółek pochodzą ze strony internetowej: ISI Emerging Markets14, wskaźniki finansowe pochodzą z bazy Corporate Database i dotyczą 2002 r., oparte są na danych oficjalnych audytowanych. Wskaźniki dwóch przedsiębiorstw (Optimus SA oraz Nowomag SA) wyznaczone zostały na podstawie danych surowych pochodzących z bilansu oraz rachunku zysków i strat. Dane finansowe tych spółek (bilans, rachunek wyników, rachunek przepływów finansowych) pochodzą z „Monitora Polskiego B”15. 3.2. Opis wybranych wskaêników analizy finansowej Wyboru zestawu wskaźników do oceny sytuacji finansowej badanych spółek dokonano opierając się na Rozporządzeniu Ministra Finansów (obowiązującym wszystkie banki) oraz biorąc pod uwagę wskaźniki stosowane zazwyczaj przez polskie banki komercyjne, dostępność danych, a także teorię finansów dotyczącą poszczególnych mierników. Wskaźniki płynności finansowej majątek obrotowy . zobowiązania krótkoterminowe Jest to wskaźnik, który informuje o zdolności firmy do regulowania swoich zobowiązań bieżących. Jak wynika z praktyki16, jego wartość powinna mieścić się w przedziale 〈 1,2; 2,0 〉. Wartość poniżej 1 może świadczyć o kłopotach z płyna) wskaźnik płynności bieżącej (x1) = 14 http://site.securities.com. „Monitor Polski B” w wersji elektronicznej znajduje się na stronach ISI Emerging Markets. 16 Szerzej zob. [Czekaj, Dresler 1998]. 15 Zagadnienie porządkowania podmiotów… 117 nością, a tendencja spadkowa wskaźnika jest sygnałem informującym o możliwości wystąpienia trudności płatniczych. Także zbyt wysoka wartość tego wskaźnika nie jest wskazana, gdyż świadczy o nadpłynności, czyli niepełnym wykorzystaniu zobowiązań krótkoterminowych jako źródła finansowania majątku obrotowego. Ważne jest, aby zwrócić uwagę na fakt, iż w dużej mierze optymalny poziom tego wskaźnika zależy od rodzaju działalności gospodarczej i jest on branżowo zróżnicowany. majątek obrotowy – zapasy . b) wskaźnik płynności szybkiej (x2) = zobowiązania krótkoterminowe Wskaźnik ten, zwany także wskaźnikiem podwyższonej płynności, mierzy zdolność firmy do natychmiastowej spłaty długu. Wartość tego wskaźnika17 oscylować powinna wokół 1; w praktyce możemy mówić o dobrej płynności, jeśli jego wartość mieści się w przedziale 〈 1,0; 1,2 〉. Również tutaj wartość poniżej jedności może być sygnałem kłopotów z terminowym regulowaniem zobowiązań. Wskaźniki zadłużenia a) wskaźnik ogólnego zadłużenia (x3) = zobowiązania ogółem aktywa ogółem Im wyższy jest poziom tego wskaźnika, tym ryzyko finansowe jest wyższe, ponieważ wyższy jest poziom zadłużenia, choć należy pamiętać, że w znacznym stopniu jego wysokość zależy od branży (banki i firmy leasingowe charakteryzują się wysoką wartością tego wskaźnika). zobowiązania ogółem . b) wskaźnik zadłużenia kapitału własnego (x4) = kapitały własne Wskaźnik ten określa zaangażowanie kapitału obcego w stosunku do kapitału własnego. Według standardów międzynarodowych18 (UNIDO, Bank Światowy) optymalna relacja pomiędzy tymi kapitałami powinna wynosić od 67% (kapitał własny) do 33% (kapitał obcy), choć dopuszcza się relację 50% : 50%. Wskaźniki rentowności a) wskaźnik rentowności netto (x5) = wynik netto . przychody ze sprzedaży Informuje on, ile wyniku finansowego netto uzyskuje się z jednej złotówki pochodzącej ze sprzedaży. Pożądany jest wysoki poziom tego wskaźnika, ponieważ im wyższa jego wartość, tym wyższa jest efektywność osiąganych dochodów. 17 18 Por. [Czekaj, Dresler 1998]. Por. ibidem. Katarzyna Frodyma 118 b) wskaźnik rentowności kapitałów własnych (x6) = wynik netto . kapitały własne Wskaźnik ten zwany jest także wskaźnikiem zyskowności kapitału własnego lub stopą zwrotu z kapitału własnego (ROE). Wysoki poziom tego wskaźnika świadczy o korzystnej sytuacji finansowej przedsiębiorstwa, możliwości powstania nadwyżki finansowej, a co za tym idzie, perspektywie dalszego rozwoju firmy. wynik netto . c) wskaźnik rentowności aktywów (x7) = kapitały własne Wskaźnik rentowności (zyskowności) aktywów (ROA) pokazuje, jak efektywnie firma zarządza swoim majątkiem. W praktyce banki, udzielając kredytu, oczekują, aby wskaźnik ten znajdował się na poziomie 2–6%, ale im wyższy jest jego poziom, tym lepiej. Wskaźnik efektywności a) wskaźnik rotacji mależności (x8) = przychody ze sprzedaży . przeciętny stan należności Trudno jest określić optymalny poziom tego wskaźnika, zwykle porównuje się go do wartości z ubiegłych okresów lub z sytuacją występującą w innych firmach danej branży. Zadowalający jest jego poziom z przedziału 〈 7; 10 〉. Wartość poniżej 7 oznacza, że przedsiębiorstwo kredytuje swoich klientów, co wiąże się z zamrożeniem środków. Im dłuższy jest ten okres, tym firma szybciej przekształca należności w środki pieniężne i tym mniej potrzebuje kapitału własnego i obcego do finansowania tych należności. przychody ze sprzedaży . b) wskaźnik rotacji aktywów (x9) = przeciętny poziom aktywów Jedna z interpretacji tego wskaźnika mówi, że jego wartość informuje, jaką wartość sprzedaży osiągnięto z zaangażowania 1 zł aktywów. W związku z tym im wyższa jest wartość tego wskaźnika, tym lepiej. Tabela 1. Wskaźniki finansowe dla spółek publicznych województwa małopolskiego Nazwa spółki Wskaźnik x1 x2 x3 x4 Alma Market SA 0,5436 0,1990 0,5459 1,2934 x5 x6 2,0268 8,3226 x7 x8 x9 3,5125 51,6237 1,7019 Ampli SA 1,0625 0,8000 0,7182 2,6005 –2,8487 –18,9291 –5,2280 2,2304 1,4093 Artman SA 1,1929 0,3256 0,4910 1,6784 4,7039 35,0751 10,2622 18,1641 2,8812 Brok-Strzelec SA 0,5913 0,5259 0,6338 1,9939 0,7988 1,1931 0,3793 3,5764 0,5427 Zagadnienie porządkowania podmiotów… 119 cd. tabeli 1 Nazwa spółki Wskaźnik x1 x2 x3 x4 x5 x6 x7 7,0409 4,3347 3,2349 0,8175 Comarch SA 3,4570 3,2782 0,3406 0,5533 6,2546 x8 x9 Dwory SA 0,7241 0,4775 0,5041 1,1868 1,0988 2,7657 1,1748 7,0066 1,1113 Efekt SA 1,1062 0,9663 0,2287 0,3310 4,1997 3,2992 2,2798 7,4038 0,5597 Instal Kraków SA 2,0050 1,9246 0,3440 0,5789 1,3878 2,8812 1,7120 2,7289 1,1994 Interia.pl SA 8,8620 8,8008 0,0563 0,0622 –54,7590 –56,5373 –51,1377 3,3490 0,7381 Kęty SA 1,3241 0,8979 0,4044 0,7454 Naftobudowa SA 0,8292 0,7797 0,7795 4,6212 7,5588 4,1008 4,0557 0,8460 5,7311 –5,9227 –68,8210 –9,3611 2,9283 1,4485 Nowomag SAa 0,9074 0,5725 0,7995 6,3860 3,3842 46,8141 5,8611 4,6079 1,6357 Onet.pl SA 5,6089 5,6089 0,0186 0,0193 3,8443 1,2817 1,2329 0,6677 0,1598 Optimus SAa 0,9551 0,7529 0,5760 2,6288 –29,3654 –343,9571 –75,3625 12,6736 3,8075 Ponar-Wadowice 6,1026 3,3534 SA 0,1014 0,1340 –18,2058 –21,4465 –16,2401 5,0867 0,8800 Stalprodukt SA 0,9918 0,5971 0,4965 1,3785 1,4311 6,2098 2,2365 5,3254 1,5769 Unimil SA 5,6033 4,7301 0,0879 0,1064 6,6243 8,6111 7,1155 Vistula SA 1,0652 0,6036 0,4920 1,3696 –59,4506 –171,7467 –61,6972 2,2069 0,8094 Wawel SA 1,7043 1,1976 0,4380 0,8082 2,1287 6,9378 3,7600 4,6422 1,0608 4,3228 1,7849 a wskaźniki obliczone na podstawie danych rzeczywistych Źródło: ISI Emerging Markets. Wartość wskaźników x1–x9 dla 14 badanych spółek publicznych województwa małopolskiego zawiera tabela 1. 3.3. Charakterystyki opisowe Dla wybranych wskaźników wyznaczono charakterystyki opisowe, które zawiera tabela 2. Warto zwrócić szczególną uwagę na dwa pierwsze wskaźniki. Średnia wartość wskaźnika płynności bieżącej wynosi 2,35, czyli znajduje się ponad obszarem optymalnym dla tej miary, mediana zaś wynosi jedynie 1,11, co świadczy o tym, że 50% spółek charakteryzowało się za niską płynnością finansową. Podobnie sytuacja wygląda, jeżeli chodzi o współczynnik płynności szybkiej; w tym przypadku również średnia wartość wskazywałaby na nadpłynność spółek, ale mediana informuje nas, że 50 % spółek miała za niską (bo mniejszą od 1) płynność natychmiastową. W przypadku wskaźnika zadłużenia aktywów średnia (0,42) niewiele różni się od mediany (0,49) i obie wartości wskazują na niski poziom zadłużenia. Dla wskaźnika zadłużenia kapitału własnego różnice Katarzyna Frodyma 120 Tabela 2. Charakterystyki opisowe dla wszystkich spółek Wskaźnik Średnia Mediana Minimum Maksimum Odchylenie standardowe x1 2,3493 1,1062 0,5436 8,8620 2,4024 1,9153 0,8000 0,1990 8,8008 2,2848 x3 0,4240 0,4910 0,0186 0,7995 0,2387 1,5571 1,1868 0,0193 6,3860 1,7775 x2 x4 –6,7394 1,4311 –59,4506 6,6243 19,8491 x6 –28,6025 2,8812 –343,9571 46,8141 89,6906 x8 x5 x7 –9,0034 1,7120 –75,3625 10,2622 24,9535 7,6755 4,3228 0,6677 51,6237 11,3848 x9 1,3142 1,1113 0,1598 3,8075 0,8531 Źródło: obliczenia własne. między średnią i medianą są znaczące, ale w efekcie obie wartości świadczą o zbyt dużym zadłużeniu pasywów. W przypadku grupy wskaźników rentowności średnia zawsze jest mniejsza od zera i świadczy o tym, że przeciętnie firmy ponosiły straty. Mediany jednak są dodatnie, co oznacza, że przynajmniej 50% spółek osiągnęło zyski. Średnia wskaźnika rotacji należności (7,65) świadczyłaby o dobrej polityce należnościami, jednak mediana na poziomie 4,32 wskazuje na to, że przynajmniej połowa spółek kredytuje swoich odbiorców. Natomiast zarówno średnia (1,31), jak i mediana (1,11) świadczą o dobrym wykorzystaniu aktywów (wskaźnik rotacji aktywów). 3.4. Korelacje pomi´dzy poszczególnymi wskaênikami Zbadano korelację liniową pomiędzy poszczególnymi wskaźnikami, wyniki zawiera tabela 3. Wśród badanych spółek występuje silna, statystycznie istotna korelacja w trzech grupach wskaźników (wskaźniki płynności, zadłużenia i rentowności), brak jest zależności jedynie w grupie wskaźników efektywności. Najsilniejsza statystycznie istotna korelacja dodatnia występuje pomiędzy wskaźnikiem płynności bieżącej oraz wskaźnikiem płynności szybkiej (0,97). Wysoka jest również korelacja pomiędzy rentownością netto a rentownością aktywów (0,91), rentownością aktywów i rentownością kapitałów własnych (0,90), a także pomiędzy zadłużeniem aktywów a zadłużeniem kapitału własnego (0,83). Nieco niższa zależność występuje pomiędzy rentownością kapitałów własnych oraz rentownością netto (0,66). Co ciekawe, pomiędzy wskaźnikami z różnych grup występuje jedynie statystycznie istotna korelacja ujemna – najsilniejsza pomiędzy zadłużeniem aktywów i płynnością bieżącą (–0,82) oraz zadłużeniem aktywów i płynnością Zagadnienie porządkowania podmiotów… 121 szybką (–0,78). Zdecydowanie słabsza korelacja ujemna występuje pomiędzy zadłużeniem kapitału własnego a płynnością bieżącą (–0,50), rentownością kapitałów własnych i rotacją aktywów (–0,49) oraz zadłużeniem kapitału własnego i płynnością szybką (–0,46). Tabela 3. Macierz korelacji pomiędzy wskaźnikami x1 x2 x3 x4 x5 x6 x7 x8 x9 x1 1,00 0,97 –0,82 –0,50 –0,33 0,07 –0,18 –0,26 –0,38 x2 0,97 1,00 –0,78 –0,46 –0,33 0,05 –0,20 –0,28 –0,41 x3 –0,82 –0,78 1,00 0,83 0,13 –0,13 0,03 0,16 0,45 x4 –0,50 –0,46 0,83 1,00 0,07 –0,12 –0,02 –0,01 0,36 x5 –0,33 –0,33 0,13 0,07 1,00 0,66 0,91 0,13 –0,03 x6 0,07 0,05 –0,13 –0,12 0,66 1,00 0,90 0,02 –0,49 x7 –0,18 –0,20 0,03 –0,02 0,91 0,90 1,00 0,09 –0,29 x8 –0,26 –0,28 0,16 –0,01 0,13 0,02 0,09 1,00 0,37 x9 –0,38 –0,41 0,45 0,36 –0,03 –0,49 –0,29 0,37 1,00 Kursywą oznaczone zostały wartości statystycznie istotne, wartości p-value < 0,05 Źródło: obliczenia własne. Na podstawie wyników badania korelacji można stwierdzić, że łatwiej jest podnieść ocenę sytuacji finansowej poprawiając tylko jeden ze wskaźników płynności, gdyż wtedy niemal automatycznie poprawie ulegnie również drugi wskaźnik. Również duża korelacja wskaźników zadłużenia świadczy o tym, że poprawa jednego z tych wskaźników spowoduje lepszą ocenę sytuacji firmy ze względu na drugi wskaźnik. Zdecydowanie najbardziej poprawia swoją sytuację (w ramach tak dobranych wskaźników) firma, która osiąga dobre wyniki odnoszące się do rentowności. W związku z korelacją dodatnią poprawa jednego ze wskaźników powoduje poprawę pozostałych dwóch miar. Gorsza sytuacja jest w grupie wskaźników efektywności (brak korelacji). Poprawa wskaźnika rotacji należności nie musi przynosić automatycznie poprawy wskaźnika rotacji aktywów. 3.5. Uporzàdkowanie spółek Dla każdej spółki obliczono, ile wskaźników analizy finansowej przyjęło wartości optymalne lub najlepsze z możliwych, a ile wskaźników miało wartości świadczące o słabszej kondycji finansowej. Katarzyna Frodyma 122 Tabela 4. Podział wskaźników Dobra kondycja finansowa Słaba kondycja finansowa Liczba zmiennych Alma Market SA 5 5 10 Ampli SA 1 9 10 Artman SA 5 5 10 Brok-Strzelec SA 4 6 10 Comarch SA 4 6 10 Dwory SA 6 4 10 Efekt SA 4 6 10 Instal Kraków SA 6 4 10 Interia.pl SA 0 10 10 Kęty SA 5 5 10 Naftobudowa SA 1 9 10 Nowomag SA 4 6 10 Onet.pl SA 3 7 10 Optimus SA 3 6 10 Ponar-Wadowice SA 0 10 10 Stalprodukt SA 4 6 10 Unimil SA 4 6 10 Vistula SA 0 10 10 Wawel SA 8 2 10 Nazwa spółki Źródło: obliczenia własne. Przyznając poszczególnym spółkom wartość 1, jeżeli wartość danego wskaźnika jest zadowalająca, oraz 0 w przeciwnym wypadku, otrzymamy pierwsze uporządkowanie badanych spółek. Wartość zmiennej syntetycznej (która jest sumą zmiennych zero-jedynkowych, zmienne te w większości są skorelowane ze sobą) informuje o liczbie wskaźników, pod względem których spółka miała dobre wyniki. Uporządkowanie spółek pod względem tej zmiennej przedstawia tabela 5 oraz rys. 1. Można zauważyć, że zdecydowanie najlepszą spółką w tym zestawieniu są Zakłady Przemysłu Cukierniczego Wawel SA, które osiągnęły zadowalający poziom pod względem 7 z 9 wskaźników. Następnie utworzyła się grupa 13 spółek, które miały 5, 4 lub 3 wskaźniki na zadowalającym poziomie. Ostatnią grupę stanowią te spółki, dla których tylko jeden lub żaden ze wskaźników nie osiągnął optymalnego poziomu. Warto zwrócić uwagę, że są w tej grupie tylko Zagadnienie porządkowania podmiotów… 123 te spółki, które w 2002 r. poniosły stratę. Jedyną spółką, która poniosła stratę, a mimo to trzy jej wskaźniki osiągnęły wystarczający poziom, jest Optimus SA. Tabela 5. Uporządkowanie spółek pod względem liczby wskaźników, które przyjęły pożądaną wartość Nazwa spółki Wartość zmiennej Wawel SA 7 Dwory SA 5 Instal Kraków SA 5 Alma Market SA 5 Artman SA 5 Kęty SA 5 Brok-Strzelec SA 4 Comarch SA 4 Efekt SA 4 Nowomag SA 4 Stalprodukt SA 4 Unimil SA 4 Onet.pl SA 3 Optimus SA 3 Ampli SA 1 Naftobudowa SA 1 Interia.pl SA 0 Ponar-Wadowice SA 0 Vistula SA 0 Źródło: obliczenia własne. Na takie uporządkowanie spółek może mieć wpływ nadreprezentacja rentowności. W trzech grupach wskaźników znajdują się po dwie miary. Jedynie rentowność reprezentowana jest przez trzy wskaźniki. Zauważona wcześniej korelacja pomiędzy wskaźnikami tej grupy (por. punkt 3.3) może powodować, że przedsiębiorstwo zajmie wyższą pozycje, głównie dlatego, iż rentowność jest jego mocną stroną. Do dalszej analizy wzięto pod uwagę tylko 13 spółek, tj. te które w 2002 r. wypracowały zysk. W kolejnym uszeregowaniu uwzględniono, jaką pozycję zajmowała spółka ze względu na każdy ze wskaźników. Porangowano spółki, nadając rangę 1 spółce najgorszej, a rangę 13 najlepszej. Następnie zsumowano rangi za każdy wskaźnik Katarzyna Frodyma 124 i na tej podstawie uszeregowano spółki, od tej, która ze względu na wyróżnione wskaźniki charakteryzowała się najlepszą sytuacją finansową, do najsłabszej. Jak wynika z tabeli 6, najlepszą sytuacją finansową odznaczał się Artman SA, najsłabszą zaś Onet.pl SA. Tabela 6. Uporządkowanie spółek pod względem sumy rang Nazwa spółki Artman SA Wawel SA Wskaźnik x1 x2 12,5 6 Alma Market SA x5 x6 x7 x8 x9 Suma 6 x3 6,5 x4 5 11 12 13 12 13 84,5 12,5 6,5 11,5 6 7 8 6 12 82,0 6 12,5 6,5 5 5 10 7 13 11 76,0 12,5 6 6,5 11,5 10 9 9 5 5 74,5 Unimil SA 6 6 6,5 5 13 11 12 8 6 73,5 Nowomag SA 6 6 6,5 5 7 13 11 7 10 71,5 Kęty SA Comarch SA 6 6 6,5 11,5 12 8 10 3 4 67,0 Efekt SA 6 6 6,5 5 9 5 6 11 3 57,5 56,5 Stalprodukt SA 6 6 6,5 5 4 6 5 9 9 Instal Kraków SA 6 6 6,5 11,5 3 4 4 2 8 51,0 Dwory SA 6 6 6,5 5 2 3 3 10 7 48,5 Brok-Strzelec SA 6 6 13 5 1 1 1 4 2 39,0 Onet.pl SA 6 6 6,5 5 8 2 2 1 1 37,5 Źródło: obliczenia własne. Na różnice pomiędzy tymi dwoma uporządkowaniami może mieć wpływ fakt, że w pierwszej metodzie każdy wskaźnik miał taką samą wagę, firma mogła otrzymać jeden punkt lub zero w zależności od tego, czy wskaźnik miał wartość optymalną czy też nie. W drugiej metodzie wskaźniki rentowności i efektywności punktowane są od 1 aż do 13 punktów. Pozostałe wskaźniki zaś w związku z tym, że ich optymalny poziom mieści się w pewnym przedziale, punktowane były tylko dwoma wartościami (6 i 12,5; 6,5 i 13 lub 5 i 11,5). W efekcie liczba punktów przyznanych danej spółce nie zależała tylko od jej sytuacji, ale również od tego, jakie wartości wskaźnika osiągnęły pozostałe spółki. Następnie spółki uszeregowano za pomocą miernika syntetycznego19, zaproponowanego przez D. Strahl [1990], który jest średnią z odpowiednio unormowanych wartości opisujących dany obiekt. Wyznaczany jest on według wzoru: 19 Za: [Statystyczne metody…, 1998]. Zagadnienie porządkowania podmiotów… qi = 1 m ' ∑ xij , m j =1 125 i = 1, …, n, j = 1, …, m , (1) gdzie: xi'j – znormalizowana wartość j-tej cechy dla i-tego obiektu, n – liczba analizowanych obiektów, m – liczba przyjętych cech. Normalizacji poddano wszystkie 9 wskaźników (por. punkt 3.2), przy czym cztery pierwsze w związku z tym, że ich wartość optymalna mieści się w pewnym przedziale, poddane zostały unitaryzacji zerowanej20 według wzorów: xij − min c1 j − min xij' = 1 x − max ij c2 j − max dla xij < c1 j dla c1 j ≤ xij ≤ c2 j , dla xij > c2 j xij' ∈ [ 0; 1] , (2) gdzie: c1j – dolna granica zalecanego przedziału, c2j – górna granica zalecanego przedziału. Wskaźniki rentowności oraz efektywności zaklasyfikowano jako stymulanty i skorzystano ze wzoru: x − min xij' = ij xij' ∈ [ 0; 1] . (3) , max− min Tabela 7 zawiera znormalizowane wskaźniki finansowe dla 13 spółek, które osiągnęły zysk, oraz miernik syntetyczny wyznaczony zgodnie ze wzorem (1). Tabela 7. Znormalizowane wartości wskaźników Nazwa spółki Wskaźnik x1 x2 x3 x4 0,86 0,87 x5 x6 x7 x8 0,67 0,74 0,20 0,34 x9 Miernik syntetyczny Artman SA 0,99 0,16 1,00 0,65 Wawel SA 1,00 1,00 0,76 1,00 0,23 0,13 0,06 0,07 0,60 0,54 Kęty SA 1,00 0,87 0,70 1,00 0,66 0,14 0,06 0,07 0,25 0,53 Comarch SA 0,60 0,53 0,58 1,00 0,94 0,13 0,07 0,05 0,24 0,46 Instal Kraków SA 1,00 0,84 0,59 1,00 0,10 0,04 0,01 0,04 0,38 0,44 Alma Market SA 0,00 0,00 0,96 0,95 0,21 0,43 20 Szerzej zob. [Kukuła 2000]. 0,16 0,05 1,00 0,57 Katarzyna Frodyma 126 cd. tabeli 7 Wskaźnik Nazwa spółki x2 x1 x3 x4 x5 x6 x7 x8 x9 Miernik syntetyczny Stalprodukt SA 0,68 0,50 0,87 0,93 0,11 0,11 0,02 0,09 0,52 0,43 Efekt SA 0,86 0,96 0,38 0,65 0,58 0,05 0,02 0,13 Nowomag SA 0,55 0,47 Dwory SA 0,27 0,35 0,88 0,97 0,05 0,03 0,00 0,12 0,35 0,34 Brok-Strzelec SA 0,07 0,41 1,00 0,82 0,00 0,00 0,02 0,06 0,14 0,28 Unimil SA 0,00 0,20 0,13 0,13 0,08 0,33 0,25 Onet.pl SA 0,00 0,00 0,00 0,00 0,52 0,00 0,00 0,00 0,00 0,06 0,15 0,42 0,00 0,00 0,44 1,00 0,10 0,08 0,54 0,35 0,18 1,00 0,16 Źródło: obliczenia własne. 0,7 0,6481 0,6 0,5378 0,5278 0,5 0,4594 0,4440 0,4318 0,4255 0,4197 0,4 0,3540 0,3365 0,3 0,2751 0,2455 0,2 0,1 0,0584 or y ok SA -S trz el ec SA U ni m il SA O ne t.p lS A w Br D ag SA A om kt S N ow Ef e kt SA od u St al pr A lm aM ar ke t SA SA SA lK ra kó w ch SA In sta Co m ar SA K ęt y el W aw A rtm an SA 0,0 Rys. 1. Uporządkowanie spółek pod względem miernika syntetycznego Źródło: opracowanie własne na podstawie tabeli 7. Jak wynika z tabeli 7, najlepszą sytuacją finansową opisaną miernikiem syntetycznym charakteryzował się Artman SA. Jest to sytuacja analogiczna do poprzedniego uszeregowania, także w obu przypadkach Wawel SA zajmował drugą pozycję. Zdecydowanie lepiej niż poprzednio wypadł Onet.pl SA, zaś Brok-Strzelec SA w przypadku dwóch ostatnich uporządkowań znajdował się na ostatnich miejscach (por. rys. 1). Zagadnienie porządkowania podmiotów… 127 Na koniec zbadano zgodność uszeregowań otrzymanych wszystkimi trzema metodami. W tym celu skorzystano ze współczynnika korelacji rang Spearmana, wyrażonego wzorem: n ρ = 1− 6∑ di2 i =1 2 n(n − 1) , (4) gdzie: di – różnica pomiędzy rangami, n – liczba analizowanych przedsiębiorstw. Tabela 8 zawiera wartości rang dla każdej spółki ze względu na poszczególne porządkowania (przy czym spółce, która w danym uporządkowaniu zajmowała pierwsze miejsce, nadano wartość 1). Tabela 8. Rangi spółek ze względu na poszczególne metody uszeregowań Metoda porządkowania Nazwa spółki Alma Market SA Artman SA zmienna zero-jedynkowa suma rang poszczególnych wskaźników miernik syntetyczny 4 3 6 4 1 1 Brok-Strzelec SA 9,5 12 11 Comarch SA 9,5 7 4 Dwory SA 4 11 10 9,5 8 8 Instal Kraków SA 4 10 5 Kęty SA 4 4 3 Efekt SA Nowomag SA 9,5 6 9 Onet.pl SA 13 13 13 Stalprodukt SA 9,5 9 7 Unimil SA 9,5 5 12 Wawel SA 1 2 2 Źródło: obliczenia własne. Na podstawie tych rang obliczono wartości współczynnika korelacji rang Spearmana dla wszystkich par uszeregowań. Najsłabsza zgodność występuje pomiędzy uporządkowaniem pod względem zmiennej zero-jedynkowej a uporządkowaniem pod względem rang (ρ = 0,61), silniejsza pomiędzy uszeregowaniem 128 Katarzyna Frodyma pod względem miernika syntetycznego i rang (ρ = 0,70). Najbardziej wyraźna zgodność występuje dla uszeregowań pod względem zmiennej zero-jedynkowej i miernika syntetycznego (ρ = 0,73). 4. Podsumowanie W przeprowadzonych badaniach dokonano trzech różnych uporządkowań spółek publicznych z punktu widzenia ich sytuacji finansowej. Sytuacja ta mierzona była wybranymi wskaźnikami analizy finansowej, brane więc były pod uwagę jedynie cechy ilościowe. Przy wyborze wskaźników oraz przy określaniu granic, które świadczą o dobrej kondycji finansowej, kierowano się literaturą przedmiotu. W przyszłości prowadzone badania rozszerzone zostaną o oparty na metodach statystycznych wybór wskaźników analizy finansowej, a także ocenę optymalnych wartości dla poszczególnych wskaźników. Autorka zamierza również sprawdzić, w jaki sposób na kolejność uporządkowania spółek pod względem miernika syntetycznego wpływają sposoby normalizacji danych. Mimo zastosowania różnych metod porządkowania uzyskano w miarę zgodne wyniki uszeregowań. W grupie 19 spółek publicznych województwa małopolskiego w czołówce firm o najlepszej sytuacji finansowej znajdują się takie przedsiębiorstwa, jak: Alma Market SA, Artman SA, Grupa Kęty SA i Zakłady Przemysłu Cukierniczego Wawel SA. We wszystkich uporządkowaniach najsłabszą spółką (z grupy spółek, które w 2002 r. wypracowały zysk) był Onet.pl SA. Kolejne badania rozszerzone zostaną także o cechy jakościowe w celu pełniejszej oceny zdolności kredytowej przedsiębiorstw. Spółki będą nie tylko porządkowane, ale przede wszystkim zostanie dokonana ich klasyfikacja na co najmniej dwie grupy. Firmy, których sytuacja pozwala sądzić, że zaciągnięty kredyt zostanie spłacony (czyli te, które kredyt otrzymają), oraz takie, które nie posiadają zdolności kredytowej, w związku z czym ich podanie zostanie odrzucone. Literatura Boguszewski L., Gelińska B. [2004], Podstawy statystyczne i uniwersalna funkcjonalność scoring, II edycja Konferencji Naukowej „Interdyscyplinarne wykorzystanie metod ilościowych”, http://knmi.wzr.pl/dok/scoring.pdf, Szczecin. Batóg J. [1997], Propozycja klasyfikacji firm według sytuacji ekonomiczno-finansowej, „Taksonomia”, z. 4. Czekaj J., Dresler Z. [1998], Zarządzanie finansami przedsiębiorstw. Podstawy teorii, Wydawnictwo Naukowe PWN, Warszawa. Dziechciarz J., Walesiak M. [2000], Klasyfikacji firm rodzinnych w Polsce, „Taksonomia”, z. 7. Zagadnienie porządkowania podmiotów… 129 Gantar E. [1999], Drzewo klasyfikacyjne: nieparametryczna metoda dyskryminacji obiektów, „Badania Operacyjne i Decyzje”, nr 1. Gasik A. [1998], Zastosowanie analizy dyskryminacji do oceny zdolności kredytowej przedsiębiorstw [w:] Metody i zastosowania badań operacyjnych, red. T. Trzaskalik, Katowice. Grabiński T. [1992], Metody taksonometrii, AE w Krakowie, Kraków. Grabiński T., Wydymus S., Zeliaś A. [1989], Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, PWN, Warszawa. Gwiazda T.D. [1998], Algorytmy genetyczne. Zastosowanie w finansach, Wydawnictwo Wyższej Szkoły Przedsiębiorczości i Zarządzania im. L. Koźmińskiego, Warszawa. Jagiełło R., Tomczyk M. [2003], Wybrane zewnętrzne regulacje dotyczące ryzyka kredytowego, Zeszyty Naukowe nr 30, SGH, Warszawa. Janc A., Kraska M. [2001], Credit-scoring. Nowoczesna metoda oceny zdolności kredytowej, Biblioteka Menedżera i Bankowca, Warszawa. Kukuła K. [2000], Metoda unitaryzacji zerowej, Wydawnictwo Naukowe PWN, Warszawa. Kuryłek W. [2000], Credit scoring – podejście statystyczne, „Bank”, nr 11. Matyszyk A. [2003], Przyglądając się kredytobiorcom, „Bank”, nr 2. Petterson R. [1995], Poradnik kredytowy dla bankowców, Twigger, Warszawa. Różański J. [2001], Ewolucja metod oceny sytuacji ekonomiczno-finansowej przedsiębiorstwa w nowoczesnej gospodarce rynkowej, „Przegląd Organizacji”, nr 10. Statystyczne metody oceny ryzyka w działalności gospodarczej [1998], A. Malina, B. Pawełek, S. Wanat, A. Zeliaś, Wydawnictwo AE w Krakowie, Kraków. Stolarz B. [1996], Istota, przejawy i pomiar ryzyka kredytowego, Zeszyty Naukowe, AE w Krakowie, Kraków, nr 477. Strahl D. [1990], Metody programowania rozwoju społeczno-gospodarczego, PWE, Warszawa. Strahl D. [2000], Ocena zdolności kredytowej, przykłady i zadania, Wydawnictwo AE we Wrocławiu, Wrocław. Wiatr S.M. [2004], Kierunki zmian polskiego systemu szacowania ryzyka kredytowego – próba oceny, „Bank i Kredyt”, nr 1. Witkowska D. [2002], Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienia finansowe, Wydawnictwo C.H. Beck, Warszawa. Ziemba E. [2001], Komputerowa implementacja modeli zarządzania ryzykiem kredytowym, „Bank”, nr 5. Classifying Economic Entities According to their Financial Situation In this article, the issue of classifying economic entities according to their financial situation is presented. The financial situation was assessed on the basis of selected financial analysis indicators. The empirical example related to public companies in the Małopolskie voivodship. The researched companies were classified using three methods (binary variable, rank sum of individual indicators, composite measure). Finally, an attempt was made to compare the different classifications. The conducted research is the first stage of broader research on the classification of economic entities from the point of view of their credit rating. Thus, not only the financial situation, but also the economic situation, must be evaluated (both quantitative and qualitative indicators). Zeszyty Naukowe nr 740 2007 Akademii Ekonomicznej w Krakowie Roman Huptas Katedra Statystyki Zastosowanie algorytmu EM do estymacji parametrów rozk∏adu na podstawie danych pogrupowanych 1. Wprowadzenie W niniejszym artykule podjęty zostanie problem maksymalizacji wiarygodnościowej funkcji oceny, gdy w zbiorze danych występują zmienne, których wartości z jakichś powodów nie zostały zaobserwowane. Algorytmem, który może posłużyć do rozwiązywania problemów brakujących danych w badanych strukturach danych w kontekście wiarygodności, jest tzw. algorytm EM. Algorytm EM jest skuteczną metodą iteracyjnego obliczania estymatorów największej wiarygodności (ENW)1, stosowaną w rozwiązywaniu wielu problemów określanych jako problemy z niekompletnymi danymi, gdzie algorytmy takie jak metoda Newtona-Raphsona mogą okazać się zbyt skomplikowane. W każdej iteracji algorytmu EM są wykonywane dwa kroki, nazywane krokiem E (expectation step) i krokiem M (maximization step). Stąd jego nazwa – algorytm EM. Po raz pierwszy nazwy tej użyli A.P. Dempster, N.M. Laird i D.B. Rubin w pracy [Dempster, Laird, Rubin 1977]. Na problemy z niekompletnymi danymi składają się nie tylko sytuacje, gdy mamy do czynienia z ewidentnie niekompletnymi danymi, takie jak: struktury z brakującymi danymi, modele z obciętymi rozkładami, pogrupowane czy też ocenzurowane obserwacje, ale także problemy, gdzie niekompletność nie jest taka oczywista i naturalna. Do tych drugich zaliczymy model efektów losowych, mieszanki rozkładów, estymację komponentów wariancyjnych, 1 Zob. [Magiera 2002, s. 146]. 132 Roman Huptas iteracyjną ważoną metodę najmniejszych kwadratów, analizę czynnikową czy też modele logarytmiczno-liniowe. Ze względu na zastosowanie algorytmu EM w rozwiązywaniu problemów z brakującymi danymi jest on związany z pewną metodą estymacji ad hoc. W metodzie tej parametry są estymowane po nadaniu brakującym danym pewnych wartości początkowych. Następnie te brakujące dane są „uwiarygadniane” za pomocą wyestymowanych parametrów, a potem parametry są estymowane na nowo, itd. aż do uzyskania zbieżności. Główną ideą algorytmu EM jest powiązanie danego problemu z niekompletnymi danymi z odpowiednim problemem z danymi kompletnymi, dla którego estymacja metodą największej wiarygodności jest pod względem obliczeniowym dużo prostsza. Metodologia algorytmu EM opiera się na przeformułowaniu problemu z niekompletnymi danymi w terminach problemu z kompletnymi danymi, który jest prostszy do rozwiązania, ustaleniu związku pomiędzy funkcjami wiarygodności tych dwóch problemów i wykorzystaniu prostszej pod względem obliczeniowym estymacji metodą największej wiarygodności do rozwiązania problemu z danymi kompletnymi w kroku M algorytmu iteracyjnego. Krok E algorytmu EM polega na „stworzeniu” danych dla problemu z danymi kompletnymi przy użyciu zaobserwowanych danych niekompletnych, tak aby możliwe było wykonanie prostszego kroku M dla kompletnych danych. Mówiąc bardziej precyzyjnie, w kroku E tworzona jest funkcja wiarygodności dla problemu z danymi kompletnymi. Opiera się ona częściowo na nieobserwowanych danych, zatem jest ona zastępowana przez jej warunkową wartość oczekiwaną względem obserwowanych danych. Krok E jest wykonywany przy użyciu bieżących wartości dla nieznanych parametrów. W kroku M szukamy maksimum utworzonej w kroku E funkcji wiarygodności. Rozpoczynając od odpowiedniej wartości początkowej parametru, powtarzamy kroki E i M aż do uzyskania zbieżności. Często w praktyce uzyskanie estymatorów największej wiarygodności może nastręczać poważne trudności. Trudności te mogą wynikać np. z wielomodalności funkcji wiarygodności oraz niemożliwości uzyskania jawnych analitycznych rozwiązań równań wiarygodności. W takich przypadkach można zastosować iteracyjne metody znajdowania estymatorów największej wiarygodności. Pomocna może okazać się tutaj metoda Newtona-Raphsona albo jej warianty. Stosowanie metody Newtona-Raphsona może się wiązać z poważnymi trudnościami obliczeniowymi. Przypuśćmy, że liczba nieznanych parametrów w modelu wynosi d. Metoda Newtona-Raphsona wymaga w każdej iteracji obliczenia macierzy informacji o wymiarach d × d oraz rozwiązania układu d równań liniowych. Liczba wszystkich operacji arytmetycznych z tym związanych będzie bardzo duża i będzie gwałtownie wzrastać, jeśli liczba d nieznanych parametrów będzie rosła. Ponadto metoda Newtona-Raphsona, dla pewnych problemów, wymaga niereali- Zastosowanie algorytmu EM do estymacji… 133 stycznie dokładnej wartości początkowej dla parametru, by ciąg rozwiązań iteracyjnych zbiegał do właściwego rozwiązania równań wiarygodności. W rezultacie, gdy niefortunnie zostanie wybrany punkt startowy, algorytm może „ugrzęznąć” w maksimum lokalnym. Dotyczy to zwłaszcza modeli statystycznych z wieloma parametrami. W przypadku innych metod typu Newtona sytuacja wygląda podobnie. Alternatywą dla metod typu Newtona może być algorytm EM. 2. Opis algorytmu EM Pojęcie danych niekompletnych zawiera w sobie typowe znaczenie brakujących danych, tzn. takich, które są możliwe do uzyskania, ale również odnosi się do sytuacji, w których dane kompletne byłyby możliwe do uzyskania tylko w ramach hipotetycznego eksperymentu, którego realizacja nie jest praktycznie możliwa (por. [McLachlan, Krishnan 1997, s. 21]). Niech Y będzie wektorem losowym, modelującym obserwacje niekompletne, o funkcji gęstości względem miary Lebesgueʼa g(y; Ψ), gdzie: Ψ = (Ψ1, …, Ψd)T jest wektorem nieznanych parametrów z przestrzeni parametrów Ω. Funkcja wiarygodności dla Ψ przy zadanym wektorze obserwacji y ma postać: L (Ψ) = g(y; Ψ) . ~ Estymator największej wiarygodności jest definiowany jako rozwiązanie Ψ równania wiarygodności (por. [Magiera 2002, s. 167]): ∂ L(Ψ) = 0 ∂Ψ albo równoważnie: ∂ ln L (Ψ) = 0 , ∂Ψ (1) w którym osiągane jest globalne maksimum L (Ψ). Niech x będzie wektorem danych kompletnych. Wektor danych obserwowanych y jest wówczas traktowany jako wektor danych niekompletnych i jako funkcja danych kompletnych. Zatem y = y(x) (por. [Dempster, Laird, Rubin 1977, s. 1], [McLachlan, Krishnan 1997, s. 22]). Niech X będzie wektorem losowym, modelującym dane kompletne i mającym funkcję gęstości względem miary Lebesgueʼa gc (x; Ψ). Wtedy logarytm funkcji wiarygodności nieobserwowanych danych kompletnych ma postać: Roman Huptas 134 ln Lc(Ψ) = ln gc (x; Ψ) . Mamy, formalnie, dwie przestrzenie prób X i Y oraz odwzorowanie wielo-jednoznaczne z przestrzeni X w przestrzeń Y. Zamiast obserwować wektor danych kompletnych x w przestrzeni X, obserwujemy wektor danych niekompletnych y = y(x) w przestrzeni Y. Związek między funkcjami gęstości danych kompletnych i danych niekompletnych ma postać: g( y 0 ; Ψ) = ∫ χ( y ) gc (x; Ψ) dµ (x) , 0 gdzie X(y0) = {x ∈ X : y(x) = y0}, μ(x) jest odpowiednio skonstruowaną miarą na X(y0 ), a y0 jest ustalone. Należy nadmienić, że w pracach [Dempster, Laird, Rubin 1977], [McLachlan, Krishnan 1997] i [Wu 1983] kwestia odpowiednio skonstruowanej miary nie jest poruszana. W pracach tych związek między gęstościami g i gc ma postać: g( y 0 ; Ψ) = ∫ χ( y ) gc (x; Ψ) dx , 0 co nie zawsze jest formalnie poprawne. Algorytm EM rozwiązuje równanie wiarygodności (1) dla niekompletnych danych pośrednio, wykorzystując logarytm funkcji wiarygodności kompletnych danych ln L c (Ψ). Oczywiście, funkcja ln L c (Ψ) jest nieobserwowalna. Jest ona zatem zastępowana przez jej warunkową wartość oczekiwaną względem wektora Y, przy użyciu bieżącej wartości parametru Ψ. Niech Q (Ψ, Φ) = EΦ{ln Lc (Ψ) | Y = y} , gdzie operator E wartości oczekiwanej ma indeks dolny Φ w celu zaznaczenia, że ta warunkowa wartość oczekiwana jest obliczana z użyciem wartości Φ dla parametru Ψ. Niech Ψ (0) będzie pewną wartością początkową parametru Ψ. Wtedy w pierwszej iteracji krok E wymaga obliczenia wyrażenia: Q (Ψ, Ψ(0)) = EΨ (0){ln Lc (Ψ) | Y = y} . W kroku M maksymalizujemy Q(Ψ, Ψ(0)) względem Ψ po całej przestrzeni parametrów Ω. Wybieramy zatem Ψ(1), takie że: Q (Ψ(1), Ψ(0)) ≥ Q (Ψ, Ψ(0)) dla wszystkich Ψ ∈ Ω. W drugiej iteracji ponownie wykonywane są kroki E i M, ale tym razem wartość parametru Ψ(0) jest zastąpiona przez Ψ(1) (wartość parametru Ψ uzyskana w pierwszej iteracji). Zastosowanie algorytmu EM do estymacji… 135 Kroki E i M w (k + 1)-szej iteracji są zdefiniowane następująco (zob. [McLachlan, Krishnan 1997, s. 22])2: Krok E. Obliczenie Q(Ψ, Ψ(k)), gdzie: Q(Ψ, Ψ(k)) = EΨ (k){ln Lc (Ψ) | Y = y} , a Ψ(k) oznacza wartość parametru Ψ uzyskaną w k-tej iteracji algorytmu EM. Krok M. Maksymalizacja Q(Ψ, Ψ (k)) względem Ψ. Wybieramy zatem Ψ(k + 1) ∈ Ω, takie że: Q(Ψ(k + 1), Ψ(k)) ≥ Q(Ψ, Ψ(k)) dla wszystkich Ψ ∈ Ω. Dla zadanego ε > 0 kroki E i M są powtarzane do momentu, gdy po raz pierwszy: ln L(Ψ(k + 1)) – ln L(Ψ(k)) < ε , lub gdy zostanie spełnione inne kryterium zatrzymania, np. liczba iteracji osiągnie zadaną z góry wartość maksymalną. 3. Estymacja parametrów rozkładu na podstawie danych pogrupowanych i obci´tych Do powstania problemu z niekompletnymi danymi, a następnie do zastosowania algorytmu EM, jako metody obliczania estymatorów największej wiarygodności, może prowadzić zagadnienie pogrupowanych i obciętych danych (zob. [McLachlan, Krishnan 1997, s. 74], [Dempster, Laird, Rubin 1977, s. 13]). Poniżej przedstawiony problem to sytuacja ewidentnie niekompletnych danych, choć należy zaznaczyć, że określenie funkcji wiarygodności danych kompletnych nie jest takie proste i oczywiste. Niech W będzie zmienną losową z przestrzeni W o funkcji gęstości f(w; Ψ), gdzie Ψ jest wektorem nieznanych parametrów. Niech przestrzeń W będzie podzielona na v rozłącznych klas Wj (j = 1, …, v). Realizacje zmiennej losowej W są niezależne, ale nie są rejestrowane. Jedynie liczby nj tych obserwacji, które należą do klasy Wj dla j = 1, …, r, gdzie r ≤ v, są rejestrowane. Niech wektor: y = (n1, …, nr)T będzie wektorem danych niekompletnych (zaobserwowanych) i oznaczmy: 2 Por. [Dempster, Laird, Rubin 1977, s. 6], [Wu 1983, s. 96]. Roman Huptas 136 r n := ∑ n j . (2) j =1 W tym przypadku n traktujemy jako ustalone, co można zinterpretować w ten sposób, że eksperyment, którego wynikiem jest W, jest przeprowadzony tyle razy, aż liczba zaobserwowanych danych osiągnie n. Gdy nie obserwujemy nowych danych, to nie wiemy, czy eksperyment nie został przeprowadzony, czy też jego wynik trafił do jednej z nieobserwowanych klas. W efekcie liczba powtórzeń eksperymentu jest nieznana i losowa. Równoważnie, można traktować wszystkie występujące poniżej rozkłady jako warunkowe względem n. Przy ustalonym n wektor y pochodzi z rozkładu wielomianowego o wielkości próby n z r kategoriami, a prawdopodobieństwa wystąpienia kategorii wynoszą pj (Ψ) / p(Ψ), j = 1, …, r, gdzie: p j (Ψ ) = ∫W f (w; Ψ ) dw , j r p(Ψ) = ∑ p j (Ψ) . (3) (4) j =1 Funkcja wiarygodności dla niekompletnych danych ma postać: L(Ψ ) = r 1n j p (Ψ ) ∏ pj(Ψ ) . j =1 r n! ∏nj ! (5) j =1 Wprowadźmy wektor „brakujących” danych dla potrzeb algorytmu EM. Niech z = (nr + 1, …, nv)T oraz wj = (wj1, …, wjn )T, j j = 1, …, v, gdzie z jest wektorem nieobserwowanych częstości w przypadku obciętych danych (tzn. gdy r < v), a wj jest wektorem nj nieobserwowanych realizacji zmiennej losowej W, które należą do klasy Wj dla j = 1, …, v. Niech teraz wektor danych kompletnych ma postać: x = (yT, zT, w1T, …, wTv )T . (6) Zastosowanie algorytmu EM do estymacji… 137 Wektor losowy Y danych niekompletnych będzie miał rozkład wielomianowy, a tym samym funkcję wiarygodności określoną wzorem (5), jeśli wektor losowy X danych kompletnych będzie miał rozkład, dla którego funkcja wiarygodności będzie miała postać (z dokładnością do mnożnika niezależnego od Ψ): v nj Lc (Ψ) = ∏ ∏ f (w jk ; Ψ) , (7) j =1 k =1 gdzie obserwacje wjk ( j = 1, …, v ; k = 1, …, nj ) są realizacjami zmiennej losowej W dla próby o rozmiarze n + m, zaś: m= v ∑ nj (8) j = r +1 i jest losowe. Logarytm funkcji wiarygodności powinien więc mieć postać (z dokładnością do składnika niezależnego od Ψ): v nj ln Lc (Ψ) = ∑ ∑ ln f (w jk ; Ψ) . (9) j =1 k =1 Skonstruujmy rozkład brakujących danych tak, aby otrzymać (7) i (9). Funkcję wiarygodności Lc (Ψ) przedstawmy jako iloczyn: v nj Lc (Ψ) = L (Ψ) d (z | y; Ψ) ∏ ∏ h j (w jk ; Ψ) , (10) j =1 k =1 gdzie d(z | y; Ψ) jest gęstością warunkową wektora losowego Z przy zadanym Y = y, a hj (w; Ψ), j = 1, …, v, jest gęstością warunkową zmiennej losowej W przy zadanych Y = y i Z = z, taką że: h j (w; Ψ) = f (w; Ψ) , p j (Ψ) 1, …,, v ,, jj == 1, (11) tzn. obserwacje wjk (k = 1, …, nj) w celi Wj (j = 1, …, v) są próbą losową rozmiaru nj z gęstości hj (w; Ψ). Pozostaje określić gęstość d(z | y; Ψ), tak aby Lc (Ψ) miała postać równoważną (7). Uwzględniając (5) i (11), logarytm funkcji wiarygodności postaci (10) wynosi: v nj ln Lc ( Ψ ) = ln L ( Ψ ) + ln d (z | y; Ψ ) + ∑∑ ln h j (w jk ; Ψ ) = j =1 k =1 r = ∑ n j ln j =1 p j (Ψ ) p( Ψ ) + ln r n! ∏nj ! v nj + ln d (z | y; Ψ ) + ∑∑ ln j =1 k =1 f (w jk ; Ψ ) p j (Ψ ) = j =1 v nj r v nj = ∑∑ ln f (w jk ; Ψ ) +∑ n j ln p j ( Ψ ) − ∑∑ ln p j ( Ψ ) − n ln p( Ψ ) + j =1 k =1 j =1 j =1 k =1 v nj ln Lc ( Ψ ) = ln L ( Ψ ) + ln d (z | y; Ψ ) + ∑∑ ln h j (w jk ; Ψ ) =Roman Huptas 138 j =1 k =1 r = ∑ n j ln j =1 p j (Ψ ) p( Ψ ) + ln r n! ∏nj ! v nj + ln d (z | y; Ψ ) + ∑∑ ln j =1 k =1 f (w jk ; Ψ ) p j (Ψ ) = j =1 nj v r nj v = ∑∑ ln f (w jk ; Ψ ) +∑ n j ln p j ( Ψ ) − ∑∑ ln p j ( Ψ ) − n ln p( Ψ ) + j =1 k =1 j =1 j =1 k =1 + ln d (z | y; Ψ ) + ln n! r ∏nj ! . j =1 Przekształcając dalej, otrzymujemy: v nj ln Lc ( Ψ ) = ∑ ∑ ln f (w jk ; Ψ ) − ln( p( Ψ ))n − j =1 k =1 v ∑ ln( p j (Ψ ))n + ln d (z | y; Ψ ) + ln j j = r +1 r n! ∏nj ! = j =1 v v n n = ∑ ∑ ln f (w jk ; Ψ ) − ln ( p( Ψ ))n ∏ ( p j ( Ψ )) + ln d (z | y; Ψ ) + ln j =1 k =1 j = r +1 j j r n! ∏nj ! . (12) j =1 Zatem (12) będzie, z dokładnością do składnika niezależnego od Ψ, równe (9), jeśli d(z | y; Ψ) będzie określona następująco: d (z | y; Ψ) = C ( p(Ψ))n v ∏ ( p j (Ψ))n j . (13) j = r +1 Można pokazać (por. [McLachlan, Krishnan 1997, s. 77]), że (13) zadaje funkcję gęstości, gdy C = ( m + n − 1)! (n − 1)! v ∏ nj ! . j = r +1 Krok E dla (k+1)-szej iteracji – Obliczamy Q(Ψ, Ψ(k) ) = E Ψ(k) {lnL c (Ψ) | Y = y}. Niech Nj będzie zmienną losową oznaczającą liczbę obserwacji w klasie Wj. Ze względu na konstrukcję wektorów wj ( j = 1, …, v), z i y, otrzymujemy (por. [McLachlan, Krishnan 1997, s. 77]): Zastosowanie algorytmu EM do estymacji… v Q( Ψ , Ψ ( k ) ) = ∑ n(jk ) Q j ( Ψ , Ψ ( k ) ) + ln j =1 139 ( m + n − 1)! n v ∏ j =1 gdzie: i n (jk ) ! , (14) Qj (Ψ, Ψ(k)) = EΨ(k){ln f (W; Ψ) | W ∈ Wj } nj dla n(jk ) = EΨ ( k ) { N j | Y = y} = (k ) (k ) n p j ( Ψ ) p( Ψ ) dlaa j = 1, …, r j = r + 1, …, v . człon (14) nie zależy od Ψ i może być opuszczony przy maksymalizacji – Drugi (k) Q(Ψ, Ψ ). Zatem ostatecznie możemy przyjąć: v Q(Ψ, Ψ( k ) ) = ∑ n(jk ) Q j (Ψ, Ψ( k ) ) . (15) j =1 Krok M dla (k + 1)-szej iteracji Maksymalizujemy Q(Ψ, Ψ(k) ) względem Ψ. Wartość parametru Ψ(k + 1) będzie pierwiastkiem równania ∂Q(Ψ, Ψ(k) ) /∂ Ψ = 0, gdzie: v ∂ ∂ Q(Ψ, Ψ( k ) ) = ∑ n(jk ) Q j (Ψ, Ψ( k ) ) ∂Ψ ∂Ψ j =1 i { } ∂ ∂ Q j (Ψ , Ψ ( k ) ) = E ( k ) ln f (W ; Ψ ) | W ∈ Wj . Ψ ∂Ψ ∂Ψ 4. Eksperyment symulacyjny Zastosowanie algorytmu EM do estymacji parametrów rozkładu dla danych pogrupowanych, opisane szczegółowo w trzecim punkcie artykułu, skłoniło do przeprowadzenia eksperymentu symulacyjnego z wykorzystaniem testu χ2 zgodności rozkładu próby losowej z rozkładem teoretycznym, w którym statystyka testowa, zwana statystyką χ2 Pearsona, ma asymptotyczny rozkład χ2 (zob. [Magiera 2002, s. 244]). W naszym eksperymencie test był przeprowadzany w przypadku, gdy rozkład teoretyczny postulowany w hipotezie zerowej był ciągły i zależny od nieznanych parametrów. Gdy rozkład teoretyczny zależy od nieznanych parametrów, wówczas częstości teoretyczne zależą oczywiście od tych Roman Huptas 140 parametrów. Aby wyliczyć częstości, należy parametry oszacować. W praktyce w celu wyestymowania parametrów dla testu stosuje się dwie metody: 1) jako oszacowania nieznanych parametrów przyjmuje się rozwiązania układu równań wiarygodności, powstałego przy wykorzystaniu funkcji wiarygodności dla obserwacji zgrupowanych (ENW są oparte na częstościach empirycznych); 2) jako estymatory parametrów przyjmuje się rozwiązania układu równań wiarygodności dla niezgrupowanych danych (ENW są oparte na oryginalnych obserwacjach, a obliczenia są zwykle dużo prostsze). Niech pi będą częstościami teoretycznymi v klas w przypadku, gdy rozkład teoretyczny jest w pełni określony. Wówczas statystyka χ2 Pearsona ma postać: v ( N i − npi )2 , npi i =1 χ2 = ∑ gdzie Ni jest zmienną losową, której wartość ni dla próby prostej (x1, …, xn) równa jest liczbie tych obserwacji spośród x1, …, xn, które należą do i-tej klasy przy określonym podziale zbioru liczb rzeczywistych na v rozłącznych klas. Rozkładem granicznym przy n → ∞ statystyki χ2 jest rozkład χ2 z v – 1 stopniami swobody. Niech teraz p~ i będą ENW częstości teoretycznych pi, opartymi na częstościach empirycznych ni (odpowiada to metodzie 1). Wtedy, przy odpowiednich warunkach regularności, statystyka: v ~ ( N − np )2 ~ χ2 = ∑ i ~ i npi i =1 ma przy n → ∞ rozkład graniczny χ2 z v – 1 – k stopniami swobody, gdzie k jest liczbą estymowanych parametrów. Niech pˆ i będą ENW częstości teoretycznych pi, uzyskanymi dla niezgrupowanych danych, czyli opartymi na oryginalnych obserwacjach (odpowiada to metodzie 2). Wtedy statystyka testowa ma postać: v ( N i − npˆ i )2 . npˆ i i =1 χˆ 2 = ∑ ˆ 2 leży między rozkłaOkazuje się, że rozkład graniczny przy n → ∞ statystyki χ ~2 2 2 ˆ ma więc pewien rozkład, któdami granicznymi statystyk χ i χ . Statystyka χ rego kwantyle zawierają się między odpowiednimi kwantylami rozkładów χ 2v – k – 1 i χ 2v – 1 . W sposób bardziej precyzyjny mówi o tym następujące twierdzenie. Twierdzenie 1 [Chernoff, Lehmann 1954]. Asymptotyczny rozkład statystyki χˆ 2 jest taki jak rozkład: Zastosowanie algorytmu EM do estymacji… v − k −1 ∑ i =1 yi2 + 141 v −1 ∑ λi yi2 , i =v− k gdzie yi są niezależne i pochodzą z rozkładu normalnego N(0, 1), a λi są z przedziału (0, 1) i mogą zależeć od estymowanych parametrów. Należy nadmienić, że wraz ze wzrostem liczby v klas wartości kwantyli rozkładów χ 2v – k – 1 i χ 2v – 1 (przy tym samym poziomie istotności α) coraz mniej się różnią. Jeżeli więc liczba klas jest duża i estymujemy małą liczbę parametrów metodą największej wiarygodności bez grupowania obserwacji, to przy określaniu obszaru krytycznego można korzystać z wartości kwantyli rozkładu χ2 z v – 1 – k stopniami swobody. W przeciwnym wypadku używanie statystyki χˆ 2 z rozkładem granicznym χ2 z v – 1 – k stopniami swobody (co jest dość powszechną praktyką) powoduje, że rzeczywisty rozmiar testu może być istotnie większy niż zakładany poziom istotności. Celem eksperymentu symulacyjnego było porównanie, przy założonych poziomach istotności, empirycznych rozmiarów testów χ2 Pearsona uzyskanych w przypadkach, gdy nieznane parametry estymowane były na podstawie zgrupowanych danych przy użyciu algorytmu EM oraz na podstawie danych oryginalnych, niezgrupowanych. Rozkład teoretyczny postulowany w hipotezie zerowej był ciągły. Mieliśmy do czynienia z gęstością rozkładu normalnego z nieznanymi wartością oczekiwaną μ i wariancją σ2, tzn. f (w; Ψ) = ( w − µ )2 1 exp − , 2σ 2 2 πσ (16) gdzie wektor Ψ nieznanych parametrów miał postać Ψ = (μ, σ 2)T. Dla n-elementowych prób losowych z rozkładu N(0, 1) wyznaczane były liczności ni obserwacji, które znalazły się w kolejnych v podprzedziałach podziału przedziału (–∞, ∞) postaci (–∞, a1], (a1, a2], …, (av – 2, av – 1], (av – 1, ∞). Estymatory były oparte na tych samych n-elementowych próbach. Po wyznaczeniu esty~2 ˆ2 i χ . Obliczenia były powtarzane matorów obliczane były statystyki testowe χ N = 10 000 razy, za każdym razem dla różnego zestawu danych. Empiryczne rozmiary testów αemp wyznaczane były dla obszaru krytycznego postaci: K = {t: t > χ 2v− 3 (1 − α )} , gdzie χ 2v – 3(1 – α) jest kwantylem rzędu 1 – α rozkładu χ2 z v – 3 stopniami swobody, a α jest poziomem istotności. Do wygenerowania próby z rozkładu N(0, 1) użyto generatorów ran1 oraz gamdev, zaczerpniętych z pracy [Press, Teukolsky, Vetterling, Flannery 1995]. Roman Huptas 142 Wzory na estymatory parametrów μ i σ2 w przypadku algorytmu EM wyprowadzamy opierając się na opisie kroku M z punktu trzeciego uwzględniając, że mamy do czynienia jedynie z danymi zgrupowanymi (tzn. r = v). Dla (16) funkcja Q(Ψ, Ψ(k)) przyjmuje postać: v 1 1 Q( Ψ , Ψ ( k ) ) = − n (ln 2 π + ln σ 2 ) − 2 ∑ n j EΨ ( k ) {(W − µ)2 | W ∈ Wj } .. 2 2σ j =1 Ostatecznie mamy Ψ(k + 1) = (μ(k + 1), (σ2)(k + 1))T, gdzie: v ∑ n j E Ψ { W | W ∈ Wj } (k ) µ ( k +1) = j =1 v ∑nj j =1 i v ∑ n j EΨ {(W − µ( k+1) )2 | W ∈ Wj } (k ) 2 ( k +1) (σ ) = j =1 v ∑nj . j =1 Warunkowe wartości oczekiwane zostały w programie obliczone w sposób numeryczny przy wykorzystaniu funkcji qromo, zaczerpniętej z pracy [Press, Teukolsky, Vetterling, Flannery 1995], w celu obliczenia odpowiednich całek. Z kolei estymatory w przypadku danych oryginalnych obliczamy następująco: ~ µ= n 1 ∑ Xi n i =1 ~ σ2 = n 1 2 ( Xi − µ~ ) , ∑ n i =1 a więc jako odpowiednie momenty z próby. W tabelach wyników podane zostały założone poziomy istotności i empiryczne rozmiary testów. Rozmiary empiryczne wyliczono jako: α emp = Nk , N gdzie Nk to liczba tych wartości statystyk testowych, które wpadły do obszaru krytycznego, a N oznacza liczbę powtórzeń symulacji. Za błąd symulacji przyjęto górne oszacowanie Var ( N k N ) . Dla Nk ~ B(N, α0 ) mamy: Zastosowanie algorytmu EM do estymacji… N Var k = N 143 1 α 0 (1 − α 0 ) ≤ Var ( N k ) = 2 N N 1 3 ⋅ 4 4 , N gdzie α0 jest rzeczywistym rozmiarem testu. W tabelach 1–4 przedstawiono wyniki uzyskane dla N = 10 000 (błąd symulacji wynosi 0,004), liczności próby n ∈ {100; 500} i liczby klas v ∈ {4; 8}. Granice klas zostały wyznaczone następująco: – w przypadku v = 4 mamy (– ∞; –1], (–1; 0], (0; 1], (1; ∞), – w pozostałych przypadkach mamy dwie skrajne klasy postaci (– ∞; –1,5] i (1,5; ∞), a przedział (–1,5; 1,5] został podzielony na v – 2 równe podprzedziały. Eksperyment pokazał, że przy estymacji nieznanych parametrów z wykorzystaniem funkcji wiarygodności po zgrupowaniu danych empiryczne rozmiary testów są równe, w granicach błędu symulacji, założonym poziomom istotności niezależnie od liczby klas i liczności próbki. W przypadku estymacji parametrów na podstawie oryginalnych obserwacji empiryczne rozmiary testów odbiegają znacznie od założonych poziomów istotności, gdy liczba klas jest mała. Zwiększając liczbę klas obserwujemy, że empiryczne rozmiary testów coraz mniej się różnią między sobą. Liczność próbki z kolei ma niewielki wpływ na rozmiary testów. Widzimy więc, że sposób estymacji parametrów istotnie wpływa na wyniki testów. Tabela 1. Empiryczne rozmiary testów dla v = 4, n = 100 i N = 10 000 Poziom istotności α Empiryczny rozmiar testu αemp algorytm EM momenty z próby 0,010 0,010 0,015 0,050 0,052 0,085 0,100 0,104 0,172 Źródło: obliczenia własne. Tabela 2. Empiryczne rozmiary testów dla v = 8, n = 100 i N = 10 000 Poziom istotności α Empiryczny rozmiar testu αemp algorytm EM momenty z próby 0,010 0,009 0,011 0,050 0,050 0,055 0,100 0,103 0,113 Źródło: obliczenia własne. Roman Huptas 144 Tabela 3. Empiryczne rozmiary testów dla v = 4, n = 500 i N = 10 000 Poziom istotności α Empiryczny rozmiar testu αemp algorytm EM momenty z próby 0,010 0,010 0,015 0,050 0,054 0,084 0,100 0,104 0,173 Źródło: obliczenia własne. Tabela 4. Empiryczne rozmiary testów dla v = 8, n = 500 i N = 10 000 Poziom istotności α Empiryczny rozmiar testu αemp algorytm EM momenty z próby 0,010 0,011 0,011 0,050 0,053 0,059 0,100 0,105 0,118 Źródło: obliczenia własne. 5. Podsumowanie W artykule został opisany algorytm EM oraz przykład jego zastosowania. Algorytm EM jest postrzegany jako ogólna iteracyjna metoda optymalizacyjna do maksymalizowania wiarygodnościowej funkcji oceny przy zadanym modelu probabilistycznym z brakującymi danymi. Metoda ta jest wrażliwa na warunki początkowe, stąd wybór różnych warunków początkowych może prowadzić do uzyskania różnych maksimów lokalnych. W związku z powyższym, w praktyce, w celu zmniejszenia prawdopodobieństwa zakończenia procesu optymalizacyjnego na stosunkowo „nieefektywnym” maksimum lokalnym z punktu widzenia funkcji wiarygodności, wskazane jest uruchomienie algorytmu EM z różnymi warunkami początkowymi, a następnie wybranie rozwiązania, dla którego otrzymujemy największą wartość funkcji wiarygodności. Niemniej standardowy algorytm EM jest powszechnie stosowany ze względu na dużą uniwersalność struktury i łatwość, z jaką algorytm ten może być określony dla wielu różnych problemów. Literatura Chernoff H., Lehmann E.L. [1954], The Use of Maximum Likelihood Estimates in χ2 Tests for Goodness of Fit, „Annals of Mathematical Statistics”, vol. 25. Zastosowanie algorytmu EM do estymacji… 145 Dempster A.P., Laird N.M, Rubin D.B. [1977], Maximum Likelihood from Incomplete Data via the EM Algorithm (with Discussion), „Journal of the Royal Statistical Society B”, vol. 39. Magiera R. [2002], Modele i metody statystyki matematycznej, wyd. 1, GiS, Wrocław. McLachlan G.J., Krishnan T. [1997], The EM Algorithm and Extensions, John Wiley and Sons, New York. Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. [1995], Numerical Recipes in C. The Art of Scientific Computing, Cambridge University Press, New York. Wu C.F.J. [1983], On the Convergence Properties of the EM Algorithm, „Annals of Statistics”, vol. 11. The Application of the EM Algorithm to Estimation of Parameters of Distribution in Case Data are Grouped In this article, the Expectation-Maximization (EM) algorithm and its application are presented. The EM algorithm is a powerful iterative technique for finding maximum likelihood estimates, which is useful in a wide variety of situations best described as “incomplete data problems”, where algorithms such as the Newton-Raphson method may turn out to be more complicated. The popularity of the EM algorithm arises from its simplicity in implementation, stability in convergence, and applicability in practice. In the article, the E-step and M-step of the EM algorithm are illustrated with an application. The application is related to estimating parameters of distribution in case data are grouped and possibly truncated. The author presents the results of a simulation experiment in which the sizes of the Pearson chi-square goodness of fit test are obtained in two cases: when the unknown parameters are estimated from grouped data by means of the EM algorithm (correct procedure) and when original, ungrouped data are used (a wrong but frequently used procedure). Zeszyty Naukowe nr 740 2007 Akademii Ekonomicznej w Krakowie Joanna Palczewska Studium Doktoranckie Wydzia∏u Zarzàdzania Mo˝liwoÊci zastosowania modelu jednokierunkowej sieci neuronowej do prognozowania sygna∏ów kupna i sprzeda˝y akcji w Êwietle uj´ç w literaturze przedmiotu 1. Wprowadzenie W 1943 r. W. McCullock i W. Pitts opublikowali pracę zatytułowaną A Logical Calculus of Ideas Immancnt in Nervous Activity. Praca ta stała się teoretycznym fundamentem późniejszego rozwoju sztucznych sieci neuronowych [Gately 1999, s. 3]. Pod koniec lat czterdziestych wyjaśniono mechanizm pamiętania informacji przez biologiczne sieci neuronowe. Był to istotny element na drodze budowy sztucznych sieci neuronowych, tj. zestawu wzajemnie połączonych sztucznych neuronów [Korbicz, Obuchowicz, Uciński 1994, s. 18]. W 1951 r. student MIT M. Minsky zbudował neuronowy komputer i zaprogramował go tak, by uczył się rozkładu labiryntu. Były to narodziny badań nad sztuczną inteligencją, a Minskyʼego, który nadal pracuje w MIT, często określa się mianem ojca systemów ekspertowych [Gately 1999, s. 3]. Istotnym krokiem w rozwoju sieci neuronowych były prace F. Rosenblatta, w których zostało wprowadzone pojęcie jednokierunkowej sieci wielowarstwowej, gdzie neurony są zorganizowane w kolejno po sobie następujących warstwach. Warstwą pierwszą jest wejście, a ostatnią wyjście. Były to sieci typu perceptron [Rymarczyk 1997, s. 32–33]. Pod koniec lat siedemdziesiątych komputery dysponowały już wystarczającą mocą obliczeniową, by można było rozpocząć praktyczne badania nad sztucznymi Joanna Palczewska 148 sieciami neuronowymi (SSN). Jednak dopiero, datujący się od 1986 r., rozwój sieci opartych na algorytmie wstecznej propagacji błędu (back-propagation networks) sprawił, że sieci neuronowe zaczęto stosować do rozwiązywania konkretnych problemów ekonomicznych, naukowych i przemysłowych. Ponieważ sieci neuronowe są dostępne, praktycznie rzecz biorąc, dopiero od lat siedemdziesiątych i ponieważ ich rozwój związany jest m.in. z mocą obliczeniową komputerów, nadal znajdują się one we wczesnej fazie rozwoju. Szybkość rozwiązywania problemu oraz sama możliwość zastosowania sieci neuronowych zależą od rozmiarów sieci będących pochodną złożoności problemu i liczby zaprezentowanych przypadków, jak również mocy obliczeniowej komputera [Gately 1999, s. 3–4]. Pierwowzorem sztucznych sieci neuronowych jest mózg ludzki, który składa się z ok. 1010 komórek nerwowych, przetwarzających dane w sposób równoległy w trybie równoczesnej pracy wielu połączonych ze sobą neuronów [Witkowska 2002, s. 2]. Każdy z neuronów jest wyspecjalizowaną komórką biologiczną mogącą przenosić i przetwarzać złożone sygnały elektrochemiczne. Neuron na ogół posiada rozgałęzioną strukturę wielu wejść informacyjnych (dendryty), scalające sygnały ze wszystkich tych wejść ciało (perikarion) oraz opuszczający komórkę jako pojedyncze włókno nośnik informacji wyjściowej (akson), powielający potem przewodzony przez siebie wynik pracy neuronu i rozsyłający go do różnych neuronów odbiorczych poprzez rozgałęzioną strukturę wyjściową (telodendron) [Nałęcz 2000, s. 11]. Budowę tej komórki przedstawia rys. 1. Dendryty Korpus komórki nerwowej Akson Rys. 1. Budowa biologicznego neuronu Źródło: opracowanie własne na podstawie: [Tadeusiewicz 1998, s. 9]. Możliwości zastosowania modelu… 149 Sztuczna sieć neuronowa składa się z nieporównywalnie mniejszej liczby elementów, które w dodatku są skrajnie uproszczone w stosunku do swoich pierwowzorów, a sposób połączeń i struktura sieci znacznie odbiegają od biologicznego oryginału. Stosowane w praktyce sieci najczęściej złożone są z pewnej liczby, połączonych miedzy sobą, warstw neuronów. Mimo wielu uproszczeń, sztuczne sieci neuronowe charakteryzują się cechami zarezerwowanymi dotychczas dla organizmów żywych. Najważniejszymi cechami są: – zdolność do „uczenia się”, dzięki której sieć neuronowa potrafi nauczyć się prawidłowych reakcji na określony zespół bodźców, – umiejętność operowania abstrakcją; sieć neuronowa może bowiem uogólniać wiedzę zdobytą w procesie trenowania, – odporność na uszkodzenia, gdyż sieć neuronowa potrafi działać poprawnie, nawet gdy część jej elementów jest uszkodzona, połączenia zerwane, a informacje stracone. Dzięki możliwości uczenia się oraz swoistej strukturze sztuczne sieci neuronowe wykazują pewne właściwości podobne do procesów myślowych zachodzących u człowieka. Cechuje je mianowicie: – zdolność przetwarzania informacji rozmytych, chaotycznych, niekompletnych, a nawet sprzecznych, – szybkie i efektywne przetwarzanie dużej liczby danych, – przetwarzanie równoległe, rozproszone, – skojarzeniowy dostęp do informacji zawartej w sieci (tzw. pamięć skojarzeniowa). Sztuczne sieci neuronowe konstruowane są bądź jako programy emulujące neurony i ich połączenia na konwencjonalnym komputerze, bądź jako neurokomputery [Witkowska 2002, s. 2]. Uczenie i stosowanie sztucznych sieci neuronowych wymaga postępowania według specjalnego schematu działania złożonego z wielu etapów. Realizacja każdego z nich wpływa na powodzenie całej operacji. Etap 1 – określenie prognozowanej zmiennej. Etap 2 – gromadzenie zbiorów danych lub szeregów liczbowych związanych z prognozowanym zjawiskiem. Etap 3 – wstępne przetworzenie danych (preprocessing) tak, by łączyły informacje lub przedstawiały je w bardziej użyteczny sposób. Etap 4 – ustalenie wartości minimalnych i maksymalnych. Etap 5 – wyodrębnienie testowego zbioru danych. Etap 6 – wybór odpowiedniej architektury sieci. Etap 7 – wybór odpowiedniego algorytmu uczenia (algorytmu treningowego). Etap 8 – uczenie sieci. Etap 9 – zastosowanie sieci. Joanna Palczewska 150 Pomimo dużych możliwości, jakie oferują sieci neuronowe, nie nadają się one do rozwiązywania wszystkich problemów. Sieci neuronowe najlepiej sprawdzają się tam, gdzie trzeba dopasowywać wzory, wykrywać złożone współzależności lub korzystać z danych w sposób selektywny. Często wzory zachowań, które odkrywa sieć, nie są dla człowieka-obserwatora oczywiste. To, że rynek akcji podąża za rynkiem obligacji, jest w finansach zjawiskiem powszechnie znanym. Jednak zależność między ceną złota a rynkiem akcji nie jest już tak oczywista. Działanie sieci neuronowych prognozujących zachowanie rynku akcji można często usprawnić, włączając do zmiennych wejściowych cenę złota. W ten sposób, uwzględniając ukrytą zależność między ceną złota a zachowaniem rynku akcji, zwiększamy trafność przewidywań, nawet jeśli jako ludzie nie jesteśmy w stanie tej zależności określić [Gately 1999, s. 10–12]. 2. Budowa neuronu Sztuczny neuron, będący podstawowym elementem budującym każdą sieć neuronową, jest układem mającym wiele wejść (czyli odbierającym i przetwarzającym wiele sygnałów wejściowych z różnych źródeł) i jedno wyjście (rys. 2). x0 w0 x1 w1 y xn wn Rys. 2. Model sztucznego neuronu Źródło: opracowanie własne na podstawie: [Krawiec, Stefanowski 2003, s. 84]. Forma przetwarzania informacji wejściowych na informację wyjściową uzależniona jest od mogących się zmieniać współczynników wn nazywanych wagami. W rzeczywistości w biologicznym neuronie odpowiednikiem wagi jest złożony twór o skomplikowanych właściwościach bioelektrycznych i biochemicznych, tzw. synapsa (rys. 3). Neurony te można łączyć ze sobą w różny sposób, tworząc sieć [Tadeusiewicz 1998, s. 9–10]. Możliwości zastosowania modelu… 151 Zakończenie aksonu neurona wysyłającego informacje „Waga synapsy” Ciało neuronu odbierającego informacje Rys. 3. Schemat budowy synapsy Źródło: opracowanie własne na podstawie: [Nałęcz 2000, s. 13]. Każdy z nich przetwarza skończoną liczbę sygnałów wejściowych xi (i = l, …, n) na jedno wyjście y. Na podstawie danych, wprowadzonych na wejścia sieci, oblicza się całkowite pobudzenie neuronu e najczęściej jako kombinację liniową wejść, często uzupełniona wyrazem wolnym (bias), co można zapisać w postaci: n e = w0 + ∑ wi xi = w0 + wT x , (1) i =1 gdzie: x = [xi] – wektor [n x 1] sygnałów wejściowych, w = [wi] – wektor [n x 1] wag, które z jednej strony wyrażają stopień ważności informacji przekazywanej i-tym wejściem, a z drugiej, stanowią swego rodzaju pamięć neuronu, zapamiętują bowiem związki – relacje zachodzące między sygnałami wejściowymi i sygnałem wyjściowym. Aby uprościć wszystkie występujące dalej wzory, przyjmiemy, że obok sygnałów wejściowych xi (i = 1, 2, …, n) występować będzie zmienna x0 = l, co pozwala zapisać wzór na łączne pobudzenie neuronu e w postaci: n e = ∑ wi xi = wT x . i =1 (2) Sygnał wyjściowy neuronu y zależy od jego całkowitego pobudzenia, co można zapisać jako: y = ϕ (e) , (3) Joanna Palczewska 152 gdzie ϕ jest tzw. funkcją aktywacji neuronu, a jej postać określa typ neuronu i obszar jego zastosowań. Funkcja aktywacji może przybierać zarówno postać liniową, jak i postacie nieliniowe, w których charakter zależności wiążącej sygnał wyjściowy z sygnałami wejściowymi może być praktycznie dowolny. W najprostszym neuronie liniowym jest to funkcja tożsamościowa: ϕ (e) = e . (4) Możliwości sieci neuronowych, budowanych wyłącznie z elementów liniowych, tj. o funkcji aktywacji (4), są ograniczone. Dlatego we współcześnie używanych sieciach oprócz neuronów liniowych występują również neurony o nieliniowych funkcjach aktywacji. Sieci nieliniowe charakteryzują się znacznie szerszym zakresem zastosowań w porównaniu z sieciami liniowymi [Witkowska 2002, s. 2–5]. 3. Rodzaje sieci neuronowych Sposoby połączenia neuronów miedzy sobą i ich wzajemnego współdziałania wpłynęły na powstanie różnych typów sieci, każdy typ sieci jest z kolei ściśle powiązany z odpowiednią metodą doboru wag (uczenia) [Osowski 1996, s. 18]. Możliwości gromadzenia i przetwarzania informacji, jakie posiadają pojedyncze neurony, są ograniczone, dlatego w praktyce stosuje się sieci neuronowe. Sygnały wprowadzane na wejście neuronu są przetwarzane zgodnie z relacjami (1) lub (2) oraz (3) i przesyłane do innych neuronów, które po odpowiedniej transformacji przekazują sygnały dalej, aż nastąpi wyprowadzenie sygnałów na zewnątrz sieci. Rodzaj połączeń między neuronami, wejściami i wyjściami zewnętrznymi określa architekturę (topologię) sieci. Sztuczne sieci neuronowe są najczęściej budowane z warstw neuronów. Wejścia neuronów należących do pierwszej warstwy stanowią wejścia sieci i ta warstwa nosi nazwę wejściowej (wejście sieci). Natomiast wyjścia neuronów warstwy ostatniej (wyjściowej) są wyjściami sieci. Między warstwami zewnętrznymi sieci często umieszcza się tzw. warstwy ukryte. Warstwa neuronów składa się z m elementów, zatem zawiera m wyjść. Każdemu wyjściu yj odpowiada wprawdzie ten sam wektor sygnałów wejściowych, ale inny wektor wag wj (j = 1, 2, …, m). Dla neuronów liniowych (tj. o funkcji aktywacji postaci (4)) warstwę przetwarzającą n sygnałów wejściowych na m sygnałów wyjściowych można przedstawić jako: y = W Tx , (5) Możliwości zastosowania modelu… 153 gdzie: y = [yj] – wektor [m x 1] sygnałów wyjściowych, W = [wij] – macierz [n x m] wag, składająca się z m wektorów wj [n x 1], x = [xi] – wektor [n x 1] sygnałów wejściowych. Liczba neuronów w warstwie wejściowej jest zdeterminowana liczbą charakterystyk (sygnałów, zmiennych) niezbędnych do rozwiązania postawionego zadania. Sygnały wejściowe są przetwarzane liniowo, czy wręcz tożsamościowo zgodnie z (5). Wyjścia warstwy wejściowej zasilają, jako wejścia, warstwę następną, którą może być pierwsza warstwa ukryta lub warstwa wyjściowa, w zależności od architektury sieci [Witkowska 2002, s. 8–10]. Ze względu na architekturę sieci neuronowe można podzielić na [Gajda 2001, s. 222–223]: – sieci jednokierunkowe (jednowarstwowe, wielowarstwowe), – sieci rekurencyjne, – sieci komórkowe. Jedną z najważniejszych cech sieci neuropodobnych jest zdolność uczenia się. Należy podkreślić, że jest to samoistna właściwość sieci, niezwiązana z faktem zastosowania tego, czy innego algorytmu (oprogramowania), jak to się dzieje w przypadku zwykłych komputerów. Proces uczenia sieci odbywa się poprzez modyfikowanie wag poszczególnych połączeń. Ponieważ na proces pobudzenia neuronów wpływają dwa czynniki: wielkość sygnału przewodzonego poszczególnymi połączeniami oraz wagi na tych połączeniach, jest rzeczą naturalną, że neuron wytworzy właściwą reakcję na określony wzorzec wejściowy, o ile odpowiednio zostaną dopasowane wagi poszczególnych połączeń. Proces modyfikacji wag w taki sposób, by odpowiedź sieci jako całości osiągnęła naszą akceptację, nazywamy uczeniem sieci neuronopodobnych [Kamieński 2001, s. 134]. Biorąc pod uwagę sposób prowadzenia treningu można wyróżnić następujące grupy algorytmów uczących: – uczenie nadzorowane (z nauczycielem) – dane treningowe zawierają zestaw sygnałów wejściowych sieci oraz poprawnych reakcji systemu; uczenie polega na takiej modyfikacji wag, aby rzeczywiste wyjścia były jak najbliższe wartościom pożądanym; – uczenie bez nadzoru – w procesie uczenia sieć neuronowa nie otrzymuje żadnej informacji na temat pożądanych reakcji [Zieliński 2000, s. 142–143]; – uczenie z forsowaniem – w tym wypadku istnieje zewnętrzne źródło danych [Mierzejewski 2003, s. 4]. Istotne w procesie uczenia się oraz weryfikacji jakości sieci neuronowej są również zbiory danych, tj.: – zbiór uczący – zestaw przykładów wykorzystywanych do uczenia, który ma dopasować parametry (wagi) do połączeń sieci, 154 Joanna Palczewska – zbiór testowy – zestaw danych, mających ostatecznie dostroić parametry, których przybliżenie wartości zostały wcześniej obliczone przy użyciu zestawu danych uczących, – zbiór weryfikacyjny – zbiór danych używanych jedynie do oszacowania jakości działania w pełni ukształtowanej sieci na nowym zestawie danych (ocenia jakość generalizacji modelu) [Siedlecki 2001, s. 71–72]. 4. Konstrukcja modelu sieci neuronowej Konieczność przygotowania się na przyszłe zdarzenia oraz aktywnego kształtowania przyszłości wymusza dzisiaj na decydentach sporządzanie prognoz gospodarczych. Główną przyczyną zainteresowania przyszłym przebiegiem różnych zjawisk jest fakt, iż przewidywanie przyszłości jest niezbędnym etapem w przygotowaniu każdego działania, zwłaszcza sztucznych sytuacji ciągle zmieniającego się środowiska. Jednak nawet naukowe „przewidywanie” przyszłości, jakim jest proces prognozowania, nie pozwala na uzyskanie w pełni dokładnego stanu danego zjawiska w przyszłości [Nowak 1998, s. 29, 31]. Wykorzystanie sztucznych sieci neuronowych do prognozowania wymaga: – zdefiniowania zmiennej prognozowanej oraz zmiennych, które będą pełniły rolę deskryptorów, – określenia topologii sieci, – wybrania okresu, z którego będą pochodziły dane wykorzystane do trenowania, – ustalenia horyzontu prognozy. Specyfikacja zmiennych w istotny sposób wpływa na uzyskane wyniki i może być przyczyną znacznych różnic w wartościach prognoz. Należy pamiętać, że liczba obserwacji dotyczących kształtowania się zmiennych wejściowych (objaśniających) musi być taka sama jak liczba wzorców treningowych przygotowanych dla zmiennych wyjściowych (prognozowanych). Dlatego do modelu wprowadza się jedynie te zmienne, dla których dane statystyczne są dostępne z tą samą częstotliwością pomiaru (choć niekoniecznie z tych samych momentów lub okresów). Ważnym zagadnieniem jest wyznaczenie okresu, z którego będą pochodziły obserwacje do próby treningowej. Określenie długości szeregu czasowego podyktowane jest koniecznością kompromisu pomiędzy wymaganą liczbą wzorców uczących i wykorzystaniem możliwie aktualnych danych, zwłaszcza jeżeli prognozowanie dotyczy zjawisk o znacznej zmienności w czasie, co zachodzi w analizach giełdowych. Przyjmuje się, że liczba obserwacji powinna być przynajmniej 10-krotnie większa od liczby szacowanych parametrów. Zebrane dane empiryczne powinny zostać poddane wstępnej analizie i przetworzeniu, które obejmują: Możliwości zastosowania modelu… 155 – weryfikację poprawności i jednorodności danych, – operacjonalizację danych, – redukcję wymiaru przestrzeni danych wejściowych, – wyodrębnienie zależności i wahań cyklicznych. Przy konstrukcji sieci neuronowych należy uwzględnić: – zbiór zmiennych wejściowych, – liczbę warstw ukrytych i liczbę znajdujących się w nich neuronów, – postać funkcji aktywacji. W niniejszym artykule przedstawiono model konstrukcji jednokierunkowej sieci neuronowej do prognozowania sygnałów kupna i sprzedaży akcji. Model został zaczerpnięty z pracy [Witkowska 2002]. Funkcja aktywacji dla poszczególnych neuronów w tym modelu ma postać logistyczną: ϕ ( e) = 1 . 1 + exp(−βe) (6) Budowa modelu sieci neuronowej przedstawia się następująco: – 122 zmienne wejściowe, – cztery neurony ukryte w pierwszej warstwie i dwa elementy w drugiej warstwie ukrytej, – jeden neuron wyjściowy, czyli architektura modelu ma postać: 122-4-2-1. Na wejściu sieci znajdą się zmienne reprezentujące: 1) stopę zwrotu kursów akcji dla x kolejnych sesji giełdowych poprzedzających notowania analizowanej sesji, czyli: K kt = ln t , K t −1 (7) gdzie: Kt – kurs akcji wybranej spółki dla sesji t-tej, w zł; 2) logarytmy obrotów zanotowanych w ciągu x kolejnych sesji giełdowych poprzedzających analizowaną sesję, czyli: vt = ln(Vt) , (8) gdzie: Vt – wolumen obrotów akcjami wybranej spółki w trakcie trwania sesji t-tej, w zł; 3) krzywą nachylenia indeksu giełdowego WIG, czyli: vt = β7[ln(WIGt)] , gdzie: WIGt – indeks giełdowy WIG wyznaczony dla t-tej sesji, (9) Joanna Palczewska 156 β7 – symbol funkcji przyporządkowującej wartość współczynnika kierunkowego funkcji trendu opisującej ln(WIGt), oszacowanego na podstawie 7-elementowej próby; 4) logarytmy względnych wartości całkowitych obrotów zanotowanych w trakcie trwania sesji giełdowych, które zostały obliczone dla każdej sesji w stosunku do średniej obliczonej z trzech poprzednich sesji, czyli: 3Ot ot = , Ot −1 + Ot − 2 + Ot − 3 (10) gdzie: Ot – całkowite obroty w trakcie trwania sesji t-tej, w zł. Natomiast na wyjściu sieć będzie zawierać jedną ze zmiennych zdefiniowaną jako: 1) bezwzględne przyrosty krzywej nachylenia kursu, wyznaczone w postaci różnicy współczynników kierunkowych funkcji regresji opisujących logarytmy wartości cen akcji notowanych w dwóch kolejnych sesjach, czyli: st1 = β14 ln ( K t +1 ) − β14 ln ( K t ) , (11) 2) połowa różnicy współczynników kierunkowych funkcji regresji (11) obliczonych dla kursów akcji z dwóch kolejnych sesji, czyli: st1 = β14 ln ( K t +1 ) − β14 ln ( K t ) 2 , (12) gdzie: β14 – symbol funkcji przyporządkowującej wartość współczynnika kierunkowego funkcji regresji opisującej ln(Kt), oszacowanej na 14-elementowej próbie, pozostałe oznaczenia jak poprzednio. W celu uzyskania prognozy dla krzywej nachylenia kursu, a więc współczynnika kierunkowego β14[ln(Kt + 1)], za pomocą którego wyznaczać się będzie sygnały kupna-sprzedaży akcji, należy przekształcić generowane przez sieć wartości wyjść korzystając z następującego wzoru: 7 β14 ln ( K t +1 ) = β14 ln ( K t − 7 ) ∑ st*− i , i =1 gdzie: s*t – wyznaczona przez sieć wartość wyjścia w momencie t. (13) Możliwości zastosowania modelu… 157 W celu uzyskania informacji o udziale poszczególnych przyczyn w całkowitym błędzie prognozy poszczególne składowe wyrażono w postaci względnej: WI1 = I12 ⋅ 100 , I2 WI 2 = I 22 ⋅ 100 , I2 WI 3 = I 32 ⋅ 100 . I2 (14) W przypadku prognozowania sygnałów kupna i sprzedaży akcji wartość błędu względnego nie jest w pełni miarodajnym wskaźnikiem jakości działania sieci. W celu uzyskania wiarygodnej oceny sieci wprowadza się nowy wskaźnik jakości działania sieci, który zdefiniowano jako zysk względny uzyskany z transakcji dokonanych w określonym czasie, odniesiony do maksymalnego zysku, jaki można było osiągnąć z transakcji opartych na sygnałach kupna i sprzedaży generowanych przez wzorcową zmienną wyjściową. Przy obliczaniu zysków powinna zostać uwzględniona prowizja maklerska na poziomie 2%. Z= ZS , ZM (15) gdzie: Z – zysk względny, ZM – zysk maksymalny, ZS – zysk osiągnięty na podstawie transakcji prognozowanych przez sieć. Wskaźnik jakości działania sieci (15) informuje o udziale zysku, jaki zostałby osiągnięty przez inwestora działającego zgodnie z wygenerowanymi przez sieć sygnałami kupna i sprzedaży akcji, w stosunku do zysku wyznaczonego dla wszystkich zaobserwowanych sygnałów transakcji [Witkowska 2002, s. 98–100, 104–107]. 5. Podsumowanie Sztuczne sieci neuronowe stanowią nowoczesne narzędzie analityczne odznaczające się unikatowymi cechami, takimi jak zdolność uczenia się, możliwość wyciągania wniosków nawet na podstawie niepełnych danych. Zastosowanie sieci neuronowych zrewolucjonizowało wiele dziedzin, w których analiza danych odgrywa podstawową rolę. Są one w stanie zautomatyzować zadania związane z koniecznością analizy coraz większej ilości informacji oraz identyfikowaniem możliwości. Sztuczne sieci neuronowe przy braku odpowiedniej wiedzy co do zaistniałych w gospodarce zjawisk umożliwiają wykrycie zależności między danymi. W sytuacji gdy wiedza o istniejących relacjach ekonomicznych jest niewystarczająca, wygodnie jest wykorzystać sztuczne sieci neuronowe, zamiast przyjmować trudne do zweryfikowania założenia modelowe. 158 Joanna Palczewska Literatura Gajda J.B. [2001], Prognozowanie i symulacja a decyzje gospodarcze, Wydawnictwo C.H. Beck, Warszawa. Gately E. [1999], Sieci neuronowe. Prognozowanie finansowe i projektowanie systemów transakcyjnych, Biblioteka Inwestora, Warszawa. Kamieński W.A. [2001], Sztuczne sieci neuronowe, Zamojskie Studia i Materiały, z. 2, Wyższa Szkoła Zarządzania i Administracji w Zamościu, Zamość. Korbicz J., Obuchowicz A., Uciński D. [1994], Sztuczne sieci neuronowe. Podstawy i zastosowanie, Akademicka Oficyna Wydawnicza PLJ, Warszawa. Krawiec K., Stefanowski J. [2003], Uczenie maszynowe i sieci neuronowe, Wydawnictwo Politechniki Poznańskiej, Poznań. McCullock W., Pitts W. [1943], A Logical Calculus of Ideas Immancnt in Nervous Activity, „Bulletin of Mathematical Riophysics”, vol. 5. Mierzejewski P. [2003], Sieci neuronowe w analizie prognozowania zagrożenia finansowego przedsiębiorstw, Instytut Nauk Ekonomicznych PAN, Warszawa. Nałęcz M. [2000], Sieci neuronowe, Akademicka Oficyna Wydawnicza Exit, Warszawa. Nowak E. [1998], Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady, Placet, Warszawa. Osowski S. [1996], Sieci neuronowe w ujęciu algorytmicznym, WNT, Warszawa. Rymarczyk M. [1997], Decyzje. Symulacje. Sieci neuronowe, Wydawnictwo Wyższej Szkoły Bankowej, Poznań. Siedlecki J. [2001], Wykorzystanie sztucznych sieci neuronowych w modelowaniu ekonomicznym, AE we Wrocławiu, Wrocław. Tadeusiewicz R. [1998], Elementarne wprowadzenie do techniki sieci neuronowych z przykładowymi programami, Akademicka Oficyna Wydawnicza PLJ, Warszawa. Witkowska D. [2002], Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienia finansowe, Wydawnictwo C.H. Beck, Warszawa. Zieliński J. [2000], Inteligentne systemy w zarządzaniu – teoria i praktyka, PWN, Warszawa. The Possibility of Applying a Unidirectional Neural Network Model in Order to Forecast Share Purchase and Sale Signals in Light of Literature on the Subject Financial forecasting is without doubt one of the most developed branches of applying neural networks in the field of economics. In fact, neural networks are successfully applied to solve problems in a wide variety of disciplines, such as: finance, medicine, applied engineering, geology and physics. The aim of this paper is to present the use of artificial neural networks in forecasting. The author describes a model for constructing artificial neural networks. What is important is that the construction of a neural model requires familiarity not only with statistical methods but also knowledge in the field of neural networks. The model of a neural network presented in the article shows, moreover, that artificial neural networks may be useful tools in economic forecasting.