Wykorzystanie metody $k$ średnich w taksonomii portfela akcji
Transkrypt
Wykorzystanie metody $k$ średnich w taksonomii portfela akcji
WYKORZYSTANIE METODY K-ŚREDNICH W TAKSONOMII PORTFELA AKCJI Dorota Kozioł Katedra Ekonometrii WSEI ul. Stokłosy 3, 02-787 Warszawa e-mail:[email protected] Robert Pietrzykowski, Wojciech Zieliński Katedra Ekonometrii i Informatyki SGGW ul. Nowoursynowska 159, 02-787 Warszawa e-mail:[email protected] e-mail:[email protected] Streszczenie. W pracy analizowano notowania akcji na Warszawskiej Giełdzie Papierów Wartościowych w roku 2003. Zastosowanie metody k-średnich pozwoliło na wychwycenie powiązań pomiędzy badanymi akcjami spółek giełdowych oraz wyróżnienie akcji ściśle ze sobą związanych. Wstęp Statystyczne metody taksonomiczne polegają na podziale grupy pewnych obiektów obserwowanych wielocechowo na grupy obiektów o podobnych własnościach. Metody wywodzą się z zastosowań biologicznych, niemniej jednak spektrum ich zastosowania może być rozszerzone na wiele innych dziedzin. W ostatnich latach metody taksonomiczne znajdują zastosowania w ekonomii, a w szczególności w analizie giełdy [Gatnar 1998]. Metody te mogą wspomóc doświadczenie i intuicję inwestora w wyborze efektywnego portfela akcji, tzn. portfela maksymalizującego zysk przy jednoczesnej minimalizacji ryzyka. Do takich metod należą m.in. właśnie metody analizy skupień. Analiza skupień to najbardziej znana i najczęściej stosowana technika taksonomii. W jej wyniku otrzymujemy podział obserwowanych obiektów rozłączne grupy. Techniki analizy skupień można podzielić na dwie kategorie: metody aglomeracyjne oraz podziałowe. Techniki aglomeracyjne polegają na tworzeniu grup poprzez dołączanie do już istniejących grup kolejnych obiektów. Wynik działania tych technik prezentowany jest przeważnie w postaci dendrogramu. Odpowiednie przecięcie gałęzi takiego dendrogramu powoduje rozpadnięcie się powstałego drzewa na rozłączne grupy [Falniowski 2003]. Metody podziałowe polegają na dzieleniu całego zbioru obiektów zgodnie z ogólną zasadą maksymalizacji wariancji pomiędzy poszczególnymi grupami, przy jednoczesnej minimalizacji wariancji wewnątrz badanych grup. W wyniku stosowania metod z tej grupy jest wskazanie skupień w badanym zbiorze obiektów. Przykładem takiej techniki jest metoda k-średnich zaproponowana przez MacQueena [MacQueen 1967]. Celem pracy jest przybliżenie metody k-średnich oraz jej zastosowania w klasyfikacji portfela akcji, wychwycenie wzajemnych powiązań pomiędzy badanymi spółkami i zastosowanie do konstrukcji portfela akcji wybranych spółek notowanych na Warszawskiej Giełdzie Papierów Wartościowych w roku 2003. Należy zwrócić uwagę na to, że zastosowanie metod taksonomicznych nie daje jednoznacznej odpowiedzi, który podział jest ”najlepszy”, to znaczy najbliższy rzeczywistości. Uzyskany podział oparty jest na analizie zmienności akcji i może być tylko wskazówką do konstrukcji optymalnego portfela. Opis metody Niech X1 , X2 , . . . , XN będą zaobserwowanymi obiektami p cechowymi, tzn. Xi = (Xi1 , . . . , Xip ), i = 1, . . . , N . W metodzie k-średnich zakłada się, że obiekty pochodzą z pewnej nieznanej liczby k populacji. Na podstawie zebranych danych identyfikowana jest liczba k oraz ”przydziela” badane obiekty do poszczególnych populacji. Niech J (k) = {I1 , . . . , Ik } będzie podziałem zbioru {1, . . . , N } na k rozłącznych podzbiorów. Liczby w zbiorze I1 traktowano jako numery obserwowanych obiektów pochodzących z pierwszej populacji, liczby w zbiorze I2 numery obiektów z drugiej populacji, itd. Zakładając, że liczba k populacji jest ustalona szukano ”najlepszego” podziału. Spośród wszystkich podziałów J (k) za najlepszy uznano ten, dla którego zróżnicowanie międzygrupowe w stosunku do zróżnicowania wewnątrzgrupowego będzie największe. Niech 1 X X̄Ii = Xj , ni j∈Ii 1 gdzie ni oznacza ilość elementów zbioru Ii (n1 +· · ·+nk = N ). Jako miernik zróżnicowania międzygrupowego przyjęto k 1X SAJ (k) = kX̄Ii − X̄J (k) k2 , k i=1 Pk gdzie X̄J (k) = k1 i=1 X̄Ii jest ”środkiem ciężkości” proponowanego podziału. Symbol kXk oznacza normę Pp euklidesową wektora X = (X1 , . . . , Xp ) tzn. kXk2 = i=1 Xi2 . Miernikiem zróżnicowania wewnątrzgrupowego będzie k 1X 1 X SEJ (k) = kXj − X̄Ii k2 . k i=1 ni j∈Ii Niech J ∗ (k) będzie takim podziałem na k grup, że SAJ ∗ (k) SAJ (k) = max SEJ ∗ (k) J (k) SEJ (k) oraz niech f (k) = SAJ ∗ (k) . SEJ ∗ (k) Jako optymalny podział J ∗ (k) obiektów na skupienia wybrano ten, dla którego funkcja f (k) osiąga minimum. Wyniki W analizie wzięto pod uwagę 44 spółki giełdowe z różnych sektorów gospodarki. W celu zmniejszenia ryzyka inwestycyjnego ustalono minimalną liczbę grup akcji na pięć, a następnie szukano takiego k, które zminimalizowało wartość funkcji f (k), przy czym poszukiwanie ograniczono do przedziału h5, N/3i. To ostatnie ograniczenie wynika stąd, że w przypadku przyjęcia k większego od N/3 uzyskujemy grupy złożone z co najwyżej dwóch obiektów. Dla każdej z 44 spółek obliczono wartości X̄i (t): X̄i (t) = ln Xi (t) − ln Xi (t − 1), gdzie Xi (t) jest średnią miesięczną ceną i-tej spółki, a t = 2, . . . , 12 oznacza poszczególne miesiące w roku 2003. Szukając minimum funkcji f(k) uzyskano najmniejszą wartość dla k = 6 (rysunek 1). Wykorzystując metodę k-średnich z opcją maksymalizacji odległości pomiędzy skupieniami wybrano podział na sześć skupień. W efekcie do poszczególnych skupień przydzielono następujące spółki: Skupienie Skupienie Skupienie Skupienie Skupienie Skupienie 1: 2: 3: 4: 5: 6: KGN, MCF, SFT, SPT 12N 7BC HWL APL, CMR, ,DBC, KTY, MCI, ORB, PFK, PLE, PPS, VST 01N, 02N, 04N, 05N, 06N, 07N, 08N, 09N, 10N, 13N, 14N, 15N, AGO, AMC, BDX, BRE, CPL, FSC, PEO, PGF, PKM, PKN, PLC, STO, TPS, WAR, ZWC W drugim, trzecim i czwartym skupieniu jest tylko po jednej spółce: HWL zajmująca się sprzedaż metali, 7BC zajmująca się sprzedażą pojazdów mechanicznych oraz 12N zajmująca się doradztwem finansowym. W skupieniu pierwszym znajdują się cztery spółki w tym dwie zajmujące się doradztwem w zakresie oprogramowania (MCF, SFT), a jedna zajmująca się dostarczaniem energii elektrycznej (KGN) i druga z branży telekomunikacyjnej (SPT). W skupieniu piątym znajduje się 10 spółek. W tym skupieniu znalazły się spółki zajmujące się przetwarzaniem aluminium i jego stopów (KTY), produkcją wyrobów metalowych (APL), z branży farmaceutycznej i kosmetycznej (PFK, PLE), turystycznej i hotelarskiej (ORB), odzieżowej (VST). Najliczniejsze jest skupienie szóste do którego przydzielono 27 spółek. Skupienie szóste jest zdominowane przez spółki zajmujące się pośrednictwem finansowym (04N, 14N, 10N, 06N, 09N, 05N, 08N, 01N, 13N, 15N, 2 02N - fundusze inwestycyjne). W skupieniu szóstym znalazły się wiodące firmy na polskim rynku (AMC, BDX, STO, FSC, WAR, ZWC), monopoliści (PKN, TPS), banki (BRE, PEO). Jak można zauważyć w poszczególnych skupieniach znalazły się spółki silnie ze sobą związane ze względu na prowadzoną działalność gospodarczą. Przeprowadzona analiza potwierdza przypuszczenia, że spółki z tego samego skupienia podlegają takim samym procesom na giełdzie (TPS, PEO, BRE, PKN). Poza tym można stwierdzić, że spółki będące w tych samych skupieniach charakteryzują się synchronizacją cen akcji. Wyraźne wydzielenie trzech spółek 12N, HWL, 7BC od pozostałych związane jest ze zmianami cen akcji na giełdzie dla tych spółek w miesiącach. Jak można zauważyć spółka 12N znajdująca się w drugim skupieniu wyraźnie odbiega od innych spółek w 7 i 8 badanym okresie (rysunek 2), podobnie wygląda sytuacja dla dwóch pozostałych spółek. Wnioski Przedstawiona w pracy metoda k-średnich pozwoliła na wyróżnienie spółek silnie powiązanych ze sobą. Analiza poszczególnych skupień może być pomocna do wyboru portfela akcji, kierując się wiedzą o tym, że w portfelu inwestycyjnym akcji nie powinny znajdować się spółki silnie ze sobą związane. Należy jednak nadmienić, że metoda k-średnich nie daje pewności co do wyboru akcji. Celem pracy było zaprezentowanie jednej z metod, która może służyć do analizy giełdy poprzez klasyfikacje poszczególnych spółek giełdowych. TABELA 1. Lista badanych spółek notowanych na Warszawskiej Giełdzie Papierów Wartościowych w roku 2003. 01N - Pierwszy Narodowy Fundusz Inwestycyjny S.A. 02N - Drugi Narodowy Fundusz Inwestycyjny S.A. 04N - Narodowy Fundusz Inwestycyjny Progress S.A. 05N - V Narodowy Fundusz Inwestycyjny Victoria S.A. 06N - Narodowy Fundusz Inwestycyjny Magna Polonia S.A. 07N - Siódmy Narodowy Fundusz Inwestycyjny Imienia Kazimierza Wielkiego S.A. 08N - Narodowy Fundusz Inwestycyjny Octava S.A. 09N - Narodowy Fundusz Inwestycyjny Im. Eugeniusza Kwiatkowskiego S.A. 10N - Foksal Narodowy Fundusz Inwestycyjny S.A. 12N - Narodowy Fundusz Inwestycyjny Piast S.A. 13N - Narodowy Fundusz Inwestycyjny Fortuna S.A. 14N - Narodowy Fundusz Inwestycyjny Zachodni S.A. 15N - Narodowy Fundusz Inwestycyjny Hetman S.A. 7BC - Bulls.Com S.A. AGO - Agora S.A. AMC - Amica Wronki S.A. APL - Ampli S.A. BDX - Budimex S.A. BRE - Bre Bank S.A. CMR - Comarch S.A. CPL - Computerland S.A. DBC - Firma Oponiarska Dębica S.A. FSC - Frantschach Świecie S.A. HWL - Howell S.A. KGN - Zespół Elektrociepłowni Wrocławskich Kogeneracja S.A.. KTY - Grupa Kęty S.A. MCF - Macrosoft S.A. MCI - Mci Management S.A. ORB - Orbis S.A. PEO - Bank Polska Kasa Opieki S.A. PFK - Kutnowskie Zakłady Farmaceutyczne Polfa S.A. PGF - Polska Grupa Farmaceutyczna S.A. PKM - Prokom Software S.A. 3 PKN - Polski Koncern Naftowy Orlen S.A. PLC - Polifarb Cieszyn-Wrocław S.A. PLE - Fabryka Kosmetyków Pollena-Ewa S.A. PPS - Przedsiębiorstwo Przemysłu Spożywczego Pepees S.A. SFT - Softbank S.A. SPT - Przedsiębiorstwo Telekomunikacyjne Szeptel S.A. STO - Sanockie Zakłady Przemysłu Gumowego Stomil Sanok S.A. TPS - Telekomunikacja Polska S.A. VST - Vistula S.A. WAR - Towarzystwo Ubezpieczeń i Reasekuracji Warta S.A. ZWC - Grupa Żywiec S.A. Literatura cytowana Gatnar E. 1998: Symboliczne metody klasyfikacji danych. PWN Falniowski A. 2003 Metody numeryczne w taksonomii. WUJ MacQueen J.B. 1967 Some Methods for Classification and Analysis of Multivariate Observations., Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press, Berkeley, CA, 1, 281-297 4 Rysunek 1. Wykres wartości funkcji f (k) Rysunek 2. Podział na sześć skupień metodą k-średnich 5