Modelowanie rozkładów stopy bezrobocia za pomocą krzywych
Transkrypt
Modelowanie rozkładów stopy bezrobocia za pomocą krzywych
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2010, Oeconomica 280 (59), 45–52 Mateusz Goc MODELOWANIE ROZKŁADÓW STOPY BEZROBOCIA ZA POMOCĄ KRZYWYCH PEARSONA MODELLING THE DISTRIBUTION OF THE UNEMPLOYMENT RATES USING PEARSON FAMILY DISTRIBUTIONS Katedra Zastosowań Matematyki w Ekonomii, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie ul. Klemensa Janickiego 31, 71-270 Szczecin Abstract. The papers present a trial of use of the Pearson family distributions in modeling the monthly distributions of the unemployment rates by the regions in 2004-2007 period. Results of fitting the Pearson distributions were compared with approximants given by Generaized Extreme Value distribution and Gamma distribution. In many cases Pearson distributions were better fitted than "classical" distributions. Słowa kluczowe: bezrobocie, modelowanie rozkładów, system krzywych Pearsona. Key words: distribution modeling, Pearson family distributions. WSTĘP W modelowaniu rozkładów empirycznych zmiennych ekonomicznych dominuje podejście polegające na ich aproksymowaniu za pomocą określonej klasy rozkładów teoretycznych zmiennej losowej ciągłej charakteryzujących się np. prawostronną asymetrią. Alternatywne podejście polega na wykorzystaniu do tego celu systemu krzywych Pearsona obejmujących XII typów rozkładów. Dorobek publikacyjny poświęcony zastosowaniu tego systemu krzywych w modelowaniu i prognozowaniu rozkładów empirycznych jest stosunkowo ubogi. Najobszerniejszą w tym zakresie pracę, poświęconą modelowaniu rozkładów płac, opublikowali Kordos i Stroińska (1973 b). Celem pracy jest sprawdzenie przydatności krzywych Pearsona w modelowaniu rozkładów na przykładzie miesięcznych rozkładów empirycznych stopy bezrobocia według miast i powiatów w latach 2004–2007. MATERIAŁ I METODY Pod koniec XIX wieku Karl Pearson opracował system rozkładów zmiennej losowej, który został wyprowadzony z równania różniczkowego o postaci (Rose i Smith 2002): dp( x) ax p ( x) dx c o c1 x c 2 x 2 (1) Kształt krzywej zależy od czterech parametrów a, c0, c1, c2, które mogą być wyrażone w zależności od pierwszych czterech momentów rozkładu. Pearson uzyskał w ten sposób 12 typów rozkładów, jednak najszersze praktyczne zastosowanie mają typy I–VII. 46 M. Goc Przyporządkowanie krzywej rozkładu do odpowiedniego typu zależy od wartości współczynnika κ, który jest wyrażony wzorem (Stuart i Ord 1994): 1 ( 2 3) 2 4( 4 2 3)( 2 2 31 6) (2) gdzie: 32 1 3 – kwadrat współczynnika skośności, 2 2 42 – współczynnik kurtozy, 2 i – momenty centralne i-tego rzędu. W zależności od wartości parametru κ Pearsona wyznaczył trzy typy podstawowe oraz cztery typy przechodnie. Do typów podstawowych zaliczamy (Kordos 1973 a): – typ I, gdy κ < 0, – typ IV, gdy 0 < κ < 1, – typ VI, gdy κ > 1. Typy przechodnie to: – typ II, gdy κ = 0, – typ III, gdy (w praktyce stosuje się, gdy 4 ), – typ V, gdy κ = 1, – typ VII, gdy κ = 0. Jeśli oba pierwiastki trójmianu są rzeczywiste i mają różne znaki, to otrzymuje się typ I rozkładu Pearsona. Oznaczając pierwiastki jako a1 i a2 ( a1 0 a 2 ), otrzymujemy funkcję gęstości o postaci: f ( x ) K ( x a1 ) m1 (a 2 x ) m2 , a1 x a 2 (3) gdzie: m1 a a1 a a2 oraz m2 . c 2 a 2 a1 c 2 a 2 a1 Jeżeli oba wykładniki potęg są ujemne, to rozkład jest U-kształtny, natomiast jeśli jedna z potęg jest ujemna, a druga dodatnia – rozkład jest J-kształtny. Typ ten jest ogólną postacią rozkładu beta. Typ II jest szczególnym przypadkiem rozkładu typu I, dla którego m1 = m2, a pomiędzy pierwiastkami zachodzi zależność a1 a 2 . Rozkład tego typu jest symetryczny, a jego funkcja gęstości ma postać: 2 2 1 f ( x) K ( x a ) 1 2 c2 , a1 x a1 Szczególnym przypadkiem tego typu dla (4) 1 0 jest rozkład prostokątny. 2c 2 W sytuacji, gdy c 2 0 (oraz c1 0 ), otrzymuje się typ III rozkładu systemu Pearsona, którego funkcję gęstości można zapisać w postaci: Modelowanie rozkładów stopy bezrobocia... x c c m , x 0 dla c1 0 oraz x 0 dla c1 0 f ( x ) K c 0 c1 x exp c1 c1 c1 47 (5) gdzie: m 1 c0 a . c1 c1 Szczególnymi przypadkami rozkładów tego typu są rozkłady gamma i χ2. Typ IV rozkładu systemu Pearsona otrzymujemy, gdy trójmian kwadratowy co c1 x c2 x 2 nie ma rzeczywistych pierwiastków. Jego funkcja gęstości wyraża się wzorem: c1 2c 2 x (c1 2ac 2 )arctg ( 4c 0 c 2 c12 f ( x ) K exp c 2 4c 0 c 2 c12 ) 1 (c x(c c x )) 2c2 , x 1 2 0 (6) Gdy trójmian co c1 x c2 x 2 ma tylko jeden pierwiastek, otrzymujemy typ V o funkcji gęstości: f ( x) Ke 2 ac 2 c1 c2 ( c1 2 c2 x ) (c1 2c 2 x) 1 c2 , x0 (7) Szczególnymi przypadkami rozkładów tego typu jest rozkład normalny odwrotny. Gdy pierwiastki trójmianu są rzeczywiste i mają ten sam znak, otrzymuje się typ VI rozkładu. Jego funkcja gęstości ma postać: f ( x ) K ( x a1 ) m1 ( x a 2 ) m2 , x a 2 dla a1 a 2 0 oraz x a1 dla a 2 a1 0 (8) Szczególnym przypadkiem rozkładu typu VI jest rozkład typu VII. Jest to rozkład symetryczny; otrzymuje się go, gdy c1 a 0 dla c0 0 ; jego funkcja gęstości wyrażona jest wzorem: 2 f ( x ) K ( c0 c 2 x ) 1 2 c2 , x (9) Szczególnym przypadkiem tej krzywej jest rozkład t-Studenta. Aproksymanty uzyskane na podstawie krzywych Pearsona zostaną porównane z aproksymantami uzyskanymi na podstawie uogólnionego rozkładu wartości ekstremalnych (GEV) oraz rozkładu gamma (G). Przydatność powyższych funkcji w modelowaniu rozkładów stopy bezrobocia została udowodniona m.in. w pracy Goca (2009). Funkcja gęstości uogólnionego rozkładu wartości ekstremalnych wyrażona jest wzorem (10) – Kotz i Nadarajah (2001): 1 1 1 x dla 0 1 x 1 x exp 1 (10) f ( x) x dla 0 1 x x x dla 0 exp exp exp 48 M. Goc Natomiast funkcję rozkładu gamma opisuje wzór (11) – Johnson i in. (1994): x x 1 , x 0 f ( x) exp ( ) (11) Do testowania zgodności rozkładów empirycznych wykorzystano test λ-Kołmogorowa oraz test zgodności χ2. WYNIKI I DYSKUSJA W pracy dokonano aproksymacji miesięcznych rozkładów stopy bezrobocia według miast i powiatów w latach 2004–2007. W pierwszym etapie badań, w celu przyporządkowania rozkładów empirycznych do konkretnego typu krzywej, dla każdego miesiąca zostały obliczone współczynniki κ oraz β1 i β2. Wyniki obliczeń zawiera tab. 1. Po przeprowadzeniu obliczeń okazało się, że we wszystkich badanych miesiącach rozkłady stopy bezrobocia według miast i powiatów powinny być aproksymowane za pomocą krzywej I typu. W kolejnym etapie dokonano modelowania rozkładów empirycznych za pomocą I typu pearsonowskiego (PEARSON I). Uzyskane wyniki porównano z aproksymantami uzyskanymi na podstawie rozkładów uogólnionego wartości ekstremalnych (GEV) oraz gamma (G). Dla poziomu istotności 0,05 wartości krytyczne testów: 1,36 oraz 2 2 2 χ PEARSON I 9,49 , χ GEV 11,07 i G 12,59 . Wyniki zgodności rozkładów empirycznych teoretycznych zestawiono w tab. 2. Z przeprowadzonych obliczeń wynika, że w przypadku rozkładu PEARSON I dla wszystkich miesięcy uzyskano najmniejsze wartości statystyk empirycznych λemp. W przypadku statystki χ 2 emp miało to miejsce w ponad 35% przypadków. Jedynie w dwóch miesiącach (w lutym 2006 r. oraz w styczniu 2007 r.) wartości statystyk χ 2 emp nie potwierdziły zgodności rozkładów empirycznych i teoretycznych. Na rysunkach 1 i 2 przedstawiono graficznie wyniki modelowania rozkładów z czerwca 2004 r. oraz z grudnia 2007 r. W tabeli 3 przedstawiono wartości parametrów aproksymowanych funkcji. Modelowanie rozkładów stopy bezrobocia... 49 Tabela 1. Wyniki przyporządkowania rozkładów stopy bezrobocia do krzywych Pearsona Rok 2004 2005 2006 2007 Miesiąc κ β1 β2 Typ krzywej Pearsona styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień –0,0626 –0,0610 –0,0638 –0,0647 –0,0738 –0,0670 –0,0753 –0,0780 –0,0894 –0,0947 –0,0974 –0,0994 –0,0954 –0,0904 –0,0881 –0,0857 –0,0892 –0,0908 –0,1037 –0,1111 –0,1199 –0,1276 –0,1347 –0,1269 –0,1022 –0,0946 –0,0953 –0,0905 –0,0843 –0,0768 –0,0850 –0,0971 –0,1054 –0,1210 –0,1186 –0,1205 –0,1269 –0,1248 –0,1231 –0,1199 –0,1268 –0,1557 –0,1443 –0,1493 –0,1732 –0,2197 –0,2170 –0,2346 0,1053 0,1037 0,1061 0,1078 0,1208 0,1122 0,1242 0,1291 0,1429 0,1532 0,1574 0,1589 0,1545 0,1482 0,1469 0,1448 0,1523 0,1579 0,1737 0,1815 0,1936 0,2028 0,2080 0,2018 0,1675 0,1587 0,1571 0,1487 0,1420 0,1309 0,1404 0,1587 0,1693 0,1923 0,1916 0,1991 0,1970 0,1935 0,1925 0,1854 0,1974 0,2169 0,2079 0,2122 0,2434 0,2820 0,2786 0,2904 2,5012 2,4925 2,5096 2,5107 2,5407 2,5138 2,5399 2,5437 2,5855 2,5920 2,5980 2,6074 2,5929 2,5762 2,5633 2,5515 2,5540 2,5484 2,5961 2,6230 2,6475 2,6701 2,6957 2,6682 2,6023 2,5749 2,5845 2,5753 2,5496 2,5261 2,5605 2,5920 2,6178 2,6558 2,6443 2,6391 2,6775 2,6734 2,6665 2,6641 2,6762 2,7696 2,7377 2,7514 2,8007 2,9037 2,8990 2,9341 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 50 M. Goc Tabela 2. Zgodność rozkładów empirycznych stopy bezrobocia z rozkładami PEARSON I, GEV i G Rozkład Rok Miesiąc PEARSON I λemp 2004 2005 2006 2007 styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień styczeń luty marzec kwiecień maj czerwiec lipiec sierpień wrzesień październik listopad grudzień 0,2793 0,2936 0,3106 0,3461 0,5509 0,2158 0,2032 0,1624 0,2293 0,2603 0,2630 0,3236 0,2723 0,3108 0,2961 0,4449 0,2636 0,2559 0,2412 0,2038 0,2511 0,2432 0,2478 0,2866 0,3517 0,6001 0,2995 0,3075 0,2900 0,4382 0,2933 0,2349 0,3275 0,2965 0,3134 0,3451 0,5923 0,3639 0,3672 0,2956 0,2703 0,2566 0,2648 0,3892 0,3185 0,2678 0,5160 0,1992 χ 2 emp 7,54 7,56 7,55 6,07 4,00 2,79 3,03 1,95 2,50 4,75 4,97 7,81 7,25 6,33 7,78 7,75 7,41 4,53 6,06 4,32 4,76 5,25 2,65 5,23 7,77 13,12 8,15 4,90 4,29 3,73 1,65 2,60 3,48 3,56 5,91 6,07 10,40 5,10 8,06 3,89 4,08 2,30 2,10 5,20 4,11 3,43 5,12 3,49 GEV λemp 0,5145 0,5120 0,5005 0,4666 0,4396 0,5521 0,5079 0,5422 0,4513 0,5007 0,5046 0,5628 0,4840 0,4688 0,5141 0,5420 0,6183 0,5618 0,5696 0,5669 0,6995 0,6350 0,6528 0,7279 0,6403 0,6837 0,6479 0,5544 0,4976 0,5626 0,5716 0,5344 0,5655 0,6674 0,8239 0,6181 0,6144 0,6130 0,6452 0,6385 0,5293 0,5897 0,5476 0,5430 0,5689 0,5215 0,6056 0,5369 G χ 2 emp 4,23 5,96 6,04 5,20 4,46 5,84 5,33 6,09 1,20 2,02 4,76 4,23 5,42 5,00 4,80 6,32 4,00 5,31 6,67 4,49 5,00 3,40 6,08 6,92 2,77 2,72 3,25 3,71 3,69 2,51 7,56 9,65 4,58 6,37 9,32 5,61 6,96 6,70 6,36 4,54 2,90 4,32 4,37 2,37 3,47 3,49 6,15 4,00 λemp χ2emp 0,6966 0,6785 0,6576 0,6290 0,5885 0,7367 0,6152 0,5712 0,6078 0,6374 0,6576 0,6917 0,6130 0,6010 0,6605 0,6740 0,7626 0,6991 0,6827 0,6742 0,8048 0,7334 0,7493 0,8200 0,7569 0,7914 0,7777 0,6956 0,6551 0,7404 0,7396 0,6913 0,7373 0,8132 0,9722 0,7626 0,7700 0,7661 0,7986 0,7885 0,7172 0,7524 0,7119 0,7587 0,7398 0,6654 0,7491 0,6619 4,69 6,99 5,38 6,78 3,11 4,86 6,09 4,68 3,37 3,18 5,15 7,65 5,17 3,45 4,52 4,66 3,99 3,77 4,70 6,98 4,27 2,76 6,21 6,94 5,49 3,59 4,09 6,05 4,04 4,35 7,98 6,90 7,68 5,91 6,33 9,20 5,54 6,81 7,25 8,38 7,18 6,23 8,00 7,14 4,27 5,52 4,23 4,60 Modelowanie rozkładów stopy bezrobocia... PEARSON I GEV G 20 Częstości względne [%] (%) Częstości względne 51 15 10 5 0 8 12 16 21 25 29 33 37 41 45 Stopa bezrobocia [%] stopa bezrobocia (%) Rys. 1. Rozkład empiryczny (histogram) oraz rozkłady teoretyczne stopy bezrobocia w czerwcu 2004 r. 25 PEARSON I GEV G Częstości względne [%] Częstości względne (%) 20 15 10 5 0 3 7 10 14 17 21 24 28 31 35 Stopa stopabezrobocia bezrobocia[%] (%) Rys. 2. Rozkład empiryczny (histogram) oraz rozkłady teoretyczne stopy bezrobocia w grudniu 2007 r. Tabela 3. Zgodność rozkładów empirycznych stopy bezrobocia z rozkładami PEARSON I, GEV i G Miesiąc Czerwiec 2004 Rozkład Parametry PEARSON I K = 2,00x10–7 a1 = 49,22 a2 = 6,78 m1 = 3,02 m2 = 1,41 GEV ξ = –0,1522 σ = 7,01 μ = 19,56 α = 9,03 β = 2,51 G PEARSON I Grudzień 2007 –12 K = 1,54x10 a1 = 46,8 a2 = 1,44 m1 = 6,06 m2 = 1,77 GEV ξ = –0,1021 σ = 5,50 μ = 11,57 G α = 5,26 β = 2,71 52 M. Goc WNIOSKI Z przeprowadzonych w pracy rozważań wynika, że oceny statystyk empirycznych -Kołmogowa dla rozkładu typu I Persona we wszystkich przypadkach są niższe od oceny statystyk dla rozkładów wartości ekstremalnych (GEV) oraz gamma (G). Oznacza to, że rozkład ten najlepiej aproksymuje badaną zmienną (a ściślej charakteryzuje się mniejszymi różnicami maksymalnych różnic funkcji gęstości). Otrzymanie dla wszystkich miesięcy rozkładów homogenicznych pozwoli na zbudowanie rozkładów prognoz za pomocą metody polegającej na budowie prognoz parametrów. Prognozy parametrów wyznacza się na podstawie predyktorów opartych na równaniach szeregu czasowego z wahaniami sezonowymi lub modelach Holta-Wintersa. PIŚMIENNICTWO Goc M. 2009. Zastosowanie metod ekonometrycznych w modelowaniu i prognozowaniu rozkładów wybranych zjawisk ekonomicznych. Praca doktorska. Szczecin, AR (maszynopis). Kordos J. 1973 a. Metody analizy i prognozowania rozkładów płac i dochodów ludności. Warszawa, PWE. Kordos J., Stroińska Z. 1973 b. Zastosowanie krzywych Pearsona do badania rozkładów płac i dochodów ludności. Warszawa, GUS. Kotz S., Nadarajah S. 2001. Extreme value distributions. Theory and applications. London, Imperial College Press. Johnson N.L., Kotz S., Balakrishnan N. 1994. Continuous Univariate Distributions, vol. 1. New York, Wiley. Rose C., Smith M.D. 2002. Mathematical Statistics with Mathematica. New York, Springer. Stuart A., Ord K. 1994. Kendall’s advanced theory of statistics, vol. I. Distribution theory. New York, Hodder Arnold.