Modelowanie rozkładów stopy bezrobocia za pomocą krzywych

Transkrypt

Modelowanie rozkładów stopy bezrobocia za pomocą krzywych
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS
Folia Pomer. Univ. Technol. Stetin. 2010, Oeconomica 280 (59), 45–52
Mateusz Goc
MODELOWANIE ROZKŁADÓW STOPY BEZROBOCIA
ZA POMOCĄ KRZYWYCH PEARSONA
MODELLING THE DISTRIBUTION OF THE UNEMPLOYMENT
RATES USING PEARSON FAMILY DISTRIBUTIONS
Katedra Zastosowań Matematyki w Ekonomii, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie
ul. Klemensa Janickiego 31, 71-270 Szczecin
Abstract. The papers present a trial of use of the Pearson family distributions in modeling the
monthly distributions of the unemployment rates by the regions in 2004-2007 period. Results
of fitting the Pearson distributions were compared with approximants given by Generaized
Extreme Value distribution and Gamma distribution. In many cases Pearson distributions were
better fitted than "classical" distributions.
Słowa kluczowe: bezrobocie, modelowanie rozkładów, system krzywych Pearsona.
Key words: distribution modeling, Pearson family distributions.
WSTĘP
W modelowaniu rozkładów empirycznych zmiennych ekonomicznych dominuje podejście
polegające na ich aproksymowaniu za pomocą określonej klasy rozkładów teoretycznych
zmiennej losowej ciągłej charakteryzujących się np. prawostronną asymetrią. Alternatywne
podejście polega na wykorzystaniu do tego celu systemu krzywych Pearsona obejmujących
XII typów rozkładów.
Dorobek publikacyjny poświęcony zastosowaniu tego systemu krzywych w modelowaniu
i prognozowaniu rozkładów empirycznych jest stosunkowo ubogi. Najobszerniejszą w tym zakresie pracę, poświęconą modelowaniu rozkładów płac, opublikowali Kordos i Stroińska (1973 b).
Celem pracy jest sprawdzenie przydatności krzywych Pearsona w modelowaniu rozkładów na przykładzie miesięcznych rozkładów empirycznych stopy bezrobocia według miast
i powiatów w latach 2004–2007.
MATERIAŁ I METODY
Pod koniec XIX wieku Karl Pearson opracował system rozkładów zmiennej losowej, który
został wyprowadzony z równania różniczkowego o postaci (Rose i Smith 2002):
dp( x)
ax

p ( x)
dx
c o  c1 x  c 2 x 2
(1)
Kształt krzywej zależy od czterech parametrów a, c0, c1, c2, które mogą być wyrażone
w zależności od pierwszych czterech momentów rozkładu. Pearson uzyskał w ten sposób
12 typów rozkładów, jednak najszersze praktyczne zastosowanie mają typy I–VII.
46
M. Goc
Przyporządkowanie krzywej rozkładu do odpowiedniego typu zależy od wartości współczynnika κ, który jest wyrażony wzorem (Stuart i Ord 1994):

1 (  2  3) 2
4( 4  2  3)( 2  2  31  6)
(2)
gdzie:
 32
 1  3 – kwadrat współczynnika skośności,
2

 2  42 – współczynnik kurtozy,
2
 i – momenty centralne i-tego rzędu.
W zależności od wartości parametru κ Pearsona wyznaczył trzy typy podstawowe oraz
cztery typy przechodnie. Do typów podstawowych zaliczamy (Kordos 1973 a):
– typ I, gdy κ < 0,
– typ IV, gdy 0 < κ < 1,
– typ VI, gdy κ > 1.
Typy przechodnie to:
– typ II, gdy κ = 0,
– typ III, gdy    (w praktyce stosuje się, gdy   4 ),
– typ V, gdy κ = 1,
– typ VII, gdy κ = 0.
Jeśli oba pierwiastki trójmianu są rzeczywiste i mają różne znaki, to otrzymuje się typ I
rozkładu Pearsona. Oznaczając pierwiastki jako a1 i a2 ( a1  0  a 2 ), otrzymujemy funkcję
gęstości o postaci:
f ( x )  K ( x  a1 ) m1 (a 2  x ) m2 , a1  x  a 2
(3)
gdzie:
m1 
a  a1
a  a2
oraz m2  
.
c 2 a 2  a1 
c 2 a 2  a1 
Jeżeli oba wykładniki potęg są ujemne, to rozkład jest U-kształtny, natomiast jeśli jedna
z potęg jest ujemna, a druga dodatnia – rozkład jest J-kształtny. Typ ten jest ogólną postacią rozkładu beta.
Typ II jest szczególnym przypadkiem rozkładu typu I, dla którego m1 = m2, a pomiędzy
pierwiastkami zachodzi zależność a1   a 2 . Rozkład tego typu jest symetryczny, a jego
funkcja gęstości ma postać:
2
2
1
f ( x)  K ( x  a )

1
2 c2
,  a1  x  a1
Szczególnym przypadkiem tego typu dla
(4)
1
 0 jest rozkład prostokątny.
2c 2
W sytuacji, gdy c 2  0 (oraz c1  0 ), otrzymuje się typ III rozkładu systemu Pearsona,
którego funkcję gęstości można zapisać w postaci:
Modelowanie rozkładów stopy bezrobocia...
 x
c
c
m
 , x   0 dla c1  0 oraz x   0 dla c1  0
f ( x )  K c 0  c1 x  exp
c1
c1
 c1 
47
(5)
gdzie:
m

1  c0
  a  .
c1  c1

Szczególnymi przypadkami rozkładów tego typu są rozkłady gamma i χ2.
Typ IV rozkładu systemu Pearsona otrzymujemy, gdy trójmian kwadratowy
co  c1 x  c2 x 2 nie ma rzeczywistych pierwiastków. Jego funkcja gęstości wyraża się wzorem:
c1  2c 2 x

 (c1  2ac 2 )arctg (
4c 0 c 2  c12

f ( x )  K exp

c 2 4c 0 c 2  c12



)
1
 (c  x(c  c x ))  2c2 ,    x  
1
2
 0


(6)
Gdy trójmian co  c1 x  c2 x 2 ma tylko jeden pierwiastek, otrzymujemy typ V o funkcji
gęstości:
f ( x)  Ke
2 ac 2  c1
c2 ( c1  2 c2 x )

(c1  2c 2 x)
1
c2
, x0
(7)
Szczególnymi przypadkami rozkładów tego typu jest rozkład normalny odwrotny.
Gdy pierwiastki trójmianu są rzeczywiste i mają ten sam znak, otrzymuje się typ VI rozkładu. Jego funkcja gęstości ma postać:
f ( x )  K ( x  a1 ) m1 ( x  a 2 ) m2 , x  a 2 dla a1  a 2  0 oraz x  a1 dla a 2  a1  0
(8)
Szczególnym przypadkiem rozkładu typu VI jest rozkład typu VII. Jest to rozkład symetryczny; otrzymuje się go, gdy c1  a  0 dla c0  0 ; jego funkcja gęstości wyrażona jest
wzorem:
2
f ( x )  K ( c0  c 2 x )

1
2 c2
,   x  
(9)
Szczególnym przypadkiem tej krzywej jest rozkład t-Studenta.
Aproksymanty uzyskane na podstawie krzywych Pearsona zostaną porównane z aproksymantami uzyskanymi na podstawie uogólnionego rozkładu wartości ekstremalnych (GEV)
oraz rozkładu gamma (G). Przydatność powyższych funkcji w modelowaniu rozkładów stopy
bezrobocia została udowodniona m.in. w pracy Goca (2009). Funkcja gęstości uogólnionego
rozkładu wartości ekstremalnych wyrażona jest wzorem (10) – Kotz i Nadarajah (2001):



1
1
 1
 
  x   
dla   0

1 


 
 x    

 1    x    
exp  1   
  

 
  
   
 
(10)
f ( x)  






x


dla


0



1

 x
 x   
  x  
dla   0
 exp  exp 

 exp 
 
  




48
M. Goc
Natomiast funkcję rozkładu gamma opisuje wzór (11) – Johnson i in. (1994):
 x
x  1
 , x  0
f ( x)  
exp
  ( )
  
(11)
Do testowania zgodności rozkładów empirycznych wykorzystano test λ-Kołmogorowa
oraz test zgodności χ2.
WYNIKI I DYSKUSJA
W pracy dokonano aproksymacji miesięcznych rozkładów stopy bezrobocia według
miast i powiatów w latach 2004–2007.
W pierwszym etapie badań, w celu przyporządkowania rozkładów empirycznych do konkretnego typu krzywej, dla każdego miesiąca zostały obliczone współczynniki κ oraz β1 i β2.
Wyniki obliczeń zawiera tab. 1.
Po przeprowadzeniu obliczeń okazało się, że we wszystkich badanych miesiącach rozkłady stopy bezrobocia według miast i powiatów powinny być aproksymowane za pomocą
krzywej I typu.
W kolejnym etapie dokonano modelowania rozkładów empirycznych za pomocą I typu
pearsonowskiego (PEARSON I). Uzyskane wyniki porównano z aproksymantami uzyskanymi na podstawie rozkładów uogólnionego wartości ekstremalnych (GEV) oraz gamma
(G). Dla poziomu istotności   0,05 wartości krytyczne testów:   1,36 oraz
2
2
2
χ PEARSON
I  9,49 , χ GEV  11,07 i  G  12,59 . Wyniki zgodności rozkładów empirycznych
teoretycznych zestawiono w tab. 2.
Z przeprowadzonych obliczeń wynika, że w przypadku rozkładu PEARSON I dla wszystkich miesięcy uzyskano najmniejsze wartości statystyk empirycznych λemp. W przypadku
statystki χ
2
emp
miało to miejsce w ponad 35% przypadków. Jedynie w dwóch miesiącach
(w lutym 2006 r. oraz w styczniu 2007 r.) wartości statystyk χ
2
emp
nie potwierdziły zgodności
rozkładów empirycznych i teoretycznych.
Na rysunkach 1 i 2 przedstawiono graficznie wyniki modelowania rozkładów z czerwca
2004 r. oraz z grudnia 2007 r. W tabeli 3 przedstawiono wartości parametrów aproksymowanych funkcji.
Modelowanie rozkładów stopy bezrobocia...
49
Tabela 1. Wyniki przyporządkowania rozkładów stopy bezrobocia do krzywych Pearsona
Rok
2004
2005
2006
2007
Miesiąc
κ
β1
β2
Typ krzywej Pearsona
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
–0,0626
–0,0610
–0,0638
–0,0647
–0,0738
–0,0670
–0,0753
–0,0780
–0,0894
–0,0947
–0,0974
–0,0994
–0,0954
–0,0904
–0,0881
–0,0857
–0,0892
–0,0908
–0,1037
–0,1111
–0,1199
–0,1276
–0,1347
–0,1269
–0,1022
–0,0946
–0,0953
–0,0905
–0,0843
–0,0768
–0,0850
–0,0971
–0,1054
–0,1210
–0,1186
–0,1205
–0,1269
–0,1248
–0,1231
–0,1199
–0,1268
–0,1557
–0,1443
–0,1493
–0,1732
–0,2197
–0,2170
–0,2346
0,1053
0,1037
0,1061
0,1078
0,1208
0,1122
0,1242
0,1291
0,1429
0,1532
0,1574
0,1589
0,1545
0,1482
0,1469
0,1448
0,1523
0,1579
0,1737
0,1815
0,1936
0,2028
0,2080
0,2018
0,1675
0,1587
0,1571
0,1487
0,1420
0,1309
0,1404
0,1587
0,1693
0,1923
0,1916
0,1991
0,1970
0,1935
0,1925
0,1854
0,1974
0,2169
0,2079
0,2122
0,2434
0,2820
0,2786
0,2904
2,5012
2,4925
2,5096
2,5107
2,5407
2,5138
2,5399
2,5437
2,5855
2,5920
2,5980
2,6074
2,5929
2,5762
2,5633
2,5515
2,5540
2,5484
2,5961
2,6230
2,6475
2,6701
2,6957
2,6682
2,6023
2,5749
2,5845
2,5753
2,5496
2,5261
2,5605
2,5920
2,6178
2,6558
2,6443
2,6391
2,6775
2,6734
2,6665
2,6641
2,6762
2,7696
2,7377
2,7514
2,8007
2,9037
2,8990
2,9341
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
50
M. Goc
Tabela 2. Zgodność rozkładów empirycznych stopy bezrobocia z rozkładami PEARSON I, GEV i G
Rozkład
Rok
Miesiąc
PEARSON I
λemp
2004
2005
2006
2007
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
styczeń
luty
marzec
kwiecień
maj
czerwiec
lipiec
sierpień
wrzesień
październik
listopad
grudzień
0,2793
0,2936
0,3106
0,3461
0,5509
0,2158
0,2032
0,1624
0,2293
0,2603
0,2630
0,3236
0,2723
0,3108
0,2961
0,4449
0,2636
0,2559
0,2412
0,2038
0,2511
0,2432
0,2478
0,2866
0,3517
0,6001
0,2995
0,3075
0,2900
0,4382
0,2933
0,2349
0,3275
0,2965
0,3134
0,3451
0,5923
0,3639
0,3672
0,2956
0,2703
0,2566
0,2648
0,3892
0,3185
0,2678
0,5160
0,1992
χ
2
emp
7,54
7,56
7,55
6,07
4,00
2,79
3,03
1,95
2,50
4,75
4,97
7,81
7,25
6,33
7,78
7,75
7,41
4,53
6,06
4,32
4,76
5,25
2,65
5,23
7,77
13,12
8,15
4,90
4,29
3,73
1,65
2,60
3,48
3,56
5,91
6,07
10,40
5,10
8,06
3,89
4,08
2,30
2,10
5,20
4,11
3,43
5,12
3,49
GEV
λemp
0,5145
0,5120
0,5005
0,4666
0,4396
0,5521
0,5079
0,5422
0,4513
0,5007
0,5046
0,5628
0,4840
0,4688
0,5141
0,5420
0,6183
0,5618
0,5696
0,5669
0,6995
0,6350
0,6528
0,7279
0,6403
0,6837
0,6479
0,5544
0,4976
0,5626
0,5716
0,5344
0,5655
0,6674
0,8239
0,6181
0,6144
0,6130
0,6452
0,6385
0,5293
0,5897
0,5476
0,5430
0,5689
0,5215
0,6056
0,5369
G
χ
2
emp
4,23
5,96
6,04
5,20
4,46
5,84
5,33
6,09
1,20
2,02
4,76
4,23
5,42
5,00
4,80
6,32
4,00
5,31
6,67
4,49
5,00
3,40
6,08
6,92
2,77
2,72
3,25
3,71
3,69
2,51
7,56
9,65
4,58
6,37
9,32
5,61
6,96
6,70
6,36
4,54
2,90
4,32
4,37
2,37
3,47
3,49
6,15
4,00
λemp
χ2emp
0,6966
0,6785
0,6576
0,6290
0,5885
0,7367
0,6152
0,5712
0,6078
0,6374
0,6576
0,6917
0,6130
0,6010
0,6605
0,6740
0,7626
0,6991
0,6827
0,6742
0,8048
0,7334
0,7493
0,8200
0,7569
0,7914
0,7777
0,6956
0,6551
0,7404
0,7396
0,6913
0,7373
0,8132
0,9722
0,7626
0,7700
0,7661
0,7986
0,7885
0,7172
0,7524
0,7119
0,7587
0,7398
0,6654
0,7491
0,6619
4,69
6,99
5,38
6,78
3,11
4,86
6,09
4,68
3,37
3,18
5,15
7,65
5,17
3,45
4,52
4,66
3,99
3,77
4,70
6,98
4,27
2,76
6,21
6,94
5,49
3,59
4,09
6,05
4,04
4,35
7,98
6,90
7,68
5,91
6,33
9,20
5,54
6,81
7,25
8,38
7,18
6,23
8,00
7,14
4,27
5,52
4,23
4,60
Modelowanie rozkładów stopy bezrobocia...
PEARSON I
GEV
G
20
Częstości
względne
[%] (%)
Częstości
względne
51
15
10
5
0
8
12
16
21
25
29
33
37
41
45
Stopa
bezrobocia [%]
stopa bezrobocia (%)
Rys. 1. Rozkład empiryczny (histogram) oraz rozkłady teoretyczne stopy bezrobocia w czerwcu 2004 r.
25
PEARSON I
GEV
G
Częstości
względne
[%]
Częstości
względne
(%)
20
15
10
5
0
3
7
10
14
17
21
24
28
31
35
Stopa
stopabezrobocia
bezrobocia[%]
(%)
Rys. 2. Rozkład empiryczny (histogram) oraz rozkłady teoretyczne stopy bezrobocia w grudniu 2007 r.
Tabela 3. Zgodność rozkładów empirycznych stopy bezrobocia z rozkładami PEARSON I, GEV i G
Miesiąc
Czerwiec
2004
Rozkład
Parametry
PEARSON I
K = 2,00x10–7 a1 = 49,22 a2 = 6,78 m1 = 3,02 m2 = 1,41
GEV
ξ = –0,1522 σ = 7,01 μ = 19,56
α = 9,03 β = 2,51
G
PEARSON I
Grudzień
2007
–12
K = 1,54x10
a1 = 46,8 a2 = 1,44 m1 = 6,06 m2 = 1,77
GEV
ξ = –0,1021 σ = 5,50 μ = 11,57
G
α = 5,26 β = 2,71
52
M. Goc
WNIOSKI
Z przeprowadzonych w pracy rozważań wynika, że oceny statystyk empirycznych -Kołmogowa dla rozkładu typu I Persona we wszystkich przypadkach są niższe od oceny statystyk dla rozkładów wartości ekstremalnych (GEV) oraz gamma (G). Oznacza to, że rozkład
ten najlepiej aproksymuje badaną zmienną (a ściślej charakteryzuje się mniejszymi różnicami maksymalnych różnic funkcji gęstości). Otrzymanie dla wszystkich miesięcy rozkładów
homogenicznych pozwoli na zbudowanie rozkładów prognoz za pomocą metody polegającej na budowie prognoz parametrów. Prognozy parametrów wyznacza się na podstawie
predyktorów opartych na równaniach szeregu czasowego z wahaniami sezonowymi lub modelach Holta-Wintersa.
PIŚMIENNICTWO
Goc M. 2009. Zastosowanie metod ekonometrycznych w modelowaniu i prognozowaniu rozkładów
wybranych zjawisk ekonomicznych. Praca doktorska. Szczecin, AR (maszynopis).
Kordos J. 1973 a. Metody analizy i prognozowania rozkładów płac i dochodów ludności. Warszawa,
PWE.
Kordos J., Stroińska Z. 1973 b. Zastosowanie krzywych Pearsona do badania rozkładów płac
i dochodów ludności. Warszawa, GUS.
Kotz S., Nadarajah S. 2001. Extreme value distributions. Theory and applications. London, Imperial
College Press.
Johnson N.L., Kotz S., Balakrishnan N. 1994. Continuous Univariate Distributions, vol. 1. New
York, Wiley.
Rose C., Smith M.D. 2002. Mathematical Statistics with Mathematica. New York, Springer.
Stuart A., Ord K. 1994. Kendall’s advanced theory of statistics, vol. I. Distribution theory. New York,
Hodder Arnold.