pełny tekst

Transkrypt

pełny tekst
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS
Folia Univ. Agric. Stetin. 2007, Oeconomica 256 (48), 145–152
Aneta JAROSIŃSKA
WYKORZYSTANIE MODELI HIERARCHICZNYCH DO PROGNOZOWANIA
BRAKUJĄCYCH DANYCH NA PRZYKŁADZIE PRODUKCJI
NAWOZÓW AZOTOWYCH
USING OF HIERARCHICAL MODELS TO FORECASTING DATA
GAPS FOR EXAMPLE THE PRODUCTION OF NITROGENOUS FERTILIZERS
Katedra Zastosowań Matematyki, Akademia Rolnicza
ul. Monte Cassino 16, 70-466 Szczecin
Abstract. The papers use hierarchical models of time series to built forecasts the production of
nitrogenous fertilizers on the basis data with systematic gaps for the years 2000 – 2004. It studied variable was put here the results of estimation of size production, estimate ex post and ex
ante forecasts with average relative mistakes together with for two variants gaps. On the
graphs 3. and 4. were introduced interpolative forecasts for variant II as well and extrapolative
forecasts for the best models both variants. The conclusions were extended also what to usefulness of hierarchic models to forecasting the gaps in data.
Słowa kluczowe: błędy prognoz, luki w danych, modelowanie, modele hierarchiczne, prognozowanie.
Key words: forecasting, forecasting error, gaps in data, hierarchical models, modelling.
WSTĘP
Praca poświęcona jest zastosowaniu hierarchicznych modeli szeregu czasowego
do budowy prognoz produkcji nawozów azotowych na podstawie danych z lukami systematycznymi. Rozpatrywane były dwa rodzaje luk w danych. Wyniki estymacji oszacowanych
równań oraz wyniki prognozowania inter- i ekstrapolacyjnego zestawione zostały tabelarycznie, a część z nich także w formie graficznej.
Celem niniejszego artykułu jest ocena przydatności modeli hierarchicznych do prognozowania luk w danych.
MATERIAŁ I METODY
Podstawową zaletą modeli hierarchicznych jest to, że wymagają szacowania znacznie
mniejszej liczby parametrów w porównaniu z modelami klasycznymi, co prowadzi
do zwiększenia liczby stopni swobody. Maksymalna liczba parametrów, opisujących wahania sezonowe w modelach hierarchicznych, jest równa połowie długości cyklu tych wahań
(w modelach niehierarchicznych jest ona pomniejszoną o jeden długością tego cyklu).
Liczba hierarchicznych modeli uporządkowanych zależy od długości m cyklu wahań
okresowych. Jest ona równa liczbie permutacji i permutacji z powtórzeniami podzielników pi
długości tego okresu. Podzielniki te spełniają dwa warunki (Zastosowanie hierarchicznych
modeli... 2003):
146
A. Jarosińska
2 ≤ pi ≤
r
∏p
i =1
i
m
,
2
i = 1, ..., r
(1)
=m
(2)
W przypadku, gdy długość okresu wahań wynosi 12 miesięcy (m = 12) liczba permutacji
i permutacji z powtórzeniami równa jest siedem. Oznacza to, że dla szeregów miesięcznych bez luk w danych należy szacować siedem modeli hierarchicznych, w tym cztery
dwustopniowe i trzy trójstopniowe. Zapisy analityczne tych modeli można znaleźć w pracy
Zastosowanie hierarchicznych modeli... (2003).
Specyfikację modeli wraz z macierzami opisującymi poszczególne czynniki przedstawiono w tab. 1. Ze względu na warunek sumowalności do zera parametrów każdego
z czynników odpowiednie macierze zawierają o jedną składową mniej.
Tabela 1. Specyfikacja modeli hierarchicznych dla danych miesięcznych
macierz
Liczba szacowanych
parametrów
–
–
6
MCZ1–
–MCZ3
–
–
5
miesiąc w kwartale
MK1, MK2
–
–
5
D1–D5
miesiąc w okresie
dwumiesięcznym
MD
–
–
6
PR
kwartał w półroczu
KP
MK1,
MK2
4
MD
4
MD
4
Czynnik pierwszy
Model
H26
H34
H43
H62
H223
rodzaj
zmienności
półrocze
w roku
okres
czterech
miesięcy
w roku
kwartał
w roku
okres
dwóch
miesięcy
w roku
półrocze
w roku
Czynnik drugi
Czynnik trzeci
macierz
rodzaj
zmienności
macierz
PR
miesiąc w półroczu
MP1–MP5
CZ1,
CZ2
miesiąc w okresie
czteromiesięcznym
K1–K3
H232
półrocze
w roku
PR
okres dwóch miesięcy w półroczu
PD1, PD2
H322
okres
czterech
miesięcy
w roku
CZ1,
CZ2
dwa miesiące
w okresie
czteromiesięcznym
MDCZ
rodzaj
zmienności
miesiąc
w kwartale
miesiąc
w okresie dwumiesięcznym
miesiąc
w okresie dwumiesięcznym
Źródło: opracowanie własne na podstawie: Zastosowanie hierarchicznych modeli... (2003).
Informacje zawarte w tab. 1 zostaną wykorzystane w dalszej części pracy w trakcie prezentacji wyników estymacji równań oszacowanych na podstawie pełnego szeregu i szeregów z lukami. Szacowane będą wyłącznie modele zawierające luki systematyczne – mamy
z nimi do czynienia wówczas, gdy braki w danych występują w przynajmniej jednym całym
podokresie. Natomiast w przypadku, gdy dysponowalibyśmy przynajmniej jedną obserwacją dla każdego okresu, byłyby to luki niesystematyczne.
Rozpatrywane będą dwa warianty luk w danych. Luki te występować będą kolejno
w miesiącach nieparzystych oraz parzystych; dostępnych będzie połowa z 60 obserwacji
występujących w pełnym szeregu. Luki powstaną w wyniku „wykasowania” danych pełnego
szeregu. Dla rozpatrywanej zmiennej oszacowane zostały hierarchiczne modele trendu
liniowego ze stałą sezonowością.
Wykorzystanie modeli hierarchicznych do prognozowania...
147
Proces modelowania predyktywnego w przypadku szeregów z lukami systematycznymi
jest bardziej skomplikowany niż w przypadku występowania w szeregu luk niesystematycznych, gdzie składowe należące do różnych czynników mogą być skorelowane. Występowaniu luk systematycznych mogą towarzyszyć następujące zjawiska:
1) skorelowane są składowe należące do różnych czynników,
2) oceny współczynników korelacji mogą być równe ±1,
3) niektóre składowe są stałe,
4) wystąpi zjawisko polegające na tym, że niektóre składowe będą kombinacjami liniowymi
innych składowych (należących do tych samych albo różnych czynników).
Sytuacja opisana w punkcie (1) będzie występować zawsze. Natomiast pozostałe mogą,
ale nie muszą mieć miejsca. Wyżej opisana sytuacja zależeć będzie od liczby i rozmieszczenia luk w danych. Na podstawie predykatorów opartych na modelach hierarchicznych
w warunkach braku pełnej informacji wyznacza się dwa rodzaje prognoz – inter- i ekstrapolacyjne. Prognozy interpolacyjne dotyczą tych podokresów przedziału czasowego „próby”,
dla których wystąpiły luki w danych, natomiast prognozy wybiegające poza ten okres będą
prognozami ekstrapolacyjnymi (Zastosowanie hierarchicznych modeli... 2003).
WYNIKI I DYSKUSJA
Przykład empiryczny dotyczy wielkości produkcji nawozów azotowych (w tys. ton) w latach 2000–2004; rok 2005 będzie okresem weryfikacji prognoz (dane statystyczne zaczerpnięte zostały z Biuletynów Statystycznych GUS (2001, 2002, 2003, 2005). Na rysunku 1 przedstawiono kształtowanie się badanej zmiennej w poszczególnych latach.
170
Wielkość produkcji [tys. t]
Wielkość produkcji [tys. ton]
150
130
110
90
70
50
1
5
9
13
17
21
25
29
33
37
41
45
Miesiące
49
53
57
Miesiące
Rys. 1. Kształtowanie się produkcji nawozów azotowych w latach 2000 – 2004 wg miesięcy
Rysunek 2 przedstawia oceny wskaźników sezonowości otrzymane dla badanej zmiennej – maksima sezonowe produkcji dla nawozów azotowych przypadają na marzec i kwiecień. Wartości powyżej 100 przyjmują wskaźniki także w pozostałych miesiącach roku,
z wyjątkiem miesięcy od czerwca do września włącznie (na lipiec przypada minimum sezonowe).
Amplituda wskaźników sezonowości jest dość wysoka i wynosi 49,8 punktu procentowego.
148
A. Jarosińska
125
Wartość
wskaźnika
[%][%]
Wartość
wskaźnika
115
105
95
85
75
65
1
2
3
4
5
6
7
8
9
10
11
Miesiące
12
Miesiące
Rys. 2. Oceny wskaźników sezonowości produkcji nawozów azotowych
W tabeli 2 zamieszczono wyniki modelowania predyktywnego (oceny parametrów struktury stochastycznej) dla pełnego szeregu oraz dla dwóch wariantów luk. Ze względu
na występowanie kombinacji liniowych składowych model H34 w wariancie I szacowany był
w trzech wersjach.
Tabela 2. Zestawienie wyników modelowania badanej zmiennej
Warianty
Bez luk
(pełny szereg)
Wariant I
Wariant II
Model
Składowe
R2
SE
VSE
DW
H26
H34
H43
H62
H223
H232
T, PR
T, CZ1, CZ2
T, K1, K3
T, D1, D2, D3, D4
T, PR
T, PR
0,265
0,561
0,506
0,599
0,265
0,265
21,09
16,30
17,29
15,58
21,09
21,09
17,79
13,75
14,58
13,14
17,79
17,79
0,80
1,41
1,25
1,51
0,80
0,80
H322
T, CZ1, CZ2
0,561
16,30
13,75
1,41
H26
T
0,285
20,69
17,45
1,51
H341
T, CZ1, CZ2, MCZ1
0,807
10,75
9,07
1,63
H342
T, CZ1, CZ2, MCZ2
0,807
10,75
9,07
1,63
H343
T, CZ1, CZ2, MCZ3
0,807
10,75
9,07
1,63
H43
T, K3, MK2
0,481
17,61
14,85
1,96
H62
T, D1, D2, D3, D4
0,809
10,69
9,02
1,58
H223
T
0,285
20,69
17,45
1,51
H232
T
0,285
20,69
17,45
1,51
H322
T, CZ1, CZ2, MDCZ
0,807
10,75
9,07
1,63
H26
H34
H43
H62
H223
H232
T, PR
T, CZ1, CZ2
T, K1, K3, MK1
T, D2, D4
T, PR
T, PR
0,371
0,414
0,597
0,504
0,371
0,371
19,96
19,27
15,98
17,73
19,96
19,96
16,84
16,25
13,48
14,95
16,84
16,84
1,73
1,95
1,70
1,74
1,73
1,73
H322
T, CZ1, CZ2
0,414
19,27
16,25
1,95
Wykorzystanie modeli hierarchicznych do prognozowania...
149
Z tabeli 2 wynika, iż modele szacowane na postawie pełnych szeregów czasowych charakteryzują się najsłabszymi ocenami parametrów struktury stochastycznej. Współczynniki
determinacji dla poszczególnych modeli są najniższe, w porównaniu z ocenami tego parametru dla dwóch następnych wariantów. Tylko w trzech przypadkach, dla modeli H26
oraz powiązanych z nim H223 i H232, występuje autokorelacja składnika losowego (statystyka Durbina-Watsona kształtuje się poniżej jedności). Najlepszymi własnościami predyktywnymi charakteryzuje się model H62, w skład którego wchodzą pierwsze cztery składniki
należące do pierwszego czynnika.
Na podstawie szeregów z lukami w miesiącach nieparzystych oszacowanych zostało
9 modeli (w tym dwie dodatkowe wersje modelu H34 różniące się kombinacjami składowych drugiego czynnika). Należy zauważyć, że poszczególne wersje tego modelu (różniące się zestawem składowych) mają identyczne oceny własności predyktywnych, różnić się
jednak będą dokładnością prognoz inter- i ekstrapolacyjnych. Współczynniki determinacji
dla tych modeli oraz dla modelu H322 kształtują się na niższym o 0,2 punktu procentowego
poziomie niż wartość tego parametru dla najlepszego modelu (80,9%). Oceny odchyleń standardowych składników losowych dla modeli o najwyższych współczynnikach determinacji
są o połowę niższe od ocen dla modeli o gorszych właściwościach predykcyjnych. Oceny tych
parametrów dla wszystkich modeli mieszczą się w przedziale od 10,69 do 20,69.
Oceny parametrów struktury stochastycznej modeli, które otrzymano w wariancie II, wykazują znacznie mniejsze zróżnicowanie w porównaniu z modelami szacowanymi na podstawie pełnego szeregu. Najwyższą oceną współczynnika determinacji charakteryzuje się
model H43. Modelowi temu odpowiada także najniższa ocena odchylenia standardowego
składnika losowego. Oceny te dla pozostałych modeli mieszczą się w przedziale od 17,73
(dla modelu H62) do 19,96 (dla modeli H26, H223, H232).
W tabeli 3 zestawione zostały oceny średnich względnych błędów prognoz ekstrapolacyjnych (dla pełnych danych) oraz inter- i ekstrapolacyjnych dla dwóch rozpatrywanych wariantów luk.
Tabela 3. Kształtowanie się średnich względnych błędów inter- i ekstrapolacyjnych
Średnie względne błędy prognoz [%]
Model
interpolacyjnych
dla wariantu I
dla
wariantu II
H26
18,34
17,73
H341
16,60
H342
14,34
ekstrapolacyjnych
dla wariantu I
dla wariantu II
dla pełnego szeregu
7,79
10,41
8,25
8,41
7,25
8,82
6,99
6,77
11,64
6,93
H343
16,52
H43
20,97
15,82
5,89
9,61
H62
14,10
14,00
7,77
7,14
6,12
H223
18,34
17,73
7,79
10,41
8,25
H232
18,34
17,73
7,79
10,41
8,25
H322
14,26
11,64
8,04
8,41
7,25
Maks.
20,97
17,73
9,61
10,41
8,25
Min.
14,10
11,64
5,89
7,14
6,12
6,87
6,09
3,72
3,28
2,13
Maks. – min.
150
A. Jarosińska
Z informacji zawartych w tab. 3 wynika, że oceny błędów prognoz ekstrapolacyjnych,
otrzymanych na podstawie predyktorów dla pełnych danych oraz dla dwóch wariantów luk
badanej zmiennej, charakteryzują się bardzo małym zróżnicowaniem. Najwyższe oceny
średnich względnych błędów prognoz otrzymano dla predykatorów o stosunkowo małych
wartościach współczynników determinacji: H26, H223 i H232 (oceny parametrów struktury
stochastycznej tych modeli były identyczne). Najniższą ocenę otrzymano na podstawie
predyktorów charakteryzujących się względnie niskimi ocenami odchyleń standardowych
składników losowych, opartych na modelu H62. Z tabeli 3 wynika również, iż dla trzech
oszacowanych wariantów modelu H34, dla którego parametry struktury stochastycznej były
identyczne, średnie względne błędy prognoz wyraźnie się różnią (najniższą ocenę ma wariant drugi tego modelu).
W przypadku błędów interpolacyjnych efektywność najlepszego predyktora (dla luk
w danych) – H343 jest o kilka punktów procentowych niższa od efektywności predyktora
opartego na modelu H62 dla pełnych danych. Większe zróżnicowanie ocen średnich błędów prognoz występuje w przypadku modelowania na podstawie danych z wariantu I
(o 0,78 punktu procentowego).
Na rysunkach 3 i 4 przedstawiono w sposób graficzny wyniki prognozowania interpolacyjnego (dla wariantu II) i ekstrapolacyjnego produkcji nawozów azotowych dla modeli charakteryzujących się najniższymi ocenami średnich błędów prognoz.
Najlepsze prognozy produkcji nawozów azotowych otrzymano na podstawie predyktora
H343_W1, co potwierdza rys. 4.
170
Wielkośćprodukcji
produkcji
[tys.
Wielkość
[tys.
t] ton]
150
130
110
90
70
50
1
3
5
7
9
11
13
15
Miesiące
17
19
21
23
25
27
29
Miesiące
Rys. 3. Kształtowanie się prognoz interpolacyjnych badanej zmiennej (wariant II)
H26
H34
H43
H62
X
Wykorzystanie modeli hierarchicznych do prognozowania...
151
170
Wielkośćprodukcji
produkcji[tys.
[tys.t]ton]
Wielkość
160
150
140
130
120
110
H343_W1
100
H62_W2
61
62
63
64
65
66
67
68
69
70
Miesiące
71
72
X
Miesiące
Rys. 4. Kształtowanie się prognoz ekstrapolacyjnych badanej zmiennej
PODSUMOWANIE
Z przeprowadzonych badań wynika, że brak połowy informacji tylko w niewielkim stopniu wpłynął na dokładność prognoz ekstrapolacyjnych. Większe natomiast błędy otrzymano
w przypadku prognoz interpolacyjnych. Głównym kryterium wyboru modelu na potrzeby
prognozowania ex ante powinna być analiza ex post dokładności prognoz inter- i ekstrapolacyjnych, nie zaś oceny współczynników determinacji i odchyleń standardowych składników losowych.
Podsumowując, hierarchiczne modele szeregu czasowego dla danych sezonowych
z powodzeniem mogą być wykorzystywane do prognozowania innych zmiennych ekonomicznych w warunkach braku pełnej informacji.
PIŚMIENNICTWO
Biuletyn Statystyczny GUS. 2001 (2), 2002 (5), 2003 (7), 2005 (2).
Zastosowanie hierarchicznych modeli szeregów czasowych w prognozowaniu zmiennych ekonomicznych z wahaniami sezonowymi. 2003. Red. J. Zawadzki. Wydaw. AR,
Szczecin.