pełny tekst
Transkrypt
pełny tekst
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Folia Univ. Agric. Stetin. 2007, Oeconomica 256 (48), 145–152 Aneta JAROSIŃSKA WYKORZYSTANIE MODELI HIERARCHICZNYCH DO PROGNOZOWANIA BRAKUJĄCYCH DANYCH NA PRZYKŁADZIE PRODUKCJI NAWOZÓW AZOTOWYCH USING OF HIERARCHICAL MODELS TO FORECASTING DATA GAPS FOR EXAMPLE THE PRODUCTION OF NITROGENOUS FERTILIZERS Katedra Zastosowań Matematyki, Akademia Rolnicza ul. Monte Cassino 16, 70-466 Szczecin Abstract. The papers use hierarchical models of time series to built forecasts the production of nitrogenous fertilizers on the basis data with systematic gaps for the years 2000 – 2004. It studied variable was put here the results of estimation of size production, estimate ex post and ex ante forecasts with average relative mistakes together with for two variants gaps. On the graphs 3. and 4. were introduced interpolative forecasts for variant II as well and extrapolative forecasts for the best models both variants. The conclusions were extended also what to usefulness of hierarchic models to forecasting the gaps in data. Słowa kluczowe: błędy prognoz, luki w danych, modelowanie, modele hierarchiczne, prognozowanie. Key words: forecasting, forecasting error, gaps in data, hierarchical models, modelling. WSTĘP Praca poświęcona jest zastosowaniu hierarchicznych modeli szeregu czasowego do budowy prognoz produkcji nawozów azotowych na podstawie danych z lukami systematycznymi. Rozpatrywane były dwa rodzaje luk w danych. Wyniki estymacji oszacowanych równań oraz wyniki prognozowania inter- i ekstrapolacyjnego zestawione zostały tabelarycznie, a część z nich także w formie graficznej. Celem niniejszego artykułu jest ocena przydatności modeli hierarchicznych do prognozowania luk w danych. MATERIAŁ I METODY Podstawową zaletą modeli hierarchicznych jest to, że wymagają szacowania znacznie mniejszej liczby parametrów w porównaniu z modelami klasycznymi, co prowadzi do zwiększenia liczby stopni swobody. Maksymalna liczba parametrów, opisujących wahania sezonowe w modelach hierarchicznych, jest równa połowie długości cyklu tych wahań (w modelach niehierarchicznych jest ona pomniejszoną o jeden długością tego cyklu). Liczba hierarchicznych modeli uporządkowanych zależy od długości m cyklu wahań okresowych. Jest ona równa liczbie permutacji i permutacji z powtórzeniami podzielników pi długości tego okresu. Podzielniki te spełniają dwa warunki (Zastosowanie hierarchicznych modeli... 2003): 146 A. Jarosińska 2 ≤ pi ≤ r ∏p i =1 i m , 2 i = 1, ..., r (1) =m (2) W przypadku, gdy długość okresu wahań wynosi 12 miesięcy (m = 12) liczba permutacji i permutacji z powtórzeniami równa jest siedem. Oznacza to, że dla szeregów miesięcznych bez luk w danych należy szacować siedem modeli hierarchicznych, w tym cztery dwustopniowe i trzy trójstopniowe. Zapisy analityczne tych modeli można znaleźć w pracy Zastosowanie hierarchicznych modeli... (2003). Specyfikację modeli wraz z macierzami opisującymi poszczególne czynniki przedstawiono w tab. 1. Ze względu na warunek sumowalności do zera parametrów każdego z czynników odpowiednie macierze zawierają o jedną składową mniej. Tabela 1. Specyfikacja modeli hierarchicznych dla danych miesięcznych macierz Liczba szacowanych parametrów – – 6 MCZ1– –MCZ3 – – 5 miesiąc w kwartale MK1, MK2 – – 5 D1–D5 miesiąc w okresie dwumiesięcznym MD – – 6 PR kwartał w półroczu KP MK1, MK2 4 MD 4 MD 4 Czynnik pierwszy Model H26 H34 H43 H62 H223 rodzaj zmienności półrocze w roku okres czterech miesięcy w roku kwartał w roku okres dwóch miesięcy w roku półrocze w roku Czynnik drugi Czynnik trzeci macierz rodzaj zmienności macierz PR miesiąc w półroczu MP1–MP5 CZ1, CZ2 miesiąc w okresie czteromiesięcznym K1–K3 H232 półrocze w roku PR okres dwóch miesięcy w półroczu PD1, PD2 H322 okres czterech miesięcy w roku CZ1, CZ2 dwa miesiące w okresie czteromiesięcznym MDCZ rodzaj zmienności miesiąc w kwartale miesiąc w okresie dwumiesięcznym miesiąc w okresie dwumiesięcznym Źródło: opracowanie własne na podstawie: Zastosowanie hierarchicznych modeli... (2003). Informacje zawarte w tab. 1 zostaną wykorzystane w dalszej części pracy w trakcie prezentacji wyników estymacji równań oszacowanych na podstawie pełnego szeregu i szeregów z lukami. Szacowane będą wyłącznie modele zawierające luki systematyczne – mamy z nimi do czynienia wówczas, gdy braki w danych występują w przynajmniej jednym całym podokresie. Natomiast w przypadku, gdy dysponowalibyśmy przynajmniej jedną obserwacją dla każdego okresu, byłyby to luki niesystematyczne. Rozpatrywane będą dwa warianty luk w danych. Luki te występować będą kolejno w miesiącach nieparzystych oraz parzystych; dostępnych będzie połowa z 60 obserwacji występujących w pełnym szeregu. Luki powstaną w wyniku „wykasowania” danych pełnego szeregu. Dla rozpatrywanej zmiennej oszacowane zostały hierarchiczne modele trendu liniowego ze stałą sezonowością. Wykorzystanie modeli hierarchicznych do prognozowania... 147 Proces modelowania predyktywnego w przypadku szeregów z lukami systematycznymi jest bardziej skomplikowany niż w przypadku występowania w szeregu luk niesystematycznych, gdzie składowe należące do różnych czynników mogą być skorelowane. Występowaniu luk systematycznych mogą towarzyszyć następujące zjawiska: 1) skorelowane są składowe należące do różnych czynników, 2) oceny współczynników korelacji mogą być równe ±1, 3) niektóre składowe są stałe, 4) wystąpi zjawisko polegające na tym, że niektóre składowe będą kombinacjami liniowymi innych składowych (należących do tych samych albo różnych czynników). Sytuacja opisana w punkcie (1) będzie występować zawsze. Natomiast pozostałe mogą, ale nie muszą mieć miejsca. Wyżej opisana sytuacja zależeć będzie od liczby i rozmieszczenia luk w danych. Na podstawie predykatorów opartych na modelach hierarchicznych w warunkach braku pełnej informacji wyznacza się dwa rodzaje prognoz – inter- i ekstrapolacyjne. Prognozy interpolacyjne dotyczą tych podokresów przedziału czasowego „próby”, dla których wystąpiły luki w danych, natomiast prognozy wybiegające poza ten okres będą prognozami ekstrapolacyjnymi (Zastosowanie hierarchicznych modeli... 2003). WYNIKI I DYSKUSJA Przykład empiryczny dotyczy wielkości produkcji nawozów azotowych (w tys. ton) w latach 2000–2004; rok 2005 będzie okresem weryfikacji prognoz (dane statystyczne zaczerpnięte zostały z Biuletynów Statystycznych GUS (2001, 2002, 2003, 2005). Na rysunku 1 przedstawiono kształtowanie się badanej zmiennej w poszczególnych latach. 170 Wielkość produkcji [tys. t] Wielkość produkcji [tys. ton] 150 130 110 90 70 50 1 5 9 13 17 21 25 29 33 37 41 45 Miesiące 49 53 57 Miesiące Rys. 1. Kształtowanie się produkcji nawozów azotowych w latach 2000 – 2004 wg miesięcy Rysunek 2 przedstawia oceny wskaźników sezonowości otrzymane dla badanej zmiennej – maksima sezonowe produkcji dla nawozów azotowych przypadają na marzec i kwiecień. Wartości powyżej 100 przyjmują wskaźniki także w pozostałych miesiącach roku, z wyjątkiem miesięcy od czerwca do września włącznie (na lipiec przypada minimum sezonowe). Amplituda wskaźników sezonowości jest dość wysoka i wynosi 49,8 punktu procentowego. 148 A. Jarosińska 125 Wartość wskaźnika [%][%] Wartość wskaźnika 115 105 95 85 75 65 1 2 3 4 5 6 7 8 9 10 11 Miesiące 12 Miesiące Rys. 2. Oceny wskaźników sezonowości produkcji nawozów azotowych W tabeli 2 zamieszczono wyniki modelowania predyktywnego (oceny parametrów struktury stochastycznej) dla pełnego szeregu oraz dla dwóch wariantów luk. Ze względu na występowanie kombinacji liniowych składowych model H34 w wariancie I szacowany był w trzech wersjach. Tabela 2. Zestawienie wyników modelowania badanej zmiennej Warianty Bez luk (pełny szereg) Wariant I Wariant II Model Składowe R2 SE VSE DW H26 H34 H43 H62 H223 H232 T, PR T, CZ1, CZ2 T, K1, K3 T, D1, D2, D3, D4 T, PR T, PR 0,265 0,561 0,506 0,599 0,265 0,265 21,09 16,30 17,29 15,58 21,09 21,09 17,79 13,75 14,58 13,14 17,79 17,79 0,80 1,41 1,25 1,51 0,80 0,80 H322 T, CZ1, CZ2 0,561 16,30 13,75 1,41 H26 T 0,285 20,69 17,45 1,51 H341 T, CZ1, CZ2, MCZ1 0,807 10,75 9,07 1,63 H342 T, CZ1, CZ2, MCZ2 0,807 10,75 9,07 1,63 H343 T, CZ1, CZ2, MCZ3 0,807 10,75 9,07 1,63 H43 T, K3, MK2 0,481 17,61 14,85 1,96 H62 T, D1, D2, D3, D4 0,809 10,69 9,02 1,58 H223 T 0,285 20,69 17,45 1,51 H232 T 0,285 20,69 17,45 1,51 H322 T, CZ1, CZ2, MDCZ 0,807 10,75 9,07 1,63 H26 H34 H43 H62 H223 H232 T, PR T, CZ1, CZ2 T, K1, K3, MK1 T, D2, D4 T, PR T, PR 0,371 0,414 0,597 0,504 0,371 0,371 19,96 19,27 15,98 17,73 19,96 19,96 16,84 16,25 13,48 14,95 16,84 16,84 1,73 1,95 1,70 1,74 1,73 1,73 H322 T, CZ1, CZ2 0,414 19,27 16,25 1,95 Wykorzystanie modeli hierarchicznych do prognozowania... 149 Z tabeli 2 wynika, iż modele szacowane na postawie pełnych szeregów czasowych charakteryzują się najsłabszymi ocenami parametrów struktury stochastycznej. Współczynniki determinacji dla poszczególnych modeli są najniższe, w porównaniu z ocenami tego parametru dla dwóch następnych wariantów. Tylko w trzech przypadkach, dla modeli H26 oraz powiązanych z nim H223 i H232, występuje autokorelacja składnika losowego (statystyka Durbina-Watsona kształtuje się poniżej jedności). Najlepszymi własnościami predyktywnymi charakteryzuje się model H62, w skład którego wchodzą pierwsze cztery składniki należące do pierwszego czynnika. Na podstawie szeregów z lukami w miesiącach nieparzystych oszacowanych zostało 9 modeli (w tym dwie dodatkowe wersje modelu H34 różniące się kombinacjami składowych drugiego czynnika). Należy zauważyć, że poszczególne wersje tego modelu (różniące się zestawem składowych) mają identyczne oceny własności predyktywnych, różnić się jednak będą dokładnością prognoz inter- i ekstrapolacyjnych. Współczynniki determinacji dla tych modeli oraz dla modelu H322 kształtują się na niższym o 0,2 punktu procentowego poziomie niż wartość tego parametru dla najlepszego modelu (80,9%). Oceny odchyleń standardowych składników losowych dla modeli o najwyższych współczynnikach determinacji są o połowę niższe od ocen dla modeli o gorszych właściwościach predykcyjnych. Oceny tych parametrów dla wszystkich modeli mieszczą się w przedziale od 10,69 do 20,69. Oceny parametrów struktury stochastycznej modeli, które otrzymano w wariancie II, wykazują znacznie mniejsze zróżnicowanie w porównaniu z modelami szacowanymi na podstawie pełnego szeregu. Najwyższą oceną współczynnika determinacji charakteryzuje się model H43. Modelowi temu odpowiada także najniższa ocena odchylenia standardowego składnika losowego. Oceny te dla pozostałych modeli mieszczą się w przedziale od 17,73 (dla modelu H62) do 19,96 (dla modeli H26, H223, H232). W tabeli 3 zestawione zostały oceny średnich względnych błędów prognoz ekstrapolacyjnych (dla pełnych danych) oraz inter- i ekstrapolacyjnych dla dwóch rozpatrywanych wariantów luk. Tabela 3. Kształtowanie się średnich względnych błędów inter- i ekstrapolacyjnych Średnie względne błędy prognoz [%] Model interpolacyjnych dla wariantu I dla wariantu II H26 18,34 17,73 H341 16,60 H342 14,34 ekstrapolacyjnych dla wariantu I dla wariantu II dla pełnego szeregu 7,79 10,41 8,25 8,41 7,25 8,82 6,99 6,77 11,64 6,93 H343 16,52 H43 20,97 15,82 5,89 9,61 H62 14,10 14,00 7,77 7,14 6,12 H223 18,34 17,73 7,79 10,41 8,25 H232 18,34 17,73 7,79 10,41 8,25 H322 14,26 11,64 8,04 8,41 7,25 Maks. 20,97 17,73 9,61 10,41 8,25 Min. 14,10 11,64 5,89 7,14 6,12 6,87 6,09 3,72 3,28 2,13 Maks. – min. 150 A. Jarosińska Z informacji zawartych w tab. 3 wynika, że oceny błędów prognoz ekstrapolacyjnych, otrzymanych na podstawie predyktorów dla pełnych danych oraz dla dwóch wariantów luk badanej zmiennej, charakteryzują się bardzo małym zróżnicowaniem. Najwyższe oceny średnich względnych błędów prognoz otrzymano dla predykatorów o stosunkowo małych wartościach współczynników determinacji: H26, H223 i H232 (oceny parametrów struktury stochastycznej tych modeli były identyczne). Najniższą ocenę otrzymano na podstawie predyktorów charakteryzujących się względnie niskimi ocenami odchyleń standardowych składników losowych, opartych na modelu H62. Z tabeli 3 wynika również, iż dla trzech oszacowanych wariantów modelu H34, dla którego parametry struktury stochastycznej były identyczne, średnie względne błędy prognoz wyraźnie się różnią (najniższą ocenę ma wariant drugi tego modelu). W przypadku błędów interpolacyjnych efektywność najlepszego predyktora (dla luk w danych) – H343 jest o kilka punktów procentowych niższa od efektywności predyktora opartego na modelu H62 dla pełnych danych. Większe zróżnicowanie ocen średnich błędów prognoz występuje w przypadku modelowania na podstawie danych z wariantu I (o 0,78 punktu procentowego). Na rysunkach 3 i 4 przedstawiono w sposób graficzny wyniki prognozowania interpolacyjnego (dla wariantu II) i ekstrapolacyjnego produkcji nawozów azotowych dla modeli charakteryzujących się najniższymi ocenami średnich błędów prognoz. Najlepsze prognozy produkcji nawozów azotowych otrzymano na podstawie predyktora H343_W1, co potwierdza rys. 4. 170 Wielkośćprodukcji produkcji [tys. Wielkość [tys. t] ton] 150 130 110 90 70 50 1 3 5 7 9 11 13 15 Miesiące 17 19 21 23 25 27 29 Miesiące Rys. 3. Kształtowanie się prognoz interpolacyjnych badanej zmiennej (wariant II) H26 H34 H43 H62 X Wykorzystanie modeli hierarchicznych do prognozowania... 151 170 Wielkośćprodukcji produkcji[tys. [tys.t]ton] Wielkość 160 150 140 130 120 110 H343_W1 100 H62_W2 61 62 63 64 65 66 67 68 69 70 Miesiące 71 72 X Miesiące Rys. 4. Kształtowanie się prognoz ekstrapolacyjnych badanej zmiennej PODSUMOWANIE Z przeprowadzonych badań wynika, że brak połowy informacji tylko w niewielkim stopniu wpłynął na dokładność prognoz ekstrapolacyjnych. Większe natomiast błędy otrzymano w przypadku prognoz interpolacyjnych. Głównym kryterium wyboru modelu na potrzeby prognozowania ex ante powinna być analiza ex post dokładności prognoz inter- i ekstrapolacyjnych, nie zaś oceny współczynników determinacji i odchyleń standardowych składników losowych. Podsumowując, hierarchiczne modele szeregu czasowego dla danych sezonowych z powodzeniem mogą być wykorzystywane do prognozowania innych zmiennych ekonomicznych w warunkach braku pełnej informacji. PIŚMIENNICTWO Biuletyn Statystyczny GUS. 2001 (2), 2002 (5), 2003 (7), 2005 (2). Zastosowanie hierarchicznych modeli szeregów czasowych w prognozowaniu zmiennych ekonomicznych z wahaniami sezonowymi. 2003. Red. J. Zawadzki. Wydaw. AR, Szczecin.