Zastosowanie danych o różnej częstotliwoœci w prognozowaniu

Transkrypt

Zastosowanie danych o różnej częstotliwoœci w prognozowaniu
Lech Kujawski*
Zastosowanie danych o różnej częstotliwości w prognozowaniu
makroekonomicznym
Wstęp
Dostępność on-line do obszernych baz danych makroekonomicznych rodzi naturalną
chęć wykorzystania zawartych w niej danych. W typowych modelach prognostycznych typu
ARIMA wykorzystuje się pojedynczy szereg czasowy, w modelach VAR z reguły
wykorzystuje się co najwyżej kilka zmiennych. Jedną z technik umożliwiających jednoczesne
korzystanie z informacji pochodzącej z kilkudziesięciu czy nawet kilkuset zmiennych jest
opracowane i spopularyzowane przez J. Stocka, M. Watsona [Stock, Watson, 2002]
modelowanie i prognozowanie za pomocą dynamicznych modeli czynnikowych (DFM).
Możliwość jednoczesnego uwzględnienia znacznej liczby zmiennych (w literaturze notuje się
przypadki jednoczesnego wykorzystania kilkuset zmiennych [Forni i inni, 2005]) jest
niewątpliwe ogromną zaletą modeli klasy DFM, tłumaczącą rosnącą popularność tego typu
modeli, przejawiającą się w rosnącej liczbie publikacji i badań z wykorzystaniem
wspomnianego narzędzia [Artis i inni, 2003; Schneider, Spitzer, 2004; Boivin, Ng, 2006].
Jednakże w każdym z przypadków modele DFM (jak i ARIMA, VAR) konstruowane
i estymowane są na podstawie danych o jednolitej częstotliwości1; w zastosowaniach
makroekonomicznych z reguły miesięcznych lub kwartalnych.
Badacz zajmujący się analizą makroekonomiczną w zasadzie „skazany” jest na
posługiwanie się szeregami czasowymi o niskiej częstotliwości. Do wyjątków zaliczyć należy
próby szacowania np. produktu krajowego brutto o częstotliwościach szeregów PKB
wyższych niż roczne czy kwartalne [Chow, Lin, 1971] lub modelowania kwartalnego PKB
przy użyciu danych o wyższych częstotliwościach [Miller, Chin, 1996; Marcellino i inni,
2006].
Szacowanie
PKB
(również
innych
zmiennych
makroekonomicznych)
o częstotliwościach wyższych niż kwartalne można zaliczyć do technik interpolacji, nie będą
one przedmiotem zainteresowania w niniejszej publikacji. Uwaga zostanie skupiona na
rodzaju regresji, w której zmienna objaśniana obserwowalna jest w postaci szeregu
czasowego niskiej częstotliwości (kwartalnej), natomiast regresory dostępne są,
i bezpośrednio w regresji wykorzystane, zarówno w postaci szeregów danych kwartalnych,
jak i danych o częstotliwości wyższej, miesięcznej.
Jednym z narzędzi ekonometrycznych pozwalającym łączyć w jednym modelu dane
o zróżnicowanej częstotliwości jest regresja oznaczona skrótem MIDAS (Mixed Data
Sampling) [Ghysels i inni, 2004 a; 2004 b]. W zastosowaniach makroekonomicznych i
dodatkowo prognostycznych jednoczesne użycie w modelu zmiennych niskiej i wysokiej
częstotliwości niesie ze sobą przynajmniej dwie korzyści w porównaniu do modeli
tradycyjnych: 1) brak utraty informacji spowodowanej agregacją zmiennych o częstotliwości
Dr, Katedra Ekonometrii, Wydział Zarządzania, Uniwersytet Gdański,
[email protected]
1 [Stock, Watson, 2002, 2005] do modelowania np. kwartalnego PKB używają zmiennych o częstotliwości
miesięcznej, jednakże zmienne miesięczne, przed wprowadzeniem do modelu, poddawane są procedurom
agregacji do częstotliwości kwartalnej.
*
wysokiej; 2) możliwość śródokresowej korekty prognozy wraz z napływem informacji
pochodzącej z szeregu (szeregów) o częstotliwości wysokiej.
Druga z wymienionych przesłanek wydaje się szczególne atrakcyjna nie tylko w
odniesieniu do zastosowań makroekonomicznych, lecz wszędzie tam, gdzie występują i
znaczenie mają dane o wysokiej i bardzo wysokiej częstotliwości, czyli w praktyce na
rynkach finansowych, z których model MIDAS się [Chen, Ghysels, 2009; Andreou i inni,
2010].
Wymienione zalety regresji MIDAS są na tyle ważne, że celowe wydaje się
empiryczne sprawdzenie jakości prognoz makroekonomicznych uzyskiwanych na
podstawie tychże modeli i porównanie ich z prognozami uzyskiwanymi z „typowych”
modeli (szeregów czasowych) stosowanych w prognozowaniu makroekonomicznym.
Celem publikacji jest empiryczna weryfikacja tezy: bezpośrednie (tj. bez agregacji)
zastosowanie w modelu zmiennych o wysokiej częstotliwości poprawia dopasowanie
prognoz makroekonomicznych.
W celu weryfikacji tezy (na podstawie danych czasu rzeczywistego) oszacowane
zostały modele MIDAS, ARIMA, DFM i VAR produktu krajowego brutto w USA. Następnie
dokonano porównania krótkookresowych prognoz PKB uzyskanych na podstawie
wymienionych modeli. Porównanie jakości prognoz i testowanie ich identyczności pozwoliło
na sformułowanie wniosków odnoszących się do weryfikowanej tezy.
W przypadku regresji MIDAS zaproponowana została ponadto modyfikacja
umożliwiająca – na wzór modeli DFM – jednoczesne wykorzystanie wielu danych z
obszernych baz danych makroekonomicznych. Natomiast dla modeli DFM zaproponowana
została modyfikacja oryginalnej [Stock, Watson, 2002] procedury doboru modelu
prognostycznego.
Artykuł podzielony został na trzy zasadnicze części. Pierwsza część (sposób badania)
zawiera opisy ogólnych modeli MIDAS i DFM, sposobów prognozowania na ich podstawie
oraz wyjaśnia istotę zaproponowanych przez autora modyfikacji. Część druga (dane)
zawiera opis wykorzystanych w badaniu danych czasu rzeczywistego, ponadto przybliża
istotę i sens prognozowania na podstawie danych czasu rzeczywistego. W trzeciej części
(wyniki) przedstawiono wyniki oszacowań modeli i prognoz, porównań jakości tych
ostatnich, oraz sformułowano wnioski odnoszące się do weryfikowanej tezy.
1. Sposób badania
Jak wspomniano we wstępie, badanie (porównanie prognoz) przeprowadzone
zostanie na podstawie prognoz pochodzących z czterech typów modeli. Ponieważ modele
ARIMA i VAR należą do „kanonu” modelowania makroekonomicznego, nie będą
przedmiotem opisu. Z uwagi na fakt niewielkich zmian zaproponowanych przez autora
uwaga zostanie skupiona na modelach klasy MIDAS i DFM.
Podstawowy jednorównaniowy model MIDAS o horyzoncie prognozy h=1 można
zapisać następująco [Clemens, Galvao, 2006]:
yt   0  1 B( L1 / m ;  ) xtm1   tm
(1)
Ls / m xtm1  xtm1s / m
(2)
K
B( L1 / m ;  )   b(k ;  ) L( k 1) / m
k 1
(3)
b( k ;  ) 
exp( 1 k   2 k 2 )
K
 exp(1 k   2 k
2
(4)
)
k 1
Równanie (1) definiuje model MIDAS, w równaniu (2) zdefiniowano operator
opóźnienia zmiennych wysokiej częstotliwości, równanie (3) tłumaczy jak na potrzeby
modelu MIDAS rozumiany jest wielomian skalarny względem operatora opóźnień
zmiennych wysokiej częstotliwości, równanie (4) wskazuje na wykładniczy (zgodny z
metodą S. Almon) schemat zmienności parametrów przy zmiennych wysokiej częstotliwości
z rozłożonymi opóźnieniami.
Ponadto: indeks t jest nazywany indeksem podstawowym, tj. indeksem zmiennych
niskiej częstotliwości (w przypadku niniejszego badania jest to indeks zmiennych
kwartalnych); m jest stałą określającą liczbę obserwacji wysokiej częstotliwości w
podstawowej jednostce czasu niskiej częstotliwości (na potrzeby tego badania m=3, trzy
miesiące w kwartale), nie jest to zatem oznaczenie wykładnika potęgi stopnia m; K
determinuje stopień rozłożonych opóźnień szeregu zmiennej o częstotliwości wysokiej.
Przykładowo, przyjmując m=3 i K=12, model MIDAS można zapisać:
yt   0  1 [b(1;  ) xt31  b(2;  ) xt311 / 3  ...  b(12; ) xt342 / 3 ]   t3 (1a)
Jeśli przyjmie się, że indeks t identyfikuje obserwację, np. z pierwszego kwartału roku 2013
(2013q1), wówczas xt31 jest obserwacją dokonaną na zmiennej o częstotliwości miesięcznej
2012m12, xt311 / 3 jest obserwacją z okresu 2012m11, xt342 / 3 z okresu 2012m01.
Równanie (1) wskazuje postać modelu pozwalającego formułować prognozy przy
założeniu horyzontu prognozy h=1. MIDAS dla ogólnego h (h≠1) zdefiniowany został
następująco:
(5)
yt   0  1 B( L1 / m ; ) xtmh   tm
Równanie (5) wskazuje na sposób formułowania prognoz kwartalnych na podstawie
tylko i wyłącznie opóźnionych w czasie obserwacji miesięcznych. Zdaniem autora
najciekawszą wersją prostego modelu MIDAS jest ta, która pozwala formułować prognozy
kwartalne na podstawie danych miesięcznych dostępnych w tymże kwartale; odpowiedni
model przybiera wówczas postać:
yt   0  1 B( L1 / m ; ) xtm2 / 3   tm
(6)
Horyzont prognozy ustalony jest wówczas na h=2/3, czyli wskazuje na dostępność danych
pochodzących z pierwszego miesiąca danego kwartału2.
W prezentowanym badaniu zaproponowany i użyty został następujący model
MIDAS3:
4
4
i 0
j 0
4
4
y t   0    i B( L1 / m ;  i ) xim,t  2 / 3    i B( L1 / m ;  j ) z mj ,t 1    ig wlg,t  g   tm
(7)
l  0 g 1
W porównaniu do modelu podstawowego pozwala on na: 1) uwzględnienie do
czterech zmiennych (i=0,1,..,4) miesięcznych pochodzących z pierwszego miesiąca danego
kwartału; 2) uwzględnienie do czterech zmiennych miesięcznych (j=0,1,..,4) pochodzących z
okresów poprzedzających; 3) uwzględnienie do czterech opóźnionych zmiennych (l=0,1,..,4)
o częstotliwości kwartalnej, o maksymalnym stopniu opóźnienia wynoszącym 4 (g=1,2,3,4).
Stosując model (7), możliwe jest zatem wykorzystanie danych miesięcznych
odnoszących się do bieżącego kwartału oraz opóźnionych w czasie danych miesięcznych i
2
3
Podobnie h=1/3 wskazuje na dostępność danych pochodzących z dwóch pierwszych miesięcy danego kwartału.
De facto jest to połączenie modelu MIDAS i DL.
kwartalnych. Ograniczenia nałożone na maksymalne liczby poszczególnych zmiennych i
stopień rozłożonych opóźnień zmiennych kwartalnych przyjęte zostały arbitralnie, tak by
zachowana była wysoka liczba stopni swobody pozwalająca wiarygodnie testować
własności struktury stochastycznej modeli4.
W literaturze wykazano [Ghyseles i inni, 2004 a], że przy typowych założeniach
odnoszących się do składnika zakłócającego i zmiennych modelu, estymator nieliniowej
MNK jest co najmniej zgodny. Tenże estymator zastosowano na potrzeby niniejszego
badania.
Podstawowym modelem DFM zaproponowanym przez J. Stocka, M. Watsona [Stock,
Watson, 2002] jest:
(8)
yt   h   h ( L) Ft h   h ( L) yt h   t
gdzie: yt jest zmienną będącą przedmiotem modelowania (prognozowania); Ft jest macierzą
czynników (w praktyce, uzyskaną metodą głównych składowych) oszacowaną na podstawie
dużego zbioru zmiennych makroekonomicznych mających potencjalny wpływ na
kształtowanie się zmiennej prognozowanej, h wyznacza horyzont prognozy. Pozostałe
elementy modelu to parametry strukturalne i składnik zakłócający spełniające typowe
założenia.
Zakładając skończony charakter rozkładów opóźnień, oszacowaną wersją modelu
służącą do wyznaczania prognoz jest:
(9)
yt  ˆ h  ˆ h ( L) Ft h  ˆh ( L) yt h
Oryginalna procedura Stocka i Watsona (SW) wyboru optymalnego modelu zakłada
wykorzystanie kryteriów pojemności informacyjnej (BIC) do ustalenia rzędów procesu AR
(proces AR reprezentowany przez ˆh ( L) yt h ) i rzędu rozłożonych opóźnień DL (proces DL
reprezentowany przez ̂ h ( L) Ft h ). Wybrawszy model postaci (8), co przejawia się przez
ustalenie rzędów procesów AR, DL i liczby czynników F, parametry modelu (8) szacowane5
są osobno dla każdego horyzontu prognozy h, a następnie, stosując model (9), liczone są hokresowe prognozy. Prognoza dla h=1,2,…,max(h) powstaje więc na podstawie modelu (9) o
parametrach szacowanych specyficznie dla danego h, oraz ustalonym rzędzie AR, DL i raz
ustalonej liczbie czynników F.
W toku badań empirycznych autor stwierdził, że faktycznie nie istnieje „najlepszy
model” postaci (8), który jednakowo efektywnie dostarczałby prognoz dla różnych
horyzontów prognozy h. Modele prognoz krótkookresowych (h=1,2), charakteryzowały się
niższym rzędem procesu AR niż modele prognoz średniookresowych (h=3,4), tendencję tę
naśladował rząd procesu DL.
Zaproponowana została modyfikacja procedury SW polegająca na innej strategii
doboru modeli prognostycznych. Dwustopniowe podejście obejmuje: 1) oszacowanie
wszystkich możliwych modeli DFM dla założonych wartości rzędów AR, DL i liczby
czynników F (rzędy i liczby zmieniają się od 0 do górnych arbitralnie ustalonych granic); 2)
na podstawie kryterium BIC wybór modelu, tj. de facto wybór rzędów AR, DL i liczby
czynników F dla danego horyzontu prognozy h.
Więcej na temat w części dotyczącej zastosowanych w badaniu danych.
W literaturze przedmiotu [Stock, Watson, 1999] wykazano, że przy spełnieniu typowych warunków estymator
MNK jest nieobciążony i najefektywniejszy; ten właśnie estymator zastosowano w niniejszym badaniu. Stock i
Watson wykazali ponadto, iż same prognozy są asymptotycznie efektywne w tym sensie, że błąd MSE zmierza
do optymalnego MSE, o ile N,T→ ∞.
4
5
Oznacza to, że dopuszcza się zmianę rzędów wymienionych procesów wraz ze
zmianą horyzontu prognozy h. Zmienności rzędów AR i DL oraz zmian liczby czynników F
nie uwzględniała oryginalna procedura SW. Kosztem ponoszonym przy stosowaniu opisanej
procedury wyboru modelu prognostycznego jest konieczność wykonania dużo większej
liczby oszacowań modeli DFM, procedura oryginalna SW była w tym względzie
oszczędniejsza. W zamyśle autora modyfikacja powinna doprowadzić do polepszenia
dopasowania modeli stosowanych przy prognozowaniu bezpośrednim6, z uwagi na
specyfikę wpływ modyfikacji na prognozowanie iteracyjne7 będzie raczej znikomy i
procedura zmodyfikowana nie była wówczas stosowana.
2. Dane
Dane użyte w badaniu pochodzą z Banku Rezerwy Federalnej w Filadelfii (RTDS-Real
Time Data Set) [http://www.philadelphiafed.org…]. Z bazy wybrano 39 zmiennych o
częstotliwości kwartalnej, obserwacje pochodzą z okresu 1995q1–2012q4, wśród nich
zmienna prognozowana, tj. annualizowane PKB w USA. W bazie dostępne są również
zmienne miesięczne. Zmienne o tej częstotliwości podzielone zostały na dwie kategorie.
Pierwsza grupa objęła 20 zmiennych miesięcznych pochodzących z okresu 1995m1–
2012m10, dla tych danych pod koniec każdego kwartału dostępna jest pierwsza obserwacja
miesięczna dotycząca tegoż kwartału. Druga grupa objęła 7 zmiennych pochodzących z
okresu 1995m1–2012m9, są to zmienne, dla których nie dysponujemy obserwacjami
miesięcznymi pochodzącymi z najnowszego kwartału8. Należy zaznaczyć, że dane
pochodzące z bazy RTDS są danymi czasu rzeczywistego.
Danymi typu real-time określa się w literaturze zbiór danych (o charakterze
ekonomicznym) zawierających szeregi czasowe obserwacji o zróżnicowanej w czasie
wiarygodności informacji. Dane wczesne mogą podlegać okresowym rewizjom
uwzględniającym niedostępne uprzednio informacje, rewizjom dokonywanym na skutek
doskonalenia metod pozyskiwania danych statystycznych, a często na skutek obu
wymienionych czynników. Dokonanie rewizji jest zatem związane z uwzględnieniem
dodatkowej niedostępnej wcześniej informacji lub zastosowaniem innej technologii
przetwarzania danych, w zamyśle prowadzącej do polepszenia jakości danych. Jest
oczywiste, że najnowsze dostępne dane nie mogą uwzględniać owej dodatkowej informacji,
gdyż ta dostępna będzie dopiero w przyszłości.
Zwyczajowo struktura danych czasu rzeczywistego pojedynczego szeregu czasowego
ma formę macierzy; każdej kolumnie odpowiadają dane pochodzące z innego momentu
publikacji, każdemu wierszowi odpowiada data określająca, jakiego okresu dotyczy
informacja. Stąd, odczytując wartości w określonym wierszu, użytkownik może sprawdzić,
jak zmieniały się oceny zmiennej będącej przedmiotem zainteresowania otrzymywane w
kolejnych momentach publikacji. Natomiast każda kolejna kolumna odzwierciedla najlepszą
(najnowszą) wiedzę o kształtowaniu się zmiennej dostępną użytkownikom w danym
momencie. Elementy diagonalne (główna przekątna) dostarczają informacji o wartościach
Ang. multi-step, direct, tj. prognozowaniu z okresu t na t+h.
Ang. iterated forecast, tj. krokowe prognozowanie za każdym razem na okres t+1 aż do t+h.
8 Wszystkie dane użyte w badaniu twórcy bazy RTDS pozbawili cech sezonowości. Przed modelowaniem
zmienne zostały doprowadzone do stacjonarności. Stopień integracji zmiennych nie był testowany,
przekształcenia sprowadzające do stacjonarności (różnicowanie, różnicowanie logarytmów itp.) konieczne do
doprowadzenia określonej zmiennej do stacjonarności zaczerpnięto z pracy [Stock, Watson, 2002].
6
7
zmiennej podawanych jako pierwsze publikacje, czyli publikacje bez jakichkolwiek rewizji
[http://www.philadelphiafed.org].
W literaturze przedmiotu [Clemens, Galvao, 2010; Koenig i inni, 2003] wyróżnia się
przynajmniej dwie ważne przyczyny rewizji danych:
1) hipotezę błędu pomiaru (noise hypothesis),
2) hipotezę prognoz efektywnych (news hypothesis).
Niech y ts oznacza ocenę zmiennej odnoszącą się do okresu t dokonaną w okresie s
(t=1,…,T; s≥t). Ocena y s składa się z prawdziwej wartości zmiennej, oznaczonej ~y , zakłóceń
t
 i innowacji
s
t
vts
t
. Zatem:
(10)
yts  ~
yt   ts  vts
Rewizje uznaje się za zgodne z hipotezą prognoz efektywnych, jeśli pierwotnie
dokonane oceny zmiennej są optymalnymi prognozami bieżących ocen, czyli jeśli innowacje
nie są skorelowane z bieżącymi ocenami, co zachodzi jeśli cov(vts , yts )  0 .
Korzystając z powyższych oznaczeń, rewizje uznaje się za zgodne z hipotezą błędu
pomiaru jeśli cov( ts , ~
yt )  0 .
Formuła (10) służy de facto do wyrażenia rewizji mieszanych; wymienione hipotezy
błędu pomiaru i prognoz efektywnych w swoich „czystych” postaciach zakładają, że rewizją
jest odpowiednio: yts  ~
yt   ts , lub yts  ~
yt  vts . W literaturze przedmiotu nie znajduje się
przekonujących przykładów na jednoznaczne poparcie którejkolwiek z hipotez. C.
Richardson [2003], J. Faust, J. Rogers, J. Wright [2005] twierdzą, że rachunki narodowe
Wielkiej Brytanii zachowują się zgodnie z hipotezą prognoz efektywnych. N.G. Mankiw,
M.D. Shapiro [1986], G. Kapetanios, T. Yates [2004] wskazują, że rachunki narodowe
amerykańskiego i brytyjskiego PNB zachowują się zgodnie z hipotezą błędu pomiaru.
Ustalenie (lub aprioryczne założenie), czy rewizje zachowują się zgodnie z hipotezą
błędu pomiaru, hipotezą prognoz efektywnych, czy wykazują mieszany charakter ma
kluczowe znaczenie dla strategii konstrukcji modelu, na podstawie którego badacz zamierza
formułować prognozy. W przypadku hipotezy prognoz efektywnych rewizje są
nieprognozowalne. W przypadku hipotezy błędu pomiaru można podjąć próbę estymacji
błędu na podstawie oceny obciążenia y ts , ewentualnie oszacować błąd, korzystając z
dodatkowych danych [Chamberlin, 2007, 2010]. Jeśli uwzględni się wpływ czynników
mieszanych, tj. błędów i innowacji, można, jak wykazali [Jacobs, van Norden, 2011] zapisać
model (10) uwzględniający całą historię rewizji w postaci modelu przestrzeni stanów i
stosując filtr Kalmana próbować ocenić czynniki nieobserwowalne. Prognozowanie rewizji
ma jednak zawsze charakter przeniesienia przeszłych rewizji i ewentualnych związków
rewizji z danymi będącymi przedmiotem zainteresowania na rewizje faktycznie jeszcze
niedokonane. Oczywistym celem takiego działania jest zmiana jakości danych. Efektywność
prognozowania rewizji jest jednak co najmniej problematyczna w świetle wyników badań
[Patterson, 2002; Brown i inni, 2010]. Wymienieni autorzy, korzystając z bardzo długich
szeregów czasowych, wykazali, że rewizje są niestabilne w czasie. W badaniach wykazano
istnienie wielu trendów stochastycznych rewizji zależnych od daty publikacji szeregu
czasowego. W konsekwencji trzeba raczej skłonić się ku stwierdzeniu, że różne rewizje
(pochodzące z różnych okresów) nie podlegają wspólnemu wzorcowi zmienności, a zatem
próby zastosowania prognoz rewizji mogą pogorszyć zamiast polepszyć jakość danych, a
tym samym pogorszyć jakość prognoz.
W literaturze przedmiotu [Stark, Croushore, 2002; Croushore, 2010] wymienia się
trzy możliwe sposoby wpływania rewizji na jakość prognoz:
1. Bezpośrednio, poprzez zmianę wartości zmiennej (zmiennych) będącej przedmiotem
zainteresowania, wówczas ten sam model w różnych okresach dostarcza prognoz
różniących się precyzją.
2. Pośrednio, prowadząc do zmiany oszacowań parametrów strukturalnych modelu.
3. Pośrednio, prowadząc do zmiany specyfikacji modelu polegającej na zmianie wyboru
zmiennych objaśniających lub ich (zmiennych objaśniających) struktury opóźnień.
Wspomniani autorzy sugerują jednocześnie, że błędem jest nieposłużenie się danymi
czasu rzeczywistego i użycie do estymacji modelu jedynie najnowszych dostępnych danych.
Takie postępowanie stawia badacza w uprzywilejowanej pozycji, wobec osób posługujących
się danymi czasu rzeczywistego. Standardowy sposób postępowania z danymi najnowszymi
polega bowiem na skróceniu próbki, tak by najnowsze dostępne dane użyć do weryfikacji
własności, poprawności i efektywności prognoz. Model użyty do sformułowania prognoz
szacowany jest zatem na podstawie danych, które podlegały wcześniejszym rewizjom, co
potencjalnie umożliwia skonstruowanie lepszego narzędzia niż mogliby to uczynić badacze
formułujący modele w przeszłości, a niedysponujący danymi po rewizjach. Mechanizm ten
jest doskonale znany, chociażby w postaci porównania błędów RMSE (średnich błędów
prognoz ex post) modeli formułowanych w przeszłości i budowanych współcześnie. Z reguły
te drugie charakteryzują się niższymi błędami, wskazując jak precyzyjnie w chwili obecnej
jesteśmy w stanie prognozować przeszłość, jednak jak uczy doświadczenie, nie wykazując
nadzwyczajnych własności do formułowania precyzyjnych prognoz ex ante.
Dostęp do bazy RTDS wykorzystanej w niniejszym badaniu oferowany jest przez
Banku Rezerwy Federalnej nieodpłatnie, to z kolei ograniczyło pole badawcze do
amerykańskiego (a nie np. krajowego) PKB. Jak zaznaczono, w bazie RTDS dostępne są dane
czasu rzeczywistego, co wobec uwag zawartych w niniejszym rozdziale ma zdaniem autora
kluczowe znaczenie dla sensowności porównań prognoz sporządzonych na potrzeby
niniejszego badania.
3. Wyniki
Badanie zostało zaplanowane jako symulacja czterech sesji prognostycznych (stąd
dane czasu rzeczywistego pozwalające symulować sesje prognoz ex ante) obejmujących
okresy: 2011q2–2012q1, 2011q3–2012q2, 2011q4–2012q3, 2012q1–2012q4. Jak można
zaobserwować, w przypadku każdej sesji założono prognozy z wyprzedzeniem czasowym
h=1,2,3,4.
Procedura prognozowania (w każdej z symulowanych sesji) na podstawie modelu
MIDAS obejmowała:
1. Oszacowanie wszystkich możliwych modeli dla założonych i,j,l=0,1,…,4, g=1,2,3,4, m=3,
k=12 lub k=24.
2. Testowanie autokorelacji składników zakłócających modeli i wybór do dalszego
badania tych spośród nich, dla których nie znaleziono podstaw do odrzucenia hipotezy
o braku autokorelacji (testowano autokorelację do rzędu 4 włącznie).
3. Na podstawie kryterium BIC wybór „najlepszego” modelu [por. procedura wyboru
najlepszego modelu Stock, Watson, 2006].
4. Na podstawie modelu najlepszego, oszacowanie prognoz dla h=1,2,3,4.
Analogicznie przebiegały symulacje sesji prognostycznych dla pozostałych klas
modeli.
W przypadku modeli DFM w punkcie pierwszym założono maksymalnie cztery
procesy DL, każdy z nich maksymalnie czwartego rzędu, ponadto maksymalnie cztery
procesy AR, każdy z nich maksymalnie czwartego rzędu.
Wykorzystując modele ARIMA(p,d,q), założono maksymalne rzędy p=6 i q=6,
podobnie jak dla modeli wcześniejszych szacowano każdą możliwą kombinację.
W modelu VAR wykorzystano zmienne zaproponowane w wielorównaniowym modelu
gospodarki amerykańskiej FAIRMODEL [Fair, 2013], w skład wektora zmiennych weszły:
PKB, zyski przed opodatkowaniem, wartość produkcji sektora cywilnego i sektora
militarnego, liczba przepracowanych roboczogodzin w tychże sektorach. W przypadku
modelu VAR założono maksymalny rząd opóźnienia wynoszący 4.
Po wyznaczeniu prognoz, liczone były błędy ex post i miary RMSE (por. tablica 1).
Minimalny błąd RMSE wskazywał prognozy uznane za najlepsze w danej sesji. Następnie
parami testowano identyczność prognoz najlepszych z prognozami pozostałymi tejże sesji;
posługiwano się testem Diebolda-Mariano z poprawką małopróbkową [Diebold, 2012].
Procedury estymacji, prognozowania, porównania jakości prognoz zostały napisane
samodzielnie w programie R.
Z zestawienia zawartego w tablicy 1 wynika, że w pierwszej sesji prognostycznej
najmniejszy błąd RMSE uzyskano z prognoz modelu VAR, w sesjach drugiej i trzeciej
minimalne błędy RMSE uzyskano na podstawie prognoz modelu DFM po modyfikacjach
zaproponowanych przez autora, w sesji czwartej najmniejszym błędem obarczone były
prognozy obliczone w sposób iteracyjny na podstawie modelu DFM. Zestawiając wszystkie
prognozy łącznie, najmniejszym błędem RMSE wykazały się prognozy uzyskane z modelu
VAR.
Tablica 1. Błędy RMSE z czterech sesji prognostycznych, oraz RMSE łączne
Sesja
MIDAS MIDAS DFM
DFM DFM ARIMA VAR
(k=12)
(k=24)
(mod)
(dir)
(iter)
2011q2-2012q1
2011q3-2012q2
2011q4-2012q3
2012q1-2012q4
10.65
7.060
5.812
4.025
12.74
6.653
5.966
2.805
1.341
1.229
1.325
1.546
2.018
1.653
2.394
1.350
1.628
1.698
2.675
1.336
1.458
1.365
1.630
2.814
1.062
1.364
1.494
1.498
2011q2-2012q4
6.889
7.043
1.360
1.854
1.834
1.817
1.354
Skróty (mod), (dir), (iter) odnoszą się odpowiednio do metody DFM: ze zmodyfikowaną procedurą wyboru
modelu, bezpośredniej, iteracyjnej.
Źródło: Obliczenia własne.
Zestawienie z tablicy 1 pozwala na sformułowanie trzech wstępnych wniosków: 1)
modele MIDAS dostarczyły najgorzej dopasowanych prognoz; 2) modyfikacja klasycznej
procedury doboru modelu DFM zaproponowana przez autora okazała się sensowna w tym
sensie, że w trzech sesjach prognostycznych prognozy DFM(mod) okazały się lepiej
dopasowane od innych prognoz DFM, w dwóch sesjach prognozy DFM(mod) były ogólnie
najlepiej dopasowane; 3) w trakcie całego eksperymentu model VAR dostarczył przeciętnie
najlepiej dopasowane prognozy.
Tablica 1 jest prostym zestawieniem średnich błędów prognoz pozwalającym
formułować jedynie wstępne wnioski. Kolejny etap badania polegał na testowaniu
identyczności precyzji prognoz najlepszych w danej sesji z prognozami pozostałymi tejże
sesji (predictive accuracy Diebold-Mariano test). W tablicy 2 zebrano wartości statystyk oraz w
nawiasach kwadratowych empiryczne prawdopodobieństwa odrzucenia hipotezy zerowej o
identycznej dokładności prognoz.
Tablica 2. Wyniki testu Diebolda-Mariano (z poprawką małopróbkową)
Sesja
MIDAS MIDAS DFM
DFM DFM ARIMA VAR
(k=12)
(k=24)
(mod) (dir)
(iter)
2.271
[0.011]
3.395
[0.000]
1.491
[0.049]
1.324
[0.093]
1.807
[0.035]
3.402
[0.000]]
1.528
[0.064]
0.772
[0.219]
1.732
[0.041]
3.222
[0.000]
Źródło: Obliczenia własne.
2.554
[0.005]
2011q2-2012q1
2011q3-2012q2
2011q4-2012q3
2012q1-2012q4
2011q2-2012q4
1.103
[0.134]
3.094
[0.000]
3.098
[0.000]
0.915
[0.179]
1.590
[0.054]
0.996
[0.160]
1.716
[0.043]
0.056
[0.478]
0.073
[0.470]
1.868
[0.031]
2.433
[0.007]
-
-
1.123
[0.130]
0.255
[0.400]
2.302
[0.010]
1.067
[0.143]
1.166
[0.121]
1.620
[0.052]
1.514
[0.066]
1.775
[0.038]
-
Wyniki testów Diebolda-Mariano (DM) zebrane w tablicy 2 pozwalają na
sformułowanie następujących wniosków (przyjęto poziom istotności 10%):
1. W pierwszej sesji prognostycznej najlepiej dopasowane prognozy pochodziły z modelu
VAR; z testu DM wynika, że ich precyzja była nieodróżnialna od precyzji prognoz
uzyskanych z modeli ARIMA i DFM(iter), pozostałe modele dostarczyły prognoz o
statystycznie gorszej precyzji.
2. W drugiej sesji najbardziej precyzyjne prognozy zostały obliczone na podstawie modelu
DFM(mod), precyzja tych prognoz była nieodróżnialna od prognoz wynikających z
modelu DFM(dir), prognozy z pozostałych modeli były mniej dokładne.
3. W trzeciej sesji prognostycznej najwyższą precyzję prognoz zapewnił model DFM(mod),
pozostałe prognozy tej sesji były statycznie istotnie mniej precyzyjne.
4. W czwartej sesji najbardziej precyzyjnych prognoz dostarczył model DFM(iter),
statystycznie gorzej dopasowane były jedynie prognozy z modeli VAR i MIDAS(k=12).
5. Łącząc wszystkie prognozy, najlepszą precyzję prognoz zapewnił model VAR, przy
czym precyzja prognoz pochodzących z modeli DFM(mod) i ARIMA okazała się
statystycznie nieodróżnialna od precyzji prognoz VAR.
Wyniki przedstawione w tablicach 1 i 2 wskazują jednoznacznie na brak poparcia dla
weryfikowanej w artykule tezy. Należy stwierdzić, że bezpośrednie (tj. bez agregacji)
zastosowanie w modelu zmiennych o wysokiej częstotliwości nie polepszyło dopasowania
prognoz makroekonomicznych przy założonym maksymalnym horyzoncie prognozy
wynoszącym h=4.
Dopasowanie prognoz modeli MIDAS okazało się najgorsze spośród wszystkich
poddanych porównaniu. Uzyskane wyniki okazały się sporym zaskoczeniem, gdyż
konstrukcja modeli MIDAS pozwalająca uwzględnić najnowszą informację miesięczną w
danym kwartale wydawała się preferować tę klasę modeli do prognozowania
makroekonomicznego przynajmniej w krótkim okresie.
W celu zbadania własności prognoz stricte krótkookresowych dokonano porównania
prognoz wszystkich czterech sesji, dla których h=1 (prognoz z jednookresowym
wyprzedzeniem). Wyniki zawarto w tablicy 3. W wierszu tablicy umieszczono: błąd RMSE,
statystykę testu Diebolda-Mariano, empiryczne prawdopodobieństwa odrzucenia hipotezy
zerowej o identycznej precyzji prognoz.
Z zestawienia zawartego w tablicy 3 wynika, iż najlepszą precyzję prognoz
krótkookresowych (na okres następny, tj. dla h=1) uzyskano w przypadku modelu
MIDAS(k=12). Wynik testu DM sugeruje, że precyzja tych prognoz jest nieodróżnialna od
precyzji prognoz krótkookresowych pochodzących z modeli MIDAS(k=24), DFM(mod),
DFM(iter) i VAR.
Tablica 3. Błędy RMSE, statystyka testu Diebolda-Mariano (z poprawką małopróbkową),
[empiryczne prawdopodobieństwo odrzucenia H0], h=1
Sesja
MIDAS MIDAS DFM
DFM DFM ARIMA VAR
(k=12)
(k=24)
(mod) (dir)
(iter)
0.389
Źródło: Obliczenia własne.
0.395
0.024
[0.488]
wszystkie sesje,
h=1
1.208
0.949
[0.171]
2.547
1.511
[0.065]
1.614
1.075
[0.141]
2.360
3.113
[0.000]
1.241
0.977
[0.165]
Rysunek 1. Zmienna prognozowana i najlepiej dopasowane prognozy krótkookresowe (h=1)
4.050
Annualizowana zmiana PKB[%], zmienna prognozowana
prognozy MIDAS(12) dla h=1
inne najlepsze prognozy dla h=1
Zmiany PKB[%]
3.212
2.374
1.536
0.698
2012q4
2012q3
2012q2
2012q1
2011q4
2011q3
2011q2
2011q1
2010q4
2010q3
2010q2
2010q1
-0.140
Źródło: Opracowanie własne.
Zmienną prognozowaną, prognozy dla h=1 z modelu MIDAS(k=12) oraz najbardziej
precyzyjne prognozy dla h=1 pochodzące z innych badanych modeli zobrazowano na
rysunku 1.
Z wykresu można odczytać, że w okresach 2011q3, 2011q4, 2012q1 wystąpiły tzw.
punkty zwrotne w kształtowaniu się zmiennej objaśnianej (linia czarna). W każdym
przypadku zostały one prawidłowo prognozowane na podstawie modelu MIDAS(k=12)
(linia szara ciemna), prawdopodobnie na skutek uwzględnienia najnowszej pochodzącej z
danego kwartału informacji miesięcznej. Najlepiej dopasowane prognozy pochodzące z
innych modeli (linia szara jasna) nie wykazały zdolności do prawidłowego prognozowania
punktów zwrotnych, wyższość modelu MIDAS w okresie objętym badaniem jest wyraźnie
zauważalna.
Zakończenie
Podsumowując wyniki, można stwierdzić, iż w toku badań stwierdzono najlepsze
dopasowanie prognoz stricte krótkookresowych (h=1) uzyskanych na podstawie modeli
MIDAS. Modele tej klasy dostarczyły również prognoz prawidłowo reagujących na punkty
zwrotne zmiennej prognozowanej. Przypuszcza się, że cecha ta wynika ze zdolności modelu
MIDAS do uwzględniania w prognozie najnowszej informacji pochodzącej ze zmiennej
wysokiej częstotliwości niedostępnej w innych porównywanych modelach (VAR, DFM,
ARIMA). Zauważono również znaczące pogorszenie własności prognoz pochodzących z
modeli MIDAS wraz ze wzrostem horyzontu prognozy w taki sposób, że dla wyprzedzenia
czterookresowego modele tej klasy dostarczają prognoz najmniej precyzyjnych spośród
wszystkich porównanych. Z badań wynika, iż należy rekomendować wykorzystanie modeli
MIDAS do prognoz typu now-casting i unikać ich stosowania w dłuższych horyzontach
prognozy. Wynik taki stanowi jednocześnie jedynie częściowe poparcie weryfikowanej tezy.
Literatura
1. Andreou E., Ghysels E., Kourtellos A. (2010), Forecasting with mixed-frequency data,
“Oxford Handbook on Economy Forecasting”, Clements M.P., Hendry D.F. (red.).
2. Artis M., Banerjee A., Marcelino M. (2003), Factor forecast for the UK, “Bacconi University
Working Paper”, Vol. 203.
3. Boivin J., Ng S. (2006), Are more data always better for factor analysis? “Journal of
Econometrics”, No. 132(1).
4. Brown G., Buccellato T., Chamberlin G., Dey-Chowdhury D., Youl R. (2010),
Understanding the quality of early estimates of Gross Domestic Product, “Economic & Labour
Market Review”, Vol. 4(6).
5. Chamberlin G. (2007), Forecasting GDP using external data sources, “Economic and Labour
Market Review”, Vol. 1, No. 8.
6. Chamberlin G. (2010), Real time data, “Economic and Labour Market Review”, Vol. 4(12).
7. Chen X., Ghysels E. (2009), News – good or bad – and its impact on predicting future volatility,
“Review of Financial Studies”.
8. Chow G., Lin A. (1971), Best linear unbiased interpolation, distribution and extrapolation of
time series by related time series, ”Review of Economics and Statistics”, No. 53.
9. Clemens M.P., Galvao A.B. (2010), Real-time Forecasting of Inflation and Output growth in
the Presence of Data Revisions, “Warwick Economic Research Papers”, No. 953.
10. Clements M.P., Galvao A.B. (2006), Macroeconomic Forecasting with Mixed Frequency Data:
Forecast of US output growth and inflation, “Warwick Economic Research Papers”, 773.
11. Croushore D. (2005), Forecasting with Real-Time Data Vintages, “University of Richmond
Working Paper”.
12. Diebold F. (2012), Comparing Predictive Accuracy, Twenty Years Later: A Personal Perspective
on the Use and Abuse of Diebold-Mariano Test, “University of Pennsylvania Working
Paper”, Vol. 7.
13. Fair R. (2013), Macroeconometric Modeling, http://fairmodel.econ.yale.edu/mmm/mm.pdf.
14. Faust J., Rogers J., Wright J. (2005), News and noise in G7 announcements, “Centre for
Economic Policy Research”, No. 12.
15. Forni M., Hallin M., Lippi M., Reichlin L. (2005), The Genaralized Dynamic Factor Model,
“Journal of the American Statistical Association”, No. 100.
16. Ghysels E., Santa-Clara P., Valkanov R. (2004 a), The MIDAS touch: Mixed Data Sampling
regression models, Chapel Hill, N.C.
17. Ghysels E., Santa-Clara P., Valkanov R. (2004 b), Predicting volatility: Getting the most out of
return data sampled at different frequencies, “Journal of Econometrics”.
18. Jacobs J., van Norden S. (2011), Modeling data revisions: Measurement error and dynamics of
“true” values, “Journal of Econometrics”, No. 161.
19. Kapetanios G., Yates T. (2004), Estimating time-variation in measurement error from data
revision; an application to forecasting in dynamic models, “Bank of England Working Papers”,
No. 238.
20. Koenig E.F., Domas S., Piger J. (2003), The use and abuse of real-time data on economic
forecasting, “The Review of Economic and Statistics”, Vol. 85(3).
21. Mankiw N.G., Shapiro M.D. (1986), News of noise. An analysis of GNP revision, “Survey of
Current Business”.
22. Marcellino M., Stock J., Watson M. (2006), A comparison of direct and iterated multistep AR
methods for forecasting macroeconomic time series, “Journal of Econometrics”, Vol. 135(1-2).
23. Miller P.J., Chin D.M. (1996), Using monthly data to improve quarterly model forecasts,
“Federal Reserve Bank Minneapolis Quarterly Review”, 20.
24. Patterson K. (2002), The data measurement process for UK GNP: stochastic trends, long memory
and unit roots, “Journal of Forecasting”, 21.
25. Richardson C. (2003), Revision analysis: a time series approach, “Economic Trends”, Vol. 12.
26. Schneider M., Spitzer M. (2004), Forecasting Austrian GDP using the generalized dynamic
factor model, “Oesterreichische Nationalbank Working Paper”, Vol. 89.
27. Stark T., Croushore D. (2002), Forecasting with a real time data set for macroeconomists,
“Journal of Macroeconomics”, Vol. 24.
28. Stock J., Watson M. (1999), Forecasting Inflation, “Journal of Monetary Economics”, Vol.
44.
29. Stock J., Watson M. (2002),.Macroeconomic Forecasting Using Diffusion Indexes, “Journal of
Business and Economic Statistic”, Vol. 20(2).
30. Stock J., Watson M. (2005), Implications of Dynamic Factor Models for VAR Analysis, “NBER
Working Papers”, 11467.
31. Stock J., Watson M. (2006), Forecasting with Many Predictors, “Handbook of Economic
Forecasting”, Vol. 1.
Streszczenie
Celem badania było sprawdzenie, czy zastosowanie w modelu danych o zróżnicowanej
częstotliwości w postaci najnowszych dostępnych danych o częstotliwości miesięcznej jest w stanie
polepszyć dokładność kwartalnych prognoz wybranych kategorii makroekonomicznych. Narzędziem
badawczym były modele klasy MIDAS, DFM, ARIMA i VAR, przedmiotem porównań prognozy
wyliczone na podstawie wymienionych modeli. Badanie zaplanowane zostało jako symulacja czterech
sesji, każda o horyzoncie prognozy czterookresowym, każda dostarczająca prognoz ex ante. W tym
celu konieczne było użycie zmiennych czasu rzeczywistego, co z uwagi na ograniczony dostęp do
nieodpłatnych baz danych czasu rzeczywistego wymusiło badanie amerykańskiego PKB.
Z przeprowadzonych badań wynika, że modele klasy MIDAS, w których możliwe jest
bezpośrednie uwzględnienie najnowszych informacji miesięcznych, dostarczają bardziej precyzyjnych
prognoz PKB jedynie dla prognoz formułowanych z jednookresowym wyprzedzeniem czasowym.
Wraz ze wzrostem wyprzedzenia precyzja prognoz MIDAS maleje i jest statystycznie istotnie gorsza
od prognoz uzyskanych z modeli VAR i DFM.
Słowa kluczowe
prognoza, zmienne zróżnicowanej częstotliwości, MIDAS, DFM
Mixed Frequency Data in Macroeconomic Forecasting (Summary)
The aim of the study was to find out whether the use of mixed frequency data models can
improve the accuracy of quarterly forecasts of selected macroeconomic variables. The research tools
were the MIDAS, DFM, ARIMA and VAR models with quarterly forecasts as reference points. The
study used a simulation of four (ex ante) forecasting sessions. To that end, it was necessary to use
variables from the real-time database. Yet, due to the limited access to such databases, the study
focused on U.S. GDP.
The results indicate that the MIDAS class models, which directly incorporate the latest
available monthly information, provide more accurate forecasts of GDP only if the forecasts are
formulated one-step ahead. With an increase in step-ahead, precision of MIDAS forecasts decreases,
and four step-ahead forecasts are significantly worse than those obtained from the VAR and DFM
models.
Keywords
data frequency, real-time forecasting, MIDAS, DFM

Podobne dokumenty