Wzorzec artykułu do PiM WZ UG

Transkrypt

Wzorzec artykułu do PiM WZ UG
Mariola Piłatowska*
Porównanie kryteriów informacyjnych i predykcyjnych w
wyborze modelu
Wstęp
Wśród różnych metod wyboru modelu ekonometrycznego, jako dominujące, wymienia się podejście bazujące na sekwencji testów statystycznych, podejście informacyjne bazujące na kryteriach informacyjnych typu Akaike’a oraz
podejście bazujące na kryteriach predykcyjnych. Pokreślić jednak należy, że
wybór modelu powinien odbywać się w zależności od przyjętego celu modelowania. W podejściu do modelowania ekonometrycznego rozważa się najczęściej dwa cele, tj. poszukiwanie prawdziwego modelu i poszukiwanie najlepszego modelu prognostycznego. Niestety w literaturze ekonometrycznej niezbyt
wiele robi się, aby oddzielić wyraźnie te dwa cele modelowania, a co więcej
zauważa się tendencję do zacierania się różnic miedzy tymi celami. Jest to widoczne po pierwsze w przesadnej dbałości o spełnienie wszystkich kryteriów
statystycznych modelu (ang. misspecification tests) w sytuacji prognostycznej,
podczas gdy model nie w pełni spełniający te wymogi może dać dobre prognozy, a po drugie w przekonaniu, że dokładna predykcja (przydatność w prognozowaniu) jest głównym przejawem jakości modelu.
Znaczną trudnością przy wyborze modelu jest fakt, że mechanizm działania złożonej i dynamicznie zmieniającej się ekonomicznej rzeczywistości jest
ukryty. Każdy zatem model jest jedynie uproszczeniem lub aproksymacją rzeczywistości i stąd nigdy nie będzie odzwierciedlać jej w pełni, a jedynie stanowić „analityczną charakterystykę łącznego rozkładu prawdopodobieństwa badanych zmiennych losowych, która dostarcza pewnej informacji o tym, jak
działa dana gospodarka” [Grassa, 1989, s. 1; Bhatti, 2006, s. 67]. Poznanie pełnej prawdy (rzeczywistości) czy też tzw. modelu „prawdziwego” jest nieosiągalne. W związku z tym, że żaden z rozważanych modeli nie może stanowić
pełnego odkrycia rzeczywistości, to sugeruje się zakończenie debaty o poszukiwaniu modelu „prawdziwego” na rzecz szukania modelu użytecznego pod
pewnym względem, tzn. opisu danej rzeczywistości lub optymalizacji predykcji.
W podejściu zakładającym wybór najlepszego modelu prognostycznego
porzuca się cel wyboru „prawdziwego” modelu na rzecz poszukiwania modelu,
który pozwoli otrzymać prognozy o najmniejszych błędach prognoz. Przy tak
ustawionym celu modelowania mniej rygorystycznie podchodzi się do spełnienia wymogów statystycznych dobrego modelu jak w przypadku szukania modelu najlepiej opisującego daną rzeczywistość ekonomiczną. Chociaż z drugiej
*
Dr hab., prof. UMK, Katedra Ekonometrii i Statystyki, Wydział Nauk Ekonomicznych i Zarządzania, Uniwersytet Mikołaja Kopernika w Toruniu, [email protected]
500
Mariola Piłatowska
strony, oczekuje się też, że dobry model pod względem estymacji, identyfikacji
czy testowania hipotez statystycznych powinien dać dobre prognozy.
Celem artykułu jest porównanie zachowania kryteriów informacyjnych
(AIC i BIC) i predykcyjnych (tradycyjnych miar dokładności predykcji oraz
skumulowanego błędu prognoz na jeden okres naprzód, APE) w wyborze modelu w przypadku znanego i nieznanego modelu generującego z punktu widzenia dwóch celów modelowania: poszukiwania modelu „prawdziwego” i wyboru
najlepszego modelu prognostycznego. Wybór modelu (spośród trzech modeli:
AR(1), MA(1) i ARMA(1, 1)) za pomocą kryterium AIC i MSE w przypadku
znanego modelu generującego (ARMA(1, 1)) będzie zilustrowany za pomocą
eksperymentu symulacyjnego przywoływanego za Kunstem (2003). W eksperymencie symulacyjnym dokonuje się wyboru modelu z uwzględnieniem
dwóch celów modelowania, tj. znalezienia modelu prawdziwego i wyboru najlepszego modelu prognostycznego. Natomiast w przykładzie empirycznym ze
względu na nieznajomość modelu generującego dane bierze się pod uwagę tylko drugi cel, tj. wybór modelu prognostycznego. Wybór modelu prognostycznego spośród czterech modeli (AR, ARIMA, ARFIMA i RW) dokonuje się z
wykorzystaniem kryteriów informacyjnych (AIC, BIC) oraz predykcyjnych
(APE oraz MSE, MAPE, U). Poprawność wyboru modelu według różnych kryteriów jest sprawdzana poza próbą przez ocenę trafności otrzymanych prognoz.
1. Kryteria informacyjne i predykcyjne
Do najczęściej używanych kryteriów informacyjnych przy wyborze modelu należą:
kryterium Akaike'a:
AIC  2 ln L(ˆ)  2K ,
2 K ( K  1)
kryterium Akaike'a skorygowane: AICc  AIC 
,
n  K 1
kryterium Schwarza (bayesowskie): BIC  2 ln L(ˆ)  K ln(n),
kryterium Hannana-Quinna:
HQ  2 ln L(ˆ)  2K ln(ln n),
gdzie L(ˆ) oznacza funkcję wiarygodności dla danego modelu, która jest korygowana różnie definiowaną funkcją straty (czy 'kary'), która jest funkcją liczby
parametrów K modelu oraz liczby obserwacji n. Jeśli 'kara' jest duża, to preferowane są oszczędnie sparametryzowane modele, natomiast jeśli 'kara' jest mała, to – mniej oszczędnie sparametryzowane modele.
Stosując kryteria informacyjne do wyboru modelu spośród zbioru modelikandydatów wybiera się ten model, któremu odpowiada minimalna wartość
danego kryterium informacyjnego.
Do tradycyjnych kryteriów predykcyjnych wykorzystywanych przy ocenie
dokładności predykcji, jak też wyborze modelu prognostycznego, należą:
T
Średni błąd bezwzględny
| et |

(Mean Absolute Error)
MAE  t 1
,
T
Porównanie kryteriów informacyjnych i predykcyjnych w …
501
Błąd średniokwadratowy
(Mean Square Error)
MSE 
Pierwiastek błędu średniokwadratowego
(Root Mean Square Error)
Średni bezwzględny błąd procentowy
(Mean Absolute Percentage Error)
 | et / yt | 100%,
MAPE  t 1
Współczynnik nierówności Theila
(Theil's Inequality Coefficient)
t 1 e 2 ,
T
t
T
RMSE  MSE ,
T
T
RMSE(' nowy' model)
U
,
RMSE(' benchmark'model)
gdzie et oznacza błąd prognozy, et  y t  yˆ t , y t - realizacja zmiennej y w
okresie t, ŷ t - prognoza zmiennej y na okres t.
Stosując tradycyjne mierniki dokładności prognoz, wybiera się model,
któremu odpowiada najmniejsza wartość danego miernika.
Natomiast współczynnik nierówności Theila wskazuje, czy dany model
jest gorszy (U > 1), czy lepszy (U < 1) niż model błądzenia przypadkowego
( yˆ t 1  yt ), który stanowi punkt odniesienia.
Warto zauważyć, że wybór miernika dokładności predykcji może wpłynąć
na ranking metod prognostycznych, a zatem i modeli [Armstrong, 2001; Armstrong i Fildes, 1995]. Dlatego zaleca się prezentowanie wyników dla kilku
mierników, a nie tylko jednego, najczęściej MSE, który jest wrażliwy na skalę
wartości zmiennych, co ujawnia się szczególnie w przypadku, gdy dane zawierają wartości odstające (nietypowe). Z tego powodu proponuje się inne miary1,
np. MAPE czy miary relatywne takie jak współczynnik nierówności Theila U.
Wybór modelu prognostycznego można również przeprowadzić z wykorzystaniem skumulowanego błędu prognoz na jeden okres naprzód (ang. Accumulative Prediction Error, APE) [Rissanen, 1986]. Według metody APE najbardziej użyteczny jest model, któremu odpowiada najmniejszy skumulowany
błąd prognoz ex post na jeden okres naprzód.
Wyznaczenie skumulowanego błędu prognoz ex post, APE, obywa się
przez obliczanie w sposób sekwencyjny prognoz na jeden okres naprzód, bazując na stopniowo powiększanej liczebności szeregu. Dla modelu Mj odbywa się
to następująco [Wagenmaker, Grünwald, Steyvers, 2006]:
1. Ustala się najmniejszą liczbę s obserwacji (długości szeregu), dla której
model jest możliwy do estymacji. Ustalmy i = s + 1, stąd i – 1 = s.
2. Bazując na pierwszych i – 1 obserwacjach oblicza się prognozę p̂i dla następnej obserwacji i.
3. Oblicza się błąd prognozy dla obserwacji i, np. kwadrat różnicy między
zaobserwowaną wartością xi a prognozą p̂i .
1
Mentzer i Kahn (1995) pokazali, na podstawie ankiety mailowej kierowanej do kierowników
działów prognoz 207 firm w USA, że najczęściej używanym miernikiem jest MAPE (52% badanych), podczas gdy na miarę RMSE wskazało tylko 10% badanych.
502
Mariola Piłatowska
4. Zwiększa się i o jeden i powtarza się kroki 2) i 3) aż do i = n.
5. Sumuje się błędy prognoz ex post na jeden okres naprzód – wynik daje
APE.
Dla modelu Mj skumulowany błąd prognoz ex post jest równy:
n
APE(M j )  i  s 1 d[ xi , ( pˆ i xi 1 )],
gdzie d oznacza specyficzną funkcję straty, która mierzy rozbieżność między
obserwacjami a prognozami.
W przypadku prognoz punkowych jako funkcję straty d najczęściej używa
się błędu kwadratowego ( xi  pˆ i ) 2 , ale może to również być inna funkcja stra
ty, np. absolutny błąd xi  pˆ i , czy też ogólnie funkcja straty typu α, xi  pˆ i ,
gdzie α ∈ [1, 2] [Rissanen, 2003].
2. Eksperyment symulacyjny
W celu oceny zachowania kryterium predykcyjnego MSE oraz kryterium
informacyjnego AIC w zależności od celu modelowania (tj. wyboru najlepszego
modelu prognostycznego i znalezienia modelu prawdziwego) zostaną przedstawione wyniki eksperymentu symulacyjnego Kunsta (2003), które będą stanowić
tło dla rozważań empirycznych w podrozdziale 3.
W eksperymencie symulacyjnym dane zostały wygenerowane z modelu
ARMA(1, 1) na podstawie 100+100+10 obserwacji dla różnych wartości parametrów2  i . Wykonano 100 powtórzeń. Oszacowano trzy modele: AR, MA i
ARMA, na podstawie obserwacji 101-200 (pierwsze 100 obserwacji zostało
pominięte) oraz wyznaczono prognozę na 1 okres naprzód (na okres 201) i błąd
prognozy. Następnie okno o długości 100 obserwacji przesuwano o jeden i ponownie przeprowadzano procedurę estymacji i predykcji. Krok ten powtarzano
aż do wyczerpania obserwacji z generowanej próby.
Jeżeli celem był wybór najlepszego modelu prognostycznego, to modele
były wybierane z wykorzystaniem kryterium MSE, a jeżeli celem było znalezienie modelu prawdziwego, to było stosowane kryterium AIC.
W przypadku kryterium MSE wyznaczono kwadratowe błędy prognoz dla
10 obserwacji (poza próbę), a następnie uśredniono je dla wszystkich powtórzeń. Model z najniższym MSE (spośród modeli: AR, MA, ARMA) był wybierany jako najlepszy model prognostyczny.
W przypadku kryterium AIC obliczono indywidualne kryteria informacyjne AIC dla trzech modeli: AR, MA, ARMA. Wybierano model z najniższym
kryterium AIC jako najlepszy model opisujący dane zjawisko.
Wyniki prezentują rysunki 1-3 oraz 4-6, na których oznaczenie phi odnosi
sie do parametrów  modelu AR, a theta - do parametrów  modelu MA.
Rysunek 1 pokazuje, że zarówno dla parametrów , jak i  częstość wyboru modelu autoregresyjnego według kryterium najmniejszego błędu MSE jest
2
Parametry przyjmowały następujące wartości:  =  =0, 0.1, 0.2,...,0.9, 1.
Porównanie kryteriów informacyjnych i predykcyjnych w …
503
równa ok. 0.2 i stopniowo zwiększa się w miarę jak  rośnie. Warto zauważyć,
że największa częstość wyboru modelu AR jest osiągana nie dla  = 0, ale na
skośnym 'grzbiecie' dla parametrów biegnących od (, ) = (0, 0.5) do (, ) =
(1, 0). Model AR dominuje również dla  =  = 1, prawdopodobnie w związku
z niezadowalającym zachowaniem się estymatora według metody największej
wiarygodności w tym obszarze.
Rysunek 1. Częstość wyboru modelu
AR(1) za pomocą predykcyjnego kryterium MSE
Rysunek 2. Częstość wyboru modelu
MA(1) za pomocą predykcyjnego kryterium MSE
Rysunek 3. Częstość wyboru modelu
ARMA(1, 1) za pomocą predykcyjnego
kryterium MSE
Źródło: R. M. Kunst (2003), Testing for Relative Predictive Accuracy: A Critical Viewpoint,
Reihe Ökonomie, 130.
Na podstawie rysunku 2 widać, że otrzymanie modelu MA jest mało
prawdopodobne dla  = 1, ponieważ częstość występowania modelu MA spada
do zera. Natomiast model MA jest wybierany w więcej niż 40% przypadków
przy  = 0.
504
Mariola Piłatowska
Częstość występowania modelu ARMA(1, 1) - por. rysunek 3 - rośnie w
miarę jak parametry  i  rosną, z wyjątkiem obszaru wokół  =  = 1, w którym występują wcześniej wspomniane problemy w procedurze estymacyjnej.
Otrzymane wyniki pokazują, że jeżeli celem jest wybór najlepszego modelu prognostycznego, to dla pewnego obszaru wartości parametrów  i  kryterium MSE wybiera model 'fałszywy', czyli model AR czy MA, który jednak
pozwala otrzymać prognozy o mniejszych błędach, a nie model ARMA(1, 1),
czyli model 'prawdziwy'.
Rysunek 4. Częstość wyboru modelu
AR(1) za pomocą kryterium informacyjnego AIC
Rysunek 5. Częstość wyboru modelu
MA(1) za pomocą kryterium informacyjnego AIC
Rysunek 6. Częstość wyboru modelu
ARMA(1, 1) za pomocą kryterium informacyjnego AIC
Źródło: R. M. Kunst (2003), Testing for Relative Predictive Accuracy: A Critical Viewpoint,
Reihe Ökonomie, 130.
Wyniki wyboru modelu z wykorzystaniem kryterium informacyjnego AIC
przedstawiają rysunki 4-6.
Porównanie kryteriów informacyjnych i predykcyjnych w …
505
Na podstawie rysunku 4 widać wyraźnie, że kryterium AIC preferuje model AR dla niskich wartości parametrów  i wysokich wartości parametrów .
Natomiast model MA jest wybierany przez kryterium AIC, gdy wartości parametrów  są wysokie, a wartości parametrów  są niskie (por. rysunek 5). Model ARMA(1, 1) jest wybierany w 100% przypadków, gdy zarówno parametry
, jak i  są wystarczająco wysokie (por. rysunek 6).
Warto podkreślić, że wyniki wyboru modelu za pomocą kryterium predykcyjnego MSE oraz kryterium informacyjnego AIC są dość podobne, tj. dla podobnych obszarów parametrów  i  zarówno kryterium MSE, jak i AIC, wybiera model niewłaściwy (AR czy MA), a także dla podobnych wartości parametrów  i  kryteria te wybierają model ARMA(1, 1). Różnice występują jedynie w częstości występowania danego typu modelu.
Wyniki otrzymane w eksperymencie symulacyjnym stały się podstawą
sformułowania zalecenia [Kunst, 2003], aby kryterium predykcyjne MSE stosować wtedy, gdy celem modelowania jest wybór najlepszego modelu prognostycznego, a kryterium informacyjne AIC - gdy celem jest wybór modelu prawdziwego. O ile to pierwsze zalecenie jest dość naturalne, o tyle to drugie jest
trudne do spełnienia w praktyce ekonomicznej ze względu na nieznajomość
modelu generującego. W związku z tym warto zastanowić się, na ile przydatne
w wyborze modelu prognostycznego mogą być kryteria informacyjne oraz na
ile wyniki wyboru modelu według kryteriów predykcyjnych i informacyjnych
są zbieżne w sytuacji, gdy analizuje się dane rzeczywiste. Rozważaniom tym
poświęcony jest kolejny podrozdział.
3. Przykład empiryczny
W celu porównania zachowania się kryteriów informacyjnych i predykcyjnych w odniesieniu do wyboru modelu, gdy nie jest znany model generujący,
wykorzystano dane o wskaźniku cen dóbr konsumpcyjnych i usług (CPI) w
Polsce (analogiczny okres roku poprzedniego = 100)3 w latach 1998:012010:12.
Kluczowym zagadnieniem przy wyborze modelu jest kwestia określenia
początkowego zestawu modeli (kandydatów). W prezentowanym przykładzie
zestaw ten obejmował 4 modele: ARIMA(12,1,0), AR(12), ARFIMA i błądzenia przypadkowego (RW, ang. random walk)4. Wybór takiego zestawu modeli
jest odzwierciedleniem długiej (i nierozstrzygniętej) debaty5 w literaturze eko3
Dane pochodzą z Biuletynu Statystycznego GUS.
Rząd autoregresji q = 12 został przyjęty jako potencjalnie najwyższy rząd autoregresji przy
założeniu miesięcznego charakteru danych.
5
Do prac poruszających kwestię wyboru między trendem stochastycznym (niestacjonarność w
wariancji) a trendem deterministycznym (niestacjonarność w średniej) należą m.in. Nelson, Plosser, 1982; Stock, Watson, 1986; Quah, 1987; Perron, Phillips,1987; Christiano, Eichenbaum,1990; Rudebusch,1993; Diebold, Senhadji, 1996; Murray, Nelson, 1998. Wskazuje się
[Haubricha, Lo, 2001], że powodem nierozstrzygnięcia tej debaty jest błędne założenie o prawdziwości jednej w powyższych hipotez. W ten sposób uwzględnia się jedynie możliwość wystąpienia w badanych szeregach zależności o charakterze trwałego trendu (niestacjonarność w wa4
506
Mariola Piłatowska
nometrycznej dotyczącej typu niestacjonarności procesów ekonomicznych, a w
związku z tym postaci modelu szeregu czasowego. Jeżeli CPI jest procesem o
stacjonarnych przyrostach (czyli procesem niestacjonarnym w wariancji, o
trwałym wpływie zakłóceń na proces, a tym samym nie mającym zdolności
powrotu do średniej), to właściwym modelem jest model ARIMA. Natomiast,
jeżeli CPI jest procesem o stacjonarnych odchyleniach wokół pewnej stałej czy
trendu deterministycznego (czyli CPI jest niestacjonarny w średniej), to poprawnym modelem jest model trendu deterministycznego i/lub autoregresji.
Jeżeli jednak CPI wykazuje tzw. długą pamięć, to właściwym modelem jest
model ARFIMA. Model błądzenia przypadkowego (RW) został przyjęty jako
punkt odniesienia (benchmark model).
W celu wyboru najlepszego modelu prognostycznego, spośród modeli:
ARIMA, AR, ARFIMA i RW, zastosowano kryteria informacyjne: AIC i BIC
oraz kryterium predykcyjne: skumulowany błąd prognoz na jeden okres naprzód (APE), przy czym jako funkcję straty przyjęto błąd kwadratowy (oznaczenie APE_SE) oraz błąd absolutny (oznaczenie APE_AE), jak również standardowe kryteria predykcyjne (MSE, RMSE, U, MAPE). Modele były szacowane w sposób iteracyjny, począwszy od liczby obserwacji 30 (1999:022001:07) powiększanej w każdym kroku o jedną obserwację aż do końca próby
(2010:12). Na każdym etapie były wyznaczane prognozy z poszczególnych
modeli oraz skumulowane błędy prognoz ex post na jeden okres naprzód
(APE_SE i APE_AE). Wyniki, w formie różnic między kryteriami informacyjnymi (AIC, BIC) i kryteriami predykcyjnymi (APE) dla poszczególnych par
modeli w zależności od liczby obserwacji, prezentują rysunki 7 i 8. Różnice
poszczególnych kryteriów dla par modeli należy interpretować następująco:
dodatnia różnica oznacza przewagę (wybór) drugiego modelu w parze, a różnica ujemna - pierwszego modelu w parze. Ze względu na poszukiwanie najlepszego modelu prognostycznego wybór modelu został dokonany na podstawie
wskazań różnic poszczególnych kryteriów pod koniec badanego okresu.
Rysunek 7 (panel 1A) pokazuje, że różnice kryteriów AIC dla par modeli:
ARIMA vs. AR oraz ARIMA vs. RW są ujemne, a zatem model ARIMA jest
lepszy w sensie kryterium AIC i można oczekiwać, że model ten będzie mieć
przewagę prognostyczną nad modelami AR i RW. Natomiast dodatnie różnice
kryteriów AIC dla pary ARIMA vs. ARFIMA wskazują na wybór modelu ARFIMA. Model ARFIMA jest również wybierany jako model lepszy spośród par
modeli: AR vs. ARFIMA (panel 2B; różnice kryteriów AIC są dodatnie) oraz
ARFIMA vs. RW (panel 2C; różnice kryteriów AIC są ujemne). Podsumowując
zatem, model ARFIMA ma przewagę w sensie kryterium AIC na pozostałymi
modelami.
Śledząc przebieg różnic kryteriów BIC dla poszczególnych par modeli
otrzymujemy odmienne decyzje co do wyboru modelu. Model ARIMA jest
lepszy tylko od modelu AR (por. rysunek 7, panel 2A, ujemne różnice BIC),
riancji) i przejściowych fluktuacji (niestacjonarność w średniej), a pomija się zależności o charakterze pośrednim (tzw. długa pamięć), które można by opisać przez ułamkowy proces ARFIMA.
Porównanie kryteriów informacyjnych i predykcyjnych w …
507
natomiast od pozostałych modeli, tj. ARFIMA i RW, jest gorszy w sensie kryterium BIC (panel 2A, dodatnie różnice BIC). Ze względu na to, że model RW
jest lepszy zarówno od modelu AR (rysunek 7, panel 2B), jak i ARFIMA (rysunek 7, panel 2C), to model ten jest wybierany jako model najlepszy według
kryterium BIC.
Rysunek 7. Porównanie kryteriów informacyjnych (AIC – kolumna 1, BIC – kolumna 2) dla par modeli (ARIMA vs. [AR, RW, ARFIMA] – wiersz A, AR vs.
[RW, ARFIMA] – wiersz B, ARFIMA vs. RW – wiersz C) w wyborze modelu.
Przebieg różnic kryteriów predykcyjnych APE_SE (z kwadratowym błędem jako funkcją straty) wskazuje na wybór modelu ARIMA jako modelu najlepszego w sensie APE, czyli z najmniejszym błędem prognoz ex post na jeden
okres naprzód, ponieważ różnice kryteriów APE_SE są ujemne dla par modeli:
ARIMA vs. AR, ARIMA vs. RW, ARIMA vs. ARFIMA (por. rysunek 8, panel
1A). Natomiast na podstawie przebiegu różnic kryteriów predykcyjnych
APE_AE (z absolutnym błędem jako funkcją straty) widać, że model RW jest
508
Mariola Piłatowska
lepszy niż model ARIMA (rysunek 8, panel 2A), AR (rysunek 8, panel 2B) i
ARFIMA (rysunek 8, panel 2C). Różnica w wyborze modelu według kryteriów
predykcyjnych APE_SE i APE_AE wskazuje, że wybór ten zależy od postaci
przyjętej funkcji straty.
Rysunek 8. Porównanie kryteriów predykcyjnych (APE_SE – kolumna 1, APE_AE
– kolumna 2) dla par modeli (ARIMA vs. [AR, RW, ARFIMA] – wiersz A, AR vs.
[RW, ARFIMA] – wiersz B, ARFIMA vs. RW – wiersz C) w wyborze modelu.
Pełne wyniki dotyczące wyboru modelu za pomocą kryteriów informacyjnych i predykcyjnych (APE) zawarte są w tablicy 1.
Podsumowując zatem, wybór najlepszego modelu prognostycznego według
różnych kryteriów jest następujący: kryterium informacyjne AIC wskazuje model ARFIMA, kryterium informacyjne BIC - model RW, kryterium predykcyjne
APE_SE - model ARIMA i kryterium predykcyjne APE_AE - model RW.
Porównanie kryteriów informacyjnych i predykcyjnych w …
Tablica 1. Wybór modelu prognostycznego dla CPI na podstawie
dykcyjnych i informacyjnych
Kryteria wyboru
Pary modeli
AIC
BIC
APE_SE
ARIMA vs. AR
ARIMA
ARIMA
ARIMA
ARIMA vs. RW
ARIMA
RW
ARIMA
ARIMA vs. ARFIMA
ARFIMA
ARFIMA
ARIMA
AR vs. RW
AR
RW
RW
AR vs. ARFIMA
ARFIMA
ARFIMA
AR
ARFIMA vs. RW
ARFIMA
RW
RW
509
kryteriów pre-
APE_AE
ARIMA
RW
ARIMA
RW
AR
RW
Źródło: opracowanie własne.
Tablica 2. Miary dokładności prognoz CPI na 1 okres naprzód w Polsce w okresie
próby 1999:02-2010:12
MODELE
Miary
dokładności prognoz ARIMA(12,1,0) AR(12)
RW
ARFIMA
MSE
0,156
0,142
0,167
0,135
RMSE
0,395
0,377
0,408
0,368
U
1,095
1,000
1,172
0,952
MAPE
0,2802%
0,2860%
0,3161%
0,2795%
Źródło: opracowanie własne.
Jeżeli zastosuje się standardowe kryteria predykcyjne (MSE, RMSE, U, MAPE)
dla okresu próby, tj. 1999:02-2001:07, do wyboru modelu, to jako najlepszy
model prognostyczny według kryterium MSE, RMSE i U otrzymuje sie model
ARIMA, a według procentowego błędu MAPE - model RW (por. tablica 2).
Oznacza to zgodność wyboru najlepszego modelu z wyborem otrzymanym według kryteriów predykcyjnych APE.
W celu sprawdzenia poprawności wyboru modelu przez kryteria informacyjne i predykcyjne wyznaczono prognozy CPI na jeden okres naprzód poza
badaną próbę, tj. na okres 2011:01-2011:06, oraz obliczono miary dokładności
prognoz ex post (por. tablica 3).
Tablica 3. Miary dokładności prognoz CPI na 1 okres naprzód w Polsce w okresie
prognostycznym 2011:01-2011:06
MODELE
Miary
dokładności prognoz ARIMA(12,1,0) AR(12)
RW
ARFIMA
MSE
0,306
0,338
0,318
0,292
RMSE
0,554
0,582
0,564
0,541
U
1,048
1,158
1,088
1,000
MAPE
0,4595%
0,4583%
0,4492%
0,4485%
Źródło: opracowanie własne.
Na podstawie tablicy 3 można zauważyć, że prognozy z modelu RW mają
najmniejsze błędy prognoz, na co wskazują wszystkie miary dokładności. Potwierdzałoby to wybór modelu dokonany według kryterium informacyjnego
BIC oraz kryterium predykcyjnego APE_AE (por. rysunek 7 i 8), jak też we-
510
Mariola Piłatowska
dług MAPE (por. tablica 2). Należy jednak podkreślić, że błędy ex post prognoz
otrzymanych z modelu ARIMA są nieznacznie większe niż z modelu RW, czyli
przewaga prognostyczna modelu RW nad modelem ARIMA jest nieznaczna.
Zaprezentowany przykład empiryczny pokazuje, że w wyborze najlepszego modelu prognostycznego bardziej poprawny wybór otrzymuje się korzystając z kryteriów predykcyjnych APE. Niemniej jednak na uwagę zasługuje informacyjne kryterium BIC, które również poprawnie wskazało najlepszy model
prognostyczny. Stosowanie kryterium informacyjnego AIC daje odmienne decyzje co do wyboru modelu w porównaniu z kryterium BIC, jak i kryteriami
predykcyjnymi, i dlatego należy z ostrożnością podchodzić do wyboru modelu
według tego kryterium.
Zakończenie
Zalecenia Kunsta (2003), aby stosować kryteria predykcyjne do wyboru
najlepszego modelu prognostycznego jest dość naturalne, natomiast zlecenie,
aby stosować kryteria informacyjne, gdy celem jest znalezienie prawdziwego
modelu, jest trudne do utrzymania w praktyce ekonomicznej ze względu na
nieznajomość mechanizmu tworzącego dane (czyli modelu prawdziwego). Nie
oznacza to jednak braku użyteczności kryteriów informacyjnych w wyborze
modelu. Przedstawiony przykład empiryczny wskazuje na większą przydatność
kryterium BIC niż AIC, ponieważ wybór modelu według kryterium BIC był
zgodny z wyborem modelu według kryteriów predykcyjnych (APE_AE, MAPE) i znajdował on potwierdzenie poza próbą w postaci najniższych błędów
prognoz otrzymanych na podstawie modelu RW. Wybór modelu według kryterium AIC był rozbieżny z wyborem otrzymanym według kryteriów predykcyjnych. Jednak dla uogólnienia takiego zachowania kryteriów informacyjnych i
predykcyjnych potrzebne są dalsze analizy empiryczne.
Warto podkreślić przydatność skumulowanego błędu prognoz (APE) w
wyborze najlepszego modelu prognostycznego wyrażającego się w poprawnym
wyborze modelu w kontekście informacji spoza próby. Dodatkowo śledzenie
zmian w przebiegu APE może stanowić podpowiedź co do dezaktualizacji danego modelu i konieczności zastąpienia go nowym. Zaznaczyć jednak trzeba, że
wybór modelu prognostycznego z wykorzystaniem APE może różnić się w zależności od przyjętej funkcji straty.
Literatura
1. Akaike H. (1973), Information Theory as an Extension of the Maximum
Likelihood Principle, w: Petrov B. N., Csaki F., Second International Symposium on Information Theory, Akademia Kiado, Budapest.
2. Armstrong J. S. (2001), Principles of Forecasting, Springer, New York.
3. Armstrong J. S., Fildes R. (1995), On the Selection of Error Measures for
Comparisons Among Forecasting Methods, „Journal of Forecasting”, vol.
14.
Porównanie kryteriów informacyjnych i predykcyjnych w …
511
4. Bhatti M. I., Al-Shanfari H., Hossain M. Z. (2006), Econometric Analysis
of Model Selection and Model Testing, Ashgate.
5. Burnham K. P., Anderson D. R. (2002), Model Selection and Mulitmodel
Inference, Springer.
6. Christiano L. J., Eichenbaum M. (1990), Unit Roots in Real GNP: Do We
Know and Do We Care?, „Carnegie-Rochester Conference Series on Public
Policy”, nr 32.
7. Diebold F. X., Senhadji A. (1996), Deterministic vs. Stochastic Trend in
U.S. GNP. Yet again, NBER Working Papers, nr 5481.
8. Grasa A. A. (1989), Econometric Models Selection: A New Approach,
Kluwer Academic Press, Boston.
9. Haubrich J. G., Lo A. W. (2001), The source and nature of long-term
memory in aggregate output, Federal Reserve Bank of Cleveland „Economic Review”, QII.
10. Mentzer J. T., Kahn K. B. (1995), Forecasting Technique Familiarity, Satisfaction, Usage, and Application, „Journal of Forecasting”, vol. 14.
11. Murray C., Nelson C. (1998), The Uncertain Trend in U.S. GNP, Discussion Papers in Economics at the University of Washington, nr 0074.
12. Nelson, Plosser (1982), Trends and Random Walks in Macroeconomic
Time Series: Some Evidence and Implications, „Journal of Monetary Economics”, vol. 10(2).
13. Perron P., Phillips P. C. B. (1987), Does GNP Have a Unit Root? „Economics Letters”, vol. 23.
14. Piłatowska M. (2010), Kryteria informacyjne w wyborze modelu ekonometrycznego, „Studia i Prace Uniwersytetu Ekonomicznego” w Krakowie.
15. Quah D. (1987), What do we Learn from Unit Roots in Macroeconomic
Series?, NBER Working Papers nr 2450.
16. Rissanen J. (1986), Order estimation by Accumulated Prediction Errors,
„Journal of Applied Probability”, 23A.
17. Rissanen J. (2003), Complexity of Simple Nonlogarithmic Loss Function,
„IEEE Transactions on Information Theory”, 49, 476–484.
18. Rudebusch G. D. (1993), The Uncertain Unit Root in Real GNP, „American
Economic Review”, 83(1), 264–272.
19. Sugiura N. (1978), Further Analysis of the Data by Akaike’s Information
Criterion and the Finite Corrections, „Communications in Statistics, Theory
and Methods”, A7, 13–26.
20. Stock J., Watson M. (1986), Does GNP Have a Unit Root?, „Economics
Letters”, 22(2/3), 147–151.
21. Wagenmaker E-J., Grünwald P., Steyvers M. (2006), Accumulative Prediction Error and the Selection of Time Series Models, „Journal of Mathematical Psychology”, 50, 149–166.
512
Mariola Piłatowska
Streszczenie
Celem artykułu jest porównanie zachowania kryteriów informacyjnych i predykcyjnych w wyborze modelu w przypadku znanego i nieznanego modelu generującego z
punktu widzenia dwóch celów modelowania: poszukiwania modelu prawdziwego i
wyboru najlepszego modelu prognostycznego. Przypadek znanego modelu generującego będzie zilustrowany za pomocą eksperymentu symulacyjnego, a przypadek nieznanego modelu generującego - za pomocą przykładu empirycznego. Wyniki uzyskane na
podstawie przykładu empirycznego wskazują, że przy wyborze modelu prognostycznego oprócz kryteriów predykcyjnych użyteczną rolę może odgrywać kryterium informacyjne BIC ze względu na zgodność decyzji, co do wyboru najlepszego modelu prognostycznego według tych dwóch rodzajów kryteriów, znajdującą potwierdzenie poza próbą (w postaci najniższych błędów prognoz otrzymanych na podstawie wybranego modelu).
Comparison of information and predictive criteria in model selection
(Summary)
The purpose of the paper is to compare the performance of information and predictive criteria in model selection in the case of known and unknown data generating
model taking into account two goals of modeling: searching for a true model and selecting the best forecast model. The case of known data generating model will be illustrated
by simulation experiment, and the case of unknown data generating model by an empirical example. The results obtained from the empirical example indicate that information
criteria may be useful in selecting the forecast model like predictive criteria. Especially
the BIC criterion is worth considering due to the similar choice of model in comparison
with the model selection made by predictive criteria and at the same time the selected
model is the most accurate in making the genuine out-of-sample forecasts.

Podobne dokumenty