Stacjonarnosc_niestacjonarnosc_szeregow_czasowy... - E-SGH

Transkrypt

Stacjonarnosc_niestacjonarnosc_szeregow_czasowy... - E-SGH
1.
2.
3.
4.
5.
Stacjonarnośd i niestacjonarnośd szeregów czasowych
Test ADF i test KPSS
Budowa modeli ARMA dla zmiennych niestacjonarnych
Prognozowanie stóp zwrotu na podstawie modeli ARMA
Relacje kointegrujące finansowych szeregów czasowych oraz
metody ich modelowania
6. Testy pierwiastka jednostkowego w przypadku zmian strukturalnych.
Przykłady.
Test Dickeya-Fullera dla zwrotów logarytmicznych
Przypomnijmy konstrukcję regresji i statystyki testu ADF:
Tę regresję szacujemy metodą najmniejszych kwadratów. Suma opóźnionych składników po prawej
stronie jest potrzebna po to, aby usunąd autokorelację składnika losowego. Statystyka testu ma
postad:
tzn. ma konstrukcję taką jak statystyka testu t Studenta, ale uwaga! To jest
regresja zmiennej stacjonarnej względem zmiennych niestacjonarnych, dlatego rozkład statystyki
ADF bardzo się różni od rozkładu t , mianowicie jest asymetryczny i przesunięty w lewo. Trzeba
więc stosowad wartości krytyczne z odpowiednio przygotowanych tablic.
Hipotezy, sposób wnioskowania:
Hipotezy zerowa i alternatywna dla testu ADF są następujące:
H0: Szereg jest niestacjonarny z powodu występowania pierwiastka jednostkowego,
H1: Szereg jest stacjonarny.
Jeśli obliczona wartośd statystyki testu jest większa niż wartośd krytyczna odczytana z tablic dla
odpowiedniej liczby obserwacji i dla przyjętego poziomu istotności, nie ma podstaw do odrzucenia
hipotezy zerowej o niestacjonarności badanej zmiennej.
Jeśli obliczona wartośd statystyki testu ADF jest mniejsza niż wartośd krytyczna, hipotezę zerową
odrzucamy na rzecz stacjonarności zmiennej.
Badanie stacjonarności przyrostów:
W przypadku, gdy nie odrzucamy hipotezy o braku stacjonarności, należy sprawdzid, czy pierwsze
przyrosty zmiennej są stacjonarne. Budujemy regresję:
Wyznaczamy wartośd statystyki testu, przeprowadzamy wnioskowanie jak poprzednio.
H0 oznacza, że przyrosty zmiennej są niestacjonarne, H1 – że są stacjonarne.
Na ogół, chod nie zawsze, okazuje się, że przyrosty zmiennej są stacjonarne. Oznacza to, że zmienna
jest zintegrowana stopnia 1 – tzn. jest niestacjonarna, ale pierwsze przyrosty wystarczają do
uzyskania stacjonarności.
Ogólnie, zmienna jest zintegrowana stopnia d,
, jeśli jest niestacjonarna, ale można dla niej
otrzymad zmienną stacjonarną poprzez wyznaczanie przyrostów, przy czym d jest najmniejszą
całkowitą liczbą przyrostów wystarczającą do uzyskania stacjonarności.
Przykład przeprowadzenia testu w gretl:
Z menu Zmienna wybieramy polecenie Test ADF, wybieramy liczbę opóźnieo, na ogół wersję ze stałą
oraz wersję ze stałą i z trendem, a także zaznaczamy, że test ma byd wykonany dla zmiennej, a nie dla
przyrostów. Wyniki dla WIG20 są następujące:
Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 8, dla zmiennej lnWIG20
liczebnośd próby 2330
Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)
test z wyrazem wolnym (const)
model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e
Autokorelacja reszt rzędu pierwszego: -0,000
estymowana wartośd (a-1) wynosi: -0,00110439
Statystyka testu: tau_c(1) = -1,12533
asymptotyczna wartośd p = 0,7081
z wyrazem wolnym i trendem liniowym
model: (1 - L)y = b0 + b1*t + (a-1)*y(-1) + ... + e
Autokorelacja reszt rzędu pierwszego: -0,000
estymowana wartośd (a-1) wynosi: -0,00199045
Statystyka testu: tau_ct(1) = -1,611
asymptotyczna wartośd p = 0,7891
Empiryczny poziom istotności, czyli prawdopodobieostwo uzyskania podanej wartości statystyki ADF
przy założeniu prawdziwości hipotezy zerowej, jest wysokie – około 78%. Nie ma zatem podstaw do
odrzucenia hipotezy, że badany szereg jest niestacjonarny.
Dla zwrotów logarytmicznych WIG20: zaznaczamy myszką tę samą zmienną w bazie, wybieramy test
ADF, ale tym razem w wersji bez trendu, i zaznaczamy, że test ma byd przeprowadzony dla
przyrostów zmiennej. Wyniki są następujące:
Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 8, dla zmiennej d_lnWIG20
liczebnośd próby 2329
Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)
test z wyrazem wolnym (const)
model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e
Autokorelacja reszt rzędu pierwszego: -0,000
estymowana wartośd (a-1) wynosi: -0,979089
Statystyka testu: tau_c(1) = -16,1479
asymptotyczna wartośd p = 1,807e-038
Prawdopodobieostwo uzyskania takiej wartości statystyki testu przy założeniu prawdziwości hipotezy
zerowej jest znikomo małe. Hipotezę o braku stacjonarności zwrotów logarytmicznych z WIG20
należy odrzucid.
Test Kwiatkowskiego, Phillipsa, Schmidta i Shina
Jest to test przeznaczony do badania stacjonarności szeregu. Hipotezy zerowa i alternatywna mają
układ odwrotny niż w teście Dickeya-Fullera. Dla testu KPSS:
H0: Szereg czasowy jest stacjonarny,
H1: Szereg czasowy jest niestacjonarny.
Konstrukcja testu:
gdzie jest stacjonarnym składnikiem losowym. Jeśli wariancja składnika losowego jest równa
zeru, wartości
tzn. są stałe dla każdego t. Wtedy proces jest sumą stałej lub stałej
i trendu deterministycznego
oraz stacjonarnego składnika czysto losowego.
Jeśli wariancja składnika losowego w drugim równaniu jest niezerowa, równanie to określa proces
błądzenia losowego. Wtedy proces jest sumą procesu (i ewentualnie trendu
deterministycznego ) oraz stacjonarnego składnika czysto losowego, zatem jest niestacjonarny.
Statystyka testu KPSS ma złożoną konstrukcję i bardzo skomplikowany rozkład prawdopodobieostwa.
Sposób przeprowadzenia testu w gretl
Zastosujemy test do szeregu notowao zamknięcia WIG20 oraz do zwrotów logarytmicznych.
1) Wybieramy Zmienna  Test KPSS i zaznaczamy wersję z trendem. Oto wyniki:
Hipoteza zerowa: proces stacjonarny; test KPSS dla zm. lnWIG20 (z trendem)
Parametr rzędu opóźnienia (lag truncation) = 8
Statystyka testu = 2,66914
10% 5%
2,5% 1%
Krytyczna wart.: 0,119 0,146 0,176 0,216
Jak widad, obliczona wartośd statystyki jest większa niż wartości krytyczne. Zatem hipotezę zerową
o stacjonarności WIG20 należy odrzucid.
2) Teraz wybieramy: Zmienna  Test KPSS i ponieważ chcemy przeprowadzid testowanie dla
przyrostów zmiennej, wybieramy Przyrosty zmiennej ale nie zaznaczamy trendu (dla przyrostów
wystarczy sprawdzid, czy są stacjonarne względem stałej, trend tu nie występuje, co widad
na wykresie). Oto wyniki:
Hipoteza zerowa: proces stacjonarny; test KPSS dla zm. d_lnWIG20 (bez trendu)
Parametr rzędu opóźnienia (lag truncation) = 8
Statystyka testu = 0,153643
10% 5%
2,5% 1%
Krytyczna wart.: 0,347 0,463 0,574 0,739
Obliczona wartośd statystyki testu jest mniejsza niż wartośd krytyczna przy poziomie 0,05 (a nawet
0,10), więc nie ma podstaw do odrzucenia hipotezy zerowej o stacjonarności zwrotów
logarytmicznych.
Model ARMA dla zwrotów logarytmicznych
Wiemy już, że zwroty logarytmiczne są stacjonarne. Sprawdźmy jak wygląda wykres funkcji ACF
i PACF:
ACF dla zmiennej ld_WIG20zam
1
+- 1,96/T^0,5
0.5
0
-0.5
-1
0
2
4
6
8
10
12
14
opóŸnienia
PACF dla zmiennej ld_WIG20zam
1
+- 1,96/T^0,5
0.5
0
-0.5
-1
0
2
4
6
8
10
12
14
opóŸnienia
Funkcja autokorelacji (ACF) i autokorelacji cząstkowej (PACF), test autokorelacji Ljunga-Boxa (Q) dla
procesu: ld_WIG20zam
Opóźnienia ACF
PACF
1 0,0392 * 0,0392 *
2 -0,0112
-0,0127
3 0,0116
0,0125
4 0,0279
0,0268
5 -0,0131
-0,0150
6 -0,0321
-0,0306
7 -0,0246
-0,0232
8 0,0028
0,0035
9 0,0192
0,0200
10 0,0179
0,0186
11 -0,0015
-0,0021
12 -0,0135
-0,0153
13 0,0332
0,0315
14 0,0199
0,0164
Ljung-Box Q *wartośd p+
3,5938 [0,058]
3,8868 [0,143]
4,2003 [0,241]
6,0246 [0,197]
6,4257 [0,267]
8,8494 [0,182]
10,2704 [0,174]
10,2886 [0,245]
11,1563 [0,265]
11,9106 [0,291]
11,9162 [0,370]
12,3447 [0,418]
14,9361 [0,311]
15,8695 [0,321]
Według metodologii Boxa i Jenkinsa, liczba statystycznie istotnych parametrów funkcji PACF sugeruje
wybór liczby opóźnieo w części MA modelu ARMA, liczba istotnych statystycznie parametrów funkcji
ACF sugeruje wybór liczby opóźnieo części AR modelu ARMA.
Sposób postępowania w praktyce jest taki: wybieramy maksymalną możliwą liczbę opóźnieo modelu
ARMA, P i Q, szacujemy modele dla wszystkich kombinacji (p,q), w których p<=P i q<=Q, w celu
ostatecznego wyboru modelu porównujemy wartości kryteriów informacyjnych dla poszczególnych
modeli. Wybieramy tę wersję modelu, dla której kryterium informacyjne przyjmuje wartośd
minimalną.
Sprawdźmy zatem jakie są wyniki estymacji modelu i jaki model wybierzemy dla zwrotów
logarytmicznych WIG20.
Model  Modele szeregów czasowych  Model ARIMA
Pierwszy model to model ARMA(1,1):
Model 1: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339
Estymacja z wykorzystaniem filtru Kalmana (właściwa ML)
Zmienna zależna: ld_WIG20zam
Zmienna
Wartość p
const
phi_1
theta_1
Współczynnik
7,39103E-05
-0,236293
0,276516
Błąd stand.
0,000373192
0,371098
0,366853
Statystyka t
0,198
-0,637
0,754
0,84301
0,52430
0,45100
Średnia arytmetyczna zmiennej zależnej = 7,43238e-00
Odchylenie standardowe zmiennej zależnej = 0,0174952
Średnia z zaburzeń losowych = 2,1327e-007
wariancja z zaburzeń losowych = 0,000305428
Logarytm wiarygodności = 6144,169
Kryterium informacyjne Akaike'a (AIC) = -12280,3
Kryterium bayesowskie Schwarza (BIC) = -12257,3
Kryterium infor. Hannana-Quinna (HQC) = -12271,9
część Rzeczywista
Urojona
Moduł
Częstość
----------------------------------------------------------AR
Pierwiastek 1
-4,2320
0,0000
4,2320
0,5000
MA
Pierwiastek 1
-3,6164
0,0000
3,6164
0,5000
-----------------------------------------------------------
Drugi model to ARMA(1,0):
Model 2: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339
Estymacja z wykorzystaniem filtru Kalmana (właściwa ML)
Zmienna zależna: ld_WIG20zam
Zmienna
Wartość p
const
phi_1
Współczynnik
7,41093E-05
0,0391713
Błąd stand.
0,000376198
0,0206234
Statystyka t
0,197
1,899
0,84383
0,05752 *
Średnia arytmetyczna zmiennej zależnej = 7,43238e-005
Odchylenie standardowe zmiennej zależnej = 0,0174952
Średnia z zaburzeń losowych = 1,21954e-005
wariancja z zaburzeń losowych = 0,000305482
Logarytm wiarygodności = 6143,9618
Kryterium informacyjne Akaike'a (AIC) = -12281,9
Kryterium bayesowskie Schwarza (BIC) = -12264,7
Kryterium infor. Hannana-Quinna (HQC) = -12275,6
część Rzeczywista
Urojona
Moduł
Częstość
----------------------------------------------------------AR
Pierwiastek 1
25,5289
0,0000
25,5289
0,0000
-----------------------------------------------------------
Trzeci model to ARMA(0,1):
Model 3: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339
Estymacja z wykorzystaniem filtru Kalmana (właściwa ML)
Zmienna zależna: ld_WIG20zam
Zmienna
const
theta_1
Współczynnik
7,40597E-05
0,0401848
Błąd stand.
0,000375981
0,0208690
Statystyka t Wartość p
0,197
0,84385
1,926
0,05416 *
Średnia arytmetyczna zmiennej zależnej = 7,43238e-005
Odchylenie standardowe zmiennej zależnej = 0,0174952
Średnia z zaburzeń losowych = 1,22184e-005
wariancja z zaburzeń losowych = 0,00030547
Logarytm wiarygodności = 6144,0075
Kryterium informacyjne Akaike'a (AIC) = -12282
Kryterium bayesowskie Schwarza (BIC) = -12264,7
Kryterium infor. Hannana-Quinna (HQC) = -12275,7
część Rzeczywista
Urojona
Moduł
Częstość
----------------------------------------------------------MA
Pierwiastek 1
-24,8850
0,0000
24,8850
0,5000
----------------------------------------------------------Kryterium / Model
AIC
BIC
HQC
ARMA(1,1)
-12280,3
-12257,3
-12271,9
ARMA(1,0)
-12281,9
-12264,7
-12275,6
ARMA(0,1)
-12282
-12264,7
-12275,7
Wartośd kryterium jest najmniejsza dla trzeciego modelu, więc według tak przyjętej zasady
należałoby wybrad ten właśnie model.
Jeśli chcemy prognozowad wartości zmiennej, musimy sprawdzid m.in. stabilnośd modelu, stabilnośd
parametrów, oczywiście przeprowadzid pełną weryfikację modelu, ale również sprawdzid dokładnośd
prognoz. W tym celu wyznacza się prognozy „wewnątrz próby”, tzn. dla pewnej liczby ostatnich
obserwacji na podstawie modelu oszacowanego na podstawie początkowej części zbioru obserwacji.
Mamy dzięki temu wartości zmiennej objaśnianej dla tego okresu i możemy wyznaczyd błędy prognoz
ex post. Błąd MAPE – względny absolutny błąd procentowy – jest wielkością unormowaną i na jej
podstawie można porównywad jakośd prognoz dla kilku modeli. Drugą wielkością unormowaną,
umożliwiającą porównywanie modeli, jest współczynnik rozbieżności Theila.
Błędy prognoz:
Dla modelu wyznacza się następujące błędy prognoz i mierniki dokładności dla horyzontu prognozy h:
1) Pierwiastek błędu średniokwadratowego
T h
( yˆ
t T 1 t
RMSE =
y2 ) 2 / h
2) Średni błąd absolutny
T h
| yˆt
yt | / h
=t T 1
MAE
3) Średni absolutny błąd procentowy
T h yˆ
t
100
MAPE =
t T 1
yt
yt
/h
4) Współczynnik rozbieżności Theila
T h
( yˆt
t T 1
T h
yˆt2 / h
t T 1
yt ) 2 / h
T h
yt2 / h
t T 1
0, 1
jest miernikiem unormowanym, przyjmującym wartości z przedziału
. Niskie wartości
współczynnika oznaczają dużą dokładnośd prognoz. Można wyróżnid trzy składowe współczynnika
rozbieżności, odpowiadające przyczynom błędów prognozy:
1) obciążenie prognozy – gdy wartośd oczekiwana prognozy odbiega od wartości zmiennej
prognozowanej;
2) wariancja – na ile model dobrze odwzorowuje wariancję zmiennej prognozowanej;
3) kowariancja – błędy prognoz spowodowane innymi przyczynami niż obciążenie i błędy
wariancji.
Prognozy z modelu ARMA(1,1):
0.08
ld_WIG20zam
prognoza
95 procentowy przedzia³ ufnoŸci
0.06
0.04
0.02
0
-0.02
-0.04
-0.06
-0.08
2200
2220
2240
2260
2280
2300
2320
2340
2260
2280
2300
2320
2340
Prognozy z modelu ARMA(1,0):
0.08
ld_WIG20zam
prognoza
95 procentowy przedzia³ ufnoŸci
0.06
0.04
0.02
0
-0.02
-0.04
-0.06
-0.08
2200
2220
2240
Prognozy z modelu ARMA(0,1):
0.08
ld_WIG20zam
prognoza
95 procentowy przedzia³ ufnoŸci
0.06
0.04
0.02
0
-0.02
-0.04
-0.06
-0.08
2200
2220
2240
2260
2280
2300
2320
Porównanie mierników błędów ex post dla trzech wersji modeli ARMA:
Błąd\Model
MAE
MAPE
RMSE
ARMA(1,1)
0,0162091
0,0106311
0,1345563
ARMA(1,0)
0,0162035
0,0095718
0,1345408
ARMA(0,1)
0,0162054
0,0098342
0,1345475
2340
Kointegracja szeregów czasowych
Definicja: Zmienna y jest zintegrowana stopnia 1, jeśli jest niestacjonarna, ale można ją sprowadzid
do zmiennej stacjonarnej poprzez wyznaczanie przyrostów.
Definicja: Zmienna y jest zintegrowana stopnia d, y ~I(d), jeśli jest niestacjonarna, ale można ją
sprowadzid do zmiennej stacjonarnej poprzez wyznaczanie przyrostów, a d jest najmniejszą całkowitą
liczbą przyrostów wystarczającą do uzyskania stacjonarności.
Definicja: Zmienne x1, x2,…,xk są skointegrowane, jeśli są niestacjonarne (np. I(1)), ale istnieje ich
kombinacja liniowa o niższym stopniu integracji
Uwaga: większośd zmiennych finansowych jest zintegrowanych stopnia 1, więc obniżenie stopnia
integracji oznacza uzyskanie stacjonarnej kombinacji liniowej. Jednak zdarzają się zmienne
zintegrowane stopnia 2 (np. wskaźnik cen w warunkach hiperinflacji), wtedy obniżenie stopnia
integracji do 1 wymaga, aby kombinacja liniowa zawierała drugą zmienną o tym samym najwyższym
stopniu integracji.
Sprawdzanie, czy występuje kointegracja:
1. Metoda Engle’a-Grangera: polega na sprawdzeniu, czy dana kombinacja zmiennych jest
stacjonarna (jeśli znamy współczynniki tej kombinacji liniowej) lub na oszacowaniu regresji
jednej ze zmiennych względem pozostałych metodą najmniejszych kwadratów,
2. Metoda Johansena – otrzymujemy informację o wszystkich możliwych wektorach
kointegrujących dla danego zestawu zmiennych.
Metoda Engle’a-Grangera:
1) Szacujemy MNK regresję jednej ze zmiennych względem pozostałych:
Otrzymujemy oszacowania:
2) Stosujemy test ADF do reszt modelu:
Hipoteza zerowa: reszty są niestacjonarne, co oznacza, że wektor ocen
parametrów MNK nie jest wektorem kointegrującym dla badanych zmiennych,
Hipoteza alternatywna: reszty są stacjonarne, co oznacza, że wektor ocen MNK
powyższej regresji jest wektorem kointegrującym.
Model z mechanizmem korekty błędu:
Jeśli zmienne są skointegrowane, to można dla nich skonstruowad tzw. model
z mechanizmem korekty błędu (ECM, ang. error correction mechanism):
Mechanizm korekty błędu funkcjonuje, jeśli ocena parametru
jest ujemna.

Podobne dokumenty