Stacjonarnosc_niestacjonarnosc_szeregow_czasowy... - E-SGH
Transkrypt
Stacjonarnosc_niestacjonarnosc_szeregow_czasowy... - E-SGH
1. 2. 3. 4. 5. Stacjonarnośd i niestacjonarnośd szeregów czasowych Test ADF i test KPSS Budowa modeli ARMA dla zmiennych niestacjonarnych Prognozowanie stóp zwrotu na podstawie modeli ARMA Relacje kointegrujące finansowych szeregów czasowych oraz metody ich modelowania 6. Testy pierwiastka jednostkowego w przypadku zmian strukturalnych. Przykłady. Test Dickeya-Fullera dla zwrotów logarytmicznych Przypomnijmy konstrukcję regresji i statystyki testu ADF: Tę regresję szacujemy metodą najmniejszych kwadratów. Suma opóźnionych składników po prawej stronie jest potrzebna po to, aby usunąd autokorelację składnika losowego. Statystyka testu ma postad: tzn. ma konstrukcję taką jak statystyka testu t Studenta, ale uwaga! To jest regresja zmiennej stacjonarnej względem zmiennych niestacjonarnych, dlatego rozkład statystyki ADF bardzo się różni od rozkładu t , mianowicie jest asymetryczny i przesunięty w lewo. Trzeba więc stosowad wartości krytyczne z odpowiednio przygotowanych tablic. Hipotezy, sposób wnioskowania: Hipotezy zerowa i alternatywna dla testu ADF są następujące: H0: Szereg jest niestacjonarny z powodu występowania pierwiastka jednostkowego, H1: Szereg jest stacjonarny. Jeśli obliczona wartośd statystyki testu jest większa niż wartośd krytyczna odczytana z tablic dla odpowiedniej liczby obserwacji i dla przyjętego poziomu istotności, nie ma podstaw do odrzucenia hipotezy zerowej o niestacjonarności badanej zmiennej. Jeśli obliczona wartośd statystyki testu ADF jest mniejsza niż wartośd krytyczna, hipotezę zerową odrzucamy na rzecz stacjonarności zmiennej. Badanie stacjonarności przyrostów: W przypadku, gdy nie odrzucamy hipotezy o braku stacjonarności, należy sprawdzid, czy pierwsze przyrosty zmiennej są stacjonarne. Budujemy regresję: Wyznaczamy wartośd statystyki testu, przeprowadzamy wnioskowanie jak poprzednio. H0 oznacza, że przyrosty zmiennej są niestacjonarne, H1 – że są stacjonarne. Na ogół, chod nie zawsze, okazuje się, że przyrosty zmiennej są stacjonarne. Oznacza to, że zmienna jest zintegrowana stopnia 1 – tzn. jest niestacjonarna, ale pierwsze przyrosty wystarczają do uzyskania stacjonarności. Ogólnie, zmienna jest zintegrowana stopnia d, , jeśli jest niestacjonarna, ale można dla niej otrzymad zmienną stacjonarną poprzez wyznaczanie przyrostów, przy czym d jest najmniejszą całkowitą liczbą przyrostów wystarczającą do uzyskania stacjonarności. Przykład przeprowadzenia testu w gretl: Z menu Zmienna wybieramy polecenie Test ADF, wybieramy liczbę opóźnieo, na ogół wersję ze stałą oraz wersję ze stałą i z trendem, a także zaznaczamy, że test ma byd wykonany dla zmiennej, a nie dla przyrostów. Wyniki dla WIG20 są następujące: Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 8, dla zmiennej lnWIG20 liczebnośd próby 2330 Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1) test z wyrazem wolnym (const) model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e Autokorelacja reszt rzędu pierwszego: -0,000 estymowana wartośd (a-1) wynosi: -0,00110439 Statystyka testu: tau_c(1) = -1,12533 asymptotyczna wartośd p = 0,7081 z wyrazem wolnym i trendem liniowym model: (1 - L)y = b0 + b1*t + (a-1)*y(-1) + ... + e Autokorelacja reszt rzędu pierwszego: -0,000 estymowana wartośd (a-1) wynosi: -0,00199045 Statystyka testu: tau_ct(1) = -1,611 asymptotyczna wartośd p = 0,7891 Empiryczny poziom istotności, czyli prawdopodobieostwo uzyskania podanej wartości statystyki ADF przy założeniu prawdziwości hipotezy zerowej, jest wysokie – około 78%. Nie ma zatem podstaw do odrzucenia hipotezy, że badany szereg jest niestacjonarny. Dla zwrotów logarytmicznych WIG20: zaznaczamy myszką tę samą zmienną w bazie, wybieramy test ADF, ale tym razem w wersji bez trendu, i zaznaczamy, że test ma byd przeprowadzony dla przyrostów zmiennej. Wyniki są następujące: Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 8, dla zmiennej d_lnWIG20 liczebnośd próby 2329 Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1) test z wyrazem wolnym (const) model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e Autokorelacja reszt rzędu pierwszego: -0,000 estymowana wartośd (a-1) wynosi: -0,979089 Statystyka testu: tau_c(1) = -16,1479 asymptotyczna wartośd p = 1,807e-038 Prawdopodobieostwo uzyskania takiej wartości statystyki testu przy założeniu prawdziwości hipotezy zerowej jest znikomo małe. Hipotezę o braku stacjonarności zwrotów logarytmicznych z WIG20 należy odrzucid. Test Kwiatkowskiego, Phillipsa, Schmidta i Shina Jest to test przeznaczony do badania stacjonarności szeregu. Hipotezy zerowa i alternatywna mają układ odwrotny niż w teście Dickeya-Fullera. Dla testu KPSS: H0: Szereg czasowy jest stacjonarny, H1: Szereg czasowy jest niestacjonarny. Konstrukcja testu: gdzie jest stacjonarnym składnikiem losowym. Jeśli wariancja składnika losowego jest równa zeru, wartości tzn. są stałe dla każdego t. Wtedy proces jest sumą stałej lub stałej i trendu deterministycznego oraz stacjonarnego składnika czysto losowego. Jeśli wariancja składnika losowego w drugim równaniu jest niezerowa, równanie to określa proces błądzenia losowego. Wtedy proces jest sumą procesu (i ewentualnie trendu deterministycznego ) oraz stacjonarnego składnika czysto losowego, zatem jest niestacjonarny. Statystyka testu KPSS ma złożoną konstrukcję i bardzo skomplikowany rozkład prawdopodobieostwa. Sposób przeprowadzenia testu w gretl Zastosujemy test do szeregu notowao zamknięcia WIG20 oraz do zwrotów logarytmicznych. 1) Wybieramy Zmienna Test KPSS i zaznaczamy wersję z trendem. Oto wyniki: Hipoteza zerowa: proces stacjonarny; test KPSS dla zm. lnWIG20 (z trendem) Parametr rzędu opóźnienia (lag truncation) = 8 Statystyka testu = 2,66914 10% 5% 2,5% 1% Krytyczna wart.: 0,119 0,146 0,176 0,216 Jak widad, obliczona wartośd statystyki jest większa niż wartości krytyczne. Zatem hipotezę zerową o stacjonarności WIG20 należy odrzucid. 2) Teraz wybieramy: Zmienna Test KPSS i ponieważ chcemy przeprowadzid testowanie dla przyrostów zmiennej, wybieramy Przyrosty zmiennej ale nie zaznaczamy trendu (dla przyrostów wystarczy sprawdzid, czy są stacjonarne względem stałej, trend tu nie występuje, co widad na wykresie). Oto wyniki: Hipoteza zerowa: proces stacjonarny; test KPSS dla zm. d_lnWIG20 (bez trendu) Parametr rzędu opóźnienia (lag truncation) = 8 Statystyka testu = 0,153643 10% 5% 2,5% 1% Krytyczna wart.: 0,347 0,463 0,574 0,739 Obliczona wartośd statystyki testu jest mniejsza niż wartośd krytyczna przy poziomie 0,05 (a nawet 0,10), więc nie ma podstaw do odrzucenia hipotezy zerowej o stacjonarności zwrotów logarytmicznych. Model ARMA dla zwrotów logarytmicznych Wiemy już, że zwroty logarytmiczne są stacjonarne. Sprawdźmy jak wygląda wykres funkcji ACF i PACF: ACF dla zmiennej ld_WIG20zam 1 +- 1,96/T^0,5 0.5 0 -0.5 -1 0 2 4 6 8 10 12 14 opónienia PACF dla zmiennej ld_WIG20zam 1 +- 1,96/T^0,5 0.5 0 -0.5 -1 0 2 4 6 8 10 12 14 opónienia Funkcja autokorelacji (ACF) i autokorelacji cząstkowej (PACF), test autokorelacji Ljunga-Boxa (Q) dla procesu: ld_WIG20zam Opóźnienia ACF PACF 1 0,0392 * 0,0392 * 2 -0,0112 -0,0127 3 0,0116 0,0125 4 0,0279 0,0268 5 -0,0131 -0,0150 6 -0,0321 -0,0306 7 -0,0246 -0,0232 8 0,0028 0,0035 9 0,0192 0,0200 10 0,0179 0,0186 11 -0,0015 -0,0021 12 -0,0135 -0,0153 13 0,0332 0,0315 14 0,0199 0,0164 Ljung-Box Q *wartośd p+ 3,5938 [0,058] 3,8868 [0,143] 4,2003 [0,241] 6,0246 [0,197] 6,4257 [0,267] 8,8494 [0,182] 10,2704 [0,174] 10,2886 [0,245] 11,1563 [0,265] 11,9106 [0,291] 11,9162 [0,370] 12,3447 [0,418] 14,9361 [0,311] 15,8695 [0,321] Według metodologii Boxa i Jenkinsa, liczba statystycznie istotnych parametrów funkcji PACF sugeruje wybór liczby opóźnieo w części MA modelu ARMA, liczba istotnych statystycznie parametrów funkcji ACF sugeruje wybór liczby opóźnieo części AR modelu ARMA. Sposób postępowania w praktyce jest taki: wybieramy maksymalną możliwą liczbę opóźnieo modelu ARMA, P i Q, szacujemy modele dla wszystkich kombinacji (p,q), w których p<=P i q<=Q, w celu ostatecznego wyboru modelu porównujemy wartości kryteriów informacyjnych dla poszczególnych modeli. Wybieramy tę wersję modelu, dla której kryterium informacyjne przyjmuje wartośd minimalną. Sprawdźmy zatem jakie są wyniki estymacji modelu i jaki model wybierzemy dla zwrotów logarytmicznych WIG20. Model Modele szeregów czasowych Model ARIMA Pierwszy model to model ARMA(1,1): Model 1: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339 Estymacja z wykorzystaniem filtru Kalmana (właściwa ML) Zmienna zależna: ld_WIG20zam Zmienna Wartość p const phi_1 theta_1 Współczynnik 7,39103E-05 -0,236293 0,276516 Błąd stand. 0,000373192 0,371098 0,366853 Statystyka t 0,198 -0,637 0,754 0,84301 0,52430 0,45100 Średnia arytmetyczna zmiennej zależnej = 7,43238e-00 Odchylenie standardowe zmiennej zależnej = 0,0174952 Średnia z zaburzeń losowych = 2,1327e-007 wariancja z zaburzeń losowych = 0,000305428 Logarytm wiarygodności = 6144,169 Kryterium informacyjne Akaike'a (AIC) = -12280,3 Kryterium bayesowskie Schwarza (BIC) = -12257,3 Kryterium infor. Hannana-Quinna (HQC) = -12271,9 część Rzeczywista Urojona Moduł Częstość ----------------------------------------------------------AR Pierwiastek 1 -4,2320 0,0000 4,2320 0,5000 MA Pierwiastek 1 -3,6164 0,0000 3,6164 0,5000 ----------------------------------------------------------- Drugi model to ARMA(1,0): Model 2: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339 Estymacja z wykorzystaniem filtru Kalmana (właściwa ML) Zmienna zależna: ld_WIG20zam Zmienna Wartość p const phi_1 Współczynnik 7,41093E-05 0,0391713 Błąd stand. 0,000376198 0,0206234 Statystyka t 0,197 1,899 0,84383 0,05752 * Średnia arytmetyczna zmiennej zależnej = 7,43238e-005 Odchylenie standardowe zmiennej zależnej = 0,0174952 Średnia z zaburzeń losowych = 1,21954e-005 wariancja z zaburzeń losowych = 0,000305482 Logarytm wiarygodności = 6143,9618 Kryterium informacyjne Akaike'a (AIC) = -12281,9 Kryterium bayesowskie Schwarza (BIC) = -12264,7 Kryterium infor. Hannana-Quinna (HQC) = -12275,6 część Rzeczywista Urojona Moduł Częstość ----------------------------------------------------------AR Pierwiastek 1 25,5289 0,0000 25,5289 0,0000 ----------------------------------------------------------- Trzeci model to ARMA(0,1): Model 3: Estymacja ARMA z wykorzystaniem 2338 obserwacji 2-2339 Estymacja z wykorzystaniem filtru Kalmana (właściwa ML) Zmienna zależna: ld_WIG20zam Zmienna const theta_1 Współczynnik 7,40597E-05 0,0401848 Błąd stand. 0,000375981 0,0208690 Statystyka t Wartość p 0,197 0,84385 1,926 0,05416 * Średnia arytmetyczna zmiennej zależnej = 7,43238e-005 Odchylenie standardowe zmiennej zależnej = 0,0174952 Średnia z zaburzeń losowych = 1,22184e-005 wariancja z zaburzeń losowych = 0,00030547 Logarytm wiarygodności = 6144,0075 Kryterium informacyjne Akaike'a (AIC) = -12282 Kryterium bayesowskie Schwarza (BIC) = -12264,7 Kryterium infor. Hannana-Quinna (HQC) = -12275,7 część Rzeczywista Urojona Moduł Częstość ----------------------------------------------------------MA Pierwiastek 1 -24,8850 0,0000 24,8850 0,5000 ----------------------------------------------------------Kryterium / Model AIC BIC HQC ARMA(1,1) -12280,3 -12257,3 -12271,9 ARMA(1,0) -12281,9 -12264,7 -12275,6 ARMA(0,1) -12282 -12264,7 -12275,7 Wartośd kryterium jest najmniejsza dla trzeciego modelu, więc według tak przyjętej zasady należałoby wybrad ten właśnie model. Jeśli chcemy prognozowad wartości zmiennej, musimy sprawdzid m.in. stabilnośd modelu, stabilnośd parametrów, oczywiście przeprowadzid pełną weryfikację modelu, ale również sprawdzid dokładnośd prognoz. W tym celu wyznacza się prognozy „wewnątrz próby”, tzn. dla pewnej liczby ostatnich obserwacji na podstawie modelu oszacowanego na podstawie początkowej części zbioru obserwacji. Mamy dzięki temu wartości zmiennej objaśnianej dla tego okresu i możemy wyznaczyd błędy prognoz ex post. Błąd MAPE – względny absolutny błąd procentowy – jest wielkością unormowaną i na jej podstawie można porównywad jakośd prognoz dla kilku modeli. Drugą wielkością unormowaną, umożliwiającą porównywanie modeli, jest współczynnik rozbieżności Theila. Błędy prognoz: Dla modelu wyznacza się następujące błędy prognoz i mierniki dokładności dla horyzontu prognozy h: 1) Pierwiastek błędu średniokwadratowego T h ( yˆ t T 1 t RMSE = y2 ) 2 / h 2) Średni błąd absolutny T h | yˆt yt | / h =t T 1 MAE 3) Średni absolutny błąd procentowy T h yˆ t 100 MAPE = t T 1 yt yt /h 4) Współczynnik rozbieżności Theila T h ( yˆt t T 1 T h yˆt2 / h t T 1 yt ) 2 / h T h yt2 / h t T 1 0, 1 jest miernikiem unormowanym, przyjmującym wartości z przedziału . Niskie wartości współczynnika oznaczają dużą dokładnośd prognoz. Można wyróżnid trzy składowe współczynnika rozbieżności, odpowiadające przyczynom błędów prognozy: 1) obciążenie prognozy – gdy wartośd oczekiwana prognozy odbiega od wartości zmiennej prognozowanej; 2) wariancja – na ile model dobrze odwzorowuje wariancję zmiennej prognozowanej; 3) kowariancja – błędy prognoz spowodowane innymi przyczynami niż obciążenie i błędy wariancji. Prognozy z modelu ARMA(1,1): 0.08 ld_WIG20zam prognoza 95 procentowy przedzia³ ufnoci 0.06 0.04 0.02 0 -0.02 -0.04 -0.06 -0.08 2200 2220 2240 2260 2280 2300 2320 2340 2260 2280 2300 2320 2340 Prognozy z modelu ARMA(1,0): 0.08 ld_WIG20zam prognoza 95 procentowy przedzia³ ufnoci 0.06 0.04 0.02 0 -0.02 -0.04 -0.06 -0.08 2200 2220 2240 Prognozy z modelu ARMA(0,1): 0.08 ld_WIG20zam prognoza 95 procentowy przedzia³ ufnoci 0.06 0.04 0.02 0 -0.02 -0.04 -0.06 -0.08 2200 2220 2240 2260 2280 2300 2320 Porównanie mierników błędów ex post dla trzech wersji modeli ARMA: Błąd\Model MAE MAPE RMSE ARMA(1,1) 0,0162091 0,0106311 0,1345563 ARMA(1,0) 0,0162035 0,0095718 0,1345408 ARMA(0,1) 0,0162054 0,0098342 0,1345475 2340 Kointegracja szeregów czasowych Definicja: Zmienna y jest zintegrowana stopnia 1, jeśli jest niestacjonarna, ale można ją sprowadzid do zmiennej stacjonarnej poprzez wyznaczanie przyrostów. Definicja: Zmienna y jest zintegrowana stopnia d, y ~I(d), jeśli jest niestacjonarna, ale można ją sprowadzid do zmiennej stacjonarnej poprzez wyznaczanie przyrostów, a d jest najmniejszą całkowitą liczbą przyrostów wystarczającą do uzyskania stacjonarności. Definicja: Zmienne x1, x2,…,xk są skointegrowane, jeśli są niestacjonarne (np. I(1)), ale istnieje ich kombinacja liniowa o niższym stopniu integracji Uwaga: większośd zmiennych finansowych jest zintegrowanych stopnia 1, więc obniżenie stopnia integracji oznacza uzyskanie stacjonarnej kombinacji liniowej. Jednak zdarzają się zmienne zintegrowane stopnia 2 (np. wskaźnik cen w warunkach hiperinflacji), wtedy obniżenie stopnia integracji do 1 wymaga, aby kombinacja liniowa zawierała drugą zmienną o tym samym najwyższym stopniu integracji. Sprawdzanie, czy występuje kointegracja: 1. Metoda Engle’a-Grangera: polega na sprawdzeniu, czy dana kombinacja zmiennych jest stacjonarna (jeśli znamy współczynniki tej kombinacji liniowej) lub na oszacowaniu regresji jednej ze zmiennych względem pozostałych metodą najmniejszych kwadratów, 2. Metoda Johansena – otrzymujemy informację o wszystkich możliwych wektorach kointegrujących dla danego zestawu zmiennych. Metoda Engle’a-Grangera: 1) Szacujemy MNK regresję jednej ze zmiennych względem pozostałych: Otrzymujemy oszacowania: 2) Stosujemy test ADF do reszt modelu: Hipoteza zerowa: reszty są niestacjonarne, co oznacza, że wektor ocen parametrów MNK nie jest wektorem kointegrującym dla badanych zmiennych, Hipoteza alternatywna: reszty są stacjonarne, co oznacza, że wektor ocen MNK powyższej regresji jest wektorem kointegrującym. Model z mechanizmem korekty błędu: Jeśli zmienne są skointegrowane, to można dla nich skonstruowad tzw. model z mechanizmem korekty błędu (ECM, ang. error correction mechanism): Mechanizm korekty błędu funkcjonuje, jeśli ocena parametru jest ujemna.