badanie_ stacj_w_gretl

Transkrypt

Badanie stacjonarności szeregów czasowych w programie GRETL
Program proponuje następujące rodzaje testów stacjonarności zmiennych:
1. Funkcję autokorelacji i autokorelacji cząstkowej
2. Test Dickeya-Fullera na pierwiastki jednostkowe
3. Periodogram i spektrum procesów
Poniżej omawiamy pierwsze dwie grupy testów.
1. Funkcja autokorelacji (autocorrelations function – ACF)
Funkcja autokorelacyjna dana jest wzorem:
T
(1.1) rk = ρˆ k =
T
∑ (x
t = k +1
T
− x )( xt − k − x ) / ∑ ( xt − x ) =
2
t
t =1
∑ (x
t = k +1
t
− x )( xt − k − x )
Ts 2
W przypadku, gdy badany proces jest stacjonarny kolejne wartości rk powinny być bliskie
zeru. Statystyką badająca istotność kolejnych współczynników korelacji w programie GRETL
jest statystyka Ljunga-Boxa postaci:
k
(1.2)
Q(k ) = T (T + 2)∑ (T − i) −1 ri 2
i =1
Statystyka (1.2) ma rozkład χ2 z k stopniami swobody. Wartości sprawdzianu większe od
wartości krytycznych pozwalają na odrzucenie hipotezy zerowej mówiącej o nieistotności
autokorelacji rzędu k. W przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy
zerowej.
Funkcja autokorelacji cząstkowej (partial autocorrelations function – PACF)
Pozwala ocenić rząd opóźnienia badanego procesu dla modelu autoregresji AR(k) na
podstawie statystyki Quenouilla postaci:
(1.3) Q =
1.96
n
Jeżeli współczynnik autokorelacji cząstkowej jest mniejszy od statystyki Q to nie ma podstaw
do odrzucenia hipotezy o braku związku pomiędzy procesami o odstępie równym k. W
przypadku, gdy wszystkie wartości funkcji autokorelacji cząstkowej są mniejsze od Q należy
wnioskować, że badany proces jest stacjonarny, co więcej, losowy.
ACF i PACF w programie GRETL
W celu oszacowania ACF i PACF oraz statystyk Q(k) i Q w programie GRETL należy
wybrać z menu głównego Zmienna→Korelogram (lub Korelogram menu kontekstowego)
1
2. Testy Dickeya- Fullera na pierwiastki jednostkowe
Test Dickeya- Fullera (test DF) zaproponowany w 1979 r. zwany jest również testem
pierwiastków jednostkowych. Sprawdza on istnienie pierwiastka jednostkowego, tzn.
hipotezę, że ρ=1 w równaniu1:
Komentarz:
(2.1a) yt=ρ yt-1 +∈t
gdzie ∈t jest procesem białego szumu, który z założenia ma średnią równą zero, stałą
wariancję i zerową kowariancję pomiędzy różnymi obserwacjami, jest więc stacjonarny.
Idea użycia równania (2.1a) do badania stacjonarności wywodzi się z faktu, że jeśli ρ<1, to
szereg yt jest stacjonarny (ma zerową średnią i stałą wariancję). W przeciwnym wypadku,
średnia procesu jest również stała, lecz wariancja rośnie wraz ze wzrostem t, czyli yt jest
niestacjonarny.
W praktyce, w celu uniknięcia skutków niestacjonarności regresanta, testowanie parametru
przy opóźnionej zmiennej odbywa się w oparciu o równanie:
(2.1b) ∆yt=δyt-1 +∈t ;
Odrzucenie hipotezy zerowej zakładającej istnienie pierwiastka jednoskowego: H0: δ=0, na
rzecz alternatywnej zakładającej stacjonarność procesu yt: H1: δ<0, pozwala na stwierdzenie,
że zmienna yt jest integrowana rzędu 0 - yt∼I(0) - czyli jest stacjonarna.
Statystyka służąca do weryfikacji hipotezy o istnieniu pierwiastka jednostkowego ma
^
postać: DF =
δ
^
S (δ )
Statystyka DF przypomina sprawdzian testu t-Studenta, lecz nie charakteryzuje się
podobnym rozkładem, lecz jego wartości krytyczne są znacznie wyższe w porównaniu do
rozkładu t- Studenta2.
Jeśli obliczona statystyka DF jest mniejsza od wartości krytycznej dla odpowiedniej liczby
obserwacji (n), to odrzucamy hipotezę zerową (o pierwiastku jednostkowym) na korzyść
Określenie pierwiastek jednostkowy odnosi się do jednostkowego parametru ρ przy yt-1. Stwierdzenie, że
proces yt ma pierwiastek jednostkowy, lub jest zintegrowany rzędu pierwszego jest równoważne.
1
2
Tablice wartości krytycznych znajdują się np. w pracy W. Charemza, D. Deadman [1992], lub
W. Enders
[1995]. Użycie ich nie zawsze jest konieczne, bowiem nowoczesne pakiety do analizy szeregów czasowych
(również GRETL) automatycznie podają wartości krytyczne, lub prawdopodobieństwa odrzucenia hipotezy
zerowej.
2
hipotezy alternatywnej mówiącej o stacjonarności yt 3. Jeśli obliczona statystyka jest większa
od wartości krytycznej, nie ma podstaw do odrzucenia hipotezy zerowej. Następnym etapem
analizy powinno być wtedy testowanie integracji pierwszego rzędu, tzn. jeśli yt ∼ I(1), to ∆yt ∼
I(0). Powtarzamy zatem test, używając ∆yt zamiast yt, gdzie ∆yt oznacza pierwsze różnice
zmiennej yt.
Test Dickeya - Fullera częściej stosuje się do badania stopnia integracji dla zmiennej
generowanej przez proces stochastyczny z dryfem (ang. drift), tzn. dla równania:
(2.1)
∆yt=µ+δyt-1 +∈t
gdzie µ jest stałą (wyrazem wolnym) reprezentującą dryf. Technika testowania jest
analogiczna do wyżej zaprezentowanej
Słabością powyższych testów jest fakt, że nie biorą one pod uwagę możliwości
występowania autokorelacji składnika losowego. Jeśli autokorelacja taka występuje (czyli
składnik losowy nie jest procesem białego szumu) to wtedy estymatory KMNK nie są
efektywne. Prostym rozwiązaniem polecanym przez Dickeya i Fullera jest użycie opóźnionej
zmiennej objaśnianej jako dodatkowej zmiennej objaśniającej w celu usunięcia autokorelacji.
Test ten, zwany jest rozszerzonym testem Dickeya-Fullera –ADF (ang. Augmented DickeyFuller test) i bazuje na oszacowaniach równania:
k
(2.2)
∆yt=µ+δyt-1 + ∑ δi∆yt-i+∈t, lub
i =1
k
(2.2a)
∆yt=δyt-1 + ∑ δi∆yt-i+∈t
i =1
Za pomocą testu Dickeya - Fullera można również testować hipotezę o pierwiastku
jednostkowym przeciwko hipotezie o występowaniu trendu deterministycznego. Badanie
takie przeprowadza się w oparciu o ogólny model postaci:
k
(2.3)
∆yt=α0+δα1t+δyt-i + ∑ δi∆yt-1+∈t
i =1
gdzie zespół hipotez ma postać:
H0: δ= 0 (pierwiastek jednostkowy);
H1: δ<0 (trend deterministyczny);
3
Wartości krytyczne rozkładu DF są ujemne. Oznacza to, że jeśli weźmiemy pod uwagę wartości bezwzględne
(krytyczne i sprawdzianu testu), hipotezę zerową odrzucamy dla wartości większych od wartości krytycznych.
3
Przykłady zastosowania testów na stacjonarność zmiennych w programie GRETL
Przykłady dotyczą sztucznie generowanych zmiennych w oparciu o następujące procesy:
y1t=y1t-1+e1t
y2t=y2t-1+e2t
y3t=y3t-1+e3t
y4t=1+y4t-1+e4t
y5t=-1+y5t-1+e5t
y6t=y6t-1+t+e6t
y7t=1+y7t-1+t+e7t
y8t=0.1y8t-1+e8t
y9t=0.5y9t-1+e9t
y10t=0.9y10t-1+e10t
y11t=0.1y11I-1+t+e11t
y12t=0.5y12t-1+t+e12t
y13t=0.9y13t-1+t+e13t
Sposób generowania procesów y1 – y13 polegał na tym, że najpierw wygenerowano w Excelu
13 zmiennych losowych o długości 100 obserwacji
ze standaryzowanego rozkładu
normalnego (Narzędzia→Analiza Danych→Generowanie Liczb Pseudolosowych). Następnie,
przyjmując w każdym z powyższych przypadków y0=0, obliczano kolejne wartości ykt dla k=
1,...13, t=1,...,100.
W ten sposób wygenerowano zmienne, o których z góry wiadomo, że:
e1,...,e13 – to białoszumowe procesy losowe, zintegrowane rzędu 0, tzn. stacjonarne w średniej
(trend deterministyczny) i wariancji (trend stochastyczny, integracja)
y1, y2, y3 – to procesy random walk, tzn. integrowane rzędu 1, czyli z trendem stochastycznym
y4, y5 – to procesy random walk with drift , tzn.integrowane rzędu 1, czyli z trendem
stochastycznym
y6, y7 – to procesy random walk with trend (ew. drift), czyli zintegrowane rzędu 1 z
dodatkowym trendem liniowym, tzn. trend stochastyczny i deterministyczny
y8, y9, y10 – procesy stacjonarne: bez trendu stochastycznego i deterministycznego
y11, y12, y13 – procesy stacjonarne w wariancji (zintegrowane rzędu 0, czyli bez trendu
stochastycznego), lecz niestacjonarne w średniej (z trendem deterministycznym).
4
Przykład badania stacjonarności za pomocą funkcji autokorelacyjnej w programie GRETL
Po wybraniu z menu kontekstowego opcji Korelogram (lub Zmienna⇒Korelogram) dla
zmiennej e1 otrzymujemy następujące wyniki:
Tablica 1: Wyniki działania funkcji Korelogram zastosowanej do zmiennej e1
Ljung-Box Q' = 20.9197
Stopnie swobody = 14, p-value = 0.1037
1) 0.0661 2) -0.2202 3) -0.1621 4) 0.0097 5) -0.0096
6) -0.1568 7) 0.0511 8) 0.0715 9) 0.0258 10) 0.0085
11) 0.1561 12) -0.1602 13) -0.1451 14) -0.1029
Funkcja autokorelacji cząstkowej (PACF):
1) 0.0661 2) -0.2256 3) -0.1369 4) -0.0220 5) -0.0799
6) -0.1930 7) 0.0477 8) -0.0266 9) -0.0152 10) 0.0326
11) 0.1772 12) -0.2161 13) -0.0279 14) -0.1250
Źródło: Obliczenia własne w programie GRETL
Z tabeli 1 wynika, że poszczególne wartości współczynników autokorelacji są niewielkie,
pozwalające przypuszczać, że można je uznać za równe zero. Niestety statystyka Q(k) – por.
wzór 1.2, która to weryfikuje, jest liczona w programie GRETL jedynie dla ostatniej korelacji
rzędu k=14 (a zatem możemy zweryfikować istotność tylko tej ostatniej autokorealcji). W
tym wypadku statystyka Q(14)=20,9197 jest mniejsza od 5% wartości krytycznej rozkładu χ2
z 14 stopniami swobody wynoszącej χ20.05=23,68484. Nie ma zatem podstaw do odrzucenie
hipotezy zerowej o braku autokorelacji rzędu 14 (o czym świadczy również wartość p-value).
Ponieważ w podanym przykładzie nie występują przesłanki do badania autokorelacji
określonego rzędu (w przeciwieństwie do danych kwartalnych lub miesięcznych, gdzie bada
się autokorelację 4 lub 12 rzędu) obliczymy funkcję autokorelacyjną rzędu 1. W tym celu po
wybraniu opcji Korelogram należy wpisać wartość 1 w oknie Maksymalne opóźnienie. Po
wykonaniu tych czynności dostajemy wyniki z tabeli 2.
Tablica 2:Wyniki działania funkcji Korelogram zastosowanej do zmiennej e1 z opóźnieniem 1
Ljung-Box Q' = 0.4408
Stopnie swobody = 1, p-value = 0.5067
1) 0.0661
Funkcja autokorelacji cząstkowej (PACF):
1) 0.0661
Oczywiście wartości autokorelacji są identyczne, lecz w tym wypadku otrzymujemy
statystykę Q(1) pozwalającą przetestować autokorelację rzędu 1. Ponieważ Q(1)=0,4408 jest
mniejsza od 5% wartości krytycznej rozkładu χ2 z 1 stopniem swobody wynoszącej
χ20.05=3,841 zatem stwierdzamy, że autokorelację rzędu 1 można uznać za równą zeru. Jest to
zgodne z przewidywaniami, ponieważ wiadomo, że e1 jest procesem losowym.
4
Wartości krytyczne rozkładu możemy uzyskać w programie GRETL w menu Narzędzia⇒Tablice Statystyczne
5
Przykład badania stacjonarności za pomocą testów Dickeya-Fullera w programie GRETL- dla
stacjonarnego procesu e1 bez trendu liniowego
Testy Dickeya –Fullera weryfikują następujący zespół hipotez:
H0: yt jest integrowane rzędu 1, tzn. w procesie występuje pierwiastek jednostkowy (trend
stochastyczny)
H1: yt jest integrowane rzędu 0, tzn. stacjonarne, bez trendu stochastycznego (lecz w dalszym
ciągu z możliwością występowania trendu deterministycznego)
W programie GRETL możliwe jest testowanie następujących specyfikacji modelu: (2.1),
(2.1a), (2.2) oraz modyfikacji tych postaci z dołączonymi zmiennymi opóźnionymi w celu
wyeliminowanie autorkorelacji zakłóceń, tzn. (2.2), (2.2a), (2.3). Aby zastosować test DF w
programie GRETL należy z menu głównego wybrać: Zmienna→Test ADF (lub z menu
konteksowego Test Dickeya-Fullera) a następnie zaznaczyć trzy pierwsze specyfikacje
modelu, tzn.:
-
test bez wyrazu wolnego (2.2a)
-
test z wyrazem wolnym (2.2)
-
test z trendem liniowym (2.3)
Rys. 1: Pole wyboru testu ADF
Źródło: Program GRETL
6
Domyślnie GRETL wyświetla wartości statystyk dla równań (2.2) (2.2a) i (2.3) przy k=1,
lecz można to zmienić, co jest polecane w przypadku danych o określonej częstotliwości.
Ponieważ w naszym przypadku nie zachodzi niebezpieczeństwo autokorelacji wybieramy
k=0, co powoduje oszacowanie prostszych wersji powyższych równań a mianowicie postaci
(2.1a), (2.1) i (2.2). Zastosowanie postaci z trendem liniowym (2.2) lub (2.3) jest wskazane
wówczas, gdy wiadomo, że badana zmienna wykazuje trend deterministyczny. Natomiast
wybór postaci z wyrazem wolnym i bez nie wpływa zasadniczo na wyniki testów.
Wyniki działania funkcji ADF pokazuje tabela 3:
Tabela 3: Test DF dla zmiennej e1 dla równań (2.1a), (2.1), (2.2) - k=0
Test Dickeya-Fullera dla e1
liczebność próby 99
Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)
test bez wyrazu wolnego (const)
model: (1 - L)y = (a-1)*y(-1) + e
estymowana wartość (a-1) wynosi: -0.93223
statystyka testu: t = -9.19279
p-value 2.141e-034
test z wyrazem wolnym (const)
model: (1 - L)y = b0 + (a-1)*y(-1) + e
p-value 5.148e-009
z wyrazem wolnym i trendem liniowym
model: (1 - L)y = b0 + b1*t + (a-1)*y(-1) + e
p-value 1.969e-011
Program GRETL nie podaje wartości krytycznych (które nie można również wygenerować w
programie, lecz można znaleźć w podręcznikach) lecz wartość p, która mówi o poziomie
istotności dla którego można odrzucić hipotezę zerową. Jeżeli zdecydujemy się wnioskować
na 5% poziomie istotności, to wartości p-value poniżej 0,05 będą świadczyć o stacjonarności
zmiennej.
W naszym przypadku, zgodnie z oczekiwaniami wartości p z wszystkich trzech regresji (por.
tablica 3) są znacznie niższe od 0,05, zatem stwierdzamy, że badany proces e1 jest stacjonarny
7
Przykład badania stacjonarności za pomocą testów Dickeya-Fullera w programie GRETL- dla
stacjonarnego procesu y11 z trendem liniowym
W przypadku, gdy badana zmienna wykazuje liniowy trend deterministyczny, użycie
testów (2.1a), (2.1) lub (2.2a) (2.2) wskaże na występowanie pierwiastka jednostkowego,
czyli integracji pierwszego stopnia. Podejmiemy zatem decyzję o niestacjonarności zmiennej,
lecz błędnie rozpoznamy przyczynę tej niestacjonarności w postaci trendu stochastycznego,
podczas gdy niestacjonarność jest wywołana przez trend deterministyczny. W tablicy 4
pokazana jest właśnie taka sytuacja, gdy dla zmiennej y11, o której wiadomo, że
charakteryzuje się jedynie trendem deterministycznym, z dwóch pierwszych regresji
otrzymujemy bardzo wysoką wartość p, wskazującą na występowanie pierwiastka
jednostkowego.
Tablica 4: Test DF dla zmiennej y11 bez pierwiastka jednostkowego z trendem liniowym
Test Dickeya-Fullera dla y11
liczebność próby 99
Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)
test bez wyrazu wolnego (const)
model: (1 - L)y = (a-1)*y(-1) + e
estymowana wartość (a-1) wynosi: 0.0151155
statystyka testu: t = 6.28497
p-value 1
test z wyrazem wolnym (const)
model: (1 - L)y = b0 + (a-1)*y(-1) + e
p-value 0.9265
z wyrazem wolnym i trendem liniowym
model: (1 - L)y = b0 + b1*t + (a-1)*y(-1) + e
p-value 6.06e-010
Jeśli natomiast użyjemy do badania regresji trzeciej, uwzględniającej liniowy trend
deterministyczny, to podejmiemy właściwą decyzję o braku integracji (pierwiastka
jednostkowego). Wartość p dla tej regresji wynosi p-value=0,000000000606 i jest znacznie
niższa od poziomu istotności rzędu 0,05, co pozwala odrzucić hipotezę o pierwiastku
jednostkowym.
8
NOTATNIK
Uwagi ogólne do programu GRETL:
1. Zarówno zmienne, jak i foldery nie powinny zawierać polskich znaków oraz nazw
dłuższych niż 8 znaków
2. Aby były dostępne funkcje do analizy szeregów czasowych należy określić właściwą
strukturę danych: Próba→Struktura danych→Szeregi czasowe
9

badanie_ stacj_w_gretl

Transkrypt

Podobne dokumenty

STATYSTYKA NIELEGALNA ADOPCJA (ART.211A)

statystyka eutanazja (art. 150)

statystyka kazirodztwo (art. 201)

Zadanie Przedluzenie_umowyT=200 - e

Ogłoszenie Wojewody Łódzkiego o zamiarze ustalenia

prognozowanie przychodów ze sprzedaży na przykładzie