t - GRAPE

Transkrypt

t - GRAPE
Stanisław Cichocki
Natalia Nehrebecka
Zajęcia 15-16
1
1. Sezonowość
2. Zmienne stacjonarne
3. Zmienne zintegrowane
4. Test Dickey-Fullera
5. Rozszerzony test Dickey-Fullera
6. Test KPSS
7. Regresja pozorna
2
- o sezonowości mówimy wtedy gdy zmienna zmienia się w pewnym cyklu,
zwykle związanym z cyklem kalendarzowym
- np. zmienne kwartalne charakteryzują się sezonowością kwartalną
zmienne miesięczne charakteryzują się sezonowością miesięczną
- sezonowość w danych może pojawiać się z rożnych powodów:
◦
◦
czynniki klimatyczne (spadek wartości dodanej w budownictwie w
okresie zimowym);
czynniki kulturowe (wzrost wartości sprzedaży w okresie świąt)
4
700
600
pass
500
400
300
200
100
1980
1982
1984
1986
1988
1990
1992
5
160
150
140
130
Poland
120
110
100
90
80
70
60
1996
1998
2000
2002
2004
2006
2008
2010
6
- sezonowości należy uwzględnić w modelu jeśli ma ona wpływ na
związek między zmienną objaśniającą a objaśnianą
jeśli w
modelu nie zostanie uwzględniona sezonowość to pojawi się ona w
resztach, które nie będą spełniały założeń KMRL
- jeśli model ma służyć celom prognostycznym to pominięcie sezonowości
pogarsza jakość otrzymanych przewidywań
7
- uwzględnienie problemu sezonowości w procesie estymacji:
a) posłużenie się danymi wyrównanymi sezonowo (publikowane przez
urzędy statystyczne; samodzielnie można usunąć sezonowość z danych
np. korzystając z programu TRAMO/SEATS)
b) dodanie do modelu zmiennych zerojedynkowych związanych z
poszczególnymi miesiącami/kwartałami
8
c) zastosowanie różnicowania sezonowego
zamiast pierwotnych zmiennych stosujemy różnice miedzy tymi
zmiennymi a wartościami tych samych zmiennych sprzed roku:
∆s yt = yt − yt −s
gdzie:
s=4 dla zmiennych kwartalnych
s=12 dla zmiennych miesięcznych itd.
9
- zmienna stacjonarna
zmienna, której własności nie
zmieniają sie wraz z upływem czasu
- istnieje kilka definicji stacjonarności, my będziemy posługiwać
sie pojęciem słabej (kowariancyjnej) stacjonarności:
1. E( yt ) = µ < ∞
2. Var ( yt ) = σ 2 < ∞
3. Cov( yt1 , yt1 +h ) = Cov( yt2 , , yt2 +h ) = γ h dla dowolnych t1 , t2 i h
11
-
1. E( yt ) = µ < ∞ wartość oczekiwana yt jest skończona i stała w czasie
-
2. Var ( yt ) = σ 2 < ∞ - wariancja yt jest skończona i stała w czasie
- 3. Cov( yt1 , yt1 +h ) = Cov( yt2 , , yt2 +h ) = γ h kowariancja między realizacjami yt
zależy jedynie od dystansu w czasie h
któryś z warunków niespełniony= zmienna niestacjonarna
12
-
1. E( yt ) = µ < ∞ wartość oczekiwana yt jest skończona i stała w czasie
13
-
2. Var ( yt ) = σ 2 < ∞ - wariancja yt jest skończona i stała w czasie
14
- założenie o stacjonarności zmiennych w modelu jest niezbędne przy
wyprowadzaniu rozkładów typowych statystyk testowych używanych
przy testowaniu hipotez
- badanie stacjonarności zmiennych w modelu może być traktowane jako
test diagnostyczny
weryfikuje prawdziwość założeń koniecznych
do tego, by standardowe procedury testowania hipotez były prawidłowe
15
- przykład zmiennej stacjonarnej: biały szum
xt ~ IID(0, σ 2 )
gdzie IID (Independently and Identically Distibuted) oznacza, że
realizacje xt są niezależne i mają identyczne rozkłady
16
- przykład zmiennej stacjonarnej: biały szum
E ( xt ) = 0
Var ( xt ) = σ 2
Cov ( xt , x s ) = 0 dla t ≠ s
17
- przykład zmiennej stacjonarnej: biały szum
18
- przykład zmiennej stacjonarnej: AR (1)
y t = α y t −1 + ε t
εt
~
IID (0, σ 2 )
α <1
19
- przykład zmiennej stacjonarnej: AR (1)
20
- standardowa definicja stacjonarności w wielu przypadkach okazuje się
zbyt restrykcyjna
- zmienne ekonomiczne oscylują nie tyle wokół stałej ale wokół pewnego
trendu
zmienna stacjonarna wokół trendu (trendostacjonarna)
- zmienna trendostacjonarna: yt −E(yt ) (odchylenia od trendu)
stacjonarne
21
- przykład zmiennej trendostacjonarnej: trend liniowy
yt = α + β t + ε t gdzie ε t jest stacjonarne
E ( yt ) = α + β t
yt − E ( yt ) = ε t
jest stacjonarna
22
- przykład zmiennej trendostacjonarnej:
23
- zmienne zintegrowane: zmienne niestacjonarne, które można
sprowadzić do stacjonarności poprzez różnicowanie
- zmienna, która po zastosowaniu d-tych różnic staje się zmienną
stacjonarną oznaczamy jako:
yt ~ I(d)
mówimy, ze zmienna y t jest zintegrowana rzędu d
25
- zmienne stacjonarne są zintegrowane rzędu 0:
yt
~
I (0 )
26
- przykład zmiennej niestacjonarnej: błądzenie przypadkowe
yt = yt −1 + ε t
εt
~
IID (0, σ )
2
- różnicując zmienną y t (odejmując od obu stron y t − 1) :
∆ yt = ε t
- biały szum, zmienna I(0)
- wobec tego błądzenie przypadkowe jest zmienną I(1)
27
- przykład zmiennej niestacjonarnej: błądzenie przypadkowe
28
- uważa się, ze znaczna część zmiennych makroekonomicznych jest I(1)
- istnieją też zmienne ekonomiczne, które są I(2)
- zmienne I(3) stanowią wśród zmiennych ekonomicznych rzadkość albo nie
występują wcale
29
-najwcześniejszym i najpopularniejszym testem za pomocą którego
badamy czy zmienna jest stacjonarna jest test Dickey-Fullera (test DF)
- model:
yt = β yt −1 + εt
εt IID(0,σ )
~
2
H 0 : β = 1 - y t jest błądzeniem przypadkowym, niestacjonarna
H 1 : β < 1 - y t jest zmienną stacjonarną AR(1)
31
- odejmując od obu stron y t − 1 :
∆yt = (β −1) yt −1 + εt = ρ yt −1 + εt
H 0 : ρ = 0 - yt jest niestacjonarna
H1 : ρ ∈ ( −2, 0) - yt jest stacjonarna
32
- problem: nie można używać statystki t do testowania istotności parametru
ρ ponieważ rozkłady statystyk testowych są niestandardowe jeśli w
modelu występują zmienne niestacjonarne
- specjalne tablice z wartościami krytycznymi dla testu DF
33
- test DF przeprowadzamy w następujący sposób:
1. regresja ∆yt na yt −1
2. porównujemy statystykę t dla yt −1 z wartościami krytycznymi
testu DF:
a) wartość statystyki testowej < wartości krytycznej - odrzucamy H0
o niestacjonarności i przyjmujemy H1 o stacjonarności yt
b) wartość statystyki testowej > wartości krytycznej - brak podstaw do
odrzucenia H0 o niestacjonarności yt
34
- uwaga techniczna: wielkości krytyczne rozkładu statystki DF są zawsze
ujemne
35
200
180
PATENTS
160
140
120
100
80
1960
1965
1970
1975
1980
1985
1990
36
37
Model 1: Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993
Zmienna zależna: PATENTS_d
współczynnik błąd standardowy t-Student wartość p
--------------------------------------------------------------const
-1,24501
4,94797
-0,2516
0,8031
time
0,174235
0,177777
0,9801
0,3349
PATENTS_1
0,0109944
0,0637472
0,1725
0,8642
Średnia arytmetyczna zmiennej zależnej = 3,17879
Odchylenie standardowe zmiennej zależnej = 4,85102
Suma kwadratów reszt = 631,204
Błąd standardowy reszt = 4,58695
Wsp. determinacji R-kwadrat = 0,16179
Skorygowany wsp. R-kwadrat = 0,10591
Statystyka F (2, 30) = 2,8952 (wartość p = 0,0708)
Statystyka testu Durbina-Watsona = 1,76372
Autokorelacja reszt rzędu pierwszego = 0,0942516
Logarytm wiarygodności = -95,5185
Kryterium informacyjne Akaike'a (AIC) = 197,037
Kryterium bayesowskie Schwarza (BIC) = 201,527
Kryterium infor. Hannana-Quinna (HQC) = 198,548
38
? lmtest 1 --autocorr
Test Breuscha-Godfreya na autokorelację rzędu pierwszego
Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993
Zmienna zależna: uhat
współczynnik błąd standardowy t-Student wartość p
--------------------------------------------------------------const
1,30039
5,52128
0,2355
0,8155
time
0,0396039
0,193341
0,2048
0,8391
PATENTS_1
-0,0173278
0,0715735
-0,2421
0,8104
uhat_1
0,116587
0,208863
0,5582
0,5810
Wsp. determinacji R-kwadrat = 0,01063
Statystyka testu: LMF = 0,311587,
z wartością p = P(F(1,29) > 0,311587) = 0,581
Statystyka testu: TR^2 = 0,350795,
z wartością p = P(Chi-kwadrat(1) > 0,350795) = 0,554
Ljung-Box Q' = 0,300061 z wartością p = P(Chi-kwadrat(1) > 0,300061) = 0,584
39
? lmtest 2 --autocorr
Test Breuscha-Godfreya na autokorelację do rzędu 2
Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993
Zmienna zależna: uhat
współczynnik błąd standardowy t-Student wartość p
--------------------------------------------------------------const
2,85262
6,17640
0,4619
0,6478
time
0,0889756
0,212801
0,4181
0,6791
PATENTS_1
-0,0382570
0,0806616
-0,4743
0,6390
uhat_1
0,129251
0,212352
0,6087
0,5477
uhat_2
0,125921
0,214020
0,5884
0,5610
Wsp. determinacji R-kwadrat = 0,02271
Statystyka testu: LMF = 0,325366,
z wartością p = P(F(2,28) > 0,325366) = 0,725
Statystyka testu: TR^2 = 0,749515,
z wartością p = P(Chi-kwadrat(2) > 0,749515) = 0,687
Ljung-Box Q' = 0,580661 z wartością p = P(Chi-kwadrat(2) > 0,580661) = 0,748
40
? lmtest 3 --autocorr
Test Breuscha-Godfreya na autokorelację do rzędu 3
Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993
Zmienna zależna: uhat
współczynnik błąd standardowy t-Student wartość p
--------------------------------------------------------------const
4,62748
8,02370
0,5767
0,5689
time
0,142332
0,263324
0,5405
0,5933
PATENTS_1
-0,0618102
0,105447
-0,5862
0,5626
uhat_1
0,152763
0,225686
0,6769
0,5042
uhat_2
0,142247
0,222252
0,6400
0,5275
uhat_3
0,0914337
0,257595
0,3550
0,7254
Wsp. determinacji R-kwadrat = 0,02725
Statystyka testu: LMF = 0,252137,
z wartością p = P(F(3,27) > 0,252137) = 0,859
Statystyka testu: TR^2 = 0,899307,
z wartością p = P(Chi-kwadrat(3) > 0,899307) = 0,826
Ljung-Box Q' = 0,58507 z wartością p = P(Chi-kwadrat(3) > 0,58507) = 0,9
41
15
10
d1PATENTS
5
0
-5
-10
1965
1970
1975
1980
1985
1990
42
43
44
45
46
47
3
2
1
v2
0
-1
-2
-3
-4
1980
1982
1984
1986
1988
1990
1992
1994
1996
48
49
60
50
40
v1
30
20
10
0
-10
1980
1982
1984
1986
1988
1990
1992
1994
1996
50
51
- często reszty z regresji:
∆ yt = ρ yt −1 + ε t
wykazują silną autokorelację
- rozszerzony test Dickey-Fullera (test ADF) różni się od standardowego
testu DF rozszerzeniem regresji o dodatkowe elementy, których celem jest
eliminacja autokorelacji reszt
53
- celem uzyskania statystyki testowej przeprowadzamy regresję:
∆ y t = ρ y t −1 +
k
∑
i =1
γ i ∆ y t − i +ε t
k
gdzie
∑ γ ∆y
i =1
i
t −i
- rozszerzenie
- ilość opóźnień k dobieramy tak aby z reszt wyeliminować autokorelację
54
- statystyka testowa dla testu ADF : statystyka t policzona dla oszacowania
parametru przy y t − 1
- dla dużych prób tablice wartości krytycznych dla testu ADF są takie same
jak w teście DF
- dla małych prób, małopróbkowe wartości krytyczne testu DF są jedynie
aproksymacją prawdziwych wartości krytycznych testu ADF
55
180
160
140
R_D
120
100
80
60
40
1960
1965
1970
1975
1980
1985
1990
56
57
58
59
60
61
- test KPSS (Kwiatkowski, Philips, Schmidt, Shin) testuje hipotezę zerową o
stacjonarności zmiennej
- test KPSS:
H 0 : σ u2 = 0, zmienna yt jest stacjonarna
H1 : σ u2 > 0, zmienna yt jest niestacjonarna
- hipotezę zerową odrzucamy gdy statystka testowa > wartości
krytycznej
- statystyka testowa dla testu KPSS zawsze >0
63
- problem gdy sprzeczne wyniki testu DF i KPSS:
- gdy liczba obserwacji w szeregu mała często okazuje się, że niemożliwe
jest odrzucenie hipotezy o niestacjonarności w teście ADF ale nie jest
możliwe odrzucenie hipotezy o stacjonarności w teście KPSS
nie
wiemy czy zmienna jest stacjonarna czy niestacjonarna
64
3
2
1
v2
0
-1
-2
-3
-4
1980
1982
1984
1986
1988
1990
1992
1994
1996
65
Zmienna stacjonarna !!!
0,06
0,146
66
- jedną z najważniejszych przyczyn dlaczego testuje się stacjonarność
zmiennych
problem regresji pozornej (spurious regression)
- problem ten może pojawić się w modelu gdzie część zmiennych
niestacjonarna
najczęściej wtedy gdy zmienna objaśniana i część
zmiennych objaśniających jest I(1)
- wtedy statystyki t dla zmiennych I(1) okazują się z reguły istotne nawet
jeśli miedzy zmiennymi objaśniającymi a zmienną objaśnianą nie ma
rzeczywistego związku
68
- wynika to z faktu, iż rozkład statystki t w przypadku, gdy zmienne w
modelu są niestacjonarne, nie jest rozkładem t-studenta
- problem regresji pozornej może doprowadzić do budowy modelu, w
którym zależności miedzy zmiennymi są całkowicie pozorne
- gdy zmienna objaśniana i zmienne objaśniające są I(1)
nie da się przeprowadzić wnioskowania przy użyciu standardowych
statystyk testowych, jednak estymator MNK jest nadal estymatorem
zgodnym
69
prostym rozwiązaniem
problemu regresji pozornej
przekształcenie modelu na model na
pierwszych różnicach zmiennych
70
- przykład:
y t = α + β xt + u t
y t −1 = α + β x t − 1 + u t −1
odejmując stronami uzyskujemy:
∆ y t = β ∆ xt + ε t
gdzie ε t = ∆ u t
71
-
jeśli yt ~ I (1), xt ~ I (1) to ∆yt ~ I (0), ∆xt ~ I (0)
-
model na pierwszych różnicach jest modelem stacjonarnym
-
i można w nim przeprowadzić standardowe wnioskowanie statystyczne
za pomocą standardowych statystyk testowych
72
1.
2.
3.
4.
5.
Wyjaśnić co to znaczy, że w danych występuje
sezonowość. Podać sposoby uwzględnienia sezonowości w
procesie modelowania.
Podać definicje zmiennej stacjonarnej i trendostacjonarnej.
Podać definicje zmiennej I(0) i I (1).
Opisać procedurę testowania stacjonarności za pomocą
testu Dickey-Fullera.
Wyjaśnić, na czym polega zjawisko regresji pozornej.
73
Dziękuję za uwagę
74