t - GRAPE
Transkrypt
t - GRAPE
Stanisław Cichocki Natalia Nehrebecka Zajęcia 15-16 1 1. Sezonowość 2. Zmienne stacjonarne 3. Zmienne zintegrowane 4. Test Dickey-Fullera 5. Rozszerzony test Dickey-Fullera 6. Test KPSS 7. Regresja pozorna 2 - o sezonowości mówimy wtedy gdy zmienna zmienia się w pewnym cyklu, zwykle związanym z cyklem kalendarzowym - np. zmienne kwartalne charakteryzują się sezonowością kwartalną zmienne miesięczne charakteryzują się sezonowością miesięczną - sezonowość w danych może pojawiać się z rożnych powodów: ◦ ◦ czynniki klimatyczne (spadek wartości dodanej w budownictwie w okresie zimowym); czynniki kulturowe (wzrost wartości sprzedaży w okresie świąt) 4 700 600 pass 500 400 300 200 100 1980 1982 1984 1986 1988 1990 1992 5 160 150 140 130 Poland 120 110 100 90 80 70 60 1996 1998 2000 2002 2004 2006 2008 2010 6 - sezonowości należy uwzględnić w modelu jeśli ma ona wpływ na związek między zmienną objaśniającą a objaśnianą jeśli w modelu nie zostanie uwzględniona sezonowość to pojawi się ona w resztach, które nie będą spełniały założeń KMRL - jeśli model ma służyć celom prognostycznym to pominięcie sezonowości pogarsza jakość otrzymanych przewidywań 7 - uwzględnienie problemu sezonowości w procesie estymacji: a) posłużenie się danymi wyrównanymi sezonowo (publikowane przez urzędy statystyczne; samodzielnie można usunąć sezonowość z danych np. korzystając z programu TRAMO/SEATS) b) dodanie do modelu zmiennych zerojedynkowych związanych z poszczególnymi miesiącami/kwartałami 8 c) zastosowanie różnicowania sezonowego zamiast pierwotnych zmiennych stosujemy różnice miedzy tymi zmiennymi a wartościami tych samych zmiennych sprzed roku: ∆s yt = yt − yt −s gdzie: s=4 dla zmiennych kwartalnych s=12 dla zmiennych miesięcznych itd. 9 - zmienna stacjonarna zmienna, której własności nie zmieniają sie wraz z upływem czasu - istnieje kilka definicji stacjonarności, my będziemy posługiwać sie pojęciem słabej (kowariancyjnej) stacjonarności: 1. E( yt ) = µ < ∞ 2. Var ( yt ) = σ 2 < ∞ 3. Cov( yt1 , yt1 +h ) = Cov( yt2 , , yt2 +h ) = γ h dla dowolnych t1 , t2 i h 11 - 1. E( yt ) = µ < ∞ wartość oczekiwana yt jest skończona i stała w czasie - 2. Var ( yt ) = σ 2 < ∞ - wariancja yt jest skończona i stała w czasie - 3. Cov( yt1 , yt1 +h ) = Cov( yt2 , , yt2 +h ) = γ h kowariancja między realizacjami yt zależy jedynie od dystansu w czasie h któryś z warunków niespełniony= zmienna niestacjonarna 12 - 1. E( yt ) = µ < ∞ wartość oczekiwana yt jest skończona i stała w czasie 13 - 2. Var ( yt ) = σ 2 < ∞ - wariancja yt jest skończona i stała w czasie 14 - założenie o stacjonarności zmiennych w modelu jest niezbędne przy wyprowadzaniu rozkładów typowych statystyk testowych używanych przy testowaniu hipotez - badanie stacjonarności zmiennych w modelu może być traktowane jako test diagnostyczny weryfikuje prawdziwość założeń koniecznych do tego, by standardowe procedury testowania hipotez były prawidłowe 15 - przykład zmiennej stacjonarnej: biały szum xt ~ IID(0, σ 2 ) gdzie IID (Independently and Identically Distibuted) oznacza, że realizacje xt są niezależne i mają identyczne rozkłady 16 - przykład zmiennej stacjonarnej: biały szum E ( xt ) = 0 Var ( xt ) = σ 2 Cov ( xt , x s ) = 0 dla t ≠ s 17 - przykład zmiennej stacjonarnej: biały szum 18 - przykład zmiennej stacjonarnej: AR (1) y t = α y t −1 + ε t εt ~ IID (0, σ 2 ) α <1 19 - przykład zmiennej stacjonarnej: AR (1) 20 - standardowa definicja stacjonarności w wielu przypadkach okazuje się zbyt restrykcyjna - zmienne ekonomiczne oscylują nie tyle wokół stałej ale wokół pewnego trendu zmienna stacjonarna wokół trendu (trendostacjonarna) - zmienna trendostacjonarna: yt −E(yt ) (odchylenia od trendu) stacjonarne 21 - przykład zmiennej trendostacjonarnej: trend liniowy yt = α + β t + ε t gdzie ε t jest stacjonarne E ( yt ) = α + β t yt − E ( yt ) = ε t jest stacjonarna 22 - przykład zmiennej trendostacjonarnej: 23 - zmienne zintegrowane: zmienne niestacjonarne, które można sprowadzić do stacjonarności poprzez różnicowanie - zmienna, która po zastosowaniu d-tych różnic staje się zmienną stacjonarną oznaczamy jako: yt ~ I(d) mówimy, ze zmienna y t jest zintegrowana rzędu d 25 - zmienne stacjonarne są zintegrowane rzędu 0: yt ~ I (0 ) 26 - przykład zmiennej niestacjonarnej: błądzenie przypadkowe yt = yt −1 + ε t εt ~ IID (0, σ ) 2 - różnicując zmienną y t (odejmując od obu stron y t − 1) : ∆ yt = ε t - biały szum, zmienna I(0) - wobec tego błądzenie przypadkowe jest zmienną I(1) 27 - przykład zmiennej niestacjonarnej: błądzenie przypadkowe 28 - uważa się, ze znaczna część zmiennych makroekonomicznych jest I(1) - istnieją też zmienne ekonomiczne, które są I(2) - zmienne I(3) stanowią wśród zmiennych ekonomicznych rzadkość albo nie występują wcale 29 -najwcześniejszym i najpopularniejszym testem za pomocą którego badamy czy zmienna jest stacjonarna jest test Dickey-Fullera (test DF) - model: yt = β yt −1 + εt εt IID(0,σ ) ~ 2 H 0 : β = 1 - y t jest błądzeniem przypadkowym, niestacjonarna H 1 : β < 1 - y t jest zmienną stacjonarną AR(1) 31 - odejmując od obu stron y t − 1 : ∆yt = (β −1) yt −1 + εt = ρ yt −1 + εt H 0 : ρ = 0 - yt jest niestacjonarna H1 : ρ ∈ ( −2, 0) - yt jest stacjonarna 32 - problem: nie można używać statystki t do testowania istotności parametru ρ ponieważ rozkłady statystyk testowych są niestandardowe jeśli w modelu występują zmienne niestacjonarne - specjalne tablice z wartościami krytycznymi dla testu DF 33 - test DF przeprowadzamy w następujący sposób: 1. regresja ∆yt na yt −1 2. porównujemy statystykę t dla yt −1 z wartościami krytycznymi testu DF: a) wartość statystyki testowej < wartości krytycznej - odrzucamy H0 o niestacjonarności i przyjmujemy H1 o stacjonarności yt b) wartość statystyki testowej > wartości krytycznej - brak podstaw do odrzucenia H0 o niestacjonarności yt 34 - uwaga techniczna: wielkości krytyczne rozkładu statystki DF są zawsze ujemne 35 200 180 PATENTS 160 140 120 100 80 1960 1965 1970 1975 1980 1985 1990 36 37 Model 1: Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993 Zmienna zależna: PATENTS_d współczynnik błąd standardowy t-Student wartość p --------------------------------------------------------------const -1,24501 4,94797 -0,2516 0,8031 time 0,174235 0,177777 0,9801 0,3349 PATENTS_1 0,0109944 0,0637472 0,1725 0,8642 Średnia arytmetyczna zmiennej zależnej = 3,17879 Odchylenie standardowe zmiennej zależnej = 4,85102 Suma kwadratów reszt = 631,204 Błąd standardowy reszt = 4,58695 Wsp. determinacji R-kwadrat = 0,16179 Skorygowany wsp. R-kwadrat = 0,10591 Statystyka F (2, 30) = 2,8952 (wartość p = 0,0708) Statystyka testu Durbina-Watsona = 1,76372 Autokorelacja reszt rzędu pierwszego = 0,0942516 Logarytm wiarygodności = -95,5185 Kryterium informacyjne Akaike'a (AIC) = 197,037 Kryterium bayesowskie Schwarza (BIC) = 201,527 Kryterium infor. Hannana-Quinna (HQC) = 198,548 38 ? lmtest 1 --autocorr Test Breuscha-Godfreya na autokorelację rzędu pierwszego Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993 Zmienna zależna: uhat współczynnik błąd standardowy t-Student wartość p --------------------------------------------------------------const 1,30039 5,52128 0,2355 0,8155 time 0,0396039 0,193341 0,2048 0,8391 PATENTS_1 -0,0173278 0,0715735 -0,2421 0,8104 uhat_1 0,116587 0,208863 0,5582 0,5810 Wsp. determinacji R-kwadrat = 0,01063 Statystyka testu: LMF = 0,311587, z wartością p = P(F(1,29) > 0,311587) = 0,581 Statystyka testu: TR^2 = 0,350795, z wartością p = P(Chi-kwadrat(1) > 0,350795) = 0,554 Ljung-Box Q' = 0,300061 z wartością p = P(Chi-kwadrat(1) > 0,300061) = 0,584 39 ? lmtest 2 --autocorr Test Breuscha-Godfreya na autokorelację do rzędu 2 Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993 Zmienna zależna: uhat współczynnik błąd standardowy t-Student wartość p --------------------------------------------------------------const 2,85262 6,17640 0,4619 0,6478 time 0,0889756 0,212801 0,4181 0,6791 PATENTS_1 -0,0382570 0,0806616 -0,4743 0,6390 uhat_1 0,129251 0,212352 0,6087 0,5477 uhat_2 0,125921 0,214020 0,5884 0,5610 Wsp. determinacji R-kwadrat = 0,02271 Statystyka testu: LMF = 0,325366, z wartością p = P(F(2,28) > 0,325366) = 0,725 Statystyka testu: TR^2 = 0,749515, z wartością p = P(Chi-kwadrat(2) > 0,749515) = 0,687 Ljung-Box Q' = 0,580661 z wartością p = P(Chi-kwadrat(2) > 0,580661) = 0,748 40 ? lmtest 3 --autocorr Test Breuscha-Godfreya na autokorelację do rzędu 3 Estymacja KMNK z wykorzystaniem 33 obserwacji 1961-1993 Zmienna zależna: uhat współczynnik błąd standardowy t-Student wartość p --------------------------------------------------------------const 4,62748 8,02370 0,5767 0,5689 time 0,142332 0,263324 0,5405 0,5933 PATENTS_1 -0,0618102 0,105447 -0,5862 0,5626 uhat_1 0,152763 0,225686 0,6769 0,5042 uhat_2 0,142247 0,222252 0,6400 0,5275 uhat_3 0,0914337 0,257595 0,3550 0,7254 Wsp. determinacji R-kwadrat = 0,02725 Statystyka testu: LMF = 0,252137, z wartością p = P(F(3,27) > 0,252137) = 0,859 Statystyka testu: TR^2 = 0,899307, z wartością p = P(Chi-kwadrat(3) > 0,899307) = 0,826 Ljung-Box Q' = 0,58507 z wartością p = P(Chi-kwadrat(3) > 0,58507) = 0,9 41 15 10 d1PATENTS 5 0 -5 -10 1965 1970 1975 1980 1985 1990 42 43 44 45 46 47 3 2 1 v2 0 -1 -2 -3 -4 1980 1982 1984 1986 1988 1990 1992 1994 1996 48 49 60 50 40 v1 30 20 10 0 -10 1980 1982 1984 1986 1988 1990 1992 1994 1996 50 51 - często reszty z regresji: ∆ yt = ρ yt −1 + ε t wykazują silną autokorelację - rozszerzony test Dickey-Fullera (test ADF) różni się od standardowego testu DF rozszerzeniem regresji o dodatkowe elementy, których celem jest eliminacja autokorelacji reszt 53 - celem uzyskania statystyki testowej przeprowadzamy regresję: ∆ y t = ρ y t −1 + k ∑ i =1 γ i ∆ y t − i +ε t k gdzie ∑ γ ∆y i =1 i t −i - rozszerzenie - ilość opóźnień k dobieramy tak aby z reszt wyeliminować autokorelację 54 - statystyka testowa dla testu ADF : statystyka t policzona dla oszacowania parametru przy y t − 1 - dla dużych prób tablice wartości krytycznych dla testu ADF są takie same jak w teście DF - dla małych prób, małopróbkowe wartości krytyczne testu DF są jedynie aproksymacją prawdziwych wartości krytycznych testu ADF 55 180 160 140 R_D 120 100 80 60 40 1960 1965 1970 1975 1980 1985 1990 56 57 58 59 60 61 - test KPSS (Kwiatkowski, Philips, Schmidt, Shin) testuje hipotezę zerową o stacjonarności zmiennej - test KPSS: H 0 : σ u2 = 0, zmienna yt jest stacjonarna H1 : σ u2 > 0, zmienna yt jest niestacjonarna - hipotezę zerową odrzucamy gdy statystka testowa > wartości krytycznej - statystyka testowa dla testu KPSS zawsze >0 63 - problem gdy sprzeczne wyniki testu DF i KPSS: - gdy liczba obserwacji w szeregu mała często okazuje się, że niemożliwe jest odrzucenie hipotezy o niestacjonarności w teście ADF ale nie jest możliwe odrzucenie hipotezy o stacjonarności w teście KPSS nie wiemy czy zmienna jest stacjonarna czy niestacjonarna 64 3 2 1 v2 0 -1 -2 -3 -4 1980 1982 1984 1986 1988 1990 1992 1994 1996 65 Zmienna stacjonarna !!! 0,06 0,146 66 - jedną z najważniejszych przyczyn dlaczego testuje się stacjonarność zmiennych problem regresji pozornej (spurious regression) - problem ten może pojawić się w modelu gdzie część zmiennych niestacjonarna najczęściej wtedy gdy zmienna objaśniana i część zmiennych objaśniających jest I(1) - wtedy statystyki t dla zmiennych I(1) okazują się z reguły istotne nawet jeśli miedzy zmiennymi objaśniającymi a zmienną objaśnianą nie ma rzeczywistego związku 68 - wynika to z faktu, iż rozkład statystki t w przypadku, gdy zmienne w modelu są niestacjonarne, nie jest rozkładem t-studenta - problem regresji pozornej może doprowadzić do budowy modelu, w którym zależności miedzy zmiennymi są całkowicie pozorne - gdy zmienna objaśniana i zmienne objaśniające są I(1) nie da się przeprowadzić wnioskowania przy użyciu standardowych statystyk testowych, jednak estymator MNK jest nadal estymatorem zgodnym 69 prostym rozwiązaniem problemu regresji pozornej przekształcenie modelu na model na pierwszych różnicach zmiennych 70 - przykład: y t = α + β xt + u t y t −1 = α + β x t − 1 + u t −1 odejmując stronami uzyskujemy: ∆ y t = β ∆ xt + ε t gdzie ε t = ∆ u t 71 - jeśli yt ~ I (1), xt ~ I (1) to ∆yt ~ I (0), ∆xt ~ I (0) - model na pierwszych różnicach jest modelem stacjonarnym - i można w nim przeprowadzić standardowe wnioskowanie statystyczne za pomocą standardowych statystyk testowych 72 1. 2. 3. 4. 5. Wyjaśnić co to znaczy, że w danych występuje sezonowość. Podać sposoby uwzględnienia sezonowości w procesie modelowania. Podać definicje zmiennej stacjonarnej i trendostacjonarnej. Podać definicje zmiennej I(0) i I (1). Opisać procedurę testowania stacjonarności za pomocą testu Dickey-Fullera. Wyjaśnić, na czym polega zjawisko regresji pozornej. 73 Dziękuję za uwagę 74