ex ante - E-SGH

Transkrypt

ex ante - E-SGH
Ekonometria
Wykład 4 – Prognozowanie, sezonowość
Dr Michał Gradzewicz
Katedra Ekonomii I
KAE
Plan wykładu
•
•
•
Prognozowanie
Założenia i własności predykcji ekonometrycznej
Stabilność modelu ekonometrycznego
– Test Chowa
• Prognoza punktowa i jej błąd ex ante
• Prognoza przedziałowa
• Miary trafności ex post prognozy punktowej
–
–
–
–
–
•
•
ME
MAE
MAPE
MSE
RMSE
Sezonowość
Wygładzanie wykładnicze
Prognozowanie
•
•
Prognozowanie ekonometryczne (predykcja ekonometryczna) – wnioskowanie o nieznanych
wartościach zmiennej objaśnianej w oparciu o model ekonometryczny objaśniający
kształtowanie się tej zmiennej
Wynikiem prognozowania jest prognoza:
–
–
•
•
Horyzont prognozy – okres dla którego prognozujemy (pojęcie definiowane wyłącznie dla
prognozy szeregów czasowych)
Model prognostyczny musi:
–
–
•
Punktowa
Przedziałowa
Być wszechstronnie i pozytywnie zweryfikowany (szczególnie założenia związane z twierdzeniem
Gaussa-Markowa)
Przedstawiać stabilne relacje między zmiennymi
Ekstrapolacja zmiennych objaśniających (𝑿) musi być uzasadniona
–
–
Najprościej prognozuje się w przypadku modelu z wszystkimi zmiennymi endogenicznymi (ponieważ
są one wyjaśniane przez model i do prognozowania na wiele okresów możemy podejść do problemu
rekurencyjnie)
W przypadku występowania zmiennych egzogenicznych istotne są sposoby ich determinacji w
horyzoncie prognozy
•
•
•
Ekonometryczne
Zestaw wartości zmiennych egzogenicznych w przyszłości tworzący scenariusz
Każda prognoza ekonometryczna ma charakter warunkowy
Dokładność prognoz i źródła błędów
•
Główne źródła błędów prognoz (nie wszystkie są kwantyfikowalne):
– Błąd estymacji (wynikający z faktu, że 𝛽 ≠ 𝛽)
– Błąd losowy (zazwyczaj zakłada się, że realizacja składnika losowego w horyzoncie
prognozy wynosi 0, co jest prawdą jedynie w sensie wartości oczekiwanej)
– Błąd struktury stochastycznej (założenia MNK, chociaż pozytywnie zweryfikowane mogą
być jednak niespełnione, np. ze względu na poziom istotności testów statystycznych)
– Błąd specyfikacji modelu – niewłaściwy wybór postaci analitycznej dla prognozowanego
zjawiska
– Błąd pomiaru, związany z korektami danych statystycznych (np. w przypadku PKB i jego
komponentów)
– Błąd warunków endogenicznych – zmiana reżimu kształtowania się zmiennych(ej)
objaśnianych(ej) przed model
– Błąd warunków egzogenicznych – przyjęcie błędnych wartości dla zmiennych
objaśniających
•
Błędy prognozy ex post oraz ex ante
Zasady prognozowania
•
Zasady wykonywania prognozy punktowej
– Zasada prognozowania według wartości oczekiwanej, czyli zasada predykcji
nieobciążonej, jest to najczęściej stosowana zasada prognozy
– Zasada prognozowania według największego prawdopodobieństwa – wyznaczenie
prognozy na podstawie dominanty rozkładu prognozowanej zmiennej; w przypadku
spełnienia założenia o normalności składnika losowego pokrywa się ona z poprzednią
zasadą
– Zasada prognozowania według mediany – prognoza punktową jest mediana rozkładu
(czyli prawdopodobieństwo otrzymania większej lub mniejszej wartości wynosi 50%),
rzadko spotykana w praktyce
– Zasada prognozowania minimalizującego oczekiwaną stratę, stosowana gdy błąd
prognozy możemy utożsamić ze stratą, minimalizujemy oczekiwana stratę
Test Chowa stabilności modelu ekonometrycznego
•
•
•
•
•
•
Jak przetestować czy wnioski z modelu (parametry), który oszacowaliśmy, są takie
same w różnych podokresach
Jest to test stabilności parametrów modelu dla dwóch podprób, kiedy punkt
zwrotny, czyli czas podziału, jest znany
Hipotezy testowe:
𝐻0 : 𝜷𝟏 = 𝜷𝟐
𝑣𝑠.
𝐻1 : 𝜷𝟏 ≠ 𝜷𝟐
Szacujemy model dla całego okresu i liczymy jego sumę kwadratów reszt RSS
(𝑅𝑆𝑆 = 𝑇𝑡=1 𝑒𝑡2 ) oraz podobnie dla 2 podokresów (oznaczając je 𝑅𝑆𝑆1 = 𝜏𝑡=1 𝑒𝑡2
oraz 𝑅𝑆𝑆2 = 𝑇𝑡=𝜏+1 𝑒𝑡2 )
Statystyka testowa
(𝑅𝑆𝑆 − 𝑅𝑆𝑆1 − 𝑅𝑆𝑆2 )/(𝑘 + 1)
𝐹=
∼ 𝐹𝑘+1, 𝑇−2 𝑘+1
(𝑅𝑆𝑆1 + 𝑅𝑆𝑆2 )/[𝑇 − 2 𝑘 + 1 ]
Jeśli wartość statystyki testowej jest wyższa od wartości krytycznej (czyli suma
kwadratów reszt z obu podokresów istotnie różni się od sumy kwadratów reszt dla
całego okresu), to odrzucamy 𝐻0 konkludując, że parametry modelu są różne w
obu podpróbach
Prognoza punktowa
•
Dysponujemy oszacowanym modelem
𝑦𝑡 = 𝑏0 + 𝑏1 𝑋1𝑡 + ⋯ 𝑏𝑘 𝑋𝑘𝑡 = 𝒙′𝒕 𝒃
Gdzie 𝒃 jest wektorem oszacowanych parametrów, a 𝒙𝒕 ′ wierszowym wektorem
wartości zmiennych objaśniających w okresie 𝑡
• Niech okres prognozy to 𝜏, 𝜏 > 𝑇
• Prognozą punktową zmiennej 𝑦 w okresie 𝜏 nazywamy:
𝑦𝜏𝑃 = 𝒙′𝝉 𝒃
• Prognoza ta ma charakter warunkowy (jest warunkowana wartościami przyjętych
zmiennych objaśniających)
Błąd prognozy ex ante (1)
•
Błąd prognozy ex ante uwzględnia dwa źródła powstawania błędów prognoz:
– Błędy estymacji (wynikający z faktu, że 𝜷 ≠ 𝒃)
– Błędy struktury stochastycznej modelu (wynikający z faktu, że 𝐷 2 𝜖 > 0)
•
•
•
Błąd prognozy ex ante jest różnicą pomiędzy rzeczywistą, ale nieznaną wartością
zmiennej objaśnianej w okresie 𝜏 w wartością prognozy: 𝑒𝜏𝑃 = 𝑦𝜏 − 𝑦𝜏𝑃
Błąd prognozy jest zmienną losową o zerowej wartości oczekiwanej: 𝐸 𝑒𝜏𝑃 = 0
oraz wariancji:
𝐷 2 𝑒𝜏𝑃 = 𝜎 2 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉
Dlaczego?
– Wartość rzeczywista:
𝑦𝜏 = 𝒙′𝝉 𝜷 + 𝜖𝜏
– Predykcja (pamiętajmy, że 𝐸 𝜖𝜏 = 0):
𝑦𝜏′ = 𝒙′𝝉 𝒃
– Błąd predykcji
𝑒𝜏𝑃 = 𝒙′𝝉 𝜷 + 𝜖𝜏 − 𝒙′𝝉 𝒃 = 𝒙′𝝉 𝜷 − 𝒃 + 𝜖𝜏
– Wartość oczekiwana błędu i jego wariancja (pamiętajmy, że 𝛽 − 𝑏 = 𝛽 − 𝐸[𝛽]):
𝐸 𝑒𝜏𝑃 = 𝒙′𝝉 𝐸 𝜷 − 𝒃 + 𝐸𝜖𝜏 = 0
𝐷2 𝑒𝜏𝑃 = 𝐷2 𝒙′𝝉 𝜷 − 𝒃 + 𝜖𝜏 𝑿; 𝒙𝝉 = 𝜎 2 + 𝐷2 𝜷 − 𝒃 ′𝒙𝝉 𝑿; 𝒙𝝉
= 𝜎 2 + 𝒙′𝝉 [𝜎 2 𝑿′ 𝑿 −1 ]𝒙𝝉 = 𝜎 2 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉
Błąd prognozy ex ante (2)
•
2
2
Estymatorem wariancji składnika losowego 𝜎 jest 𝑆 =
𝑒𝑡2
𝑇−(𝑘+1)
, zatem średni
błąd prognozy ex ante:
•
𝑆𝜏𝑃 = 𝑆 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉
Zatem na dokładność (precyzję) prognozy wpływa:
– Precyzja oszacowania modelu (w sensie wariancji składnika losowego)
– „Względnej odległości” wartości 𝒙𝝉 w okresie prognozy od zmienności wartości 𝑿 w
próbie (na podstawie której dokonujemy estymacji modelu)
•
Z kolei średni względny błąd prognozy ex ante
𝑆𝜏𝑃
𝜗𝜏 = 𝑃
|𝑦𝜏 |
Informuje jak duży jest błąd w relacji do wartości prognozy na okres 𝜏
Prognoza przedziałowa
•
•
•
Znajomość średniego błędu prognozy ex ante pozwala zbudować przedział ufności
dla punktowej prognozy, którego rozpiętość informuje o precyzji prognozy
Jeśli 𝜖𝑡 ∼ 𝑁(⋅,⋅), to zmienna losowa:
𝑦𝜏 − 𝑦𝜏𝑃
𝑡=
∼ 𝑡 𝑇− 𝑘+1 ,𝛼
𝑆𝜏𝑃
Zatem dla danego poziomu ufności 1 − 𝛼 i wartości krytycznej testu 𝑡𝛼
𝑃 𝑦𝜏𝑃 − 𝑡𝛼 𝑆𝜏𝑃 < 𝑦𝜏 < 𝑦𝜏𝑃 + 𝑡𝛼 𝑆𝜏𝑃 = 1 − 𝛼
Ocena ex post prognozy punktowej
•
•
•
•
Załóżmy, że mamy 𝑚 prognoz 𝑦𝜏𝑃 oraz rzeczywistych wartości 𝑦𝜏 , 𝜏 ∈ {1, … , 𝑚}
Różnica 𝑦𝜏 − 𝑦𝜏𝑃 jest błędem prognozy dla okresu 𝜏 (realizacją zmiennej losowej)
W praktyce czasami estymuje się model ekonometryczny na krótszej próbie
{1, … 𝑇 − 𝑚}, aby przeprowadzić analizę kształtowania się błędów prognozy w
podpróbie pozostałych ostatnich obserwacji {𝑇 − 𝑚 + 1, … 𝑇}
Średni błąd predykcji (mean error – ME)
𝑀𝐸 =
•
1
𝑚
𝑚
(𝑦𝜏 − 𝑦𝜏𝑃 )
𝜏=1
powinien być bliski 0 (wyraźne odchylenia od zera oznaczają, że predykcja jest
obciążona), ponieważ błędy in plus są kompensowane błędami in minus
Średni absolutny błąd predykcji (mean absolute error – MAE)
𝑀𝐴𝐸 =
1
𝑚
𝑚
𝑦𝜏 − 𝑦𝜏𝑃
𝜏=1
Porównanie ME i MAE daje informacje o systematycznie wyższych/niższych
prognozach niż realizacjach (w przypadku podobnych wartości obu mierników).
Różne od siebie MAE i ME oznaczają, że błędy mają odmienne znaki
Ocena ex post prognozy punktowej (2)
•
Średni absolutny błąd procentowy (mean absolute percentage error – MAPE)
𝑚
1
𝑦𝜏 − 𝑦𝜏𝑃
𝑀𝐴𝑃𝐸 =
𝑚
𝑦𝜏
𝜏=1
•
Informuje o przeciętnym błędzie skorygowanym o jego znak, w relacji do
wysokości prognoz
Błąd średniokwadratowy (mean square error – MSE)
1
𝑀𝑆𝐸 =
𝑚
•
𝑚
𝑦𝜏 − 𝑦𝜏𝑃
2
𝜏=1
Pierwiastek błędu średniokwadratowego (root mean square error – RMSE)
𝑅𝑀𝑆𝐸 = 𝑀𝑆𝐸 =
1
𝑚
𝑚
𝑦𝜏 − 𝑦𝜏𝑃
2
𝜏=1
Informuje o skali odchyleń prognozy, w sensie średniokwadratowym. RMSE
znacząco różne od MAE świadczy o bardzo wysokich, co do skali, błędach w
okresie prognozy
Jak wygląda sezonowość w danych?
16,000
16,000
15,500
15,500
EMPBA
15,000
15,000
14,500
14,500
14,000
14,000
13,500
13,500
13,000
13,000
12,500
EMPBA
Final seasonally adjusted series
12,500
1996
1998
2000
2002
2004
2006
2008
2010
2012
1996
1998
2000
2002
EMPBA by Season
16,000
15,500
15,000
14,500
14,000
13,500
13,000
12,500
Q1
Q2
Q3
Means by Season
Q4
2004
2006
2008
2010
2012
Radzenie sobie z sezonowością – seasonal dummies
•
•
Sezonowość jest cechą danych w postaci szeregów czasowych o częstotliwości zbierania krótszej niż rok
(najczęściej kwartalnych czy miesięcznych)
Jednym z prostszych sposobów uwzględnienia sezonowości w modelu jest dodanie zmiennych
zerojedynkowych oznaczających dany kwartał (seasonal dummies), np.
𝑦𝑡 = 𝑓 𝑿𝑡 + 𝛾1 𝐷(1) + 𝛾2 𝐷(2) + 𝛾3 𝐷(3) + 𝛾4 𝐷(4) + 𝜖𝑡
Gdzie 𝐷 𝑖 =
•
•
•
•
•
1 𝑗𝑒ś𝑙𝑖 𝑑𝑜𝑡𝑦𝑐𝑧𝑦 𝑡𝑜 𝑘𝑤𝑎𝑟𝑡𝑎𝑙𝑢 𝑖
0 𝑤 𝑝𝑜𝑧𝑜𝑠𝑡𝑎ł𝑦𝑐ℎ 𝑘𝑤𝑎𝑟𝑡𝑎𝑙𝑎𝑐ℎ
Jeśli dane zaczynają się od przykładowo 1Q1995 r., to zmienne te mają postać:
𝐷 1 = 1 0 0 0 1 0 0 0 … 𝑇 , 𝐷 2 = 0 1 0 0 0 1 0 0 0 1 0 … 𝑇 , itp.
Dlaczego nie można uwzględnić łącznie wszystkich zmiennych sezonowych i stałej?
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1𝐷 1 𝐷 2 𝐷 3 𝐷 4 = 1 0 0 0 1
1 1 0 0 0
1 0 1 0 0
… … … … …
Zatem 𝐷 1 + 𝐷 2 + 𝐷 3 + 𝐷 4 = 1, czyli wystąpiłaby dokładna współliniowość
Częściej stosuje się zbliżona postać, typu:
𝑦𝑡 = 𝛾 + 𝑓 𝑿𝑡 + 𝛾2 𝐷(2) + 𝛾3 𝐷(3) + 𝛾4 𝐷(4) + 𝜖𝑡
Stała 𝛾 odpowiada wtedy wartości przeciętnej zmiennej w 1Q, parametr 𝛾2 - o ile Q2 różni się od Q1
(wartość przeciętna w Q2 to 𝛾 + 𝛾2 , gdyż wartość jednostkową przyjmują jedynie stała i zmienna D(2), a
D(3) i D(4) są równe 0)
Radzenie sobie z sezonowością … cd
•
Czasami spotykane jest inne podejście do uniknięcia sezonowości, wykorzystujące fakt, że
suma odchyleń sezonowych w roku jest zerowa:
𝑦𝑡 = 𝛾 + 𝑓 𝑿𝑡 + 𝛾2 𝐷 2 − 𝐷 1 + 𝛾3 𝐷 3 − 𝐷 1 + 𝛾4 𝐷 4 − 𝐷 1 + 𝜖𝑡
Wtedy np. 𝛾2 jest miarą efektu sezonowego w 2Q, podobnie w 3Q i 4Q, a w 1Q 𝛾1 = −(𝛾2 +
𝛾3 + 𝛾4 )
Alternatywa I: modelowanie rocznych przyrostów, czyli np. dla zmiennych kwartalnych:
Δ4 𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−4 (ewentualnie dla logarytmów zmiennej, co prowadzi do dynamik rocznych:
Δ4 ln 𝑦𝑡 = ln 𝑦𝑡 − ln(𝑦𝑡−4 )
Alternatywa II: zastosowanie profesjonalnych programów do odsezonowywania zmiennych –
X-12 (stosowany w US, czy jego nowsza wersja X13) lub TRAMO/SEATS (stosowany w
Europie)
•
•
•
130
0.25
120
0.2
110
0.15
100
0.1
dl12manu
MANU
90
80
0.05
0
70
-0.05
60
-0.1
50
-0.15
40
30
1996
1998
2000
2002
2004
2006
2008
2010
2012
2014
-0.2
1996
1998
2000
2002
2004
2006
2008
2010
2012
2014
Wygładzanie wykładnicze
•
•
•
•
•
Metody wygładzania (wyrównywania) wykładniczego są uogólnieniem metody
średnich ruchomych
Bywają one wykorzystywane do prognozowania
Przedstawię tu najprostszą metodę Browna
Oznaczenia: 𝑦𝑡 - wartości obserwowane, 𝑦𝑡 - wartości wygładzone, 𝑒𝑡 = 𝑦𝑡 − 𝑦𝑡
Metoda ma charakter rekurencyjny:
– przyjmujmy punkt początkowy: 𝑦1 = 𝑦1
– 𝑦𝑡 = 𝛼𝑦𝑡 + 1 − 𝛼 𝑦𝑡−1 dla 𝑡 = 2, 3, … , 𝑇
•
•
𝛼 ∈< 0; 1 > jest parametrem wygładzania, im niższe 𝛼, tym szereg jest bardziej
wygładzony
𝑦𝑡 = 𝑦𝑡−1 + 𝛼 𝑦𝑡 − 𝑦𝑡−1 = 𝑦𝑡−1 + 𝛼𝑒𝑡−1 , zatem 𝛼 mówi jak bardzo błąd
popełniony w poprzednim okresie wpływa na bieżące dopasowanie
1
2
•
Literatura sugeruje, żeby wybierać raczej 𝛼 <
•
Prognoz wyznaczana jest na podstawie ostatniej obserwacji:
𝑦𝜏𝑃 = 𝛼𝑦𝑇 + 1 − 𝛼 𝑦𝑇
Jest to prognoza stała, zatem używa się ją raczej do prognozowanie na 1 okres
(wtedy 𝜏 = 𝑇 + 1)
•