ex ante - E-SGH
Transkrypt
ex ante - E-SGH
Ekonometria Wykład 4 – Prognozowanie, sezonowość Dr Michał Gradzewicz Katedra Ekonomii I KAE Plan wykładu • • • Prognozowanie Założenia i własności predykcji ekonometrycznej Stabilność modelu ekonometrycznego – Test Chowa • Prognoza punktowa i jej błąd ex ante • Prognoza przedziałowa • Miary trafności ex post prognozy punktowej – – – – – • • ME MAE MAPE MSE RMSE Sezonowość Wygładzanie wykładnicze Prognozowanie • • Prognozowanie ekonometryczne (predykcja ekonometryczna) – wnioskowanie o nieznanych wartościach zmiennej objaśnianej w oparciu o model ekonometryczny objaśniający kształtowanie się tej zmiennej Wynikiem prognozowania jest prognoza: – – • • Horyzont prognozy – okres dla którego prognozujemy (pojęcie definiowane wyłącznie dla prognozy szeregów czasowych) Model prognostyczny musi: – – • Punktowa Przedziałowa Być wszechstronnie i pozytywnie zweryfikowany (szczególnie założenia związane z twierdzeniem Gaussa-Markowa) Przedstawiać stabilne relacje między zmiennymi Ekstrapolacja zmiennych objaśniających (𝑿) musi być uzasadniona – – Najprościej prognozuje się w przypadku modelu z wszystkimi zmiennymi endogenicznymi (ponieważ są one wyjaśniane przez model i do prognozowania na wiele okresów możemy podejść do problemu rekurencyjnie) W przypadku występowania zmiennych egzogenicznych istotne są sposoby ich determinacji w horyzoncie prognozy • • • Ekonometryczne Zestaw wartości zmiennych egzogenicznych w przyszłości tworzący scenariusz Każda prognoza ekonometryczna ma charakter warunkowy Dokładność prognoz i źródła błędów • Główne źródła błędów prognoz (nie wszystkie są kwantyfikowalne): – Błąd estymacji (wynikający z faktu, że 𝛽 ≠ 𝛽) – Błąd losowy (zazwyczaj zakłada się, że realizacja składnika losowego w horyzoncie prognozy wynosi 0, co jest prawdą jedynie w sensie wartości oczekiwanej) – Błąd struktury stochastycznej (założenia MNK, chociaż pozytywnie zweryfikowane mogą być jednak niespełnione, np. ze względu na poziom istotności testów statystycznych) – Błąd specyfikacji modelu – niewłaściwy wybór postaci analitycznej dla prognozowanego zjawiska – Błąd pomiaru, związany z korektami danych statystycznych (np. w przypadku PKB i jego komponentów) – Błąd warunków endogenicznych – zmiana reżimu kształtowania się zmiennych(ej) objaśnianych(ej) przed model – Błąd warunków egzogenicznych – przyjęcie błędnych wartości dla zmiennych objaśniających • Błędy prognozy ex post oraz ex ante Zasady prognozowania • Zasady wykonywania prognozy punktowej – Zasada prognozowania według wartości oczekiwanej, czyli zasada predykcji nieobciążonej, jest to najczęściej stosowana zasada prognozy – Zasada prognozowania według największego prawdopodobieństwa – wyznaczenie prognozy na podstawie dominanty rozkładu prognozowanej zmiennej; w przypadku spełnienia założenia o normalności składnika losowego pokrywa się ona z poprzednią zasadą – Zasada prognozowania według mediany – prognoza punktową jest mediana rozkładu (czyli prawdopodobieństwo otrzymania większej lub mniejszej wartości wynosi 50%), rzadko spotykana w praktyce – Zasada prognozowania minimalizującego oczekiwaną stratę, stosowana gdy błąd prognozy możemy utożsamić ze stratą, minimalizujemy oczekiwana stratę Test Chowa stabilności modelu ekonometrycznego • • • • • • Jak przetestować czy wnioski z modelu (parametry), który oszacowaliśmy, są takie same w różnych podokresach Jest to test stabilności parametrów modelu dla dwóch podprób, kiedy punkt zwrotny, czyli czas podziału, jest znany Hipotezy testowe: 𝐻0 : 𝜷𝟏 = 𝜷𝟐 𝑣𝑠. 𝐻1 : 𝜷𝟏 ≠ 𝜷𝟐 Szacujemy model dla całego okresu i liczymy jego sumę kwadratów reszt RSS (𝑅𝑆𝑆 = 𝑇𝑡=1 𝑒𝑡2 ) oraz podobnie dla 2 podokresów (oznaczając je 𝑅𝑆𝑆1 = 𝜏𝑡=1 𝑒𝑡2 oraz 𝑅𝑆𝑆2 = 𝑇𝑡=𝜏+1 𝑒𝑡2 ) Statystyka testowa (𝑅𝑆𝑆 − 𝑅𝑆𝑆1 − 𝑅𝑆𝑆2 )/(𝑘 + 1) 𝐹= ∼ 𝐹𝑘+1, 𝑇−2 𝑘+1 (𝑅𝑆𝑆1 + 𝑅𝑆𝑆2 )/[𝑇 − 2 𝑘 + 1 ] Jeśli wartość statystyki testowej jest wyższa od wartości krytycznej (czyli suma kwadratów reszt z obu podokresów istotnie różni się od sumy kwadratów reszt dla całego okresu), to odrzucamy 𝐻0 konkludując, że parametry modelu są różne w obu podpróbach Prognoza punktowa • Dysponujemy oszacowanym modelem 𝑦𝑡 = 𝑏0 + 𝑏1 𝑋1𝑡 + ⋯ 𝑏𝑘 𝑋𝑘𝑡 = 𝒙′𝒕 𝒃 Gdzie 𝒃 jest wektorem oszacowanych parametrów, a 𝒙𝒕 ′ wierszowym wektorem wartości zmiennych objaśniających w okresie 𝑡 • Niech okres prognozy to 𝜏, 𝜏 > 𝑇 • Prognozą punktową zmiennej 𝑦 w okresie 𝜏 nazywamy: 𝑦𝜏𝑃 = 𝒙′𝝉 𝒃 • Prognoza ta ma charakter warunkowy (jest warunkowana wartościami przyjętych zmiennych objaśniających) Błąd prognozy ex ante (1) • Błąd prognozy ex ante uwzględnia dwa źródła powstawania błędów prognoz: – Błędy estymacji (wynikający z faktu, że 𝜷 ≠ 𝒃) – Błędy struktury stochastycznej modelu (wynikający z faktu, że 𝐷 2 𝜖 > 0) • • • Błąd prognozy ex ante jest różnicą pomiędzy rzeczywistą, ale nieznaną wartością zmiennej objaśnianej w okresie 𝜏 w wartością prognozy: 𝑒𝜏𝑃 = 𝑦𝜏 − 𝑦𝜏𝑃 Błąd prognozy jest zmienną losową o zerowej wartości oczekiwanej: 𝐸 𝑒𝜏𝑃 = 0 oraz wariancji: 𝐷 2 𝑒𝜏𝑃 = 𝜎 2 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉 Dlaczego? – Wartość rzeczywista: 𝑦𝜏 = 𝒙′𝝉 𝜷 + 𝜖𝜏 – Predykcja (pamiętajmy, że 𝐸 𝜖𝜏 = 0): 𝑦𝜏′ = 𝒙′𝝉 𝒃 – Błąd predykcji 𝑒𝜏𝑃 = 𝒙′𝝉 𝜷 + 𝜖𝜏 − 𝒙′𝝉 𝒃 = 𝒙′𝝉 𝜷 − 𝒃 + 𝜖𝜏 – Wartość oczekiwana błędu i jego wariancja (pamiętajmy, że 𝛽 − 𝑏 = 𝛽 − 𝐸[𝛽]): 𝐸 𝑒𝜏𝑃 = 𝒙′𝝉 𝐸 𝜷 − 𝒃 + 𝐸𝜖𝜏 = 0 𝐷2 𝑒𝜏𝑃 = 𝐷2 𝒙′𝝉 𝜷 − 𝒃 + 𝜖𝜏 𝑿; 𝒙𝝉 = 𝜎 2 + 𝐷2 𝜷 − 𝒃 ′𝒙𝝉 𝑿; 𝒙𝝉 = 𝜎 2 + 𝒙′𝝉 [𝜎 2 𝑿′ 𝑿 −1 ]𝒙𝝉 = 𝜎 2 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉 Błąd prognozy ex ante (2) • 2 2 Estymatorem wariancji składnika losowego 𝜎 jest 𝑆 = 𝑒𝑡2 𝑇−(𝑘+1) , zatem średni błąd prognozy ex ante: • 𝑆𝜏𝑃 = 𝑆 1 + 𝒙′𝝉 𝑿′ 𝑿 −1 𝒙𝝉 Zatem na dokładność (precyzję) prognozy wpływa: – Precyzja oszacowania modelu (w sensie wariancji składnika losowego) – „Względnej odległości” wartości 𝒙𝝉 w okresie prognozy od zmienności wartości 𝑿 w próbie (na podstawie której dokonujemy estymacji modelu) • Z kolei średni względny błąd prognozy ex ante 𝑆𝜏𝑃 𝜗𝜏 = 𝑃 |𝑦𝜏 | Informuje jak duży jest błąd w relacji do wartości prognozy na okres 𝜏 Prognoza przedziałowa • • • Znajomość średniego błędu prognozy ex ante pozwala zbudować przedział ufności dla punktowej prognozy, którego rozpiętość informuje o precyzji prognozy Jeśli 𝜖𝑡 ∼ 𝑁(⋅,⋅), to zmienna losowa: 𝑦𝜏 − 𝑦𝜏𝑃 𝑡= ∼ 𝑡 𝑇− 𝑘+1 ,𝛼 𝑆𝜏𝑃 Zatem dla danego poziomu ufności 1 − 𝛼 i wartości krytycznej testu 𝑡𝛼 𝑃 𝑦𝜏𝑃 − 𝑡𝛼 𝑆𝜏𝑃 < 𝑦𝜏 < 𝑦𝜏𝑃 + 𝑡𝛼 𝑆𝜏𝑃 = 1 − 𝛼 Ocena ex post prognozy punktowej • • • • Załóżmy, że mamy 𝑚 prognoz 𝑦𝜏𝑃 oraz rzeczywistych wartości 𝑦𝜏 , 𝜏 ∈ {1, … , 𝑚} Różnica 𝑦𝜏 − 𝑦𝜏𝑃 jest błędem prognozy dla okresu 𝜏 (realizacją zmiennej losowej) W praktyce czasami estymuje się model ekonometryczny na krótszej próbie {1, … 𝑇 − 𝑚}, aby przeprowadzić analizę kształtowania się błędów prognozy w podpróbie pozostałych ostatnich obserwacji {𝑇 − 𝑚 + 1, … 𝑇} Średni błąd predykcji (mean error – ME) 𝑀𝐸 = • 1 𝑚 𝑚 (𝑦𝜏 − 𝑦𝜏𝑃 ) 𝜏=1 powinien być bliski 0 (wyraźne odchylenia od zera oznaczają, że predykcja jest obciążona), ponieważ błędy in plus są kompensowane błędami in minus Średni absolutny błąd predykcji (mean absolute error – MAE) 𝑀𝐴𝐸 = 1 𝑚 𝑚 𝑦𝜏 − 𝑦𝜏𝑃 𝜏=1 Porównanie ME i MAE daje informacje o systematycznie wyższych/niższych prognozach niż realizacjach (w przypadku podobnych wartości obu mierników). Różne od siebie MAE i ME oznaczają, że błędy mają odmienne znaki Ocena ex post prognozy punktowej (2) • Średni absolutny błąd procentowy (mean absolute percentage error – MAPE) 𝑚 1 𝑦𝜏 − 𝑦𝜏𝑃 𝑀𝐴𝑃𝐸 = 𝑚 𝑦𝜏 𝜏=1 • Informuje o przeciętnym błędzie skorygowanym o jego znak, w relacji do wysokości prognoz Błąd średniokwadratowy (mean square error – MSE) 1 𝑀𝑆𝐸 = 𝑚 • 𝑚 𝑦𝜏 − 𝑦𝜏𝑃 2 𝜏=1 Pierwiastek błędu średniokwadratowego (root mean square error – RMSE) 𝑅𝑀𝑆𝐸 = 𝑀𝑆𝐸 = 1 𝑚 𝑚 𝑦𝜏 − 𝑦𝜏𝑃 2 𝜏=1 Informuje o skali odchyleń prognozy, w sensie średniokwadratowym. RMSE znacząco różne od MAE świadczy o bardzo wysokich, co do skali, błędach w okresie prognozy Jak wygląda sezonowość w danych? 16,000 16,000 15,500 15,500 EMPBA 15,000 15,000 14,500 14,500 14,000 14,000 13,500 13,500 13,000 13,000 12,500 EMPBA Final seasonally adjusted series 12,500 1996 1998 2000 2002 2004 2006 2008 2010 2012 1996 1998 2000 2002 EMPBA by Season 16,000 15,500 15,000 14,500 14,000 13,500 13,000 12,500 Q1 Q2 Q3 Means by Season Q4 2004 2006 2008 2010 2012 Radzenie sobie z sezonowością – seasonal dummies • • Sezonowość jest cechą danych w postaci szeregów czasowych o częstotliwości zbierania krótszej niż rok (najczęściej kwartalnych czy miesięcznych) Jednym z prostszych sposobów uwzględnienia sezonowości w modelu jest dodanie zmiennych zerojedynkowych oznaczających dany kwartał (seasonal dummies), np. 𝑦𝑡 = 𝑓 𝑿𝑡 + 𝛾1 𝐷(1) + 𝛾2 𝐷(2) + 𝛾3 𝐷(3) + 𝛾4 𝐷(4) + 𝜖𝑡 Gdzie 𝐷 𝑖 = • • • • • 1 𝑗𝑒ś𝑙𝑖 𝑑𝑜𝑡𝑦𝑐𝑧𝑦 𝑡𝑜 𝑘𝑤𝑎𝑟𝑡𝑎𝑙𝑢 𝑖 0 𝑤 𝑝𝑜𝑧𝑜𝑠𝑡𝑎ł𝑦𝑐ℎ 𝑘𝑤𝑎𝑟𝑡𝑎𝑙𝑎𝑐ℎ Jeśli dane zaczynają się od przykładowo 1Q1995 r., to zmienne te mają postać: 𝐷 1 = 1 0 0 0 1 0 0 0 … 𝑇 , 𝐷 2 = 0 1 0 0 0 1 0 0 0 1 0 … 𝑇 , itp. Dlaczego nie można uwzględnić łącznie wszystkich zmiennych sezonowych i stałej? 1 1 0 0 0 1 0 1 0 0 1 0 0 1 0 1𝐷 1 𝐷 2 𝐷 3 𝐷 4 = 1 0 0 0 1 1 1 0 0 0 1 0 1 0 0 … … … … … Zatem 𝐷 1 + 𝐷 2 + 𝐷 3 + 𝐷 4 = 1, czyli wystąpiłaby dokładna współliniowość Częściej stosuje się zbliżona postać, typu: 𝑦𝑡 = 𝛾 + 𝑓 𝑿𝑡 + 𝛾2 𝐷(2) + 𝛾3 𝐷(3) + 𝛾4 𝐷(4) + 𝜖𝑡 Stała 𝛾 odpowiada wtedy wartości przeciętnej zmiennej w 1Q, parametr 𝛾2 - o ile Q2 różni się od Q1 (wartość przeciętna w Q2 to 𝛾 + 𝛾2 , gdyż wartość jednostkową przyjmują jedynie stała i zmienna D(2), a D(3) i D(4) są równe 0) Radzenie sobie z sezonowością … cd • Czasami spotykane jest inne podejście do uniknięcia sezonowości, wykorzystujące fakt, że suma odchyleń sezonowych w roku jest zerowa: 𝑦𝑡 = 𝛾 + 𝑓 𝑿𝑡 + 𝛾2 𝐷 2 − 𝐷 1 + 𝛾3 𝐷 3 − 𝐷 1 + 𝛾4 𝐷 4 − 𝐷 1 + 𝜖𝑡 Wtedy np. 𝛾2 jest miarą efektu sezonowego w 2Q, podobnie w 3Q i 4Q, a w 1Q 𝛾1 = −(𝛾2 + 𝛾3 + 𝛾4 ) Alternatywa I: modelowanie rocznych przyrostów, czyli np. dla zmiennych kwartalnych: Δ4 𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−4 (ewentualnie dla logarytmów zmiennej, co prowadzi do dynamik rocznych: Δ4 ln 𝑦𝑡 = ln 𝑦𝑡 − ln(𝑦𝑡−4 ) Alternatywa II: zastosowanie profesjonalnych programów do odsezonowywania zmiennych – X-12 (stosowany w US, czy jego nowsza wersja X13) lub TRAMO/SEATS (stosowany w Europie) • • • 130 0.25 120 0.2 110 0.15 100 0.1 dl12manu MANU 90 80 0.05 0 70 -0.05 60 -0.1 50 -0.15 40 30 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 -0.2 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 Wygładzanie wykładnicze • • • • • Metody wygładzania (wyrównywania) wykładniczego są uogólnieniem metody średnich ruchomych Bywają one wykorzystywane do prognozowania Przedstawię tu najprostszą metodę Browna Oznaczenia: 𝑦𝑡 - wartości obserwowane, 𝑦𝑡 - wartości wygładzone, 𝑒𝑡 = 𝑦𝑡 − 𝑦𝑡 Metoda ma charakter rekurencyjny: – przyjmujmy punkt początkowy: 𝑦1 = 𝑦1 – 𝑦𝑡 = 𝛼𝑦𝑡 + 1 − 𝛼 𝑦𝑡−1 dla 𝑡 = 2, 3, … , 𝑇 • • 𝛼 ∈< 0; 1 > jest parametrem wygładzania, im niższe 𝛼, tym szereg jest bardziej wygładzony 𝑦𝑡 = 𝑦𝑡−1 + 𝛼 𝑦𝑡 − 𝑦𝑡−1 = 𝑦𝑡−1 + 𝛼𝑒𝑡−1 , zatem 𝛼 mówi jak bardzo błąd popełniony w poprzednim okresie wpływa na bieżące dopasowanie 1 2 • Literatura sugeruje, żeby wybierać raczej 𝛼 < • Prognoz wyznaczana jest na podstawie ostatniej obserwacji: 𝑦𝜏𝑃 = 𝛼𝑦𝑇 + 1 − 𝛼 𝑦𝑇 Jest to prognoza stała, zatem używa się ją raczej do prognozowanie na 1 okres (wtedy 𝜏 = 𝑇 + 1) •