Estymacja i prognozowanie

Transkrypt

Estymacja i prognozowanie
Estymacja i prognozowanie
Maciej Kostrzewski
AGH
Kraków
13 lipca 2010
Klasyczny model dekompozycji - wersja addytywna
xi = Ti + Si + Ei , gdzie
s
X
j=1
Sj = 0 oraz
s
X
Ej = 0.
j=1
Ps
j=1 Sj = 0 odgrywa role¾ przy usuwaniu trendu. Gdyby
Ps Za÷oz·enie
S
=
c
=
6
0,
to nalez·y rozwaz·yć inny szereg czasowy xi c. O b÷
edach
¾
j=1 j
Ei zak÷adamy, z·e sa¾ niezalez·ne od siebie oraz przyjmuja¾ losowo wartości
dodatnie jak i ujemne.P
Średnia z b÷edów
¾
jest zatem równa zeru, stad
¾ naturalne jest za÷
oz·enie, z·e Ej = 0. Ponadto zak÷adamy, z·e sk÷adniki sezonowe
charakterystyczne dla jednostek czasu sa¾ sta÷e, niezalez·ne od okresu1
Metoda postepowania:
¾
Krok 1: Identy…kacja i usuwanie trendu.
k
X
1
b
xi j dla k <
Jeśli s = 2k + 1 jest liczba¾ nieparzysta,
¾ to Ti = 2k+1
j= k
i
n k. Tbi jest tzw. średnia¾ ruchoma¾ (moving average) rzedu
¾ k, która¾
oznaczamy równiez· jako k M A.
2
3,
k 1
X
Jeśli s = 2k jest liczba¾parzysta,
¾ to Tbi = 4 21 xi k +
xi j + 21 xi+k 5 s
j= k+1
dla k < i n k. Tbi jest tzw. scentrowana¾ średnia¾ ruchoma¾2 rzedu
¾ k, która¾
oznaczamy równiez· jako 2xk M A.
De…niujemy now szereg czasowy pozbawiony trendu: xi Tbi .
Obserwacja 1 Je´sli dane wykazuja¾ kwartalna¾ sezonowo´s´c, to s = 4, stad
¾
1
1
b
Ti = 2 xi 2 + xi 1 + xi + xi+1 + 2 xi+2 4 dla 2 < i n 2. Zauwa·zmy,
·ze dane xi 2 i xi+2 sa¾ warto´sciami z tego samego kwarta÷u ale z innego
(kolejnego) okresu. Nie bedzie
¾
zatem nadu·zyciem je´sli uznamy, ·ze Tbi zawiera
w sobie sume¾ wszystkich sk÷adników sezonowych: S1 + S2 + S3 + S4 .
1
2
Co pozostaje w zgodzie z rozumieniem funkcji okresowej.
Wiecej
¾ szczegó÷ów o średnich ruchomych znajduje sie¾ w dalszej cześci
¾ pośrednika.
1
Obserwacja 2 Zauwa·zmy, ·ze dla s = 2k + 1 :
2
k
k
k
X
X
X
1
1
Tbi =
xi j = 4
Ti j +
Si
s
s
j= k
Poniewa·z
k
X
Si
j
Ps
j=1 Sj =
j= k
k
X
Si
j
j
+
j= k
k
X
3
j5
Ei
j= k
stad
¾ oraz z przyjetych
¾
za÷o·ze´n wynika, ·ze
j= k
= 0. Poniewa·z suma b÷edów
¾
losowych jest bliska zeru, stad
¾
j= k
k
X
Ei
j
j= k
0. Ostatecznie ´srednia ruchoma Tbi
1
s
k
X
Ti
j.
Gdyby trend Ti by÷lin-
j= k
iowy tzn. Ti = ai + b lub w przybli·zeniu liniowy na przedziale [i
to:
k
1 X
Ti
s
j
=
j= k
k
1 X
[a (i
s
k; i + k],
j) + b]
j= k
=
a
(i
s
k
1 X
k + ::: + i + k) +
b
s
j= k
a
=
is + b
s
= ai + b
= Ti
Ostatecznie
Tbi
Ti .
Obserwacja 3 Zauwa·zmy, ·ze dla s = 2k :
2
3,
k 1
X
1
1
Tbi = 4 xi k +
xi j + xi+k 5 s
2
2
j= k+1
2
k 1
X
1 41
[Ti k + Si k + Ei k ] +
Ti
=
s 2
j= k+1
j
+
k 1
X
j= k+1
Si
j
+
k 1
X
j= k+1
Ei
j
+
1
[Ti+k + Si+k + Ei+
2
Z za÷o·zenia wiemy, ·ze Si k = Si+k , gdy·z i + k (i k) = 2k = s, stad:
¾
2
k 1
k 1
k 1
X
X
X
1
1
1
1
1
Tbi = 4 Ti k + Ti+k +
Ti j + Si+k +
Si j + Ei k + Ei+k +
Ei
s 2
2
2
2
j= k+1
j= k+1
2
j= k+1
3
j5
Poniewa·z
Ps
j=1 Sj = Si+k +
k 1
X
Si
j
stad
¾ oraz z przyjetych
¾
za÷o·ze´n
j= k+1
wynika, ·ze Si+k +
k 1
X
Si
j
= 0. Poniewa·z suma b÷edów
¾
losowych jest
j= k+1
bliska zeru, stad
¾
0, zatem:
k 1
X
1
1
Ei j
2 Ei k + 2 Ei+k +
j= k+1
Tbi
=
=
1
2
k
X
Ei j + 12
j= k
k 1
X
Ei
j
j= k+1
2
3
k 1
X
1
1 41
Ti k + Ti+k +
Ti j 5
s 2
2
j= k+1
2
3
k
k 1
X
X
1 41
1
Ti j +
Ti j 5 .
s 2
2
j= k
j= k+1
Gdyby trend Ti by÷liniowy tzn. Ti = ai + b lub w przybli·zeniu liniowy na
przedziale [i k; i + k], to:
2
3
k
k 1
X
X
1
1 41
(a (i j) + b) +
(a (i j) + b)5
Tbi
s 2
2
j= k
j= k+1
2
3
k
k 1
X
X
1
1
1 41
1
(i j) + b (2k + 1) + a
(i j) + b (2k 1)5
=
a
s 2
2
2
2
j= k
Poniewa·z
k
X
j= k+1
j = 0, stad
¾
j= k
Tbi
1 1
1
1
a (2k + 1) + b (2k + 1) + a (2k
s 2
2
2
1
=
(ai2k + b2k)
s
= ai + b
1
1) + b (2k
2
1)
Ostatecznie:
Tbi
Ti .
Krok 2: Identy…kacja i usuwanie sezonowości.
Niech wi , gdzie i = 1; :::; s jest średnia¾ arytmetyczna¾ z wartości nowego
szeregu x Tb, które odpowiadaja¾i tej jednostce czasu (np. średnia z wartości
z drugich kwarta÷
ów kaz·dego roku) tzn. wi jest średnia¾ arytmetyczna¾ z
3
n
o
¾ na za÷oz·enie
liczb: xi+js Tbi+js , gdzie k < i + js n k 3 . Ze wzgledu
o sta÷
ych wartościach Si niezalez·nie od okresu, wartości wi moz·na by uznać
za
oz·eniem
Psprzybliz·enia Si . Jednak4 aby przybliz·enia Si by÷y w zgodne z za÷
S
=
0
przyjmujemy
:
j
j=1
s
Sbi = wi
Sbi = Sbi
1X
wi , dla i = 1; :::; s;
s
i=1
s
dla i > s.
De…niujemy now szereg czasowy pozbawiony trendu i sezonowości: xi
Sbi .
Krok 3: Identy…kacja zaburzeń losowych:
bi = xi
E
Tbi
Tbi
Sbi .
Metode¾ dekompozycji dla wersji multiplikatywnej.określa sie¾ w analogiczny sposób jak dla wersji addytywnej.
Klasyczny model dekompozycji - wersja multiplikatywna
xi = Ti Si Ei ,
gdzie
s
Y
j=1
Sj = 1,
s
Y
Ej = 1.oraz Si > 0 i Ei > 0. Motywacja za przyjeciem
¾
j=1
powyz·szych za÷oz·eń jest analogiczna jak w modelu addytywnym, aby sie¾ o
tym przekonać nalez·y zauwaz·yć, z·e:
ln (xi ) = ln (Ti ) + ln (Si ) + ln (Ei ) .
Jest to postać modelu addytywnego dla którego zak÷
adalibyśmy:
s
X
ln (Sj ) = 0 oraz
j=1
co jest równowaz·ne warunkom:
s
X
ln (Ej ) = 0,
j=1
s
Y
Sj = 1 oraz
j=1
s
Y
Ej = 1. Warunki Si > 0
j=1
i Ei > 0 umoz·liwiaja¾ obliczenie ln (Si ) i ln (Ei ). Podobnie jak w przypadku modelu addytywnego zak÷adamy dodatkowo, z·e sk÷adowe sezonowe
Sj charakterystyczne dla jednostek czasu sa¾ sta÷e, niezalez·nie od okresu.
Metoda postepowania:
¾
Krok 1: Identy…kacja i usuwanie trendu.
3
W praktyce zamiast wspomnianej średniej arytmetycznej stosuje sie¾ inne miary np.
mediane,
¾ które sa¾ mniej wraz·liwe na obserwacje nietypowe tj. obserwacje o istotnie
mniejszych lub
¾
wartościach od pozosta÷ych.
P o duz·o wiekszych
4
Na ogó÷ si=1 wi 6= 0.
4
i
Jeśli s = 2k + 1 jest liczba¾ nieparzysta,
¾ to Tbi =
n
k. Tbi :
2
Jeśli s = 2k jest liczba¾parzysta,
¾ to Tbi = 4 12 xi
k
1
2k+1
+
k
X
xi
j
dla k <
j= k
k 1
X
j= k+1
xi
j
3,
+ 21 xi+k 5
s
dla k < i n k.
De…niujemy nowy szereg czasowy pozbawiony trendu: xi =Tbi = Ti Sbi Ei
Ti
Si Ei .
Krok 2: Identy…kacja i usuwanie sezonowości.
Niech wi , gdzie i = 1; :::; s jest średnia¾ arytmetyczna¾ z wartości nowego
szeregu x Tb, które odpowiadaja¾i tej jednostce czasu (np. średnia z wartości
z drugich
kwarta÷
ów kaz·dego roku) tzn. w
n
oi jest średnia¾ arytmetyczna¾ z
b
liczb: xi+js =Ti+js , gdzie k < i + js n k . Przyjmujemy:
Sbi =
wi
, dla i = 1; :::; s;
s
Y
wj
j=1
Sbi = Sbi
s
dla i > s.
De…niujemy now szereg czasowy pozbawiony trendu i sezonowości:
xi
T i Si Ei
=
b
b
T i Si
Tbi Sbi
Ei .
Krok 3: Identy…kacja zaburzeń losowych:
bi = xi .
E
Tbi Sbi
Uwaga 1 W praktyce trudno jest utrzyma´c za÷o·zenie o sta÷o´sci Si niezale·znie od okresu. W trakcie obserwacji szeregu czasowego moga¾ wystapi´c
¾
warunki powodujace
¾ zmiany w warto´sciach Si z kolejnych okresów np. zmniejsza sie¾liczba zgonów w wypadkach samochodowych z chwila¾wprowadzenia
obowiazku
¾ zapinania pasów bezpiecze´nstwa. Jedna¾ z propozycji jest np. zastapienie´sredniej
¾
arytmetycznej z pierwszych kwarta÷ów badanych lat´srednia¾
ruchoma¾ obliczona¾ dla pierwszych kwarta÷ów.
Przedstawiony poniz·ej przyk÷ad ma na zilustrować zastosowanie metody
dekompozycji rzeczywistego szeregu czasowego.
Przyk÷
ad 1 Rozwa·zmy miesieczne
¾
dane ca÷kowitej produkcji energii w Wielkiej
5
Brytanii w okresie od stycznia 1998 roku do czerwca 2010 roku5 :
sty-10
sty-09
sty-08
sty-07
sty-06
sty-05
sty-04
sty-03
sty-02
sty-01
sty-00
sty-99
sty-98
30
28
26
24
22
20
18
16
14
12
10
Nietrudno zauwa·zy´c, ·ze w danych wystepuje
¾
trend spadkowy oraz sezonowo´s´c
z okresem rok tzn. s = 12. Widoczna jest zmiana amplitud - jej warto´sci
maleja¾ wraz z up÷ywem czasu. Inaczej, mo·zna stwierdzi´c, ·ze zmienia sie¾
roczne rozproszenie w sk÷adowej odpowiedzialnej za sezonowo´s´c. Dokonajmy
logarytmicznej transformacji szeregu6 . W wyniku transformacji otrzymamy
nastepuj
¾ ace
¾ warto´sci:
3,6
3,4
3,2
3
2,8
2,6
2,4
2,2
sty-10
sty-09
sty-08
sty-07
sty-06
sty-05
sty-04
sty-03
sty-02
sty-01
sty-00
sty-99
sty-98
2
Zauwa·zmy, ·ze nowy szereg czasowy ma niemal sta÷e wielko´sci amplitud, a
zatem mo·zemy dla niego zastosowa´c metode¾ dekompozycji w wersji addytywnej. Przeprowadzona transformacja zredukowa÷a zmienno´s´c rozpieto
¾ ´sci
rocznych cykli. Przyjmujemy model postaci: xi = Ti + Si + Ei , oszacowania
warto´sci Ti , Si oraz Ei przedstawione zosta÷y na poni·zszych wykresach:
5
Dane wyraz·one sa¾ w milionach ton, gdzie 1 tona odpowiada 41.868 GJ = 11,630 kWh.
Źród÷o danych: Department of Energy & Climate Change. United Kingdom.
6
Transformacja jest moz·liwa, gdyz· wartości z których liczymy logarytm sa¾ wieksze
¾
od
zera.
6
3,4
3,2
3
2,8
2,6
2,4
2,2
2
0,15
0,1
0,05
0
-0,05
-0,1
-0,15
-0,2
0,1
0,08
0,06
0,04
0,02
0
-0,02
-0,04
-0,06
-0,08
-0,1
Analizujac
¾ wykres b÷edów
¾
Ei mo·zna doj´s´c do wniosku, ·ze oscyluja¾one wokó÷
zera oraz w sposób losowy przyjmuja¾warto´sci zarówno dodatnie jak i ujemne.
Ostatni z wykresów przedstawia szereg logarytmów z ca÷kowitej produkcji energii (kolor granatowy), trend (kolor zielony) oraz sezonowo´s´c (kolor po-
7
mara´nczowy):
3,5
3
2,5
2
1,5
1
0,5
Sezonow ość
Trend
sty-10
sty-09
sty-08
sty-07
sty-06
sty-05
sty-04
sty-03
sty-02
sty-01
sty-00
sty-99
sty-98
0
-0,5
Obserw acje
W powyz·szym przyk÷adzie przekszta÷cono szereg czasowy, tak aby móc
zastosować model addytywny. Jest to czesto
¾ spotykana praktyka majaca
¾ na
celu ustabilizowanie sie¾ zmieniajacej
¾ sie¾ w czasie wariancji szeregu. Najcześ¾
p
p
ciej stosowanymi transformacjami sa:
¾ ln (), oraz 3 .
1
Deterministyczne metody prognozowania
W rozdziale omówione zostana¾ nieformale metody prognozowania, które
czesto
¾ i z powodzeniem wykorzystywne sa¾ w praktyce.
Za÷óz·my, z·e obserwacje x1 ; :::; xn sa¾ realizacja¾ ciagu
¾ zmiennych losowych
(procesu stochastycznego) X1 ; :::; Xn , gdzie n 2 N. Jesteśmy zainteresowani
estymacja,
¾ inaczej prognoza,
¾ przysz÷ych realizacji zmiennych Xn+h , gdzie
bn+h
h = 1; 2:::. Estymatory zmiennych losowych Xn+h oznaczamy przez X
lub Fn+h .
1.1
Metoda średniej ruchomej
Jak wiadomo z poprzednich rozwaz·ań średnia arytmetyczna minimalizuje
b÷
ad
¾ średniokwadratowy7 . Moz·na zatem potraktować ta¾ średnia¾ jako estymator przysz÷ych wartości badanego zjawiska. Estymator ten ma swoje
zalety: szybkość jego obliczania, ÷
atwość uwzgledniania
¾
kolejnych pojawiajacych
¾
sie¾ obserwacji:
nxn + xn+1
.
xn+1 =
n+1
Podstawowa¾wada¾jego zastosowania jest spe÷nienie za÷oz·enia o stacjonarności
zjawiska, co oznacza, z·e proces generujacy
¾ dane oscyluje wokó÷ustalonej
liczby (średniej) oraz jego wariancja jest sta÷a (nie zalez·y od up÷ywajacego
¾
7
min
c
n
X
(xi
c)2 jest realizowane w c = x:
i=1
8
czasu). Przyk÷
ad danych wygenerowanych z procesu stacjonarnego przedstawia poniz·szy rysunek:
Widać, z·e dane oscyluja¾ wokó÷ustalonej wartości (poziom zaznaczony czerwona¾linia)
¾ oraz maja¾to samo rozproszenie. Formalna de…nicja stacjonarności
znajduje sie¾ w dalszej cześci
¾ podrecznika.
¾
Zdajemy sobie spraw¾
e, z·e w przypadku wystepowania
¾
w danych sta÷ej tendencji np. wzrostowej, to średnia
z próby nie bedzie
¾
w÷
aściwym poziomem prognozy, podobna sytuacja zachodzi, gdy w danych wystepuje
¾
sezonowość:
9
Jeśli charakterystyki danych zmieniaja¾sie¾ w czasie, to lepszym estymatorem
przysz÷
ych wartości niz· średnia z ca÷
ej próby bedzie
¾
średnia z ostatnich obserwacji. Metoda średniej ruchomej - obliczanie średnich ze zbiorów kolejnych obserwacji jest wykorzystywana do wyg÷adzania szeregu w celu identy…kacji trendu, ale równiez· do prognozowania. Parametrem metody średniej
ruchomej jest liczba danych (wielkość okna) z których obliczana jest średnia,
oznaczmy go przez k. Mówimy wówczas o metodzie średniej ruchomej rzedu
¾
k i oznaczamy ja¾ przez MA(k). Niech Fi bed
¾ a¾ estymatorami wartości Xi ,
a poniewaz· wartość Fi wyznaczamy w oparciu o obserwacje xi k ; :::; xi 1 ,
stad
¾ Fi określamy dla i = 1 + k; :::; n.
Fi =
i 1
1 X
xj ,
k
j=i k
Fi+1 =
1
k
xj .
j=i k+1
Ogólnie:
Fl+1 = Fl +
Obserwacja 4
i
X
xl
xl
k
k
.
1. M A (1) : Fi+1 = xi.
2. MA(n) = xn .
3. Im wieksze
¾
k, tym Fk+1 ; F2 ; :::; Fn bardziej wyg÷adzaja¾ciag
¾ obserwacji.
Podejście w którym wartość prognozy przyjmujemy na poziomie poprzednio zaobserwowanej wartości tzn. Fn+1 = x nazywamy naiwna¾ metoda¾
prognozowania.
10
Przyk÷
ad 2 Rozwa·zmy liczby obs÷ugiwanych przez …rme¾ klientów w kolejnych okresach czasu. Wykorzystano MA(2) i MA(5) do prognozy liczby
klientów na kolejny okres. Na wykresie przedstawiono zaobserwowana¾liczbe¾
klientów (kolor czarny), zbiory danych uzyskanych z MA(2) (kolor czerwony)
i MA(5) (kolor zielony) oraz punkt (…oletowy), który odpowiada prognozie
na poziomie ´sredniej z ca÷ej próby (MA(n)).
10300
10200
10100
10000
9900
9800
9700
obserw acje
MA(2)
MA(5)
średnia
Widoczne jest wieksze
¾
wyg÷adzenie dla k = 5 ni·z dla k = 2. Warto´sci prognozy dla MA(2) i MA(5) sa¾podobne. Prognoza na poziomie ´sredniej wydaje
sie¾ ma÷o wiarygodna, co wynika z niew÷a´sciwego uwzglednia
¾
rosnacej
¾ liczby
obs÷ugiwanych klientów. Wynika, to z faktu, ·ze ´srednia arytmetyczna z ca÷ej
próby daje jednakowa¾ wage¾ ka·zdej z obserwacji, nie faworyzujac
¾ ·zadnego
podzbioru.
S÷abym punktem metody średniej ruchomej jest z konieczność wyboru
nieznanej wielkości parametru k. Metoda średniej ruchomej niezbyt dobrze
radzi sobie z danymi w których wystepuje
¾
trend czy sezonowość, ale zwykle
lepiej sprawdza sie¾ ona od średniej z ca÷ej próby. Metoda średniej ruchomej
wyznacza ciag
¾ liczb, które poda¾z·aja¾ z pewym opóźnieiem za szeregiem obserwacji w których wystepuj
¾ a¾ zmiany dynamiki. Im mniejszy jest rzad
¾
metody tym mniejsze jest opóźnienie.
1.2
Metoda wyg÷
adzania wyk÷
adniczego
Kaz·da z obserwacji ma jednakowy wp÷
yw na wartość średniej arytmetycznej
z próby tzn. obserwacje maja¾ te¾ sama¾ wage¾ n1 . W metodzie średniej ruchomej ustaliśmy liczbe¾ ostatnich obserwacji, które wed÷ug nas mog÷yby mieć
zwiazek
¾
z nieznana¾ przysz÷
a¾ wartościa.
¾ Intuicyjnie jest jasne, z·e przysz÷
ai
nieznana realizacja zjawiska zwykle jest bardziej „zbliz·ona/podobna"do ostatnich wartości niz· do „starszych". W metodzie wyg÷
adzania wyk÷
adniczego
(w skrócie WW) wagi przypisane kolejnym, coraz starzym obserwacjom
maleja¾ wyk÷adniczo.
11
Niech Fn+1 jest prognoza¾przysz÷
ej obserwacji xn+1 . Z chwila¾pojawienia
sie¾ obserwacji w chwili n + 1 znamy b÷ad
¾ prognozy:
xn+1
Fn+1 :
Przyjmujemy w metodzie wyg÷adzania wyk÷adniczego, z·e kolejna wartość
prognozy zalez·y od pope÷nionego uprzednio b÷edu:
¾
Fn+2 = Fn+1 +
(xn+1
Fn+1 ) , gdzie
2 [0; 1]
Zauwaz·my, z·e im wieksze
¾
tym poprawka xn+1 Fn+1 ma wieksze
¾
znaczenie
na kolejna¾ wartość prognozy. Ze wzgledu
¾ na uwzglednie
¾
b÷
edu
¾ prognozy
metoda ta radzi sobie z wystepowaniem
¾
trendu w danych Fn+l dla l =
1; 2; ::: to samodopasowywujacy
¾ sie¾ proces, uczacy
¾ sie¾ na w÷asnych b÷edach.
¾
Zapiszmy ogólny wzór na wartość prognozy:
Fn+1 = xn + (1
) Fn .
A zatem wartość prognozy, to średnia waz·ona z ostatniej obserwacji i prognozy.
Obserwacja 5 Je´sli
= 1, to Fn+1 = xn .
Wykonajmy elementarne przekszta÷cenia:
Fn+1 =
xn + (1
) Fn
=
xn + (1
) [ xn
=
xn + (1
=
xn + (1
) xn
) xn
1
1
1
+ (1
+ (1
+ (1
) Fn
2
) Fn
2
1]
1
) [ xn
2
+ (1
) Fn
2]
..
.
=
n
X1
(1
)i xn
i
+ (1
)n F1 .
i=0
Ostatecznie na Fn+1 maja¾wp÷yw obserwacje xn ; :::; x1 z malejacymi
¾
wyk÷adniczo wagami: 1
, (1
)2 ; :::; (1
)n 1 . Zauwaz·my, z·e aby zastosować
metode¾ wyg÷
adzania wyk÷adniczego musimy znać wartości F1 oraz parametru . Za F1 wygodnie jest przyjać
¾ wartość pierwszej obserwacji tj.
F1 = x1 lub średnia¾ z kilku pierwszym obserwacji np. F1 = 15 (x1 + ::: + x5 ).
Ostatni sk÷adnik wzoru na Fn+1 , to (1
)n F1 , zatem dla dostatecznie
duz·ej wartości n lub bliskiej jedności wartości parametru
wp÷yw F1 na
Fn+1 jest znikomy. Gdy jest bliskie zeru oraz liczność próby n jest ma÷
a,
to wybór wartości F1 ma duz·e znaczenie. Rozwaz·ania iIlustruje poniz·sza
tabela:
12
n/
10
15
20
100
1000
(1
0; 25
0; 0563
0; 0134
0; 0032
0; 0000
0; 0000
0; 01
0; 9044
0; 8601
0; 8179
0; 3660
0; 0000
)n
0; 5
0; 0098
0; 0000
0; 0000
0; 0000
0; 0000
0; 75
0; 00000
0; 00000
0; 00000
0; 00000
0; 00000
0; 9
0; 00000
0; 00000
0; 00000
0; 00000
0; 00000
Pozostaje jeszcze problem wyboru . Jego wartość wybieramy, tak by minimalizować średniokwadratowy b÷
ad
¾ dopasowania tzn.
min
2[0;1]
n
X
(xi
2
Fi ) = min
i=2
2[0;1]
n
X
(xi
xi
1
(1
) Fi
2
1) .
i=2
Optymalne wyznacza sie¾ numerycznie.
Prognoza wyznaczona metoda¾ średniej ruchomej dotyczy tylko jednego
okresu. Dla kolejnych okresów przyjmuje sie,
¾ z·e Fn+h = Fn+1 , gdzie h =
2; 3; :::, a zatem wartości prognozy z kolejnych okresów sa¾takie same. Moz·emy
zatem wnioskować, z·e metode¾ średniej ruchomej najlepiej uz·ywać do prognoz krótkookresowych (np. 1-2 okresy) lub dla danych, wśród których nie
obserwujemy trendu oraz sezonowości.
Przyk÷
ad 3 Rozwa·zmy kwartalne ´srednie ceny transakcyjne metra kwadratowego mieszkania w Krakowie z lat 2006 - 20078 . Na przedstawionym
poni·zej wykresie ceny zaznaczono kolorem czarnym, z wyjatkiem
¾
2 ostatnich
obserwacji, zaznaczonych kolorem ·zó÷tym odpowiadajacych
¾
IV kwarta÷owi
2009 roku i pierwszemu kwarta÷owi 2010 roku. Warto´sci te podlega÷y progno8
Źród÷o danych www.amron.pl.
13
zowaniu metoda¾wyg÷adzania wyk÷adniczego z parametrem
2 f0; 01; 0; 25; 0; 5; 0; 95g.
7 500
7 000
0,01
6 500
0,25
0,5
6 000
0,95
przyszłe
5 500
ceny
5 000
4 500
2006
2007
2008
2009
2010
Dla
= 0; 25 oraz
= 0; 5 prognozy sa¾ bardziej trafne ni·z w przypadku
pozosta÷ych warto´sci . Te w÷a´snie parametry mo·zna przyja´c
¾ za warto´sci
startowe procedur numerycznych poszukujacych
¾
optymalnego
(tj. minimalizujacego
¾
b÷¾
ad dopasowania).
Przyk÷
ad 4 Rozwa·zamy przecietne
¾
ceny 1 ha gruntów ornych w obrocie
prywatnym w Polsce z lat 1999-20099 . Na przedstawionym poni·zej wykresie ceny zaznaczono kolorem czarnym, z wyjatkiem
¾
2 ostatnich obserwacji,
zaznaczonych kolorem ·zó÷tym i odpowiadajacych
¾
cenom z lat 2008 i 2009.
Warto´sci te podlega÷y prognozowaniu metoda¾ wyg÷adzania wyk÷adniczego z
9
Źród÷o danych: www.stat.gov.pl.
14
parametrem
2 f0; 01; 0; 25; 0; 5; 0; 95g.
18 000
16 000
14 000
0,01
12 000
0,25
10 000
0,5
8 000
0,95
6 000
przyszłe
4 000
ceny
2 000
11
10
9
8
7
6
5
4
3
2
1
0
Zgodnie z za÷o·zeniami metody wyg÷adzania wyk÷adniczego warto´sci prognoz
na kolejne okresy sa¾ takie same, gdy·z Fn+h = Fn+1 , gdzie h = 2; 3; :::.
Warto´sci (przysz÷e) cen z lat 2008 i 2009, zaznaczone kolorem ·zó÷tym, odbiegaja¾od warto´sci prognoz uzyskanych metoda¾wyg÷adzania wyk÷adniczego. W
danych wystepuje
¾
trend, który przy rozwa·zanych wielko´sciach niezadawalajaco
¾ wykrywa zastosowana metoda prognozowania.
Uwaga 2 Metode¾ wyg÷adzania wyk÷adniczego zaleca sie¾ stosowa´c, gdy w
danych nie wystepuje
¾
tred ani sezonowo´s´c.
1.3
1.3.1
Metody Holta i Wintersa
Metoda Holta
W podrozdziale omówimy kolejna¾ metode¾ prognozowania. Metoda Holta (w
skrócie MH) jest rozszerzeniem idei wyg÷adzania wyk÷adniczego, na dane zawierajace
¾ trend linowy i nie zawierajace
¾ sezonowości. Przyjmijmy, z·e trend
jest postaci: a + bi, gdzie i = 0; 1; 2; ::: oraz a i b sa¾ parametrami trendu.
Ze wzgledu
¾ na zaburzenie losowe wielkości a i b sa¾ nieznane i musza¾ być
oszacowane na podstawie próby. Wielkość ai interpretujemy jako oszacowanie wartości (poziomu) zjawiska w chwili i wyznaczonej w oparciu o znane
wartościx1 ; :::; xi . Wielkość bi interpretujemy jako wspó÷czynniki kierunkowy (nachylenie) prostej
15
Metode¾ Holta określaja¾ równania:
ai =
xi + (1
bi =
(ai
Fi = ai
1
ai
+ bi
) (ai
1)
1;
1
+ bi
+ (1
2
i
) bi
1) ;
1
i
n
1;
1
i
n
n,
Fn+h = an + bn h, h = 1; 2; :::
gdzie 2 (0; 1) i 2 (0; 1) sa¾ parametrami modelu.
Interpretacja:
1. ai jest oszacowaniem poziomu danych xi lub inaczej wyg÷adzeniem
danych. ai jest średnia¾ waz·ona¾ zaobserwowanej w chwili i realizacji
zjawiska xi (czesto
¾ zniekszta÷conej losowo) oraz wyg÷
adzonej (przewidywanej) wartości obserwacji; ai 1 + bi 1 - do poprzedniego poziomu
dodajemy oszacowany przyrost, co u÷atwia eliminacje¾ opóźnienia w
oszacowaniu poziomu zjawiska.
2. bi jest oszacowaniem wspó÷czynnika nachylenia, jest to średnia waz·ona
przyrostu wyg÷adzonej wartości zjawiska ai ai 1 oraz poprzedniego
oszacowania wspó÷
czynnika bi 1 . Zauwaz·my, z·e równanie bi = (ai ai
(1
) bi 1 jest podobne do równania określajacego
¾
metode¾ wyg÷adzania wyk÷adniczego:Fi = xi 1 + (1
) Fi 1 zastosowanego do oszacowania wspó÷czynnika nachylenia, a nie wartości danych.
3. Fn+h = an + bn h, gdzie oszacowany wspó÷czynnik trendu bn zosta÷
pomnoz·ony przez liczbe¾ okresów prognozy, jest prognoza¾ kolejnych
wartości zjawiska.
Obserwacja 6 Zauwa·zmy, ·ze ai = xi +(1
) Fi , co oznacza, ·ze oszacowanie/u´srednienie stanu procesu (obserwacji w chwili i) jest ´srednia¾ wa·zona¾
zaburzonej przez losowo´s´c obserwacji xi oraz oszacowania warto´sci procesu
na chwile¾ i tzn. Fi .
Uwaga 3 W praktyce, parametry modelu i dobierane sa¾ tak, by zminimalizowa´c ´sredniokwadratowy b÷¾
ad dopasowania. Wyznaczenie optymalnych parametrów odbywa sie¾ na drodze prób i bledów
¾
lub numerycznych
przybli·ze´n. Metoda wymaga warto´sci poczatkowych
¾
a1 i b1 . Wygodnie jest
przyja´c
¾ a1 = x1 oraz b1 = x2 x1 lub na podstawie poczatkowych
¾
warto´sci x
oszacowa´c a1 i b1 metoda¾ najmniejszych kwadratów.
Przyk÷
ad 5 Kolejne dane zosta÷y obliczone ze wzoru: xi = 7+3i, z wyjatkiem
¾
czwartego okresu, gdzie dane zosta÷y zaburzone dodatkowa¾ warto´scia:¾ x4 =
7 + 3 4 + 10. Przyjeto,
¾ ·ze parametry metody wynosza¾ = = 0; 5 oraz
16
1 )+
a1 = x1 i b1 = x2
x1 .
okres
1
2
3
4
5
..
.
dane
10
13
16
29
22
..
.
ai
10
13
16
24
25; 75
..
.
bi
3
3
3
6
4
..
.
Fi
13
16
19
30
..
.
Dla okresów 2 i 3 zachodzi równo´s´c ai = Fi . F4 jest oszacowaniem danej na
4 okres. Metoda wykry÷a schemat obliczania danych (= 7+3i) ale ze wzgledu
¾
na zaburzenie liczba F4 jest ró·zna od x4 . Wielko´s´c a4 = 12 29 + 12 19 = 24
jest oszacowaniem poziomu danych w czwartym okresie, to ´srednia wa·zona
zaobserwowanej wielko´sci x4 oraz wielko´sci F4 .
Przyk÷
ad 6 Przecietne
¾ ceny 1 ha gruntów ornych w obrocie prywatnym w
Polsce w latach 1999-2009. Kolorem czarnym i ·zó÷tym zaznaczono rzeczywiste ceny, z tym, ·ze kolor ·zó÷ty dotyczy wielko´sci podlegajacych
¾
prognozowaniu. Kolorem czerwonym zaznaczono oszacowane ceny uzyskane z metody
Holta. Przyjeto,
¾ ·ze a1 = x1 oraz b1 = x2 x1 . Minimalizujac
¾ b÷¾
ad ´sredniokwadratowy wyznaczono parametry = 0; 719362 i = 1.
18 000
16 000
14 000
MH
12 000
Przyszłe
10 000
Ceny
8 000
6 000
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
4 000
×atwo dostrzec, ·ze uzyskane prognozy sa¾ nie sa¾ zbyt odleg÷e od zaobserwowanych cen z lat 2008 i 2009, a zw÷aszcza je´sli porównamy wyniki z
prognozami uzyskanymi metoda¾wyg÷adzania wyk÷adniczego (WW), które na
17
poni·zszym wykresie zaznaczono kolorem zielonym.
18 000
16 000
14 000
MH
12 000
Przyszłe
10 000
Ceny
WW
8 000
6 000
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
4 000
Parametr = 1 metody WW oszacowano minimalizujac
¾ b÷¾
ad´sredniokwadratowy uzyskujac
¾ Fi+1 = xi , gdzie i = 2; :::; n (tzw. naiwna metoda prognozowania).
1.3.2
Metoda Holta i Wintersa
Jeśli w danych nie wystepuje
¾
trend oraz sezonowość, to metody średniej ruchomej oraz metody wyg÷
adzania wyk÷adniczego sa¾wystarczajacycm
¾
narzedziem
¾
opisu danych i moz·na je wykorzystać do prognozowania. W przypadku wystepowania
¾
trendu liniowego stosowana jest liniowa metoda Holta. Wymienione
metody nie radza¾ sobie z danymi w których wystepuje
¾
sezonowość.
P. Winters rozszerzy÷metode¾ C. Holta, tak aby oprócz liniowego trendu
uwzglednić
¾
sezonowość zjawiska. Ze wzgledu
¾ na rozróz·nienie miedzy
¾
multiplikatywna¾ i addytywna¾ sezonowościa¾ rozwaz·ać bedziemy.metod
¾
e¾ Holta i
Wintersa w wersji multiplikatywnej i addytywnej. Dla uproszczenia bedziemy
¾
uz·ywać równiez· skrótów: MHW i AHW oznaczajacyh
¾
metody Holta i Wintersa w wersji multiplikatywnej i addytywnej.
Wersja multiplikatywna
18
Nastepuj
¾ ace
¾ równania określaja¾ metode¾ Holta i Wintersa:
xi
+ (1
) (ai 1 + bi 1 ) ; 1 + s i n
Si s
=
(ai ai 1 ) + (1
) bi 1 ; 1 + s i n
xi
=
+ (1
) Si s ; 1 + s i n
ai
= (ai 1 + bi 1 ) Si s ; 2 i n,
ai =
bi
Si
Fi
Fn+h = (an + bn h) Sn+h
gdzie
2 (0; 1),
okresem.
Interpretacja
2 (0; 1) i
s; h
= 1; 2; :::
2 (0; 1) sa¾ parametrami metody, s jest
1. a odpowiada średniemu (wyg÷
adzonemu) poziomowi wartości danych
pozbawionych sezonowości.
2. b określa wyg÷
adzony wspó÷czynnik liniowego trendu.
3. S określa czynnik opisujacy
¾ sezonowość o okresie s.
4. F jest prognoza¾ realizacji zjawiska w którym wystepuje
¾
trend i sezonowość w wersji czynnikowej.
Równanie na ai jest analogiczne jak w metodzie Holta z ta¾ róz·nica,
¾
z·e wartość obserwacji xi jest podzielona przez czynnik sezonowy Si s . W
konsekwencji ciag
¾ ai jest wyg÷adzeniem szeregu danych po usunieciu
¾
sezonowości.
Równanie na bi jest takie jak w metodzie Holta.
W równaniu na Si wystepuje
¾
czynnik xaii , który eliminuje trend z danych
pozostawiajac
¾ sezonowość i zaburzenie losowe. Aby zmniejszyć wp÷yw losowości
wielkość Si określa sie¾ jako średnia¾ waz·ona¾ czynnika xaii oraz czynika sezonowego Si s wyliczonego dla poprzedniego okresu.
Uwaga 4 Aby zastosowa´c metode¾ Holta i Wintersa potrzebujemy ustalenia
warto´sci poczatkowych
¾
dla a, b oraz S1 , S2 ,...,Ss . W tym celu przyjmuje sie:
¾
as =
1
(x1 + ::: + xs ) .
s
Jest to ´srednia warto´sci z pierwszego cyklu (z÷o·zonego z s okresów). W
¾
obserwacje z powtarzajacych
¾
sie¾ okresów.
´sredniej nie zosta÷y uwzglednione
Ponadto przyjmuje sie,
¾ ·ze:
bs =
1
s
xs+1 x1 xs+2 x2
xs+s xs
+
+ ::: +
s
s
s
19
,
gdzie ka·zdy ze sk÷adników xs+is xi jest oszacowaniem wspó÷czynnika trendu
dla konkretnego okresu, a bs jest ´srednia¾ z tych oszacowa´n. Czynniki sezonowe okre´slamy w nastepuj
¾ acy
¾ sposób:
S1 =
xs
x1
; :::; Ss = ;
as
as
a zatem sa¾ilorazem kolejnych obserwacji w cyklu i ´sredniej warto´sci z pierwszego cyklu. Zauwa·zmy, ·ze aby zainicjowa´c metode¾ potrzebujemy dwóch
pe÷nych cykli tj. obserwacji: x1 ; :::; xs ; :::; x2s .
Uwaga 5 Do poszukiwania optymalnych warto´sci parametrów metody ,
i wykorzystujemy procedury numeryczne szukajace
¾ warto´sci minimalizuja¾
cych b÷¾
ad ´sredniokwadratowy.
Wersja addytywna
Nastepuj
¾ ace
¾ równania określaja¾ metode¾ Holta i Wintersa:
ai =
(xi
Si
s)
+ (1
) (ai
bi =
(ai
ai
1)
+ (1
) bi
Si =
(xi
ai ) + (1
Fi = ai
1
+ bi
1
+ Si
Fn+h = an + bn h + Sn+h
s;
1
1;
+ bi
1+s
) Si
s;
1+s
2
i
n,
s; h
1) ;
1+s
i
i
i
n
n
n
= 1; 2; :::
gdzie
2 (0; 1),
2 (0; 1) i
2 (0; 1) sa¾ parametrami metody, s jest
okresem.
Powyz·sze równania sa¾ analogiczne do równań z wersji multiplikatywnej.
Róz·nica polega na odjeciu
¾ a nie podzieleniu komponentu odpowiedzialnego
za sezonowość Si s oraz poziomu szeregu ai nie uwzgledniaj
¾
acego
¾
sezonowości
Interpretacja równań jest taka jak w wersji multiplikatywnej.
Uwaga 6 Aby zastosowa´c metode¾ Holta i Wintersa potrzebujemy ustalenia
warto´sci poczatkowych
¾
dla a, b oraz S1 , S2 ,...,Ss . W tym celu przyjmuje sie:
¾
1
(x1 + ::: + xs ) ,
s
1 xs+1 x1 xs+2 x2
xs+s xs
=
+
+ ::: +
s
s
s
s
= x1 as ; :::; Ss = xs as :
as =
bs
S1
Zauwa·zmy, ·ze podobnie jak w wersji multiplikatywnej aby zainicjowa´c metode¾
potrzebujemy dwóch pe÷nych cykli tj. obserwacji: x1 ; :::; xs ; :::; x2s .
Uwaga 7 Do poszukiwania optymalnych warto´sci parametrów metody ,
i wykorzystujemy procedury numeryczne szukajace
¾ warto´sci minimalizuja¾
cych b÷¾
ad ´sredniokwadratowy.
20
Uwaga 8 Wersja addytywna jest rzadziej stosowana w praktyce ni·z wersja
multiplikatywna.
Uogólnienia
Metode¾ Holta stosuje sie¾ dla danych zawierajacych
¾
liniowy trend. Metode¾
Holta i Wintersa stosuje sie¾ w przypadku szeregów z liniowym trendem i
komponentem sezonowym w wersji addytywnej lub multiplikatywnej. Wzorujac
¾ sie¾ na równaniach z metody HW ÷atwo wskazać uogólnienia wykorzystywane do prognozowania danych w których wystepuje
¾
trend w wersji multiplikatywnej lub danych w których nie wystepuje
¾
trend ale wystepuje
¾
sezonowość.
1. Trend multiplikatywny i sezonowość w wersji multiplikatywnej:
xi
ai =
+ (1
) (ai 1 bi 1 ) ; 1 + s i n
Si s
ai
+ (1
) bi 1 ; 1 + s i n
bi =
ai 1
xi
Si =
+ (1
) Si s ; 1 + s i n
ai
Fi = ai 1 bi 1 Si s ; 2 i n,
Fn+h = an bn Sn+h
s; h
= 1; 2; :::.
2. Trend multiplikatywny i sezonowość w wersji addytywnej:
ai =
bi =
Si =
(xi Si s ) + (1
) (ai 1 bi 1 ) ; 1 + s
ai
+ (1
) bi 1 ; 1 + s i n
ai 1
(xi ai ) + (1
) Si s ; 1 + s i n
Fi = ai
1 bi 1
+ Si
s;
Fn+h = an bn + Sn+h
2
s; h
i
i
n,
= 1; 2; :::.
3. Brak trendu i sezonowość w wersji multiplikatywnej:
xi
ai =
+ (1
) ai 1 ; 1 + s i n
Si s
xi
Si =
+ (1
) Si s ; 1 + s i n
ai
Fi = ai 1 Si s ; 2 i n,
Fn+h = an Sn+h
s; h
= 1; 2; :::.
4. Brak trendu i sezonowość w wersji addytywnej:
ai =
(xi
Si
Si =
(xi
ai ) + (1
Fi = ai
1
+ Si
Fn+h = an + Sn+h
s)
s;
+ (1
2
s;
21
) ai
) Si
i
s;
n,
h = 1; 2; :::.
1;
1+s
1+s
i
i
n
n
n
Przyk÷
ad 7 Rozwa·zmy szereg kwartalnych warto´sci wydatków bud·zetu pa´nstwa
ogó÷em (od poczatku
¾
roku do ko´nca okresu) w milionach z÷. z lat 20002009 oraz z pierwszego i drugiego kwarta÷u 2010 roku10 . Dane kwartalne
z roku 2010 bed
¾ a¾ podlega´c prognozowaniu. Na poni·zszym wykresie kolorem
czarnym zaznaczono dane z lat 1995-2009. Warto´sci z pierwszego i drugiego
kwarta÷u 2010 roku oznaczono kolorem ·zó÷tym. Kolorem czerwonym zaznaczono warto´sci uzyskane metoda¾ Holta i Wintersa z addytywna¾ wersja¾
trendu i multiplikatywna¾ wersja¾ sezonowo´sci. Solverem oszacowano parametry metody na poziomie: = 0; 689424, = 0; 003929, = 1.
350000
300000
250000
200000
150000
100000
50000
Przyszłe zaobserwowane wydatki
Wydatki
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
0
HW
Otrzymany metoda¾ HW szereg danych jest zbli·zony do zaobserwowanych
warto´sci. Metoda wykry÷a liniowy trend i sezonowo´s´c. Uzyskane prognozy sa¾
bliskie warto´scia¾ zaobserwowanym. Na poni·zszych dwóch rysunkach przedstawiono warto´sci Si oraz ai +bi . Pierwszy wykres przedstawia funkcje,
¾ która¾
mo·zemy uzna´c za okresowa¾ co jest zgodne z interpretacja.¾ Natomiast drugi
wykres swoim kszta÷tem zbli·zony jest do linii, co jest zgodne z przyjetym
¾
za÷o·zeniem metody o liniowym trendzie.
10
Źród÷o danych: www.gus.pl
22
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
250000,0
200000,0
150000,0
100000,0
50000,0
37
35
33
31
29
27
25
23
21
19
17
15
13
11
9
7
5
3
1
0,0
Przyk÷
ad 8 Rozwa·zmy szereg kwartalnych warto´sci produktu krajowego brutto
(ceny bie·zace)
¾ z lat 1995-2009 oraz z pierwszego i drugiego kwarta÷u 2010
11
roku . Dane kwartalne z roku 2010 bed
¾ a¾ podlega´c prognozowaniu. Na
poni·zszym wykresie kolorem czarnym zaznaczono dane z lat 1995-2009. Warto´sci
z pierwszego i drugiego kwarta÷u 2010 roku oznaczono kolorem ·zó÷tym. Kolorem
czerwonym zaznaczono warto´sci uzyskane metoda¾Holta i Wintersa z addytywna¾ wersja¾ trendu i sezonowo´sci. Solverem oszacowano parametry metody:
11
Źród÷o danych: www.gus.pl
23
= 0; 445223,
= 0; 304841,
= 1.
450000
400000
350000
300000
250000
200000
150000
100000
Przyszłe zaobserwowane PKB
PKB
HW
Otrzymany metoda¾ HW szereg danych jest zbli·zony do zaobserwowanych
warto´sci PKB. Metoda wykry÷a liniowy trend i sezonowo´s´c. Uzyskane prognozy sa¾ bliskie warto´scia¾ zaobserwowanym.
24
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
50000