Estymacja i prognozowanie
Transkrypt
Estymacja i prognozowanie
Estymacja i prognozowanie Maciej Kostrzewski AGH Kraków 13 lipca 2010 Klasyczny model dekompozycji - wersja addytywna xi = Ti + Si + Ei , gdzie s X j=1 Sj = 0 oraz s X Ej = 0. j=1 Ps j=1 Sj = 0 odgrywa role¾ przy usuwaniu trendu. Gdyby Ps Za÷oz·enie S = c = 6 0, to nalez·y rozwaz·yć inny szereg czasowy xi c. O b÷ edach ¾ j=1 j Ei zak÷adamy, z·e sa¾ niezalez·ne od siebie oraz przyjmuja¾ losowo wartości dodatnie jak i ujemne.P Średnia z b÷edów ¾ jest zatem równa zeru, stad ¾ naturalne jest za÷ oz·enie, z·e Ej = 0. Ponadto zak÷adamy, z·e sk÷adniki sezonowe charakterystyczne dla jednostek czasu sa¾ sta÷e, niezalez·ne od okresu1 Metoda postepowania: ¾ Krok 1: Identy…kacja i usuwanie trendu. k X 1 b xi j dla k < Jeśli s = 2k + 1 jest liczba¾ nieparzysta, ¾ to Ti = 2k+1 j= k i n k. Tbi jest tzw. średnia¾ ruchoma¾ (moving average) rzedu ¾ k, która¾ oznaczamy równiez· jako k M A. 2 3, k 1 X Jeśli s = 2k jest liczba¾parzysta, ¾ to Tbi = 4 21 xi k + xi j + 21 xi+k 5 s j= k+1 dla k < i n k. Tbi jest tzw. scentrowana¾ średnia¾ ruchoma¾2 rzedu ¾ k, która¾ oznaczamy równiez· jako 2xk M A. De…niujemy now szereg czasowy pozbawiony trendu: xi Tbi . Obserwacja 1 Je´sli dane wykazuja¾ kwartalna¾ sezonowo´s´c, to s = 4, stad ¾ 1 1 b Ti = 2 xi 2 + xi 1 + xi + xi+1 + 2 xi+2 4 dla 2 < i n 2. Zauwa·zmy, ·ze dane xi 2 i xi+2 sa¾ warto´sciami z tego samego kwarta÷u ale z innego (kolejnego) okresu. Nie bedzie ¾ zatem nadu·zyciem je´sli uznamy, ·ze Tbi zawiera w sobie sume¾ wszystkich sk÷adników sezonowych: S1 + S2 + S3 + S4 . 1 2 Co pozostaje w zgodzie z rozumieniem funkcji okresowej. Wiecej ¾ szczegó÷ów o średnich ruchomych znajduje sie¾ w dalszej cześci ¾ pośrednika. 1 Obserwacja 2 Zauwa·zmy, ·ze dla s = 2k + 1 : 2 k k k X X X 1 1 Tbi = xi j = 4 Ti j + Si s s j= k Poniewa·z k X Si j Ps j=1 Sj = j= k k X Si j j + j= k k X 3 j5 Ei j= k stad ¾ oraz z przyjetych ¾ za÷o·ze´n wynika, ·ze j= k = 0. Poniewa·z suma b÷edów ¾ losowych jest bliska zeru, stad ¾ j= k k X Ei j j= k 0. Ostatecznie ´srednia ruchoma Tbi 1 s k X Ti j. Gdyby trend Ti by÷lin- j= k iowy tzn. Ti = ai + b lub w przybli·zeniu liniowy na przedziale [i to: k 1 X Ti s j = j= k k 1 X [a (i s k; i + k], j) + b] j= k = a (i s k 1 X k + ::: + i + k) + b s j= k a = is + b s = ai + b = Ti Ostatecznie Tbi Ti . Obserwacja 3 Zauwa·zmy, ·ze dla s = 2k : 2 3, k 1 X 1 1 Tbi = 4 xi k + xi j + xi+k 5 s 2 2 j= k+1 2 k 1 X 1 41 [Ti k + Si k + Ei k ] + Ti = s 2 j= k+1 j + k 1 X j= k+1 Si j + k 1 X j= k+1 Ei j + 1 [Ti+k + Si+k + Ei+ 2 Z za÷o·zenia wiemy, ·ze Si k = Si+k , gdy·z i + k (i k) = 2k = s, stad: ¾ 2 k 1 k 1 k 1 X X X 1 1 1 1 1 Tbi = 4 Ti k + Ti+k + Ti j + Si+k + Si j + Ei k + Ei+k + Ei s 2 2 2 2 j= k+1 j= k+1 2 j= k+1 3 j5 Poniewa·z Ps j=1 Sj = Si+k + k 1 X Si j stad ¾ oraz z przyjetych ¾ za÷o·ze´n j= k+1 wynika, ·ze Si+k + k 1 X Si j = 0. Poniewa·z suma b÷edów ¾ losowych jest j= k+1 bliska zeru, stad ¾ 0, zatem: k 1 X 1 1 Ei j 2 Ei k + 2 Ei+k + j= k+1 Tbi = = 1 2 k X Ei j + 12 j= k k 1 X Ei j j= k+1 2 3 k 1 X 1 1 41 Ti k + Ti+k + Ti j 5 s 2 2 j= k+1 2 3 k k 1 X X 1 41 1 Ti j + Ti j 5 . s 2 2 j= k j= k+1 Gdyby trend Ti by÷liniowy tzn. Ti = ai + b lub w przybli·zeniu liniowy na przedziale [i k; i + k], to: 2 3 k k 1 X X 1 1 41 (a (i j) + b) + (a (i j) + b)5 Tbi s 2 2 j= k j= k+1 2 3 k k 1 X X 1 1 1 41 1 (i j) + b (2k + 1) + a (i j) + b (2k 1)5 = a s 2 2 2 2 j= k Poniewa·z k X j= k+1 j = 0, stad ¾ j= k Tbi 1 1 1 1 a (2k + 1) + b (2k + 1) + a (2k s 2 2 2 1 = (ai2k + b2k) s = ai + b 1 1) + b (2k 2 1) Ostatecznie: Tbi Ti . Krok 2: Identy…kacja i usuwanie sezonowości. Niech wi , gdzie i = 1; :::; s jest średnia¾ arytmetyczna¾ z wartości nowego szeregu x Tb, które odpowiadaja¾i tej jednostce czasu (np. średnia z wartości z drugich kwarta÷ ów kaz·dego roku) tzn. wi jest średnia¾ arytmetyczna¾ z 3 n o ¾ na za÷oz·enie liczb: xi+js Tbi+js , gdzie k < i + js n k 3 . Ze wzgledu o sta÷ ych wartościach Si niezalez·nie od okresu, wartości wi moz·na by uznać za oz·eniem Psprzybliz·enia Si . Jednak4 aby przybliz·enia Si by÷y w zgodne z za÷ S = 0 przyjmujemy : j j=1 s Sbi = wi Sbi = Sbi 1X wi , dla i = 1; :::; s; s i=1 s dla i > s. De…niujemy now szereg czasowy pozbawiony trendu i sezonowości: xi Sbi . Krok 3: Identy…kacja zaburzeń losowych: bi = xi E Tbi Tbi Sbi . Metode¾ dekompozycji dla wersji multiplikatywnej.określa sie¾ w analogiczny sposób jak dla wersji addytywnej. Klasyczny model dekompozycji - wersja multiplikatywna xi = Ti Si Ei , gdzie s Y j=1 Sj = 1, s Y Ej = 1.oraz Si > 0 i Ei > 0. Motywacja za przyjeciem ¾ j=1 powyz·szych za÷oz·eń jest analogiczna jak w modelu addytywnym, aby sie¾ o tym przekonać nalez·y zauwaz·yć, z·e: ln (xi ) = ln (Ti ) + ln (Si ) + ln (Ei ) . Jest to postać modelu addytywnego dla którego zak÷ adalibyśmy: s X ln (Sj ) = 0 oraz j=1 co jest równowaz·ne warunkom: s X ln (Ej ) = 0, j=1 s Y Sj = 1 oraz j=1 s Y Ej = 1. Warunki Si > 0 j=1 i Ei > 0 umoz·liwiaja¾ obliczenie ln (Si ) i ln (Ei ). Podobnie jak w przypadku modelu addytywnego zak÷adamy dodatkowo, z·e sk÷adowe sezonowe Sj charakterystyczne dla jednostek czasu sa¾ sta÷e, niezalez·nie od okresu. Metoda postepowania: ¾ Krok 1: Identy…kacja i usuwanie trendu. 3 W praktyce zamiast wspomnianej średniej arytmetycznej stosuje sie¾ inne miary np. mediane, ¾ które sa¾ mniej wraz·liwe na obserwacje nietypowe tj. obserwacje o istotnie mniejszych lub ¾ wartościach od pozosta÷ych. P o duz·o wiekszych 4 Na ogó÷ si=1 wi 6= 0. 4 i Jeśli s = 2k + 1 jest liczba¾ nieparzysta, ¾ to Tbi = n k. Tbi : 2 Jeśli s = 2k jest liczba¾parzysta, ¾ to Tbi = 4 12 xi k 1 2k+1 + k X xi j dla k < j= k k 1 X j= k+1 xi j 3, + 21 xi+k 5 s dla k < i n k. De…niujemy nowy szereg czasowy pozbawiony trendu: xi =Tbi = Ti Sbi Ei Ti Si Ei . Krok 2: Identy…kacja i usuwanie sezonowości. Niech wi , gdzie i = 1; :::; s jest średnia¾ arytmetyczna¾ z wartości nowego szeregu x Tb, które odpowiadaja¾i tej jednostce czasu (np. średnia z wartości z drugich kwarta÷ ów kaz·dego roku) tzn. w n oi jest średnia¾ arytmetyczna¾ z b liczb: xi+js =Ti+js , gdzie k < i + js n k . Przyjmujemy: Sbi = wi , dla i = 1; :::; s; s Y wj j=1 Sbi = Sbi s dla i > s. De…niujemy now szereg czasowy pozbawiony trendu i sezonowości: xi T i Si Ei = b b T i Si Tbi Sbi Ei . Krok 3: Identy…kacja zaburzeń losowych: bi = xi . E Tbi Sbi Uwaga 1 W praktyce trudno jest utrzyma´c za÷o·zenie o sta÷o´sci Si niezale·znie od okresu. W trakcie obserwacji szeregu czasowego moga¾ wystapi´c ¾ warunki powodujace ¾ zmiany w warto´sciach Si z kolejnych okresów np. zmniejsza sie¾liczba zgonów w wypadkach samochodowych z chwila¾wprowadzenia obowiazku ¾ zapinania pasów bezpiecze´nstwa. Jedna¾ z propozycji jest np. zastapienie´sredniej ¾ arytmetycznej z pierwszych kwarta÷ów badanych lat´srednia¾ ruchoma¾ obliczona¾ dla pierwszych kwarta÷ów. Przedstawiony poniz·ej przyk÷ad ma na zilustrować zastosowanie metody dekompozycji rzeczywistego szeregu czasowego. Przyk÷ ad 1 Rozwa·zmy miesieczne ¾ dane ca÷kowitej produkcji energii w Wielkiej 5 Brytanii w okresie od stycznia 1998 roku do czerwca 2010 roku5 : sty-10 sty-09 sty-08 sty-07 sty-06 sty-05 sty-04 sty-03 sty-02 sty-01 sty-00 sty-99 sty-98 30 28 26 24 22 20 18 16 14 12 10 Nietrudno zauwa·zy´c, ·ze w danych wystepuje ¾ trend spadkowy oraz sezonowo´s´c z okresem rok tzn. s = 12. Widoczna jest zmiana amplitud - jej warto´sci maleja¾ wraz z up÷ywem czasu. Inaczej, mo·zna stwierdzi´c, ·ze zmienia sie¾ roczne rozproszenie w sk÷adowej odpowiedzialnej za sezonowo´s´c. Dokonajmy logarytmicznej transformacji szeregu6 . W wyniku transformacji otrzymamy nastepuj ¾ ace ¾ warto´sci: 3,6 3,4 3,2 3 2,8 2,6 2,4 2,2 sty-10 sty-09 sty-08 sty-07 sty-06 sty-05 sty-04 sty-03 sty-02 sty-01 sty-00 sty-99 sty-98 2 Zauwa·zmy, ·ze nowy szereg czasowy ma niemal sta÷e wielko´sci amplitud, a zatem mo·zemy dla niego zastosowa´c metode¾ dekompozycji w wersji addytywnej. Przeprowadzona transformacja zredukowa÷a zmienno´s´c rozpieto ¾ ´sci rocznych cykli. Przyjmujemy model postaci: xi = Ti + Si + Ei , oszacowania warto´sci Ti , Si oraz Ei przedstawione zosta÷y na poni·zszych wykresach: 5 Dane wyraz·one sa¾ w milionach ton, gdzie 1 tona odpowiada 41.868 GJ = 11,630 kWh. Źród÷o danych: Department of Energy & Climate Change. United Kingdom. 6 Transformacja jest moz·liwa, gdyz· wartości z których liczymy logarytm sa¾ wieksze ¾ od zera. 6 3,4 3,2 3 2,8 2,6 2,4 2,2 2 0,15 0,1 0,05 0 -0,05 -0,1 -0,15 -0,2 0,1 0,08 0,06 0,04 0,02 0 -0,02 -0,04 -0,06 -0,08 -0,1 Analizujac ¾ wykres b÷edów ¾ Ei mo·zna doj´s´c do wniosku, ·ze oscyluja¾one wokó÷ zera oraz w sposób losowy przyjmuja¾warto´sci zarówno dodatnie jak i ujemne. Ostatni z wykresów przedstawia szereg logarytmów z ca÷kowitej produkcji energii (kolor granatowy), trend (kolor zielony) oraz sezonowo´s´c (kolor po- 7 mara´nczowy): 3,5 3 2,5 2 1,5 1 0,5 Sezonow ość Trend sty-10 sty-09 sty-08 sty-07 sty-06 sty-05 sty-04 sty-03 sty-02 sty-01 sty-00 sty-99 sty-98 0 -0,5 Obserw acje W powyz·szym przyk÷adzie przekszta÷cono szereg czasowy, tak aby móc zastosować model addytywny. Jest to czesto ¾ spotykana praktyka majaca ¾ na celu ustabilizowanie sie¾ zmieniajacej ¾ sie¾ w czasie wariancji szeregu. Najcześ¾ p p ciej stosowanymi transformacjami sa: ¾ ln (), oraz 3 . 1 Deterministyczne metody prognozowania W rozdziale omówione zostana¾ nieformale metody prognozowania, które czesto ¾ i z powodzeniem wykorzystywne sa¾ w praktyce. Za÷óz·my, z·e obserwacje x1 ; :::; xn sa¾ realizacja¾ ciagu ¾ zmiennych losowych (procesu stochastycznego) X1 ; :::; Xn , gdzie n 2 N. Jesteśmy zainteresowani estymacja, ¾ inaczej prognoza, ¾ przysz÷ych realizacji zmiennych Xn+h , gdzie bn+h h = 1; 2:::. Estymatory zmiennych losowych Xn+h oznaczamy przez X lub Fn+h . 1.1 Metoda średniej ruchomej Jak wiadomo z poprzednich rozwaz·ań średnia arytmetyczna minimalizuje b÷ ad ¾ średniokwadratowy7 . Moz·na zatem potraktować ta¾ średnia¾ jako estymator przysz÷ych wartości badanego zjawiska. Estymator ten ma swoje zalety: szybkość jego obliczania, ÷ atwość uwzgledniania ¾ kolejnych pojawiajacych ¾ sie¾ obserwacji: nxn + xn+1 . xn+1 = n+1 Podstawowa¾wada¾jego zastosowania jest spe÷nienie za÷oz·enia o stacjonarności zjawiska, co oznacza, z·e proces generujacy ¾ dane oscyluje wokó÷ustalonej liczby (średniej) oraz jego wariancja jest sta÷a (nie zalez·y od up÷ywajacego ¾ 7 min c n X (xi c)2 jest realizowane w c = x: i=1 8 czasu). Przyk÷ ad danych wygenerowanych z procesu stacjonarnego przedstawia poniz·szy rysunek: Widać, z·e dane oscyluja¾ wokó÷ustalonej wartości (poziom zaznaczony czerwona¾linia) ¾ oraz maja¾to samo rozproszenie. Formalna de…nicja stacjonarności znajduje sie¾ w dalszej cześci ¾ podrecznika. ¾ Zdajemy sobie spraw¾ e, z·e w przypadku wystepowania ¾ w danych sta÷ej tendencji np. wzrostowej, to średnia z próby nie bedzie ¾ w÷ aściwym poziomem prognozy, podobna sytuacja zachodzi, gdy w danych wystepuje ¾ sezonowość: 9 Jeśli charakterystyki danych zmieniaja¾sie¾ w czasie, to lepszym estymatorem przysz÷ ych wartości niz· średnia z ca÷ ej próby bedzie ¾ średnia z ostatnich obserwacji. Metoda średniej ruchomej - obliczanie średnich ze zbiorów kolejnych obserwacji jest wykorzystywana do wyg÷adzania szeregu w celu identy…kacji trendu, ale równiez· do prognozowania. Parametrem metody średniej ruchomej jest liczba danych (wielkość okna) z których obliczana jest średnia, oznaczmy go przez k. Mówimy wówczas o metodzie średniej ruchomej rzedu ¾ k i oznaczamy ja¾ przez MA(k). Niech Fi bed ¾ a¾ estymatorami wartości Xi , a poniewaz· wartość Fi wyznaczamy w oparciu o obserwacje xi k ; :::; xi 1 , stad ¾ Fi określamy dla i = 1 + k; :::; n. Fi = i 1 1 X xj , k j=i k Fi+1 = 1 k xj . j=i k+1 Ogólnie: Fl+1 = Fl + Obserwacja 4 i X xl xl k k . 1. M A (1) : Fi+1 = xi. 2. MA(n) = xn . 3. Im wieksze ¾ k, tym Fk+1 ; F2 ; :::; Fn bardziej wyg÷adzaja¾ciag ¾ obserwacji. Podejście w którym wartość prognozy przyjmujemy na poziomie poprzednio zaobserwowanej wartości tzn. Fn+1 = x nazywamy naiwna¾ metoda¾ prognozowania. 10 Przyk÷ ad 2 Rozwa·zmy liczby obs÷ugiwanych przez …rme¾ klientów w kolejnych okresach czasu. Wykorzystano MA(2) i MA(5) do prognozy liczby klientów na kolejny okres. Na wykresie przedstawiono zaobserwowana¾liczbe¾ klientów (kolor czarny), zbiory danych uzyskanych z MA(2) (kolor czerwony) i MA(5) (kolor zielony) oraz punkt (…oletowy), który odpowiada prognozie na poziomie ´sredniej z ca÷ej próby (MA(n)). 10300 10200 10100 10000 9900 9800 9700 obserw acje MA(2) MA(5) średnia Widoczne jest wieksze ¾ wyg÷adzenie dla k = 5 ni·z dla k = 2. Warto´sci prognozy dla MA(2) i MA(5) sa¾podobne. Prognoza na poziomie ´sredniej wydaje sie¾ ma÷o wiarygodna, co wynika z niew÷a´sciwego uwzglednia ¾ rosnacej ¾ liczby obs÷ugiwanych klientów. Wynika, to z faktu, ·ze ´srednia arytmetyczna z ca÷ej próby daje jednakowa¾ wage¾ ka·zdej z obserwacji, nie faworyzujac ¾ ·zadnego podzbioru. S÷abym punktem metody średniej ruchomej jest z konieczność wyboru nieznanej wielkości parametru k. Metoda średniej ruchomej niezbyt dobrze radzi sobie z danymi w których wystepuje ¾ trend czy sezonowość, ale zwykle lepiej sprawdza sie¾ ona od średniej z ca÷ej próby. Metoda średniej ruchomej wyznacza ciag ¾ liczb, które poda¾z·aja¾ z pewym opóźnieiem za szeregiem obserwacji w których wystepuj ¾ a¾ zmiany dynamiki. Im mniejszy jest rzad ¾ metody tym mniejsze jest opóźnienie. 1.2 Metoda wyg÷ adzania wyk÷ adniczego Kaz·da z obserwacji ma jednakowy wp÷ yw na wartość średniej arytmetycznej z próby tzn. obserwacje maja¾ te¾ sama¾ wage¾ n1 . W metodzie średniej ruchomej ustaliśmy liczbe¾ ostatnich obserwacji, które wed÷ug nas mog÷yby mieć zwiazek ¾ z nieznana¾ przysz÷ a¾ wartościa. ¾ Intuicyjnie jest jasne, z·e przysz÷ ai nieznana realizacja zjawiska zwykle jest bardziej „zbliz·ona/podobna"do ostatnich wartości niz· do „starszych". W metodzie wyg÷ adzania wyk÷ adniczego (w skrócie WW) wagi przypisane kolejnym, coraz starzym obserwacjom maleja¾ wyk÷adniczo. 11 Niech Fn+1 jest prognoza¾przysz÷ ej obserwacji xn+1 . Z chwila¾pojawienia sie¾ obserwacji w chwili n + 1 znamy b÷ad ¾ prognozy: xn+1 Fn+1 : Przyjmujemy w metodzie wyg÷adzania wyk÷adniczego, z·e kolejna wartość prognozy zalez·y od pope÷nionego uprzednio b÷edu: ¾ Fn+2 = Fn+1 + (xn+1 Fn+1 ) , gdzie 2 [0; 1] Zauwaz·my, z·e im wieksze ¾ tym poprawka xn+1 Fn+1 ma wieksze ¾ znaczenie na kolejna¾ wartość prognozy. Ze wzgledu ¾ na uwzglednie ¾ b÷ edu ¾ prognozy metoda ta radzi sobie z wystepowaniem ¾ trendu w danych Fn+l dla l = 1; 2; ::: to samodopasowywujacy ¾ sie¾ proces, uczacy ¾ sie¾ na w÷asnych b÷edach. ¾ Zapiszmy ogólny wzór na wartość prognozy: Fn+1 = xn + (1 ) Fn . A zatem wartość prognozy, to średnia waz·ona z ostatniej obserwacji i prognozy. Obserwacja 5 Je´sli = 1, to Fn+1 = xn . Wykonajmy elementarne przekszta÷cenia: Fn+1 = xn + (1 ) Fn = xn + (1 ) [ xn = xn + (1 = xn + (1 ) xn ) xn 1 1 1 + (1 + (1 + (1 ) Fn 2 ) Fn 2 1] 1 ) [ xn 2 + (1 ) Fn 2] .. . = n X1 (1 )i xn i + (1 )n F1 . i=0 Ostatecznie na Fn+1 maja¾wp÷yw obserwacje xn ; :::; x1 z malejacymi ¾ wyk÷adniczo wagami: 1 , (1 )2 ; :::; (1 )n 1 . Zauwaz·my, z·e aby zastosować metode¾ wyg÷ adzania wyk÷adniczego musimy znać wartości F1 oraz parametru . Za F1 wygodnie jest przyjać ¾ wartość pierwszej obserwacji tj. F1 = x1 lub średnia¾ z kilku pierwszym obserwacji np. F1 = 15 (x1 + ::: + x5 ). Ostatni sk÷adnik wzoru na Fn+1 , to (1 )n F1 , zatem dla dostatecznie duz·ej wartości n lub bliskiej jedności wartości parametru wp÷yw F1 na Fn+1 jest znikomy. Gdy jest bliskie zeru oraz liczność próby n jest ma÷ a, to wybór wartości F1 ma duz·e znaczenie. Rozwaz·ania iIlustruje poniz·sza tabela: 12 n/ 10 15 20 100 1000 (1 0; 25 0; 0563 0; 0134 0; 0032 0; 0000 0; 0000 0; 01 0; 9044 0; 8601 0; 8179 0; 3660 0; 0000 )n 0; 5 0; 0098 0; 0000 0; 0000 0; 0000 0; 0000 0; 75 0; 00000 0; 00000 0; 00000 0; 00000 0; 00000 0; 9 0; 00000 0; 00000 0; 00000 0; 00000 0; 00000 Pozostaje jeszcze problem wyboru . Jego wartość wybieramy, tak by minimalizować średniokwadratowy b÷ ad ¾ dopasowania tzn. min 2[0;1] n X (xi 2 Fi ) = min i=2 2[0;1] n X (xi xi 1 (1 ) Fi 2 1) . i=2 Optymalne wyznacza sie¾ numerycznie. Prognoza wyznaczona metoda¾ średniej ruchomej dotyczy tylko jednego okresu. Dla kolejnych okresów przyjmuje sie, ¾ z·e Fn+h = Fn+1 , gdzie h = 2; 3; :::, a zatem wartości prognozy z kolejnych okresów sa¾takie same. Moz·emy zatem wnioskować, z·e metode¾ średniej ruchomej najlepiej uz·ywać do prognoz krótkookresowych (np. 1-2 okresy) lub dla danych, wśród których nie obserwujemy trendu oraz sezonowości. Przyk÷ ad 3 Rozwa·zmy kwartalne ´srednie ceny transakcyjne metra kwadratowego mieszkania w Krakowie z lat 2006 - 20078 . Na przedstawionym poni·zej wykresie ceny zaznaczono kolorem czarnym, z wyjatkiem ¾ 2 ostatnich obserwacji, zaznaczonych kolorem ·zó÷tym odpowiadajacych ¾ IV kwarta÷owi 2009 roku i pierwszemu kwarta÷owi 2010 roku. Warto´sci te podlega÷y progno8 Źród÷o danych www.amron.pl. 13 zowaniu metoda¾wyg÷adzania wyk÷adniczego z parametrem 2 f0; 01; 0; 25; 0; 5; 0; 95g. 7 500 7 000 0,01 6 500 0,25 0,5 6 000 0,95 przyszłe 5 500 ceny 5 000 4 500 2006 2007 2008 2009 2010 Dla = 0; 25 oraz = 0; 5 prognozy sa¾ bardziej trafne ni·z w przypadku pozosta÷ych warto´sci . Te w÷a´snie parametry mo·zna przyja´c ¾ za warto´sci startowe procedur numerycznych poszukujacych ¾ optymalnego (tj. minimalizujacego ¾ b÷¾ ad dopasowania). Przyk÷ ad 4 Rozwa·zamy przecietne ¾ ceny 1 ha gruntów ornych w obrocie prywatnym w Polsce z lat 1999-20099 . Na przedstawionym poni·zej wykresie ceny zaznaczono kolorem czarnym, z wyjatkiem ¾ 2 ostatnich obserwacji, zaznaczonych kolorem ·zó÷tym i odpowiadajacych ¾ cenom z lat 2008 i 2009. Warto´sci te podlega÷y prognozowaniu metoda¾ wyg÷adzania wyk÷adniczego z 9 Źród÷o danych: www.stat.gov.pl. 14 parametrem 2 f0; 01; 0; 25; 0; 5; 0; 95g. 18 000 16 000 14 000 0,01 12 000 0,25 10 000 0,5 8 000 0,95 6 000 przyszłe 4 000 ceny 2 000 11 10 9 8 7 6 5 4 3 2 1 0 Zgodnie z za÷o·zeniami metody wyg÷adzania wyk÷adniczego warto´sci prognoz na kolejne okresy sa¾ takie same, gdy·z Fn+h = Fn+1 , gdzie h = 2; 3; :::. Warto´sci (przysz÷e) cen z lat 2008 i 2009, zaznaczone kolorem ·zó÷tym, odbiegaja¾od warto´sci prognoz uzyskanych metoda¾wyg÷adzania wyk÷adniczego. W danych wystepuje ¾ trend, który przy rozwa·zanych wielko´sciach niezadawalajaco ¾ wykrywa zastosowana metoda prognozowania. Uwaga 2 Metode¾ wyg÷adzania wyk÷adniczego zaleca sie¾ stosowa´c, gdy w danych nie wystepuje ¾ tred ani sezonowo´s´c. 1.3 1.3.1 Metody Holta i Wintersa Metoda Holta W podrozdziale omówimy kolejna¾ metode¾ prognozowania. Metoda Holta (w skrócie MH) jest rozszerzeniem idei wyg÷adzania wyk÷adniczego, na dane zawierajace ¾ trend linowy i nie zawierajace ¾ sezonowości. Przyjmijmy, z·e trend jest postaci: a + bi, gdzie i = 0; 1; 2; ::: oraz a i b sa¾ parametrami trendu. Ze wzgledu ¾ na zaburzenie losowe wielkości a i b sa¾ nieznane i musza¾ być oszacowane na podstawie próby. Wielkość ai interpretujemy jako oszacowanie wartości (poziomu) zjawiska w chwili i wyznaczonej w oparciu o znane wartościx1 ; :::; xi . Wielkość bi interpretujemy jako wspó÷czynniki kierunkowy (nachylenie) prostej 15 Metode¾ Holta określaja¾ równania: ai = xi + (1 bi = (ai Fi = ai 1 ai + bi ) (ai 1) 1; 1 + bi + (1 2 i ) bi 1) ; 1 i n 1; 1 i n n, Fn+h = an + bn h, h = 1; 2; ::: gdzie 2 (0; 1) i 2 (0; 1) sa¾ parametrami modelu. Interpretacja: 1. ai jest oszacowaniem poziomu danych xi lub inaczej wyg÷adzeniem danych. ai jest średnia¾ waz·ona¾ zaobserwowanej w chwili i realizacji zjawiska xi (czesto ¾ zniekszta÷conej losowo) oraz wyg÷ adzonej (przewidywanej) wartości obserwacji; ai 1 + bi 1 - do poprzedniego poziomu dodajemy oszacowany przyrost, co u÷atwia eliminacje¾ opóźnienia w oszacowaniu poziomu zjawiska. 2. bi jest oszacowaniem wspó÷czynnika nachylenia, jest to średnia waz·ona przyrostu wyg÷adzonej wartości zjawiska ai ai 1 oraz poprzedniego oszacowania wspó÷ czynnika bi 1 . Zauwaz·my, z·e równanie bi = (ai ai (1 ) bi 1 jest podobne do równania określajacego ¾ metode¾ wyg÷adzania wyk÷adniczego:Fi = xi 1 + (1 ) Fi 1 zastosowanego do oszacowania wspó÷czynnika nachylenia, a nie wartości danych. 3. Fn+h = an + bn h, gdzie oszacowany wspó÷czynnik trendu bn zosta÷ pomnoz·ony przez liczbe¾ okresów prognozy, jest prognoza¾ kolejnych wartości zjawiska. Obserwacja 6 Zauwa·zmy, ·ze ai = xi +(1 ) Fi , co oznacza, ·ze oszacowanie/u´srednienie stanu procesu (obserwacji w chwili i) jest ´srednia¾ wa·zona¾ zaburzonej przez losowo´s´c obserwacji xi oraz oszacowania warto´sci procesu na chwile¾ i tzn. Fi . Uwaga 3 W praktyce, parametry modelu i dobierane sa¾ tak, by zminimalizowa´c ´sredniokwadratowy b÷¾ ad dopasowania. Wyznaczenie optymalnych parametrów odbywa sie¾ na drodze prób i bledów ¾ lub numerycznych przybli·ze´n. Metoda wymaga warto´sci poczatkowych ¾ a1 i b1 . Wygodnie jest przyja´c ¾ a1 = x1 oraz b1 = x2 x1 lub na podstawie poczatkowych ¾ warto´sci x oszacowa´c a1 i b1 metoda¾ najmniejszych kwadratów. Przyk÷ ad 5 Kolejne dane zosta÷y obliczone ze wzoru: xi = 7+3i, z wyjatkiem ¾ czwartego okresu, gdzie dane zosta÷y zaburzone dodatkowa¾ warto´scia:¾ x4 = 7 + 3 4 + 10. Przyjeto, ¾ ·ze parametry metody wynosza¾ = = 0; 5 oraz 16 1 )+ a1 = x1 i b1 = x2 x1 . okres 1 2 3 4 5 .. . dane 10 13 16 29 22 .. . ai 10 13 16 24 25; 75 .. . bi 3 3 3 6 4 .. . Fi 13 16 19 30 .. . Dla okresów 2 i 3 zachodzi równo´s´c ai = Fi . F4 jest oszacowaniem danej na 4 okres. Metoda wykry÷a schemat obliczania danych (= 7+3i) ale ze wzgledu ¾ na zaburzenie liczba F4 jest ró·zna od x4 . Wielko´s´c a4 = 12 29 + 12 19 = 24 jest oszacowaniem poziomu danych w czwartym okresie, to ´srednia wa·zona zaobserwowanej wielko´sci x4 oraz wielko´sci F4 . Przyk÷ ad 6 Przecietne ¾ ceny 1 ha gruntów ornych w obrocie prywatnym w Polsce w latach 1999-2009. Kolorem czarnym i ·zó÷tym zaznaczono rzeczywiste ceny, z tym, ·ze kolor ·zó÷ty dotyczy wielko´sci podlegajacych ¾ prognozowaniu. Kolorem czerwonym zaznaczono oszacowane ceny uzyskane z metody Holta. Przyjeto, ¾ ·ze a1 = x1 oraz b1 = x2 x1 . Minimalizujac ¾ b÷¾ ad ´sredniokwadratowy wyznaczono parametry = 0; 719362 i = 1. 18 000 16 000 14 000 MH 12 000 Przyszłe 10 000 Ceny 8 000 6 000 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 4 000 ×atwo dostrzec, ·ze uzyskane prognozy sa¾ nie sa¾ zbyt odleg÷e od zaobserwowanych cen z lat 2008 i 2009, a zw÷aszcza je´sli porównamy wyniki z prognozami uzyskanymi metoda¾wyg÷adzania wyk÷adniczego (WW), które na 17 poni·zszym wykresie zaznaczono kolorem zielonym. 18 000 16 000 14 000 MH 12 000 Przyszłe 10 000 Ceny WW 8 000 6 000 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 4 000 Parametr = 1 metody WW oszacowano minimalizujac ¾ b÷¾ ad´sredniokwadratowy uzyskujac ¾ Fi+1 = xi , gdzie i = 2; :::; n (tzw. naiwna metoda prognozowania). 1.3.2 Metoda Holta i Wintersa Jeśli w danych nie wystepuje ¾ trend oraz sezonowość, to metody średniej ruchomej oraz metody wyg÷ adzania wyk÷adniczego sa¾wystarczajacycm ¾ narzedziem ¾ opisu danych i moz·na je wykorzystać do prognozowania. W przypadku wystepowania ¾ trendu liniowego stosowana jest liniowa metoda Holta. Wymienione metody nie radza¾ sobie z danymi w których wystepuje ¾ sezonowość. P. Winters rozszerzy÷metode¾ C. Holta, tak aby oprócz liniowego trendu uwzglednić ¾ sezonowość zjawiska. Ze wzgledu ¾ na rozróz·nienie miedzy ¾ multiplikatywna¾ i addytywna¾ sezonowościa¾ rozwaz·ać bedziemy.metod ¾ e¾ Holta i Wintersa w wersji multiplikatywnej i addytywnej. Dla uproszczenia bedziemy ¾ uz·ywać równiez· skrótów: MHW i AHW oznaczajacyh ¾ metody Holta i Wintersa w wersji multiplikatywnej i addytywnej. Wersja multiplikatywna 18 Nastepuj ¾ ace ¾ równania określaja¾ metode¾ Holta i Wintersa: xi + (1 ) (ai 1 + bi 1 ) ; 1 + s i n Si s = (ai ai 1 ) + (1 ) bi 1 ; 1 + s i n xi = + (1 ) Si s ; 1 + s i n ai = (ai 1 + bi 1 ) Si s ; 2 i n, ai = bi Si Fi Fn+h = (an + bn h) Sn+h gdzie 2 (0; 1), okresem. Interpretacja 2 (0; 1) i s; h = 1; 2; ::: 2 (0; 1) sa¾ parametrami metody, s jest 1. a odpowiada średniemu (wyg÷ adzonemu) poziomowi wartości danych pozbawionych sezonowości. 2. b określa wyg÷ adzony wspó÷czynnik liniowego trendu. 3. S określa czynnik opisujacy ¾ sezonowość o okresie s. 4. F jest prognoza¾ realizacji zjawiska w którym wystepuje ¾ trend i sezonowość w wersji czynnikowej. Równanie na ai jest analogiczne jak w metodzie Holta z ta¾ róz·nica, ¾ z·e wartość obserwacji xi jest podzielona przez czynnik sezonowy Si s . W konsekwencji ciag ¾ ai jest wyg÷adzeniem szeregu danych po usunieciu ¾ sezonowości. Równanie na bi jest takie jak w metodzie Holta. W równaniu na Si wystepuje ¾ czynnik xaii , który eliminuje trend z danych pozostawiajac ¾ sezonowość i zaburzenie losowe. Aby zmniejszyć wp÷yw losowości wielkość Si określa sie¾ jako średnia¾ waz·ona¾ czynnika xaii oraz czynika sezonowego Si s wyliczonego dla poprzedniego okresu. Uwaga 4 Aby zastosowa´c metode¾ Holta i Wintersa potrzebujemy ustalenia warto´sci poczatkowych ¾ dla a, b oraz S1 , S2 ,...,Ss . W tym celu przyjmuje sie: ¾ as = 1 (x1 + ::: + xs ) . s Jest to ´srednia warto´sci z pierwszego cyklu (z÷o·zonego z s okresów). W ¾ obserwacje z powtarzajacych ¾ sie¾ okresów. ´sredniej nie zosta÷y uwzglednione Ponadto przyjmuje sie, ¾ ·ze: bs = 1 s xs+1 x1 xs+2 x2 xs+s xs + + ::: + s s s 19 , gdzie ka·zdy ze sk÷adników xs+is xi jest oszacowaniem wspó÷czynnika trendu dla konkretnego okresu, a bs jest ´srednia¾ z tych oszacowa´n. Czynniki sezonowe okre´slamy w nastepuj ¾ acy ¾ sposób: S1 = xs x1 ; :::; Ss = ; as as a zatem sa¾ilorazem kolejnych obserwacji w cyklu i ´sredniej warto´sci z pierwszego cyklu. Zauwa·zmy, ·ze aby zainicjowa´c metode¾ potrzebujemy dwóch pe÷nych cykli tj. obserwacji: x1 ; :::; xs ; :::; x2s . Uwaga 5 Do poszukiwania optymalnych warto´sci parametrów metody , i wykorzystujemy procedury numeryczne szukajace ¾ warto´sci minimalizuja¾ cych b÷¾ ad ´sredniokwadratowy. Wersja addytywna Nastepuj ¾ ace ¾ równania określaja¾ metode¾ Holta i Wintersa: ai = (xi Si s) + (1 ) (ai bi = (ai ai 1) + (1 ) bi Si = (xi ai ) + (1 Fi = ai 1 + bi 1 + Si Fn+h = an + bn h + Sn+h s; 1 1; + bi 1+s ) Si s; 1+s 2 i n, s; h 1) ; 1+s i i i n n n = 1; 2; ::: gdzie 2 (0; 1), 2 (0; 1) i 2 (0; 1) sa¾ parametrami metody, s jest okresem. Powyz·sze równania sa¾ analogiczne do równań z wersji multiplikatywnej. Róz·nica polega na odjeciu ¾ a nie podzieleniu komponentu odpowiedzialnego za sezonowość Si s oraz poziomu szeregu ai nie uwzgledniaj ¾ acego ¾ sezonowości Interpretacja równań jest taka jak w wersji multiplikatywnej. Uwaga 6 Aby zastosowa´c metode¾ Holta i Wintersa potrzebujemy ustalenia warto´sci poczatkowych ¾ dla a, b oraz S1 , S2 ,...,Ss . W tym celu przyjmuje sie: ¾ 1 (x1 + ::: + xs ) , s 1 xs+1 x1 xs+2 x2 xs+s xs = + + ::: + s s s s = x1 as ; :::; Ss = xs as : as = bs S1 Zauwa·zmy, ·ze podobnie jak w wersji multiplikatywnej aby zainicjowa´c metode¾ potrzebujemy dwóch pe÷nych cykli tj. obserwacji: x1 ; :::; xs ; :::; x2s . Uwaga 7 Do poszukiwania optymalnych warto´sci parametrów metody , i wykorzystujemy procedury numeryczne szukajace ¾ warto´sci minimalizuja¾ cych b÷¾ ad ´sredniokwadratowy. 20 Uwaga 8 Wersja addytywna jest rzadziej stosowana w praktyce ni·z wersja multiplikatywna. Uogólnienia Metode¾ Holta stosuje sie¾ dla danych zawierajacych ¾ liniowy trend. Metode¾ Holta i Wintersa stosuje sie¾ w przypadku szeregów z liniowym trendem i komponentem sezonowym w wersji addytywnej lub multiplikatywnej. Wzorujac ¾ sie¾ na równaniach z metody HW ÷atwo wskazać uogólnienia wykorzystywane do prognozowania danych w których wystepuje ¾ trend w wersji multiplikatywnej lub danych w których nie wystepuje ¾ trend ale wystepuje ¾ sezonowość. 1. Trend multiplikatywny i sezonowość w wersji multiplikatywnej: xi ai = + (1 ) (ai 1 bi 1 ) ; 1 + s i n Si s ai + (1 ) bi 1 ; 1 + s i n bi = ai 1 xi Si = + (1 ) Si s ; 1 + s i n ai Fi = ai 1 bi 1 Si s ; 2 i n, Fn+h = an bn Sn+h s; h = 1; 2; :::. 2. Trend multiplikatywny i sezonowość w wersji addytywnej: ai = bi = Si = (xi Si s ) + (1 ) (ai 1 bi 1 ) ; 1 + s ai + (1 ) bi 1 ; 1 + s i n ai 1 (xi ai ) + (1 ) Si s ; 1 + s i n Fi = ai 1 bi 1 + Si s; Fn+h = an bn + Sn+h 2 s; h i i n, = 1; 2; :::. 3. Brak trendu i sezonowość w wersji multiplikatywnej: xi ai = + (1 ) ai 1 ; 1 + s i n Si s xi Si = + (1 ) Si s ; 1 + s i n ai Fi = ai 1 Si s ; 2 i n, Fn+h = an Sn+h s; h = 1; 2; :::. 4. Brak trendu i sezonowość w wersji addytywnej: ai = (xi Si Si = (xi ai ) + (1 Fi = ai 1 + Si Fn+h = an + Sn+h s) s; + (1 2 s; 21 ) ai ) Si i s; n, h = 1; 2; :::. 1; 1+s 1+s i i n n n Przyk÷ ad 7 Rozwa·zmy szereg kwartalnych warto´sci wydatków bud·zetu pa´nstwa ogó÷em (od poczatku ¾ roku do ko´nca okresu) w milionach z÷. z lat 20002009 oraz z pierwszego i drugiego kwarta÷u 2010 roku10 . Dane kwartalne z roku 2010 bed ¾ a¾ podlega´c prognozowaniu. Na poni·zszym wykresie kolorem czarnym zaznaczono dane z lat 1995-2009. Warto´sci z pierwszego i drugiego kwarta÷u 2010 roku oznaczono kolorem ·zó÷tym. Kolorem czerwonym zaznaczono warto´sci uzyskane metoda¾ Holta i Wintersa z addytywna¾ wersja¾ trendu i multiplikatywna¾ wersja¾ sezonowo´sci. Solverem oszacowano parametry metody na poziomie: = 0; 689424, = 0; 003929, = 1. 350000 300000 250000 200000 150000 100000 50000 Przyszłe zaobserwowane wydatki Wydatki 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 0 HW Otrzymany metoda¾ HW szereg danych jest zbli·zony do zaobserwowanych warto´sci. Metoda wykry÷a liniowy trend i sezonowo´s´c. Uzyskane prognozy sa¾ bliskie warto´scia¾ zaobserwowanym. Na poni·zszych dwóch rysunkach przedstawiono warto´sci Si oraz ai +bi . Pierwszy wykres przedstawia funkcje, ¾ która¾ mo·zemy uzna´c za okresowa¾ co jest zgodne z interpretacja.¾ Natomiast drugi wykres swoim kszta÷tem zbli·zony jest do linii, co jest zgodne z przyjetym ¾ za÷o·zeniem metody o liniowym trendzie. 10 Źród÷o danych: www.gus.pl 22 1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 250000,0 200000,0 150000,0 100000,0 50000,0 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 0,0 Przyk÷ ad 8 Rozwa·zmy szereg kwartalnych warto´sci produktu krajowego brutto (ceny bie·zace) ¾ z lat 1995-2009 oraz z pierwszego i drugiego kwarta÷u 2010 11 roku . Dane kwartalne z roku 2010 bed ¾ a¾ podlega´c prognozowaniu. Na poni·zszym wykresie kolorem czarnym zaznaczono dane z lat 1995-2009. Warto´sci z pierwszego i drugiego kwarta÷u 2010 roku oznaczono kolorem ·zó÷tym. Kolorem czerwonym zaznaczono warto´sci uzyskane metoda¾Holta i Wintersa z addytywna¾ wersja¾ trendu i sezonowo´sci. Solverem oszacowano parametry metody: 11 Źród÷o danych: www.gus.pl 23 = 0; 445223, = 0; 304841, = 1. 450000 400000 350000 300000 250000 200000 150000 100000 Przyszłe zaobserwowane PKB PKB HW Otrzymany metoda¾ HW szereg danych jest zbli·zony do zaobserwowanych warto´sci PKB. Metoda wykry÷a liniowy trend i sezonowo´s´c. Uzyskane prognozy sa¾ bliskie warto´scia¾ zaobserwowanym. 24 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 50000