1 Pojąecie szeregu czasowego
Transkrypt
1 Pojąecie szeregu czasowego
Studia podyplomowe w zakresie przetwarzania, zarz¾ adzania i statystycznej analizy danych Analiza szeregów czasowych 24.11.2013 - 2 godziny konwersatorium autor: Adam Kiersztyn 1 Pojecie ¾ szeregu czasowego Dane statystyczne zbierane sa¾ kaz·dego dnia. Dane takie dotyczyć moga¾ róz·norakich dziedzin jak ilościowy opis produkcji rolnej buraka cukrowego w Polsce i migracji ludności w Europie, czy tez· zmian cen kursu franka szwajcarskiego. Nie sa¾ to jedyne moz·liwe przyk÷ady danych poddawanych obróbce statystycznej. Do takich samych danych z punktu widzenia statystyka moz·emy zaliczyć aktywność źród÷ a promieniowania czy b÷adzenie ¾ przypadkowe okruszka ciasta czekoladowego, który wpad÷nam w÷aśnie do kawy. Wszystkie powyz·sze przyk÷ady maja¾ jedna¾ wspólna¾ ceche¾ - wielkości, które mierzymy w kaz·dym przypadku, jez·eli tylko pouk÷ adane sa¾ po kolei w czasie podpadaja¾ nam pod de…nicje¾ szeregu czasowego. W przypadku ekonometrii, czy szeroko pojetych ¾ rynków …nansowych i gospodarki, takie szeregi zwykle bed ¾ a¾ opisywać zmiane¾ wielkości jakiegoś instrumentu rynku. W tym przypadku Fizyka, Matematyka i Ekonometria zbudowa÷y i rozwine÷ ¾y aparat s÷ uz·acy ¾ do analizy takich szeregów. W najogólniejszym z moz·liwych stwierdzeniu moz·na rzec, z·e taka analiza daje szanse dla inwestora na próbe¾ przewidywania przysz÷ ości na podstawie przesz÷ości. Przesz÷ ość zawarta jest w danych, które zebrane sa¾ w szeregach czasowych. Przysz÷ ość to tylko statystyczna predykcja moz·liwych zachowań badanego instrumentu rynku, oparta na mniej lub bardziej poprawnej analizie dostepnych ¾ nam danych. Dane statystyczne moz·emy w ogólności podzielić na dane przekrojowe (cross sectional data) - wiele jednostek obserwowanych w jednej jednostce czasu, szeregi czasowe (time series data) - jedna jednostka czasowa obserwowana w wielu jednostkach czasu - to w÷aśnie tym rodzajem danych bedziemy ¾ sie¾ zajmować, dane panelowe (panel data, cross sectional time series data) - wiele jednostek czasowych obserwowanych w wielu jednostkach czasu. Na tym przedmiocie zajmiemy omówieniem w÷ asności szeregów czasowych. W literaturze moz·na spotkać róz·ne de…nicje szeregu czasowego: - ciag ¾ obserwacji pokazujacy ¾ kszta÷towanie sie¾ badanego zjawiska w kolejnych okresach czasu; - uporzadkowany ¾ chronologicznie zbiór wartości badanej cechy lub określonego zjawiska zaobserwowanych w róz·nych momentach czasu - realizacja procesu stochastycznego, którego dziedzina¾jest czas - pojedyncze obserwacje yt sa¾ realizacjami zmiennych losowych Yt . Proces stochastyczny 1 de…niowany jest w tym przypadku jako ciag ¾ zmiennych losowych indeksowanych przez czas t, a szereg czasowy jest wtedy pojedyncza¾ realizacja¾ tego procesu. 2 Sk÷ adowe szeregu czasowego Wśród sk÷ adników szeregu czasowego zazwyczaj wyróz·nia sie: ¾ - trend - wahania sezonowe - wahania cykliczne - wahania przypadkowe. W obrazowy sposób moz·na to przedstawić za pomoca¾ nastepuj ¾ acego ¾ diagramu: Wyróz·nienie poszczególnych sk÷ adowych nie jest sprawa¾prosta, ¾ bowiem pomiedzy ¾ poszczególnymi sk÷ adnikami wystepuj ¾ a¾z÷oz·one interakcje, ponadto moz·e zdarzyć sie¾ tak, z·e badanym przez Nas szeregu wystepuj ¾ a¾ sk÷adniki niejawne, których nie jesteśmy w stanie wyróz·nić. Przedstawimy teraz kilka przyk÷adów szeregów czasowych. 2 3 Przyk÷ ady szeregów czasowych Najprostszym przyk÷ adem szeregu czasowego jest obserwacja kolejnych rzutów moneta. ¾ Jeśli przyjmiemy, z·e wyrzuceniu or÷a odpowiada wartość liczbowa 1, zaś wyrzuceniu reszki wartość liczbowa 0, to otrzymujemy przyk÷ ad procesu dychotomicznego (zerojedynkowego, binarnego). Formalnie rozwaz·amy ciag ¾ zmiennych losowych Xt ; t = 1; 2; ::: o jednakowych rozk÷ adach 1 : 2 Poniz·szy rysunek przedstawia¾ moz·liwa¾ realizacje¾ takiego procesu. P [Xt = 0] = P [Xt = 1] = Rozwaz·my teraz inny typowy przyk÷ ad szeregu czasowego. Na poniz·szym rysunku przedstawiono liczbe¾ ludności USA w latach 1790-1980 3 Ludność USA w latach 1790-1980 250000000 200000000 150000000 Ludność USA w latach 17901980 100000000 50000000 0 1 3 5 7 9 11 13 15 17 19 Rozwaz·my teraz nieco bardziej skomplikowany przyk÷ad, w którym bed ¾ a¾ juz· uwidocznione poszczególne wyróz·nione powyz·ej sk÷adowe szeregu czasowego. Na rysunku poniz·ej przedstawiono liczbe¾ sprzedawanych litrów paliwa na pewnej stacji benzynowej w jednym miesiacu. ¾ Poszczególnymi kolorami zaznaczono równiez· sk÷ adowe naszego szeregu czasowego. 4 4000 3500 3000 2500 2000 1500 1000 500 0 1 3 5 7 9 11 13 15 17 19 21 23 25 -500 4 Poziom stały Trend Wahania okresowe Wahania sezonowe Wahania losowe Poziom sprzedaży paliwa Formalne ujecie ¾ problemu Z formalnego punktu widzenia szereg czasowy jest realizacja¾ procesu stochastycznego, aby lepiej zrozumieć ta¾ zalez·ność musimy wprowadzić niezbedne ¾ ( nie do końca formalne) de…nicje. Proces stochastyczny jest to rodzina zmiennych losowych określonych na pewnej przestrzeni probabilistycznej ( ; F; P ) o wartościach w pewnej przestrzeni mierzalnej - najcześciej ¾ zbiorze liczb rzeczywistych. W badaniu szeregów czasowych bardzo istotna¾role¾ odgrywaja¾pojecia ¾ kowariancji, autokowariancji, korelacji oraz autokorelacji. Dla dwóch zmiennych losowych X i Y funkcja cov (X; Y ) = E [(X EX) (Y 5 EY )] = E (XY ) EXEY 27 29 określa liniowa¾ zalez·ność pomiedzy ¾ zmiennymi X i Y: Stopień wspó÷ zalez·ności moz·na podać za pomoca¾ wspó÷ czynnika korelacji Pearsona rXY = cov (X; Y ) X : Y Wartość wspó÷ czynnika korelacji Pearsona nalez·y do przedzia÷u [ 1; 1] : Im wiek¾ sza jest jego wartość bezwzgledna, ¾ tym silniejsza jest zalez·ność zmiennych losowych. Rozwaz·my proces losowy fXt ; t 2 T g, którego wszystkie sk÷adowe maja¾skończone wariancje, wtedy autokowariancja procesu zde…niowana jest wzorem X (t; s) = cov (Xt ; Xs ) = E (Xt Xs ) EXt EXs ; t; s 2 T: Analogicznie jak kowariancja, autokowariancja określa liniowa¾zalez·ność pomiedzy ¾ wartościami procesu w róz·nych chwilach czasu. Jeśli oznaczymy przez odchylenie standardowe procesu w dowolnej chwili t 2 T;to moz·na wprowadzić pojecie ¾ autokorelacji procesu za pomoca¾ wzoru RX (t; s) = 5 X (t; s) : Rodzaje modeli matematycznych Pierwszym krokiem wykonywanym podczas analizy szeregu czasowego jest wizualizacja danych. Zazwyczaj juz na tym poziomie jesteśmy w stanie wyróz·nić trend, czy wahania sezonowe. Celem dekompozycji szeregu czasowego jest oszacowanie i wyróz·nienie cześci ¾ sk÷adowych szeregu. Wyróz·nia sie¾ dwa matematyczne modele szeregów czasowych - model addytywny oraz model multiplikatywny. Model addytywny moz·na wyrazić jako Xt = Tt + St + Ct + Lt gdzie Xt - dane pomiarowe Tt - funkcja trendu St - wahania sezonowe Ct - wahania cykliczne Y t - wahania losowe, czesto ¾ zwane szumem Model multiplikatywny przyjmuje postać Xt = Tt St Ct Lt gdzie Xt - dane pomiarowe Tt - funkcja trendu St - wahania sezonowe Ct - wahania cykliczne 6 Y t - wahania losowe, czesto ¾ zwane szumem Stosowane sa¾równiez· modele mieszane. Ponadto w wielu przypadkach funkcja trendu jest funkcja¾ sta÷ a. ¾ 6 Estymacja trendu Jednym z kluczowych punktów analizy szeregów czasowych jest wyodrebnie¾ nie oraz opisania funkcji trendu. W niektórych, bardzo prostych przypadkach jesteśmy w stanie oszacować funkcje¾ trendu na podstawie gra…cznej reprezentacji naszego szeregu, jednakz·e w przypadku bardziej skomplikowanych szeregów nie jesteśmy w stanie tego dokonać i musimy zastosować narzedzia ¾ matematyczne. Narzedzia ¾ matematyczne s÷uz·ace ¾ do wyznaczenia trendu moz·na podzielić na dwie zasadnicze grupy: - metody "mechaniczne", wśród których nalez·y wymienić średnie ruchome - metody analityczne. takie jak MNK Modele średniej ruchomej s÷uz·yć moga¾ zarówno do wyg÷adzania szeregu czasowego jak i do prognozowania. Kolejne wartości prognoz wygas÷ych powstaja¾ poprzez obliczanie średniej arytmetycznej dla wybranej liczby elementów i tak np: dla średniej ruchomej trzyelementowej uśredniamy 3 poprzednie obserwacje. Innym sposobem jest obliczanie średnich dla trzech obserwacji w okresach t 1,t oraz t + 1 zaś prognoza obliczana jest dla momentu t. Sposób obliczania prognozy na podstawie modelu średniej ruchomej prostej moz·na wyrazić wzorem: Xt = t 1 1 X Xi k i=t k gdzie X t jest prognoza¾ zmiennej X w chwili t k jest sta÷ a wyg÷ adzenia W tym miejscu pojawia sie¾ naturalne pytanie. Dla jakiej sta÷ej wyg÷ adzania otrzymamy najlepszy wynik? Odpowiedzi na to pytanie pomaga nam udzielić nastepuj ¾ aca ¾ miara S = " 1 n k n X t=k+1 Xt Xt 2 # 12 : Spośród badanych średnich wygrywa ta, która posiada b÷ ad ¾ najmniejszy czyli moz·na powiedzieć, iz· jest najlepiej dopasowana do danych rzeczywistych szeregu. 7 Średnia ruchoma prosta ma wade¾ polegajac ¾ a¾ na tym, iz· kaz·da z przyjetych ¾ do wyg÷ adzania obserwacji ma jednakowa¾ równa¾ 1 wage, ¾ czyli taki sam udzia÷ w szacunku prognozy. Lepiej jest nadawać wieksze ¾ wagi obserwacjom nowszym, które sa¾ świez·sze i maja¾ wiekszy ¾ wp÷ yw na prognoze. ¾ Wnioskowanie takie, określamy terminem postarzania informacji a spe÷ nia go model średniej ruchomej waz·onej, wed÷ug którego prognoze¾ oblicza sie¾ wg wzoru: Średnia ruchoma prosta ma wade¾ polegajac ¾ a¾ na tym, iz· kaz·da z przyjetych ¾ do wyg÷ adzania obserwacji ma jednakowa¾ równa¾ 1 wage, ¾ czyli taki sam udzia÷ w szacunku prognozy. Lepiej jest nadawać wieksze ¾ wagi obserwacjom nowszym, które sa¾ świez·sze i maja¾ wiekszy ¾ wp÷ yw na prognoze. ¾ Wnioskowanie takie, określamy terminem postarzania informacji a spe÷ nia go model średniej ruchomej waz·onej, wed÷ug którego prognoze¾ oblicza sie¾ wg wzoru: Xt = t 1 X Xt wt i=t k gdzie wt sa¾ wagami spe÷ niajacymi ¾ warunki 0 w1 w2 n X ::: wn 1 wi = 1 i=1 Wśród metod analitycznych wyznaczania funkcji treny prym wiedzie metoda najmniejszych kwadratów. Zazwyczaj rozwaz·a sie¾ przypadek liniowej funkcji trendu, czyli wyznacza sie¾ prosta¾ regresji. W ogólnym przypadku wyznaczanie prostej regresji ma nastepuj ¾ acy ¾ przebieg: zak÷ adamy, z·e w pewnym doświadczeniu obserwujemy pary (x1 ; y1 ) ; (x2 ; y2 ) ; . . . ,(xn ; yn ) : Naszym celem jest wyznaczenie funkcji postaci y = ax + b minimalizujacej ¾ wartość SSE = n X (yi 2 axi b) : i=1 Okazuje sie, ¾ z·e rozwiazaniami ¾ tego zagadnienia sa¾ wartości a= n X X xi yi Y i=1 n X xi i=1 8 X 2 b=Y n X xi X yi Y i=1 n X X: 2 X xi i=1 W naszym przypadku obserwuje sie¾ proces w kolejnych chwilach czasu, zatem rozwaz·amy punkty postaci (1; X1 ) ; (2; X2 ) ; : : : ; (n; Xn ). Dla zobrazowania omówionych powyz·ej metod rozwaz·my przyk÷ad. Za÷ óz·my, z·e dysponujemy 20 obserwacjami xi 12 14 15 18 17 11 18 17 19 20 21 22 25 24 22 23 24 26 28 Średnie kroczace ¾ o kroku 2 wynosza¾ wówczas xi Xi 12 22 23 23 22; 5 14 13 15 14; 5 24 24; 5 22 23 18 16; 5 17 17; 5 23 22; 5 11 14 24 23; 5 18 14; 5 26 25 28 27 17 17; 5 19 18 20 19; 5 21 20; 5 22 21; 5 25 23; 5 24 24; 5 20 19; 5 18; (6) 18; 5 21 20; 5 20 19; 25 30 29 Średnie ruchome dla k = 3 oraz k = 4 wynosza¾ odpowiednio xi Xi Xi Xi 22 21; 5 21 20; 5 12 k=2 k=3 k=4 25 23; 5 22; (6) 22 14 13 15 14; 5 13; (6) 24 24; 5 23; (6) 23 18 16; 5 15; (6) 14; 75 22 23 23; (6) 23; 25 17 17; 5 16; (6) 16 23 22; 5 23 23; 5 11 14 15; (3) 15; 25 24 23; 5 23 23; 25 26 25 24; (3) 23; 75 Gra…czna interpretacja tych wyników jest nastepuj ¾ aca ¾ 9 18 14; 5 15; (3) 16 17 17; 5 15; (3) 15; 75 28 27 26 25; 25 30 29 28 27 19 18 18 16; 25 30 Dla tych samych danych postaramy sie¾ za pomoca¾ MNK wyznaczyć prosta¾ regresji. Mamy zatem nastepuj ¾ ace ¾ dane i xi 1 12 2 14 3 15 4 18 5 17 6 11 7 18 8 17 9 19 10 20 11 21 12 22 13 25 14 24 15 22 dla których I = 10; 5 zaś X = 20; 3. W nastepnym ¾ kroku obliczmy róz·nice i I , xi X oraz ich iloczyn. Wartości poszczególnych iloczynów sumujemy i otrzymujemy wartość 540: Musimy teraz jeszcze obliczyć wartość sumy 20 X i I 2 = 665 i=1 Dysponujac ¾ tymi danymi moz·emy obliczyć wspó÷ czynnik kierunkowy naszej 108 czynnik przesuniecia ¾ naszej prostej reprostej regresji a = 540 665 = 133 : Wspó÷ gresji ma wartość b = 20:3 108 ·szy rysunek przedstawia 133 10:5 = 11: 774: Poniz interpretacja¾ gra…czna¾ otrzymanych wyników 10 16 23 17 24 18 26 19 28 20 30 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 dane 11 11 12 model 13 14 15 16 17 18 19 20