1 Pojąecie szeregu czasowego

Transkrypt

1 Pojąecie szeregu czasowego
Studia podyplomowe w zakresie przetwarzania, zarz¾
adzania i statystycznej
analizy danych
Analiza szeregów czasowych
24.11.2013 - 2 godziny konwersatorium
autor: Adam Kiersztyn
1
Pojecie
¾
szeregu czasowego
Dane statystyczne zbierane sa¾ kaz·dego dnia. Dane takie dotyczyć moga¾ róz·norakich dziedzin jak ilościowy opis produkcji rolnej buraka cukrowego w Polsce
i migracji ludności w Europie, czy tez· zmian cen kursu franka szwajcarskiego.
Nie sa¾ to jedyne moz·liwe przyk÷ady danych poddawanych obróbce statystycznej. Do takich samych danych z punktu widzenia statystyka moz·emy zaliczyć
aktywność źród÷
a promieniowania czy b÷adzenie
¾
przypadkowe okruszka ciasta
czekoladowego, który wpad÷nam w÷aśnie do kawy.
Wszystkie powyz·sze przyk÷ady maja¾ jedna¾ wspólna¾ ceche¾ - wielkości, które
mierzymy w kaz·dym przypadku, jez·eli tylko pouk÷
adane sa¾ po kolei w czasie
podpadaja¾ nam pod de…nicje¾ szeregu czasowego. W przypadku ekonometrii,
czy szeroko pojetych
¾
rynków …nansowych i gospodarki, takie szeregi zwykle
bed
¾ a¾ opisywać zmiane¾ wielkości jakiegoś instrumentu rynku.
W tym przypadku Fizyka, Matematyka i Ekonometria zbudowa÷y i rozwine÷
¾y
aparat s÷
uz·acy
¾ do analizy takich szeregów. W najogólniejszym z moz·liwych
stwierdzeniu moz·na rzec, z·e taka analiza daje szanse dla inwestora na próbe¾
przewidywania przysz÷
ości na podstawie przesz÷ości. Przesz÷
ość zawarta jest w
danych, które zebrane sa¾ w szeregach czasowych. Przysz÷
ość to tylko statystyczna predykcja moz·liwych zachowań badanego instrumentu rynku, oparta na
mniej lub bardziej poprawnej analizie dostepnych
¾
nam danych.
Dane statystyczne moz·emy w ogólności podzielić na
dane przekrojowe (cross sectional data) - wiele jednostek obserwowanych w
jednej jednostce czasu,
szeregi czasowe (time series data) - jedna jednostka czasowa obserwowana
w wielu jednostkach czasu - to w÷aśnie tym rodzajem danych bedziemy
¾
sie¾ zajmować,
dane panelowe (panel data, cross sectional time series data) - wiele jednostek czasowych obserwowanych w wielu jednostkach czasu. Na tym przedmiocie
zajmiemy omówieniem w÷
asności szeregów czasowych. W literaturze moz·na
spotkać róz·ne de…nicje szeregu czasowego:
- ciag
¾ obserwacji pokazujacy
¾ kszta÷towanie sie¾ badanego zjawiska w kolejnych
okresach czasu;
- uporzadkowany
¾
chronologicznie zbiór wartości badanej cechy lub określonego
zjawiska zaobserwowanych w róz·nych momentach czasu
- realizacja procesu stochastycznego, którego dziedzina¾jest czas - pojedyncze
obserwacje yt sa¾ realizacjami zmiennych losowych Yt . Proces stochastyczny
1
de…niowany jest w tym przypadku jako ciag
¾ zmiennych losowych indeksowanych
przez czas t, a szereg czasowy jest wtedy pojedyncza¾ realizacja¾ tego procesu.
2
Sk÷
adowe szeregu czasowego
Wśród sk÷
adników szeregu czasowego zazwyczaj wyróz·nia sie:
¾
- trend
- wahania sezonowe
- wahania cykliczne
- wahania przypadkowe.
W obrazowy sposób moz·na to przedstawić za pomoca¾ nastepuj
¾ acego
¾
diagramu:
Wyróz·nienie poszczególnych sk÷
adowych nie jest sprawa¾prosta,
¾ bowiem pomiedzy
¾
poszczególnymi sk÷
adnikami wystepuj
¾ a¾z÷oz·one interakcje, ponadto moz·e zdarzyć
sie¾ tak, z·e badanym przez Nas szeregu wystepuj
¾ a¾ sk÷adniki niejawne, których
nie jesteśmy w stanie wyróz·nić. Przedstawimy teraz kilka przyk÷adów szeregów
czasowych.
2
3
Przyk÷
ady szeregów czasowych
Najprostszym przyk÷
adem szeregu czasowego jest obserwacja kolejnych rzutów
moneta.
¾ Jeśli przyjmiemy, z·e wyrzuceniu or÷a odpowiada wartość liczbowa 1,
zaś wyrzuceniu reszki wartość liczbowa 0, to otrzymujemy przyk÷
ad procesu
dychotomicznego (zerojedynkowego, binarnego).
Formalnie rozwaz·amy ciag
¾ zmiennych losowych Xt ; t = 1; 2; ::: o jednakowych
rozk÷
adach
1
:
2
Poniz·szy rysunek przedstawia¾ moz·liwa¾ realizacje¾ takiego procesu.
P [Xt = 0] = P [Xt = 1] =
Rozwaz·my teraz inny typowy przyk÷
ad szeregu czasowego. Na poniz·szym
rysunku przedstawiono liczbe¾ ludności USA w latach 1790-1980
3
Ludność USA w latach 1790-1980
250000000
200000000
150000000
Ludność USA w latach 17901980
100000000
50000000
0
1
3
5
7
9
11
13
15
17
19
Rozwaz·my teraz nieco bardziej skomplikowany przyk÷ad, w którym bed
¾ a¾ juz·
uwidocznione poszczególne wyróz·nione powyz·ej sk÷adowe szeregu czasowego. Na
rysunku poniz·ej przedstawiono liczbe¾ sprzedawanych litrów paliwa na pewnej
stacji benzynowej w jednym miesiacu.
¾
Poszczególnymi kolorami zaznaczono
równiez· sk÷
adowe naszego szeregu czasowego.
4
4000
3500
3000
2500
2000
1500
1000
500
0
1
3
5
7
9
11
13
15
17
19
21
23
25
-500
4
Poziom stały
Trend
Wahania okresowe
Wahania sezonowe
Wahania losowe
Poziom sprzedaży paliwa
Formalne ujecie
¾
problemu
Z formalnego punktu widzenia szereg czasowy jest realizacja¾ procesu stochastycznego, aby lepiej zrozumieć ta¾ zalez·ność musimy wprowadzić niezbedne
¾
( nie
do końca formalne) de…nicje.
Proces stochastyczny jest to rodzina zmiennych losowych określonych na
pewnej przestrzeni probabilistycznej ( ; F; P ) o wartościach w pewnej przestrzeni
mierzalnej - najcześciej
¾
zbiorze liczb rzeczywistych.
W badaniu szeregów czasowych bardzo istotna¾role¾ odgrywaja¾pojecia
¾ kowariancji, autokowariancji, korelacji oraz autokorelacji.
Dla dwóch zmiennych losowych X i Y funkcja
cov (X; Y ) = E [(X
EX) (Y
5
EY )] = E (XY )
EXEY
27
29
określa liniowa¾ zalez·ność pomiedzy
¾
zmiennymi X i Y: Stopień wspó÷
zalez·ności
moz·na podać za pomoca¾ wspó÷
czynnika korelacji Pearsona
rXY =
cov (X; Y )
X
:
Y
Wartość wspó÷
czynnika korelacji Pearsona nalez·y do przedzia÷u [ 1; 1] : Im wiek¾
sza jest jego wartość bezwzgledna,
¾
tym silniejsza jest zalez·ność zmiennych losowych.
Rozwaz·my proces losowy fXt ; t 2 T g, którego wszystkie sk÷adowe maja¾skończone wariancje, wtedy autokowariancja procesu zde…niowana jest wzorem
X
(t; s) = cov (Xt ; Xs ) = E (Xt Xs )
EXt EXs ;
t; s 2 T:
Analogicznie jak kowariancja, autokowariancja określa liniowa¾zalez·ność pomiedzy
¾
wartościami procesu w róz·nych chwilach czasu. Jeśli oznaczymy przez odchylenie standardowe procesu w dowolnej chwili t 2 T;to moz·na wprowadzić pojecie
¾
autokorelacji procesu za pomoca¾ wzoru
RX (t; s) =
5
X
(t; s)
:
Rodzaje modeli matematycznych
Pierwszym krokiem wykonywanym podczas analizy szeregu czasowego jest
wizualizacja danych. Zazwyczaj juz na tym poziomie jesteśmy w stanie wyróz·nić
trend, czy wahania sezonowe. Celem dekompozycji szeregu czasowego jest oszacowanie i wyróz·nienie cześci
¾ sk÷adowych szeregu. Wyróz·nia sie¾ dwa matematyczne modele szeregów czasowych - model addytywny oraz model multiplikatywny. Model addytywny moz·na wyrazić jako
Xt = Tt + St + Ct + Lt
gdzie
Xt - dane pomiarowe
Tt - funkcja trendu
St - wahania sezonowe
Ct - wahania cykliczne
Y t - wahania losowe, czesto
¾ zwane szumem
Model multiplikatywny przyjmuje postać
Xt = Tt St Ct Lt
gdzie
Xt - dane pomiarowe
Tt - funkcja trendu
St - wahania sezonowe
Ct - wahania cykliczne
6
Y t - wahania losowe, czesto
¾ zwane szumem
Stosowane sa¾równiez· modele mieszane. Ponadto w wielu przypadkach funkcja
trendu jest funkcja¾ sta÷
a.
¾
6
Estymacja trendu
Jednym z kluczowych punktów analizy szeregów czasowych jest wyodrebnie¾
nie oraz opisania funkcji trendu. W niektórych, bardzo prostych przypadkach
jesteśmy w stanie oszacować funkcje¾ trendu na podstawie gra…cznej reprezentacji naszego szeregu, jednakz·e w przypadku bardziej skomplikowanych szeregów
nie jesteśmy w stanie tego dokonać i musimy zastosować narzedzia
¾
matematyczne. Narzedzia
¾
matematyczne s÷uz·ace
¾ do wyznaczenia trendu moz·na podzielić
na dwie zasadnicze grupy:
- metody "mechaniczne", wśród których nalez·y wymienić średnie ruchome
- metody analityczne. takie jak MNK
Modele średniej ruchomej s÷uz·yć moga¾ zarówno do wyg÷adzania szeregu czasowego jak i do prognozowania.
Kolejne wartości prognoz wygas÷ych powstaja¾ poprzez obliczanie średniej
arytmetycznej dla wybranej liczby elementów i tak np: dla średniej ruchomej
trzyelementowej uśredniamy 3 poprzednie obserwacje.
Innym sposobem jest obliczanie średnich dla trzech obserwacji w okresach
t 1,t oraz t + 1 zaś prognoza obliczana jest dla momentu t.
Sposób obliczania prognozy na podstawie modelu średniej ruchomej prostej
moz·na wyrazić wzorem:
Xt =
t 1
1 X
Xi
k
i=t k
gdzie
X t jest prognoza¾ zmiennej X w chwili t
k jest sta÷
a wyg÷
adzenia
W tym miejscu pojawia sie¾ naturalne pytanie. Dla jakiej sta÷ej wyg÷
adzania
otrzymamy najlepszy wynik? Odpowiedzi na to pytanie pomaga nam udzielić
nastepuj
¾ aca
¾ miara
S =
"
1
n
k
n
X
t=k+1
Xt
Xt
2
# 12
:
Spośród badanych średnich wygrywa ta, która posiada b÷
ad
¾ najmniejszy
czyli moz·na powiedzieć, iz· jest najlepiej dopasowana do danych rzeczywistych
szeregu.
7
Średnia ruchoma prosta ma wade¾ polegajac
¾ a¾ na tym, iz· kaz·da z przyjetych
¾
do wyg÷
adzania obserwacji ma jednakowa¾ równa¾ 1 wage,
¾ czyli taki sam udzia÷
w szacunku prognozy.
Lepiej jest nadawać wieksze
¾
wagi obserwacjom nowszym, które sa¾ świez·sze
i maja¾ wiekszy
¾
wp÷
yw na prognoze.
¾ Wnioskowanie takie, określamy terminem
postarzania informacji a spe÷
nia go model średniej ruchomej waz·onej, wed÷ug
którego prognoze¾ oblicza sie¾ wg wzoru:
Średnia ruchoma prosta ma wade¾ polegajac
¾ a¾ na tym, iz· kaz·da z przyjetych
¾
do wyg÷
adzania obserwacji ma jednakowa¾ równa¾ 1 wage,
¾ czyli taki sam udzia÷
w szacunku prognozy.
Lepiej jest nadawać wieksze
¾
wagi obserwacjom nowszym, które sa¾ świez·sze
i maja¾ wiekszy
¾
wp÷
yw na prognoze.
¾ Wnioskowanie takie, określamy terminem
postarzania informacji a spe÷
nia go model średniej ruchomej waz·onej, wed÷ug
którego prognoze¾ oblicza sie¾ wg wzoru:
Xt =
t 1
X
Xt wt
i=t k
gdzie
wt sa¾ wagami spe÷
niajacymi
¾
warunki
0
w1
w2
n
X
:::
wn
1
wi = 1
i=1
Wśród metod analitycznych wyznaczania funkcji treny prym wiedzie metoda
najmniejszych kwadratów. Zazwyczaj rozwaz·a sie¾ przypadek liniowej funkcji
trendu, czyli wyznacza sie¾ prosta¾ regresji.
W ogólnym przypadku wyznaczanie prostej regresji ma nastepuj
¾ acy
¾ przebieg: zak÷
adamy, z·e w pewnym doświadczeniu obserwujemy pary (x1 ; y1 ) ; (x2 ; y2 ) ;
. . . ,(xn ; yn ) : Naszym celem jest wyznaczenie funkcji postaci
y = ax + b
minimalizujacej
¾ wartość
SSE =
n
X
(yi
2
axi
b) :
i=1
Okazuje sie,
¾ z·e rozwiazaniami
¾
tego zagadnienia sa¾ wartości
a=
n
X
X
xi
yi
Y
i=1
n
X
xi
i=1
8
X
2
b=Y
n
X
xi
X
yi
Y
i=1
n
X
X:
2
X
xi
i=1
W naszym przypadku obserwuje sie¾ proces w kolejnych chwilach czasu, zatem
rozwaz·amy punkty postaci (1; X1 ) ; (2; X2 ) ; : : : ; (n; Xn ).
Dla zobrazowania omówionych powyz·ej metod rozwaz·my przyk÷ad.
Za÷
óz·my, z·e dysponujemy 20 obserwacjami
xi
12
14
15
18
17
11
18
17
19
20
21
22
25
24
22
23
24
26
28
Średnie kroczace
¾ o kroku 2 wynosza¾ wówczas
xi
Xi
12
22
23
23
22; 5
14
13
15
14; 5
24
24; 5
22
23
18
16; 5
17
17; 5
23
22; 5
11
14
24
23; 5
18
14; 5
26
25
28
27
17
17; 5
19
18
20
19; 5
21
20; 5
22
21; 5
25
23; 5
24
24; 5
20
19; 5
18; (6)
18; 5
21
20; 5
20
19; 25
30
29
Średnie ruchome dla k = 3 oraz k = 4 wynosza¾ odpowiednio
xi
Xi
Xi
Xi
22
21; 5
21
20; 5
12
k=2
k=3
k=4
25
23; 5
22; (6)
22
14
13
15
14; 5
13; (6)
24
24; 5
23; (6)
23
18
16; 5
15; (6)
14; 75
22
23
23; (6)
23; 25
17
17; 5
16; (6)
16
23
22; 5
23
23; 5
11
14
15; (3)
15; 25
24
23; 5
23
23; 25
26
25
24; (3)
23; 75
Gra…czna interpretacja tych wyników jest nastepuj
¾ aca
¾
9
18
14; 5
15; (3)
16
17
17; 5
15; (3)
15; 75
28
27
26
25; 25
30
29
28
27
19
18
18
16; 25
30
Dla tych samych danych postaramy sie¾ za pomoca¾ MNK wyznaczyć prosta¾
regresji. Mamy zatem nastepuj
¾ ace
¾ dane
i
xi
1
12
2
14
3
15
4
18
5
17
6
11
7
18
8
17
9
19
10
20
11
21
12
22
13
25
14
24
15
22
dla których I = 10; 5 zaś X = 20; 3. W nastepnym
¾
kroku obliczmy róz·nice
i I , xi X oraz ich iloczyn. Wartości poszczególnych iloczynów sumujemy i otrzymujemy wartość 540: Musimy teraz jeszcze obliczyć wartość sumy
20
X
i
I
2
= 665
i=1
Dysponujac
¾ tymi danymi moz·emy obliczyć wspó÷
czynnik kierunkowy naszej
108
czynnik przesuniecia
¾
naszej prostej reprostej regresji a = 540
665 = 133 : Wspó÷
gresji ma wartość b = 20:3 108
·szy rysunek przedstawia
133 10:5 = 11: 774: Poniz
interpretacja¾ gra…czna¾ otrzymanych wyników
10
16
23
17
24
18
26
19
28
20
30
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
dane
11
11
12
model
13
14
15
16
17
18
19
20