1 Prognozowanie terminologia 2 Wybrane metody prognozowania.

Transkrypt

1 Prognozowanie terminologia 2 Wybrane metody prognozowania.
Studia podyplomowe w zakresie przetwarzania,
zarz¾
adzania i statystycznej analizy danych
Wybrane Metody Prognozowania
1.03.2014 - 2 godziny konwersatorium
autor: Adam Kiersztyn
1
Prognozowanie - terminologia
Prognozowanie, zwane równiez· predykacja¾ jest opartym na matematycznych
podstawach przewidywaniem kszta÷
towanie sie¾ danego zjawiska lub procesu w
przysz÷
ości. Przedmiotem prognozowania jest przebieg zjawisk i procesów wszelakiego rodzaju od przyrodniczych. poprzez spo÷
eczne i gospodarcze na technicznych kończac.
¾
Z terminem prognozowanie zwiazane
¾
jest pojecie
¾ prognozy. Róz·nica polega
na tym, z·e prognozowanie jest procesem wnioskowania o przewidywanym kszta÷
cie zjawiska, zaś prognoza jest konkretnym wynikiem tego procesu.
Na przebieg prognozowanego procesu moga¾ mieć wp÷yw liczne czynniki,
które moz·na podzielić na dwie grupy:
- czynniki zewnetrzne
¾
(egzogeniczne), czyli takie, na które obiekt prognozy
nie ma wp÷
ywu, a które nalez·y uwzglednić
¾
w prognozowaniu, bowiem czynniki
te maja¾ istotny wp÷
yw na prognozowane zjawisko
- czynniki wewnetrzne
¾
(endogeniczne), czyli takie, na które prognozowany
proces ma wp÷
yw.
W kaz·dym etapie prognozowania moz·na wyróz·nić nastepuj
¾ ace
¾ etapy:
- zde…niowanie problemu prognostycznego
- zebranie danych statystycznych opisujacych
¾
dany problem oraz wstepna
¾
analiza dostepnych
¾
danych
- wybór metody prognozowania
- zbudowanie modelu oraz ocena jego trafności
2
2.1
Wybrane metody prognozowania.
Regresja linowa.
Najprostsza¾ metoda¾ prognozowania jest regresja liniowa. Za÷
óz·my, z·e w obserwujemy dwie zmienne Y oraz X: O zmiennej losowej Y zak÷adamy, z·e ma
rozk÷
ad normalny z wartościa¾ średnia¾ bed
¾ ac
¾ a¾ funkcja¾ liniowa¾ zmiennej X oraz
sta÷
ym niezalez·nym od X odchyleniem standardowym, tzn.
Y ~N (aX + b; )
1
Naszym zadaniem jest oszacowanie parametrów funkcji liniowej aX + b na podstawie odpowiedniej próby losowej. Rozwaz·my n elementowa¾ próbe¾ losowa¾ o
elementach bed
¾ acych
¾
parami
(xi ; yi ) ; 1
i
n
Zgodnie z za÷
oz·eniami pomiedzy
¾
wielkościami xi oraz yi zachodzi zwiazek
¾
yi = axi + b + ei ;
(1)
gdzie ei jest reszta,
¾ które reprezentuje stopień niedopasowania pomiedzy
¾
wartościa¾ empiryczna¾ a teoretyczna.
¾ Parametry funkcji liniowej nalez·y dobrać w taki
sposób, aby dopasowanie by÷o najlepsze z moz·liwych. Zamierzony efekt zostanie
osiagni
¾ ety,
¾ gdy
n
n
X
X
2
s=
e2i =
[yi (axi + b)]
i=1
i=1
osiagnie
¾
swoje minimum.
Tak określone kryterium estymacji nosi w statystyce nazw¾
e metody najmniejszych kwadratów - MNK.
Rozwiazanie
¾
tego problemu sprowadza sie¾ do wyznaczenia pochodnych czastkowych
¾
wzgledem
¾
zmiennych a i b i przyrównania tych pochodnych do zera. mamy zatem nastepuj
¾ acy
¾ uk÷
ad równań
8
n
X
@s
>
>
=
2
(yi (axi + b)) = 0
>
< @b
i=1
(2)
n
X
>
@s
>
>
=
2
(y
(ax
+
b))
x
=
0
:
i
i
i
@a
i=1
Przyrównanie obu pochodnych czastkowych
¾
do zera tworzy tzw. uk÷ad równań
normalnych, a jego rozwiazanie
¾
daja oceny nieznanych parametrów. Zgodnie
z ogólenie przyjetymi
¾
normami estymatory (oszacowania) bedziemy
¾
oznaczać b
a
oraz bb. Przekszta÷
cajac
¾ uk÷
ad równań (2) otrzymujemy nastepuj
¾ ace
¾ wyniki
b
a =
n
X
(yi
y) (xi
x)
i=1
bb = y
n
X
=
(xi
2
x)
cov (X; Y )
var (X)
(3)
i=1
b
ax
Wzór (3) daje nam oszacowania nieznanych parametrów modelu linowego.
W tym miejscu nasuwa sie¾ naturalne pytanie, czy prawdziwe jest za÷
oz·enie,
z·e pomiedzy
¾
wartościa¾ oczekiwana¾ zmiennej Y a zmienna¾ X istnieje rzeczywiście liniowy zwiazek.
¾
W celu sprawdzenia poprawności tego za÷
oz·enia nalez·y
sprawdzić hipoteze¾
H0
H1
: a=0
: a=
6 0
2
Jeśli nie bedziemy
¾
mieli podstaw do odrzucenia hipotezy zerowej, to za÷oz·enie
nie bedzie
¾
s÷
uszne i trzeba bedzie
¾
poszukiwać innego rozwiazania
¾
problemu. W
naszym przypadku odrzucenie hipotezy zerowej jest przez Nas jak najbardziej
poz·adane,
¾
bowiem pozwala Nam z duz·a¾ doza¾ prawdopodobieństwa stwierdzić,
z·e istnieje istotny zwiazek
¾
linowy pomiedzy
¾
zmiennymi X i Y:
Hipoteze¾ H0 : a = 0 moz·na zwery…kować stosujac
¾ statystyk¾
e t Studenta:
Przy za÷
oz·eniu prawdziwości hipotezy zerowej statystyka
t=
b
a
b
a
=s
Sbb1
var (Y ) b
acov (X; Y )
(n 2) var (X)
(4)
ma rozk÷
ad t Studenta z = n 2 stopniami swobody. Jez·eli jtj > t
odrzucamy hipoteze¾ zerowa¾ na korzyść hipotezy alternatywnej.
2.2
;n 2
to
Za÷
oz·enia modelu linowego
Model linowy opisany wzorem (1) wymaga spe÷nienia trzech bardzo istotnych
za÷
oz·eń dotyczacych
¾
reszt losowych. Mianowicie
Eei = 0
(5)
D2 ei = const
(6)
cov (ei ; ej ) = 0 dla i 6= j
(7)
Za÷
oz·enia te moz·na jeszcze wzmocnić poprzez za÷oz·enie normalności reszt.
Niestety nie dysponujemy tutaj wystarczajac
¾ a¾ ilościa¾ czasu na wnikliwe
badanie tych za÷
oz·eń, zainteresowane osoby odsy÷am do literatury.
2.3
Przyk÷
ad
Zgodnie z powiedzeniem, z·e najlepszym przyk÷
adem studenta jest przyk÷
ad,
przedstawimy teraz obrazowy przyk÷ad wyznaczania równanie linii regresji pomiedzy
¾
zmiennymi
yi
xi
3
1
5
2
6
3
7
3
9
4
11
5
12
5
13
6
13
7
16
7
Chcemy wyznaczyć funkcje¾ liniowa¾ opisujac
¾ a¾ zwiazek
¾
y = ax + b
w tym celu wykorzystamy wzory (3). Musimy jednak wcześniej obliczyć niezbedne
¾
miary:
średnia¾ zmiennej X
X=
1
43
(1 + 2 + 3 + 3 + 4 + 5 + 5 + 6 + 7 + 7) =
;
10
10
3
średnia¾ zmiennej Y
Y =
1
19
(3 + 5 + 6 + 7 + 9 + 11 + 12 + 13 + 13 + 16) =
10
2
Nastepnie
¾
wyznaczamy kowariancje¾ zmiennych X i Y korzystajac
¾ ze wzoru
cov (X; Y ) = EXY
EXEX
co da sie¾ zapisać w nastepuj
¾ acy
¾ sposób
n
n
1X
xi yi
cov (X; Y ) =
n i=1
1X
xi
n i=1
!
n
1X
yi
n i=1
!
Mamy zatem
n
1
483
1X
xi yi =
(1 2 + 2 5 + 3 6 + 3 7 + 4 9 + 5 11 + 5 12 + 6 13 + 7 13 + 7 16) =
n i=1
10
10
Stad
¾
483 43 19
149
=
10
10 2
20
Do analizy bed
¾ a¾ Nam równiez· niezbedne
¾
wariancje obu zmiennych X i Y:
Wyliczamy je ze pomoca¾ znany wzorów
cov (X; Y ) =
n
1X 2
var (X) =
x
n i=1 i
2
X ;
mamy zatem
var (X) =
1 2
1 + 22 + 32 + 32 + 42 + 52 + 52 + 62 + 72 + 72
10
43
10
2
=
381
100
oraz
var (Y ) =
1 2
3 + 52 + 62 + 72 + 92 + 112 + 122 + 132 + 132 + 162
10
Poniz·sza tabelka przedstawia zebrane wszystkie niezbedne
¾
wartości
miara
X
Y
cov (X; Y )
var (X)
var (Y )
4
wartość
43
10
19
2
149
20
381
100
313
20
19
2
2
=
313
20
Podstawiajac
¾ je do wzorów (3) otrzymujemy
b
a=
n
X
(yi
y) (xi
x)
i=1
n
X
=
(xi
2
x)
cov (X; Y )
=
var (X)
149
20
381
100
=
745
381
i=1
oraz
bb = y
b
ax =
19
2
745 43
416
=
381 10
381
Ostatecznie stwierdzamy, z·e prosta
745
416
x+
381
381
y=
najlepiej opisuje zwiazek
¾
pomiedzy
¾
zmiennymi X oraz Y: Wyznaczmy teraz
teoretyczne wartości zmiennej Y otrzymane za pomoca¾ Naszego modelu. Mamy
zatem
yei
xi
3; 05
1
5; 00
2
6; 96
3
6; 96
3
8,91
4
10; 87
5
10; 87
5
12; 82
6
14; 78
7
14; 78
7
Nastepnie
¾
nalez·a÷
oby zwery…kować hipoteze¾
H0 : a = 0
wobec hipotezy alternatywnej
H1 : a 6= 0
Wykorzystujac
¾ wzór (4)na statystyk¾
e testowa¾ otrzymujemy
t=
745
b
a
b
a
=s
= r 381
381
745
Sbb1
var (Y ) b
acov (X; Y )
20
381
8 381
100
(n 2) var (X)
= 5; 099
149
20
Na poziomie istotności = 0; 05 wartość krytyczna dla ośmiu stopni swobody
wynosi 2; 306:Zatem odrzucamy hipoteze¾ zerowa¾ na korzyść hipotezy alternatywnej. Ostatecznie moz·emy stwierdzić, z·e Nasz dobór modelu jest statystycznie
uzasadniony. Zauwaz·my jeszcze, ze róz·nice pomiedzy
¾
modelem a danymi empirycznymi, czyli nasze reszty losowe prezentuja¾ sie¾ nastepuj
¾ aco:
¾
yei
yi
ei
3; 05
3
0; 05
5; 00
5
0
6; 96
6
0; 96
6; 96
7
0; 04
8,91
9
0; 09
10; 87
11
0; 13
10; 87
12
1; 13
12; 82
13
0; 18
14; 78
13
1; 78
14; 78
16
1; 22
a ich suma wynosi zero, czyli moz·emy przypuszczać, z·e za÷oz·enie (5) jest spe÷
nione.
5