107 3.6.6. Modelowanie wielkości skupu mleka. Zmienne

Transkrypt

107 3.6.6. Modelowanie wielkości skupu mleka. Zmienne
107
120,00
y(t)
100,00
Y teor.
80,00
60,00
40,00
20,00
0,00
0
20
40
60
80
100
120
140
160
3.6.6. Modelowanie wielkości skupu mleka. Zmienne dychotomiczne i
zmienne opóźnione
W skoroszycie Mleko.xls w arkuszu DaneWyjsciowe zawarte są miesięczne
średnie ceny 1 hektolitra mleka oraz miesięczne wielkości skupu mleka w mln. litrów
obserwowane na przestrzeni lat 1993-2004.
Poniżej pokazany jest fragment tego arkusza wraz z wykresem szeregu czasowego
skupu mleka.
Z wykresu szeregu czasowego skupu mleka wynika, że poza trendem (liniowym lub
krzywoliniowym) szereg zawiera wahania roczne z miesięcznymi podokresami cyklu
108
wahań. Na tej podstawie można zaproponować tradycyjny model z trendem liniowym
i zmiennymi dychotomicznymi postaci:
11
y (t ) = b0 + b1t +
∑b
1+ j D (
j) .
j =1
Podobnie jak w poprzednim przykładzie do estymacji powyższego modelu
wykorzystamy dane empiryczne z lat 1993-2003 pozostawiając dane z roku 2004 do oceny
błędów prognozy ex post.
Estymacja modelu napotyka jednak na zasadnicze kłopoty wynikające z niespełnienia założeń o poprawności doboru modelu względem czasu oraz z istotnej autokorelacji
I rzędu. Poniżej widok fragmentu arkusza z wynikami badania założeń.
Poza niespełnieniem założeń estymowany model nie jest dość dobrze dopasowany
do danych empirycznych, na co wskazuje pokazany wyżej wykres obserwowanych i teoretycznych wielkości skupu mleka.
Potwierdzeniem powyższego jest także uzyskany współczynnik determinacji
(pozornie duży, bo 91,1%) oraz stosunkowo duży błąd standardowy odchyleń od modelu
(komórka H20).
109
Tak duża (względnie) wartość błędu standardowego odchyleń jest zapowiedzią
dużych wartości błędów prognozy, co wyklucza przydatność proponowanego modelu do
prognozowania przyszłych wielkości skupu mleka. Uwagi powyższe są trochę niepotrzebne, musimy bowiem pamiętać o tym, że autokorelacja I rzędu jest istotna i w pierwszej
kolejności musimy zająć się tym problemem.
Fakt stwierdzenia tak silnej autokorelacji I rzędu, w połączeniu z niezbyt wystarczającym dopasowaniem modelu do danych empirycznych sugeruje potrzebę rozszerzenia
modelu o zmienne opóźnione:
r
11
y (t ) = b0 + b1t +
∑b
1+ j D (
j =1
j) +
∑b
12 + i y (t
− i)
i =1
gdzie r jest maksymalną wielkością opóźnienia.
W arkuszu SkupDaneDoModelu w obszarze C15:AA134 przygotowano dane do
estymacji parametrów powyższego modelu przy uwzględnieniu zmiennych opóźnionych
maksymalnie o 12 podokresów (r = 12) . Fragment tego arkusza pokazany jest poniżej,
wiersz czternasty Excela jest kopią wiersza nagłówkowego (pierwszego) zawierającego
etykiety (nazwy) zmiennych, dodanie tego wiersza było niezbędne z uwagi na wymagania
procedury Regresja wielokrotna.
Po otwarciu skoroszytu StatystykaJG.xls wracamy do skoroszytu z danymi
wejściowymi do estymowanego modelu (np. Mleko.xls) i wywołujemy procedurę
Regresja wielokrotna z menu Regresja.
W zakładce Dane wejściowe wskazujemy C15:AA134 jako obszar danych wejściowych, zaznaczamy pole wyboru Predykcja i pozostawiamy wybór nowego arkusza jako
miejsce zwrócenia wyników estymacji modelu.
110
W zakładce Grafika zaznaczamy pierwsze pole wyboru, a w zakładce Badanie
założeń zaznaczamy wszystkie trzy pola wyboru. Poniżej widok zakładki Dane wejściowe
okna dialogowego procedury Regresja wielokrotna.
Klik przycisku OK wyświetla okno dialogowe wyboru zmiennych, jako zmienną
zależną wybieramy y (t ) , pozostałe zmienne przenosimy do listy Zmienne niezależne w
modelu poprzez klik przycisku Dodaj wszystkie >>. Zaznaczamy także pole wyboru
Zapamiętaj historię doboru modelu.
Klik przycisku OK uruchamia proces estymacji parametrów modelu metodą regresji
krokowej. W kolejnych krokach eliminujemy tę zmienną niezależną, której wpływ
(w danym kroku) na wyjaśnianie zachowania zmiennej zależnej y (t ) był najmniejszy.
Poniżej widok okna dialogowego po wykonaniu pierwszego i ostatniego
(czternastego) kroku regresji krokowej. W jej trakcie z wyjściowego modelu zawierającego
24 zmienne niezależne usunięto 13 zmiennych, współczynnik determinacji zmniejszył się
z 97,99% do 97,57%, a więc bardzo nieznacznie.
111
Poniżej wykres ilustrujący zmianę współczynnika determinacji oraz średniego
kwadratu odchyleń od modelu w trakcie kolejnych kroków regresji krokowej.
Wsp. deter.
98,05%
Śr. kw. błędu
275
98,00%
270
97,95%
97,90%
265
97,85%
260
97,80%
97,75%
255
97,70%
250
97,65%
97,60%
245
97,55%
97,50%
240
0
2
4
6
8
10
12
14
16
112
Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników
estymacji modelu. Poniżej fragment arkusza pokazujący wyniki weryfikacji założeń
metody najmniejszych kwadratów,
Jak widzimy prawie wszystkie założenia są spełnione, pewien problem mamy
jedynie ze sposobem uwzględnienia w modelu zmiennej opóźnionej y (t − 5) . Niespełnienie tego założenia oznacza, że ta zmienna powinna być uwzględniona inaczej niż
liniowo, ale znalezienie właściwej postaci tej zmiennej nie jest proste.
Poniżej widok fragmentu arkusza z ocenami parametrów modelu, weryfikacją
hipotezy o istotności modelu oraz wartościami współczynnika korelacji i determinacji.
Dodatkowo wyznaczono (poza procedurą) wartość błędu standardowego odchyleń
(komórka H21).
113
Dla wyznaczenia prognozowanych wielkości skupu mleka w 2004 roku musimy
w arkuszu, do którego zostały zwrócone wyniki estymacji modelu, przygotować
odpowiedni obszar zawierający wartości zmiennych objaśnianych. W omawianym przykładzie jest to arkusz SkupModel132 i obszar D304:N316. Obszar ten zawiera dane
skopiowane z arkusza SkupDaneDoModelu i wklejone metodą Excela Wklej
specjalnie/Wartości do arkusza SkupModel132. Wklejenie wartości było niezbędne z uwagi
na formuły wyznaczające wartości zmiennych opóźnionych. Po wklejeniu dane zostały
dostosowane do tych, które ostatecznie zostały wykorzystane w modelu (niepotrzebne
kolumny danych zostały usunięte).
Po przygotowaniu obszaru danych wywołujemy procedurę Prognozowanie z menu
Regresja, a następnie wskazujemy potrzebne obszary danych.
Po zaznaczeniu pola wyboru Zmienne opóźnione i kliku przycisku OK procedura
zapyta nas o wielkość opóźnienia zmiennej y (t − 1) .
114
Analogicznie zostaniemy zapytani o wielkość opóźnienia pozostałych zmiennych
opóźnionych y (t − 5) i y (t − 8) .
Poniżej widok arkusza z wynikami prognozowanej wielkości skupu mleka w 2004
roku (od t=133 do t=144). Ostatnie trzy kolumny zawierają względny błąd prognozy ex
ante (kolumna V) oraz doliczone błędy dokładności wykonanej prognozy ex post. Kolumna
W zawiera absolutny błąd prognozy wykorzystujący rzeczywistą wielkość skupu w kolejnych miesiącach 2004 roku i wielkość teoretyczną wynikającą z uzyskanego modelu.
W kolumnie X wyznaczono względne błędy prognozy ex post. Jak widzimy błędy prognozy ex post są stosunkowo niewielkie (poniżej 5% w pierwszych dziesięciu miesiącach),
co potwierdza przydatność wyestymowanego modelu do wykonania prognozy przyszłych
wielkości skupu mleka.
W ostatnich dwóch wierszach doliczono średnie błędy prognozy ex post (absolutny
i względny) oraz średni kwadrat błędu prognozy ex post. Ich wielkość potwierdza poprawność doboru modelu i jego przydatność do prognozowania wielkości skupu mleka.
Poniżej wykres ilustrujący rzeczywiste y (t ) oraz prognozowane yteor (t ) wielkości
skupu mleka w 2004 roku.
750
y(t)
yteor(t)
700
650
600
550
500
132
134
136
138
140
142
144
146