Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy.

Transkrypt

Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy.
M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u
Pro gn o zo w an i e i sy mu l ac je
Janusz Górczyński
Moduł 4. Badanie, czy trend zjawiska jest
liniowy lub wykładniczy.
Wyższa Szkoła Zarządzania i Marketingu
Sochaczew 2012
2
Od Autora
Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i
ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i
symulacje” przygotowanego dla studentów kierunku zarządzanie.
Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni
praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez
wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda
czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy
testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane
wcześniej testy internetowe.
Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów
mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu
wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli
prognostycznych.
Jak korzystać z tych materiałów?
Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie
przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym
stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań
pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych
odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie.
Janusz Górczyński
3
Spis treści
1
2
3
4
WSTĘP ................................................................................................................................................................... 4
1.1
CZY TREND ZJAWISKA JEST LINIOWY?........................................................................................................... 4
1.2
CZY TREND ZJAWISKA JEST WYKŁADNICZY?................................................................................................. 5
PRZYKŁAD BADANIA, CZY TREND ZJAWISKA JEST LINIOWY.......................................................... 6
2.1
WYKORZYSTANIE PRZYROSTÓW ABSOLUTNYCH........................................................................................... 6
2.2
ESTYMACJA MODELU LINIOWEGO W ARKUSZU LINIOWA .............................................................................. 8
2.3
PREDYKACJA W ARKUSZU LINIOWA.............................................................................................................. 9
2.4
WYKORZYSTANIE TESTU SERII ...................................................................................................................... 9
PRZYKŁAD BADANIA, CZY TREND ZJAWISKA JEST WYKŁADNICZY? ......................................... 12
3.1
ESTYMACJA PARAMETRÓW MODELU WYKŁADNICZEGO .............................................................................. 13
3.2
WYKONANIE PROGNOZY ............................................................................................................................. 15
3.3
PRZYKŁAD PSZENICY – TREND WYKŁADNICZY CZY LINIOWY?.................................................................... 19
LITERATURA .................................................................................................................................................... 21
4
1 Wstęp
Wiemy z dotychczasowych rozważań, że testem serii jesteśmy w stanie odpowiedzieć na pytanie, czy
uprawniony był wybór takiego a nie innego modelu do opisu zależności między zmienną objaśnianą a zmienną czy
zmiennymi objaśniającymi. Odpowiedź pozytywna nie jest jednak jednoznaczna, być może do opisania badanej
zależności można wykorzystać inny model.
W przypadku, gdy wartości zmiennej objaśnianej zmieniają się o stałą wartość i gdy chcemy uzyskać odpowiedź
co do wyboru modelu liniowego lub wykładniczego, to możemy wykorzystać własności matematyczne obu funkcji. W
praktyce będziemy mieć taką możliwość w sytuacji, gdy dane empiryczne będą tworzyć szereg czasowy.
1.1 Czy trend zjawiska jest liniowy?
W przypadku funkcji liniowej y = f ( x) = b0 + b1 x mamy, że różnica jej wartości w punkach x0 i x0 + ∆x jest
równa:
∆y = f ( x0 + ∆x) − f ( x0 ) = b0 + b1 ( x0 + ∆x) − b0 − b1 x0 = b1∆x
(1)
Dla przyrostu argumentu ∆x = 1 mamy, że
∆y = b1
(2)
czyli przyrosty wartości funkcji są stałe.
Własność tę możemy wykorzystać w praktyce, ale tylko w tych sytuacjach, w których dane empiryczne tworzą
szereg czasowy (ogólnie: wartości zmiennej niezależnej tworzą szereg arytmetyczny, a próba uporządkowana jest
rosnąca względem zmiennej niezależnej).
W takiej sytuacji musimy wyznaczyć przyrosty absolutne zmiennej zależnej jako różnice między obserwacją
i+1 a obserwacją i-tą:
∆yi +1 = yi +1 − yi
(3)
Otrzymane w ten sposób obserwacje (t ; ∆yt ) , gdzie t = 2, 3, , , , , , n możemy wykorzystać do estymacji modelu
liniowego postaci
∆yt = b0 + b1 ⋅ t
(4)
który dopuszcza istnienie związku funkcyjnego między przyrostami wartości funkcji a zmienną niezależną t. Warto
zauważyć, że liczebność tak przygotowanego zestawu danych jest o jedną pozycję mniejsza niż danych oryginalnych.
Estymacja modelu 4 jest nam potrzebna w jednym celu – ma pozwolić na weryfikację H 0 : b1 = 0 wobec
alternatywy H1 : b1 ≠ 0 . W sytuacji, gdy nie będziemy mieli podstaw do odrzucenia H 0 : b1 = 0 , co będzie
równoznaczne z tym, że przyrosty wartości funkcji są stałe, będziemy mogli wnioskować, że trend zjawiska może być
opisany modelem liniowym.
Możemy wtedy wrócić do oryginalnych danych i wykorzystać je do przeprowadzenia estymacji modelu
liniowego wraz z jego dalszym wykorzystaniem do budowania prognoz.
W przypadku odrzucenia H 0 : b1 = 0 dla modelu 4 na rzecz hipotezy alternatywnej H1 : b1 ≠ 0 uzyskujemy
informację, że trend zjawiska nie może być opisany modelem liniowym.
5
1.2 Czy trend zjawiska jest wykładniczy?
Funkcja wykładnicza o podstawie naturalnej dana jest wzorem f ( x ) = b0 ⋅ e b1 x , a różnica jej wartości w punkach
x0 + ∆x i x0 jest równa:
∆y = f ( x0 + ∆x) − f ( x0 ) = b0 ⋅ e b1 ( x 0 + ∆x ) − b0 ⋅ eb1 x 0 = b0 ⋅ e b1 x0 e b1 ⋅ ∆x − b0 ⋅ eb1 x 0 = b0 ⋅ eb1 x0 (e b1 ⋅ ∆x − 1)
(5)
Jak widzimy różnice wartości funkcji nie są stałe, lecz są funkcją argumentu x (zmiennej niezależnej).
Rozwiązaniem będzie wyznaczenie przyrostu względnego zmiennej zależnej y w punkcie x0 + ∆x względem punktu
x0 , który definiujemy jako stosunek przyrostu absolutnego do wartości funkcji w punkcie x0 + ∆x :
δy =
∆y
f ( x0 + ∆x) − f ( x0 )
=
f ( x0 + ∆x)
f ( x0 + ∆x)
(6)
W przypadku funkcji wykładniczej o podstawie naturalnej przyrost względny przy założeniu, że ∆x = 1 dany jest
wzorem:
δy =
b0 ⋅ e b1 x0 (e b1 − 1)
b0 ⋅ eb1 ( x0 +1)
=
b0 ⋅ eb1 x 0 (e b1 − 1)
b0 ⋅ eb1 x 0 eb1
=
e b1 − 1
eb1
(7)
Jak widzimy z wzoru 7 przyrosty względne nie są funkcją argumentu (zmiennej niezależnej), są stałe i tę
własność wykorzystamy do ustalenia, czy trend zjawiska może być opisany funkcją wykładniczą o podstawie naturalnej.
W takiej sytuacji musimy wyznaczyć przyrosty względne zmiennej zależnej jako różnice między obserwacją
i+1 a obserwacją i-tą w szeregu czasowym:
δyi +1 =
y i +1 − y i
y i +1
(8)
Otrzymane w ten sposób obserwacje (t ; δyt ) , gdzie t = 2, 3, , , , , , n możemy wykorzystać do estymacji modelu
liniowego postaci
δyt = b0 + b1 ⋅ t
(9)
który dopuszcza istnienie związku funkcyjnego między przyrostami względnymi wartości funkcji a zmienną niezależną
t. Warto zauważyć, że liczebność tak przygotowanego zestawu danych jest o jedną pozycję mniejsza niż danych
oryginalnych.
Estymacja modelu 9 jest nam potrzebna w jednym celu – ma pozwolić na weryfikację H 0 : b1 = 0 wobec
alternatywy H1 : b1 ≠ 0 . W sytuacji, gdy nie będziemy mieli podstaw do odrzucenia H 0 : b1 = 0 , co będzie
równoznaczne z tym, że przyrosty względne wartości funkcji są stałe, będziemy mogli wnioskować, że trend zjawiska
może być opisany modelem wykładniczym o podstawie naturalnej.
Możemy wtedy wrócić do oryginalnych danych i wykorzystać je do przeprowadzenia estymacji modelu
wykładniczego wraz z jego dalszym wykorzystaniem do budowania prognoz.
W przypadku odrzucenia H 0 : b1 = 0 dla modelu 9 na rzecz hipotezy alternatywnej H1 : b1 ≠ 0 uzyskujemy
informację, że trend zjawiska nie może być opisany modelem wykładniczym o podstawie naturalnej.
6
2 Przykład badania, czy trend zjawiska jest liniowy
Na przestrzeni lat 1951-2006 obserwowano średnie plony jabłek deserowych (w tonach/ha). Zebrane dane tworzą
szereg czasowy, interesuje nas odpowiedź na pytanie, czy trend tego zjawiska może być opisany linową funkcją czasu.
Poniżej widok zgromadzonych danych, na potrzeby tej publikacji dane zostały zestawione w trzech grupach lat.
Bez utraty informacji możemy wprowadzić zmienną czas o wartościach dyskretnych 1, 2, 3 itd., możemy także
dane zapisać w postaci trzech kolumn (rok, czas, plon), co ułatwi wykonywanie dalszych obliczeń. Kolejny zrzut
ekranowy pokazuje tak przygotowane dane, jest tam także sporządzony wykres typu XY ilustrujący rozrzut plonu w
funkcji czasu.
Interesuje nas odpowiedź na pytanie, czy trend badanego zjawiska może być opisany modelem liniowym postaci
y = b0 + b ⋅ t ?
2.1
Wykorzystanie przyrostów absolutnych
Badanie, czy trend zjawiska przeprowadzimy pośrednio poprzez wyznaczanie przyrostów absolutnych zmiennej
zależnej, a następnie ustalenie, czy są one funkcją liniową zmiennej niezależnej czy też nie. Do obliczeń wykorzystamy
tym razem skoroszyt Liniowa.xls.
7
Poniżej pokazany jest widok arkusza SzeregCzasowyPlonu z dodaną kolumną Delta(y) z formułą (w D2)
postaci =C3-C2, którą następnie skopiowano na pozostałe wiersze obszaru danych.
Do estymacji modelu ∆y = B0 + B1 ⋅ t przy pomocy skoroszytu Liniowa.xls wykorzystamy dane z
obszarów B1; B3:B57; D1; D3:D57, które musimy
skopiować do schowka. Wskazane obszary są rozłączne,
stąd przy ich zaznaczaniu musimy wykorzystać klawisz
Ctrl (zaznaczamy pierwszy obszar, wciskamy klawisz
Ctrl i zaznaczamy pozostałe obszary). Przed
zaznaczeniem tych obszarów musimy otworzyć
skoroszyt Liniowa.xls, zobaczymy sytuację taką jak
pokazana obok.
Arkusz ten wymaga, aby w kolumnie A były dane odpowiadające zmiennej niezależnej, a w kolumnie B
zmiennej zależnej, przy czym komórki A1 i B1 muszą zawierać etykiety danych.
Po przejściu do skoroszytu zawierającego przyrosty absolutne zaznaczamy potrzebne obszary danych i wywołujemy polecenie Kopiuj, a następnie przechodzimy do skoroszytu Liniowa.xls. Ustawiamy wskaźnik myszy w
komórce A1 i wywołujemy polecenia Wklej specjalnie/Wartości, po wklejeniu danych wszystkie obliczenia związane
z estymacją modelu i weryfikacją hipotezy o nieistotności regresji są już zrobione.
Poniżej widok skoroszytu Liniowa.xls po wklejeniu danych, interesujący nas obszar wyników został
pogrubiony.
W komórce H17 mamy wyznaczoną wartość krytycznego poziomu istotności dla hipotezy zerowej H 0 : B1 = 0
przy alternatywie H1 : B1 ≠ 0 (p-value). Jak widzimy jest to wartość większa od umownego α = 0,05 , tym samym nie
mamy podstaw do odrzucenia hipotezy zerowej. Upoważnia nas to do opisania trendu badanej cechy za pomocą
liniowej funkcji czasu.
8
2.2
Estymacja modelu liniowego w arkuszu Liniowa
Do estymacji modelu y = b0 + b1t wykorzystamy oryginalne dane z obszaru
SzeregCzasowyPlonu, które skopiujemy do skoroszytu Liniowa.xls zaczynając od A1.
B1:C57
arkusza
Po wklejeniu danych mamy wykonane wszystkie potrzebne obliczenia, pozostaje jedynie dokonanie interpretacji
wyników estymacji modelu y = b0 + b1t .
W obszarze E17:E18 mamy oceny modelu, a w obszarze F17:F18 błędy standardowe tych ocen. Ocena
współczynnika regresji jest równa 0,2562 i możemy nadać jej następującą interpretację: średniorocznie plony jabłek
wzrastają o 0,2562 t/ha.
W komórce G17 wyznaczona jest wartość empiryczna statystyki t-Studenta dla weryfikacji hipotezy o
nieistotności regresji H 0 : b1 = 0 przy alternatywie H1 : b1 ≠ 0. Wartość tej statystyki jest bardzo duża, ale do podjęcia
decyzji weryfikacyjnej potrzebna jest znajomość wartości krytycznej wyznaczonej przy danych poziomie istotności alfa
i liczbie stopni swobody n-2, gdzie n jest liczebnością próby (w naszym przykładzie n=57).
9
Decyzja weryfikacyjna może być także podjęta na podstawie wyznaczonego krytycznego poziomu istotności dla
danej hipotezy (p-value), wystarczy tylko sprawdzić, czy p-value jest mniejsze od ustalonego alfa. W naszym przypadku
jest taka właśnie sytuacja, tym samym odrzucamy hipotezę H 0 : b1 = 0 na rzecz alternatywy H1 : b1 ≠ 0. Merytorycznie
oznacza to, że istnieje istotny statystycznie trend liniowy opisany równaniem mˆ (t ) = −0,9648 + 0,2562t .
Hipoteza o nieistotności regresji jest także weryfikowana testem F w metodzie analizy wariancji, ale decyzja
weryfikacyjna jest oczywiście taka sama.
W komórce F31 mamy wyznaczoną wartość współczynnika determinacji, można nadać jej następującą
interpretację: zmienność średniego plonu jabłek jest w 82,6 % wyjaśniona wpływem czasu. Dokładniej jest to wpływ
tych wszystkich czynników, które są reprezentowane przez zmienną czas: będą to takie elementy jak nowe odmiany,
nowe nasadzenia, poziom kultury sadowniczej, poziom ochrony i nawożenia.
2.3
Predykacja w arkuszu Liniowa
Pozostaje wyznaczenie przewidywanych średnich plonów jabłek w 2006 i 2007 roku. Skoroszyt Liniowa.xls
pozwala na wykonanie prognozy niejako automatycznie, wystarczy do obszaru zaczynającego się od komórki D42
wpisać wartości tych argumentów, dla których chcemy wykonać prognozę.
W naszym przypadku do D42 została wpisana wartość 57 jako odpowiednik roku 2006, a do D43 liczba 58 (to
jest wartość zmiennej czas dla roku 2007). Jeżeli zachodzi potrzeba, to formuły z obszaru E42:K42 kopiujemy w dół i
mamy wykonaną prognozę.
Wyniki prognozy z obszaru E42:K42 możemy zinterpretować następująco: gdyby rok 2006 (czas = 57) mógł się
powtórzyć nieskończenie wiele razy, to średni plon jabłek byłby równy 13,64 t/ha z błędem ± 0,52 t/ha. Wykorzystując
przedział ufności dla wartości regresyjnej możemy powiedzieć, że z p-stwem 0,95 mamy prawo oczekiwać, że ten
średni plon będzie nie mniejszy niż 12,59 t/ha, ale nie większy niż 14,69 t/ha.
Oczywiście rok 2006 może być tylko raz, a wtedy z p-stwem 0,95 mamy prawo oczekiwać, że plon jabłek będzie
nie mniejszy niż 9,62 t/ha, ale nie większy niż 17,66 t/ha.
Podobnie można zinterpretować wyniki prognozy dla roku 2007 (czas = 58).
2.4 Wykorzystanie testu serii
Przypuszczenie, że trend zjawiska może być opisany liniową funkcją czasu możemy także zweryfikować za
pomocą testu serii dostępnego w skoroszycie o tej samej nazwie, czyli TestSerii.xls. Procedura VBA zaszyta w
tym skoroszycie weryfikuje hipotezę o poprawności doboru modelu na podstawie wektora reszt losowych.
W naszym przypadku wystarczy wykorzystać wbudowane funkcje Excela i do wykresu szeregu czasowego dodać
liniową funkcję trendu z opcją pokazania równania oraz wartości współczynnika determinacji.
10
Dla weryfikacji przypuszczenia, że trend plonu jabłek jest liniowy musimy wykonać następujące kroki:
1.
W nowym arkuszu lub innym obszarze przygotować dwie kolumny danych empirycznych, pierwsza
zawiera zmienną czas, druga obserwowane średnie plony jabłek w danym punkcie czasowym. W
naszym przypadku dane te zostały przygotowane w obszarze A1:B57 arkusza DoTestuSerii
skoroszytu PlonyJablek.xls.
2.
Po zaznaczeniu obszaru danych (A1:B57) wykonujemy wykres typu XY z podtypem tylko punkty
empiryczne. Wskazując jeden z punktów prawym przyciskiem myszy dodajemy trend liniowy z
pokazaniem równania i R2.
3.
W komórce C1 wpisujemy etykietę wartości teoretycznych, np. yt, a w D1 etykietę reszt losowych, np.
et. W komórce C2 wpisujemy formułę wyznaczającą teoretyczną wartość plonu jabłek wg równania z
wykresu, czyli =0,2562*A2-0,9648. W D2 wpisujemy formułę wyliczającą reszty losowe =B2-C2.
Po zaznaczeniu obszaru C2:D2 kopiujemy obie formuły do wiersza 57 (na cały obszar danych).
4.
Jeżeli skoroszyt TestSerii nie był otwarty, to otwieramy go pamiętając o włączeniu makropoleceń.
5.
Wracamy do arkusza DoTestuSerii po reszty losowe, zaczynamy od zaznaczenia obszaru D1:D57, a
następnie kopiujemy dane do schowka Windows.
6.
Przechodzimy do skoroszytu TestSerii, ustawiamy kursor w komórce A1 i wywołujemy polecenia
Wklej specjalnie i dalej Wartości.
7.
Klik przycisku Oblicz uruchamia procedurę weryfikującą losowość reszt przy pomocy testu serii, w
przypadku, gdy nie są dostępne krytyczne liczby serii procedura przechodzi na rozkład normalny
standardowy.
Po wykonaniu tych siedmiu kroków widzimy taki efekt, jak na pokazanym niżej (kolejna strona) zrzucie
ekranowym. W kolumnie A mamy wklejone wartości reszt losowych, w kolumnie B procedura wstawiła liczbę 1 dla
reszty dodatniej lub liczbę 0 dla reszty ujemnej, a w kolumnie C została policzona liczba serii.
Końcowe wyniki mamy podane w obszarze E2:F4, wiemy ile było serii, ile było reszt dodatnich, a ile reszt
ujemnych. Niestety, w dostępnych tablicach nie ma wartości krytycznych testu serii, stąd normalizacja liczby serii.
Wartość empiryczna standardowej zmiennej normalnej jest równa -1,61081, co nie przeczy hipotezie o losowości reszt.
Inaczej mówiąc model liniowy może być zastosowany do estymacji trendu badanego zjawiska.
11
Test serii pozostaje praktycznie jedynym dostępnym narzędziem statystycznym do ustalenia, czy estymowany
model był poprawnie wybrany w większości przypadków, dotyczy to także modelu liniowego czy wykładniczego w
tych przypadkach, gdy dane empiryczne nie tworzą szeregu czasowego.
12
3 Przykład badania, czy trend zjawiska jest wykładniczy?
Interesuje nas dynamika średniej ceny pszenicy obserwowana na rynkach w okresie styczeń 2004 do wrzesień
2005. Chcemy ustalić, czy trend tego zjawiska może być opisany funkcją wykładniczą o podstawie naturalnej.
Poniżej widok arkusza PszenicaDane w skoroszycie Pszenica.xls z danymi szeregu czasowego
opisującego zmianę ceny pszenicy w kolejnych miesiącach. Sporządzony wykres rozrzutu punktów empirycznych nie
wyklucza, że do opisania trendu można użyć modelu wykładniczego postaci y = b0 e b`1t = b0 exp(b1t ) .
Podobnie jak w poprzednim przykładzie możemy dokonać linearyzacji modelu wykładniczego poprzez
obustronne logarytmowanie logarytmem naturalnym:
ln( y ) = ln(b0 ) + b1t
otrzymując formalnie model liniowy. Estymację parametrów tego modelu możemy wykonać przy pomocy procedury
Liniowa ze skoroszytu StatystykaJG z jednoczesnym badaniem poprawności modelu (liniowego po
logarytmowaniu, a nie wykładniczego). Odpowiedz pozytywna oznacza, że model liniowy (a więc i wykładniczy) jest
właściwy do opisania trendu badanego zjawiska.
Co jednak zrobić, jeżeli nie dysponujemy procedurą Liniowa (lub podobną do niej) ?
Warto zauważyć, że wartości zmiennej niezależnej (czasu) zmieniają się o stałą wartość, co pozwala nam na
skorzystanie ze znanej własności funkcji wykładniczej (przyrosty względne zmiennej y-ek są stałe.
Własność powyższą
wykorzystać następująco:
możemy
w
naszym
przykładzie
1. Wyznaczymy przyrosty względne ceny pszenicy tworząc
y − yt −1
nowa zmienną dy(t) wg formuły dyt = t
dla t > 1 .
yt
Obok widok arkusza z formułą wyliczającą przyrost
względny (kolumna D).
2. Wykorzystując utworzoną zmienną (dane z obszaru B3,
B5:B24; D3 i D5:D24) i skoroszyt Liniowa.xls
wyestymujemy parametry modelu dy (t ) = b0 + b1t , co
pozwoli nam na weryfikację hipotezy zerowej H 0 : b1 = 0
wobec alternatywy H1 : b1 ≠ 0 .
13
3. Brak możliwości odrzucenia H 0 : b1 = 0 oznacza, że przyrosty względne są stałe, co jak wiemy ma miejsce
wtedy, gdy zmienna y jest związana ze zmienną x funkcją wykładniczą.
4. Odrzucenie H 0 : b1 = 0 na rzecz H1 : b1 ≠ 0 oznacza, że przyrosty względne zmiennej y są funkcją x, tym
samym zmienne y i x nie mogą być związane funkcją wykładniczą.
Poniżej widok skoroszytu Liniowa.xls z wklejonymi danymi odpowiadającymi wartościom przyrostów
względnych ceny pszenicy.
Kursor wskazuje komórkę H17 zawierającą krytyczny poziom istotności dla hipotezy H 0 : b1 = 0 wobec
H1 : b1 ≠ 0 , jak widzimy jest to bardzo duże p-stwo, tym samym nie mamy podstaw do odrzucenia hipotezy zerowej.
Merytorycznie oznacza to, że przyrosty względne ceny pszenicy są stałe (w czasie), tym samym do opisania trendu
możemy wykorzystać funkcję wykładniczą.
3.1 Estymacja parametrów modelu wykładniczego
Model y = b0 exp(b1 x) nie może być (bezpośrednio) estymowany metodą najmniejszych kwadratów, wcześniej
musimy przeprowadzić jego linearyzację poprzez obustronne logarytmowanie przy podstawie naturalnej otrzymując
model postaci ln( y ) = ln(b0 ) + b1 x .
Wprowadzając podstawienia z = ln( y ) oraz B0 = ln(b0 ) mamy formalnie model liniowy z = B0 + b1 x , którego
parametry możemy oszacować MNK. Wymaga to wstępnego przygotowania danych empirycznych poprzez
wprowadzenie zmiennej z = ln(y ) , na kolejnym zrzucie ekranowym zostało to zrobione w kolumnie E. W komórce E3
została wpisana etykieta nowej zmiennej zależnej, a w komórce E4 formuła =LN(C4), która została następnie
skopiowana na obszar E4:E24.
Dane z obszaru (rozłącznego) B3:B24; E3:E24 zostaną wykorzystane do estymacji parametrów modelu
z = B0 + b1 x jak i weryfikacji hipotezy o nieistotności regresji, a po wyestymowaniu modelu zostanie wykonana
prognoza ceny pszenicy (dokładniej logarytmu naturalnego ceny pszenicy) w kolejnym punkcie czasowym, czyli w
październiku 2005 roku.
14
Poniżej widok arkusza Liniowa.xls z wklejonymi od komórki A1 danymi (wklejenie poprzez polecenie Wklej
specjalnie/Wartości z uwagi na formuły opisujące wartości zmiennej zależnej).
Model jest oczywiście istotny (oczywiście, bo wiemy o tym z badania, czy może to być model wykładniczy), jego
współczynnik regresji jest równy 0,0523 (z dokładnością do 4 miejsc). Z uwagi na estymowany model można mu nadać
taką interpretację: średniomiesięcznie logarytm naturalny ceny pszenicy wzrasta o 0,0523 jednostek.
15
3.2 Wykonanie prognozy
Mając wyestymowany model postaci z = B0 + b1 x możemy przejść do wykonania prognozy w punkcie t=22
(październik 2005), z uwagi jednak na zamiar przygotowania wykresu pokazującego ceny empiryczne, ceny teoretyczne
oraz przedziały ufności dla wartości regresyjnej i predykcji wyznaczymy prognozę dla wartości czasu od t=1 do t=22.
Poniżej widok skoroszytu Liniowa.xls z wpisanymi od komórki D42 wartościami czasu i skopiowanymi
formułami z obszaru E42:K42. Dane te opisują prognozę logarytmu naturalnego ceny pszenicy w kolejnych punktach
czasu (w kolejnych miesiącach).
Dla wykonania wykresu cen empirycznych, cen teoretycznych wynikających z modelu wykładniczego oraz
dolnych i górnych granic przedziałów ufności dla wartości regresyjnej i dla predykcji musimy retransformować wyniki
prognozy wg formuły = EXP (zˆ ) gdzie ẑ jest prognozą uzyskaną z modelu zˆ = 5,422088 + 0,052274 ⋅ t .
W naszym przypadku taką retransformację najwygodniej będzie wykonać w nowym arkuszu Prognoza
skoroszytu Pszenica.xls, ponieważ w skoroszycie Liniowa.xls nie możemy wstawić (wykonać) wykresu z
powodu zablokowania arkusza. Do tego arkusza wkleimy wyniki estymacji z arkusza Liniowa, z tym, że musimy
korzystać z polecenie Wklej specjalnie/Wartości. W naszym przypadku wyniki prognozy zostały wklejone od komórki
A2.
Retransformacji poddamy dane z kolumny B (teoretyczne wartości logarytmu naturalnego ceny pszenicy) oraz
kolumn E do H (kolejno dolna i górna granica przedziału ufności dla wartości regresyjnej, dolna i górna granica
przedziału predykcji).
Poniżej widok arkusza Prognoza z obszarem zawierającym wyniki retransformacji prognoz dla kolejnych
wartości zmiennej czasowej. W kolumnie A wpisano wartości czasu, ostatnia wartość odpowiada październikowi 2005
roku. W wierszu 39 wpisano etykiety poszczególnych kolumn, a w C40 formułę pokazaną na zrzucie ekranowym.
16
W komórce B31 wpisujemy =EXP(B4) i po zatwierdzeniu kopiujemy na obszar B32:B52. Podobną formułę
wpisujemy w E31 (=EXP(E4), którą kopiujemy w dół do wiersza 52, a następnie w prawo do kolumny H. Nie można
w analogiczny sposób retransformować błędów wartości regresyjnej (kolumna C) ani błędu predykcji (kolumna D). Te
dwa błędy możemy odtworzyć z granic odpowiednich przedziałów ufności. Stosowne formuły zainteresowany
Czytelnik znajdzie w przykładowym arkuszu Pszenica.xls. W kolumnie I wklejono – na potrzeby wykresu –
obserwowane ceny pszenicy, stąd komórka I52 jest pusta (bo nie znamy tej ceny, wyniki naszej próby nie obejmowały
tego miesiąca).
W wierszu 52 na pokazanym wyżej fragmencie arkusza Prognoza mamy wynik prognozy dla miesiąca
października w 2005 roku. Wykorzystując granice przedziału ufności dla predykcji możemy powiedzieć, że z p-stwem
0,95 mamy prawo oczekiwać, że przeciętna cena 1 tony pszenicy w październiku 2005 będzie nie mniejsza niż 613,8 zł,
ale nie większa niż 832,7 zł.
Pozostaje nam już tylko przygotowanie wykresu typu XY w oparciu o dane obszarów A30:B52 i E30:I52
(obszary rozłączne – zaznaczamy z klawiszem Ctrl). Poniżej pokazany jest gotowy wykres, punkty pokazują empiryczne
ceny pszenicy, środkowa linia (yt) pokazuje teoretyczne wartości ceny, dwie wewnętrzne linie pokazują dolną (dgu) i
górną (ggu) granicę ufności dla wartości regresyjnej (średniej). Dwie zewnętrzne linie (dgp) i (ggp) pokazują dolną i
górną granicę przedziału ufności dla realizacji pojedynczej wartości zmiennej losowej (predykcji).
900
800
yt
700
dgu
600
ggu
500
dgp
ggp
400
y
300
200
0
5
10
15
20
25
17
Na zakończenie jeszcze zrzut ekranu z pokazaniem zaznaczonych rozłącznych obszarów, po ich zaznaczeniu
wywołujemy polecenie zrobienia wykresu XY.
W ramach typu XY wybieramy podtyp z wygładzonymi liniami (zrzut z Excela 2003, w 2007 czy nowszych jest
podobny wybór).
Klik przycisku Zakończ wstawia wykres, który musimy sformatować tak, aby seria danych opisana symbolem y
(obserwowane ceny pszenicy) była reprezentowana nie przez linię, lecz przez punkty. Na pokazanym wykresie seria ta
została zaznaczona, co nam pozwala na jej sformatowanie poprzez wywołanie z menu kontekstowego polecenia
Formatowanie serii danych.
18
Bezpośrednio po zbudowaniu wykresu z wygładzonymi liniami w grupie Linie włączona była opcja
Automatycznie, a w grupie Znacznik aktywna była opcja Brak. Ustawienie takie, jak pokazane niżej rozwiązuje nasz
problem.
19
3.3 Przykład pszenicy – trend wykładniczy czy liniowy?
Przykład z analizą dynamiki ceny pszenicy pozwala na rozważenie jeszcze jednego problemu. Zaczynając
omawianie tego przykładu założyliśmy, że interesuje nas odpowiedź na pytanie, czy badana zależność może być opisana
modelem wykładniczym o podstawie naturalnej.
Wyznaczyliśmy przyrosty względne ceny pszenicy i wykazaliśmy, że są one stałe, co automatycznie prowadzi
nas do wniosku, że wybór modelu wykładniczego był uprawniony. Dla przypomnienia poniżej wyniki estymacji modelu
δyt = b0 + b1 ⋅ t i weryfikacji H 0 : b1 = 0 wobec H1 : b1 ≠ 0 (obliczenia były wykonane w arkuszu Liniowa).
Ponieważ p-value (zobacz kom. H17) jest znacznie większe niż alfa, to nie mieliśmy podstaw do odrzucenia
hipotezy zerowej i automatycznie uznaliśmy, że powinniśmy wybrać model wykładniczy.
W arkuszu PszenicaDane zostały wyznaczone najpierw przyrosty absolutne cen pszenicy (kolumna D), a dopiero
po nich przyrosty względne (kolumna E), które zostały wykorzystane w powyższym badaniu. Można postawić takie
pytanie: a co się stanie, jeżeli takie badanie przeprowadzimy w oparciu o przyrosty absolutne?
Jak wiemy z pierwszego rozdziału, gdyby te przyrosty absolutne były stałe, to badaną zależność można by opisać
modelem liniowym bez potrzeby sięgania po model wykładniczy.
W naszym przypadku uzyskamy pokazane niżej wyniki.
Proszę zauważyć, estymowany był model ∆yt = b0 + b1 ⋅ t , a wyniki weryfikacji hipotezy H 0 : b1 = 0 wobec
H1 : b1 ≠ 0 nie dają podstaw do jej odrzucenia. Inaczej mówiąc, badaną zależność można spokojnie opisać modelem
liniowym bez potrzeby sięgania po model wykładniczy!
20
Mamy więc dylemat, które z postępowań było poprawne i który model (liniowy czy wykładniczy) powinniśmy
wykorzystać?
W arkuszu LinowyCzyWykladniczy skoroszytu Pszenica.xls zamieściłem wyniki badań obu modeli
wykonane w arkuszu Liniowa.
W obu przypadkach dochodzimy do wniosków, że przyrosty absolutne jak i względne są stałe, czyli zarówno
model liniowy jak i wykładniczy mogą być użyte do opisania badanej zależności. Warto jednak zauważyć, że krytyczny
poziom istotności dla przyrostów względnych jest znacznie większy niż dla przyrostów absolutnych, co wskazuje na
pierwszeństwo modelu wykładniczego przez liniowym.
21
4 Literatura
1.
Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000
2.
Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe
PWN, Warszawa 2003
3.
Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja
Wydawnicza PLACET, Warszawa, 1998
4.
Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
5.
Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i
Marketingu, Sochaczew, 2000
6.
Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004
7.
Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
8.
Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania.
Wydawnictwo Naukowe PWN, Warszawa 2008
9.
Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003

Podobne dokumenty