Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy.
Transkrypt
Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy.
M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u Pro gn o zo w an i e i sy mu l ac je Janusz Górczyński Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy. Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2012 2 Od Autora Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i symulacje” przygotowanego dla studentów kierunku zarządzanie. Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane wcześniej testy internetowe. Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli prognostycznych. Jak korzystać z tych materiałów? Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie. Janusz Górczyński 3 Spis treści 1 2 3 4 WSTĘP ................................................................................................................................................................... 4 1.1 CZY TREND ZJAWISKA JEST LINIOWY?........................................................................................................... 4 1.2 CZY TREND ZJAWISKA JEST WYKŁADNICZY?................................................................................................. 5 PRZYKŁAD BADANIA, CZY TREND ZJAWISKA JEST LINIOWY.......................................................... 6 2.1 WYKORZYSTANIE PRZYROSTÓW ABSOLUTNYCH........................................................................................... 6 2.2 ESTYMACJA MODELU LINIOWEGO W ARKUSZU LINIOWA .............................................................................. 8 2.3 PREDYKACJA W ARKUSZU LINIOWA.............................................................................................................. 9 2.4 WYKORZYSTANIE TESTU SERII ...................................................................................................................... 9 PRZYKŁAD BADANIA, CZY TREND ZJAWISKA JEST WYKŁADNICZY? ......................................... 12 3.1 ESTYMACJA PARAMETRÓW MODELU WYKŁADNICZEGO .............................................................................. 13 3.2 WYKONANIE PROGNOZY ............................................................................................................................. 15 3.3 PRZYKŁAD PSZENICY – TREND WYKŁADNICZY CZY LINIOWY?.................................................................... 19 LITERATURA .................................................................................................................................................... 21 4 1 Wstęp Wiemy z dotychczasowych rozważań, że testem serii jesteśmy w stanie odpowiedzieć na pytanie, czy uprawniony był wybór takiego a nie innego modelu do opisu zależności między zmienną objaśnianą a zmienną czy zmiennymi objaśniającymi. Odpowiedź pozytywna nie jest jednak jednoznaczna, być może do opisania badanej zależności można wykorzystać inny model. W przypadku, gdy wartości zmiennej objaśnianej zmieniają się o stałą wartość i gdy chcemy uzyskać odpowiedź co do wyboru modelu liniowego lub wykładniczego, to możemy wykorzystać własności matematyczne obu funkcji. W praktyce będziemy mieć taką możliwość w sytuacji, gdy dane empiryczne będą tworzyć szereg czasowy. 1.1 Czy trend zjawiska jest liniowy? W przypadku funkcji liniowej y = f ( x) = b0 + b1 x mamy, że różnica jej wartości w punkach x0 i x0 + ∆x jest równa: ∆y = f ( x0 + ∆x) − f ( x0 ) = b0 + b1 ( x0 + ∆x) − b0 − b1 x0 = b1∆x (1) Dla przyrostu argumentu ∆x = 1 mamy, że ∆y = b1 (2) czyli przyrosty wartości funkcji są stałe. Własność tę możemy wykorzystać w praktyce, ale tylko w tych sytuacjach, w których dane empiryczne tworzą szereg czasowy (ogólnie: wartości zmiennej niezależnej tworzą szereg arytmetyczny, a próba uporządkowana jest rosnąca względem zmiennej niezależnej). W takiej sytuacji musimy wyznaczyć przyrosty absolutne zmiennej zależnej jako różnice między obserwacją i+1 a obserwacją i-tą: ∆yi +1 = yi +1 − yi (3) Otrzymane w ten sposób obserwacje (t ; ∆yt ) , gdzie t = 2, 3, , , , , , n możemy wykorzystać do estymacji modelu liniowego postaci ∆yt = b0 + b1 ⋅ t (4) który dopuszcza istnienie związku funkcyjnego między przyrostami wartości funkcji a zmienną niezależną t. Warto zauważyć, że liczebność tak przygotowanego zestawu danych jest o jedną pozycję mniejsza niż danych oryginalnych. Estymacja modelu 4 jest nam potrzebna w jednym celu – ma pozwolić na weryfikację H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . W sytuacji, gdy nie będziemy mieli podstaw do odrzucenia H 0 : b1 = 0 , co będzie równoznaczne z tym, że przyrosty wartości funkcji są stałe, będziemy mogli wnioskować, że trend zjawiska może być opisany modelem liniowym. Możemy wtedy wrócić do oryginalnych danych i wykorzystać je do przeprowadzenia estymacji modelu liniowego wraz z jego dalszym wykorzystaniem do budowania prognoz. W przypadku odrzucenia H 0 : b1 = 0 dla modelu 4 na rzecz hipotezy alternatywnej H1 : b1 ≠ 0 uzyskujemy informację, że trend zjawiska nie może być opisany modelem liniowym. 5 1.2 Czy trend zjawiska jest wykładniczy? Funkcja wykładnicza o podstawie naturalnej dana jest wzorem f ( x ) = b0 ⋅ e b1 x , a różnica jej wartości w punkach x0 + ∆x i x0 jest równa: ∆y = f ( x0 + ∆x) − f ( x0 ) = b0 ⋅ e b1 ( x 0 + ∆x ) − b0 ⋅ eb1 x 0 = b0 ⋅ e b1 x0 e b1 ⋅ ∆x − b0 ⋅ eb1 x 0 = b0 ⋅ eb1 x0 (e b1 ⋅ ∆x − 1) (5) Jak widzimy różnice wartości funkcji nie są stałe, lecz są funkcją argumentu x (zmiennej niezależnej). Rozwiązaniem będzie wyznaczenie przyrostu względnego zmiennej zależnej y w punkcie x0 + ∆x względem punktu x0 , który definiujemy jako stosunek przyrostu absolutnego do wartości funkcji w punkcie x0 + ∆x : δy = ∆y f ( x0 + ∆x) − f ( x0 ) = f ( x0 + ∆x) f ( x0 + ∆x) (6) W przypadku funkcji wykładniczej o podstawie naturalnej przyrost względny przy założeniu, że ∆x = 1 dany jest wzorem: δy = b0 ⋅ e b1 x0 (e b1 − 1) b0 ⋅ eb1 ( x0 +1) = b0 ⋅ eb1 x 0 (e b1 − 1) b0 ⋅ eb1 x 0 eb1 = e b1 − 1 eb1 (7) Jak widzimy z wzoru 7 przyrosty względne nie są funkcją argumentu (zmiennej niezależnej), są stałe i tę własność wykorzystamy do ustalenia, czy trend zjawiska może być opisany funkcją wykładniczą o podstawie naturalnej. W takiej sytuacji musimy wyznaczyć przyrosty względne zmiennej zależnej jako różnice między obserwacją i+1 a obserwacją i-tą w szeregu czasowym: δyi +1 = y i +1 − y i y i +1 (8) Otrzymane w ten sposób obserwacje (t ; δyt ) , gdzie t = 2, 3, , , , , , n możemy wykorzystać do estymacji modelu liniowego postaci δyt = b0 + b1 ⋅ t (9) który dopuszcza istnienie związku funkcyjnego między przyrostami względnymi wartości funkcji a zmienną niezależną t. Warto zauważyć, że liczebność tak przygotowanego zestawu danych jest o jedną pozycję mniejsza niż danych oryginalnych. Estymacja modelu 9 jest nam potrzebna w jednym celu – ma pozwolić na weryfikację H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . W sytuacji, gdy nie będziemy mieli podstaw do odrzucenia H 0 : b1 = 0 , co będzie równoznaczne z tym, że przyrosty względne wartości funkcji są stałe, będziemy mogli wnioskować, że trend zjawiska może być opisany modelem wykładniczym o podstawie naturalnej. Możemy wtedy wrócić do oryginalnych danych i wykorzystać je do przeprowadzenia estymacji modelu wykładniczego wraz z jego dalszym wykorzystaniem do budowania prognoz. W przypadku odrzucenia H 0 : b1 = 0 dla modelu 9 na rzecz hipotezy alternatywnej H1 : b1 ≠ 0 uzyskujemy informację, że trend zjawiska nie może być opisany modelem wykładniczym o podstawie naturalnej. 6 2 Przykład badania, czy trend zjawiska jest liniowy Na przestrzeni lat 1951-2006 obserwowano średnie plony jabłek deserowych (w tonach/ha). Zebrane dane tworzą szereg czasowy, interesuje nas odpowiedź na pytanie, czy trend tego zjawiska może być opisany linową funkcją czasu. Poniżej widok zgromadzonych danych, na potrzeby tej publikacji dane zostały zestawione w trzech grupach lat. Bez utraty informacji możemy wprowadzić zmienną czas o wartościach dyskretnych 1, 2, 3 itd., możemy także dane zapisać w postaci trzech kolumn (rok, czas, plon), co ułatwi wykonywanie dalszych obliczeń. Kolejny zrzut ekranowy pokazuje tak przygotowane dane, jest tam także sporządzony wykres typu XY ilustrujący rozrzut plonu w funkcji czasu. Interesuje nas odpowiedź na pytanie, czy trend badanego zjawiska może być opisany modelem liniowym postaci y = b0 + b ⋅ t ? 2.1 Wykorzystanie przyrostów absolutnych Badanie, czy trend zjawiska przeprowadzimy pośrednio poprzez wyznaczanie przyrostów absolutnych zmiennej zależnej, a następnie ustalenie, czy są one funkcją liniową zmiennej niezależnej czy też nie. Do obliczeń wykorzystamy tym razem skoroszyt Liniowa.xls. 7 Poniżej pokazany jest widok arkusza SzeregCzasowyPlonu z dodaną kolumną Delta(y) z formułą (w D2) postaci =C3-C2, którą następnie skopiowano na pozostałe wiersze obszaru danych. Do estymacji modelu ∆y = B0 + B1 ⋅ t przy pomocy skoroszytu Liniowa.xls wykorzystamy dane z obszarów B1; B3:B57; D1; D3:D57, które musimy skopiować do schowka. Wskazane obszary są rozłączne, stąd przy ich zaznaczaniu musimy wykorzystać klawisz Ctrl (zaznaczamy pierwszy obszar, wciskamy klawisz Ctrl i zaznaczamy pozostałe obszary). Przed zaznaczeniem tych obszarów musimy otworzyć skoroszyt Liniowa.xls, zobaczymy sytuację taką jak pokazana obok. Arkusz ten wymaga, aby w kolumnie A były dane odpowiadające zmiennej niezależnej, a w kolumnie B zmiennej zależnej, przy czym komórki A1 i B1 muszą zawierać etykiety danych. Po przejściu do skoroszytu zawierającego przyrosty absolutne zaznaczamy potrzebne obszary danych i wywołujemy polecenie Kopiuj, a następnie przechodzimy do skoroszytu Liniowa.xls. Ustawiamy wskaźnik myszy w komórce A1 i wywołujemy polecenia Wklej specjalnie/Wartości, po wklejeniu danych wszystkie obliczenia związane z estymacją modelu i weryfikacją hipotezy o nieistotności regresji są już zrobione. Poniżej widok skoroszytu Liniowa.xls po wklejeniu danych, interesujący nas obszar wyników został pogrubiony. W komórce H17 mamy wyznaczoną wartość krytycznego poziomu istotności dla hipotezy zerowej H 0 : B1 = 0 przy alternatywie H1 : B1 ≠ 0 (p-value). Jak widzimy jest to wartość większa od umownego α = 0,05 , tym samym nie mamy podstaw do odrzucenia hipotezy zerowej. Upoważnia nas to do opisania trendu badanej cechy za pomocą liniowej funkcji czasu. 8 2.2 Estymacja modelu liniowego w arkuszu Liniowa Do estymacji modelu y = b0 + b1t wykorzystamy oryginalne dane z obszaru SzeregCzasowyPlonu, które skopiujemy do skoroszytu Liniowa.xls zaczynając od A1. B1:C57 arkusza Po wklejeniu danych mamy wykonane wszystkie potrzebne obliczenia, pozostaje jedynie dokonanie interpretacji wyników estymacji modelu y = b0 + b1t . W obszarze E17:E18 mamy oceny modelu, a w obszarze F17:F18 błędy standardowe tych ocen. Ocena współczynnika regresji jest równa 0,2562 i możemy nadać jej następującą interpretację: średniorocznie plony jabłek wzrastają o 0,2562 t/ha. W komórce G17 wyznaczona jest wartość empiryczna statystyki t-Studenta dla weryfikacji hipotezy o nieistotności regresji H 0 : b1 = 0 przy alternatywie H1 : b1 ≠ 0. Wartość tej statystyki jest bardzo duża, ale do podjęcia decyzji weryfikacyjnej potrzebna jest znajomość wartości krytycznej wyznaczonej przy danych poziomie istotności alfa i liczbie stopni swobody n-2, gdzie n jest liczebnością próby (w naszym przykładzie n=57). 9 Decyzja weryfikacyjna może być także podjęta na podstawie wyznaczonego krytycznego poziomu istotności dla danej hipotezy (p-value), wystarczy tylko sprawdzić, czy p-value jest mniejsze od ustalonego alfa. W naszym przypadku jest taka właśnie sytuacja, tym samym odrzucamy hipotezę H 0 : b1 = 0 na rzecz alternatywy H1 : b1 ≠ 0. Merytorycznie oznacza to, że istnieje istotny statystycznie trend liniowy opisany równaniem mˆ (t ) = −0,9648 + 0,2562t . Hipoteza o nieistotności regresji jest także weryfikowana testem F w metodzie analizy wariancji, ale decyzja weryfikacyjna jest oczywiście taka sama. W komórce F31 mamy wyznaczoną wartość współczynnika determinacji, można nadać jej następującą interpretację: zmienność średniego plonu jabłek jest w 82,6 % wyjaśniona wpływem czasu. Dokładniej jest to wpływ tych wszystkich czynników, które są reprezentowane przez zmienną czas: będą to takie elementy jak nowe odmiany, nowe nasadzenia, poziom kultury sadowniczej, poziom ochrony i nawożenia. 2.3 Predykacja w arkuszu Liniowa Pozostaje wyznaczenie przewidywanych średnich plonów jabłek w 2006 i 2007 roku. Skoroszyt Liniowa.xls pozwala na wykonanie prognozy niejako automatycznie, wystarczy do obszaru zaczynającego się od komórki D42 wpisać wartości tych argumentów, dla których chcemy wykonać prognozę. W naszym przypadku do D42 została wpisana wartość 57 jako odpowiednik roku 2006, a do D43 liczba 58 (to jest wartość zmiennej czas dla roku 2007). Jeżeli zachodzi potrzeba, to formuły z obszaru E42:K42 kopiujemy w dół i mamy wykonaną prognozę. Wyniki prognozy z obszaru E42:K42 możemy zinterpretować następująco: gdyby rok 2006 (czas = 57) mógł się powtórzyć nieskończenie wiele razy, to średni plon jabłek byłby równy 13,64 t/ha z błędem ± 0,52 t/ha. Wykorzystując przedział ufności dla wartości regresyjnej możemy powiedzieć, że z p-stwem 0,95 mamy prawo oczekiwać, że ten średni plon będzie nie mniejszy niż 12,59 t/ha, ale nie większy niż 14,69 t/ha. Oczywiście rok 2006 może być tylko raz, a wtedy z p-stwem 0,95 mamy prawo oczekiwać, że plon jabłek będzie nie mniejszy niż 9,62 t/ha, ale nie większy niż 17,66 t/ha. Podobnie można zinterpretować wyniki prognozy dla roku 2007 (czas = 58). 2.4 Wykorzystanie testu serii Przypuszczenie, że trend zjawiska może być opisany liniową funkcją czasu możemy także zweryfikować za pomocą testu serii dostępnego w skoroszycie o tej samej nazwie, czyli TestSerii.xls. Procedura VBA zaszyta w tym skoroszycie weryfikuje hipotezę o poprawności doboru modelu na podstawie wektora reszt losowych. W naszym przypadku wystarczy wykorzystać wbudowane funkcje Excela i do wykresu szeregu czasowego dodać liniową funkcję trendu z opcją pokazania równania oraz wartości współczynnika determinacji. 10 Dla weryfikacji przypuszczenia, że trend plonu jabłek jest liniowy musimy wykonać następujące kroki: 1. W nowym arkuszu lub innym obszarze przygotować dwie kolumny danych empirycznych, pierwsza zawiera zmienną czas, druga obserwowane średnie plony jabłek w danym punkcie czasowym. W naszym przypadku dane te zostały przygotowane w obszarze A1:B57 arkusza DoTestuSerii skoroszytu PlonyJablek.xls. 2. Po zaznaczeniu obszaru danych (A1:B57) wykonujemy wykres typu XY z podtypem tylko punkty empiryczne. Wskazując jeden z punktów prawym przyciskiem myszy dodajemy trend liniowy z pokazaniem równania i R2. 3. W komórce C1 wpisujemy etykietę wartości teoretycznych, np. yt, a w D1 etykietę reszt losowych, np. et. W komórce C2 wpisujemy formułę wyznaczającą teoretyczną wartość plonu jabłek wg równania z wykresu, czyli =0,2562*A2-0,9648. W D2 wpisujemy formułę wyliczającą reszty losowe =B2-C2. Po zaznaczeniu obszaru C2:D2 kopiujemy obie formuły do wiersza 57 (na cały obszar danych). 4. Jeżeli skoroszyt TestSerii nie był otwarty, to otwieramy go pamiętając o włączeniu makropoleceń. 5. Wracamy do arkusza DoTestuSerii po reszty losowe, zaczynamy od zaznaczenia obszaru D1:D57, a następnie kopiujemy dane do schowka Windows. 6. Przechodzimy do skoroszytu TestSerii, ustawiamy kursor w komórce A1 i wywołujemy polecenia Wklej specjalnie i dalej Wartości. 7. Klik przycisku Oblicz uruchamia procedurę weryfikującą losowość reszt przy pomocy testu serii, w przypadku, gdy nie są dostępne krytyczne liczby serii procedura przechodzi na rozkład normalny standardowy. Po wykonaniu tych siedmiu kroków widzimy taki efekt, jak na pokazanym niżej (kolejna strona) zrzucie ekranowym. W kolumnie A mamy wklejone wartości reszt losowych, w kolumnie B procedura wstawiła liczbę 1 dla reszty dodatniej lub liczbę 0 dla reszty ujemnej, a w kolumnie C została policzona liczba serii. Końcowe wyniki mamy podane w obszarze E2:F4, wiemy ile było serii, ile było reszt dodatnich, a ile reszt ujemnych. Niestety, w dostępnych tablicach nie ma wartości krytycznych testu serii, stąd normalizacja liczby serii. Wartość empiryczna standardowej zmiennej normalnej jest równa -1,61081, co nie przeczy hipotezie o losowości reszt. Inaczej mówiąc model liniowy może być zastosowany do estymacji trendu badanego zjawiska. 11 Test serii pozostaje praktycznie jedynym dostępnym narzędziem statystycznym do ustalenia, czy estymowany model był poprawnie wybrany w większości przypadków, dotyczy to także modelu liniowego czy wykładniczego w tych przypadkach, gdy dane empiryczne nie tworzą szeregu czasowego. 12 3 Przykład badania, czy trend zjawiska jest wykładniczy? Interesuje nas dynamika średniej ceny pszenicy obserwowana na rynkach w okresie styczeń 2004 do wrzesień 2005. Chcemy ustalić, czy trend tego zjawiska może być opisany funkcją wykładniczą o podstawie naturalnej. Poniżej widok arkusza PszenicaDane w skoroszycie Pszenica.xls z danymi szeregu czasowego opisującego zmianę ceny pszenicy w kolejnych miesiącach. Sporządzony wykres rozrzutu punktów empirycznych nie wyklucza, że do opisania trendu można użyć modelu wykładniczego postaci y = b0 e b`1t = b0 exp(b1t ) . Podobnie jak w poprzednim przykładzie możemy dokonać linearyzacji modelu wykładniczego poprzez obustronne logarytmowanie logarytmem naturalnym: ln( y ) = ln(b0 ) + b1t otrzymując formalnie model liniowy. Estymację parametrów tego modelu możemy wykonać przy pomocy procedury Liniowa ze skoroszytu StatystykaJG z jednoczesnym badaniem poprawności modelu (liniowego po logarytmowaniu, a nie wykładniczego). Odpowiedz pozytywna oznacza, że model liniowy (a więc i wykładniczy) jest właściwy do opisania trendu badanego zjawiska. Co jednak zrobić, jeżeli nie dysponujemy procedurą Liniowa (lub podobną do niej) ? Warto zauważyć, że wartości zmiennej niezależnej (czasu) zmieniają się o stałą wartość, co pozwala nam na skorzystanie ze znanej własności funkcji wykładniczej (przyrosty względne zmiennej y-ek są stałe. Własność powyższą wykorzystać następująco: możemy w naszym przykładzie 1. Wyznaczymy przyrosty względne ceny pszenicy tworząc y − yt −1 nowa zmienną dy(t) wg formuły dyt = t dla t > 1 . yt Obok widok arkusza z formułą wyliczającą przyrost względny (kolumna D). 2. Wykorzystując utworzoną zmienną (dane z obszaru B3, B5:B24; D3 i D5:D24) i skoroszyt Liniowa.xls wyestymujemy parametry modelu dy (t ) = b0 + b1t , co pozwoli nam na weryfikację hipotezy zerowej H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . 13 3. Brak możliwości odrzucenia H 0 : b1 = 0 oznacza, że przyrosty względne są stałe, co jak wiemy ma miejsce wtedy, gdy zmienna y jest związana ze zmienną x funkcją wykładniczą. 4. Odrzucenie H 0 : b1 = 0 na rzecz H1 : b1 ≠ 0 oznacza, że przyrosty względne zmiennej y są funkcją x, tym samym zmienne y i x nie mogą być związane funkcją wykładniczą. Poniżej widok skoroszytu Liniowa.xls z wklejonymi danymi odpowiadającymi wartościom przyrostów względnych ceny pszenicy. Kursor wskazuje komórkę H17 zawierającą krytyczny poziom istotności dla hipotezy H 0 : b1 = 0 wobec H1 : b1 ≠ 0 , jak widzimy jest to bardzo duże p-stwo, tym samym nie mamy podstaw do odrzucenia hipotezy zerowej. Merytorycznie oznacza to, że przyrosty względne ceny pszenicy są stałe (w czasie), tym samym do opisania trendu możemy wykorzystać funkcję wykładniczą. 3.1 Estymacja parametrów modelu wykładniczego Model y = b0 exp(b1 x) nie może być (bezpośrednio) estymowany metodą najmniejszych kwadratów, wcześniej musimy przeprowadzić jego linearyzację poprzez obustronne logarytmowanie przy podstawie naturalnej otrzymując model postaci ln( y ) = ln(b0 ) + b1 x . Wprowadzając podstawienia z = ln( y ) oraz B0 = ln(b0 ) mamy formalnie model liniowy z = B0 + b1 x , którego parametry możemy oszacować MNK. Wymaga to wstępnego przygotowania danych empirycznych poprzez wprowadzenie zmiennej z = ln(y ) , na kolejnym zrzucie ekranowym zostało to zrobione w kolumnie E. W komórce E3 została wpisana etykieta nowej zmiennej zależnej, a w komórce E4 formuła =LN(C4), która została następnie skopiowana na obszar E4:E24. Dane z obszaru (rozłącznego) B3:B24; E3:E24 zostaną wykorzystane do estymacji parametrów modelu z = B0 + b1 x jak i weryfikacji hipotezy o nieistotności regresji, a po wyestymowaniu modelu zostanie wykonana prognoza ceny pszenicy (dokładniej logarytmu naturalnego ceny pszenicy) w kolejnym punkcie czasowym, czyli w październiku 2005 roku. 14 Poniżej widok arkusza Liniowa.xls z wklejonymi od komórki A1 danymi (wklejenie poprzez polecenie Wklej specjalnie/Wartości z uwagi na formuły opisujące wartości zmiennej zależnej). Model jest oczywiście istotny (oczywiście, bo wiemy o tym z badania, czy może to być model wykładniczy), jego współczynnik regresji jest równy 0,0523 (z dokładnością do 4 miejsc). Z uwagi na estymowany model można mu nadać taką interpretację: średniomiesięcznie logarytm naturalny ceny pszenicy wzrasta o 0,0523 jednostek. 15 3.2 Wykonanie prognozy Mając wyestymowany model postaci z = B0 + b1 x możemy przejść do wykonania prognozy w punkcie t=22 (październik 2005), z uwagi jednak na zamiar przygotowania wykresu pokazującego ceny empiryczne, ceny teoretyczne oraz przedziały ufności dla wartości regresyjnej i predykcji wyznaczymy prognozę dla wartości czasu od t=1 do t=22. Poniżej widok skoroszytu Liniowa.xls z wpisanymi od komórki D42 wartościami czasu i skopiowanymi formułami z obszaru E42:K42. Dane te opisują prognozę logarytmu naturalnego ceny pszenicy w kolejnych punktach czasu (w kolejnych miesiącach). Dla wykonania wykresu cen empirycznych, cen teoretycznych wynikających z modelu wykładniczego oraz dolnych i górnych granic przedziałów ufności dla wartości regresyjnej i dla predykcji musimy retransformować wyniki prognozy wg formuły = EXP (zˆ ) gdzie ẑ jest prognozą uzyskaną z modelu zˆ = 5,422088 + 0,052274 ⋅ t . W naszym przypadku taką retransformację najwygodniej będzie wykonać w nowym arkuszu Prognoza skoroszytu Pszenica.xls, ponieważ w skoroszycie Liniowa.xls nie możemy wstawić (wykonać) wykresu z powodu zablokowania arkusza. Do tego arkusza wkleimy wyniki estymacji z arkusza Liniowa, z tym, że musimy korzystać z polecenie Wklej specjalnie/Wartości. W naszym przypadku wyniki prognozy zostały wklejone od komórki A2. Retransformacji poddamy dane z kolumny B (teoretyczne wartości logarytmu naturalnego ceny pszenicy) oraz kolumn E do H (kolejno dolna i górna granica przedziału ufności dla wartości regresyjnej, dolna i górna granica przedziału predykcji). Poniżej widok arkusza Prognoza z obszarem zawierającym wyniki retransformacji prognoz dla kolejnych wartości zmiennej czasowej. W kolumnie A wpisano wartości czasu, ostatnia wartość odpowiada październikowi 2005 roku. W wierszu 39 wpisano etykiety poszczególnych kolumn, a w C40 formułę pokazaną na zrzucie ekranowym. 16 W komórce B31 wpisujemy =EXP(B4) i po zatwierdzeniu kopiujemy na obszar B32:B52. Podobną formułę wpisujemy w E31 (=EXP(E4), którą kopiujemy w dół do wiersza 52, a następnie w prawo do kolumny H. Nie można w analogiczny sposób retransformować błędów wartości regresyjnej (kolumna C) ani błędu predykcji (kolumna D). Te dwa błędy możemy odtworzyć z granic odpowiednich przedziałów ufności. Stosowne formuły zainteresowany Czytelnik znajdzie w przykładowym arkuszu Pszenica.xls. W kolumnie I wklejono – na potrzeby wykresu – obserwowane ceny pszenicy, stąd komórka I52 jest pusta (bo nie znamy tej ceny, wyniki naszej próby nie obejmowały tego miesiąca). W wierszu 52 na pokazanym wyżej fragmencie arkusza Prognoza mamy wynik prognozy dla miesiąca października w 2005 roku. Wykorzystując granice przedziału ufności dla predykcji możemy powiedzieć, że z p-stwem 0,95 mamy prawo oczekiwać, że przeciętna cena 1 tony pszenicy w październiku 2005 będzie nie mniejsza niż 613,8 zł, ale nie większa niż 832,7 zł. Pozostaje nam już tylko przygotowanie wykresu typu XY w oparciu o dane obszarów A30:B52 i E30:I52 (obszary rozłączne – zaznaczamy z klawiszem Ctrl). Poniżej pokazany jest gotowy wykres, punkty pokazują empiryczne ceny pszenicy, środkowa linia (yt) pokazuje teoretyczne wartości ceny, dwie wewnętrzne linie pokazują dolną (dgu) i górną (ggu) granicę ufności dla wartości regresyjnej (średniej). Dwie zewnętrzne linie (dgp) i (ggp) pokazują dolną i górną granicę przedziału ufności dla realizacji pojedynczej wartości zmiennej losowej (predykcji). 900 800 yt 700 dgu 600 ggu 500 dgp ggp 400 y 300 200 0 5 10 15 20 25 17 Na zakończenie jeszcze zrzut ekranu z pokazaniem zaznaczonych rozłącznych obszarów, po ich zaznaczeniu wywołujemy polecenie zrobienia wykresu XY. W ramach typu XY wybieramy podtyp z wygładzonymi liniami (zrzut z Excela 2003, w 2007 czy nowszych jest podobny wybór). Klik przycisku Zakończ wstawia wykres, który musimy sformatować tak, aby seria danych opisana symbolem y (obserwowane ceny pszenicy) była reprezentowana nie przez linię, lecz przez punkty. Na pokazanym wykresie seria ta została zaznaczona, co nam pozwala na jej sformatowanie poprzez wywołanie z menu kontekstowego polecenia Formatowanie serii danych. 18 Bezpośrednio po zbudowaniu wykresu z wygładzonymi liniami w grupie Linie włączona była opcja Automatycznie, a w grupie Znacznik aktywna była opcja Brak. Ustawienie takie, jak pokazane niżej rozwiązuje nasz problem. 19 3.3 Przykład pszenicy – trend wykładniczy czy liniowy? Przykład z analizą dynamiki ceny pszenicy pozwala na rozważenie jeszcze jednego problemu. Zaczynając omawianie tego przykładu założyliśmy, że interesuje nas odpowiedź na pytanie, czy badana zależność może być opisana modelem wykładniczym o podstawie naturalnej. Wyznaczyliśmy przyrosty względne ceny pszenicy i wykazaliśmy, że są one stałe, co automatycznie prowadzi nas do wniosku, że wybór modelu wykładniczego był uprawniony. Dla przypomnienia poniżej wyniki estymacji modelu δyt = b0 + b1 ⋅ t i weryfikacji H 0 : b1 = 0 wobec H1 : b1 ≠ 0 (obliczenia były wykonane w arkuszu Liniowa). Ponieważ p-value (zobacz kom. H17) jest znacznie większe niż alfa, to nie mieliśmy podstaw do odrzucenia hipotezy zerowej i automatycznie uznaliśmy, że powinniśmy wybrać model wykładniczy. W arkuszu PszenicaDane zostały wyznaczone najpierw przyrosty absolutne cen pszenicy (kolumna D), a dopiero po nich przyrosty względne (kolumna E), które zostały wykorzystane w powyższym badaniu. Można postawić takie pytanie: a co się stanie, jeżeli takie badanie przeprowadzimy w oparciu o przyrosty absolutne? Jak wiemy z pierwszego rozdziału, gdyby te przyrosty absolutne były stałe, to badaną zależność można by opisać modelem liniowym bez potrzeby sięgania po model wykładniczy. W naszym przypadku uzyskamy pokazane niżej wyniki. Proszę zauważyć, estymowany był model ∆yt = b0 + b1 ⋅ t , a wyniki weryfikacji hipotezy H 0 : b1 = 0 wobec H1 : b1 ≠ 0 nie dają podstaw do jej odrzucenia. Inaczej mówiąc, badaną zależność można spokojnie opisać modelem liniowym bez potrzeby sięgania po model wykładniczy! 20 Mamy więc dylemat, które z postępowań było poprawne i który model (liniowy czy wykładniczy) powinniśmy wykorzystać? W arkuszu LinowyCzyWykladniczy skoroszytu Pszenica.xls zamieściłem wyniki badań obu modeli wykonane w arkuszu Liniowa. W obu przypadkach dochodzimy do wniosków, że przyrosty absolutne jak i względne są stałe, czyli zarówno model liniowy jak i wykładniczy mogą być użyte do opisania badanej zależności. Warto jednak zauważyć, że krytyczny poziom istotności dla przyrostów względnych jest znacznie większy niż dla przyrostów absolutnych, co wskazuje na pierwszeństwo modelu wykładniczego przez liniowym. 21 4 Literatura 1. Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000 2. Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe PWN, Warszawa 2003 3. Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja Wydawnicza PLACET, Warszawa, 1998 4. Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 5. Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2000 6. Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004 7. Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 8. Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania. Wydawnictwo Naukowe PWN, Warszawa 2008 9. Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003