7. Zmienne dychotomiczne
Transkrypt
7. Zmienne dychotomiczne
30 7. Zmienne dychotomiczne Zadanie 7.1. Na podstawie poniższych obserwacji przedstawiających wielkość połowów ryb w kwartałach lat 2003-2006 w pewnym gospodarstwie rybackim chcemy zbudować model tendencji rozwojowej, a następnie wyznaczyć prognozowaną wielkość połowu ryb w kolejnym, 2007 roku. Kw1 Kw2 Kw3 Kw4 r2003 8 11 16 10 r2004 10 12 18 13 r2005 12 15 19 12 r2006 13 14 22 15 Obserwacje powyższe tworzą szereg czasowy, wystarczy je uporządkować chronologicznie wg zmiennej czasowej t o wartościach 1, 2, …16 oznaczających kolejne pomiary. kwartał Kw1 Kw2 Kw3 Kw4 Kw1 Kw2 Kw3 Kw4 Kw1 Kw2 Kw3 Kw4 Kw1 Kw2 Kw3 Kw4 yt t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 8 11 16 10 10 12 18 13 12 15 19 12 13 14 22 15 Dane z dwóch ostatnich kolumn mogą być zaprezentowane jako punkty połączone prostymi w układzie 0XY, gdzie na osi x-ów odłożymy wartości zmiennej czasowej t , a na osi y-ów wartości yt . Uzyskany wykres szeregu czasowego pozwala na określenie, czy w szeregu występuje trend zjawiska i jaką funkcją może być opisany. Wykres pozwala także na 31 określenie, czy w szeregu występują wahania okresowe oraz na określenie typu szeregu czasowego – addytywny lub multiplikatywny. yt 25 20 15 10 5 0 2 4 6 8 10 12 14 16 18 W naszym przypadku wyraźnie widać, że w szeregu czasowym występuje trend liniowy z wahaniami okresowymi z podokresami kwartalnymi. Poniżej pokazany jest kolejny wykres szeregu czasowego z pokazanym trendem liniowym. Trend ten został oszacowany w arkuszu Excel poprzez wywołanie standardowej procedury Dodaj linię trendu. Szereg czasowy połowów ryb z trendem liniowym 25 y = 0,4294x + 10,1 R2 = 0,3119 20 15 10 5 0 2 4 6 8 10 12 14 16 18 Trend liniowy informuje nas o tym, że w klejnych kwartałach obserwujemy systematyczny liniowy wzrost średniej wielkości połowów. Współczynnik regresji bˆ = 0,4294 oznacza, że średniokwartalnie wielkość połowów wzrasta o 0,4294 jednostek. Z uwagi na występujące wahania okresowe model zawierający tylko trend jest zbyt mało precyzyjny, aby mógł być wykorzystany do prognozowania tego zjawiska. 32 Wyjściowy model zawierający trend liniowy musimy rozszerzyć o zmienne, które mogą opisać wpływ poszczególnych kwartałów. Dość prostym rozwiązaniem jest wprowadzenie zmiennych dychotomicznych, które będą przyjmować wartość 1 wtedy, gdy obserwacja dotyczy danego kwartału oraz wartość 0 w przeciwnym wypadku. Poniżej dane szeregu opisującego wielkość połowu ryb uzupełnione o zmienne K i (i = 1, 2, 3, 4) reprezentujące poszczególne kwartały. Tabela 7.2 kw 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yt K1 K2 K3 K4 8 11 16 10 10 12 18 13 12 15 19 12 13 14 22 15 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 Dane te można wykorzystać do estymacji modelu postaci: yt = b0 + b1t + b2 K1 + b3 K 2 + b4 K 3 + b5 K 4 7.1 ale bezpośrednia estymacja parametrów tak określonego modelu nie jest jednak możliwa (nie istnieje jednoznaczne rozwiązanie układu równań normalnych). Problem wynika z faktu, że dla każdej obserwacji suma zmiennych dychotomicznych jest równa 1, co oznacza, że dowolna zmienna dychotomiczna jest liniową kombinacją pozostałych. K1 + K 2 + K 3 + K 4 = 1 dla danego t , stąd np. K 4 = 1 − (K1 + K 2 + K 3 ) 7.2 Podstawiając 7.2 do modelu 7.1 otrzymujemy model z wyredukowaną zmienną K 4 : 33 yt = b0 + b1t + b2 K1 + b3 K 2 + b4 K 3 + b5 (1 − K1 − K 2 − K 3 ) 7.3 Po uporządkowaniu otrzymujemy model postaci: yt = (b0 + b5 ) + b1t + (b2 − b5 ) K1 + (b3 − b4 ) K 2 + (b4 − b5 ) K 3 7.4 Dla uproszczenia zapisu można wprowadzić trochę inne oznaczenia parametrów tego modelu: yt = B0 + B1t + B2 K1 + B3 K 2 + B4 K 3 7.5 gdzie B0 = b0 + b5 B1 = b1 B2 = b2 − b5 7.6 B3 = b3 − b5 B4 = b4 − b5 Ostatecznie do estymacji modelu 7.5 wykorzystamy dane z tabeli 7.2 bez pierwszej i ostatniej kolumny, a samą estymację wykonamy przy pomocy procedury Regresja wielokrotna dostępnej w arkuszu StatystykaJG.xls . Dane szeregu były zapisane w skoroszycie Ryby.xls w Arkuszu1 w obszarze B6:F22, stąd ten obszar jest wskazany w kontrolce Obszar danych wejściowych. Pole wyboru Predykcja zostało zaznaczone, ponieważ mamy zamiar wyznaczyć przyszłe wartości szeregu. 34 W zakładce Grafika zaznaczamy pierwsze pole wyboru, co pozwoli nam na uzyskanie wykresu obserwowanych i teoretycznych wielkości połowów. Wykres ten w sposób graficzny pokazuje dobroć dopasowania modelu – w idealnej sytuacji punkty te powinny ułożyć się dokładnie na przekątnej W zakładce Badanie założeń powinniśmy zaznaczyć wszystkie trzy pola wyboru, co pozwoli nam na sprawdzenie poprawności wyboru trendu liniowego (nie będziemy sprawdzać poprawności modelu z uwagi na zmienne dychotomiczne – są to zmienne dwuwartościowe, a więc inny model niż liniowy nie wchodzi w rachubę i badanie poprawności ich występowania w modelu będzie wykonane bezpośrednio w metodzie regresji krokowej). 35 Badanie normalności reszt losowych oraz badanie braku autokorelacji pozwala na sprawdzenie jednego z ważnych założeń metody najmniejszych kwadratów – jeżeli reszty są normalne i nie występuje autokorelacja, to oceny parametrów modelu są nieobciążone. Inaczej mówiąc, model może być wykorzystany do prognozowania, jeżeli oczywiście uzyskaliśmy zakładaną doboroć dopasowania modelu. Po akceptacji przycisku OK. przechodzimy do kolejnego okna dialogowego, w oknie tym określamy rolę zmiennych w modelu. Kolejny klik OK. uruchamia proces estymacji modelu metodą regresji krokowej. Poniżej okno dialogowego pokazujące rezultaty pierwszego kroku – w modelu zostały uwzględnione wszystkie zmienne wyściowe. Jak widzimy model z czterema zmiennymi ( t , K1 , K 2 , K 3 ) jest istotny statystycznie, p-value dla H 0 : B1 = B2 = B3 = B4 = 0 musimy odrzucić na rzecz hipotezy alternatywnej. W lewym dolnym narożniku mamy wyniki weryfikacji hipotez szczegółowych 36 H 0 : B1 = 0, ...., H 0 : B4 = 0 . Jak widzimy procedura wskazała zmienną K1 jako tą, dla której p-value osiągnęło największą wartość (dokładniej jest to p-value dla H 0 : B2 = 0 ), tym samym ta zmienna powinna być usunięta z modelu w tym kroku. Wystarczy w tym celu wykonać klik przycisku Usuń zmienną i przelicz model. Poniżej okno dialogowego wyników kolejnego kroku regresji krokowej, tym razem w modelu były tylko trzy zmienne ( t , K 2 , K 3 ) , jak widzimy model jest oczywiście istotny statystycznie, wszystkie trzy zmienne muszą pozostać w modelu (p-value dla hipotez szczegółowych jest mniejsze od umownego 0,05), a spadek współczynnika determinacji jest minimalny. Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji. W jego trakcie będą pojawiały się okna dialogowe z pytaniem, czy jakieś badanie ma być wykonane. W pokazanej sytuacji odpowiadamy pozytywnie na pytanie, czy ma być zweryfikowana hipoteza o poprawności doboru modelu względem zmiennej t . 37 Na kolejne dwa pytania o zweryfikowanie poprawności modelu względem zmiennych dychotomicznych K 2 i K 3 odpowiadamy negatywnie. Po kliknięciu drugi raz przycisku Nie do nowego arkusza wyprowadzane są wszystkie wyniki obliczeń. Ich analizę powinniśmy zacząć od prześledzenia weryfikacji hipotez związanych z weryfikacją założeń. W obszarze kolumn M-P mamy zwrócone wyniki weryfikacji zaznaczonych wcześniej założeń, pierwsze z nich dotyczą badania poprawności doboru modelu względem zmiennej czasowej t . Użyty został test serii, jak widzimy empiryczna liczba serii reszt losowych (równa 8) znajduje się między krytycznymi liczbami serii (odpowiednio 4 i 11), tym samym nie mamy podstaw do odrzucenia hipotezy, że zmienna t powinna wystąpić w pierwszej potędze (inaczej mówiąc, że trend zjawiska jest liniowy). Kolejne dwa wyniki dotyczą weryfikacji hipotez odpowiednio o normalności reszt losowych oraz o braku autokorelacji. Jak widzimy w obu przypadkach nie mamy podstaw do odrzucenia hipotez zerowych. 38 Reasumując oznacza to, że zostały spełnione wszystkie wymagane założenia metody najmniejszych kwadratów, tym samym uzyskane oceny cząstkowych współczynników regresji są nieobciążone. Możemy teraz spojrzeć na wykres pokazujący teoretyczne i obserwowane wartości zmiennej zależnej. Jak widzimy, punkty te dość dobrze układają się na przekątnej, co świadczy o dobrym dopasowaniu modelu. Wartości teoretyczne i obserwowane zmiennej zależnej 22 19 16 14 11 8 7 10 13 17 20 23 Od komórki A1 zwracane są wyniki estymacji parametrów modelu wraz z ich błędami standardowymi, dolną i górną granicą 95% przedziału ufności dla prawdziwej wartości danego współczynnika, wartością empiryczną statystyki t-Studenta oraz krytycznym poziomem istotności dla weryfikacji hipotezy, że dany współczynnik równy jest zero. 39 Jak oceny cząstkowych współczynników regresji mogą być zinterpretowane? Zobaczmy to na przykładzie oceny współczynnika Bˆ1 = bˆ1 = 0,40 . Ocena ta wyznaczona jest z błedem ±0,05 , co oznacza, że gdybyśmy uznali, że prawdziwy współczynnik regresji stosjący przy zmiennej t jest równy 0,40, to popełniamy błąd ±0,05 . Wykorzystując dolną i górną granicę przedziału ufności możemy powiedzieć, że z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że prawdziwa wartość tego współczynnika jest nie mniejsza niż 0,29, ale nie większa niż 0,50. Hipoteza H 0 : B1 = 0 jest weryfikowana wobec alternatywy H1 : B1 ≠ 0 przy pomocy testu t-Studenta. Wartość empiryczna tej statystyki jest równa: 0,40 = 8,40 (wynik 8,40 wynika z dokładności wyświetlenia licznika i 0,05 mianownika z dokładnością jedynie do dwóch miejsc). temp. = Krytyczny poziom istotności dla H 0 przy alternatywie H1 jest równy 0,00 (z dokładnością do dwóch miejsc), a więc jest mniejszy od umownego α = 0,05 , tym samym odrzucamy H 0 na korzyść H1 . Przy pomocy testu F-Fishera metodą analizy wariancji weryfikowana jest hipoteza o istotności regresji wielokrotnej. Jak widzimy p-value dla tej hipotezy jest mniejsze od umownego alfa, tym samym hipotezę zerową odrzucamy wnioskując, że istnieje istotny związek funkcyjny między wielkością połowów ryb a zmiennymi uwzględnionymi w modelu. Kolejne zwrócone dwie charakterystyki to współczynnik korelacji oraz współczynnik determinacji równy 95,5%. Możemy nadać temu współczynnikowi następującą interpretację: zmienność wielkości połowu ryb w 95,5% jest wyjaśniona zmiennymi niezależnymi uwzględnionymi w modelu funkcji regresji. Poniżej obu współczynników wyprowadzona jest macierz odwrotna niezbędna do wykonania prognozy, którą wykonamy przy pomocy procedury Prognozowanie z arkusza StatystykaJG.xls . Przed wywołaniem tej procedury musimy w tym arkuszu, do którego zostały zwrócone wyniki estymacji modelu przygotować obszar wartości zmiennych niezależnych, dla których chcemy wyznaczyć teoretyczne wartości. Ja zapisałem potrzebne dane w obszarze C51:E59, są to dane empiryczne z ostatniego roku badań (2006) oraz kolejne cztery kwartały 2007 roku, w sumie będziemy wyznaczać teoretyczne wielkości połowu ryb za okres dwóch lat. Pokazany niżej obszar nie zawiera danych odpowiadających zmiennej dychotomicznej K1 , ponieważ zmienna ta ostatecznie nie znalazła się w modelu. 40 Możemy już wywołać procedurę Prognozowanie i zaznaczyć wymagane przez nią obszary danych. Klik przycisku OK. wyprowadza wyniki prognozy na prawo od obszaru zmiennych niezależnych. Dla potrzeb zrobienia wykresu obserwowane wielkości połowów ryb zostały przeniesione z obszaru A51:A55 do obszaru M51:M55, co pozwoliło na przygotowanie pokazanego niżej wykresu. 41 Z wykresu widać, jak dobre jest dopasowanie wartości regresyjnych w kwartałach roku 2006, a dla okresu prognozy (rok 2007) mamy powtórzony schemat przebiegu badanego zjawiska. Przykładowo, dla pierwszego kwartału roku 2007 możemy podać taką interpretację uzyskanych wyników: Z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że wielkość połowu ryb będzie nie mniejsza niż 12,81 jednostek, a nie większa niż 17.20 jednostek. 42 Zadanie 7.2. Na przestrzeni lat 2004-2007 obserwowano miesięczne obroty (w zł) pewnej firmy. Zgromadzone dane empiryczne chcemy wykorzystać do zbudowania takiego modelu, który pozwoli nam na wyznaczenie prognozowanej wielkości obrotów w 2008 roku. Tabela 7.2 miesiac 1 2 3 4 5 6 7 8 9 10 11 12 2003 13310 13351 15361 15647 14217 13811 14011 13790 14778 17698 16093 19257 2004 11958 11585 16527 15009 14924 13184 13859 13204 14929 17701 18959 23042 2005 13385 12105 17901 14703 13549 16055 14776 16551 18462 23723 23521 24666 2006 16957 16093 19285 20352 18628 17134 17896 21899 23071 26067 28414 29348 2007 17307 17172 21001 22285 22180 18879 18914 20230 20809 27307 26205 32061 Dane z tabeli 7.2 musimy zapisać w takiej postaci, aby reprezentowały szereg czasowy. Wystarczy w tym celu dane dotyczące poszczególnych lat umieścić jedne po drugich oraz dodać zmienną reprezentującą czas. Poniżej początkowy i końcowy fragment tak przygotowanych danych. 43 Podobnie jak w poprzednim zadaniu powinniśmy sporządzić wykres szeregu czasowego, pozwoli nam to na zorientowanie się co do występowania trendu, jego charakteru oraz pozwoli ocenić występowanie wahań okresowych. obroty 35000 30000 25000 20000 15000 10000 5000 0 10 20 30 40 50 60 70 Myślę, że budowę modelu tego zjawiska można rozpocząć od estymacji funkcji regresji postaci: 11 yt = b0 + b1t + ∑b j + 1M j 7.7 j =1 gdzie zmienne M j ( j = 1, 2, ..., 11) są zmiennymi dychotomicznymi opisującymi wpływ poszczególnych miesięcy (po wyredukowaniu miesiąca grudnia), a t jest zmienną reprezentującą czas. Proszę zauważyć, że model 7.7 zakłada liniowy trend modyfikowany wpływem zmiennych dychotomicznych. Na dalszym etapie prac zobaczymy, czy to założenie (o liniowym trendzie) da się utrzymać, czy być może trzeba będzie wprowadzić dodatkowe składniki tak, aby otrzymać nieliniowy trend. Ta uwaga wynika z faktu, że dość trudno oczekiwać, aby trend tego zjawiska był liniowy w dość dużym interwale czasowym. Raczej trzeba będzie wprowadzić taką modyfikację, aby funkcja trendu miała charakter funkcji o kształcie wypukłym, czyli takiej, której wartości rosną coraz wolniej w miarę upływu czasu. Jak wcześniej powiedziałem do tego problemu wrócimy wtedy, gdy przyjęcie założenia o liniowym trendzie okaże się błędne. Do estymacji modelu 7.7 wykorzystamy procedurę Regresja wielokrotna z arkusza StatystykaJG.xls oraz dane zapisane w pliku Obroty.xls w arkuszu Dane. Tym razem nie będziemy także samodzielnie tworzyć zmiennych dychotomicznych, po prostu wykorzystamy możliwości tej procedury do utworzenia takich danych. 44 W pokazanym niżej oknie dialogowym procedury Regresja wielokrotna w zakładce dane wyjściowe mamy wskazany obszar danych wyjściowych, zaznaczone pole Predykcja, a na potrzeby zmiennych dychotomicznych zostało zaznaczane pole Tak/Nie w grupie Zmienne dychotomiczne. Zaznaczenie tego pola spowodowało wyświetlenie kontrolki przewijaka Liczba podokresów, gdzie ustawiamy 12 jako liczbę miesięcy. Podobnie jak w innych estymacjach w zakładce Badanie założeń zaznaczamy wszystkie trzy pola wyboru. Pierwsze z nich pozwoli nam na rozstrzygnięcie, czy trend zjawiska jest liniowy, pozostałe dwa weryfikują istotne dla metody najmniejszych kwadratów założenia. Po akceptacji przycisku OK. procedura tworzy zmienne dychotomiczne, a następnie otwiera kolejne okno dialogowe w celu określenia roli poszczególnych zmiennych w modelu. Poniżej pokazane jest to okno na tle danych oryginalnych i utworzonych automatycznie zmiennych dychotomicznych, które zostały oznaczone symbolem D( j ) . 45 Klik przycisku OK. uruchamia proces doboru modelu metodą regresji krokowej wyświetlając okno dialogowe po zakończeniu pierwszego kroku (wszystkie zmienne w modelu). Okazuje się, że model jest istotny statystycznie oraz że wszystkie zmienne niezależne są potrzebne. Pozostaje nam tylko akceptacja przycisku Model jest dobrany, co uruchomi proces wyprowadzania wyników estymacji. W trakcie wyprowadzania wyników estymacji będziemy pytani o to, czy wykonać weryfikację poprawności doboru modelu względem poszczególnych zmiennych niezależnych. Odpowiadamy pozytywnie tylko w przypadku zmiennej czas. 46 Po wyprowadzeniu wszystkich wyników powinniśmy sprawdzić spełnienie poszczególnych założeń. Analiza wyników z obszaru kolumn Q-U pokazuje, że pozostawienie w modelu zmiennej czasowej w pierwszej potędze (trend liniowy) jest złym rozwiązaniem i powinniśmy poszukać innych rozwiązań (wspominałem o nich wcześniej). Mamy także problem z autokorelacją, dla modelu 7.7 jest ona istotna statystycznie i powinniśmy podjąć takie działania, które doprowadzą do jej usunięcia. 47 Myślę, że dobrym rozwiązaniem będzie najpierw taka modyfikacja modelu (z uwagi na zmienną czas), aby mieć ten problem rozwiązany. Być może poprawa modelu spowoduje także zmianę w ocenie występowania autokorelacji. Dla zapewnienia kształtu wypukłego funkcji trendu możemy próbować wprowadzić do modelu takie zmienne jak: t 2 , ln(t ), t . Poniżej widok arkusza z kolumnami O, P i Q, gdzie takie zmienne wprowadzono (etykiety w wierszu 3 i stosowne formuły od wiersza 4). Po wywołaniu procedury Regresja wielokrotna w zakładce Dane wejściowe wskazujemy obszar danych obejmujący kolumny B-Q (a więc także dane dychotomiczne), tym samym nie możemy uaktywnić pola wyboru Zmienne dychotomiczne (bo już je mamy). Podobnie jak w poprzednich przypadkach zaznaczamy (ewentualnie) wykonanie grafiki oraz badanie wszystkich trzech założeń. Poniżej widok okna dialogowego po zakończeniu procesu doboru modelu, podobnie jak w poprzednim rozwiązaniu model jest istotny statystycznie oraz wszystkie zmienne wyjściowe okazały się potrzebne. Klik przycisku OK. uruchomi proces wyprowadzania 48 wyników estymacji, w jego trakcie odpowiadamy pozytywnie na pytanie o weryfikację założenia o poprawności doboru modelu dla wszystkich zmiennych niedychotomicznych. Po wyprowadzeniu wyników sprawdzamy wyniki weryfikacji poszczególnych założeń, Poniżej pierwszy fragment tych wyników, okazuje się, że model jest poprawnie określony względem takich zmiennych jak czas i kwadrat czasu. Na kolejnej stronie pokazany jest fragment arkusza z wynikami weryfikacji poprawności doboru modelu względem takich zmiennych jak logarytm czasu czy pierwiastek kwadratowy z czasu. W każdym z tych przypadków model został dobrze określony. 49 Widzimy także, że jest spełnione założenie o normalności reszt losowych, ale w dalszym ciągu mamy problem ze spełnieniem założenia o braku autokorelacji. Współczynnik autokorelacji I rzędu jest znacznie mniejszy niż poprzednio, ale na tyle duży, że hipotezę o braku autokorelacji musimy odrzucić. Jednym z możliwych rozwiązań, które może doprowadzić do usunięcia autokorelacji jest zastosowanie metody Cochrana-Orcutta. Metoda ta polega na przekształceniu danych wyjściowych wg następujących wzorów: y1* = y1 ⋅ 1 − r 2 , x1*j = x1 j ⋅ 1 − r 2 dla j = 1, ..., k yi* = yi − r ⋅ yi −1 , xij* = xij − r ⋅ x(i −1) j dla i = 2, ..., n; j = 1, ..., k 7.8 gdzie r jest współczynnikiem korelacji reszt ei , ei −1 . Na tak przekształconych danych ponownie estymowany jest model regresji i badana jest hipoteza o istotności autokorelacji. Jeżeli autokorelacja jest w dalszym ciągu istotna, to 50 dane są ponownie transformowane – tak długo, dopóki nie zostanie usunięta autokorelacja. Metoda Cochrana-Orcutta jest przykładem jednej z wersji tzw. uogólnionej metody najmniejszych kwadratów. Poniżej fragment arkusza OrcuttaDane z transformacją danych wyjściowych wg wzorów 7.8. Tak przekształcone dane wykorzystujemy do estymacji modelu funkcji regresji, po jej wykonaniu okazuje się, że wszystkie założenia są już spełnione. Poniżej widok fragmentu arkusza WynikiOrcutta z wynikami weryfikacji hipotez o normalności reszt losowych oraz o braku autokorelacji. Model jest stosunkowo dobrze dobrany (współczynnik determinacji = 90,7%), możemy więc wykonać prognozę przyszłych obrotów. Wartości teoretyczne i obserwowane zmiennej zależnej 22200 18780 15360 11940 8520 5100 6100 9780 13460 17140 20820 24500 51 Z uwagi na wykonaną transformację Cochrana-Orcutta prognoza musi być wykonana dla wartości zmiennej czasowej w pełnym zakresie obserwacji powiększonym o okres prognozy, czyli t = 1, 2, ...., 60, 61, ...., 72 . Musimy tak postąpić z uwagi na potrzebę retransformacji danych oraz fakt, że wzory 7.8 mają charakter wzorów rekurencyjnych. Retransormacja zostanie wykonana wg następujących wzorów: yˆ1* yˆ1 = 1− r 2 , yˆ i = yˆ i* + r ⋅ yˆ i dla i = 2, 3, ...., n 7.9 W arkuszu WynikiOrcutta zainteresowany Czytelnik znajdzie transformowane wyniki prognozy jak i dane retransformowane wg wzorów 7.9, ja ograniczę się do wykresu pokazującego za okres od t = 1 do t = 72 wartości regresyjnych wraz z dolną i górną granicą predykcji. Za okres od t = 1 do t = 60 pokazane są również obserwowane wielkości obrotów. 40000 35000 30000 Y teor. 25000 Dgpred. Ggpred. 20000 obroty 15000 10000 5000 0 10 20 30 40 50 60 70 80 Poniżej pokazany jest fragment arkusza zawierający liczbowe wartości przewidywanych obrotów w kolejnych miesiącach 2008 roku. Liczby te możemy interpretować analogicznie jak w poprzednim zadaniu. Przykładowo, dla stycznia 2008 roku możemy sformułować następujący wniosek: z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że wielkość obrotów będzie nie mniejsza niż 15991,61 zł, a nie większa niż 25216,93 zł. 52 40000 35000 30000 Y teor. 25000 Dgpred. Ggpred. 20000 15000 10000 60 62 64 66 68 70 72 74 53 8. Modele autoregresyjne Zadanie 8.1. W tabeli 8.1 podane są miesięczne średnie ceny 1 hektolitra mleka obserwowane na przestrzeni lat 1993-2004. Tabela 8.1 mc\rok I II III IV V VI VII VIII IX X XI XII 1993 23,63 23,69 23,65 23,66 23,11 22,97 22,88 22,87 22,87 23,36 23,95 24,45 1994 24,52 24,60 24,71 25,02 25,20 25,27 25,43 26,22 28,08 30,16 33,43 36,63 1995 38,77 40,77 42,02 43,11 43,21 42,94 42,63 43,39 44,89 47,11 48,95 50,58 1996 51,25 51,35 51,55 51,29 50,56 50,26 49,64 49,96 50,85 52,58 54,18 55,75 1997 56,70 57,35 57,44 57,70 57,65 56,91 56,59 56,81 58,29 60,68 63,19 64,30 1998 63,69 64,24 65,45 64,64 62,14 59,15 57,50 57,60 58,68 59,31 60,45 61,02 1999 60,63 59,99 60,40 60,33 58,43 57,53 56,72 57,35 59,53 63,54 67,98 71,36 2000 72,97 74,78 76,64 77,29 76,47 75,71 75,62 76,03 77,88 79,97 82,73 84,38 2001 82,23 82,43 81,20 79,66 77,28 75,55 74,47 73,81 74,79 76,51 79,50 81,66 2002 81,12 79,91 78,60 75,99 70,16 68,41 66,42 66,44 66,74 69,36 71,24 73,63 2003 73,94 73,42 73,21 72,04 69,28 67,61 66,77 67,02 69,01 72,16 77,30 79,36 2004 79,49 79,92 80,08 80,96 82,25 84,04 86,13 87,45 89,01 92,34 95,77 98,27 Na podstawie tych danych będziemy chcieli skonstruować taki model kształtowania się ceny mleka, który pozwoli nam na wykonanie prognozy ceny mleka w pierwszym kwartale kolejnego roku. Dane powyższe tworzą oczywiście szereg czasowy, wystarczy je po prostu odpowiednio uporządkować oraz wprowadzić zmienną reprezentującą czas. Poniżej pokazany jest fragment arkusza Dane w skoroszycie Mleko.xls, tak uporządkowane dane tworzą już szereg czasowy. 54 Dane szeregu możemy także przedstawić graficznie, mamy wtedy możliwość oszacowania trendu i jego charakteru, jak i występowania wahań okresowych. cena y = 0,4303x + 28,272 Tytuł wykresu R2 = 0,852 Liniowy (cena) 120,00 100,00 80,00 60,00 40,00 20,00 0,00 - 20 40 60 80 100 120 140 160 W naszym przypadku w analizowanym szeregu niewątpliwie występuje trend zjawiska, do jego opisania prawdopodobnie wystarczy funkcja liniowa. Na pokazanym wykresie linia trendu jest już wstawiona, widzimy także dość dużą wartość współczynnika determinacji. Oczywiście wykorzystanie do prognozowania tylko trendu liniowego nie wchodzi w rachubę, musimy zaproponować taki model, który będzie znacznie lepiej dopasowany. Formalnie, z uwagi na obserwacje roczne z podokresami miesięcznymi można by próbować wykorzystać znane z poprzedniego rozdziału zmienne dychotomiczne opisujące wpływ poszczególnych miesięcy. Próba estymacji modelu 7.7 kończy się jednak niepowodzeniem – w kolejnych krokach regresji krokowej usuwane są wszystkie zmienne dychotomiczne i zostajemy jedynie z trendem liniowym. Prawdę powiedziawszy można się było takiego wyniku spodziewać, bowiem na pokazanym wyżej wykresie szeregu nie obserwujemy regularnych zmian okresowych w cyklach rocznych z podokresami miesięcznymi. Jednym z możliwych rozwiązać jest zastosowanie modelu autoregresyjnego, czyli takiego, w którym po obu stronach znaku równości występuje ta sama zmienna (tu cena 1 hektolitra mleka), ale z pewnym przesunięciem czasowym. Formalne możemy tego typu model przedstawić jako: yt = b0 + b1t + b2 yt −1 + b3 yt − 2 + ... + bk +1 yt − k 8.1 gdzie yt −1 , yt − 2 , ..., yt − k oznaczają obserwacje zmiennej zależnej opóźnione o 1, 2, …, k okresów. Wielkość parametru k (opóźnienia) nie jest z góry znana, będziemy ją musieli ustalić już bezpośrednio w trakcie estymacji modelu. W arkuszu DaneDoModelu skoroszytu Mleko.xls zostały przygotowane dane pozwalające na estymację modelu z maksymalnym opóźnieniem sześciu miesięcy. 55 Na pokazanym wyżej fragmencie arkusza widoczny jest wiersz 8, został on dodany do oryginalnych danych z uwagi na wymogi procedury Regresja wielokrotna, procedura ta wymaga bowiem, aby każda kolumna danych zaczynała się etykietą z nazwą danej cechy, stąd powtórzenie w tym wierszu nazw z wiersza nr 1. Po uruchomieniu procedury zaznaczamy obszar danych oraz pole wyboru Predykcja. W zakładce Grafika zaznaczymy pierwsze pole wyboru, a w zakładce Badanie założeń wszystkie trzy pola, tak jak na pokazanych niżej zrzutach ekranowych. 56 Po akceptacji przycisku OK. określamy rolę poszczególnych zmiennych w modelu, a następnie poprzez klik przycisku OK. uruchamiamy proces doboru modelu metodą regresji krokowej. 57 W kolejnych krokach usuwamy z modelu tę zmienną, której wpływ na kształtowanie się ceny 1 hektolitra mleka okazał się najmniejszy. 58 Ostatecznie w modelu pozostały tylko trzy zmienne opóźnione, warto jednak zauważyć, że model jest bardzo dobrze dopasowany do danych empirycznych (bardzo duża wartość współczynnika determinacji). Jeżeli tylko będą spełnione założenia, to udało nam się zaproponować dobry model do prognozowania przyszłych wartości. Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji, w jego trakcie będziemy pytani o to, czy ma być wykonana weryfikacja hipotezy o poprawności doboru modelu względem danej zmiennej. Na trzy tego typu pytania odpowiadamy pozytywnie. 59 Po wyprowadzeniu wyników (do nowego arkusza) możemy przejść do kolumn MQ, znajdziemy tu wyniki wszystkich weryfikacji. 60 Wynika z nich, że wszystkie założenia są spełnione, już wcześniej mówiłem, że model jest bardzo dobrze dopasowany do danych, co znajduje potwierdzenie na pokazanym niżej wykresie. Wartości teoretyczne i obserwowane zmiennej zależnej 99 84 69 53 38 23 22 37 53 68 84 99 Poniżej mamy fragment arkusza z wynikami estymacji, potwierdzają one istotność statystyczną modelu oraz dobroć jego dopasowania. Oceny współczynników regresji, zmienność resztowa w analizie wariancji oraz elementy macierzy odwrotnej wykorzystamy w kolejnym kroku do wykonania prognozy. Warto jeszcze spojrzeć na historię doboru modelu, możemy tu zaobserwować co się działo na poszczególnych etapach regresji krokowej. 61 Poozstalo nam już tylko wykonanie prognozy. Zaczynamy od przygotowania danych (zmiennych odgrywających rolę zmiennych objaśniających). Powiedzmy, że chcemy wyznaczyć teoretyczne wartości zmiennej objaśnianej dla kolejnych miesięcy roku 2004 (dla porównania obserowanych cen i teoretycznych) oraz dla pierwszego kwartału kolejnego roku (rzeczywista prognoza). Poniżej fragment arkusza MlekoWyniki z danymi potrzebnymi dla wykonania prognozy. Proszę zauważyć, że brakuje nam trzech obserwacji zmiennych objaśniających: na tym etapie nie wiemy, jaka wartość powinna być wpisana do komórek C388 ( y145 ), C389 ( y146 ) oraz D389 ( y145 ). Jedyne wyjście, to wykonywanie prognozy sekwencyjnie, najpierw dla t = 145 , uzyskaną wartość regresyjną możemy wtedy wpisać do C388 i D389, a następnie dla t = 146 , co pozwoli nam na wpisanie wartości regresyjnej do C389. W kolejnym kroku będziemy już mogli wykonać prognozę dla t = 147 . Procedura Prognozowanie ma możliwość wykonania tych obliczeń niejako w jeednym kroku, wystarczy dostarczyć do niej informację, że w modelu występują zmienne opóźnione oraz określić wielkość tego opóźnienia. 62 Po ostatnim OK. procedura wyprowadza wyniki prognozy umieszczając je na prawo od obszaru danych wykorzystanych do prognozy. 63 Na pokazanym wyżej fragmencie arkusza MlekoWyniki w kolumnie M umieściłem, dla potrzeb wykonania wykresu, obserwowane ceny mleka w 2004 roku. Dane z kolumn B, F, K, L i M zostały wykorzystane dla wykonania poniższego wykresu. 105,00 Y teor. 100,00 Dgpred. Ggpred. 95,00 Y(t) 90,00 85,00 80,00 75,00 70,00 132 134 136 138 140 142 144 146 148 Mamy na nim teoretyczne i obserwowane ceny mleka w kolejnych miesiącach 2004 roku oraz prognozowane ceny mleka w pierwszych trzech miesiącach 2005 roku. Żółta i czerwona linia pokazuje górną i dolną granicę predykcji, czyli przedział ufności pokrywający z prawdopodobieństwem 0,95 rzeczywistą cenę mleka w tych miesiącach. Przykładowo dla stycznia 2005 roku możemy sformułować taką interpretację: z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że cena 1 hektolitra mleka będzie nie mniejsza niż 97,67 zl, ale nie wieksza niż 101,76 zł.