7. Zmienne dychotomiczne

Transkrypt

30
7. Zmienne dychotomiczne
Zadanie 7.1. Na podstawie poniższych obserwacji przedstawiających wielkość
połowów ryb w kwartałach lat 2003-2006 w pewnym gospodarstwie rybackim chcemy
zbudować model tendencji rozwojowej, a następnie wyznaczyć prognozowaną wielkość
połowu ryb w kolejnym, 2007 roku.
Kw1
Kw2
Kw3
Kw4
r2003
8
11
16
10
r2004
10
12
18
13
r2005
12
15
19
12
r2006
13
14
22
15
Obserwacje powyższe tworzą szereg czasowy, wystarczy je uporządkować
chronologicznie wg zmiennej czasowej t o wartościach 1, 2, …16 oznaczających kolejne
pomiary.
kwartał
Kw1
Kw2
Kw3
Kw4
Kw1
Kw2
Kw3
Kw4
Kw1
Kw2
Kw3
Kw4
Kw1
Kw2
Kw3
Kw4
yt
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
8
11
16
10
10
12
18
13
12
15
19
12
13
14
22
15
Dane z dwóch ostatnich kolumn mogą być zaprezentowane jako punkty połączone
prostymi w układzie 0XY, gdzie na osi x-ów odłożymy wartości zmiennej czasowej t , a na
osi y-ów wartości
yt .
Uzyskany wykres szeregu czasowego pozwala na określenie, czy w szeregu
występuje trend zjawiska i jaką funkcją może być opisany. Wykres pozwala także na
31
określenie, czy w szeregu występują wahania okresowe oraz na określenie typu szeregu
czasowego – addytywny lub multiplikatywny.
yt
25
20
15
10
5
0
2
4
6
8
10
12
14
16
18
W naszym przypadku wyraźnie widać, że w szeregu czasowym występuje trend
liniowy z wahaniami okresowymi z podokresami kwartalnymi. Poniżej pokazany jest
kolejny wykres szeregu czasowego z pokazanym trendem liniowym. Trend ten został
oszacowany w arkuszu Excel poprzez wywołanie standardowej procedury Dodaj linię
trendu.
Szereg czasowy połowów ryb z trendem liniowym
25
y = 0,4294x + 10,1
R2 = 0,3119
20
15
10
5
0
2
4
6
8
10
12
14
16
18
Trend liniowy informuje nas o tym, że w klejnych kwartałach obserwujemy
systematyczny liniowy wzrost średniej wielkości połowów. Współczynnik regresji
bˆ = 0,4294 oznacza, że średniokwartalnie wielkość połowów wzrasta o 0,4294 jednostek.
Z uwagi na występujące wahania okresowe model zawierający tylko trend jest zbyt
mało precyzyjny, aby mógł być wykorzystany do prognozowania tego zjawiska.
32
Wyjściowy model zawierający trend liniowy musimy rozszerzyć o zmienne, które
mogą opisać wpływ poszczególnych kwartałów. Dość prostym rozwiązaniem jest wprowadzenie zmiennych dychotomicznych, które będą przyjmować wartość 1 wtedy, gdy
obserwacja dotyczy danego kwartału oraz wartość 0 w przeciwnym wypadku.
Poniżej dane szeregu opisującego wielkość połowu ryb uzupełnione o zmienne
K i (i = 1, 2, 3, 4) reprezentujące poszczególne kwartały.
Tabela 7.2
kw
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
yt
K1
K2
K3
K4
8
11
16
10
10
12
18
13
12
15
19
12
13
14
22
15
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
Dane te można wykorzystać do estymacji modelu postaci:
yt = b0 + b1t + b2 K1 + b3 K 2 + b4 K 3 + b5 K 4
7.1
ale bezpośrednia estymacja parametrów tak określonego modelu nie jest jednak możliwa
(nie istnieje jednoznaczne rozwiązanie układu równań normalnych).
Problem wynika z faktu, że dla każdej obserwacji suma zmiennych dychotomicznych jest równa 1, co oznacza, że dowolna zmienna dychotomiczna jest liniową
kombinacją pozostałych.
K1 + K 2 + K 3 + K 4 = 1 dla danego t ,
stąd np. K 4 = 1 − (K1 + K 2 + K 3 )
7.2
Podstawiając 7.2 do modelu 7.1 otrzymujemy model z wyredukowaną zmienną K 4 :
33
yt = b0 + b1t + b2 K1 + b3 K 2 + b4 K 3 + b5 (1 − K1 − K 2 − K 3 )
7.3
Po uporządkowaniu otrzymujemy model postaci:
yt = (b0 + b5 ) + b1t + (b2 − b5 ) K1 + (b3 − b4 ) K 2 + (b4 − b5 ) K 3
7.4
Dla uproszczenia zapisu można wprowadzić trochę inne oznaczenia parametrów
tego modelu:
yt = B0 + B1t + B2 K1 + B3 K 2 + B4 K 3
7.5
gdzie
B0 = b0 + b5
B1 = b1
B2 = b2 − b5
7.6
B3 = b3 − b5
B4 = b4 − b5
Ostatecznie do estymacji modelu 7.5 wykorzystamy dane z tabeli 7.2 bez pierwszej i
ostatniej kolumny, a samą estymację wykonamy przy pomocy procedury Regresja
wielokrotna dostępnej w arkuszu StatystykaJG.xls .
Dane szeregu były zapisane w skoroszycie Ryby.xls w Arkuszu1 w obszarze
B6:F22, stąd ten obszar jest wskazany w kontrolce Obszar danych wejściowych. Pole
wyboru Predykcja zostało zaznaczone, ponieważ mamy zamiar wyznaczyć przyszłe
wartości szeregu.
34
W zakładce Grafika zaznaczamy pierwsze pole wyboru, co pozwoli nam na
uzyskanie wykresu obserwowanych i teoretycznych wielkości połowów. Wykres ten w
sposób graficzny pokazuje dobroć dopasowania modelu – w idealnej sytuacji punkty te
powinny ułożyć się dokładnie na przekątnej
W zakładce Badanie założeń powinniśmy zaznaczyć wszystkie trzy pola wyboru, co
pozwoli nam na sprawdzenie poprawności wyboru trendu liniowego (nie będziemy
sprawdzać poprawności modelu z uwagi na zmienne dychotomiczne – są to zmienne
dwuwartościowe, a więc inny model niż liniowy nie wchodzi w rachubę i badanie
poprawności ich występowania w modelu będzie wykonane bezpośrednio w metodzie
regresji krokowej).
35
Badanie normalności reszt losowych oraz badanie braku autokorelacji pozwala na
sprawdzenie jednego z ważnych założeń metody najmniejszych kwadratów – jeżeli reszty
są normalne i nie występuje autokorelacja, to oceny parametrów modelu są nieobciążone.
Inaczej mówiąc, model może być wykorzystany do prognozowania, jeżeli oczywiście
uzyskaliśmy zakładaną doboroć dopasowania modelu.
Po akceptacji przycisku OK. przechodzimy do kolejnego okna dialogowego, w
oknie tym określamy rolę zmiennych w modelu.
Kolejny klik OK. uruchamia proces estymacji modelu metodą regresji krokowej.
Poniżej okno dialogowego pokazujące rezultaty pierwszego kroku – w modelu zostały
uwzględnione wszystkie zmienne wyściowe.
Jak widzimy model z czterema zmiennymi ( t , K1 , K 2 , K 3 ) jest istotny statystycznie,
p-value dla H 0 : B1 = B2 = B3 = B4 = 0 musimy odrzucić na rzecz hipotezy alternatywnej.
W lewym dolnym narożniku mamy wyniki weryfikacji hipotez szczegółowych
36
H 0 : B1 = 0, ...., H 0 : B4 = 0 . Jak widzimy procedura wskazała zmienną K1 jako tą, dla
której p-value osiągnęło największą wartość (dokładniej jest to p-value dla H 0 : B2 = 0 ),
tym samym ta zmienna powinna być usunięta z modelu w tym kroku. Wystarczy w tym
celu wykonać klik przycisku Usuń zmienną i przelicz model.
Poniżej okno dialogowego wyników kolejnego kroku regresji krokowej, tym razem
w modelu były tylko trzy zmienne ( t , K 2 , K 3 ) , jak widzimy model jest oczywiście istotny
statystycznie, wszystkie trzy zmienne muszą pozostać w modelu (p-value dla hipotez
szczegółowych jest mniejsze od umownego 0,05), a spadek współczynnika determinacji
jest minimalny.
Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników
estymacji. W jego trakcie będą pojawiały się okna dialogowe z pytaniem, czy jakieś
badanie ma być wykonane. W pokazanej sytuacji odpowiadamy pozytywnie na pytanie, czy
ma być zweryfikowana hipoteza o poprawności doboru modelu względem zmiennej t .
37
Na kolejne dwa pytania o zweryfikowanie poprawności modelu względem
zmiennych dychotomicznych K 2 i K 3 odpowiadamy negatywnie.
Po kliknięciu drugi raz przycisku Nie do nowego arkusza wyprowadzane są
wszystkie wyniki obliczeń. Ich analizę powinniśmy zacząć od prześledzenia weryfikacji
hipotez związanych z weryfikacją założeń.
W obszarze kolumn M-P mamy zwrócone wyniki weryfikacji zaznaczonych
wcześniej założeń, pierwsze z nich dotyczą badania poprawności doboru modelu względem
zmiennej czasowej t . Użyty został test serii, jak widzimy empiryczna liczba serii reszt
losowych (równa 8) znajduje się między krytycznymi liczbami serii (odpowiednio 4 i 11),
tym samym nie mamy podstaw do odrzucenia hipotezy, że zmienna t powinna wystąpić w
pierwszej potędze (inaczej mówiąc, że trend zjawiska jest liniowy).
Kolejne dwa wyniki dotyczą weryfikacji hipotez odpowiednio o normalności reszt
losowych oraz o braku autokorelacji. Jak widzimy w obu przypadkach nie mamy podstaw
do odrzucenia hipotez zerowych.
38
Reasumując oznacza to, że zostały spełnione wszystkie wymagane założenia metody
najmniejszych kwadratów, tym samym uzyskane oceny cząstkowych współczynników
regresji są nieobciążone.
Możemy teraz spojrzeć na wykres pokazujący teoretyczne i obserwowane wartości
zmiennej zależnej. Jak widzimy, punkty te dość dobrze układają się na przekątnej, co
świadczy o dobrym dopasowaniu modelu.
Wartości teoretyczne i obserwowane zmiennej zależnej
22
19
16
14
11
8
7
10
13
17
20
23
Od komórki A1 zwracane są wyniki estymacji parametrów modelu wraz z ich
błędami standardowymi, dolną i górną granicą 95% przedziału ufności dla prawdziwej
wartości danego współczynnika, wartością empiryczną statystyki t-Studenta oraz
krytycznym poziomem istotności dla weryfikacji hipotezy, że dany współczynnik równy
jest zero.
39
Jak oceny cząstkowych współczynników regresji mogą być zinterpretowane?
Zobaczmy to na przykładzie oceny współczynnika Bˆ1 = bˆ1 = 0,40 . Ocena ta wyznaczona
jest z błedem ±0,05 , co oznacza, że gdybyśmy uznali, że prawdziwy współczynnik regresji
stosjący przy zmiennej t jest równy 0,40, to popełniamy błąd ±0,05 .
Wykorzystując dolną i górną granicę przedziału ufności możemy powiedzieć, że z
prawdopodobieństwem 0,95 mamy prawo oczekiwać, że prawdziwa wartość tego
współczynnika jest nie mniejsza niż 0,29, ale nie większa niż 0,50.
Hipoteza H 0 : B1 = 0 jest weryfikowana wobec alternatywy H1 : B1 ≠ 0 przy
pomocy testu t-Studenta. Wartość empiryczna tej statystyki jest równa:
0,40
= 8,40 (wynik 8,40 wynika z dokładności wyświetlenia licznika i
0,05
mianownika z dokładnością jedynie do dwóch miejsc).
temp. =
Krytyczny poziom istotności dla H 0 przy alternatywie H1 jest równy 0,00 (z
dokładnością do dwóch miejsc), a więc jest mniejszy od umownego α = 0,05 , tym samym
odrzucamy H 0 na korzyść H1 .
Przy pomocy testu F-Fishera metodą analizy wariancji weryfikowana jest hipoteza o
istotności regresji wielokrotnej. Jak widzimy p-value dla tej hipotezy jest mniejsze od
umownego alfa, tym samym hipotezę zerową odrzucamy wnioskując, że istnieje istotny
związek funkcyjny między wielkością połowów ryb a zmiennymi uwzględnionymi w
modelu.
Kolejne zwrócone dwie charakterystyki to współczynnik korelacji oraz
współczynnik determinacji równy 95,5%. Możemy nadać temu współczynnikowi
następującą interpretację: zmienność wielkości połowu ryb w 95,5% jest wyjaśniona
zmiennymi niezależnymi uwzględnionymi w modelu funkcji regresji.
Poniżej obu współczynników wyprowadzona jest macierz odwrotna niezbędna do
wykonania prognozy, którą wykonamy przy pomocy procedury Prognozowanie z arkusza
StatystykaJG.xls .
Przed wywołaniem tej procedury musimy w tym arkuszu, do którego zostały
zwrócone wyniki estymacji modelu przygotować obszar wartości zmiennych niezależnych,
dla których chcemy wyznaczyć teoretyczne wartości.
Ja zapisałem potrzebne dane w obszarze C51:E59, są to dane empiryczne z
ostatniego roku badań (2006) oraz kolejne cztery kwartały 2007 roku, w sumie będziemy
wyznaczać teoretyczne wielkości połowu ryb za okres dwóch lat.
Pokazany niżej obszar nie zawiera danych odpowiadających zmiennej dychotomicznej K1 , ponieważ zmienna ta ostatecznie nie znalazła się w modelu.
40
Możemy już wywołać procedurę Prognozowanie i zaznaczyć wymagane przez nią
obszary danych.
Klik przycisku OK. wyprowadza wyniki prognozy na prawo od obszaru zmiennych
niezależnych. Dla potrzeb zrobienia wykresu obserwowane wielkości połowów ryb zostały
przeniesione z obszaru A51:A55 do obszaru M51:M55, co pozwoliło na przygotowanie
pokazanego niżej wykresu.
41
Z wykresu widać, jak dobre jest dopasowanie wartości regresyjnych w kwartałach
roku 2006, a dla okresu prognozy (rok 2007) mamy powtórzony schemat przebiegu
badanego zjawiska.
Przykładowo, dla pierwszego kwartału roku 2007 możemy podać taką interpretację
uzyskanych wyników:
Z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że wielkość połowu ryb
będzie nie mniejsza niż 12,81 jednostek, a nie większa niż 17.20 jednostek.
42
Zadanie 7.2. Na przestrzeni lat 2004-2007 obserwowano miesięczne obroty (w zł)
pewnej firmy. Zgromadzone dane empiryczne chcemy wykorzystać do zbudowania takiego
modelu, który pozwoli nam na wyznaczenie prognozowanej wielkości obrotów w 2008
roku.
Tabela 7.2
miesiac
1
2
3
4
5
6
7
8
9
10
11
12
2003
13310
13351
15361
15647
14217
13811
14011
13790
14778
17698
16093
19257
2004
11958
11585
16527
15009
14924
13184
13859
13204
14929
17701
18959
23042
2005
13385
12105
17901
14703
13549
16055
14776
16551
18462
23723
23521
24666
2006
16957
16093
19285
20352
18628
17134
17896
21899
23071
26067
28414
29348
2007
17307
17172
21001
22285
22180
18879
18914
20230
20809
27307
26205
32061
Dane z tabeli 7.2 musimy zapisać w takiej postaci, aby reprezentowały szereg
czasowy. Wystarczy w tym celu dane dotyczące poszczególnych lat umieścić jedne po
drugich oraz dodać zmienną reprezentującą czas. Poniżej początkowy i końcowy fragment
tak przygotowanych danych.
43
Podobnie jak w poprzednim zadaniu powinniśmy sporządzić wykres szeregu
czasowego, pozwoli nam to na zorientowanie się co do występowania trendu, jego
charakteru oraz pozwoli ocenić występowanie wahań okresowych.
obroty
35000
30000
25000
20000
15000
10000
5000
0
10
20
30
40
50
60
70
Myślę, że budowę modelu tego zjawiska można rozpocząć od estymacji funkcji
regresji postaci:
11
yt = b0 + b1t +
∑b
j + 1M j
7.7
j =1
gdzie zmienne M j ( j = 1, 2, ..., 11) są zmiennymi dychotomicznymi opisującymi wpływ
poszczególnych miesięcy (po wyredukowaniu miesiąca grudnia), a t jest zmienną
reprezentującą czas. Proszę zauważyć, że model 7.7 zakłada liniowy trend modyfikowany
wpływem zmiennych dychotomicznych. Na dalszym etapie prac zobaczymy, czy to
założenie (o liniowym trendzie) da się utrzymać, czy być może trzeba będzie wprowadzić
dodatkowe składniki tak, aby otrzymać nieliniowy trend. Ta uwaga wynika z faktu, że dość
trudno oczekiwać, aby trend tego zjawiska był liniowy w dość dużym interwale czasowym.
Raczej trzeba będzie wprowadzić taką modyfikację, aby funkcja trendu miała charakter
funkcji o kształcie wypukłym, czyli takiej, której wartości rosną coraz wolniej w miarę
upływu czasu. Jak wcześniej powiedziałem do tego problemu wrócimy wtedy, gdy
przyjęcie założenia o liniowym trendzie okaże się błędne.
Do estymacji modelu 7.7 wykorzystamy procedurę Regresja wielokrotna z arkusza
StatystykaJG.xls oraz dane zapisane w pliku Obroty.xls w arkuszu Dane. Tym razem nie
będziemy także samodzielnie tworzyć zmiennych dychotomicznych, po prostu
wykorzystamy możliwości tej procedury do utworzenia takich danych.
44
W pokazanym niżej oknie dialogowym procedury Regresja wielokrotna w zakładce
dane wyjściowe mamy wskazany obszar danych wyjściowych, zaznaczone pole Predykcja,
a na potrzeby zmiennych dychotomicznych zostało zaznaczane pole Tak/Nie w grupie
Zmienne dychotomiczne. Zaznaczenie tego pola spowodowało wyświetlenie kontrolki
przewijaka Liczba podokresów, gdzie ustawiamy 12 jako liczbę miesięcy.
Podobnie jak w innych estymacjach w zakładce Badanie założeń zaznaczamy
wszystkie trzy pola wyboru. Pierwsze z nich pozwoli nam na rozstrzygnięcie, czy trend
zjawiska jest liniowy, pozostałe dwa weryfikują istotne dla metody najmniejszych
kwadratów założenia.
Po akceptacji przycisku OK. procedura tworzy zmienne dychotomiczne, a następnie
otwiera kolejne okno dialogowe w celu określenia roli poszczególnych zmiennych w
modelu. Poniżej pokazane jest to okno na tle danych oryginalnych i utworzonych
automatycznie zmiennych dychotomicznych, które zostały oznaczone symbolem D( j ) .
45
Klik przycisku OK. uruchamia proces doboru modelu metodą regresji krokowej
wyświetlając okno dialogowe po zakończeniu pierwszego kroku (wszystkie zmienne w
modelu).
Okazuje się, że model jest istotny statystycznie oraz że wszystkie zmienne
niezależne są potrzebne. Pozostaje nam tylko akceptacja przycisku Model jest dobrany, co
uruchomi proces wyprowadzania wyników estymacji.
W trakcie wyprowadzania wyników estymacji będziemy pytani o to, czy wykonać
weryfikację poprawności doboru modelu względem poszczególnych zmiennych
niezależnych. Odpowiadamy pozytywnie tylko w przypadku zmiennej czas.
46
Po wyprowadzeniu wszystkich wyników powinniśmy sprawdzić spełnienie
poszczególnych założeń.
Analiza wyników z obszaru kolumn Q-U pokazuje, że pozostawienie w modelu
zmiennej czasowej w pierwszej potędze (trend liniowy) jest złym rozwiązaniem i
powinniśmy poszukać innych rozwiązań (wspominałem o nich wcześniej).
Mamy także problem z autokorelacją, dla modelu 7.7 jest ona istotna statystycznie i
powinniśmy podjąć takie działania, które doprowadzą do jej usunięcia.
47
Myślę, że dobrym rozwiązaniem będzie najpierw taka modyfikacja modelu (z uwagi
na zmienną czas), aby mieć ten problem rozwiązany. Być może poprawa modelu
spowoduje także zmianę w ocenie występowania autokorelacji.
Dla zapewnienia kształtu wypukłego funkcji trendu możemy próbować wprowadzić
do modelu takie zmienne jak: t 2 , ln(t ), t . Poniżej widok arkusza z kolumnami O, P i Q,
gdzie takie zmienne wprowadzono (etykiety w wierszu 3 i stosowne formuły od wiersza 4).
Po wywołaniu procedury Regresja wielokrotna w zakładce Dane wejściowe
wskazujemy obszar danych obejmujący kolumny B-Q (a więc także dane dychotomiczne),
tym samym nie możemy uaktywnić pola wyboru Zmienne dychotomiczne (bo już je mamy).
Podobnie jak w poprzednich przypadkach zaznaczamy (ewentualnie) wykonanie
grafiki oraz badanie wszystkich trzech założeń.
Poniżej widok okna dialogowego po zakończeniu procesu doboru modelu, podobnie
jak w poprzednim rozwiązaniu model jest istotny statystycznie oraz wszystkie zmienne
wyjściowe okazały się potrzebne. Klik przycisku OK. uruchomi proces wyprowadzania
48
wyników estymacji, w jego trakcie odpowiadamy pozytywnie na pytanie o weryfikację
założenia o poprawności doboru modelu dla wszystkich zmiennych niedychotomicznych.
Po wyprowadzeniu wyników sprawdzamy wyniki weryfikacji poszczególnych
założeń, Poniżej pierwszy fragment tych wyników, okazuje się, że model jest poprawnie
określony względem takich zmiennych jak czas i kwadrat czasu.
Na kolejnej stronie pokazany jest fragment arkusza z wynikami weryfikacji
poprawności doboru modelu względem takich zmiennych jak logarytm czasu czy
pierwiastek kwadratowy z czasu. W każdym z tych przypadków model został dobrze
określony.
49
Widzimy także, że jest spełnione założenie o normalności reszt losowych, ale w
dalszym ciągu mamy problem ze spełnieniem założenia o braku autokorelacji.
Współczynnik autokorelacji I rzędu jest znacznie mniejszy niż poprzednio, ale na
tyle duży, że hipotezę o braku autokorelacji musimy odrzucić.
Jednym z możliwych rozwiązań, które może doprowadzić do usunięcia autokorelacji
jest zastosowanie metody Cochrana-Orcutta.
Metoda ta polega na przekształceniu danych wyjściowych wg następujących
wzorów:
y1* = y1 ⋅ 1 − r 2 , x1*j = x1 j ⋅ 1 − r 2 dla j = 1, ..., k
yi* = yi − r ⋅ yi −1 , xij* = xij − r ⋅ x(i −1) j dla i = 2, ..., n; j = 1, ..., k
7.8
gdzie r jest współczynnikiem korelacji reszt ei , ei −1 .
Na tak przekształconych danych ponownie estymowany jest model regresji i badana
jest hipoteza o istotności autokorelacji. Jeżeli autokorelacja jest w dalszym ciągu istotna, to
50
dane są ponownie transformowane – tak długo, dopóki nie zostanie usunięta autokorelacja.
Metoda Cochrana-Orcutta jest przykładem jednej z wersji tzw. uogólnionej metody
najmniejszych kwadratów.
Poniżej fragment arkusza OrcuttaDane z transformacją danych wyjściowych wg
wzorów 7.8.
Tak przekształcone dane wykorzystujemy do estymacji modelu funkcji regresji, po
jej wykonaniu okazuje się, że wszystkie założenia są już spełnione. Poniżej widok
fragmentu arkusza WynikiOrcutta z wynikami weryfikacji hipotez o normalności reszt
losowych oraz o braku autokorelacji.
Model jest stosunkowo dobrze dobrany (współczynnik determinacji = 90,7%),
możemy więc wykonać prognozę przyszłych obrotów.
22200
18780
15360
11940
8520
5100
6100
9780
13460
17140
20820
24500
51
Z uwagi na wykonaną transformację Cochrana-Orcutta prognoza musi być
wykonana dla wartości zmiennej czasowej w pełnym zakresie obserwacji powiększonym o
okres prognozy, czyli t = 1, 2, ...., 60, 61, ...., 72 . Musimy tak postąpić z uwagi na potrzebę
retransformacji danych oraz fakt, że wzory 7.8 mają charakter wzorów rekurencyjnych.
Retransormacja zostanie wykonana wg następujących wzorów:
yˆ1*
yˆ1 =
1− r
2
, yˆ i = yˆ i* + r ⋅ yˆ i dla i = 2, 3, ...., n
7.9
W arkuszu WynikiOrcutta zainteresowany Czytelnik znajdzie transformowane
wyniki prognozy jak i dane retransformowane wg wzorów 7.9, ja ograniczę się do wykresu
pokazującego za okres od t = 1 do t = 72 wartości regresyjnych wraz z dolną i górną
granicą predykcji. Za okres od t = 1 do t = 60 pokazane są również obserwowane
wielkości obrotów.
40000
35000
30000
Y teor.
25000
Dgpred.
Ggpred.
20000
obroty
15000
10000
5000
0
10
20
30
40
50
60
70
80
Poniżej pokazany jest fragment arkusza zawierający liczbowe wartości
przewidywanych obrotów w kolejnych miesiącach 2008 roku. Liczby te możemy
interpretować analogicznie jak w poprzednim zadaniu.
Przykładowo, dla stycznia 2008 roku możemy sformułować następujący wniosek: z
prawdopodobieństwem 0,95 mamy prawo oczekiwać, że wielkość obrotów będzie nie
mniejsza niż 15991,61 zł, a nie większa niż 25216,93 zł.
52
40000
35000
30000
Y teor.
25000
Dgpred.
Ggpred.
20000
15000
10000
60
62
64
66
68
70
72
74
53
8. Modele autoregresyjne
Zadanie 8.1. W tabeli 8.1 podane są miesięczne średnie ceny 1 hektolitra mleka
obserwowane na przestrzeni lat 1993-2004.
Tabela 8.1
mc\rok
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
1993
23,63
23,69
23,65
23,66
23,11
22,97
22,88
22,87
22,87
23,36
23,95
24,45
1994
24,52
24,60
24,71
25,02
25,20
25,27
25,43
26,22
28,08
30,16
33,43
36,63
1995
38,77
40,77
42,02
43,11
43,21
42,94
42,63
43,39
44,89
47,11
48,95
50,58
1996
51,25
51,35
51,55
51,29
50,56
50,26
49,64
49,96
50,85
52,58
54,18
55,75
1997
56,70
57,35
57,44
57,70
57,65
56,91
56,59
56,81
58,29
60,68
63,19
64,30
1998
63,69
64,24
65,45
64,64
62,14
59,15
57,50
57,60
58,68
59,31
60,45
61,02
1999
60,63
59,99
60,40
60,33
58,43
57,53
56,72
57,35
59,53
63,54
67,98
71,36
2000
72,97
74,78
76,64
77,29
76,47
75,71
75,62
76,03
77,88
79,97
82,73
84,38
2001
82,23
82,43
81,20
79,66
77,28
75,55
74,47
73,81
74,79
76,51
79,50
81,66
2002
81,12
79,91
78,60
75,99
70,16
68,41
66,42
66,44
66,74
69,36
71,24
73,63
2003
73,94
73,42
73,21
72,04
69,28
67,61
66,77
67,02
69,01
72,16
77,30
79,36
2004
79,49
79,92
80,08
80,96
82,25
84,04
86,13
87,45
89,01
92,34
95,77
98,27
Na podstawie tych danych będziemy chcieli skonstruować taki model kształtowania
się ceny mleka, który pozwoli nam na wykonanie prognozy ceny mleka w pierwszym
kwartale kolejnego roku.
Dane powyższe tworzą oczywiście szereg czasowy, wystarczy je po prostu
odpowiednio uporządkować oraz wprowadzić zmienną reprezentującą czas. Poniżej
pokazany jest fragment arkusza Dane w skoroszycie Mleko.xls, tak uporządkowane dane
tworzą już szereg czasowy.
54
Dane szeregu możemy także przedstawić graficznie, mamy wtedy możliwość
oszacowania trendu i jego charakteru, jak i występowania wahań okresowych.
cena
y = 0,4303x + 28,272
Tytuł wykresu
R2 = 0,852
Liniowy (cena)
120,00
100,00
80,00
60,00
40,00
20,00
0,00
-
20
40
60
80
100
120
140
160
W naszym przypadku w analizowanym szeregu niewątpliwie występuje trend
zjawiska, do jego opisania prawdopodobnie wystarczy funkcja liniowa. Na pokazanym
wykresie linia trendu jest już wstawiona, widzimy także dość dużą wartość współczynnika
determinacji.
Oczywiście wykorzystanie do prognozowania tylko trendu liniowego nie wchodzi w
rachubę, musimy zaproponować taki model, który będzie znacznie lepiej dopasowany.
Formalnie, z uwagi na obserwacje roczne z podokresami miesięcznymi można by
próbować wykorzystać znane z poprzedniego rozdziału zmienne dychotomiczne opisujące
wpływ poszczególnych miesięcy.
Próba estymacji modelu 7.7 kończy się jednak niepowodzeniem – w kolejnych
krokach regresji krokowej usuwane są wszystkie zmienne dychotomiczne i zostajemy
jedynie z trendem liniowym. Prawdę powiedziawszy można się było takiego wyniku
spodziewać, bowiem na pokazanym wyżej wykresie szeregu nie obserwujemy regularnych
zmian okresowych w cyklach rocznych z podokresami miesięcznymi.
Jednym z możliwych rozwiązać jest zastosowanie modelu autoregresyjnego, czyli
takiego, w którym po obu stronach znaku równości występuje ta sama zmienna (tu cena 1
hektolitra mleka), ale z pewnym przesunięciem czasowym. Formalne możemy tego typu
model przedstawić jako:
yt = b0 + b1t + b2 yt −1 + b3 yt − 2 + ... + bk +1 yt − k
8.1
gdzie yt −1 , yt − 2 , ..., yt − k oznaczają obserwacje zmiennej zależnej opóźnione o 1, 2, …, k
okresów. Wielkość parametru k (opóźnienia) nie jest z góry znana, będziemy ją musieli
ustalić już bezpośrednio w trakcie estymacji modelu.
W arkuszu DaneDoModelu skoroszytu Mleko.xls zostały przygotowane dane
pozwalające na estymację modelu z maksymalnym opóźnieniem sześciu miesięcy.
55
Na pokazanym wyżej fragmencie arkusza widoczny jest wiersz 8, został on dodany
do oryginalnych danych z uwagi na wymogi procedury Regresja wielokrotna, procedura ta
wymaga bowiem, aby każda kolumna danych zaczynała się etykietą z nazwą danej cechy,
stąd powtórzenie w tym wierszu nazw z wiersza nr 1.
Po uruchomieniu procedury zaznaczamy obszar danych oraz pole wyboru
Predykcja.
W zakładce Grafika zaznaczymy pierwsze pole wyboru, a w zakładce Badanie
założeń wszystkie trzy pola, tak jak na pokazanych niżej zrzutach ekranowych.
56
Po akceptacji przycisku OK. określamy rolę poszczególnych zmiennych w modelu,
a następnie poprzez klik przycisku OK. uruchamiamy proces doboru modelu metodą
regresji krokowej.
57
W kolejnych krokach usuwamy z modelu tę zmienną, której wpływ na kształtowanie
się ceny 1 hektolitra mleka okazał się najmniejszy.
58
Ostatecznie w modelu pozostały tylko trzy zmienne opóźnione, warto jednak
zauważyć, że model jest bardzo dobrze dopasowany do danych empirycznych (bardzo duża
wartość współczynnika determinacji). Jeżeli tylko będą spełnione założenia, to udało nam
się zaproponować dobry model do prognozowania przyszłych wartości.
Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników
estymacji, w jego trakcie będziemy pytani o to, czy ma być wykonana weryfikacja hipotezy
o poprawności doboru modelu względem danej zmiennej. Na trzy tego typu pytania
odpowiadamy pozytywnie.
59
Po wyprowadzeniu wyników (do nowego arkusza) możemy przejść do kolumn MQ, znajdziemy tu wyniki wszystkich weryfikacji.
60
Wynika z nich, że wszystkie założenia są spełnione, już wcześniej mówiłem, że
model jest bardzo dobrze dopasowany do danych, co znajduje potwierdzenie na pokazanym
niżej wykresie.
99
84
69
53
38
23
22
37
53
68
84
99
Poniżej mamy fragment arkusza z wynikami estymacji, potwierdzają one istotność
statystyczną modelu oraz dobroć jego dopasowania. Oceny współczynników regresji,
zmienność resztowa w analizie wariancji oraz elementy macierzy odwrotnej wykorzystamy
w kolejnym kroku do wykonania prognozy.
Warto jeszcze spojrzeć na historię doboru modelu, możemy tu zaobserwować co się
działo na poszczególnych etapach regresji krokowej.
61
Poozstalo nam już tylko wykonanie prognozy. Zaczynamy od przygotowania
danych (zmiennych odgrywających rolę zmiennych objaśniających). Powiedzmy, że
chcemy wyznaczyć teoretyczne wartości zmiennej objaśnianej dla kolejnych miesięcy roku
2004 (dla porównania obserowanych cen i teoretycznych) oraz dla pierwszego kwartału
kolejnego roku (rzeczywista prognoza).
Poniżej fragment arkusza MlekoWyniki z danymi potrzebnymi dla wykonania
prognozy.
Proszę zauważyć, że brakuje nam trzech obserwacji zmiennych objaśniających: na
tym etapie nie wiemy, jaka wartość powinna być wpisana do komórek C388 ( y145 ), C389
( y146 ) oraz D389 ( y145 ). Jedyne wyjście, to wykonywanie prognozy sekwencyjnie,
najpierw dla t = 145 , uzyskaną wartość regresyjną możemy wtedy wpisać do C388 i D389,
a następnie dla t = 146 , co pozwoli nam na wpisanie wartości regresyjnej do C389. W
kolejnym kroku będziemy już mogli wykonać prognozę dla t = 147 .
Procedura Prognozowanie ma możliwość wykonania tych obliczeń niejako w
jeednym kroku, wystarczy dostarczyć do niej informację, że w modelu występują zmienne
opóźnione oraz określić wielkość tego opóźnienia.
62
Po ostatnim OK. procedura wyprowadza wyniki prognozy umieszczając je na prawo
od obszaru danych wykorzystanych do prognozy.
63
Na pokazanym wyżej fragmencie arkusza MlekoWyniki w kolumnie M umieściłem,
dla potrzeb wykonania wykresu, obserwowane ceny mleka w 2004 roku. Dane z kolumn B,
F, K, L i M zostały wykorzystane dla wykonania poniższego wykresu.
105,00
Y teor.
100,00
Dgpred.
Ggpred.
95,00
Y(t)
90,00
85,00
80,00
75,00
70,00
132
134
136
138
140
142
144
146
148
Mamy na nim teoretyczne i obserwowane ceny mleka w kolejnych miesiącach 2004
roku oraz prognozowane ceny mleka w pierwszych trzech miesiącach 2005 roku. Żółta i
czerwona linia pokazuje górną i dolną granicę predykcji, czyli przedział ufności
pokrywający z prawdopodobieństwem 0,95 rzeczywistą cenę mleka w tych miesiącach.
Przykładowo dla stycznia 2005 roku możemy sformułować taką interpretację: z
prawdopodobieństwem 0,95 mamy prawo oczekiwać, że cena 1 hektolitra mleka będzie nie
mniejsza niż 97,67 zl, ale nie wieksza niż 101,76 zł.

7. Zmienne dychotomiczne

Transkrypt

Podobne dokumenty

Piotr Jadwiszczak „Zrozumieć statystykę”

Jersey krów rasy

Laboratorium 1 - 17 maja 2014 (Metody regresji) Tematy: 1. Model

Niestacjonarne zmienne czasowe – własności i testowanie - E-SGH

Metoda najmniejszych kwadratów dla estymacji

Identyfikacja wybranych elementów układu napędowego metodami

zmienną zależną

ĆWICZENIA nr 12

Lista 3 - IPI PAN

1. Badanie płacy (x1 - w zł) oraz stażu pracy (x2