ETAPY BUDOWY MODELU EKONOMETRYCZNEGO

Transkrypt

ETAPY BUDOWY MODELU EKONOMETRYCZNEGO
ETAPY BUDOWY MODELU EKONOMETRYCZNEGO:
1. Ustalenie zmiennej objaśnianej Y
2. Ustalenie listy zmiennych objaśniających – najwaŜniejsze metody statystyczne: Hellwiga (wskaźnik pojemności informacyjnej),
regresji krokowej
3. Ustalenie postaci analitycznej modelu: hipotetycznego - opisującego ogólnie zaleŜność dla całej populacji generalnej (a w
konsekwencji takŜe postaci modelu ekonometrycznego).
liniowy, nieliniowy - metody określenia: np. wg specyfiki zaleŜności, na oko z wykresu posiadanej próby, przez eksperymenty
obliczeniowe – model najlepiej dopasowany do posiadanych danych.
W modelu hipotetycznym parametry zapisujemy jako litery greckie, np: Y≅ β1*X+β2. Ich wartości nigdy nie poznamy. MoŜemy tylko
oszacować ich wartości na podstawie jakiejś próby. Po oszacowaniu parametry zapisujemy literami łacińskimi.
MoŜliwe postaci analityczne modelu (ekonometrycznego, po oszacowaniu parametrów strukturalnych) dla danej postaci zaleŜności:
Jedna zmienna objaśniająca
ZaleŜność
liniowa
Wiele zmiennych objaśniających
Y=b0+b1*X
Y= b0+b1*X1+ b2*X2+...+bK*XK
Np.:
paraboliczna: Y=b0+b1*X+ b2*X2
wielomianowa: Y=b0+b1*X+ b2*X2+...+bNXN
hiperboliczna: Y= b0+b1/X
logarytmiczna: Y= b0+b1*log(X)
wykładnicza: Y=a*pb*X
potęgowa: Y=a*Xb
potęgowo-wykładnicza: Y= a*Xb1*pb2*X
ZaleŜność wykładniczo-hiperboliczna: Y=a*pb/X
nieliniowa Tornquista: Y=a*(X-c)/(X+b)
logistyczna: Y=a/(1+b*e-c*X)
Np.:
Y=b0+b11*X1+ b12*X12+b21*X2+ b22*X22+...+bK1*XK+ bK2*XK2
Y=∑∑bk*Xkk
Y= b0+ b1/X1+ b2/X2+...+bK/XK
Y= b0+b1*log(X1)+...+bK*log(XK)
Y=a*pb1*X1+ b2*X2+...+bK*XK
Y=a* X1b1* X2b2*...* XKbK
MoŜliwe sposoby zapisu modelu hipotetycznego (podkreślające to, Ŝe model opisuje dana zaleŜność tylko w przybliŜeniu): Y= f(β
,X), Ŷ= f(β ,X), Y≅ f(β ,X), Y= f(β ,X)+ε ε - składnik losowy (reszta) o rozkładzie normalnym (jego występowanie tłumaczy
istnienie rozbieŜności między Y obliczonym z modelu a rzeczywistymi wartościami Y), E(ε )=0, σ(ε)-stałe, parami nie skorelowane,
estymacja σ(ε): s
Zapisy parametrów liniowego (róŜne konwencje): Y≅ β1*X+β2; Y≅ β0+β1*X; Y≅ α+β*X; Y≅ β*X+α i inne
4. Zebranie materiału statystycznego: ilość obserwacji: L musi być choć 3-5 razy większa niŜ liczba parametrów modelu (K)
5. Wyznaczenie parametrów modelu ekonometrycznego: Na podstawie próby dokonujemy estymacji (znalezienia ocen,
szacunku) parametrów modelu hipotetycznego. Tak powstały model to model ekonometryczny.
Dla modeli liniowych uŜywamy klasycznej metody najmniejszych kwadratów: SKR=∑ (y-ŷ)2→ min. Takie dobranie parametrów
modelu by suma kwadratów reszt była minimalna (wtedy model jest najlepiej dopasowany do danych empirycznych).
ZałoŜenia kmnk: zaleŜność liniowa, załoŜenia o ε, X nielosowe, rz(X)=K≤ L (brak współliniowości w macierzy X – moŜna ją
odwrócić)
Dla modelu: Y≅ b*X+a parametry znalezione przy uŜyciu kmnk (minimalizujące SKR) obliczamy ze wzorów:
,
W dalszym ciągu będziemy zapisywać model liniowy w konwencji: Y≅ b1X+b2
Interpretacja:
b1 – o tyle wzrośnie wartość Y jeśli X wzrośnie o jednostkę
b2 – tyle wyniesie wartość Y dla X=0
Gdy X jest zmienną czasową (t) to mówimy o trendzie (modelu tendencji rozwojowej): Y≅ b1t+b2, a interpretacja jest następująca:
b1 – o tyle rośnie wartość Y z roku na rok (okresu na okres)
b2 – tyle wyniesie wartość Y dla roku/okresu 0
Przejście na zapis wektorowo-macierzowy:
Y≅
≅ b1*X1+b2*X2, X1=X, X2≡1, b1=b, b2=a
Y≅
≅ Xb, Y - wektor L obserwacji zmiennej objaśnianej, X- macierz o wymiarach LxK (L obserwacji w wierszach, K zmiennych
objaśniających w kolumnach, ostatnia kolumna - zmienna stała -jedynkowa); b - wektor K parametrów modelu (ostatni element
wektora - wyraz wolny)
UŜywając kmnk wektor parametrów modelu znajdujemy ze wzoru:
b=(XTX)-1XTy
Dla ułatwienia tworzymy tabelę CROSS, która zawiera sumy iloczynów wartości wszystkich par zmiennych modelu (przypadek dla
modelu z jedną zmienną objaśniającą):
Y
X
1
Y
∑ y2
∑ yx
∑y
X
∑ xy
∑ x2
∑x
1
∑y
∑x
L
Odpowiednie pola w tablicy CROSS tworzą potrzebną nam macierz (jeszcze trzeba ją odwrócić) i wektor:
Znajdziemy w niej macierz XTX (trzeba ją jeszcze odwrócić!) oraz wektor XTy. Po odwróceniu XTX mnoŜymy ją przez XTy i
otrzymujemy wektor b:
∑ yx
∑y
1
L −∑x
∑ x2*L-(∑ x)2 −∑x ∑x2
b1
b2
W przypadku modelu liniowego z większą liczbą zmiennych objaśniających tabela CROSS jest większa - wtedy macierz XTX tworzą
pola tabeli z wyjątkiem pierwszego wiersza i pierwszej kolumny, a wektor XTy to pierwsza kolumna bez ∑ y2.
6. Weryfikacja modelu:
Merytoryczna - wymaga znajomości natury zjawiska - trzeba sprawdzić, czy znaki i skala wartości parametrów są sensowne.
Statystyczna: (dla modeli liniowych) dopasowanie ϕ2, R2, szacunkowy błąd średni parametru β k, przedział ufności dla β k,
istotność zmiennych objaśniających
Jakość dopasowania modelu do danych empirycznych:
Współczynnik rozbieŜności ϕ2 mówi jaka część zmienności zmiennej objaśnianej (czyli Y) nie została wyjaśniona przez model:
ϕ2=SKR/OSK,
suma kwadratów reszt: SKR= ∑(y-ŷ)2 = (∑y2-bTXTy)=∑y2-(b*∑yx+ a*∑y) – zmienność nie wyjaśniona przez model,
ogólna suma kwadratów: OSK= ∑ (y-yśr)2 = ∑y2-(∑y)2/L - zmienność ogólna Y
zatem: ϕ2=(∑y2-bTXTy)/( ∑y2-(∑y)2/L)
Współczynnik determinacji R2 mówi jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model:
R2=1-ϕ 2
Dobrze dopasowany model ma R2>80%
Błędy ocen parametrów / szacunkowe błędy średnie i przedział ufności dla β k
Szacując wartość parametru βk do postaci bk popełniamy błąd, inny dla kaŜdej próby danych. śeby dowiedzieć się jak duŜy błąd
popełniliśmy liczymy wartości szacunkowych błędów średnich
Szacunkowy błąd średni / błąd oceny parametru - dk – ocena rozbieŜności moŜliwych ocen parametru β k (czyli bk) wokół tego
parametru (czyli wokół β k) Wyznaczając bk (z róŜnych prób wziętych z populacji generalnej) mylimy się przeciętnie o dk:
d k = s ck , gdzie:
s - oszacowanie odchylenia standardowego składnika losowego - oszacowanie σ(ε) - ocena rozbieŜności moŜliwych wartości
zmiennej objaśnianej wokół modelu hipotetycznego – siła zaburzająca składnika losowego ε.
s=
SKR
, Q=L-K liczba stopni swobody,
Q
Na podstawie oszacowanie odchylenia standardowego składnika losowego moŜemy określić takŜe jakość modelu poprzez obliczenie
miary zmienności losowej (inaczej współczynnik wyrazistości) v=s/yśrednie. Mówi ona, jaką część średniego y stanowią zakłócenia
losowe. Jeśli jest to mniej niŜ 15% to model jest dobry.
natomiast ck to k-ty element przekątniowy macierzy (XTX)-1.
Składając te wzory otrzymujemy następujący wzór na dk:
dk =
SKR * c k
T −K
By określić czy błąd jest duŜy liczymy błąd względny oszacowania parametrów (inaczej zwany współczynnikiem precyzji
parametru): dwk=dk/bk - im mniejszy tym mniejszy błąd popełniliśmy szacując wartość danego parametru. Jego wartość powinna być
mniejsza niŜ 20%
Przedział ufności dla β k dla poziomu ufności u: - z ufnością u ten przedział zawiera w sobie rzeczywistą wartość βk
Uuk=<bk-∆uk, bk+∆uk>, gdzie: ∆uk= dk*tKR(α ,Q), α =1-u
Istotność zmiennych objaśniających. Zmienna istotna – ma zauwaŜalny/wyraźny wpływ na Y. Dana zmienna (k-ta) jest istotna, gdy
parametr przy niej stojący jest istotnie róŜny od zera: a jest tak wtedy gdy:
|tk|>tKR(α ,Q), gdzie:
tk =
bk
dk
7. Wykorzystanie modelu: zwięzły opis zaleŜności, prognozy, symulacje i scenariusze
Błąd prognozy znalezionej dla wektora przewidywanych x: x*t (gwiazdka u góry oznacza wartość prognozowaną, a indeks t na dole
ma zastosowanie przy trendzie, gdy prognoza dotyczy jakiegoś okresu t)
Błąd bezwzględny:
m t = s 1 + x ∗t T (X T X) −1 x ∗t
Błąd względny prognozy: mwT=mt/y*t - im mniejszy błąd tym lepsza prognoza
MoŜna wyznaczyć takŜe przedział ufności dla rzeczywistej wartości y: Uu=[y*-∆u,y*+∆u], gdzie: ∆u= mT * tKR(α,Q), α=1-u. Z ufnością
u zawiera w sobie rzeczywistą wartość y dla danego x.