Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych

Transkrypt

M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u
Pro gn o zo w an i e i sy mu l ac je
Janusz Górczyński
Moduł 3. Estymacja modeli krzywoliniowych
dwóch zmiennych
Wyższa Szkoła Zarządzania i Marketingu
Sochaczew 2012
2
Od Autora
Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i
ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i
symulacje” przygotowanego dla studentów kierunku zarządzanie.
Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni
praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez
wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda
czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy
testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane
wcześniej testy internetowe.
Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów
mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu
wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli
prognostycznych.
Jak korzystać z tych materiałów?
Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie
przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym
stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań
pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych
odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie.
Janusz Górczyński
3
Spis treści
1
MODEL KRZYWOLINIOWY............................................................................................................................ 4
2
LINEARYZACJA MODELU .............................................................................................................................. 5
3
PRZYKŁAD Z WYDAJNOŚCIĄ PRACY ......................................................................................................... 6
3.1
ESTYMACJA MODELU LINIOWEGO y = b0 + b1 x ........................................................................................... 6
3.2
ESTYMACJA MODELU y = b0 + b1 x ......................................................................................................... 8
3.3
ESTYMACJA MODELU y = b0 + b1 ln( x) .................................................................................................... 10
3.3.1
3.4
WYDAJNOŚĆ PRACY, MODEL POTĘGOWY y = b0 x
3.4.1
4
Prognozowanie w modelu logarytmicznym ................................................................................. 12
b1
.................................................................................. 14
Prognozowanie w modelu potęgowym......................................................................................... 16
LITERATURA .................................................................................................................................................... 18
4
1 Model krzywoliniowy
Powiedzmy, że interesuje nas problem określenia, czy między wydajnością pracy pracowników a stażem pracy
istnieje związek funkcyjny. Dla rozwiązania tego problemu w pewnej firmie pobrano próbę losową pracowników
produkcyjnych ustalając dla każdego z nich dwie cechy: wydajność pracy (zmienna objaśniana, zmienna Y) oraz staż
pracy (zmienna objaśniająca, zmienna X). Poniżej widok arkusza kalkulacyjnego Excel z wynikami naszej próby.
Zakładamy, że modelem dla zmiennej objaśnianej Y może być zmienna losowa normalna o wartości oczekiwanej
będącej funkcją zmiennej objaśniającej X i stałej wariancji. Istotnym problemem do rozwiązania jest ustalenie, czy
m( x) = a + bx , czy też musimy wyjść poza klasyczny model liniowy.
Ponieważ dane empiryczne zapisane są w Excelu, to w łatwy sposób można przygotować wykres rozrzutu
punktów empirycznych XY. Dane empiryczne są tak ustawione, że pierwszy wiersz opisuje oś x-ów, dzięki temu
kreator wykresów pozwala na przygotowanie wykresu bez specjalnych działań z naszej strony. Wystarczy wybór typu i
dalej klik przycisku Zakończ.
Utworzony wykres wymaga elementarnego formatowania obejmującego usunięcie legendy (nic nowego nie
wnosi) oraz zmiana skali opisu osi y-ek. Element wykresu formatujemy po jego wcześniejszym zaznaczeniu, z reguły z
pomocniczego menu uruchamianego prawym przyciskiem myszy.
Poniżej widok wykresu po formatowaniu, dzięki wprowadzonym zmianom charakter związku między badanymi
cechami jest bardziej wyraźny.
Wydajnosc
125
120
115
110
105
100
95
90
85
80
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
5
Analiza rozkładu punktów empirycznych sugeruje, że jednym z rozpatrywanych modeli może być klasyczny
model liniowy y = b0 + b1 x , z kolei biorąc pod uwagę charakter zjawiska dość trudno jest przyjąć założenie, że
wydajność pracy będzie rosła w tym samym tempie w całym zakresie możliwych wartości stażu pracy. Być może
lepszym modelem do opisu badanej zależności będzie model pierwiastkowy y = b0 + b1 x lub logarytmiczny
y = b0 + b1 ln( x) . Cechą charakterystyczną obu modeli jest wykres wypukły, a więc taki, który charakteryzuje funkcję
rosnącą coraz wolniej.
Reasumując powinniśmy sprawdzić, który z trzech poniższych modeli najlepiej opisuje zależność wydajności
pracy od staży pracy pracownika:
1. y = b0 + b1 x
2. y = b0 + b1 x
3. y = b0 + b1 ln( x)
Do estymacji tych modeli jak i weryfikacji założeń metody najmniejszych kwadratów można wykorzystać
dowolne narzędzie, między innymi można wykorzystać procedury statystyczne dostarczane przez skoroszyt
StatystykaJG.xlsm. Przy otwieraniu tego skoroszytu obowiązkowo musimy włączyć makra, jest to niezbędne,
jeżeli chcemy korzystać z procedur statystycznych tego skoroszytu.
Formalnie metoda najmniejszych kwadratów pozwala na estymację parametrów modelu liniowego, czyli takiego,
w którym argument funkcji jest w pierwszej potędze. Ten warunek spełnia wyłącznie pierwszy z trzech wymienionych
wyżej modeli. W przypadku dwóch pozostałych modeli musimy podjąć pewne działania, które pozwolą nam na użycie
metody najmniejszych kwadratów.
2 Linearyzacja modelu
Powiedzmy, że interesuje nas estymacja modelu regresyjnego postaci y = b0 + b1 x . Estymacja parametrów
tego modelu wymaga jego sprowadzenia do postaci liniowej, czyli takiej, w której argument funkcji będzie w pierwszej
potędze. W przypadku modelu y = b0 + b1 x wystarczy wprowadzenie nowej zmiennej z = x , aby otrzymać
formalny model liniowy postaci y = b0 + b1 ⋅ z , którego parametry mogą już być estymowane metodą najmniejszych
kwadratów.
Przekształcenie, które sprowadza model nieliniowy do formalnie modelu liniowego nazywamy linearyzacją
modelu. Przekształcenie może dotyczyć zarówno zmiennej niezależnej jak i zmiennej zależnej. Poniżej kilka
przykładów linearyzacji modeli krzywoliniowych:
Model krzywoliniowy
Przekształcenie
y = b0 + b1 ⋅ x
z=x
p
p
Model zlinearyzowany
y = b0 + b1 ⋅ z
y = b0 + b1 ⋅ ln( x) dla x > 0
z = ln(x)
y = b0 + b1 ⋅ z
y = b0 ⋅ a
log a y = log a b0 + b1 x
w = B0 + b1 ⋅ x
b1 x
y = b0 + b1 ⋅
gdzie a ∈ R+ − {1}
1
x
dla x ≠ 0
w = log a y B0 = log a b0
z=
1
x
y = b0 + b1 ⋅ z
y = b0 + b1 x + b2 ln( x) dla x > 0
z1 = x; z 2 = ln( x)
y = b0 + b1 z1 + b2 z 2
y = b0 + b1 x + ... + bk x k
z1 = x; ... z k = x k
y = b0 + b1 z1 + ... + bk z k
6
Przed rozpoczęciem estymacji parametrów modelu krzywoliniowego musimy wyznaczyć wartości zmiennych
pomocniczych i wszelkie dalsze obliczenia wykonujemy już na nowym (przekształconym) zestawie danych.
Sprowadzenie modelu nieliniowego do liniowego może też prowadzić do pewnych ograniczeń związanych
zarówno ze skorelowaniem zmiennych przekształconych (konsekwencją mogą być trudności z rozwiązaniem układu
równań) jak i z interpretacją parametrów modelu. Wrócimy do tych ograniczeń w przyszłości.
3 Przykład z wydajnością pracy
Procedury tego skoroszytu wymagają, aby dane do obliczeń były ustawione pionowo, stąd przed wywołaniem
procedury Liniowa z menu Regresja dane zostały tak ustawione zaczynając od komórki A1.
3.1 Estymacja modelu liniowego y = b0 + b1 x
W pokazanej sytuacji w obszarze A1:B21 mamy dane empiryczne pozwalające na estymację modelu liniowego
y = b0 + b1 x .
Po wywołaniu polecenia Liniowa z menu Regresja wprowadzamy informacje o położeniu danych wyjściowych
oraz miejscu zwrócenia wyników (zakładka Dane wejściowe).
7
Po przejściu do zakładki Grafika i badanie założeń uaktywniamy te pola wyboru, które odpowiadają
oczekiwanym przez nas wykresom oraz badaniom założeń. W poniższej sytuacji wybrane zostały wszystkie oferowane
wykresy oraz zlecenie przeprowadzenia trzech testów dotyczących poprawności modelu, braku autokorelacji oraz
normalności reszt losowych.
Po kliku przycisku OK procedura zwraca wyniki estymacji modelu oraz wykresy i wyniki weryfikacji założeń,
jeżeli takie były zadysponowane. Poniżej pokazany fragment arkusza z wynikami estymacji obejmujący weryfikację
trzech założeń.
W obszarze J1:M6 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że zależność między wydajnością
pracy a stażem pracy pracowników może być opisana modelem liniowym. Do weryfikacji wykorzystano test serii,
wniosek końcowy jest taki, że nie mamy podstaw do odrzucenia hipotezy zerowej. Oznacza to, że badana zależność
może być opisana modelem liniowym.
8
W obszarze J10:M14 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że reszty losowe są normalne ze
średnią 0 i odchyleniem 5,17 wobec alternatywy, że to nie jest taki rozkład. Wyniki weryfikacji testem w Shapiro-Wilka
są takie, że hipotezę zerową musimy odrzucić, tym samym nie jest spełnione jedno z ważnych założeń metody najmniejszych kwadratów.
Odrzucenie tej hipotezy (o normalności reszt losowych) może wynikać z wielu przyczyn, jedną z nich może być
problem doboru modelu. Wprawdzie testem serii potwierdziliśmy, że model liniowy jest poprawny, ale to nie oznacza,
że nie istnieje lepszy model, zwłaszcza wtedy, gdy nie jest spełnione założenie o normalności reszt. Proszę zwrócić
uwagę, że weryfikowana była hipoteza zerowa o tym, że reszty są losowe ze średnią 0 i odchyleniem standardowym
5,17, być może one są losowe, ale z innym odchyleniem? Jeżeli istnieje lepszy model (niż liniowy), dokładniej
opisujący badaną zależność, to będziemy uzyskiwać mniejszą ocenę odchylenia standardowego od modelu, tym samym
zmieni się postać hipotezy zerowej zakładającej normalność reszt.
Za taką sugestią przemawia wykres rozkładu reszt pokazany poniżej. Dość wyraźnie widać, że w modelu
pominięto jakiś składnik krzywoliniowy. Reszty nie są rozłożone losowo wokół prostej y = 0 , lecz są funkcją
(wypukłą) stażu pracy.
Wykres reszt w funkcji x-a
15
11
6
2
-3 0
-7
3
5
8
10
13
Reasumując, model liniowy nie może być wykorzystany do poprawnego opisu badanej przez nas zależności,
pozostaje nam sprawdzenie poprawności dwóch kolejnych modeli.
3.2 Estymacja modelu y = b0 + b1 x
Przed estymacją tego modelu musimy zauważyć, że nie jest to model liniowy, stąd przed estymacją musimy
dokonać jego linearyzacji.
Wprowadzając nową zmienną z = x sprowadzamy model y = b0 + b1 x do (formalnie) modelu liniowego
postaci y = b0 + b1 z .
Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu
y = b0 + b1 z , w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu
z = x . Do arkusza DanePierwiastkowe zostały przekopiowane dane wyjściowe, a następnie w C1 wpisana
etykieta SQR(x), a w C2 formuła =PIERWIASTEK(A2). Formuła z C2 została następnie skopiowana na obszar C3:C21.
Kolejny zrzut ekranowy pokazuje arkusz DanePierwiastkowe z tak przygotowanymi danymi, tym razem po
wywołaniu procedury Liniowa jako obszar danych dla zmiennej X wskażemy C1:C21, a jako obszar danych dla
zmiennej Y-ek zakres komórek B1:B21.
9
Poniżej widok obszaru danych i widok formularza procedury Liniowa z zakładką Dane wyjściowe, w której
wskazano obszary niezbędne dla estymacji modelu y = b0 + b1 x , gdzie z = x .
Podobnie jak w przypadku estymacji modelu liniowego w zakładce Grafika i badanie założeń zaznaczamy oba
wykresy i weryfikację trzech założeń. Klik przycisku OK uruchamia działanie procedury, a wyniki estymacji zostają
zwrócone do nowego arkusza (później nazwanego WynikiPierwiastkowy).
Poniższy zrzut ekranowy tego arkusza pokazuje wyniki weryfikacji założeń, jak widzimy model pierwiastkowy
nie może być wykorzystany do opisu badanej zależności.
Spośród trzech badanych założeń nie jest spełnione założenie o poprawności doboru modelu, niejako jego
konsekwencją jest także odrzucenie hipotezy o normalności reszt losowych. Pozostaje nam sprawdzenie, czy do opisu
badanej zależności można wykorzystać model logarytmiczny.
10
3.3 Estymacja modelu y = b0 + b1 ln( x)
Podobnie jak w modelu pierwiastkowym wprowadzamy podstawienie z = ln(x) , co formalnie sprowadza model
logarytmiczny do postaci y = b0 + b1 z , a jego parametry możemy już estymować metodą najmniejszych kwadratów.
Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu
y = b0 + b1 z , w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu
z = ln( x) . Zostało to zrobione w arkuszu o nazwie DaneLogarytmiczny, gdzie przekopiowano dane oryginalne, a
następnie dodano etykietę Ln(x) w komórce C1 i formułę =LN(A2) w komórce C2. Formuła z C2 została następnie
skopiowana na obszar C3:C21.
Mając przygotowane dane możemy wywołać procedurę Liniowa z menu Regresja wskazując odpowiednie
obszary danych.
Podobnie jak w poprzednich estymacjach w zakładce Grafika i badanie założeń zaznaczamy oba wykresy i
weryfikację założeń o poprawności doboru modelu i normalności reszt losowych. Klik przycisku OK uruchamia
działanie procedury, a wyniki estymacji zostają zwrócone do nowego arkusza (nazwanego WynikiLogarytmiczny).
11
Analizując wyniki weryfikacji założeń z obszaru J1:M6 oraz J10:M14 widzimy, że wybór modelu
logarytmicznego jest uzasadniony statystycznie. Reasumując, model logarytmiczny może być dalej wykorzystywany
do wyznaczania teoretycznej wydajności pracy przy zadanym stażu pracy.
Przed wykonaniem prognozy powinniśmy przeanalizować wyniki estymacji
logarytmicznego – procedura Liniowa zwróciła te wyniki zaczynając od komórki A1.
parametrów
modelu
W obszarze A2:E4 mamy oceny parametrów modelu i błędy standardowe tych ocen oraz dolne i górne granice
przedziałów ufności dla prawdziwych wartości tych parametrów w populacji generalnej.
Ocena stałej regresji jest równa 83,08 i jest wyznaczona z błędem ± 2,27, podobnie ocena współczynnika regresji
jest równa 14,07 i jest wyznaczona z błędem ± 1,30 (jeżeli przyjmiemy, że prawdziwa wartość parametru b jest równa
14,07, to popełnimy błąd rzędu ± 1,30).
Dla obu parametrów oszacowane są dolne i górne granice 95% przedziałów ufności, przykładowo dla
współczynnika regresji mamy przedział b1 ∈< 11,34; 16,80 > , który możemy zinterpretować następująco: z p-stwem
0,95 mamy prawo oczekiwać, że współczynnik regresji jest nie mniejszy niż 11,34, ale nie większy niż 16,80.
Jak wiemy współczynnik regresji ma następującą interpretację merytoryczną: jeżeli logarytm stażu pracy
wzrośnie o jedną jednostkę, to wydajność pracy średnio wzrośnie o 14,07 jednostek (logarytm stażu pracy a nie staż
pracy, bo argumentem funkcji był nie staż pracy a jego logarytm naturalny).
Do interpretacji możemy wykorzystać także przedział ufności dla współczynnika regresji: z p-stwem 0,95 mamy
prawo oczekiwać, że przy wzroście logarytmu stażu pracy o jedną jednostkę wydajność pracy średnio wzrośnie nie
mniej niż o 11,34 jednostek, ale nie więcej niż o 16,8 jednostek.
12
Przedział ufności dla współczynnika regresji (parametru b1 w modelu y = b0 + b1 x) pozwala także na
weryfikację hipotezy o nieistotności regresji H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . Gdyby do wyznaczonego
przedziału ufności należało zero, to wtedy nie mamy podstaw do odrzucenia hipotezy zerowej, w innym przypadku
hipotezę zerową odrzucamy na założonym poziomie istotności. Dokładnie taką sytuację mamy w naszym przykładzie,
przedział <11,34; 16,80> nie zawiera zera, tym samym odrzucamy H 0 : b1 = 0 na korzyść H1 : b1 ≠ 0 . Inaczej mówiąc
statystycznie wykazaliśmy, że istnieje istotny związek funkcyjny między wydajnością pracy a logarytmem stażu pracy.
Hipoteza o nieistotności regresji H 0 : b1 = 0 , może być także weryfikowana testem F Fishera-Snedecora,
stosowne wyniki mamy w obszarze A6:E8. Jak widzimy wartość empiryczna statystyki F jest bardzo duża, z kolei
p-value jest mniejsze od domyślnego α = 0,05 , tym samym hipotezę zerową odrzucamy na korzyść alternatywy
H1 : b1 ≠ 0 . W tych sytuacjach, gdy (liniowy) model regresji będzie zawierał więcej niż jedną zmienną objaśniającą
test F będzie jedynym testem, który możemy wykorzystać do weryfikacji hipotezy o nieistotności regresji.
W komórce B11 mamy zwróconą wartość współczynnika determinacji R 2 , w naszym przypadku jest to 86,7% liczbie tej możemy nadać następującą interpretację: zmienność wydajności pracy w 86,7% jest wyjaśniona logarytmem
naturalnym stażu pracy.
W komórce E11 została wypisana wartość odchylenia standardowego reszt losowych. Wynik ten mówi o
przeciętnym odchyleniu wartości empirycznych i teoretycznych wydajności pracy.
3.3.1
Prognozowanie w modelu logarytmicznym
Model y = b0 + b1 z , gdzie z = ln( x) jest istotny statystycznie i są spełnione dwa istotne założenia MNK, tym
samym możemy wykorzystać wyestymowany model do estymacji teoretycznych wartości wydajności pracy dla
ustalonych wartości stażu pracy. Powiedzmy, że będziemy chcieli wyznaczyć te wartości dla x01 =10 oraz dla x02 = 12 .
Do wykonania tej prognozy będziemy mogli skorzystać z procedur skoroszytu StatystykaJG.xlsm, ale wcześniej
musimy przygotować potrzebne dane.
Poniżej widok skoroszytu obliczeniowego (WydajnoscPracy) przy otwartym oknie dialogowym polecenia
Prognozowanie z menu Regresja.
W obszarze B45:B47 mamy wpisaną etykietę zmiennych niezależnych (x0), oraz obie interesujące nas wartości
stażu pracy. Z uwagi na postać modelu (logarytmiczny, a nie liniowy) w obszarze C45:C47 wprowadzono etykietę i
wartości zmiennej z = ln( x) . Obszar ten został wskazany w polu kontrolki Wskaż obszar zmiennych niezależnych okna
dialogowego procedury Prognozowanie.
13
Wcześniejsze trzy kontrolki wymagały wskazania:
-
obszaru oszacowań parametrów modelu (B2:B4);
-
obszaru stopni swobody i średniego kwadratu odchyleń (A8:C8);
-
obszaru macierzy odwrotnej do V0 (A13:B15).
Po kliknięciu przycisku OK na prawo od obszaru C45:C47 zwracane są wyniki prognozy.
Kolejno mamy wyznaczoną wartość regresyjną (dla x=10 jest to 115,46), wynik ten można zinterpretować
następująco: średnia wydajność pracowników z dziesięcioletnim stażem pracy będzie równa 115,46 jednostek. Wniosek
ten obarczony jest błędem ± 1,48.
W obszarze F46:G46 mamy dolny i górny przedział ufności dla wartości regresyjnej wyznaczony przy α = 0,05 ,
możemy nadać mu następującą interpretację: z p-stwem 0,95 mamy prawo oczekiwać, że średnia wydajność pracy
pracowników z 10-letnim stażem będzie nie mniejsza niż 112,35 jednostek, ale nie większa niż 118.58 jednostek.
A jakiej wydajności można spodziewać się po zatrudnieniu konkretnego pracownika z dziesięcioletnim stażem?
Okazuje się, że najlepszą oceną oczekiwanej wydajności będzie wartość regresyjna, czyli 115,46 jednostek, ale
błąd tej oceny jest znacznie większy i wynosi ± 5,09. W obszarze I46:J46 mamy wyznaczoną dolną i górną granicę
przedziału ufności dla prawdziwej (w populacji) wydajności pracy przy stażu 10-letnim (są to tzw. granice predykcji).
Przedział ten można zinterpretować następująco: z p-stem 0,95 mamy prawo oczekiwać, że wydajność pracy
pracownika z 10-cio letnim stażem pracy będzie nie mniejsza niż 104,77 jednostek, ale nie większa niż 126,16
jednostek.
Ostatnia kolumna zawiera względne wartości błędów prognozy ex ante. W przypadku prognozowania
wydajności pracy dla x = 10 błąd ten jest równy 4,41% i określa jak duży błąd popełniamy przyjmując, że
prognozowana wydajność pracy będzie równa prognozie punktowej, czyli 115,46.
Procedura Linowa może także przygotować dwa interesujące wykresy. Pierwszy z nich pokazuje rozrzut punktów
empirycznych w funkcji zmiennej niezależnej, wartości teoretyczne wynikające z modelu, dolne i górne granice
przedziałów ufności dla wartości regresyjnej (średniej) oraz dolne i górne granice przedziałów predykcji (dla realizacji
pojedynczych wartości zmiennej losowej y-ek).
130
116
Yi
Yi (teor.)
102
dolny p.u
górny p.u
88
dolny p.p
górny p.p
74
-0,7
60
-0,1
0,6
1,2
1,9
2,5
14
Kolejny wykres pokazuje rozkład reszt w funkcji zmiennej niezależnej, wykres ten jest uzupełnieniem do
weryfikacji hipotezy o poprawności doboru modelu funkcji regresji.
11
7
3
-0,7
-2
-0,1
0,6
1,2
1,9
2,5
-6
-10
Szczegółowa analiza rozkładu reszt losowych modelu y = a + b ln(x) sugeruje, że być może znajdziemy jeszcze
inny model opisujący badane zjawisko równie dobrze, a może nawet lepiej niż model logarytmiczny.
3.4 Wydajność pracy, model potęgowy y = b0 x
b1
W poprzednim rozdziale zostało zasugerowane, że być może istnieje inny jeszcze model niż logarytmiczny do
opisania zależności między wydajnością pracy a stażem pracy pracownika. Wydaje się, że możemy rozważyć
zastosowanie modelu potęgowego postaci y = b0 x b1 , którego wykres spełnia nasze oczekiwania (wypukły, a więc
funkcja będzie rosła coraz wolniej).
Estymacja tego modelu wymaga jego wcześniejszej linearyzacji polegającej na obustronnym logarytmowaniu.
Mamy ln( y ) = ln(a ) + ln( x b ) = ln(a ) + b ln( x) . Model ten możemy formalnie zapisać jako liniowy: w = B0 + B1 z , gdzie
w = ln(y ) , a z = ln(x) .
Przed wykorzystaniem procedury Liniowa musimy przygotować dane, które wykorzystamy do estymacji modelu.
W naszym przypadku zostało to zrobione w arkuszu DanePotegowy skoroszytu WydajnoscPracy, gdzie w C1 i
D1 wpisano etykiety nowych zmiennych, a w C2 formułę =LN(A2), która została skopiowana najpierw do D2, a
następnie formuły z C2:D2 na obszar C2:D21.
15
Po przygotowaniu danych możemy już uruchomić procedurę Liniowa z menu Regresja skoroszytu
StatystykaJG.xls, jako obszar danych dla zmiennej x wskażemy tym razem C1:C21, a jako obszar dla zmiennej
y-ek odpowiednio D1:D21.
Podobnie jak przy wcześniejszych estymacjach w zakładce Grafika i badanie założeń zaznaczamy wszystkie pola
wyboru.
Po kliknięciu przycisku OK procedura zwraca wyniki estymacji do nowego arkusza, po zakończeniu jej pracy
nazwa tego arkusza została zmieniona na WynikiPotegowy.
Poniżej widok fragmentu arkusza WynikiPotegowy, jak widzimy wszystkie założenia MNK są spełnione.
Analiza wyników estymacji z obszaru A1:F11 pokazuje, że ocena współczynnika regresji jest równa 0,14 i jest
wyznaczona z błędem ± 0,01, z uwagi na wprowadzoną transformację (obu zmiennych) wielkości tej można nadać
następującą interpretację: jeżeli logarytm naturalny stażu pracy wzrośnie o jedną jednostkę, to logarytm naturalny
wydajności pracy średnio wzrośnie o 0,14 jednostek.
16
Z faktu, że obie granice przedziału ufności dla współczynnika regresji są tego samego znaku wnioskujemy, że
hipotezę o nieistotności regresji H 0 : B1 = 0 musimy odrzucić na korzyść alternatywy H1 : B1 ≠ 0 , co oznacza, że
istnieje istotny związek liniowy między logarytmem wydajności pracy a logarytmem stażu pracy.
Warto jeszcze zwrócić uwagę na wielkość współczynnika determinacji (komórka B11). Uzyskany wynik ma taką
interpretację: zmienność logarytmu naturalnego wydajności pracy jest w 88,1% wyjaśniona wpływem logarytmu
stażu pracy (pamiętamy o dokonanej linearyzacji).
3.4.1
Prognozowanie w modelu potęgowym
Przed uruchomieniem procedury Prognozowanie z menu Regresja musimy odpowiednio przygotować obszar
argumentów, dla których chcemy wykonać prognozę. W pokazanej sytuacji argumenty te zostały wpisane w obszarze
B43:B45, ale do wykonania prognozy musimy je przekształcić wg formuły z 0 = ln( x0 ) , co zostało zrobione w obszarze
C43:C45.
Poniżej widok okna dialogowego
wykorzystywanymi do prognozy.
procedury
Prognozowanie
z
zaznaczonymi
obszarami
Klik przycisku OK zwraca wyniki prognozy na prawo od obszaru C43:C45, tak jak to pokazano poniżej.
danych
17
Musimy jednak pamiętać, że zwrócone dane nie odnoszą się do wydajności pracy, lecz do jej logarytmu
naturalnego! Jeżeli chcemy wiedzieć, jakiej teoretycznie wydajności pracy możemy oczekiwać dla zadanego stażu, to
musimy dokonać retransformacji uzyskanych wartości wg wzoru: y = EXP(w) . Stosowne formuły musimy wpisać
sami, w efekcie uzyskamy wyniki takie, jak pokazane niżej (obszar B48:K50). Błąd standardowy oraz błąd predykcji
nie mogą być retransformowane wg tej samej formuły, w pokazanym niżej przykładzie retransformowane błędy
predykcji zostały wyznaczone z definicji przedziału ufności wg formuły zapisanej w komórce H49 (liczba 2,1
widoczna w tej formule to wartość testu t-Studenta dla 18 stopni swobody i alfa = 0,05). Retransformowany błąd
predykcji był potrzebny dla wyznaczenia względnego błędu prognozy ex ante.
Wyniki te interpretujemy analogicznie, jak w poprzednich przykładach.
Na zakończenie jeszcze wykres reszt badanego modelu, ich rozkład potwierdza wyniki weryfikacji założeń
modelu potęgowego.
0,2
0,1
0,1
0,0
-0,7
-0,1
0,0
-0,1
0,6
1,2
1,9
2,5
18
4 Literatura
1.
Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000
2.
Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe
PWN, Warszawa 2003
3.
Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja
Wydawnicza PLACET, Warszawa, 1998
4.
Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
5.
Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i
Marketingu, Sochaczew, 2000
6.
Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004
7.
Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
8.
Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania.
Wydawnictwo Naukowe PWN, Warszawa 2008
9.
Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003

Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych

Transkrypt

Podobne dokumenty

Cecha niezależna

Staże dla osób powyżej 29 roku życia

List motywacyjny

OPINIA PRACODAWCY o odbytym stażu przez osobę bezrobotną

zajecia semestr letni 11 do 12

Metoda najmniejszych kwadratów dla estymacji

Statystyka i symulacje z wykorzystaniem R

kliknij by pobrać