Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych
Transkrypt
Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych
M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u Pro gn o zo w an i e i sy mu l ac je Janusz Górczyński Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2012 2 Od Autora Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i symulacje” przygotowanego dla studentów kierunku zarządzanie. Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane wcześniej testy internetowe. Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli prognostycznych. Jak korzystać z tych materiałów? Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie. Janusz Górczyński 3 Spis treści 1 MODEL KRZYWOLINIOWY............................................................................................................................ 4 2 LINEARYZACJA MODELU .............................................................................................................................. 5 3 PRZYKŁAD Z WYDAJNOŚCIĄ PRACY ......................................................................................................... 6 3.1 ESTYMACJA MODELU LINIOWEGO y = b0 + b1 x ........................................................................................... 6 3.2 ESTYMACJA MODELU y = b0 + b1 x ......................................................................................................... 8 3.3 ESTYMACJA MODELU y = b0 + b1 ln( x) .................................................................................................... 10 3.3.1 3.4 WYDAJNOŚĆ PRACY, MODEL POTĘGOWY y = b0 x 3.4.1 4 Prognozowanie w modelu logarytmicznym ................................................................................. 12 b1 .................................................................................. 14 Prognozowanie w modelu potęgowym......................................................................................... 16 LITERATURA .................................................................................................................................................... 18 4 1 Model krzywoliniowy Powiedzmy, że interesuje nas problem określenia, czy między wydajnością pracy pracowników a stażem pracy istnieje związek funkcyjny. Dla rozwiązania tego problemu w pewnej firmie pobrano próbę losową pracowników produkcyjnych ustalając dla każdego z nich dwie cechy: wydajność pracy (zmienna objaśniana, zmienna Y) oraz staż pracy (zmienna objaśniająca, zmienna X). Poniżej widok arkusza kalkulacyjnego Excel z wynikami naszej próby. Zakładamy, że modelem dla zmiennej objaśnianej Y może być zmienna losowa normalna o wartości oczekiwanej będącej funkcją zmiennej objaśniającej X i stałej wariancji. Istotnym problemem do rozwiązania jest ustalenie, czy m( x) = a + bx , czy też musimy wyjść poza klasyczny model liniowy. Ponieważ dane empiryczne zapisane są w Excelu, to w łatwy sposób można przygotować wykres rozrzutu punktów empirycznych XY. Dane empiryczne są tak ustawione, że pierwszy wiersz opisuje oś x-ów, dzięki temu kreator wykresów pozwala na przygotowanie wykresu bez specjalnych działań z naszej strony. Wystarczy wybór typu i dalej klik przycisku Zakończ. Utworzony wykres wymaga elementarnego formatowania obejmującego usunięcie legendy (nic nowego nie wnosi) oraz zmiana skali opisu osi y-ek. Element wykresu formatujemy po jego wcześniejszym zaznaczeniu, z reguły z pomocniczego menu uruchamianego prawym przyciskiem myszy. Poniżej widok wykresu po formatowaniu, dzięki wprowadzonym zmianom charakter związku między badanymi cechami jest bardziej wyraźny. Wydajnosc 125 120 115 110 105 100 95 90 85 80 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 5 Analiza rozkładu punktów empirycznych sugeruje, że jednym z rozpatrywanych modeli może być klasyczny model liniowy y = b0 + b1 x , z kolei biorąc pod uwagę charakter zjawiska dość trudno jest przyjąć założenie, że wydajność pracy będzie rosła w tym samym tempie w całym zakresie możliwych wartości stażu pracy. Być może lepszym modelem do opisu badanej zależności będzie model pierwiastkowy y = b0 + b1 x lub logarytmiczny y = b0 + b1 ln( x) . Cechą charakterystyczną obu modeli jest wykres wypukły, a więc taki, który charakteryzuje funkcję rosnącą coraz wolniej. Reasumując powinniśmy sprawdzić, który z trzech poniższych modeli najlepiej opisuje zależność wydajności pracy od staży pracy pracownika: 1. y = b0 + b1 x 2. y = b0 + b1 x 3. y = b0 + b1 ln( x) Do estymacji tych modeli jak i weryfikacji założeń metody najmniejszych kwadratów można wykorzystać dowolne narzędzie, między innymi można wykorzystać procedury statystyczne dostarczane przez skoroszyt StatystykaJG.xlsm. Przy otwieraniu tego skoroszytu obowiązkowo musimy włączyć makra, jest to niezbędne, jeżeli chcemy korzystać z procedur statystycznych tego skoroszytu. Formalnie metoda najmniejszych kwadratów pozwala na estymację parametrów modelu liniowego, czyli takiego, w którym argument funkcji jest w pierwszej potędze. Ten warunek spełnia wyłącznie pierwszy z trzech wymienionych wyżej modeli. W przypadku dwóch pozostałych modeli musimy podjąć pewne działania, które pozwolą nam na użycie metody najmniejszych kwadratów. 2 Linearyzacja modelu Powiedzmy, że interesuje nas estymacja modelu regresyjnego postaci y = b0 + b1 x . Estymacja parametrów tego modelu wymaga jego sprowadzenia do postaci liniowej, czyli takiej, w której argument funkcji będzie w pierwszej potędze. W przypadku modelu y = b0 + b1 x wystarczy wprowadzenie nowej zmiennej z = x , aby otrzymać formalny model liniowy postaci y = b0 + b1 ⋅ z , którego parametry mogą już być estymowane metodą najmniejszych kwadratów. Przekształcenie, które sprowadza model nieliniowy do formalnie modelu liniowego nazywamy linearyzacją modelu. Przekształcenie może dotyczyć zarówno zmiennej niezależnej jak i zmiennej zależnej. Poniżej kilka przykładów linearyzacji modeli krzywoliniowych: Model krzywoliniowy Przekształcenie y = b0 + b1 ⋅ x z=x p p Model zlinearyzowany y = b0 + b1 ⋅ z y = b0 + b1 ⋅ ln( x) dla x > 0 z = ln(x) y = b0 + b1 ⋅ z y = b0 ⋅ a log a y = log a b0 + b1 x w = B0 + b1 ⋅ x b1 x y = b0 + b1 ⋅ gdzie a ∈ R+ − {1} 1 x dla x ≠ 0 w = log a y B0 = log a b0 z= 1 x y = b0 + b1 ⋅ z y = b0 + b1 x + b2 ln( x) dla x > 0 z1 = x; z 2 = ln( x) y = b0 + b1 z1 + b2 z 2 y = b0 + b1 x + ... + bk x k z1 = x; ... z k = x k y = b0 + b1 z1 + ... + bk z k 6 Przed rozpoczęciem estymacji parametrów modelu krzywoliniowego musimy wyznaczyć wartości zmiennych pomocniczych i wszelkie dalsze obliczenia wykonujemy już na nowym (przekształconym) zestawie danych. Sprowadzenie modelu nieliniowego do liniowego może też prowadzić do pewnych ograniczeń związanych zarówno ze skorelowaniem zmiennych przekształconych (konsekwencją mogą być trudności z rozwiązaniem układu równań) jak i z interpretacją parametrów modelu. Wrócimy do tych ograniczeń w przyszłości. 3 Przykład z wydajnością pracy Procedury tego skoroszytu wymagają, aby dane do obliczeń były ustawione pionowo, stąd przed wywołaniem procedury Liniowa z menu Regresja dane zostały tak ustawione zaczynając od komórki A1. 3.1 Estymacja modelu liniowego y = b0 + b1 x W pokazanej sytuacji w obszarze A1:B21 mamy dane empiryczne pozwalające na estymację modelu liniowego y = b0 + b1 x . Po wywołaniu polecenia Liniowa z menu Regresja wprowadzamy informacje o położeniu danych wyjściowych oraz miejscu zwrócenia wyników (zakładka Dane wejściowe). 7 Po przejściu do zakładki Grafika i badanie założeń uaktywniamy te pola wyboru, które odpowiadają oczekiwanym przez nas wykresom oraz badaniom założeń. W poniższej sytuacji wybrane zostały wszystkie oferowane wykresy oraz zlecenie przeprowadzenia trzech testów dotyczących poprawności modelu, braku autokorelacji oraz normalności reszt losowych. Po kliku przycisku OK procedura zwraca wyniki estymacji modelu oraz wykresy i wyniki weryfikacji założeń, jeżeli takie były zadysponowane. Poniżej pokazany fragment arkusza z wynikami estymacji obejmujący weryfikację trzech założeń. W obszarze J1:M6 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że zależność między wydajnością pracy a stażem pracy pracowników może być opisana modelem liniowym. Do weryfikacji wykorzystano test serii, wniosek końcowy jest taki, że nie mamy podstaw do odrzucenia hipotezy zerowej. Oznacza to, że badana zależność może być opisana modelem liniowym. 8 W obszarze J10:M14 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że reszty losowe są normalne ze średnią 0 i odchyleniem 5,17 wobec alternatywy, że to nie jest taki rozkład. Wyniki weryfikacji testem w Shapiro-Wilka są takie, że hipotezę zerową musimy odrzucić, tym samym nie jest spełnione jedno z ważnych założeń metody najmniejszych kwadratów. Odrzucenie tej hipotezy (o normalności reszt losowych) może wynikać z wielu przyczyn, jedną z nich może być problem doboru modelu. Wprawdzie testem serii potwierdziliśmy, że model liniowy jest poprawny, ale to nie oznacza, że nie istnieje lepszy model, zwłaszcza wtedy, gdy nie jest spełnione założenie o normalności reszt. Proszę zwrócić uwagę, że weryfikowana była hipoteza zerowa o tym, że reszty są losowe ze średnią 0 i odchyleniem standardowym 5,17, być może one są losowe, ale z innym odchyleniem? Jeżeli istnieje lepszy model (niż liniowy), dokładniej opisujący badaną zależność, to będziemy uzyskiwać mniejszą ocenę odchylenia standardowego od modelu, tym samym zmieni się postać hipotezy zerowej zakładającej normalność reszt. Za taką sugestią przemawia wykres rozkładu reszt pokazany poniżej. Dość wyraźnie widać, że w modelu pominięto jakiś składnik krzywoliniowy. Reszty nie są rozłożone losowo wokół prostej y = 0 , lecz są funkcją (wypukłą) stażu pracy. Wykres reszt w funkcji x-a 15 11 6 2 -3 0 -7 3 5 8 10 13 Reasumując, model liniowy nie może być wykorzystany do poprawnego opisu badanej przez nas zależności, pozostaje nam sprawdzenie poprawności dwóch kolejnych modeli. 3.2 Estymacja modelu y = b0 + b1 x Przed estymacją tego modelu musimy zauważyć, że nie jest to model liniowy, stąd przed estymacją musimy dokonać jego linearyzacji. Wprowadzając nową zmienną z = x sprowadzamy model y = b0 + b1 x do (formalnie) modelu liniowego postaci y = b0 + b1 z . Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu y = b0 + b1 z , w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu z = x . Do arkusza DanePierwiastkowe zostały przekopiowane dane wyjściowe, a następnie w C1 wpisana etykieta SQR(x), a w C2 formuła =PIERWIASTEK(A2). Formuła z C2 została następnie skopiowana na obszar C3:C21. Kolejny zrzut ekranowy pokazuje arkusz DanePierwiastkowe z tak przygotowanymi danymi, tym razem po wywołaniu procedury Liniowa jako obszar danych dla zmiennej X wskażemy C1:C21, a jako obszar danych dla zmiennej Y-ek zakres komórek B1:B21. 9 Poniżej widok obszaru danych i widok formularza procedury Liniowa z zakładką Dane wyjściowe, w której wskazano obszary niezbędne dla estymacji modelu y = b0 + b1 x , gdzie z = x . Podobnie jak w przypadku estymacji modelu liniowego w zakładce Grafika i badanie założeń zaznaczamy oba wykresy i weryfikację trzech założeń. Klik przycisku OK uruchamia działanie procedury, a wyniki estymacji zostają zwrócone do nowego arkusza (później nazwanego WynikiPierwiastkowy). Poniższy zrzut ekranowy tego arkusza pokazuje wyniki weryfikacji założeń, jak widzimy model pierwiastkowy nie może być wykorzystany do opisu badanej zależności. Spośród trzech badanych założeń nie jest spełnione założenie o poprawności doboru modelu, niejako jego konsekwencją jest także odrzucenie hipotezy o normalności reszt losowych. Pozostaje nam sprawdzenie, czy do opisu badanej zależności można wykorzystać model logarytmiczny. 10 3.3 Estymacja modelu y = b0 + b1 ln( x) Podobnie jak w modelu pierwiastkowym wprowadzamy podstawienie z = ln(x) , co formalnie sprowadza model logarytmiczny do postaci y = b0 + b1 z , a jego parametry możemy już estymować metodą najmniejszych kwadratów. Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu y = b0 + b1 z , w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu z = ln( x) . Zostało to zrobione w arkuszu o nazwie DaneLogarytmiczny, gdzie przekopiowano dane oryginalne, a następnie dodano etykietę Ln(x) w komórce C1 i formułę =LN(A2) w komórce C2. Formuła z C2 została następnie skopiowana na obszar C3:C21. Mając przygotowane dane możemy wywołać procedurę Liniowa z menu Regresja wskazując odpowiednie obszary danych. Podobnie jak w poprzednich estymacjach w zakładce Grafika i badanie założeń zaznaczamy oba wykresy i weryfikację założeń o poprawności doboru modelu i normalności reszt losowych. Klik przycisku OK uruchamia działanie procedury, a wyniki estymacji zostają zwrócone do nowego arkusza (nazwanego WynikiLogarytmiczny). 11 Analizując wyniki weryfikacji założeń z obszaru J1:M6 oraz J10:M14 widzimy, że wybór modelu logarytmicznego jest uzasadniony statystycznie. Reasumując, model logarytmiczny może być dalej wykorzystywany do wyznaczania teoretycznej wydajności pracy przy zadanym stażu pracy. Przed wykonaniem prognozy powinniśmy przeanalizować wyniki estymacji logarytmicznego – procedura Liniowa zwróciła te wyniki zaczynając od komórki A1. parametrów modelu W obszarze A2:E4 mamy oceny parametrów modelu i błędy standardowe tych ocen oraz dolne i górne granice przedziałów ufności dla prawdziwych wartości tych parametrów w populacji generalnej. Ocena stałej regresji jest równa 83,08 i jest wyznaczona z błędem ± 2,27, podobnie ocena współczynnika regresji jest równa 14,07 i jest wyznaczona z błędem ± 1,30 (jeżeli przyjmiemy, że prawdziwa wartość parametru b jest równa 14,07, to popełnimy błąd rzędu ± 1,30). Dla obu parametrów oszacowane są dolne i górne granice 95% przedziałów ufności, przykładowo dla współczynnika regresji mamy przedział b1 ∈< 11,34; 16,80 > , który możemy zinterpretować następująco: z p-stwem 0,95 mamy prawo oczekiwać, że współczynnik regresji jest nie mniejszy niż 11,34, ale nie większy niż 16,80. Jak wiemy współczynnik regresji ma następującą interpretację merytoryczną: jeżeli logarytm stażu pracy wzrośnie o jedną jednostkę, to wydajność pracy średnio wzrośnie o 14,07 jednostek (logarytm stażu pracy a nie staż pracy, bo argumentem funkcji był nie staż pracy a jego logarytm naturalny). Do interpretacji możemy wykorzystać także przedział ufności dla współczynnika regresji: z p-stwem 0,95 mamy prawo oczekiwać, że przy wzroście logarytmu stażu pracy o jedną jednostkę wydajność pracy średnio wzrośnie nie mniej niż o 11,34 jednostek, ale nie więcej niż o 16,8 jednostek. 12 Przedział ufności dla współczynnika regresji (parametru b1 w modelu y = b0 + b1 x) pozwala także na weryfikację hipotezy o nieistotności regresji H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . Gdyby do wyznaczonego przedziału ufności należało zero, to wtedy nie mamy podstaw do odrzucenia hipotezy zerowej, w innym przypadku hipotezę zerową odrzucamy na założonym poziomie istotności. Dokładnie taką sytuację mamy w naszym przykładzie, przedział <11,34; 16,80> nie zawiera zera, tym samym odrzucamy H 0 : b1 = 0 na korzyść H1 : b1 ≠ 0 . Inaczej mówiąc statystycznie wykazaliśmy, że istnieje istotny związek funkcyjny między wydajnością pracy a logarytmem stażu pracy. Hipoteza o nieistotności regresji H 0 : b1 = 0 , może być także weryfikowana testem F Fishera-Snedecora, stosowne wyniki mamy w obszarze A6:E8. Jak widzimy wartość empiryczna statystyki F jest bardzo duża, z kolei p-value jest mniejsze od domyślnego α = 0,05 , tym samym hipotezę zerową odrzucamy na korzyść alternatywy H1 : b1 ≠ 0 . W tych sytuacjach, gdy (liniowy) model regresji będzie zawierał więcej niż jedną zmienną objaśniającą test F będzie jedynym testem, który możemy wykorzystać do weryfikacji hipotezy o nieistotności regresji. W komórce B11 mamy zwróconą wartość współczynnika determinacji R 2 , w naszym przypadku jest to 86,7% liczbie tej możemy nadać następującą interpretację: zmienność wydajności pracy w 86,7% jest wyjaśniona logarytmem naturalnym stażu pracy. W komórce E11 została wypisana wartość odchylenia standardowego reszt losowych. Wynik ten mówi o przeciętnym odchyleniu wartości empirycznych i teoretycznych wydajności pracy. 3.3.1 Prognozowanie w modelu logarytmicznym Model y = b0 + b1 z , gdzie z = ln( x) jest istotny statystycznie i są spełnione dwa istotne założenia MNK, tym samym możemy wykorzystać wyestymowany model do estymacji teoretycznych wartości wydajności pracy dla ustalonych wartości stażu pracy. Powiedzmy, że będziemy chcieli wyznaczyć te wartości dla x01 =10 oraz dla x02 = 12 . Do wykonania tej prognozy będziemy mogli skorzystać z procedur skoroszytu StatystykaJG.xlsm, ale wcześniej musimy przygotować potrzebne dane. Poniżej widok skoroszytu obliczeniowego (WydajnoscPracy) przy otwartym oknie dialogowym polecenia Prognozowanie z menu Regresja. W obszarze B45:B47 mamy wpisaną etykietę zmiennych niezależnych (x0), oraz obie interesujące nas wartości stażu pracy. Z uwagi na postać modelu (logarytmiczny, a nie liniowy) w obszarze C45:C47 wprowadzono etykietę i wartości zmiennej z = ln( x) . Obszar ten został wskazany w polu kontrolki Wskaż obszar zmiennych niezależnych okna dialogowego procedury Prognozowanie. 13 Wcześniejsze trzy kontrolki wymagały wskazania: - obszaru oszacowań parametrów modelu (B2:B4); - obszaru stopni swobody i średniego kwadratu odchyleń (A8:C8); - obszaru macierzy odwrotnej do V0 (A13:B15). Po kliknięciu przycisku OK na prawo od obszaru C45:C47 zwracane są wyniki prognozy. Kolejno mamy wyznaczoną wartość regresyjną (dla x=10 jest to 115,46), wynik ten można zinterpretować następująco: średnia wydajność pracowników z dziesięcioletnim stażem pracy będzie równa 115,46 jednostek. Wniosek ten obarczony jest błędem ± 1,48. W obszarze F46:G46 mamy dolny i górny przedział ufności dla wartości regresyjnej wyznaczony przy α = 0,05 , możemy nadać mu następującą interpretację: z p-stwem 0,95 mamy prawo oczekiwać, że średnia wydajność pracy pracowników z 10-letnim stażem będzie nie mniejsza niż 112,35 jednostek, ale nie większa niż 118.58 jednostek. A jakiej wydajności można spodziewać się po zatrudnieniu konkretnego pracownika z dziesięcioletnim stażem? Okazuje się, że najlepszą oceną oczekiwanej wydajności będzie wartość regresyjna, czyli 115,46 jednostek, ale błąd tej oceny jest znacznie większy i wynosi ± 5,09. W obszarze I46:J46 mamy wyznaczoną dolną i górną granicę przedziału ufności dla prawdziwej (w populacji) wydajności pracy przy stażu 10-letnim (są to tzw. granice predykcji). Przedział ten można zinterpretować następująco: z p-stem 0,95 mamy prawo oczekiwać, że wydajność pracy pracownika z 10-cio letnim stażem pracy będzie nie mniejsza niż 104,77 jednostek, ale nie większa niż 126,16 jednostek. Ostatnia kolumna zawiera względne wartości błędów prognozy ex ante. W przypadku prognozowania wydajności pracy dla x = 10 błąd ten jest równy 4,41% i określa jak duży błąd popełniamy przyjmując, że prognozowana wydajność pracy będzie równa prognozie punktowej, czyli 115,46. Procedura Linowa może także przygotować dwa interesujące wykresy. Pierwszy z nich pokazuje rozrzut punktów empirycznych w funkcji zmiennej niezależnej, wartości teoretyczne wynikające z modelu, dolne i górne granice przedziałów ufności dla wartości regresyjnej (średniej) oraz dolne i górne granice przedziałów predykcji (dla realizacji pojedynczych wartości zmiennej losowej y-ek). 130 116 Yi Yi (teor.) 102 dolny p.u górny p.u 88 dolny p.p górny p.p 74 -0,7 60 -0,1 0,6 1,2 1,9 2,5 14 Kolejny wykres pokazuje rozkład reszt w funkcji zmiennej niezależnej, wykres ten jest uzupełnieniem do weryfikacji hipotezy o poprawności doboru modelu funkcji regresji. Wykres reszt w funkcji x-a 11 7 3 -0,7 -2 -0,1 0,6 1,2 1,9 2,5 -6 -10 Szczegółowa analiza rozkładu reszt losowych modelu y = a + b ln(x) sugeruje, że być może znajdziemy jeszcze inny model opisujący badane zjawisko równie dobrze, a może nawet lepiej niż model logarytmiczny. 3.4 Wydajność pracy, model potęgowy y = b0 x b1 W poprzednim rozdziale zostało zasugerowane, że być może istnieje inny jeszcze model niż logarytmiczny do opisania zależności między wydajnością pracy a stażem pracy pracownika. Wydaje się, że możemy rozważyć zastosowanie modelu potęgowego postaci y = b0 x b1 , którego wykres spełnia nasze oczekiwania (wypukły, a więc funkcja będzie rosła coraz wolniej). Estymacja tego modelu wymaga jego wcześniejszej linearyzacji polegającej na obustronnym logarytmowaniu. Mamy ln( y ) = ln(a ) + ln( x b ) = ln(a ) + b ln( x) . Model ten możemy formalnie zapisać jako liniowy: w = B0 + B1 z , gdzie w = ln(y ) , a z = ln(x) . Przed wykorzystaniem procedury Liniowa musimy przygotować dane, które wykorzystamy do estymacji modelu. W naszym przypadku zostało to zrobione w arkuszu DanePotegowy skoroszytu WydajnoscPracy, gdzie w C1 i D1 wpisano etykiety nowych zmiennych, a w C2 formułę =LN(A2), która została skopiowana najpierw do D2, a następnie formuły z C2:D2 na obszar C2:D21. 15 Po przygotowaniu danych możemy już uruchomić procedurę Liniowa z menu Regresja skoroszytu StatystykaJG.xls, jako obszar danych dla zmiennej x wskażemy tym razem C1:C21, a jako obszar dla zmiennej y-ek odpowiednio D1:D21. Podobnie jak przy wcześniejszych estymacjach w zakładce Grafika i badanie założeń zaznaczamy wszystkie pola wyboru. Po kliknięciu przycisku OK procedura zwraca wyniki estymacji do nowego arkusza, po zakończeniu jej pracy nazwa tego arkusza została zmieniona na WynikiPotegowy. Poniżej widok fragmentu arkusza WynikiPotegowy, jak widzimy wszystkie założenia MNK są spełnione. Analiza wyników estymacji z obszaru A1:F11 pokazuje, że ocena współczynnika regresji jest równa 0,14 i jest wyznaczona z błędem ± 0,01, z uwagi na wprowadzoną transformację (obu zmiennych) wielkości tej można nadać następującą interpretację: jeżeli logarytm naturalny stażu pracy wzrośnie o jedną jednostkę, to logarytm naturalny wydajności pracy średnio wzrośnie o 0,14 jednostek. 16 Z faktu, że obie granice przedziału ufności dla współczynnika regresji są tego samego znaku wnioskujemy, że hipotezę o nieistotności regresji H 0 : B1 = 0 musimy odrzucić na korzyść alternatywy H1 : B1 ≠ 0 , co oznacza, że istnieje istotny związek liniowy między logarytmem wydajności pracy a logarytmem stażu pracy. Warto jeszcze zwrócić uwagę na wielkość współczynnika determinacji (komórka B11). Uzyskany wynik ma taką interpretację: zmienność logarytmu naturalnego wydajności pracy jest w 88,1% wyjaśniona wpływem logarytmu stażu pracy (pamiętamy o dokonanej linearyzacji). 3.4.1 Prognozowanie w modelu potęgowym Przed uruchomieniem procedury Prognozowanie z menu Regresja musimy odpowiednio przygotować obszar argumentów, dla których chcemy wykonać prognozę. W pokazanej sytuacji argumenty te zostały wpisane w obszarze B43:B45, ale do wykonania prognozy musimy je przekształcić wg formuły z 0 = ln( x0 ) , co zostało zrobione w obszarze C43:C45. Poniżej widok okna dialogowego wykorzystywanymi do prognozy. procedury Prognozowanie z zaznaczonymi obszarami Klik przycisku OK zwraca wyniki prognozy na prawo od obszaru C43:C45, tak jak to pokazano poniżej. danych 17 Musimy jednak pamiętać, że zwrócone dane nie odnoszą się do wydajności pracy, lecz do jej logarytmu naturalnego! Jeżeli chcemy wiedzieć, jakiej teoretycznie wydajności pracy możemy oczekiwać dla zadanego stażu, to musimy dokonać retransformacji uzyskanych wartości wg wzoru: y = EXP(w) . Stosowne formuły musimy wpisać sami, w efekcie uzyskamy wyniki takie, jak pokazane niżej (obszar B48:K50). Błąd standardowy oraz błąd predykcji nie mogą być retransformowane wg tej samej formuły, w pokazanym niżej przykładzie retransformowane błędy predykcji zostały wyznaczone z definicji przedziału ufności wg formuły zapisanej w komórce H49 (liczba 2,1 widoczna w tej formule to wartość testu t-Studenta dla 18 stopni swobody i alfa = 0,05). Retransformowany błąd predykcji był potrzebny dla wyznaczenia względnego błędu prognozy ex ante. Wyniki te interpretujemy analogicznie, jak w poprzednich przykładach. Na zakończenie jeszcze wykres reszt badanego modelu, ich rozkład potwierdza wyniki weryfikacji założeń modelu potęgowego. Wykres reszt w funkcji x-a 0,2 0,1 0,1 0,0 -0,7 -0,1 0,0 -0,1 0,6 1,2 1,9 2,5 18 4 Literatura 1. Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000 2. Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe PWN, Warszawa 2003 3. Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja Wydawnicza PLACET, Warszawa, 1998 4. Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 5. Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2000 6. Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004 7. Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 8. Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania. Wydawnictwo Naukowe PWN, Warszawa 2008 9. Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003