1 Prognozowanie terminologia 2 Wybrane metody prognozowania.
Transkrypt
1 Prognozowanie terminologia 2 Wybrane metody prognozowania.
Studia podyplomowe w zakresie przetwarzania, zarz¾ adzania i statystycznej analizy danych Wybrane Metody Prognozowania 1.03.2014 - 2 godziny konwersatorium autor: Adam Kiersztyn 1 Prognozowanie - terminologia Prognozowanie, zwane równiez· predykacja¾ jest opartym na matematycznych podstawach przewidywaniem kszta÷ towanie sie¾ danego zjawiska lub procesu w przysz÷ ości. Przedmiotem prognozowania jest przebieg zjawisk i procesów wszelakiego rodzaju od przyrodniczych. poprzez spo÷ eczne i gospodarcze na technicznych kończac. ¾ Z terminem prognozowanie zwiazane ¾ jest pojecie ¾ prognozy. Róz·nica polega na tym, z·e prognozowanie jest procesem wnioskowania o przewidywanym kszta÷ cie zjawiska, zaś prognoza jest konkretnym wynikiem tego procesu. Na przebieg prognozowanego procesu moga¾ mieć wp÷yw liczne czynniki, które moz·na podzielić na dwie grupy: - czynniki zewnetrzne ¾ (egzogeniczne), czyli takie, na które obiekt prognozy nie ma wp÷ ywu, a które nalez·y uwzglednić ¾ w prognozowaniu, bowiem czynniki te maja¾ istotny wp÷ yw na prognozowane zjawisko - czynniki wewnetrzne ¾ (endogeniczne), czyli takie, na które prognozowany proces ma wp÷ yw. W kaz·dym etapie prognozowania moz·na wyróz·nić nastepuj ¾ ace ¾ etapy: - zde…niowanie problemu prognostycznego - zebranie danych statystycznych opisujacych ¾ dany problem oraz wstepna ¾ analiza dostepnych ¾ danych - wybór metody prognozowania - zbudowanie modelu oraz ocena jego trafności 2 2.1 Wybrane metody prognozowania. Regresja linowa. Najprostsza¾ metoda¾ prognozowania jest regresja liniowa. Za÷ óz·my, z·e w obserwujemy dwie zmienne Y oraz X: O zmiennej losowej Y zak÷adamy, z·e ma rozk÷ ad normalny z wartościa¾ średnia¾ bed ¾ ac ¾ a¾ funkcja¾ liniowa¾ zmiennej X oraz sta÷ ym niezalez·nym od X odchyleniem standardowym, tzn. Y ~N (aX + b; ) 1 Naszym zadaniem jest oszacowanie parametrów funkcji liniowej aX + b na podstawie odpowiedniej próby losowej. Rozwaz·my n elementowa¾ próbe¾ losowa¾ o elementach bed ¾ acych ¾ parami (xi ; yi ) ; 1 i n Zgodnie z za÷ oz·eniami pomiedzy ¾ wielkościami xi oraz yi zachodzi zwiazek ¾ yi = axi + b + ei ; (1) gdzie ei jest reszta, ¾ które reprezentuje stopień niedopasowania pomiedzy ¾ wartościa¾ empiryczna¾ a teoretyczna. ¾ Parametry funkcji liniowej nalez·y dobrać w taki sposób, aby dopasowanie by÷o najlepsze z moz·liwych. Zamierzony efekt zostanie osiagni ¾ ety, ¾ gdy n n X X 2 s= e2i = [yi (axi + b)] i=1 i=1 osiagnie ¾ swoje minimum. Tak określone kryterium estymacji nosi w statystyce nazw¾ e metody najmniejszych kwadratów - MNK. Rozwiazanie ¾ tego problemu sprowadza sie¾ do wyznaczenia pochodnych czastkowych ¾ wzgledem ¾ zmiennych a i b i przyrównania tych pochodnych do zera. mamy zatem nastepuj ¾ acy ¾ uk÷ ad równań 8 n X @s > > = 2 (yi (axi + b)) = 0 > < @b i=1 (2) n X > @s > > = 2 (y (ax + b)) x = 0 : i i i @a i=1 Przyrównanie obu pochodnych czastkowych ¾ do zera tworzy tzw. uk÷ad równań normalnych, a jego rozwiazanie ¾ daja oceny nieznanych parametrów. Zgodnie z ogólenie przyjetymi ¾ normami estymatory (oszacowania) bedziemy ¾ oznaczać b a oraz bb. Przekszta÷ cajac ¾ uk÷ ad równań (2) otrzymujemy nastepuj ¾ ace ¾ wyniki b a = n X (yi y) (xi x) i=1 bb = y n X = (xi 2 x) cov (X; Y ) var (X) (3) i=1 b ax Wzór (3) daje nam oszacowania nieznanych parametrów modelu linowego. W tym miejscu nasuwa sie¾ naturalne pytanie, czy prawdziwe jest za÷ oz·enie, z·e pomiedzy ¾ wartościa¾ oczekiwana¾ zmiennej Y a zmienna¾ X istnieje rzeczywiście liniowy zwiazek. ¾ W celu sprawdzenia poprawności tego za÷ oz·enia nalez·y sprawdzić hipoteze¾ H0 H1 : a=0 : a= 6 0 2 Jeśli nie bedziemy ¾ mieli podstaw do odrzucenia hipotezy zerowej, to za÷oz·enie nie bedzie ¾ s÷ uszne i trzeba bedzie ¾ poszukiwać innego rozwiazania ¾ problemu. W naszym przypadku odrzucenie hipotezy zerowej jest przez Nas jak najbardziej poz·adane, ¾ bowiem pozwala Nam z duz·a¾ doza¾ prawdopodobieństwa stwierdzić, z·e istnieje istotny zwiazek ¾ linowy pomiedzy ¾ zmiennymi X i Y: Hipoteze¾ H0 : a = 0 moz·na zwery…kować stosujac ¾ statystyk¾ e t Studenta: Przy za÷ oz·eniu prawdziwości hipotezy zerowej statystyka t= b a b a =s Sbb1 var (Y ) b acov (X; Y ) (n 2) var (X) (4) ma rozk÷ ad t Studenta z = n 2 stopniami swobody. Jez·eli jtj > t odrzucamy hipoteze¾ zerowa¾ na korzyść hipotezy alternatywnej. 2.2 ;n 2 to Za÷ oz·enia modelu linowego Model linowy opisany wzorem (1) wymaga spe÷nienia trzech bardzo istotnych za÷ oz·eń dotyczacych ¾ reszt losowych. Mianowicie Eei = 0 (5) D2 ei = const (6) cov (ei ; ej ) = 0 dla i 6= j (7) Za÷ oz·enia te moz·na jeszcze wzmocnić poprzez za÷oz·enie normalności reszt. Niestety nie dysponujemy tutaj wystarczajac ¾ a¾ ilościa¾ czasu na wnikliwe badanie tych za÷ oz·eń, zainteresowane osoby odsy÷am do literatury. 2.3 Przyk÷ ad Zgodnie z powiedzeniem, z·e najlepszym przyk÷ adem studenta jest przyk÷ ad, przedstawimy teraz obrazowy przyk÷ad wyznaczania równanie linii regresji pomiedzy ¾ zmiennymi yi xi 3 1 5 2 6 3 7 3 9 4 11 5 12 5 13 6 13 7 16 7 Chcemy wyznaczyć funkcje¾ liniowa¾ opisujac ¾ a¾ zwiazek ¾ y = ax + b w tym celu wykorzystamy wzory (3). Musimy jednak wcześniej obliczyć niezbedne ¾ miary: średnia¾ zmiennej X X= 1 43 (1 + 2 + 3 + 3 + 4 + 5 + 5 + 6 + 7 + 7) = ; 10 10 3 średnia¾ zmiennej Y Y = 1 19 (3 + 5 + 6 + 7 + 9 + 11 + 12 + 13 + 13 + 16) = 10 2 Nastepnie ¾ wyznaczamy kowariancje¾ zmiennych X i Y korzystajac ¾ ze wzoru cov (X; Y ) = EXY EXEX co da sie¾ zapisać w nastepuj ¾ acy ¾ sposób n n 1X xi yi cov (X; Y ) = n i=1 1X xi n i=1 ! n 1X yi n i=1 ! Mamy zatem n 1 483 1X xi yi = (1 2 + 2 5 + 3 6 + 3 7 + 4 9 + 5 11 + 5 12 + 6 13 + 7 13 + 7 16) = n i=1 10 10 Stad ¾ 483 43 19 149 = 10 10 2 20 Do analizy bed ¾ a¾ Nam równiez· niezbedne ¾ wariancje obu zmiennych X i Y: Wyliczamy je ze pomoca¾ znany wzorów cov (X; Y ) = n 1X 2 var (X) = x n i=1 i 2 X ; mamy zatem var (X) = 1 2 1 + 22 + 32 + 32 + 42 + 52 + 52 + 62 + 72 + 72 10 43 10 2 = 381 100 oraz var (Y ) = 1 2 3 + 52 + 62 + 72 + 92 + 112 + 122 + 132 + 132 + 162 10 Poniz·sza tabelka przedstawia zebrane wszystkie niezbedne ¾ wartości miara X Y cov (X; Y ) var (X) var (Y ) 4 wartość 43 10 19 2 149 20 381 100 313 20 19 2 2 = 313 20 Podstawiajac ¾ je do wzorów (3) otrzymujemy b a= n X (yi y) (xi x) i=1 n X = (xi 2 x) cov (X; Y ) = var (X) 149 20 381 100 = 745 381 i=1 oraz bb = y b ax = 19 2 745 43 416 = 381 10 381 Ostatecznie stwierdzamy, z·e prosta 745 416 x+ 381 381 y= najlepiej opisuje zwiazek ¾ pomiedzy ¾ zmiennymi X oraz Y: Wyznaczmy teraz teoretyczne wartości zmiennej Y otrzymane za pomoca¾ Naszego modelu. Mamy zatem yei xi 3; 05 1 5; 00 2 6; 96 3 6; 96 3 8,91 4 10; 87 5 10; 87 5 12; 82 6 14; 78 7 14; 78 7 Nastepnie ¾ nalez·a÷ oby zwery…kować hipoteze¾ H0 : a = 0 wobec hipotezy alternatywnej H1 : a 6= 0 Wykorzystujac ¾ wzór (4)na statystyk¾ e testowa¾ otrzymujemy t= 745 b a b a =s = r 381 381 745 Sbb1 var (Y ) b acov (X; Y ) 20 381 8 381 100 (n 2) var (X) = 5; 099 149 20 Na poziomie istotności = 0; 05 wartość krytyczna dla ośmiu stopni swobody wynosi 2; 306:Zatem odrzucamy hipoteze¾ zerowa¾ na korzyść hipotezy alternatywnej. Ostatecznie moz·emy stwierdzić, z·e Nasz dobór modelu jest statystycznie uzasadniony. Zauwaz·my jeszcze, ze róz·nice pomiedzy ¾ modelem a danymi empirycznymi, czyli nasze reszty losowe prezentuja¾ sie¾ nastepuj ¾ aco: ¾ yei yi ei 3; 05 3 0; 05 5; 00 5 0 6; 96 6 0; 96 6; 96 7 0; 04 8,91 9 0; 09 10; 87 11 0; 13 10; 87 12 1; 13 12; 82 13 0; 18 14; 78 13 1; 78 14; 78 16 1; 22 a ich suma wynosi zero, czyli moz·emy przypuszczać, z·e za÷oz·enie (5) jest spe÷ nione. 5