Odporna Analiza Ekonomiczna z Programem R - e
Transkrypt
Odporna Analiza Ekonomiczna z Programem R - e
Odporna Analiza Ekonomiczna z Programem R W ekonomii za model interesującego nas zjawiska gospodarczego przyjmujemy jedno bądź wielowymiarową zmienną losową, rodzinę takich zmiennych indeksowaną np. czasem. Naszą wiedzę o rozmiarach niepewności wiążącej się ze zjawiskiem wyraża stosowny rozkład prawdopodobieństwa. Rozkład taki tzn. mechanizm losowy generujący dane znamy na ogół jedynie częściowo. Zasadniczym celem zastosowania w schemacie poznawczym procedur statystycznych jest uzyskanie użytecznej wiedzy o rozmiarach niepewności rządzącej zjawiskiem. Wiedza taka przyczynia się do podejmowania trafnych decyzji gospodarczych. Warto zwrócić uwagę, że każda procedura statystyczna wykorzystywana w ekonomii odznacza się dobrymi własnościami pod warunkiem, że spełnionych jest szereg założeń o mechanizmie losowym generującym dane, o sposobie pobierania próby itd. Przykładowo zakłada się, że dane są generowane przez szczególnie regularny mechanizm np. przez rozkład normalny, elementy próby pobierane są losowo i niezależnie od siebie, zachowanie się rozważanego układu dzisiaj nie różni się od jego zachowania w zeszłym roku itd. Niestety często w praktyce mamy do czynienia z odstępstwem od przyjmowanych założeń. Przykładowo próba zawiera kilka obserwacji w znaczący sposób odbiegających od wzorca reprezentowanego przez większość obserwacji, występują braki odpowiedzi. W takiej sytuacji, jakość stosowanej procedury statystycznej może się istotnie obniżyć. Mamy na uwadze np. przeszacowanie ryzyka kredytowego, wskazanie niewłaściwej postaci zależności pomiędzy kursem walutowym a inflacją, niewłaściwy podział klientów na podgrupy. Statystyka odporna to podejście współczesnej statystyki matematycznej, w którym stawiamy sobie za cel proponowanie procedur statystycznych odznaczających się dobrymi własnościami nie tylko w sytuacji, gdy dane generowane są przez zakładany przez procedurę rozkład, ale także w sytuacji, gdy rozkład generujący dane nieco odbiega od naszych założeń. Procedura powinna posiadać dobre własności zarówno, gdy w próbie nie ma jednostek odbiegających od zasadniczej części chmury danych (tzw. jednostek odstających), ale także w sytuacji, gdy takie jednostki występują. Rysunki 1 i 2 przedstawiają dane dotyczące miesięcznej inflacji i miesięcznego bezrobocia w Polsce w latach 2009 – 2010. Na rys. 1 przedstawiono pięć oszacowań liniowych funkcji regresji uzyskanych ze pomocą pięciu alternatywnych kryteriów: najmniejszych kwadratów (NK), uogólnionej metody największej wiarygodności (MM), najmniejszej mediany kwadratów (LMK), najmniejszych przyciętych kwadratów (NPK), maksymalnej głębi regresyjnej (MAXGR). Łatwo zauważyć różnice postaci związku pomiędzy inflacją a bezrobociem w zależności od zastosowanego kryterium. Rys. 2 przedstawia kontury równego odstawania punktów, kontury będące uogólnieniem jednowymiarowych kwantyli. Przecięcie linii koloru czarnego to dwuwymiarowa mediana (mediana Tukey’a), przecięcie linii koloru czerwonego to wektor średnich. Łatwo dostrzec różnice oszacowań centrów dwuwymiarowego zbioru danych. Statystyka odporna obejmuje wszystkie dziedziny probabilistyki. Mówimy o odpornej alternatywie dla macierzy korelacji (analiza portfelowa), odpornej analizie dyskryminacyjnej (wiarygodność kredytowa), odpornych estymatorach modeli MGARCH (empiryczne finanse), odpornej analizie czynnikowej (badania marketingowe), odpornej regresji (skłonność do oszczędzania) itd. Warto podkreślić, że badania ekonomiczne prowadzone z wykorzystaniem metod odpornych na ogół prowadzą do odmiennych wniosków aniżeli prowadzone z wykorzystaniem metod klasycznych. Wyniki takich badań przestają być oczywiste w chwili postawienia problemu, przez co zwiększa się przyjemność poznawania nie mówiąc o ich użyteczności. Niestety procedury odporne są jedynie w minimalnym stopniu obecne są w większości komercyjnych komputerowych pakietów statystycznych. Warto zatem ze wszech miar propagować w pełni darmową i jednocześnie profesjonalną inicjatywę wiążącą się z oprogramowanie statystycznym jakim jest Projekt R. Dzięki swej elastyczności, wielkim możliwościom przy niewielkich wymaganiach sprzętowych Projekt R dawno już zyskał akceptację statystyków, wypierając z ich badań oprogramowanie komercyjne. Zdaniem autora przyszedł czas, aby zainteresować projektem środowisko naszej uczelni tzn. osoby rozwijające nauki ekonomiczne, ekonomistów praktyków oraz studentów ekonomii. Rys.1: Liniowe funkcje regresji dopasowane do danych za pomocą pięciu kryteriów. Rys. 2: Kontury równego odstawania obserwacji. Przecięcie linii koloru czarnego reprezentuje dwuwymiarową medianę. Przedsięwzięcie określane obecnie mianem Projektu R zostało zainicjowane przez pracowników Uniwersytetu w Auckland Roberta Gentlemana i Rossa Ihake. Gentleman i Ihake stworzyli program do obliczeń statystycznych, który miał służyć jako pomoc dydaktyczna. Wzorowali się na języku S opracowanym w laboratoriach Bell’a. R to zarówno program do obliczeń statystycznych jak też środowisko programistyczne wyposażone w interpreter języka R (język bliski językowi BASIC). Polecenia wpisujemy za pomocą klawiatury wiersz po wierszu bądź zestawiamy je w postaci skryptu (pliku tekstowego zawierającego polecenia). Obecnie rozwojem R zarządza zespół nazywany core team w ramach fundacji „The R Foundation for Statistical Computing”. Środowisko R jest nieodpłatnie udostępniane na zasadzie licencji GNU na stronach Projektu R: http://www.r-project.org/ Istnieje szereg mniej lub bardziej elementarnych publikacji ułatwiających naukę posługiwania się systemem R. Zdaniem autora warto zapoznać się z elektroniczną publikacją autorstwa Emmanuela Paradis pt. „R for Beginners” dostępną w formacie PDF na stronach projektu, warto także zwrócić uwagę na krótkie wprowadzenie pt. „An Introduction to R”, do którego mamy dostęp z poziomu pomocy programu R. Także elektroniczna publikacja pt. „Econometrics in R” autorstwa Granta V. Farnswortha może zainteresować czytelników, zwłaszcza tych, którzy zamierzają wykorzystać środowisko R w ekonometrii. W kontekście wprowadzenia do statystyki odpornej autor zaprasza czytelników do odwiedzenia strony http://cel.uek.krakow.pl/moodle/course/view.php?id=171 Aby korzystać ze środowiska R należy ściągnąć plik instalacyjny ze strony projektu wybierając download CRAN, następnie wybierając serwer najbliższy swojej lokalizacji np. Poland>University of Wrocław. Pliki instalacyjne dostępne są w wersjach przeznaczonych dla systemów operacyjnych Linux, Mac OS X, Windows. Wybieramy właściwy system a następnie katalog base. Plik instalacyjny dla systemu Windows w chwili przygotowywania niniejszej tekstu nazywał się R – 2.12.1 – win32.exe. Użytkownicy szczególnie przywiązani do okienkowego sposobu komunikowania się z komputerem (np. MS Word, MS Excel) mogą zainstalować sobie nakładkę na środowisko R np. pakiet Rcmdr. Siła i użyteczność środowiska R opiera się na wielkim bogactwie pakietów dodatkowych (z dobrą dokumentacją!) obejmujących niemal wszystkie działy probabilistyki. Użytkownik zainteresowany statystyką odporną znajdzie pakiety {robustbase}, {MASS}, zainteresowany szeregami czasowymi {fGarch}, {tseries}, zainteresowany analizą skupisk {clust} itd. Pakiety obejmują zagadnienia mikroekonomii, analizy portfelowej, ubezpieczeniowej po analizę zdjęć cyfrowych, metody dekompozycji macierzy. statystyki