Odporna Analiza Ekonomiczna z Programem R - e

Transkrypt

Odporna Analiza Ekonomiczna z Programem R - e
Odporna Analiza Ekonomiczna z Programem R
W ekonomii za model interesującego nas zjawiska gospodarczego przyjmujemy jedno
bądź wielowymiarową zmienną losową, rodzinę takich zmiennych indeksowaną np. czasem.
Naszą wiedzę o rozmiarach niepewności wiążącej się ze zjawiskiem wyraża stosowny rozkład
prawdopodobieństwa. Rozkład taki tzn. mechanizm losowy generujący dane znamy na ogół
jedynie częściowo. Zasadniczym celem zastosowania w schemacie poznawczym procedur
statystycznych jest uzyskanie użytecznej wiedzy o rozmiarach niepewności rządzącej
zjawiskiem. Wiedza taka przyczynia się do podejmowania trafnych decyzji gospodarczych.
Warto zwrócić uwagę, że każda procedura statystyczna wykorzystywana w ekonomii
odznacza się dobrymi własnościami pod warunkiem, że spełnionych jest szereg założeń o
mechanizmie losowym generującym dane, o sposobie pobierania próby itd. Przykładowo
zakłada się, że dane są generowane przez szczególnie regularny mechanizm np. przez rozkład
normalny, elementy próby pobierane są losowo i niezależnie od siebie, zachowanie się
rozważanego układu dzisiaj nie różni się od jego zachowania w zeszłym roku itd.
Niestety często w praktyce mamy do czynienia z odstępstwem od przyjmowanych
założeń. Przykładowo próba zawiera kilka obserwacji w znaczący sposób odbiegających od
wzorca reprezentowanego przez większość obserwacji, występują braki odpowiedzi. W takiej
sytuacji, jakość stosowanej procedury statystycznej może się istotnie obniżyć. Mamy na
uwadze np. przeszacowanie ryzyka kredytowego, wskazanie niewłaściwej postaci zależności
pomiędzy kursem walutowym a inflacją, niewłaściwy podział klientów na podgrupy.
Statystyka odporna to podejście współczesnej statystyki matematycznej, w którym
stawiamy sobie za cel proponowanie procedur statystycznych odznaczających się dobrymi
własnościami nie tylko w sytuacji, gdy dane generowane są przez zakładany przez procedurę
rozkład, ale także w sytuacji, gdy rozkład generujący dane nieco odbiega od naszych założeń.
Procedura powinna posiadać dobre własności zarówno, gdy w próbie nie ma jednostek
odbiegających od zasadniczej części chmury danych (tzw. jednostek odstających), ale także w
sytuacji, gdy takie jednostki występują. Rysunki 1 i 2 przedstawiają dane dotyczące
miesięcznej inflacji i miesięcznego bezrobocia w Polsce w latach 2009 – 2010. Na rys. 1
przedstawiono pięć oszacowań liniowych funkcji regresji uzyskanych ze pomocą pięciu
alternatywnych kryteriów: najmniejszych kwadratów (NK), uogólnionej metody największej
wiarygodności (MM), najmniejszej mediany kwadratów (LMK), najmniejszych przyciętych
kwadratów (NPK), maksymalnej głębi regresyjnej (MAXGR). Łatwo zauważyć różnice
postaci związku pomiędzy inflacją a bezrobociem w zależności od zastosowanego kryterium.
Rys. 2 przedstawia kontury równego odstawania punktów, kontury będące uogólnieniem
jednowymiarowych kwantyli. Przecięcie linii koloru czarnego to dwuwymiarowa mediana
(mediana Tukey’a), przecięcie linii koloru czerwonego to wektor średnich. Łatwo dostrzec
różnice oszacowań centrów dwuwymiarowego zbioru danych.
Statystyka odporna obejmuje wszystkie dziedziny probabilistyki. Mówimy o odpornej
alternatywie dla macierzy korelacji (analiza portfelowa), odpornej analizie dyskryminacyjnej
(wiarygodność kredytowa), odpornych estymatorach modeli MGARCH (empiryczne finanse),
odpornej analizie czynnikowej (badania marketingowe), odpornej regresji (skłonność do
oszczędzania) itd. Warto podkreślić, że badania ekonomiczne prowadzone z wykorzystaniem
metod odpornych na ogół prowadzą do odmiennych wniosków aniżeli prowadzone z
wykorzystaniem metod klasycznych. Wyniki takich badań przestają być oczywiste w chwili
postawienia problemu, przez co zwiększa się przyjemność poznawania nie mówiąc o ich
użyteczności. Niestety procedury odporne są jedynie w minimalnym stopniu obecne są w
większości komercyjnych komputerowych pakietów statystycznych. Warto zatem ze wszech
miar propagować w pełni darmową i jednocześnie profesjonalną inicjatywę wiążącą się z
oprogramowanie statystycznym jakim jest Projekt R. Dzięki swej elastyczności, wielkim
możliwościom przy niewielkich wymaganiach sprzętowych Projekt R dawno już zyskał
akceptację statystyków, wypierając z ich badań oprogramowanie komercyjne. Zdaniem autora
przyszedł czas, aby zainteresować projektem środowisko naszej uczelni tzn. osoby
rozwijające nauki ekonomiczne, ekonomistów praktyków oraz studentów ekonomii.
Rys.1: Liniowe funkcje regresji dopasowane
do danych za pomocą pięciu kryteriów.
Rys. 2: Kontury równego odstawania
obserwacji. Przecięcie linii koloru czarnego
reprezentuje dwuwymiarową medianę.
Przedsięwzięcie określane obecnie mianem Projektu R zostało zainicjowane przez
pracowników Uniwersytetu w Auckland Roberta Gentlemana i Rossa Ihake. Gentleman i
Ihake stworzyli program do obliczeń statystycznych, który miał służyć jako pomoc
dydaktyczna. Wzorowali się na języku S opracowanym w laboratoriach Bell’a. R to zarówno
program do obliczeń statystycznych jak też środowisko programistyczne wyposażone w
interpreter języka R (język bliski językowi BASIC). Polecenia wpisujemy za pomocą
klawiatury wiersz po wierszu bądź zestawiamy je w postaci skryptu (pliku tekstowego
zawierającego polecenia). Obecnie rozwojem R zarządza zespół nazywany core team w
ramach fundacji „The R Foundation for Statistical Computing”. Środowisko R jest
nieodpłatnie udostępniane na zasadzie licencji GNU na stronach Projektu R:
http://www.r-project.org/
Istnieje szereg mniej lub bardziej elementarnych publikacji ułatwiających naukę
posługiwania się systemem R. Zdaniem autora warto zapoznać się z elektroniczną publikacją
autorstwa Emmanuela Paradis pt. „R for Beginners” dostępną w formacie PDF na stronach
projektu, warto także zwrócić uwagę na krótkie wprowadzenie pt. „An Introduction to R”,
do którego mamy dostęp z poziomu pomocy programu R. Także elektroniczna publikacja pt.
„Econometrics in R” autorstwa Granta V. Farnswortha może zainteresować czytelników,
zwłaszcza tych, którzy zamierzają wykorzystać środowisko R w ekonometrii. W kontekście
wprowadzenia do statystyki odpornej autor zaprasza czytelników do odwiedzenia strony
http://cel.uek.krakow.pl/moodle/course/view.php?id=171
Aby korzystać ze środowiska R należy ściągnąć plik instalacyjny ze strony projektu
wybierając download CRAN, następnie wybierając serwer najbliższy swojej lokalizacji np.
Poland>University of Wrocław. Pliki instalacyjne dostępne są w wersjach przeznaczonych
dla systemów operacyjnych Linux, Mac OS X, Windows. Wybieramy właściwy system a
następnie katalog base. Plik instalacyjny dla systemu Windows w chwili przygotowywania
niniejszej tekstu nazywał się R – 2.12.1 – win32.exe. Użytkownicy szczególnie przywiązani
do okienkowego sposobu komunikowania się z komputerem (np. MS Word, MS Excel) mogą
zainstalować sobie nakładkę na środowisko R np. pakiet Rcmdr. Siła i użyteczność
środowiska R opiera się na wielkim bogactwie pakietów dodatkowych (z dobrą
dokumentacją!)
obejmujących
niemal
wszystkie
działy
probabilistyki.
Użytkownik
zainteresowany statystyką odporną znajdzie pakiety {robustbase}, {MASS}, zainteresowany
szeregami czasowymi {fGarch}, {tseries}, zainteresowany analizą skupisk {clust} itd.
Pakiety
obejmują
zagadnienia
mikroekonomii,
analizy
portfelowej,
ubezpieczeniowej po analizę zdjęć cyfrowych, metody dekompozycji macierzy.
statystyki