T - e-Uczelnia UEK

Transkrypt

T - e-Uczelnia UEK
KRÓTKIE WPROWADZENIE DO WIZUALIZACJI I ANALIZY
FUNKCJONALNEJ DANYCH EKONOMICZNYCH
Daniel Kosiorowski
Katedra Statystyki, UEK w Krakowie
Posiedzenie Rady Wydziału Zarządzania
Kraków, 23.05.2013
PLAN REFERATU
1. Wprowadzenie i przykłady zagadnień ekonomicznych prowadzących
do funkcjonalnej analizy danych (FAD).
2. Podstawowe pojęcia i zagadnienia FAD – charakterystyki opisowe
danych
funkcjonalnych,
wybór
bazy,
przekształcenie
danych
dyskretnych do postaci funkcyjnej.
3. Funkcjonalne główne składowe – PKB per capita oraz przychód z
obligacji w krajach UE15.
4. Funkcjonalne korelacje kanoniczne - PKB per capita w krajach UE15
vs. PKB per capita w krajach A12.
5. Funkcjonalna regresja – perspektywa nowych kierunków badań.
6. Podsumowanie.
WPROWADZENIE
Często dane rozpatrywane w ekonomii mają bezpośrednio bądź pośrednio
postać funkcji. Weźmy dla przykładu:
- badania ścieżek rozwoju przedsiębiorstw, trajektorii rozwoju ekonomicznego
państw bądź regionów (makroekonomiczne modele wzrostu, badanie faz
rozwoju przedsiębiorstwa, cyklu życia produktu – funkcjonalne PCA).
- analizy związków pomiędzy oczekiwaną stopą zwrotu z inwestycji finansowej
a „wahaniem” przebiegu tej stopy zwrotu w przeszłości bądź „burzliwością”
trajektorii dzisiaj” a taką charakterystyką w przeszłości – funkcjonalna regresja).
- analiza związków pomiędzy ścieżkami rozwoju (kształtem całej trajektorii) dla
różnych państw, przedsiębiorstw (funkcjonalne korelacje kanoniczne).
- szacowanie funkcji gęstości, regresji dla danych panelowych (danych
tworzących skupiska), grafologia, diagnostyka medyczna, statystyczna teoria
kształtu (rozpoznawanie przedmiotów i zachowań niebezpiecznych na
podstawie transmisji z kamer miejskiego monitoringu).
PRZYKŁADY
Trajektorie przyrostu PKB per
capita w krajach EU15 oraz
A12 w latach 1970 – 2011.
Funkcjonalny wykres pudełkowy –
stopa inflacji w krajach UE w latach
1997 – 2011 (dane Eurostat).
Wykres typu “tęcza” – stopa
inflacji w krajach UE w latach
1997 – 2011 (dane Eurostat).
Oszacowanie gęstości prawdopod.
dla przychodu centralnej części
gospodarstw domowych w roku 2005
w ujęciu województw RP (dane GUS).
Wydatki vs. dochody gospodarstw
domowych w ujęciu województw RP.
Prosta regresja nieparametryczna dla
danych panelowych (dane GUS).
Wynagrodzenie vs. lata nauki
–
oszacowanie
jądrowe
rodziny warunkowych gęstości
prawdopodobieństwa.
Oszacowania
bezwarunkowej
gęstości prawd. dla procesu
SETAR(1,1), dane zawierały do
5% obserwacji odstających.
Funkcjonalny wykres pudełkowy dla
oszacowań bezwarunkowej gęstości
prawd. dla procesu SETAR(1,1), dane
zawierały do 5% obserwacji odstających.
Pionierzy funkcjonalnej analizy danych
Jim Ramsay & Bernard Silverman
POZYCJE KLASYCZNE FDA
1. Applied Functional Data Analysis, Second Edition, J. O. Ramsay and B. W.
Silverman, Springer-Verlag, 2002.
2. Functional Data Analysis by J. O. Ramsay and B. W. Silverman. Book
published by Springer-Verlag, 2005.
3. Functional Data Analysis with R and Matlab by J. O. Ramsay, G. Hooker and S.
Graves. Book published by Springer-Verlag, 2009.
AKTUALNE KIERUNKI POSZUKIWAŃ FDA
1. Inference for Functional Data with Applications, Horvath, Lajos, Kokoszka,
Piotr, Series: Springer Series in Statistics, Vol. 200, 2012, XIV
2. Nonparametric Functional Data Analysis Theory and Practice, Frédéric
Ferraty, F., P. Philippe Vieu, Springer, 2006
FDA w POLSCE
1. Krzyśko, M., Górecki, T., Deręgowski, K. (2012), Jądrowa i Funkcjonalna
Analiza Składowych Głównych – spotkanie PTS o. w Poznaniu.
2. Szereg zastosowań FAD w analizie sygnałów – zespoły z AGH i PW.
3. Odporna FAD w ocenie skuteczności polityk regionalnych i działań
samorządów lokalnych – Kosiorowski i in. (2012), (2013).
CELE FAD z PERSPEKTYWY WYKORZYSTYWANYCH TECHNIK
- przekształcenie dyskretnych obserwacji do postaci funkcji (funkcje
obserwujemy w dyskretnych chwilach) w taki sposób, aby dalsza analiza była
możliwie najprostsza.
- wizualizacja danych uwypuklająca interesujące nas cechy zjawisk.
- analiza wzorców i źródeł zmienności danych.
- analiza związków zmiennymi np. za pomocą regresji skalar vs. zmienna
funkcjonalna bądź zmienna funkcjonalna vs. zmienne funkcjonalne.
- porównania zjawisk, estymacja charakterystyk, wnioskowanie statystyczne.
CELE FAD z PERSPEKTYWY CELU ANALIZY
- analiza eksploracyjna (techniki odkrywania nowych cech zjawisk).
- analiza konfirmacyjna (udzielenie odpowiedzi na konkretne pytania).
- analiza predykcyjna (tworzenie schematów prognostycznych dla zjawisk).
PRZYKŁAD ZASTOSOWANIA FAD w EKONOMII
Analizujemy dane historyczne dotyczące produktu krajowego brutto per
Capita w dolarach amerykańskich w roku 2005 oraz rocznej stopy wzrostu
produktu krajowego brutto per Capita w latach 1969-2012 dla dwóch grup
państw: EU15 i A12.
Źródło danych: ERS International Macroeconomic Data Set
http://www.ers.usda.gov/data-products/
EU15: Austria, Belgia-Luksemburg, Belgia, Luksemburg, Dania, Finlandia,
Francja, Niemcy, Grecja, Irlandia, Włochy, Holandia, Portugalia, Hiszpania,
Szwecja, Wielka Brytania
A12: Bułgaria, Cypr, Republika Czeska, Estonia, Węgry, Łotwa, Litwa, Malta,
Polska, Rumunia, Słowacja, Słowenia
PRZEKSZTAŁCENIE DYSKRETNYCH OBSERWACJI do POSTACI FUKCJI
Przypuśćmy, że obserwujemy obiekt i w j tym momencie czasowym, gdzie
i
1,..., K , j
1,...,J i , ze względu na cechę X , tzn. obserwujemy xij .
Chwile, w których obserwujemy różne obiekty mogą różnić się pomiędzy
obiektami tzn. np.
t2
t1
t3
t2 . Nasze dane to {tij ,x ij } , gdzie
1,..., K , j
1,...,J i . W takiej sytuacji wygodniej jest posługiwać się
ciągłymi funkcjami czasu x (t ), t [0,T ] – wygodniej jest posługiwać się
i
danymi funkcjonalnymi.
W ekonomii naturalnym jest rozpatrywać dane funkcjonalne z perspektywy K
niezależnych
realizacji
xi (t ), i
1,..., K ; t
[0,T ]
pewnego
procesu
losowego (ekonometria finansowa, badania procesów ekonomicznych).
Jednakże wpierw musimy przekształcić dane dyskretne {tij ,x ij } do danych
funkcjonalnych x i (t ), i
1,..., K ; t
[0,T ] .
Aby skorzystać z technik FAD musimy je przekształcić x i w funkcje z
wartościami x i (t ), możemy tu stosować np. interpolację bądź wygładzanie.
Surowe dane
Przekształcone dane
WYBÓR BAZY
Jednym z podstawowych kroków FAD jest wybór systemu bazowego (bazy),
tzn. układu funkcji
k,
1,...,L , który służy do wyrażenia funkcji x (t ) jako
kombinacji liniowej jej elementów (na ogół funkcji ortonormalnych)
L
x (t )
cT (t ), t
ck k (t )
[0,T ] ,
k 1
gdzie c1, c2,..., ck to współczynniki.
W przypadku dobrze znanych szeregów Fouriera można przyjąć:
1
(t )
1,
2
(t )
sin( t),
3
(t )
cos( t),…;
2 /T .
Występują tu dwa parametry: liczbę funkcji bazowych oraz okres T .
Przykład bazy Fouriera.
Przykłady baza złożonej ze sklejek.
W przypadku zastosowań ekonomicznych (nietypowa okresowość zjawiska,
bądź jej brak) rozsądnie jest wykorzystać tzw. bazę złożoną ze sklejek.
Sklejki to funkcje złożone z (na ogół różnych) wielomianów na dziedzinie
podzielonej na odcinki.
Bazę złożoną ze sklejek konstruujemy poprzez podział obszaru określoności
funkcji na podprzedziały – postać wielomianu zmienia się wraz z przejściem do
następnego podprzedziału. Stopień układu sklejek odpowiada najwyższej
potędze wielomianu – rząd wielomianu jest o jeden wyższy niż jego stopień.
Tworzenie systemu sklejek:
 należy wskazać krańce podprzedziałów (ang. break points).
 należy wskazać stopień wykorzystywanych wielomianów.
 należy wskazać ciąg więzów – punktowych ograniczeń dla
wykorzystywanych wielomianów
(ang. knots) – w szczególności
ograniczeniami są oczywiście zaobserwowane dane.
REPREZENTACJA OBIEKTU FUNKCJONALNEGO W BAZIE
L
Współczynniki c1, c2,..., cl reprezentacji x (t )
ck k (t )
cT (t ), dobiera się
k 1
dla każdej funkcji oddzielnie – często z wykorzystaniem kryterium najmniejszych
kwadratów (NK) tzn. tak aby zminimalizować funkcję
SSE
gdzie c
(c0, c1,..., cL )T oraz
(x - Φc)T (x - Φc) ,
jest macierzą zawierającą
L
(t j ) .
Czym kierujemy się przy wyborze bazy, wyborze reprezentacji funkcji w bazie?
Liczba elementów bazy często wybierana jest z wykorzystaniem kryterium
informacyjnego AKAIKE bądź bayesowskiego kryterium informacyjnego.
Najpierw kryterium stosujemy do poszczególnych funkcji następnie liczymy np.
średnią ze wskazanych liczb elementów bazy dla poszczególnych funkcji.
TWORZENIE OBIEKTU FUNKCJONALNEGO
Przypuśćmy, że ustalono L – funkcji bazowych, analizujemy zbiór danych
składający się z N funkcji x1(t ),..., x K (t ). Podstawowy obiekt FAD to macierz
wymiaru L K zawierająca współczynniki badanych funkcji w ustalonej bazie.
Okazuje się, że zwykła analiza składowych głównych tej macierzy jest
równoważna z analizą głównych składowych funkcjonalnych dla procesów
skończenie wymiarowych – definiowanych dalej por. Krzyśko i in. (2012).
Dla funkcji x (t ) kwadrat drugiej pochodnej [D 2x (t )]2 funkcji x w punkcie t
nazywa się jej krzywizną. Można przykładowo wprowadzić ograniczenie na
swego rodzaju miarę „nieporządności funkcji” (ang. roughness) – scałkowany
kwadrat drugiej pochodnej – całkowitą krzywiznę.
2
PEN 2 (x )
2
D x (t ) dt ,
Ograniczenie co do „roughness”
F (c)
yj
x (t j )
2
2
2
D x (t ) dt ,
j
gdzie x (t )
cT (t ),
to parametr gładkości funkcji.
CHARAKTERYSTYKI OPISOWE DLA DANYCH FUNKCJONALNYCH
Dysponujemy próbą krzywych bądź funkcji x i (t ), i
1,..., K , dopasowanych
do danych, (przypomnijmy funkcje obserwujemy w dyskretnych chwilach – stąd
konieczność
dopasowywania).
Możemy
zdefiniować
podstawowe
charakterystyki opisowe dla danych funkcjonalnych.
x (t )
s(t )
v(s, t )
próby.
1
N
x i (t ), średnia funkcjonalna z próby,
i
1
N
1
x i (t )
x (t ) , wariancja funkcjonalna z próby,
i
1
N
2
1
x i (s)
i
x (s) x i (t )
x (t ) , kowariancja funkcjonalna z
Średnia trajektoria przyrostu
PKB per capita w krajach
EU15 oraz A12 w latach 1970
– 2011.
Zmienność trajektorii
przyrostu PKB per
capita w krajach EU15
oraz A12 w latach
1970 – 2011.
Kowariancja funkcjonalna dla trajektorii przyrostu
PKB per capita w krajach EU15 oraz A12 w latach
1970 – 2011 (wykresy perspektywiczne).
Kowariancja funkcjonalna dla trajektorii przyrostu
PKB per capita w krajach EU15 oraz A12 w latach
1970 – 2011 (wykresy konturowe).
EKSPLORACJA ZMIENNOŚCI DANYCH FUNKCJONALNYCH
Próbnik (sonda)
związany z funkcją wagową (t ) jest narzędziem
służącym podkreśleniu zmienności na pewnym obszarze dla danych
funkcjonalnych – sondy są „zmiennie ważonymi liniowymi kombinacjami
wartości funkcji”.
Niech
będzie funkcją wagową, sondę
stosujemy do funkcji x (t ) w
następujący sposób:
(x )
(t )x (t )dt .
Pewien szczególny przypadek próbnika i funkcji wagowej to odpowiedniki
pojęć wartości własnej i wektora własnego.
EKSPLORACJA ZMIENNOŚCI DANYCH FUNKCJONALNYCH CD.
Dysponujemy obserwacjami funkcjonalnymi x i (s ) oraz x i (t ), oszacowaniem
funkcję kowariancji
v(s, t )
1
N
1
x i (s)
x (s) x i (t )
x (t ) ,
i
Iloczynem krzyżowym oraz korelacją funkcjonalną
c(s, t )
1
N
x i (s )x i (t ), r (s, t )
i
v(s, t )
v(s, s)v(t, t )
CELEM
FUNKCJONALNYCH
SKŁADOWYCH
GŁÓWNYCH
JEST
ZNALEZIENIE TAKIEGO PRÓBNIKA
a tym samym TAKIEJ FUNKCJI
WAGOWEJ , KTÓRA ODKRYWA (UWYPUKLA) NAJWAŻNIEJSZĄ Z
NASZEGO PUNKTU WIDZENIA ZMIENNOŚĆ DANYCH.
W FDA STAWIAMY PYTANIE dla jakiej funkcji wagowej
(xi )
(t )xi (t )dt ,
osiąga najwyższą możliwą wartość?
(klasyczne PCA dla jakiego wektora, wariancja kombinacji liniowej zmiennych
przyjmuje wartość maksymalną)
Nakładamy ograniczenie co do zachowania się ,
2
(t )dt
1
(odpowiedni postulat dla wektorów własnych)
STAWIAMY SOBIE ZA CEL
2
max
(x i ) , pod warunkiem
2
(t )dt
1,
i
to analogon „wartości własnej”;
to analogon funkcji własnej.
Tak jak w wielowymiarowej PCA, nierosnący ciąg wartości własnych
...
1
2
k może zostać skonstruowany iteracyjnie – nakładamy
ograniczenie aby nowa funkcja własna policzona w kroku l , była ortogonalna do
tych policzonych we wcześniejszych krokach
j
(t ) l (t )dt
0, j
1,..., l
1,
2
l
(t )
1.
Można na proces znajdywania wartości własnych spojrzeć:
Szukamy funkcji własnych j funkcji kowariancji v(s, t ) jako rozwiązania
funkcjonalnej postaci równania charakterystycznego (ang. „functional eigenequation”)
v(s, t ) j (t )dt
j j
(s) .
Rozwiązując takie zagadnienie własne – uzyskujemy jednocześnie
najbardziej efektywną bazę wielkości l w tym sensie, że całkowita suma
kwadratów błędu
PCASSE
x i (t )
x (t )
T
i
2
c (t ) dt ,
i
osiąga minimum z wykorzystaniem l funkcji bazowych
empiryczne funkcje ortogonalne)
i
(t ) (są to tzw.
Podobnie jak w przypadku klasycznych składowych głównych można
rozważać rozmaite przekształcenia oryginalnych obserwacji za pomocą
policzonej bazy 1,..., l np. tzw. principal component scores
cij
j
(xi
x)
j
(t ) x i (t )
x (t ) dt .
PRZYKŁAD NR 1 – FPCA dla przyrostów PKB per capita w EU15 i A12
FPCA DLA EU 15
wartości własne
22.24
14.06
9.44
4.85
3.61
2.25
1.03
FPCA DLA A12
wartości własne
155.06 40.75 20.91 13.18 5.25 2.47 0.63
Rotacja VARIMAX dla FPCA?
EU15
A12
PRZYKŁAD NR 2
Miesięczne wielkości stóp zwrotu z 10-letnich obligacji rządowych państw
europejskich (nie tylko UE), w podziale na strefę z walutą państwową Euro oraz
pozostałe (dane 01/2001-10/2011), dane Europejskiego Banku Centralnego.
FUNKCJONALNA KOWARIANCJA – WYKRES PERSPEKTYWICZNY
FUNKCJONALNA KOWARIANCJA – WYKRES KONTUROWY
FPCA STREFA EURO
FPCA POZOSTAŁE PAŃSTWA UE
FPCA STREFA EURO – ROTACJA VARMAX
FPCA POZOSTAŁE PAŃSTWA UE – ROTACJA VARMAX
WYBÓR LICZBY SKŁADOWYCH GŁÓWNYCH w FPCA
W wielowymiarowym PCA, kontrolujemy poziom dopasowania do danych
poprzez wybór liczby składowych głównych.
W przypadku funkcjonalnych PCA także możemy modulować poziom
dopasowania poprzez kontrolowanie charakterystyk gładkości (ang.
„roughness”) dla estymowanej funkcji własnej np. poprzez modulowanie definicji
ortogonalności funkcji:
j (t ) k (t )dt
D 2 j (t )D 2 k (t )dt
0,
gdzie to parametr modyfikujący, D 2 (t ) druga pochodna funkcji
t odpowiada krzywiźnie funkcji w punkcie t .
w punkcie
EKSPORACJA FUNKCJONALNEJ KOWARIANCJI poprzez ANALIZĘ
KORELACJI KANONICZNYCH
Bardzo często w ekonomii staramy się zbadać sposoby, w jakie dwa zbiory
funkcji (krzywych, trajektorii, ścieżek
wzrostu)
(xi , yi ),
i
1,..., N ;
dzielą
wariancję (są współzmienne).
FAD oferuje w tym zakresie m. in.
funkcjonalne korelacje kanoniczne.
Dwa
zbiory
zmiennych
zostały
wycentrowane tzn. funkcje x i
oraz yi
zastąpiono poprzez reszty x i
x oraz
yi
y ; zakładamy, że x
y
0.
Definiujemy mody wariancji dla x - ów oraz y - ów w kategoriach funkcji
próbnikowych (sond) oraz , które definiują całki
i
(t )xi (t )dt oraz
(t )yi (t )dt
i
Za kryterium współzmienności funkcji przyjmujemy kwadrat korelacji
kanonicznej
2
i
R2 ( , )
i
2
i
Uzyskane w ten sposób N par
i
i
,
które odpowiadają wspólne składowe.
i
i
2
i
’
i
reprezentuje wspólne wariancje, za
Współczynnik korelacji kanonicznej
2
i
R2 ( , )
i
i
2
i
2
i
i
i
i
i
(t )xi (t )dt
(t )xi (t )dt
(t )yi (t )dt
2
i
2
(t )yi (t )dt
2
,
Tak jak w przypadku zwykłych korelacji kanonicznych, funkcje wagowe oraz
są wyspecyfikowane poprzez znalezienie par wag (sond), które optymizują
kryterium R2 ( , ). Możemy policzyć nierosnący ciąg kwadratów korelacji
kanonicznych R12, R22,..., Rk2 poprzez policzenie kolejnych kanonicznych wartości
sond – które są do siebie ortogonalne.
Przyrost PKB per capita w
krajach EU15 i A12 – dwie
pierwsze
zmienne
kanoniczne.
współczynniki
kanonicznych
korelacji
R1=1.0; R2=1.0; R3=0.97;
R4= 0.95; R5=0.65; R6=
0.57; R7= 0.12
Współrzędne państw EU15 oraz A12 w przestrzeni dwóch pierwszych
zmiennych kanonicznych
zm 1 zm 2
Austria_R
-10.45 -0.138
BL_R
-8.981 -0.123
Belgium_R
-9.129 -0.102
Luxembourg_R -5.333 0.152
Denmark_R
-5.733 0.296
Finland_R
-9.410 0.587
France_R
-8.926 0.280
Germany_R
-8.581 -0.299
Greece_R
-5.851 -0.473
Ireland_R
-12.186 0.037
Italy_R
-8.221 0.0006
Netherlands -6.563 -0.331
zm 1 zm 2
Bulgaria
-7.450 -1.653
Cyprus
-6.401 -1.470
Czech.Republic -6.507 -1.224
Estonia
-3.801 1.820
Hungary
-4.086 3.545
Latvia
-6.707 7.016
Lithuania
-6.362 3.358
Malta.and.Gozo -6.116 -3.583
Poland
-4.170 -5.654
Romania
-8.685 0.444
Slovakia
-5.859 0.007
Slovenia
-4.678 -3.961
PODSUMOWANIE I NOWE PERSPEKTYWY BADAŃ EKONOMICZNYCH
1. Współczesna ekonomia podejmuje zagadnienia oraz bada zjawiska,
które nie istniały powiedzmy 20-30 lat temu.
2. Strumieniowe przetwarzanie danych, rynki finansowe, centra handlowe,
monitorowanie centrum miasta za pomocą systemu kamer, roboty
internetowe, zarządzanie centrum handlowym, sieci telekomunikacyjne…
3. Funkcjonalna regresja np. w zagadnieniu czy poziom rozwoju
ekonomicznego państwa ma związek z jego trajektorią wzrostu GDP…
DZIĘKUJĘ

Podobne dokumenty