T - e-Uczelnia UEK
Transkrypt
T - e-Uczelnia UEK
KRÓTKIE WPROWADZENIE DO WIZUALIZACJI I ANALIZY FUNKCJONALNEJ DANYCH EKONOMICZNYCH Daniel Kosiorowski Katedra Statystyki, UEK w Krakowie Posiedzenie Rady Wydziału Zarządzania Kraków, 23.05.2013 PLAN REFERATU 1. Wprowadzenie i przykłady zagadnień ekonomicznych prowadzących do funkcjonalnej analizy danych (FAD). 2. Podstawowe pojęcia i zagadnienia FAD – charakterystyki opisowe danych funkcjonalnych, wybór bazy, przekształcenie danych dyskretnych do postaci funkcyjnej. 3. Funkcjonalne główne składowe – PKB per capita oraz przychód z obligacji w krajach UE15. 4. Funkcjonalne korelacje kanoniczne - PKB per capita w krajach UE15 vs. PKB per capita w krajach A12. 5. Funkcjonalna regresja – perspektywa nowych kierunków badań. 6. Podsumowanie. WPROWADZENIE Często dane rozpatrywane w ekonomii mają bezpośrednio bądź pośrednio postać funkcji. Weźmy dla przykładu: - badania ścieżek rozwoju przedsiębiorstw, trajektorii rozwoju ekonomicznego państw bądź regionów (makroekonomiczne modele wzrostu, badanie faz rozwoju przedsiębiorstwa, cyklu życia produktu – funkcjonalne PCA). - analizy związków pomiędzy oczekiwaną stopą zwrotu z inwestycji finansowej a „wahaniem” przebiegu tej stopy zwrotu w przeszłości bądź „burzliwością” trajektorii dzisiaj” a taką charakterystyką w przeszłości – funkcjonalna regresja). - analiza związków pomiędzy ścieżkami rozwoju (kształtem całej trajektorii) dla różnych państw, przedsiębiorstw (funkcjonalne korelacje kanoniczne). - szacowanie funkcji gęstości, regresji dla danych panelowych (danych tworzących skupiska), grafologia, diagnostyka medyczna, statystyczna teoria kształtu (rozpoznawanie przedmiotów i zachowań niebezpiecznych na podstawie transmisji z kamer miejskiego monitoringu). PRZYKŁADY Trajektorie przyrostu PKB per capita w krajach EU15 oraz A12 w latach 1970 – 2011. Funkcjonalny wykres pudełkowy – stopa inflacji w krajach UE w latach 1997 – 2011 (dane Eurostat). Wykres typu “tęcza” – stopa inflacji w krajach UE w latach 1997 – 2011 (dane Eurostat). Oszacowanie gęstości prawdopod. dla przychodu centralnej części gospodarstw domowych w roku 2005 w ujęciu województw RP (dane GUS). Wydatki vs. dochody gospodarstw domowych w ujęciu województw RP. Prosta regresja nieparametryczna dla danych panelowych (dane GUS). Wynagrodzenie vs. lata nauki – oszacowanie jądrowe rodziny warunkowych gęstości prawdopodobieństwa. Oszacowania bezwarunkowej gęstości prawd. dla procesu SETAR(1,1), dane zawierały do 5% obserwacji odstających. Funkcjonalny wykres pudełkowy dla oszacowań bezwarunkowej gęstości prawd. dla procesu SETAR(1,1), dane zawierały do 5% obserwacji odstających. Pionierzy funkcjonalnej analizy danych Jim Ramsay & Bernard Silverman POZYCJE KLASYCZNE FDA 1. Applied Functional Data Analysis, Second Edition, J. O. Ramsay and B. W. Silverman, Springer-Verlag, 2002. 2. Functional Data Analysis by J. O. Ramsay and B. W. Silverman. Book published by Springer-Verlag, 2005. 3. Functional Data Analysis with R and Matlab by J. O. Ramsay, G. Hooker and S. Graves. Book published by Springer-Verlag, 2009. AKTUALNE KIERUNKI POSZUKIWAŃ FDA 1. Inference for Functional Data with Applications, Horvath, Lajos, Kokoszka, Piotr, Series: Springer Series in Statistics, Vol. 200, 2012, XIV 2. Nonparametric Functional Data Analysis Theory and Practice, Frédéric Ferraty, F., P. Philippe Vieu, Springer, 2006 FDA w POLSCE 1. Krzyśko, M., Górecki, T., Deręgowski, K. (2012), Jądrowa i Funkcjonalna Analiza Składowych Głównych – spotkanie PTS o. w Poznaniu. 2. Szereg zastosowań FAD w analizie sygnałów – zespoły z AGH i PW. 3. Odporna FAD w ocenie skuteczności polityk regionalnych i działań samorządów lokalnych – Kosiorowski i in. (2012), (2013). CELE FAD z PERSPEKTYWY WYKORZYSTYWANYCH TECHNIK - przekształcenie dyskretnych obserwacji do postaci funkcji (funkcje obserwujemy w dyskretnych chwilach) w taki sposób, aby dalsza analiza była możliwie najprostsza. - wizualizacja danych uwypuklająca interesujące nas cechy zjawisk. - analiza wzorców i źródeł zmienności danych. - analiza związków zmiennymi np. za pomocą regresji skalar vs. zmienna funkcjonalna bądź zmienna funkcjonalna vs. zmienne funkcjonalne. - porównania zjawisk, estymacja charakterystyk, wnioskowanie statystyczne. CELE FAD z PERSPEKTYWY CELU ANALIZY - analiza eksploracyjna (techniki odkrywania nowych cech zjawisk). - analiza konfirmacyjna (udzielenie odpowiedzi na konkretne pytania). - analiza predykcyjna (tworzenie schematów prognostycznych dla zjawisk). PRZYKŁAD ZASTOSOWANIA FAD w EKONOMII Analizujemy dane historyczne dotyczące produktu krajowego brutto per Capita w dolarach amerykańskich w roku 2005 oraz rocznej stopy wzrostu produktu krajowego brutto per Capita w latach 1969-2012 dla dwóch grup państw: EU15 i A12. Źródło danych: ERS International Macroeconomic Data Set http://www.ers.usda.gov/data-products/ EU15: Austria, Belgia-Luksemburg, Belgia, Luksemburg, Dania, Finlandia, Francja, Niemcy, Grecja, Irlandia, Włochy, Holandia, Portugalia, Hiszpania, Szwecja, Wielka Brytania A12: Bułgaria, Cypr, Republika Czeska, Estonia, Węgry, Łotwa, Litwa, Malta, Polska, Rumunia, Słowacja, Słowenia PRZEKSZTAŁCENIE DYSKRETNYCH OBSERWACJI do POSTACI FUKCJI Przypuśćmy, że obserwujemy obiekt i w j tym momencie czasowym, gdzie i 1,..., K , j 1,...,J i , ze względu na cechę X , tzn. obserwujemy xij . Chwile, w których obserwujemy różne obiekty mogą różnić się pomiędzy obiektami tzn. np. t2 t1 t3 t2 . Nasze dane to {tij ,x ij } , gdzie 1,..., K , j 1,...,J i . W takiej sytuacji wygodniej jest posługiwać się ciągłymi funkcjami czasu x (t ), t [0,T ] – wygodniej jest posługiwać się i danymi funkcjonalnymi. W ekonomii naturalnym jest rozpatrywać dane funkcjonalne z perspektywy K niezależnych realizacji xi (t ), i 1,..., K ; t [0,T ] pewnego procesu losowego (ekonometria finansowa, badania procesów ekonomicznych). Jednakże wpierw musimy przekształcić dane dyskretne {tij ,x ij } do danych funkcjonalnych x i (t ), i 1,..., K ; t [0,T ] . Aby skorzystać z technik FAD musimy je przekształcić x i w funkcje z wartościami x i (t ), możemy tu stosować np. interpolację bądź wygładzanie. Surowe dane Przekształcone dane WYBÓR BAZY Jednym z podstawowych kroków FAD jest wybór systemu bazowego (bazy), tzn. układu funkcji k, 1,...,L , który służy do wyrażenia funkcji x (t ) jako kombinacji liniowej jej elementów (na ogół funkcji ortonormalnych) L x (t ) cT (t ), t ck k (t ) [0,T ] , k 1 gdzie c1, c2,..., ck to współczynniki. W przypadku dobrze znanych szeregów Fouriera można przyjąć: 1 (t ) 1, 2 (t ) sin( t), 3 (t ) cos( t),…; 2 /T . Występują tu dwa parametry: liczbę funkcji bazowych oraz okres T . Przykład bazy Fouriera. Przykłady baza złożonej ze sklejek. W przypadku zastosowań ekonomicznych (nietypowa okresowość zjawiska, bądź jej brak) rozsądnie jest wykorzystać tzw. bazę złożoną ze sklejek. Sklejki to funkcje złożone z (na ogół różnych) wielomianów na dziedzinie podzielonej na odcinki. Bazę złożoną ze sklejek konstruujemy poprzez podział obszaru określoności funkcji na podprzedziały – postać wielomianu zmienia się wraz z przejściem do następnego podprzedziału. Stopień układu sklejek odpowiada najwyższej potędze wielomianu – rząd wielomianu jest o jeden wyższy niż jego stopień. Tworzenie systemu sklejek: należy wskazać krańce podprzedziałów (ang. break points). należy wskazać stopień wykorzystywanych wielomianów. należy wskazać ciąg więzów – punktowych ograniczeń dla wykorzystywanych wielomianów (ang. knots) – w szczególności ograniczeniami są oczywiście zaobserwowane dane. REPREZENTACJA OBIEKTU FUNKCJONALNEGO W BAZIE L Współczynniki c1, c2,..., cl reprezentacji x (t ) ck k (t ) cT (t ), dobiera się k 1 dla każdej funkcji oddzielnie – często z wykorzystaniem kryterium najmniejszych kwadratów (NK) tzn. tak aby zminimalizować funkcję SSE gdzie c (c0, c1,..., cL )T oraz (x - Φc)T (x - Φc) , jest macierzą zawierającą L (t j ) . Czym kierujemy się przy wyborze bazy, wyborze reprezentacji funkcji w bazie? Liczba elementów bazy często wybierana jest z wykorzystaniem kryterium informacyjnego AKAIKE bądź bayesowskiego kryterium informacyjnego. Najpierw kryterium stosujemy do poszczególnych funkcji następnie liczymy np. średnią ze wskazanych liczb elementów bazy dla poszczególnych funkcji. TWORZENIE OBIEKTU FUNKCJONALNEGO Przypuśćmy, że ustalono L – funkcji bazowych, analizujemy zbiór danych składający się z N funkcji x1(t ),..., x K (t ). Podstawowy obiekt FAD to macierz wymiaru L K zawierająca współczynniki badanych funkcji w ustalonej bazie. Okazuje się, że zwykła analiza składowych głównych tej macierzy jest równoważna z analizą głównych składowych funkcjonalnych dla procesów skończenie wymiarowych – definiowanych dalej por. Krzyśko i in. (2012). Dla funkcji x (t ) kwadrat drugiej pochodnej [D 2x (t )]2 funkcji x w punkcie t nazywa się jej krzywizną. Można przykładowo wprowadzić ograniczenie na swego rodzaju miarę „nieporządności funkcji” (ang. roughness) – scałkowany kwadrat drugiej pochodnej – całkowitą krzywiznę. 2 PEN 2 (x ) 2 D x (t ) dt , Ograniczenie co do „roughness” F (c) yj x (t j ) 2 2 2 D x (t ) dt , j gdzie x (t ) cT (t ), to parametr gładkości funkcji. CHARAKTERYSTYKI OPISOWE DLA DANYCH FUNKCJONALNYCH Dysponujemy próbą krzywych bądź funkcji x i (t ), i 1,..., K , dopasowanych do danych, (przypomnijmy funkcje obserwujemy w dyskretnych chwilach – stąd konieczność dopasowywania). Możemy zdefiniować podstawowe charakterystyki opisowe dla danych funkcjonalnych. x (t ) s(t ) v(s, t ) próby. 1 N x i (t ), średnia funkcjonalna z próby, i 1 N 1 x i (t ) x (t ) , wariancja funkcjonalna z próby, i 1 N 2 1 x i (s) i x (s) x i (t ) x (t ) , kowariancja funkcjonalna z Średnia trajektoria przyrostu PKB per capita w krajach EU15 oraz A12 w latach 1970 – 2011. Zmienność trajektorii przyrostu PKB per capita w krajach EU15 oraz A12 w latach 1970 – 2011. Kowariancja funkcjonalna dla trajektorii przyrostu PKB per capita w krajach EU15 oraz A12 w latach 1970 – 2011 (wykresy perspektywiczne). Kowariancja funkcjonalna dla trajektorii przyrostu PKB per capita w krajach EU15 oraz A12 w latach 1970 – 2011 (wykresy konturowe). EKSPLORACJA ZMIENNOŚCI DANYCH FUNKCJONALNYCH Próbnik (sonda) związany z funkcją wagową (t ) jest narzędziem służącym podkreśleniu zmienności na pewnym obszarze dla danych funkcjonalnych – sondy są „zmiennie ważonymi liniowymi kombinacjami wartości funkcji”. Niech będzie funkcją wagową, sondę stosujemy do funkcji x (t ) w następujący sposób: (x ) (t )x (t )dt . Pewien szczególny przypadek próbnika i funkcji wagowej to odpowiedniki pojęć wartości własnej i wektora własnego. EKSPLORACJA ZMIENNOŚCI DANYCH FUNKCJONALNYCH CD. Dysponujemy obserwacjami funkcjonalnymi x i (s ) oraz x i (t ), oszacowaniem funkcję kowariancji v(s, t ) 1 N 1 x i (s) x (s) x i (t ) x (t ) , i Iloczynem krzyżowym oraz korelacją funkcjonalną c(s, t ) 1 N x i (s )x i (t ), r (s, t ) i v(s, t ) v(s, s)v(t, t ) CELEM FUNKCJONALNYCH SKŁADOWYCH GŁÓWNYCH JEST ZNALEZIENIE TAKIEGO PRÓBNIKA a tym samym TAKIEJ FUNKCJI WAGOWEJ , KTÓRA ODKRYWA (UWYPUKLA) NAJWAŻNIEJSZĄ Z NASZEGO PUNKTU WIDZENIA ZMIENNOŚĆ DANYCH. W FDA STAWIAMY PYTANIE dla jakiej funkcji wagowej (xi ) (t )xi (t )dt , osiąga najwyższą możliwą wartość? (klasyczne PCA dla jakiego wektora, wariancja kombinacji liniowej zmiennych przyjmuje wartość maksymalną) Nakładamy ograniczenie co do zachowania się , 2 (t )dt 1 (odpowiedni postulat dla wektorów własnych) STAWIAMY SOBIE ZA CEL 2 max (x i ) , pod warunkiem 2 (t )dt 1, i to analogon „wartości własnej”; to analogon funkcji własnej. Tak jak w wielowymiarowej PCA, nierosnący ciąg wartości własnych ... 1 2 k może zostać skonstruowany iteracyjnie – nakładamy ograniczenie aby nowa funkcja własna policzona w kroku l , była ortogonalna do tych policzonych we wcześniejszych krokach j (t ) l (t )dt 0, j 1,..., l 1, 2 l (t ) 1. Można na proces znajdywania wartości własnych spojrzeć: Szukamy funkcji własnych j funkcji kowariancji v(s, t ) jako rozwiązania funkcjonalnej postaci równania charakterystycznego (ang. „functional eigenequation”) v(s, t ) j (t )dt j j (s) . Rozwiązując takie zagadnienie własne – uzyskujemy jednocześnie najbardziej efektywną bazę wielkości l w tym sensie, że całkowita suma kwadratów błędu PCASSE x i (t ) x (t ) T i 2 c (t ) dt , i osiąga minimum z wykorzystaniem l funkcji bazowych empiryczne funkcje ortogonalne) i (t ) (są to tzw. Podobnie jak w przypadku klasycznych składowych głównych można rozważać rozmaite przekształcenia oryginalnych obserwacji za pomocą policzonej bazy 1,..., l np. tzw. principal component scores cij j (xi x) j (t ) x i (t ) x (t ) dt . PRZYKŁAD NR 1 – FPCA dla przyrostów PKB per capita w EU15 i A12 FPCA DLA EU 15 wartości własne 22.24 14.06 9.44 4.85 3.61 2.25 1.03 FPCA DLA A12 wartości własne 155.06 40.75 20.91 13.18 5.25 2.47 0.63 Rotacja VARIMAX dla FPCA? EU15 A12 PRZYKŁAD NR 2 Miesięczne wielkości stóp zwrotu z 10-letnich obligacji rządowych państw europejskich (nie tylko UE), w podziale na strefę z walutą państwową Euro oraz pozostałe (dane 01/2001-10/2011), dane Europejskiego Banku Centralnego. FUNKCJONALNA KOWARIANCJA – WYKRES PERSPEKTYWICZNY FUNKCJONALNA KOWARIANCJA – WYKRES KONTUROWY FPCA STREFA EURO FPCA POZOSTAŁE PAŃSTWA UE FPCA STREFA EURO – ROTACJA VARMAX FPCA POZOSTAŁE PAŃSTWA UE – ROTACJA VARMAX WYBÓR LICZBY SKŁADOWYCH GŁÓWNYCH w FPCA W wielowymiarowym PCA, kontrolujemy poziom dopasowania do danych poprzez wybór liczby składowych głównych. W przypadku funkcjonalnych PCA także możemy modulować poziom dopasowania poprzez kontrolowanie charakterystyk gładkości (ang. „roughness”) dla estymowanej funkcji własnej np. poprzez modulowanie definicji ortogonalności funkcji: j (t ) k (t )dt D 2 j (t )D 2 k (t )dt 0, gdzie to parametr modyfikujący, D 2 (t ) druga pochodna funkcji t odpowiada krzywiźnie funkcji w punkcie t . w punkcie EKSPORACJA FUNKCJONALNEJ KOWARIANCJI poprzez ANALIZĘ KORELACJI KANONICZNYCH Bardzo często w ekonomii staramy się zbadać sposoby, w jakie dwa zbiory funkcji (krzywych, trajektorii, ścieżek wzrostu) (xi , yi ), i 1,..., N ; dzielą wariancję (są współzmienne). FAD oferuje w tym zakresie m. in. funkcjonalne korelacje kanoniczne. Dwa zbiory zmiennych zostały wycentrowane tzn. funkcje x i oraz yi zastąpiono poprzez reszty x i x oraz yi y ; zakładamy, że x y 0. Definiujemy mody wariancji dla x - ów oraz y - ów w kategoriach funkcji próbnikowych (sond) oraz , które definiują całki i (t )xi (t )dt oraz (t )yi (t )dt i Za kryterium współzmienności funkcji przyjmujemy kwadrat korelacji kanonicznej 2 i R2 ( , ) i 2 i Uzyskane w ten sposób N par i i , które odpowiadają wspólne składowe. i i 2 i ’ i reprezentuje wspólne wariancje, za Współczynnik korelacji kanonicznej 2 i R2 ( , ) i i 2 i 2 i i i i i (t )xi (t )dt (t )xi (t )dt (t )yi (t )dt 2 i 2 (t )yi (t )dt 2 , Tak jak w przypadku zwykłych korelacji kanonicznych, funkcje wagowe oraz są wyspecyfikowane poprzez znalezienie par wag (sond), które optymizują kryterium R2 ( , ). Możemy policzyć nierosnący ciąg kwadratów korelacji kanonicznych R12, R22,..., Rk2 poprzez policzenie kolejnych kanonicznych wartości sond – które są do siebie ortogonalne. Przyrost PKB per capita w krajach EU15 i A12 – dwie pierwsze zmienne kanoniczne. współczynniki kanonicznych korelacji R1=1.0; R2=1.0; R3=0.97; R4= 0.95; R5=0.65; R6= 0.57; R7= 0.12 Współrzędne państw EU15 oraz A12 w przestrzeni dwóch pierwszych zmiennych kanonicznych zm 1 zm 2 Austria_R -10.45 -0.138 BL_R -8.981 -0.123 Belgium_R -9.129 -0.102 Luxembourg_R -5.333 0.152 Denmark_R -5.733 0.296 Finland_R -9.410 0.587 France_R -8.926 0.280 Germany_R -8.581 -0.299 Greece_R -5.851 -0.473 Ireland_R -12.186 0.037 Italy_R -8.221 0.0006 Netherlands -6.563 -0.331 zm 1 zm 2 Bulgaria -7.450 -1.653 Cyprus -6.401 -1.470 Czech.Republic -6.507 -1.224 Estonia -3.801 1.820 Hungary -4.086 3.545 Latvia -6.707 7.016 Lithuania -6.362 3.358 Malta.and.Gozo -6.116 -3.583 Poland -4.170 -5.654 Romania -8.685 0.444 Slovakia -5.859 0.007 Slovenia -4.678 -3.961 PODSUMOWANIE I NOWE PERSPEKTYWY BADAŃ EKONOMICZNYCH 1. Współczesna ekonomia podejmuje zagadnienia oraz bada zjawiska, które nie istniały powiedzmy 20-30 lat temu. 2. Strumieniowe przetwarzanie danych, rynki finansowe, centra handlowe, monitorowanie centrum miasta za pomocą systemu kamer, roboty internetowe, zarządzanie centrum handlowym, sieci telekomunikacyjne… 3. Funkcjonalna regresja np. w zagadnieniu czy poziom rozwoju ekonomicznego państwa ma związek z jego trajektorią wzrostu GDP… DZIĘKUJĘ