X - e-Uczelnia UEK
Transkrypt
X - e-Uczelnia UEK
DYNAMICZNA ESTYMACJA WARUNKOWEGO ROZKŁADU PRAWDOPODOBIEŃSTWA w STRUMIENIOWEJ ANALIZIE DANYCH EKONOMICZNYCH Daniel Kosiorowski Katedra Statystyki, UEK w Krakowie Posiedzenie Rady Wydziału Zarządzania Kraków, 23.05.2013 PLAN REFERATU 1. Czym jest strumieniowe przetwarzanie danych. 2. Strumieniowa analiza danych vs. analiza ekonometryczna wielowymiarowego procesu stochastycznego. 3. Strumienie danych ekonomicznych – modele i zagadnienia badawcze (przekleństwo wielowymiarowości, niestacjonarność procesu, złożoność obliczeniowa procedury statystycznej). 4. Wybrane zagadnienia nieparametrycznej estymacji warunkowego rozkładu prawdopodobieństwa (WRP). 5. Propozycje dynamicznych procedur estymacji WRP. 6. Własności propozycji. 7. Konkluzje i plany na przyszłość. WPROWADZENIE 1. Konieczność szacowania warunkowego rozkładu prawdopodobieństwa bezpośrednio lub pośrednio pojawia się w większości procedur statystycznych wykorzystywanych w ekonomii – credit scoring, ubezpieczenia na życie ale także audit finansowy, analiza wskaźnikowa, przewidywanie wpływów z podatku VAT, prognozy inflacji, sondaże opinii publicznej itd. 2. Nowe zjawiska w ekonomii jak np. strumieniową analiza (analizą on line) wielkich wielowymiarowych zbiorów danych generowanych przez “złośliwe” modele stanowią wyzwanie dla statystyków i ekonometryków (Cox, Rubin, Huber, 2011). Nowe zjawiska nie przystają do możliwości klasycznej statystyki wywodzącej się z postulatów R. A Fishera z lat 20 ubiegłego wieku. Nasza próba nie ma końca…, procedura nie może być zbyt złożona obliczeniowo… JAK ROZUMIEĆ STRUMIEŃ DANYCH? Strumień danych może zostać nieformalnie zdefiniowany jako ciąg obserwacji o nieokreślonej długości (Szewczyk, 2010). Strumienie danych to generowane z wysoką prędkością zbiory danych, które są wyzwaniem dla systemów obliczeniowych w związku z koniecznością ich przetwarzania, magazynowania oraz wnioskowania co do nich (Gaber, 2012). Terminologia wywodzi się z teoretycznej informatyki, gdzie strumienie były rozważane po raz pierwszy (zobacz np. Aggerwal 2007, Muthukrishan, 2006, Imieliński, 2011, Indyk, 2010 ). W ekonomii z wykorzystujemy stochastyczne podejście metodologiczne odwołujące się do teorii nieliniowych szeregów czasowych i tzw. machine learning. Nasze inspiracje: Donoho, D., High-dimensional Data Analysis: The Curses and Blessings of Dimensionality, Manuscript, AMS, 2000. Fan, J. Yao, Q., Nonlinear Time Series: Nonparametric and Parametric Methods, Springer, New York, 2005. Jianqing Fan David Donoho Muthu Muthukrishan Tomasz Imieliński „statystyka + ekonometria” „teoretyczna informatyka” PRZYKŁADY STRUMIENI DANYCH (zaledwie sześć współrzędnych…) MONITOROWANIE FUNKCJI WIELOWYMIAROWEGO STRUMIENIA DANYCH - NAPREŻĘNIA NA POLSKIM RYNKU AKCJI na podstawie indeksów branżowych Źródło: Obliczenia własne, dane Parkiet . STRUMIENIOWA ANALIZA DANYCH VS. ANALIZA EKONOMETRYCZNA Strumienie danych stanowią ważne źródło wiedzy, które umożliwia nam podejmowanie decyzje w tzw. czasie rzeczywistym (systemy bezpieczeństwa, roboty przemysłowe, ale też wypowiedzi w sieci Internet, akcje społeczne, zapisy ze stacji meteorologicznych… W przypadku analizy procesu stochastycznego powiedzmy {Xt } , zakładamy ustalony (najczęściej czasowy) przedział badania powiedzmy [0,T ]. Wszelkie nasze obliczenia dotyczą tego przedziału – wnioskujemy na podstawie informacji zawartej w tym przedziale. W przypadku analizy strumienia danych nie ustalamy przedziału badania – każda kolejna chwila oznacza nową analizę stochastyczną. Nowe zjawiska w ekonomii takie jak wielowymiarowe finansowe dane wysokiej częstości, handel elektroniczny, przeszukiwanie sieci Internet za pomocą automatów, monitorowanie opinii publicznej, sieci teleinformatyczne, roboty przemysłowe – propozycje nowych procedur statystycznych, które odbiegają od paradygmatu statystyki R. A. Fishera. Trzy reżimy strumienia danych i dwie obserwacje odstające. Monitorowanie strumienia na podstawie ruchomego okna . ZŁOŻONOŚĆ OBLICZENIOWA PROCEDURY POWINNA O(n 32 )!!! Metody DATA MINING to w istocie klasyczna statystyka opisowa!!! CECHY CHARAKTERYSTYCZNE STRUMIENIOWEGO PRZETWARZANIA DANYCH EKONOMICZNYCH 1. Dane generowane są przez procesy nieliniowe. 2. Strumienie danych cechuje występowanie wielu reżimów. 3. Sygnał niesiony przez strumień może pojawiać w nieregularnych odstępach czasu oraz powinien być przetwarzany on-line. Przez sygnał rozumiemy relację pomiędzy charakterystykami liczbowymi procesu a nie jako wynik usunięcia tzw. szumu ze strumienia. 4. Analizujemy strumień na podstawie stale uaktualnianej próby – ruchomego okna bądź okien (okna mogą się różnić długością, jeżeli interesują nas różne skale czasowe, „częstością odświeżania”). 5. Strumienie generują wielkie zbiory wielowymiarowych danych, które zawierają obserwacje odstające. W związku z rozmiarem dane te często nie mogą być magazynowane w pamięci komputera. ISTNIEJĄCE PODEJŚCIA DO STRUMIENIOWEJ ANALIZY DANYCH 1. Techniki dwufazowe (Aggarwal i in. 2007) – podsumowanie danych online z wykorzystaniem mikroklastrów. np. algorytm CluStream bądź algorytm HPStream – analiza skupisk opierająca się o projekcje wielowymiarowych strumieni danych. 2. Techniki wykorzystujące teorię Hoeffdinga – Domingos i Hulten (2000) – bardzo szybkie machine learning (VFML). Strategia analizy danych wiąże się z osiąganiem pewnego górnego ograniczenia dla funkcji straty (np. wyrażającej dokładność oszacowania średniej) zależnej od liczby obserwacji w kolejnym kroku algorytmu. 3. Aproksymacja symboliczna (SAX) – reprezentacja szeregu czasowego zaproponowana przez Koegh i in. 2005. Reprezentacja szeregu czasowego w tzw. przestrzeni stanów - znalezienie najczęstszych oraz najbardziej różniących się wzajemnie jego podciągów. Pierwszy krok to „zagregowana aproksymacja po podprzedziałach wartości szeregu” (Piecewise Aggregate Approximation - PAA). Drugi krok to dyskretyzacja symboliczna szeregu – agregaty zastępujemy tzw. znakami (Symbolic Discretization). W końcowym kroku liczymy odległości pomiędzy znakami. 4. Techniki wieloziarniste (ang. granularity based techniques): Zaproponowane przez Gaber i in. (2009) – takie modyfikacje technik data mining aby za ich pomocą można było badać dane pochodzące z różnych źródeł (różnej częstości, wymiaru itd.) MODEL STRUMIENIA DANYCH EKONOMICZNYCH W teoretycznej informatyce, jeżeli wprowadza się model probabilistyczny danych to przeważnie jest to model danych niezależnych o tym samym rozkładzie – główny akcent badawczy to zmniejszenie złożoności obliczeniowej zagadnienia przy zadowalającej „dokładności”, „wiarygodności” – teoria grafów, kombinatoryka, modele graficzne, przetwarzanie równoległe… W ekonomii w zasadzie rozważmy jedynie probabilistyczne modele strumieni – odwołujemy się przy tym do teorii procesów niestacjonarnych, procesów o wielu reżimach. Zakładamy, że strumienie mogą zawierać obserwacje odstające różnego typu (outliers, inliers, odstające pod warunkiem konkretnego reżimu itd.) Model strumienia można wprowadzić w oparciu o znane w ekonometrii modele szeregów o wielu reżimach np. SETAR, FTAR itd. Próby: Kosiorowski (2011), Kosiorowski (2012a), (2012b), Kosiorowski (2013a), (2013b), (2013c), Kosiorowski i Snarska (2012), Kosiorowski i Zawadzki (2013), pośrednio Kosiorowski i Bocian (2013), Kosiorowski i Węgrzynkiewicz (2013)…. OGÓLNY SCHEMAT DLA STRUMIENIA DANYCH EKONOMICZNYCH CHARME (Conditional Vector Heteroscedastic Autoregressive Mixture of Experts) (zobacz Stockis i in., 2010) to ogólnych schemat modelowania szeregów czasowych o wielu reżimach. W szczególności obejmuje wiele znanych modeli liniowych i nieliniowych jak np. modele autoregresyjne, modele TAR, SETAR, FAR, GARCH czy SV (Franses i Van Dijk, 2000). Modelując strumień za pomocą CHARME umawiamy się, że Odczytać sygnał niesiony przez strumień = wskazać, który z reżimów modelu generuje dane. Niech X1 (X11,..., X1d ), X2 strumień danych d (X21,..., X2d ),..., oznacza d-wymiarowy 1 . Okno Wi,n oznacza ciąg punktów kończących się w xi o wielkości n , tzn., Wi,n (xi n 1,..., xi ). W modelu CHARME dynamiką procesu {Xt } zawiaduje ukryty łańcuch Markowa {Qt } na skończonej przestrzeni stanów {1,2,..., K } . Model definiujemy za pomocą równania: K Xt gdzie Stk k k 1 Stk (mk (Xt 1,..., Xt 1 dla Qt k (Xt 1,..., Xt p ) t ) p) k oraz Stk 1,..., K , są pewnymi funkcjami, bt Θt , 0 w przeciwnym wypadku, mk , t k, oznaczają zmienne losowe niezależne o tym samym rozkładzie o wartości oczekiwanej zero, człon bt Θt wiąże się z obserwacjami odstającymi, bt jest binarną zmienną losową wskazującą pojawienie się obserwacji odstającej w chwili t , oraz Θt to (losowa) wartość odstająca. Zakładamy, że Qt zmienia rzadko swą wartość, tzn. obserwowany proces podlega temu samemu reżimowi przez względnie długi czas zanim nastąpi zmiana reżimu. PRZYKŁADY PROBLEMÓW DO ROZWIĄZANIA Dalej rozważamy jednowymiarowy strumień danych oraz wnioskowanie w oparciu o ruchome okno ustalonej długości. Dalsze uogólnienie patrz Kosiorowski (2012), uogólnienia wielowymiarowe patrz Kosiorowski i Snarska (2012), (2013). PROBLEM 1: Monitorujemy jednowymiarowy strumień X1, X2,... , oraz naszym zadaniem jest wykrycie zmian w bezwarunkowym rozkładzie Xi , na podstawie ruchomego okna Wi,n , i A ,i 1,2,... , tzn., zmian P(Xi A), 1,2,... . PROBLEM 2: Monitorujemy jednowymiarowy strumień X1, X2,... , i naszym zadaniem jest wykryć zmiany w rozkładzie warunkowym Xi pod warunkiem obserwowanego okna Wi,n , i P(Xi 1 A | Wi,n x), A ,i 1,2,... . 1, 1,2,... , tzn., zmiany W celu rozwiązania powyższych problemów skupiamy naszą uwagę na zmodyfikowanym estymatorze Nadaraya – Watsona warunkowej dystrybuanty, który został zaproponowany przez Halla i in. (1999). Autorzy założyli, że dane dostępne są w formie ściśle stacjonarnego procesu stochastycznego {(Yi , Xi )}, gdzie Yi jest skalarem oraz Xi jest dwymiarowym wektorem. Autorzy zaproponowali szacowania warunkowej dystrybuanty F (y | x) dwie P(Yi procedury y | Xi x), metodę lokalnej regresji logistycznej oraz zmodyfikowany estymator Nadaraya-Watsona, które mają lepsze własności statystyczne niż znane podejścia lokalne i lub nieparametryczne. Ich propozycje nie były jednakże odporne… Jak rozumieć odporność estymatora dystrybuanty? ESTYMATOR JĄDROWY GĘSTOŚCI PRAWD. (por. Tsybakov 2010) Niech X1,..., Xn oznaczają niezależne zmienne losowe o tym samym rozkładzie o gęstości prawdopodobieństwa f względem miary Lebesque’a na Pamiętamy, że dystrybuantę tej zmiennej definiujemy jako F (x ) Jej Fn (x ) odpowiednik 1 ni z próby to tzw. f (t )dt . empiryczną n 1 I (Xi x ) , gdzie I () oznacza funkcję wskaźnikową. Z mocnego prawa wielkich liczb wiemy, że Fn (x ) F (x ) , x , prawie . Dlatego też Fn (x ) jest zgodnym estymatorem F (x ) dla na pewno, gdy n każdego x dystrybuanta x . . Dla dostatecznie małego h f (x ) F (x 0 ma miejsce aproksymacja gęstości f (x ) h ) F (x 2h h) . Zastępując dystrybuantę F poprzez jej oszacowanie Fn możemy zdefiniować tzw. estymator Rosenblatta fˆnR (x ) Fn (x h ) Fn (x 2h h) . Możemy zapisać ten estymator w następującej postaci fˆnR (x ) gdzie K 0 (u) 1 2nh i n I (x h Xi 1 1 2I( 1 u Funkcja x h) n i 1 K0 Xi x h , 1). Poprzez proste uogólnienie mamy fˆn (x ) gdzie K : x 1 nh 1 nh i n K Xi 1 jest całkowalną funkcją spełniającą x h , K (u)du 1 (jądrem). fˆn (x ) nazywana jest estymatorem jądrowym bądź estymatorem Parzena – Rosenblata. Przykłady wykorzystywanych jąder: K (u) 1 I( u 2 1) (jądro prostokątne) K (u) 3 (1 4 u 2 )I ( u 1) (jądro Epanechnikowa) K (u) 1 2 exp u2 / 2 OCENA JAKOŚCI ESTYMATORA JĄDROWEGO Podstawową miarą jakości estymatora jądrowego jest jego błąd średniokwadratowy (ryzyko średniokwadratowe) liczone w dowolnym lecz ustalonym punkcie x 0 MSE : MSE(x 0 ) Ep fˆn (x 0 ) f (x 0 ) 2 , gdzie Ep oznacza wartość oczekiwaną liczoną względem rozkładu (X1,..., Xn ). Uwaga: MSE= obciążenie + wariancja estymatora fˆn w punkcie x 0 . Ważne globalne kryterium to scałkowany błąd średniokwadratowy MISE Ep fˆn (x ) 2 f (x ) dx MSE(x )dx . ESTYMATOR JĄDROWY W PRZYPADKU WIELOWYMIAROWYM Dla x d ,d 1, potrzebujemy jądra K : d . Najczęściej korzysta się z tzw. jądra produktowego d K (u) j 1 gdzie K j : K j (u j ), to jednowymiarowe jądra, szerokości pasm h j w odniesieniu do współrzędnej j , oraz hn normie wektora K (u) h1 hd bądź stosuje się jądra określonych na K ( u ) , dla stosownie wybranej normy na d . W nawiązaniu do analizy szeregów czasowych najczęściej stosujemy jądra produktowe, estimator gęstości ma wówczas postać fn (x ) 1 ni n d 1j xij x j 1 Kj , hj 1 hj ˆj h wiąże się z oszacowaniem odchylenia std. dla j-tej współrzędnej gdzie h j (oszacowania jądrowe i szeregi czasowe - zjawisko ang. whitening by a windowing principle – zobacz Hart, 1994) PRZYKŁAD: OSZACOWANIE JĄDROWE 2D – wiek vs. log(płaca) we Włoszech SZACOWANIE WARUNKOWEJ GĘSTOŚCI d Niech (Y , X) z y ,x ,d 1 oznacza wektor losowy o łącznej gęstości f (y, x) oraz fX (x) niech będzie gęstością brzegową X . Wtedy warunkowa gęstość g(Y | X f (y, x) , fX (x) x) może być szacowana poprzez podstawienie estymatora jądrowego do licznika i mianownika wzoru na g(y | x ). Wybierając funkcje jądrowe K d 1 , K (y, x) K1(y)K (x), oraz szerokości pasm h1 i odpowiednio h uzyskujemy estymator jądrowy gęstości warunkowej. h1 gn (y | x) 1 n i 1 K1 yi h1 n K i 1 y xi K x h xi x h . PRZYKŁADY SZACOWANIA GĘSTOŚCI WARUNKOWEJ Kluczową kwestią w estymacji jądrowej jest właściwy wybór szerokości pasma, wybór jądra ma znaczenie drugorzędne (por Tsybakow 2012, Krzyśko, 2012, Wand & Johnes, 1996) SZEREG DOBRYCH METOD WYBORU PASMA JEST CZĘSTO BARDZO ZŁOŻONYCH OBLICZENIOWO – BEZUŻYTECZNYCH W PRZYPADKU ANALIZY STRUMIENI (ang. - cross validation (uwiarygodnianie krzyżowe), pilot density method (metoda podstawień), rules of thumb (reguły kciuka), reference density methods…) ODPORNOŚĆ JĄDROWEGO ESTYMATORA GĘSTOŚCI W przypadku wielu ekonomicznych zbiorów danych często napotykamy obserwacje odbiegające od większości danych. Takie obserwacje mogą powodować trudności ponieważ mogą wpływać na wyniki analizy ekonomicznej. Jednym z celów statystyki odpornej jest wykrywanie obserwacji odstających poprzez poszukiwanie modelu dopasowywanych do większości obserwacji. Przypuśćmy, że mamy obserwacje pięciu miesięcznych wynagrodzeń (w zł) w Polsce w 2011 roku: 3225; 3103; 2944; 3100; 1123, oraz naszym celem jest oszacowanie prawdziwej wartości “centralnego wynagrodzenia średnia = 2699; median = 3100; SD=886.63; MAD=185.23 Xn {X1,..., Xn } ,SD MAD 1/n MED Xi (Xi X )2 , MED{Xi } ODPORNOŚĆ ZWYKŁEGO WSPÓŁCZYNNIKA KORELACJI Z PRÓBY – 20 obserwacji wygenerowanych z dwuwymiarowego rozkładu normalnego o jednostkowych wariancjach i wsp. korelacji 0.8. Wsp. korelacji z próby wynosi 0.81. Na rysunku B występują dwie obserwacje odstające (tzn. 10% danych): zamieniono pozycje dwóch punktów. Zwykłe oszecowanie wsp. korelacji spada teraz do 0.05. (przykład Maronny i Yohai’a). A B Pomiar odporności – ogólne podejście Gentona i Lucasa (2002) Szukamy frakcji obserwacji odstających, która sprawia, że estymator bądź szerzej pewna miara jakości procedury przyjmuje jedynie skończoną liczbę wartości pomimo kontinuum możliwych realizacji próby. ODPORNOŚĆ ESTYMATORA JĄDROWEGO GĘSTOŚCI? Pomiar odporności w kategoriach miary dobroci estymatora fˆn - błędu średniokwadratowego w dowolnym ustalonym punkcie x 0 ? Jednakże jeżeli dane generowane są przez mieszaninę rozkładów to estymator jądrowy ujmuje wszystkie składowe mieszaniny – chcielibyśmy pominąć jedną ze składowych co jeśli mieszaniny? PROPOZYCJE: W duchu propozycji Hall i in. (1999) niech pi 1 pi (x), dla n , oznacza wagi (funkcje danych x1,..., xn jak również x ) o tej własności, i n że każde pi 0, i 1 pi (x)(Xi x)Kh (Xi x) n 0, p i 1 i 1. Możemy zdefiniować następujące estymatory bezwarunkowej 1 ni f (x ) n 1 pi (x )Kh (xi x) , oraz warunkowej gęstości h1 g(y | x) 1 n i 1 Kh1 (yi 1 y)pi (y, x)Kh (xi n i 1 pi (x)Kh (xi x) x) , Kh () h 1K ( / h), Kh1 jest jądrem 2 , h to szerokość pasma. jednowymiarowymi, Kh oznacza jądro d-wymiarowe, d gdzie K jest jądrem (np. Gaussowskim), Możemy „uodpornić” podejście Hall i in. (1999) wybierając wagi pi (x) będącej wartościami zmodyfikowanej funkcji głębi z próby. Głębia danych to sposób pomiaru „głębi” bądź „odstawania” danego punktu względem wielowymiarowej chmury danych bądź wielowymiarowego rozkładu prawdopodobieństwa, który tę chmurę generuje. Statystyczna funkcja głębi umożliwia porządkowanie obserwacji na podstawie ich odstawania od centrum. Taki porządek umożliwia pomiar wielu cech wielowymiarowej populacji – wielowymiarowej skośności, wielowymiarowej kurtozy, proponowanie wielowymiarowych testów Wilcoxona, wykresów kwantyl-kwantyl, wielowymiarowych wykresów pudełkowych itd. Odwiedź: Depth Procedures R package {depthproc}, 2012, https://r-forge.r-project.org/projects/depthproc/ Niech Xn 1. Niech I () oznacza funkcję wskaźnikową, tzn. I (A) d d {X1,..., Xn } oznacza próbę losową z rozkładu G() w zachodzi oraz I (A) , 1 jeżeli A 0 w przeciwnym wypadku. Dysponując próbą Xn , definiujemy głębię symplicjalną z próby (głębię Liu) punktu x D(x, Xn ) d za pomocą 1 n d 1 I (x (*) s[Xi ,..., Xi 1 d 1 ]), gdzie (*) przebiega wszystkie możliwe podzbiory Xn wielkości d s[Xi ,..., Xi 1 d 1 1, ] oznacza domknięty sympleks z wierzchołkami Xi ,..., Xi 1 d 1 . Prof. Regina Y. Liu (za jej sprawą statystyczne funkcje głębi zyskały rozgłos) Gdy rozkład G jest znany, wtedy głębię symplicjalną x względem G definiujemy jako D(x,G ) d PG {x s[X1,..., Xd 1 ]}, gdzie X1,..., Xd 1 obserwacjami losowymi z G , s oznacza sympleks. 1 są PROPOZYCJA 1: Niech Wj ,n o wielkości n w j chwili {x j n ,..., x j } , oznacza okno ze strumienia l,...,. W celu dynamicznej estymacji bezwarunkowego rozkładu strumienia determinowanej za pomocą funkcji gęstości f , proponujemy liczyć w kolejnych chwilach fj (x ) 1 ni n 1 Kh (xij x )D(x,Wj ,n ), j gdzie K oznacza funkcję jądrową, Kh () zmodyfikowaną głębię z próby x , xij Wj,n , i l,... h 1K ( / h ), D(x,Wj,n ) oznacza 1,..., n , j l,..... PROPOZYCJA 2: Niech Wj N ,n {x j N n ,..., x j N } ,…,Wj ,n oznacza N okien ze strumienia o długości n , j XNj Niech YjN {x j {(x j N ,..., x j 1 , x j } {y1j ,..., yNj }. przeszłości (X j 1,..., X j k ), k h1 1 N i 1 Kh1 (yij 1 N i 1 gdzie Kh () l,..., k, N k N ,..., x j 1 N ),...,(x j k 1,..., x j 1 )} warunkowego rozkładu X j fj (y | (X j 1,..., X j {x j k) W celu dynamicznej determinowanego przez n ,..., x j } ,N k. {x1j ,..., xNj } , estymacji f j , pod warunkiem 2, 3 , proponujemy liczyć w kolejnych chwilach x) y)D (y, x),(YjN , XNj ) Kh (xij D x, XNj Kh (xij x) , j l,..., x) f j jest zmodyfikowanym estymatore jądrowym f j , K( ) to jądro, h 1K( / h) , D(, ) jest zmodyfikowaną głębią z próby. W przypadku obu propozycji początkowo w celu wyboru szerokości pasma h wykorzystywaliśmy wariant uwiarygodniania krzyżowego (cross-validation) na podstawie Hall i in. 2004 stosowany do najbardziej centralnych punktów okna względem pewnej próby referencyjnej, tzn.,{y YjN : D(y,Y g ) }, gdzie Y g oznacza próbę referencyjną, D(, ) to funkcja głębi. Jednakże w związku z wielką złożonością procedury zdecydowaliśmy się wykorzystywać „dynamiczną regułę kciuka” 𝒉𝒊𝒐𝒑𝒕 = 𝑴𝑨𝑫{𝑾𝒊,𝒏 } ∙ 𝒏−𝟏/𝟒 , i=1,…, która prowadziła do zadowalających wyników. WŁASNOŚCI PROPOZYCJI - SYMULACJE MONTE CARLO Generowano po 500 razy trajektorie złożone z 5000 obs. z wielu znanych w ekonometrii liniowych i nieliniowych modeli danych. Rozpatrywano ruchome okna o ustalonej długości 100–500 obs. oraz próby zawierające do 15% tzw. addytywnych obs. odstających (AO). 1. SETAR MODEL Xt t 1 1 5 0.9Xt 0.9Xt t 1 t 1 Xt Xt 1 1 3 ,Y 3 t 1 1 0.9Yt 10 0.9Yt ~ to niezależne zm. losowe o rozkładzie Studenta t(3) każda. t 1 t 1 Yt Yt 1 1 3 3 2. MODELE CHARME złożone z dwóch podmodeli AR(1)-GARCH(1,1) Xt t 2 0.1Xt 5 t Zt 1 1 t , , 0.1 2 t 1 0.75Xt2 1, gdzie Zt ~ rozkład normalny N(0,1),skośny rozkład Studenta T, skośny rozkład normalny SN(0,1) , skośny rozkład GED. WYNIKI SYMULACJI (wybór) MODEL 1 – SETAR i szacowanie rozkładu bezwarunkowego SETAR + 5% OBS. ODSTAJĄCYCH TYPU AO SETAR + 15% OBS. ODSTAJĄCYCH TYPU AO MODEL 2 – AR(1)-GARCH(1,1) i szacowanie rozkładu warunkowego Cond skewed t(4) Cond normal N(0,1) Cond skewed N(0,1) CHARME: przeskoki pomiędzy AR(1)-GARCH(1,1) z rozkładem warunkowym skośnym T(4) i „tym samym” AR(1)GARCH(1,1) ale z warunkowym rozkładem N(0,1) AR(1)-GARCH(1,1) ze skośnym T(4) + 5% odstających AO AR(1)-GARCH(1,1) ze skośnym T(4) + 10% odstających AO PODSUMOWANIE I DALSZE STUDIA ZAGADNIENIA Jeżeli złożoność procedury O(n 32 ) wtedy uznaje się ją za zbyt złożoną do analizy wielkich zbiorów danych – tym samym do analizy ekonomicznych strumieni danych. Niestety wiele propozycji odpornych procedur statystycznych cechuje wielka złożoność obliczeniowa. jednakże… „Assume you are confronted with a huge data set (1010 bytes, or 10 gigabytes). If a meaningful analysis is possible with a 1% random subsample, the problem is solved - we are back to large sets. Except for validation and confirmation, we might not even need the other 99%.” P. Huber (2011) - ostatnio pojawia się szereg obiecujących podejść do przybliżonego obliczania funkcji głębi oraz do przybliżonego obliczania optymalnej szerokości pasma wygładzania. Propozycje Kosiorowski i Zawadzki (2013), Kosiorowski i Snarska (2013), Kosiorowski, Rydlewski i Snarska (2013). oraz kolejna myśl… „I probably spend more time turning messy source data into something usable than I do on the rest of the data analysis process combined.” P. Warden (2011) - czyżby renesans tzw. podejścia merytorycznego (Zeliaś, 1998) w statystycznej analizie danych? - być może kolejny wymiar stosowania tzw. subiektywnej analizy bayesowskiej (Press, 2009)? DZIĘKUJĘ! WYBÓR LITERATURY [1] Aggerwal Ch. C. (ed.), Data Streams – Models and Algorithms, Springer, New York, 2007. [2] Bocian, M. Kosiorowski, D., Węgrzynkiewicz, A., Zawadzki, Z. Depth Procerures R package {depthproc}, 2012, https://r-forge.r-project.org/projects/depthproc/ [retrieved: Feb. 2013] [3] Donoho, D., High-dimensional Data Analysis: The Curses and Blessings of Dimensionality, Manuscript, 2000, http://www-stat.stanford.edu/~donoho/Lectures/AMS2000/Curses.pdf [4] Fan, J. Yao, Q., Nonlinear Time Series: Nonparametric and Parametric Methods, Springer, New York, 2005. [5] Franses P. H., Van Dijk, D. (2000) Non-linear Time Series Models in Empirical Finance, Cambridge: Cambridge University Press [6] Hart, J.D., (1994). Smoothing time-dependent data: a survey of data driven methods. Journal of Nonparametric Statistics [7] Gaber, M. M. (2012), Advances in data stream mining, WIREs Data Mining Knowl Discov 2012, 2: 79–85 doi: 10.1002/widm.52 [8] Genton M. G., Lucas A., Comprehensive Definitions of Breakdown Points for Independent and Dependent Observations, Journal of the Royal Statistical Society Series B, 2003, 65, 81 – 84. [9] Hall, P., Rodney, C. L. and Yao, Q., Methods for Estimating a Conditional Distribution Function. Journal of the American Statistical Association, vol. 94, 1999, pp. 154-163. [10] Hall, P., Racine, J., Li, Q, Cross-Validation and the Estimation of Conditional Probability Densities, Journal of the American Statistical Association, vol. 99, pp. 1015-1026. [11] Hahsler, M., Dunhamr, H. M., EMM: Extensible Markov Model for Data Stream Clustering in R, Journal of Statistical Software, vol. 35, 2010, pp. 2 – 31. [12] Härdle, W., Hautsch, N. and Overbeck, L. Applied Quantitative Finance, 2nd edition, Springer, Heidelberg, 2009. [13] Jacod, J., Shiryaev, A.N., Limit Theorems for Stochastic Processes, Second ed., Springer-Verlag, New York, 2003. [14] Kosiorowski, D., Student Depth in Robust Economic Data Stream Analysis, Colubi A. (Ed.) Proceedings COMPSTAT’2012, ISI/IASC, 2012, pp. 437 – 449. [15] Kosiorowski, D., Snarska, M., Robust Monitoring of a Multivariate Data Stream, 2013, unpublished, https://r-forge.r-project.org/projects/depthproc/ [retrieved: Feb. 2013] [16] Li, J., Liu, R. Y. New Nonparametric Tests of Multivariate Locations and Scales Using Data Depth. Statistical Science, vol. 19, 2004, pp. 686 – 696. [17] Maronna, R. A., Martin, R. D., Yohai, V. J., Robust Statistics - Theory and Methods. Chichester: John Wiley & Sons Ltd., 2006. [18] Muthukrishan, S., Data Streams: Algorithms and Applications, Now Publishers, 2006. [19] Ramsay, J. O., Hooker, G., Graves, S., Functional Data Analysis with R and Matlab, New York, Springer, 2009. [20] Racine, J. S. (2008), Nonparametric Econometrics: A Primer, Foundations and Trends in Econometrics, vol 3, no 1, 1–88. [21] Wand, M. P., Jones M. C. (1995), Kernel Smoothing, Monographs on Statistics and Applied Probability, 60, Chapman and Hall, London [22] Shalizi C. R., Kontorovich, A., Almost None of the Theory of Stochastic Processes A Course on Random Processes, 2007, http://www.stat.cmu.edu/~cshalizi/almost-none/ [Feb. 2013] [23] Serfling, R., Depth Functions in Nonparametric Multivariate Inference, In: Liu R.Y., Serfling R., Souvaine D. L. (Eds.): Series in Discrete Mathematics and Theoretical Computer Science, AMS, vol. 72, 2006, pp. 1 - 15. [24] Stockis, J-P.,Franke, J., Kamgaing, J. T., On Geometric Ergodicity of CHARME Models, Journal of the Time Series Analysis, vol. 31, 2010, pp. 141 – 152. [25] Szewczyk, W., Streaming Data, Wiley Interdisciplinary Rev.: Computational Statistics, vol. 3, 2010, [26] Torti, F., Perrotta, D., Atkinson, A. C, Riani, M., Benchmark Testing of Algorithms for Very Robust Regression, Computational Statistics and Data Analysis, vol. 56, 2012, pp. 2501–2512. [27] Tsybakov, A. B. (2010), Introduction to Nonparametric Estimation, Springer, New York. [28] Shao, W., Zuo,Y. (2012). Simulated Annealing for Higher Dimensional Projection Depth. Computational Statistics and Data Analysis, vol. 56, 2012, pp. 4026–4036.
Podobne dokumenty
Statystyczne funkcje głębi w odpornej analizie statystycznej strumieni danych ekonomicznych
5. Dane napływają do obserwatora z reguły w nierównych odstępach czasu, w pakietach nierównej wielkości. Można założyć, że modelem strumienia jest proces stochastyczny z czasem ciągłym. Wówczas ma...
Bardziej szczegółowo