X - e-Uczelnia UEK

Transkrypt

X - e-Uczelnia UEK
DYNAMICZNA ESTYMACJA WARUNKOWEGO
ROZKŁADU PRAWDOPODOBIEŃSTWA w
STRUMIENIOWEJ ANALIZIE DANYCH
EKONOMICZNYCH
Daniel Kosiorowski
Katedra Statystyki, UEK w Krakowie
Posiedzenie Rady Wydziału Zarządzania
Kraków, 23.05.2013
PLAN REFERATU
1. Czym jest strumieniowe przetwarzanie danych.
2. Strumieniowa
analiza
danych
vs.
analiza
ekonometryczna
wielowymiarowego procesu stochastycznego.
3. Strumienie danych ekonomicznych – modele i zagadnienia badawcze
(przekleństwo
wielowymiarowości,
niestacjonarność
procesu,
złożoność obliczeniowa procedury statystycznej).
4. Wybrane zagadnienia nieparametrycznej estymacji warunkowego
rozkładu prawdopodobieństwa (WRP).
5. Propozycje dynamicznych procedur estymacji WRP.
6. Własności propozycji.
7. Konkluzje i plany na przyszłość.
WPROWADZENIE
1. Konieczność
szacowania
warunkowego
rozkładu
prawdopodobieństwa bezpośrednio lub pośrednio pojawia się w
większości procedur statystycznych wykorzystywanych w ekonomii –
credit scoring, ubezpieczenia na życie ale także audit finansowy,
analiza wskaźnikowa, przewidywanie wpływów z podatku VAT,
prognozy inflacji, sondaże opinii publicznej itd.
2. Nowe zjawiska w ekonomii jak np. strumieniową analiza (analizą on
line) wielkich wielowymiarowych zbiorów danych generowanych przez
“złośliwe”
modele
stanowią
wyzwanie
dla
statystyków
i
ekonometryków (Cox, Rubin, Huber, 2011). Nowe zjawiska nie
przystają do możliwości klasycznej statystyki wywodzącej się z
postulatów R. A Fishera z lat 20 ubiegłego wieku. Nasza próba nie ma
końca…, procedura nie może być zbyt złożona obliczeniowo…
JAK ROZUMIEĆ STRUMIEŃ DANYCH?
 Strumień danych może zostać nieformalnie zdefiniowany jako ciąg obserwacji o
nieokreślonej długości (Szewczyk, 2010).
 Strumienie danych to generowane z wysoką prędkością zbiory danych, które są
wyzwaniem dla systemów obliczeniowych w związku z koniecznością ich
przetwarzania, magazynowania oraz wnioskowania co do nich (Gaber, 2012).
Terminologia wywodzi się z teoretycznej informatyki, gdzie strumienie były
rozważane po raz pierwszy (zobacz np. Aggerwal 2007, Muthukrishan, 2006,
Imieliński, 2011, Indyk, 2010 ).
W ekonomii z wykorzystujemy stochastyczne podejście metodologiczne
odwołujące się do teorii nieliniowych szeregów czasowych i tzw. machine learning.
Nasze inspiracje:
 Donoho, D., High-dimensional Data Analysis: The Curses and Blessings of
Dimensionality, Manuscript, AMS, 2000.
 Fan, J. Yao, Q., Nonlinear Time Series: Nonparametric and Parametric
Methods, Springer, New York, 2005.
Jianqing Fan
David Donoho
Muthu Muthukrishan
Tomasz Imieliński
„statystyka + ekonometria”
„teoretyczna informatyka”
PRZYKŁADY STRUMIENI DANYCH (zaledwie sześć współrzędnych…)
MONITOROWANIE FUNKCJI WIELOWYMIAROWEGO STRUMIENIA DANYCH
- NAPREŻĘNIA NA POLSKIM RYNKU AKCJI na podstawie indeksów branżowych
Źródło: Obliczenia własne, dane Parkiet .
STRUMIENIOWA ANALIZA DANYCH VS. ANALIZA EKONOMETRYCZNA
 Strumienie danych stanowią ważne źródło wiedzy, które umożliwia
nam podejmowanie decyzje w tzw. czasie rzeczywistym (systemy
bezpieczeństwa, roboty przemysłowe, ale też wypowiedzi w sieci
Internet, akcje społeczne, zapisy ze stacji meteorologicznych…
 W przypadku analizy procesu stochastycznego powiedzmy {Xt } ,
zakładamy
ustalony
(najczęściej
czasowy)
przedział
badania
powiedzmy [0,T ]. Wszelkie nasze obliczenia dotyczą tego przedziału
– wnioskujemy na podstawie informacji zawartej w tym przedziale.
 W przypadku analizy strumienia danych nie ustalamy przedziału
badania – każda kolejna chwila oznacza nową analizę stochastyczną.
Nowe zjawiska w ekonomii takie jak wielowymiarowe finansowe dane
wysokiej częstości, handel elektroniczny, przeszukiwanie sieci Internet za
pomocą
automatów,
monitorowanie
opinii
publicznej,
sieci
teleinformatyczne, roboty przemysłowe – propozycje nowych procedur
statystycznych, które odbiegają od paradygmatu statystyki R. A. Fishera.
Trzy reżimy strumienia danych i dwie
obserwacje odstające.
Monitorowanie strumienia na podstawie
ruchomego okna .
ZŁOŻONOŚĆ OBLICZENIOWA PROCEDURY POWINNA
O(n
32
)!!!
Metody DATA MINING to w istocie klasyczna statystyka opisowa!!!
CECHY CHARAKTERYSTYCZNE STRUMIENIOWEGO
PRZETWARZANIA DANYCH EKONOMICZNYCH
1. Dane generowane są przez procesy nieliniowe.
2. Strumienie danych cechuje występowanie wielu reżimów.
3. Sygnał niesiony przez strumień może pojawiać w nieregularnych
odstępach czasu oraz powinien być przetwarzany on-line. Przez sygnał
rozumiemy relację pomiędzy charakterystykami liczbowymi procesu a
nie jako wynik usunięcia tzw. szumu ze strumienia.
4. Analizujemy strumień na podstawie stale uaktualnianej próby –
ruchomego okna bądź okien (okna mogą się różnić długością, jeżeli
interesują nas różne skale czasowe, „częstością odświeżania”).
5. Strumienie generują wielkie zbiory wielowymiarowych danych, które
zawierają obserwacje odstające. W związku z rozmiarem dane te
często nie mogą być magazynowane w pamięci komputera.
ISTNIEJĄCE PODEJŚCIA DO STRUMIENIOWEJ ANALIZY DANYCH
1. Techniki dwufazowe (Aggarwal i in. 2007) – podsumowanie danych online z
wykorzystaniem mikroklastrów. np. algorytm CluStream bądź algorytm HPStream –
analiza skupisk opierająca się o projekcje wielowymiarowych strumieni danych.
2. Techniki wykorzystujące teorię Hoeffdinga – Domingos i Hulten (2000) – bardzo
szybkie machine learning (VFML). Strategia analizy danych wiąże się z osiąganiem
pewnego górnego ograniczenia dla funkcji straty (np. wyrażającej dokładność
oszacowania średniej) zależnej od liczby obserwacji w kolejnym kroku algorytmu.
3. Aproksymacja
symboliczna
(SAX)
–
reprezentacja
szeregu
czasowego
zaproponowana przez Koegh i in. 2005. Reprezentacja szeregu czasowego w tzw.
przestrzeni stanów - znalezienie najczęstszych oraz najbardziej różniących się
wzajemnie jego podciągów. Pierwszy krok to „zagregowana aproksymacja po
podprzedziałach wartości szeregu” (Piecewise Aggregate Approximation - PAA). Drugi
krok to dyskretyzacja symboliczna szeregu – agregaty zastępujemy tzw. znakami
(Symbolic Discretization). W końcowym kroku liczymy odległości pomiędzy znakami.
4. Techniki wieloziarniste (ang. granularity based techniques): Zaproponowane przez
Gaber i in. (2009) – takie modyfikacje technik data mining aby za ich pomocą można
było badać dane pochodzące z różnych źródeł (różnej częstości, wymiaru itd.)
MODEL STRUMIENIA DANYCH EKONOMICZNYCH
W teoretycznej informatyce, jeżeli wprowadza się model probabilistyczny
danych to przeważnie jest to model danych niezależnych o tym samym rozkładzie
– główny akcent badawczy to zmniejszenie złożoności obliczeniowej zagadnienia
przy zadowalającej „dokładności”, „wiarygodności” – teoria grafów, kombinatoryka,
modele graficzne, przetwarzanie równoległe…
W ekonomii w zasadzie rozważmy jedynie probabilistyczne modele strumieni
– odwołujemy się przy tym do teorii procesów niestacjonarnych, procesów o wielu
reżimach. Zakładamy, że strumienie mogą zawierać obserwacje odstające
różnego typu (outliers, inliers, odstające pod warunkiem konkretnego reżimu itd.)
Model strumienia można wprowadzić w oparciu o znane w ekonometrii
modele szeregów o wielu reżimach np. SETAR, FTAR itd.
Próby: Kosiorowski (2011), Kosiorowski (2012a), (2012b), Kosiorowski (2013a),
(2013b), (2013c), Kosiorowski i Snarska (2012), Kosiorowski i Zawadzki (2013),
pośrednio Kosiorowski i Bocian (2013), Kosiorowski i Węgrzynkiewicz (2013)….
OGÓLNY SCHEMAT DLA STRUMIENIA DANYCH EKONOMICZNYCH
CHARME (Conditional Vector Heteroscedastic Autoregressive Mixture
of Experts) (zobacz Stockis i in., 2010) to ogólnych schemat modelowania
szeregów czasowych o wielu reżimach. W szczególności obejmuje wiele
znanych modeli liniowych i nieliniowych jak np. modele autoregresyjne,
modele TAR, SETAR, FAR, GARCH czy SV (Franses i Van Dijk, 2000).
Modelując strumień za pomocą CHARME umawiamy się, że
Odczytać sygnał niesiony przez strumień = wskazać, który z
reżimów modelu generuje dane.
Niech X1
(X11,..., X1d ), X2
strumień danych d
(X21,..., X2d ),..., oznacza d-wymiarowy
1 . Okno Wi,n oznacza ciąg punktów kończących
się w xi o wielkości n , tzn., Wi,n
(xi
n 1,..., xi ).
W modelu CHARME dynamiką procesu {Xt } zawiaduje ukryty łańcuch
Markowa {Qt } na skończonej przestrzeni stanów {1,2,..., K } . Model definiujemy
za pomocą równania:
K
Xt
gdzie Stk
k
k 1
Stk (mk (Xt 1,..., Xt
1 dla Qt
k (Xt 1,..., Xt p ) t )
p)
k oraz Stk
1,..., K , są pewnymi funkcjami,
bt Θt ,
0 w przeciwnym wypadku, mk ,
t
k,
oznaczają zmienne losowe niezależne o
tym samym rozkładzie o wartości oczekiwanej zero, człon bt Θt wiąże się z
obserwacjami odstającymi, bt jest binarną zmienną losową wskazującą pojawienie
się obserwacji odstającej w chwili t , oraz Θt to (losowa) wartość odstająca.
Zakładamy, że Qt zmienia rzadko swą wartość, tzn. obserwowany proces podlega
temu samemu reżimowi przez względnie długi czas zanim nastąpi zmiana reżimu.
PRZYKŁADY PROBLEMÓW DO ROZWIĄZANIA
Dalej rozważamy jednowymiarowy strumień danych oraz wnioskowanie w
oparciu o ruchome okno ustalonej długości. Dalsze uogólnienie patrz Kosiorowski
(2012), uogólnienia wielowymiarowe patrz Kosiorowski i Snarska (2012), (2013).
PROBLEM 1: Monitorujemy jednowymiarowy strumień X1, X2,... , oraz
naszym zadaniem jest wykrycie zmian w bezwarunkowym rozkładzie Xi ,
na podstawie ruchomego okna Wi,n , i
A
,i
1,2,... , tzn., zmian P(Xi
A),
1,2,... .
PROBLEM 2: Monitorujemy jednowymiarowy strumień X1, X2,... , i
naszym zadaniem jest wykryć zmiany w rozkładzie warunkowym Xi
pod warunkiem obserwowanego okna Wi,n , i
P(Xi
1
A | Wi,n
x), A
,i
1,2,... .
1,
1,2,... , tzn., zmiany
W celu rozwiązania powyższych problemów skupiamy naszą uwagę na
zmodyfikowanym
estymatorze
Nadaraya
–
Watsona
warunkowej
dystrybuanty, który został zaproponowany przez Halla i in. (1999).
Autorzy założyli, że dane dostępne są w formie ściśle stacjonarnego
procesu stochastycznego {(Yi , Xi )}, gdzie Yi jest skalarem oraz Xi jest dwymiarowym
wektorem.
Autorzy
zaproponowali
szacowania warunkowej dystrybuanty
F (y | x)
dwie
P(Yi
procedury
y | Xi
x),
metodę lokalnej regresji logistycznej oraz zmodyfikowany estymator
Nadaraya-Watsona, które mają lepsze własności statystyczne niż znane
podejścia lokalne i lub nieparametryczne.
Ich propozycje nie były jednakże odporne…
Jak rozumieć odporność estymatora dystrybuanty?
ESTYMATOR JĄDROWY GĘSTOŚCI PRAWD. (por. Tsybakov 2010)
Niech X1,..., Xn oznaczają niezależne zmienne losowe o tym samym
rozkładzie o gęstości prawdopodobieństwa f względem miary Lebesque’a na
Pamiętamy, że dystrybuantę tej zmiennej definiujemy jako F (x )
Jej
Fn (x )
odpowiednik
1
ni
z
próby
to
tzw.
f (t )dt .
empiryczną
n
1
I (Xi
x ) , gdzie I () oznacza funkcję wskaźnikową.
Z mocnego prawa wielkich liczb wiemy, że Fn (x )
F (x ) , x
, prawie
. Dlatego też Fn (x ) jest zgodnym estymatorem F (x ) dla
na pewno, gdy n
każdego x
dystrybuanta
x
.
.
Dla dostatecznie małego h
f (x )
F (x
0 ma miejsce aproksymacja gęstości f (x )
h ) F (x
2h
h)
.
Zastępując dystrybuantę F poprzez jej oszacowanie Fn możemy zdefiniować tzw.
estymator Rosenblatta fˆnR (x )
Fn (x
h ) Fn (x
2h
h)
.
Możemy zapisać ten estymator w następującej postaci
fˆnR (x )
gdzie K 0 (u)
1
2nh i
n
I (x
h
Xi
1
1 2I( 1
u
Funkcja x
h)
n
i 1
K0
Xi
x
h
,
1).
Poprzez proste uogólnienie mamy fˆn (x )
gdzie K :
x
1
nh
1
nh i
n
K
Xi
1
jest całkowalną funkcją spełniającą
x
h
,
K (u)du
1 (jądrem).
fˆn (x ) nazywana jest estymatorem jądrowym bądź estymatorem
Parzena – Rosenblata.
Przykłady wykorzystywanych jąder:
K (u)
1
I( u
2
1)
(jądro prostokątne)
K (u)
3
(1
4
u 2 )I ( u
1)
(jądro Epanechnikowa)
K (u)
1
2
exp
u2 / 2
OCENA JAKOŚCI ESTYMATORA JĄDROWEGO
Podstawową miarą jakości estymatora jądrowego jest jego błąd
średniokwadratowy (ryzyko średniokwadratowe) liczone w dowolnym
lecz ustalonym punkcie x 0
MSE
:
MSE(x 0 )
Ep
fˆn (x 0 )
f (x 0 )
2
,
gdzie Ep oznacza wartość oczekiwaną liczoną względem rozkładu
(X1,..., Xn ).
Uwaga: MSE= obciążenie + wariancja estymatora fˆn w punkcie x 0 .
Ważne globalne kryterium to scałkowany błąd średniokwadratowy
MISE
Ep
fˆn (x )
2
f (x ) dx
MSE(x )dx .
ESTYMATOR JĄDROWY W PRZYPADKU WIELOWYMIAROWYM
Dla x
d
,d
1, potrzebujemy jądra K :
d
.
Najczęściej korzysta się z tzw. jądra produktowego
d
K (u)
j 1
gdzie K j :
K j (u j ),
to jednowymiarowe jądra, szerokości pasm h j w odniesieniu
do współrzędnej j , oraz hn
normie wektora K (u)
h1
hd bądź stosuje się jądra określonych na
K ( u ) , dla stosownie wybranej normy na
d
.
W nawiązaniu do analizy szeregów czasowych najczęściej stosujemy jądra
produktowe, estimator gęstości ma wówczas postać
fn (x )
1
ni
n
d
1j
xij x j
1
Kj
,
hj
1 hj
ˆj h wiąże się z oszacowaniem odchylenia std. dla j-tej współrzędnej
gdzie h j
(oszacowania jądrowe i szeregi czasowe - zjawisko ang. whitening by a windowing
principle – zobacz Hart, 1994)
PRZYKŁAD: OSZACOWANIE JĄDROWE 2D – wiek vs. log(płaca) we Włoszech
SZACOWANIE WARUNKOWEJ GĘSTOŚCI
d
Niech (Y , X) z y
,x
,d 1 oznacza wektor losowy o łącznej
gęstości f (y, x) oraz fX (x) niech będzie gęstością brzegową X .
Wtedy warunkowa gęstość
g(Y | X
f (y, x)
,
fX (x)
x)
może być szacowana poprzez podstawienie estymatora jądrowego do
licznika i mianownika wzoru na g(y | x ). Wybierając funkcje jądrowe
K
d 1
, K (y, x)
K1(y)K (x),
oraz szerokości pasm h1 i odpowiednio h uzyskujemy estymator jądrowy
gęstości warunkowej.
h1
gn (y | x)
1
n
i 1
K1
yi
h1
n
K
i 1
y
xi
K
x
h
xi
x
h
.
PRZYKŁADY SZACOWANIA GĘSTOŚCI WARUNKOWEJ
Kluczową kwestią w estymacji jądrowej jest właściwy wybór szerokości
pasma, wybór jądra ma znaczenie drugorzędne (por Tsybakow 2012,
Krzyśko, 2012, Wand & Johnes, 1996)
SZEREG DOBRYCH METOD WYBORU PASMA JEST CZĘSTO
BARDZO ZŁOŻONYCH OBLICZENIOWO – BEZUŻYTECZNYCH W
PRZYPADKU
ANALIZY
STRUMIENI
(ang.
-
cross
validation
(uwiarygodnianie krzyżowe), pilot density method (metoda podstawień),
rules of thumb (reguły kciuka), reference density methods…)
ODPORNOŚĆ JĄDROWEGO ESTYMATORA GĘSTOŚCI
W przypadku wielu ekonomicznych zbiorów danych często napotykamy
obserwacje odbiegające od większości danych. Takie obserwacje mogą
powodować trudności ponieważ mogą wpływać na wyniki analizy ekonomicznej.
Jednym z celów statystyki odpornej jest wykrywanie obserwacji odstających
poprzez poszukiwanie modelu dopasowywanych do większości obserwacji.
Przypuśćmy, że mamy obserwacje pięciu miesięcznych wynagrodzeń (w zł)
w Polsce w 2011 roku:
3225; 3103; 2944; 3100; 1123,
oraz naszym celem jest oszacowanie prawdziwej wartości “centralnego
wynagrodzenia
średnia = 2699; median = 3100; SD=886.63; MAD=185.23
Xn
{X1,..., Xn } ,SD
MAD
1/n
MED Xi
(Xi
X )2 ,
MED{Xi }
ODPORNOŚĆ ZWYKŁEGO WSPÓŁCZYNNIKA KORELACJI Z PRÓBY – 20 obserwacji
wygenerowanych z dwuwymiarowego rozkładu normalnego o jednostkowych wariancjach i
wsp. korelacji 0.8. Wsp. korelacji z próby wynosi 0.81. Na rysunku B występują dwie
obserwacje odstające (tzn. 10% danych): zamieniono pozycje dwóch punktów. Zwykłe
oszecowanie wsp. korelacji spada teraz do 0.05. (przykład Maronny i Yohai’a).
A
B
Pomiar odporności – ogólne podejście Gentona i Lucasa (2002)
Szukamy frakcji obserwacji odstających, która sprawia, że estymator bądź
szerzej pewna miara jakości procedury przyjmuje jedynie skończoną liczbę
wartości pomimo kontinuum możliwych realizacji próby.
ODPORNOŚĆ ESTYMATORA JĄDROWEGO GĘSTOŚCI?
Pomiar odporności w kategoriach miary dobroci estymatora fˆn - błędu
średniokwadratowego w dowolnym ustalonym punkcie x 0
?
Jednakże jeżeli dane generowane są przez mieszaninę rozkładów to
estymator jądrowy ujmuje wszystkie składowe mieszaniny –
chcielibyśmy
pominąć
jedną
ze
składowych
co jeśli
mieszaniny?
PROPOZYCJE: W duchu propozycji Hall i in. (1999) niech pi
1
pi (x), dla
n , oznacza wagi (funkcje danych x1,..., xn jak również x ) o tej własności,
i
n
że każde pi
0,
i 1
pi (x)(Xi
x)Kh (Xi
x)
n
0,
p
i 1 i
1.
Możemy zdefiniować następujące estymatory bezwarunkowej
1
ni
f (x )
n
1
pi (x )Kh (xi
x)
,
oraz warunkowej gęstości
h1
g(y | x)
1
n
i 1
Kh1 (yi
1
y)pi (y, x)Kh (xi
n
i 1
pi (x)Kh (xi
x)
x)
,
Kh () h 1K ( / h), Kh1 jest jądrem
2 , h to szerokość pasma.
jednowymiarowymi, Kh oznacza jądro d-wymiarowe, d
gdzie
K
jest jądrem (np. Gaussowskim),
 Możemy „uodpornić” podejście Hall i in. (1999) wybierając wagi pi (x)
będącej wartościami zmodyfikowanej funkcji głębi z próby.
 Głębia danych to sposób pomiaru „głębi” bądź „odstawania” danego
punktu
względem
wielowymiarowej
chmury
danych
bądź
wielowymiarowego rozkładu prawdopodobieństwa, który tę chmurę
generuje.
 Statystyczna funkcja głębi umożliwia porządkowanie obserwacji na
podstawie ich odstawania od centrum.
 Taki porządek umożliwia pomiar wielu cech wielowymiarowej
populacji – wielowymiarowej skośności, wielowymiarowej kurtozy,
proponowanie wielowymiarowych testów Wilcoxona, wykresów
kwantyl-kwantyl, wielowymiarowych wykresów pudełkowych itd.
Odwiedź: Depth Procedures R package {depthproc}, 2012,
https://r-forge.r-project.org/projects/depthproc/
Niech Xn
1. Niech I () oznacza funkcję wskaźnikową, tzn. I (A)
d
d
{X1,..., Xn } oznacza próbę losową z rozkładu G() w
zachodzi oraz I (A)
,
1 jeżeli A
0 w przeciwnym wypadku.
Dysponując próbą Xn , definiujemy głębię symplicjalną z próby
(głębię Liu) punktu x
D(x, Xn )
d
za pomocą
1
n
d
1
I (x
(*)
s[Xi ,..., Xi
1
d 1
]),
gdzie (*) przebiega wszystkie możliwe podzbiory Xn wielkości d
s[Xi ,..., Xi
1
d 1
1,
] oznacza domknięty sympleks z wierzchołkami Xi ,..., Xi
1
d 1
.
Prof. Regina Y. Liu
(za jej sprawą statystyczne funkcje głębi zyskały rozgłos)
Gdy rozkład G jest znany, wtedy głębię symplicjalną x względem G
definiujemy jako D(x,G )
d
PG {x
s[X1,..., Xd
1 ]},
gdzie X1,..., Xd
1 obserwacjami losowymi z G , s oznacza sympleks.
1
są
PROPOZYCJA 1: Niech Wj ,n
o
wielkości
n
w
j
chwili
{x j
n ,..., x j } ,
oznacza okno ze strumienia
l,...,. W celu dynamicznej
estymacji
bezwarunkowego rozkładu strumienia determinowanej za pomocą funkcji
gęstości f , proponujemy liczyć w kolejnych chwilach
fj (x )
1
ni
n
1
Kh (xij
x )D(x,Wj ,n ), j
gdzie K oznacza funkcję jądrową, Kh ()
zmodyfikowaną głębię z próby x , xij
Wj,n , i
l,...
h 1K ( / h ), D(x,Wj,n ) oznacza
1,..., n , j
l,.....
PROPOZYCJA 2: Niech Wj N ,n
{x j
N n ,..., x j N } ,…,Wj ,n
oznacza N okien ze strumienia o długości n , j
XNj
Niech
YjN
{x j
{(x j
N ,..., x j 1 , x j }
{y1j ,..., yNj }.
przeszłości (X j 1,..., X j k ), k
h1
1
N
i 1
Kh1 (yij
1
N
i 1
gdzie
Kh ()
l,..., k, N
k N ,..., x j 1 N ),...,(x j k 1,..., x j 1 )}
warunkowego rozkładu X j
fj (y | (X j 1,..., X j
{x j
k)
W
celu
dynamicznej
determinowanego przez
n ,..., x j }
,N
k.
{x1j ,..., xNj } ,
estymacji
f j , pod warunkiem
2, 3 , proponujemy liczyć w kolejnych chwilach
x)
y)D (y, x),(YjN , XNj ) Kh (xij
D x, XNj Kh (xij
x)
, j
l,...,
x)
f j jest zmodyfikowanym estymatore jądrowym f j , K( ) to jądro,
h 1K( / h) , D(, ) jest zmodyfikowaną głębią z próby.
 W przypadku obu propozycji początkowo w celu wyboru szerokości pasma h
wykorzystywaliśmy wariant uwiarygodniania krzyżowego (cross-validation) na
podstawie Hall i in. 2004 stosowany do najbardziej centralnych punktów okna
względem pewnej próby referencyjnej, tzn.,{y
YjN : D(y,Y g )
}, gdzie
Y g oznacza próbę referencyjną, D(, ) to funkcja głębi.
 Jednakże w związku z wielką złożonością procedury zdecydowaliśmy
się wykorzystywać „dynamiczną regułę kciuka”
𝒉𝒊𝒐𝒑𝒕 = 𝑴𝑨𝑫{𝑾𝒊,𝒏 } ∙ 𝒏−𝟏/𝟒 , i=1,…,
która prowadziła do zadowalających wyników.
WŁASNOŚCI PROPOZYCJI - SYMULACJE MONTE CARLO
Generowano po 500 razy trajektorie złożone z 5000 obs. z wielu
znanych w ekonometrii liniowych i nieliniowych modeli danych.
Rozpatrywano ruchome okna o ustalonej długości 100–500 obs. oraz
próby zawierające do 15% tzw. addytywnych obs. odstających (AO).
1. SETAR MODEL
Xt
t
1
1
5
0.9Xt
0.9Xt
t 1
t 1
Xt
Xt
1
1
3
,Y
3 t
1
1 0.9Yt
10 0.9Yt
~ to niezależne zm. losowe o rozkładzie Studenta t(3) każda.
t 1
t 1
Yt
Yt
1
1
3
3
2. MODELE CHARME złożone z dwóch podmodeli AR(1)-GARCH(1,1)
Xt
t
2
0.1Xt
5
t Zt
1
1
t
,
,
0.1
2
t 1
0.75Xt2
1,
gdzie Zt ~ rozkład normalny N(0,1),skośny rozkład Studenta T, skośny rozkład
normalny SN(0,1) , skośny rozkład GED.
WYNIKI SYMULACJI (wybór)
MODEL 1 – SETAR i szacowanie rozkładu bezwarunkowego
SETAR + 5% OBS. ODSTAJĄCYCH TYPU AO
SETAR + 15% OBS. ODSTAJĄCYCH TYPU AO
MODEL 2 – AR(1)-GARCH(1,1) i szacowanie rozkładu warunkowego
Cond skewed t(4)
Cond normal N(0,1)
Cond skewed N(0,1)
CHARME: przeskoki pomiędzy AR(1)-GARCH(1,1) z
rozkładem warunkowym skośnym T(4) i „tym samym” AR(1)GARCH(1,1) ale z warunkowym rozkładem N(0,1)
AR(1)-GARCH(1,1) ze skośnym T(4) + 5% odstających AO
AR(1)-GARCH(1,1) ze skośnym T(4) + 10% odstających AO
PODSUMOWANIE I DALSZE STUDIA ZAGADNIENIA
Jeżeli złożoność procedury
O(n
32
) wtedy uznaje się ją za zbyt
złożoną do analizy wielkich zbiorów danych – tym samym do analizy
ekonomicznych strumieni danych. Niestety wiele propozycji odpornych
procedur statystycznych cechuje wielka złożoność obliczeniowa.
jednakże…
„Assume you are confronted with a huge data set (1010 bytes, or 10 gigabytes).
If a meaningful analysis is possible with a 1% random subsample, the problem is
solved - we are back to large sets. Except for validation and confirmation, we might
not even need the other 99%.” P. Huber (2011)
- ostatnio pojawia się szereg obiecujących podejść do przybliżonego
obliczania funkcji głębi oraz do przybliżonego obliczania optymalnej szerokości
pasma wygładzania. Propozycje Kosiorowski i Zawadzki (2013), Kosiorowski i
Snarska (2013), Kosiorowski, Rydlewski i Snarska (2013).
oraz kolejna myśl…
„I probably spend more time turning messy source data into something usable than
I do on the rest of the data analysis process combined.” P. Warden (2011)
- czyżby renesans tzw. podejścia merytorycznego (Zeliaś, 1998) w
statystycznej analizie danych?
- być może kolejny wymiar stosowania tzw. subiektywnej analizy
bayesowskiej (Press, 2009)?
DZIĘKUJĘ!
WYBÓR LITERATURY
[1] Aggerwal Ch. C. (ed.), Data Streams – Models and Algorithms, Springer, New York, 2007.
[2] Bocian, M. Kosiorowski, D., Węgrzynkiewicz, A., Zawadzki, Z. Depth Procerures R package
{depthproc}, 2012, https://r-forge.r-project.org/projects/depthproc/ [retrieved: Feb. 2013]
[3] Donoho, D., High-dimensional Data Analysis: The Curses and Blessings of Dimensionality, Manuscript,
2000, http://www-stat.stanford.edu/~donoho/Lectures/AMS2000/Curses.pdf
[4] Fan, J. Yao, Q., Nonlinear Time Series: Nonparametric and Parametric Methods, Springer, New York,
2005.
[5] Franses P. H., Van Dijk, D. (2000) Non-linear Time Series Models in Empirical Finance, Cambridge:
Cambridge University Press
[6] Hart, J.D., (1994). Smoothing time-dependent data: a survey of data driven methods. Journal of
Nonparametric Statistics
[7] Gaber, M. M. (2012), Advances in data stream mining, WIREs Data Mining Knowl Discov 2012, 2:
79–85 doi: 10.1002/widm.52
[8] Genton M. G., Lucas A., Comprehensive Definitions of Breakdown Points for Independent and
Dependent Observations, Journal of the Royal Statistical Society Series B, 2003, 65, 81 – 84.
[9] Hall, P., Rodney, C. L. and Yao, Q., Methods for Estimating a Conditional Distribution Function. Journal
of the American Statistical Association, vol. 94, 1999, pp. 154-163.
[10] Hall, P., Racine, J., Li, Q, Cross-Validation and the Estimation of Conditional Probability Densities,
Journal of the American Statistical Association, vol. 99, pp. 1015-1026.
[11] Hahsler, M., Dunhamr, H. M., EMM: Extensible Markov Model for Data Stream Clustering in R, Journal
of Statistical Software, vol. 35, 2010, pp. 2 – 31.
[12] Härdle, W., Hautsch, N. and Overbeck, L. Applied Quantitative Finance, 2nd edition, Springer,
Heidelberg, 2009.
[13] Jacod, J., Shiryaev, A.N., Limit Theorems for Stochastic Processes, Second ed., Springer-Verlag,
New York, 2003.
[14] Kosiorowski, D., Student Depth in Robust Economic Data Stream Analysis, Colubi A. (Ed.)
Proceedings COMPSTAT’2012, ISI/IASC, 2012, pp. 437 – 449.
[15] Kosiorowski, D., Snarska, M., Robust Monitoring of a Multivariate Data Stream, 2013, unpublished,
https://r-forge.r-project.org/projects/depthproc/ [retrieved: Feb. 2013]
[16] Li, J., Liu, R. Y. New Nonparametric Tests of Multivariate Locations and Scales Using Data Depth.
Statistical Science, vol. 19, 2004, pp. 686 – 696.
[17] Maronna, R. A., Martin, R. D., Yohai, V. J., Robust Statistics - Theory and Methods. Chichester: John
Wiley & Sons Ltd., 2006.
[18] Muthukrishan, S., Data Streams: Algorithms and Applications, Now Publishers, 2006.
[19] Ramsay, J. O., Hooker, G., Graves, S., Functional Data Analysis with R and Matlab, New York,
Springer, 2009.
[20] Racine, J. S. (2008), Nonparametric Econometrics: A Primer, Foundations and Trends in
Econometrics, vol 3, no 1, 1–88.
[21] Wand, M. P., Jones M. C. (1995), Kernel Smoothing, Monographs on Statistics and Applied
Probability, 60, Chapman and Hall, London
[22] Shalizi C. R., Kontorovich, A., Almost None of the Theory of Stochastic Processes A Course on
Random Processes, 2007, http://www.stat.cmu.edu/~cshalizi/almost-none/ [Feb. 2013]
[23] Serfling, R., Depth Functions in Nonparametric Multivariate Inference, In: Liu R.Y., Serfling R.,
Souvaine D. L. (Eds.): Series in Discrete Mathematics and Theoretical Computer Science, AMS, vol. 72,
2006, pp. 1 - 15.
[24] Stockis, J-P.,Franke, J., Kamgaing, J. T., On Geometric Ergodicity of CHARME Models, Journal of
the Time Series Analysis, vol. 31, 2010, pp. 141 – 152.
[25] Szewczyk, W., Streaming Data, Wiley Interdisciplinary Rev.: Computational Statistics, vol. 3, 2010,
[26] Torti, F., Perrotta, D., Atkinson, A. C, Riani, M., Benchmark Testing of Algorithms for Very Robust
Regression, Computational Statistics and Data Analysis, vol. 56, 2012, pp. 2501–2512.
[27] Tsybakov, A. B. (2010), Introduction to Nonparametric Estimation, Springer, New York.
[28] Shao, W., Zuo,Y. (2012). Simulated Annealing for Higher Dimensional Projection Depth.
Computational Statistics and Data Analysis, vol. 56, 2012, pp. 4026–4036.

Podobne dokumenty

Statystyczne funkcje głębi w odpornej analizie statystycznej strumieni danych ekonomicznych

Statystyczne funkcje głębi w odpornej analizie statystycznej strumieni danych ekonomicznych 5. Dane napływają do obserwatora z reguły w nierównych odstępach czasu, w pakietach nierównej wielkości. Można założyć, że modelem strumienia jest proces stochastyczny z czasem ciągłym. Wówczas ma...

Bardziej szczegółowo