Stacjonarne procesy gaussowskie, czyli o zwi ˛azkach

Transkrypt

Stacjonarne procesy gaussowskie, czyli o zwi ˛azkach
Stacjonarne procesy gaussowskie,
czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cze˛ ściowa˛ funkcja˛ autokorelacji
Łukasz Debowski
˛
[email protected]
Instytut Podstaw Informatyki PAN
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 1/25
Zarys referatu
Co to sa˛ procesy gaussowskie?
rozkład normalny, macierz kowariancji,
najlepsze liniowe predyktory,
warunek istnienia
Procesy stacjonarne:
funkcja autokorelacji, funkcja cz˛eściowej autokorelacji,
algorytm Durbina-Levinsona,
interpretacja teorioinformacyjna
Wzory na sume˛ autokorelacji.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 2/25
Miara prawdopodobieństwa
J ⊂ 2Ω jest σ -ciałem, gdy
1. Ω ∈ J ,
2. A ∈ J =⇒ Ω \ A ∈ J ,
A ∈ J.
: A ∈ J ) =⇒
3. (∀n ∈
S
jest zmienna˛ losowa.
˛ Definiujemy zdarzenie
1
( ) ∈ J.
) jest określone wtw., gdy X
( ).
1
) := X
(X ∈
P (X ∈
P (A ) dla rozłacznych
˛
A .
X:Ω→
1. P (Ω) = 1,
S
P
A =
2. P
P : J → [0, 1] jest miara˛ prawdopodobieństwa, gdy
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 3/25
Gesto
˛
ść prawdopodobieństwa (rozkład zmiennej)
0.5
P(0.5<X<2)
ρX(x)
0.4
0.3
0.2
0.1
0
-3
-2
-1
0
1
x
2
3
4
5
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 4/25
Rozkłady zmiennych
dP
1(
)
( )) =
Z
1
miara prawdopodobieństwa:
Z
P (X ∈ ) :=
ρ (x)dx = P (X
wartość oczekiwana:
Z
Z
hf (X)i :=
f (x)ρ (x)dx =
f (X)dP
P (A) może być określone także, gdy A 6= (X ∈ ).
Definicje z dP sa˛ wygodniejsze dla dużych zbiorów zmiennych.
rozbicie
rozbicie
inf
argument
F (argument)
P (A)
F dP := sup
X
Z
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 5/25
Procesy stochastyczne
Proces to dowolny zbiór zmiennych, np. nieprzeliczalny,
określonych na tej samej przestrzeni zdarzeń Ω.
+1
+1 )dx +1 .
(x1 , ..., x , x
1
ρ
Z
(x1 , ..., x ) =
1
ρ
Gestości
˛
tych zmiennych spełniaja˛ warunki zgodności:
tw.tw. Kołmogorowa o procesie i rozszerzeniu:
Kandydaci na gestości
˛
ρ 1 2
, n ∈ , spełniajacy
˛
warunki zgodności definiuja˛ miare˛ prawdopodobieństwa P
na pewnym σ -ciele.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 6/25
Procesy gaussowskie
Wielowymiarowy rozkład normalny (Gaussa) to najprostszy
algebraicznie model zależnych zmiennych losowych:
Łatwo podać wielowymiarowe gestości.
˛
Łatwo wyrugować wielowymiarowe gestości
˛
z rozważań.
Do tego:
Dowolny ciag
˛ kombinacji liniowych zmiennych
o wielowymiarowym rozkładzie normalnym ma
wielowymiarowy rozkład normalny.
Dowolny ciag
˛ zmiennych o wielowymiarowym rozkładzie
normalnym można wyrazić jako ciag
˛ kombinacji liniowych
niezależnych zmiennych losowych o rozkładzie normalnym.
Dowolny ciag
˛ zmiennych gaussowskich można uzupełnić do
nieprzeliczalnego procesu tworzacego
˛
przestrzeń Hilberta.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 7/25
Jednowymiarowy rozkład Gaussa (normalny)
0.8
σ=0.5
σ=1.0
σ=2.0
0.7
ρX(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
-4
-2
0
x
2
4
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 8/25
Jednowymiarowy rozkład Gaussa (normalny)
gestość
˛
prawdopodobieństwa:
ρ (x) =
1
2
[2πσ 2 ]
exp −
1
2d
·
2
|x|
σ2
wariancja:
σ :=
p
Var(X) ≥ 0
E
D
E
D
2
2
Var(X) := |X − hXi| = |X| − |hXi|2
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 9/25
2
x 
1
[(2π) det Γ(n)]
= Γ ):
macierz kowariancji (hermitowska, Γ
= Γ = Cov(X ; X )
Cov(X; Y ) := (X − hXi) (Y − hY i)
Γ(n)
=1 =1
2d
x Γ(n)

2
exp −
1 XX
(x1 , x2 , ..., x ) =
1
ρ
gestość
˛
prawdopodobieństwa:

Wielowymiarowy rozkład Gaussa (normalny)
= hX Y i − hX i hY i
Cov(X; X) = Var(X)
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 10/25
Analogia do σ ≥ 0
Nie każda macierz hermitowska jest macierza˛ kowariancji.
=1
a Γ a .
=
XX
=1 =1
a X
!
Var
X
Mamy
a Γ a ≥ 0.
=1 =1
:
XX
∀a ∈
Macierz Γ(n) musi być nieujemna określona, tzn.
Jest to warunek konieczny i dostateczny istnienia procesu.
Tylko jak go efektywnie sprawdzić?
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 11/25
Proces stacjonarny
Weźmy szereg czasowy czyli proces
X = {X : i = ..., −2, 1, 0, 1, 2, ...} .
Dla ułatwienia ograniczymy sie˛ do procesów stacjonarnych.
= Cov(X ; X ) = γ(i − j)
=Γ
Γ(n)
proces stacjonarny:
funkcja autokowariancji:
γ(n) := Cov(X ; X0 )
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 12/25
Funkcja autokorelacji
korelacja:
Corr(X, Y ) := p
Cov(X; Y )
Var (X) · Var (Y )
,
| Corr(X, Y )| ≤ 1
funkcja autokorelacji (ACF):
ρ(n) := Corr(X ; X0 ) = γ(n)/γ(0)
N
=1
x  x −
1 X
N
=1

x 
−
 
=1
+
1 X
N
x
γ(n) ≈
1 X

autokowariancja ma prosty estymator:
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 13/25
Twierdzenie o rzucie ortogonalnym
Xi
6
B
Yi
X
aj Xj
j∈B
QQ
Q
Q
Q
Q
Q
Q
1
Q
QQ
Q
Q
Q
Q
Q
B
Q
Q
i
Q
Q
Q
Q
Q
Q
Φ
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 14/25
Twierdzenie o rzucie ortogonalnym
Dla każdych zmiennych (X )
istnieje jednoznaczny rozkład
zmiennej X na najlepszy predyktor Φ i innowacje˛ Y :
+Y
X =Φ
,
Cov(Y
; X ) = 0,
φ X ,
=
j ∈ B,
Φ
X
takie, że
Dla danej macierzy kowariancji φ oblicza sie˛
z algorytmu ortogonalizacji Grama-Schmidta.

a X .
X
)
(
= min Var X −
Var Y

Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 15/25
Probabilistyczna niezależność
oraz (X )
Zbiory zmiennych gaussowskich (X )
sa˛ probabilistycznie niezależne wtedy i tylko wtedy, gdy
Cov(X ; X ) = 0,
i ∈ A, j ∈ B.
Wniosek:
Dla zmiennych gaussowskich innowacja Y
.
jest probabilistycznie niezależna od (X )
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 16/25
„Niezwykła” funkcja autokorelacji
(zwykła) funkcja autokorelacji (ACF):
ρ(n) := Corr(X ; X0 ) = γ(n)/γ(0)
1
)
; X0 − Φ01:
1
1
= Corr(X − Φ1:
; Y01:
1
α(n) := Corr(Y 1:
funkcja cz˛eściowej autokorelacji (PACF):
)
n : m := {n, n + 1, ..., m}
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 17/25
Warunek istnienia procesu — prościej
Istnieje bijekcja (ρ(1), ..., ρ(n)) ←→ (α(1), ..., α(n)).
a ρ(i − j)a ≥ 0.
=1 =1
:
XX
∀a ∈
Warunek dla ACF:
Warunek dla PACF (Ramsey 1974):
|α(n)| ≤ 1
dla wszystkich n ≥ 1,
|α(k)| = 1 =⇒ α(n) = 0
dla n > k.
To jest warunek dla PACF obliczonego z ACF.
To PACF a nie ACF jest „prostszym” obiektem.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 18/25
Predyktory dla stacjonarnych
Równoważne definicji PACF:
Cov(Y 2:+1 ; Y12: ) = α(n) Cov(Y12: ; Y12: ),
Cov(Y 2:+1 ; X1 ) = α(n) Cov(Y12: ; Y12: ),
Cov(Y 2:+1 ; X1 ) = α(n) Cov(Y12: ; X1 ).
Z ostatniego wynika:
j ∈ {1, ..., n} ,
.
= const ·Y 1:+1 ,
− X +1
(
(
(
(
1:
(
(
+(
(const
(((−1) · Y +1 ,
=
−Φ1:+1
−
α(n)Y12:
−Φ2:+1
Y 2:+1 − α(n)Y12:
Cov(Y 2:+1 − α(n)Y12: ; X ) = 0,
gdzie const = 1, bo Y 1:+1 liniowo niezależne od reszty.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 19/25
X
+1
φ
=
X
=1
X
dla j = 0
dla j ∈ {1, ..., n}
dla innych j
)
v :=
= (φ1:
0 )
1
Var(Y 1:
+1


−1
:= φ1:+1


0
=1
φ
φ
=
X
Φ1:
0
Φ1:+1
Predyktory dla stacjonarnych
Var(X )
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 20/25
Algorytm Durbina-Levinsona
1
v
1
− α (n)φ
1
=φ
φ
v = 1 − |α(n)|
2
α(1) = ρ(1)
v0 = 1,
=1
φ
ρ(n + 1) = v α(n + 1) +
X
Istnieje bijekcja (ρ(1), ..., ρ(n)) ←→ (α(1), ..., α(n)):


.
X
α(n + 1) = ρ(n + 1) −
φ ρ(n + 1 − j) v
ρ(n + 1 − j)
=1
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 21/25
Interpretacja teorioinformacyjna
Entropia blokowa i informacje wzajemne:
=
1
2
d
2
d
2
log 1 − |ρ(n − 1)|
2
= −∆ H (n) = −
d
Y1 2
2
log det Γ(n)
,
2
log 1 − |α(n − 1)| ,
det Γ(n) = γ(0)
=1
1 − |α(k)|
2
1)
=2
[1 + d log(2π)] n +
I(X1 ; X ) = −
I(X1 ; X |X2:
(n − k + 1)∆2 H (k),
H (n) := H(X1 , ..., X ) = nH (1) +
X
.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 22/25
Cze˛ ściowe podsumowanie
Stacjonarne procesy gaussowskie sa˛ prostym modelem
zależnych zmiennych losowych.
Mimo że najłatwiejsza do estymacji jest funkcja autokorelacji,
klase˛ stacjonarnych procesów gaussowskich najprościej
i najogólniej parametryzuje cze˛ ściowa funkcja autokorelacji.
W modelu tym istnieja˛ proste algorytmy na obliczanie
autokorelacji, najlepszych predyktorów i miar informacji.
Klasyczny problem:
Czy można zgrubnie scharakteryzować ogólny przebieg ACF
dla danego PACF bez długotrwałego liczenia?
(Troche˛ na ten temat napisano, ale nie wyczerpano.)
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 23/25
=1
Y 1 − |α(k)| Y 1 + |α(k)|
,
1 + |α(k)| =1 1 − |α(k)|
=1
#
(3)
dla wszystkich k, to
Y 1 + (±1) α(k)
=
(±1) ρ(k) =
X
"
zaś, jeżeli α(k) ∈
!
"
1 − |α(k)|
(2)
,
=1
∈
=
ρ(k)e
X
Y 1 + |α(k)| 2
|ρ(k)|2 ≤
X
=
(1)
|ρ(k)| < ∞,
=
P
|α(k)| < ∞, |α(k)| < 1, to zachodzi
Jeżeli
P
Jeden z głównych moich rezultatów
=1
1 − (±1) α(k)
.
(4)
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 24/25
Kilka wniosków z (4)
Jeżeli (±1) α(k) < 0:
(±1) ρ(k).
(±1) ρ(k).
=
P
=1
1 − (±1) α(k)
>
Y
Y 1 + (±1) α(k)
Zwiekszenie
˛
|α(k)| powoduje zwiekszenie
˛
=
Jeżeli (±1) α(k) > 0:
Zwiekszenie
˛
|α(k)| powoduje zmniejszenie
P
(1 + (±1) 2α(k))
=1
Położenie (±1) α(k) > a > 0 dla N różnych k
dla co najmniej (1 + 2a)
#
implikuje, że (±1) ρ(m) > 0 zachodzi
różnych m, ponieważ |ρ(k)| ≤ 1.
Stacjonarne procesy gaussowskie, czyli o zwiazkach
˛
pomiedzy
˛
zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 25/25