Stacjonarne procesy gaussowskie, czyli o zwi ˛azkach
Transkrypt
Stacjonarne procesy gaussowskie, czyli o zwi ˛azkach
Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cze˛ ściowa˛ funkcja˛ autokorelacji Łukasz Debowski ˛ [email protected] Instytut Podstaw Informatyki PAN Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 1/25 Zarys referatu Co to sa˛ procesy gaussowskie? rozkład normalny, macierz kowariancji, najlepsze liniowe predyktory, warunek istnienia Procesy stacjonarne: funkcja autokorelacji, funkcja cz˛eściowej autokorelacji, algorytm Durbina-Levinsona, interpretacja teorioinformacyjna Wzory na sume˛ autokorelacji. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 2/25 Miara prawdopodobieństwa J ⊂ 2Ω jest σ -ciałem, gdy 1. Ω ∈ J , 2. A ∈ J =⇒ Ω \ A ∈ J , A ∈ J. : A ∈ J ) =⇒ 3. (∀n ∈ S jest zmienna˛ losowa. ˛ Definiujemy zdarzenie 1 ( ) ∈ J. ) jest określone wtw., gdy X ( ). 1 ) := X (X ∈ P (X ∈ P (A ) dla rozłacznych ˛ A . X:Ω→ 1. P (Ω) = 1, S P A = 2. P P : J → [0, 1] jest miara˛ prawdopodobieństwa, gdy Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 3/25 Gesto ˛ ść prawdopodobieństwa (rozkład zmiennej) 0.5 P(0.5<X<2) ρX(x) 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 x 2 3 4 5 Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 4/25 Rozkłady zmiennych dP 1( ) ( )) = Z 1 miara prawdopodobieństwa: Z P (X ∈ ) := ρ (x)dx = P (X wartość oczekiwana: Z Z hf (X)i := f (x)ρ (x)dx = f (X)dP P (A) może być określone także, gdy A 6= (X ∈ ). Definicje z dP sa˛ wygodniejsze dla dużych zbiorów zmiennych. rozbicie rozbicie inf argument F (argument) P (A) F dP := sup X Z Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 5/25 Procesy stochastyczne Proces to dowolny zbiór zmiennych, np. nieprzeliczalny, określonych na tej samej przestrzeni zdarzeń Ω. +1 +1 )dx +1 . (x1 , ..., x , x 1 ρ Z (x1 , ..., x ) = 1 ρ Gestości ˛ tych zmiennych spełniaja˛ warunki zgodności: tw.tw. Kołmogorowa o procesie i rozszerzeniu: Kandydaci na gestości ˛ ρ 1 2 , n ∈ , spełniajacy ˛ warunki zgodności definiuja˛ miare˛ prawdopodobieństwa P na pewnym σ -ciele. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 6/25 Procesy gaussowskie Wielowymiarowy rozkład normalny (Gaussa) to najprostszy algebraicznie model zależnych zmiennych losowych: Łatwo podać wielowymiarowe gestości. ˛ Łatwo wyrugować wielowymiarowe gestości ˛ z rozważań. Do tego: Dowolny ciag ˛ kombinacji liniowych zmiennych o wielowymiarowym rozkładzie normalnym ma wielowymiarowy rozkład normalny. Dowolny ciag ˛ zmiennych o wielowymiarowym rozkładzie normalnym można wyrazić jako ciag ˛ kombinacji liniowych niezależnych zmiennych losowych o rozkładzie normalnym. Dowolny ciag ˛ zmiennych gaussowskich można uzupełnić do nieprzeliczalnego procesu tworzacego ˛ przestrzeń Hilberta. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 7/25 Jednowymiarowy rozkład Gaussa (normalny) 0.8 σ=0.5 σ=1.0 σ=2.0 0.7 ρX(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 -4 -2 0 x 2 4 Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 8/25 Jednowymiarowy rozkład Gaussa (normalny) gestość ˛ prawdopodobieństwa: ρ (x) = 1 2 [2πσ 2 ] exp − 1 2d · 2 |x| σ2 wariancja: σ := p Var(X) ≥ 0 E D E D 2 2 Var(X) := |X − hXi| = |X| − |hXi|2 Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 9/25 2 x 1 [(2π) det Γ(n)] = Γ ): macierz kowariancji (hermitowska, Γ = Γ = Cov(X ; X ) Cov(X; Y ) := (X − hXi) (Y − hY i) Γ(n) =1 =1 2d x Γ(n) 2 exp − 1 XX (x1 , x2 , ..., x ) = 1 ρ gestość ˛ prawdopodobieństwa: Wielowymiarowy rozkład Gaussa (normalny) = hX Y i − hX i hY i Cov(X; X) = Var(X) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 10/25 Analogia do σ ≥ 0 Nie każda macierz hermitowska jest macierza˛ kowariancji. =1 a Γ a . = XX =1 =1 a X ! Var X Mamy a Γ a ≥ 0. =1 =1 : XX ∀a ∈ Macierz Γ(n) musi być nieujemna określona, tzn. Jest to warunek konieczny i dostateczny istnienia procesu. Tylko jak go efektywnie sprawdzić? Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 11/25 Proces stacjonarny Weźmy szereg czasowy czyli proces X = {X : i = ..., −2, 1, 0, 1, 2, ...} . Dla ułatwienia ograniczymy sie˛ do procesów stacjonarnych. = Cov(X ; X ) = γ(i − j) =Γ Γ(n) proces stacjonarny: funkcja autokowariancji: γ(n) := Cov(X ; X0 ) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 12/25 Funkcja autokorelacji korelacja: Corr(X, Y ) := p Cov(X; Y ) Var (X) · Var (Y ) , | Corr(X, Y )| ≤ 1 funkcja autokorelacji (ACF): ρ(n) := Corr(X ; X0 ) = γ(n)/γ(0) N =1 x x − 1 X N =1 x − =1 + 1 X N x γ(n) ≈ 1 X autokowariancja ma prosty estymator: Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 13/25 Twierdzenie o rzucie ortogonalnym Xi 6 B Yi X aj Xj j∈B QQ Q Q Q Q Q Q 1 Q QQ Q Q Q Q Q B Q Q i Q Q Q Q Q Q Φ Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 14/25 Twierdzenie o rzucie ortogonalnym Dla każdych zmiennych (X ) istnieje jednoznaczny rozkład zmiennej X na najlepszy predyktor Φ i innowacje˛ Y : +Y X =Φ , Cov(Y ; X ) = 0, φ X , = j ∈ B, Φ X takie, że Dla danej macierzy kowariancji φ oblicza sie˛ z algorytmu ortogonalizacji Grama-Schmidta. a X . X ) ( = min Var X − Var Y Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 15/25 Probabilistyczna niezależność oraz (X ) Zbiory zmiennych gaussowskich (X ) sa˛ probabilistycznie niezależne wtedy i tylko wtedy, gdy Cov(X ; X ) = 0, i ∈ A, j ∈ B. Wniosek: Dla zmiennych gaussowskich innowacja Y . jest probabilistycznie niezależna od (X ) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 16/25 „Niezwykła” funkcja autokorelacji (zwykła) funkcja autokorelacji (ACF): ρ(n) := Corr(X ; X0 ) = γ(n)/γ(0) 1 ) ; X0 − Φ01: 1 1 = Corr(X − Φ1: ; Y01: 1 α(n) := Corr(Y 1: funkcja cz˛eściowej autokorelacji (PACF): ) n : m := {n, n + 1, ..., m} Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 17/25 Warunek istnienia procesu — prościej Istnieje bijekcja (ρ(1), ..., ρ(n)) ←→ (α(1), ..., α(n)). a ρ(i − j)a ≥ 0. =1 =1 : XX ∀a ∈ Warunek dla ACF: Warunek dla PACF (Ramsey 1974): |α(n)| ≤ 1 dla wszystkich n ≥ 1, |α(k)| = 1 =⇒ α(n) = 0 dla n > k. To jest warunek dla PACF obliczonego z ACF. To PACF a nie ACF jest „prostszym” obiektem. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 18/25 Predyktory dla stacjonarnych Równoważne definicji PACF: Cov(Y 2:+1 ; Y12: ) = α(n) Cov(Y12: ; Y12: ), Cov(Y 2:+1 ; X1 ) = α(n) Cov(Y12: ; Y12: ), Cov(Y 2:+1 ; X1 ) = α(n) Cov(Y12: ; X1 ). Z ostatniego wynika: j ∈ {1, ..., n} , . = const ·Y 1:+1 , − X +1 ( ( ( ( 1: ( ( +( (const (((−1) · Y +1 , = −Φ1:+1 − α(n)Y12: −Φ2:+1 Y 2:+1 − α(n)Y12: Cov(Y 2:+1 − α(n)Y12: ; X ) = 0, gdzie const = 1, bo Y 1:+1 liniowo niezależne od reszty. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 19/25 X +1 φ = X =1 X dla j = 0 dla j ∈ {1, ..., n} dla innych j ) v := = (φ1: 0 ) 1 Var(Y 1: +1 −1 := φ1:+1 0 =1 φ φ = X Φ1: 0 Φ1:+1 Predyktory dla stacjonarnych Var(X ) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 20/25 Algorytm Durbina-Levinsona 1 v 1 − α (n)φ 1 =φ φ v = 1 − |α(n)| 2 α(1) = ρ(1) v0 = 1, =1 φ ρ(n + 1) = v α(n + 1) + X Istnieje bijekcja (ρ(1), ..., ρ(n)) ←→ (α(1), ..., α(n)): . X α(n + 1) = ρ(n + 1) − φ ρ(n + 1 − j) v ρ(n + 1 − j) =1 Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 21/25 Interpretacja teorioinformacyjna Entropia blokowa i informacje wzajemne: = 1 2 d 2 d 2 log 1 − |ρ(n − 1)| 2 = −∆ H (n) = − d Y1 2 2 log det Γ(n) , 2 log 1 − |α(n − 1)| , det Γ(n) = γ(0) =1 1 − |α(k)| 2 1) =2 [1 + d log(2π)] n + I(X1 ; X ) = − I(X1 ; X |X2: (n − k + 1)∆2 H (k), H (n) := H(X1 , ..., X ) = nH (1) + X . Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 22/25 Cze˛ ściowe podsumowanie Stacjonarne procesy gaussowskie sa˛ prostym modelem zależnych zmiennych losowych. Mimo że najłatwiejsza do estymacji jest funkcja autokorelacji, klase˛ stacjonarnych procesów gaussowskich najprościej i najogólniej parametryzuje cze˛ ściowa funkcja autokorelacji. W modelu tym istnieja˛ proste algorytmy na obliczanie autokorelacji, najlepszych predyktorów i miar informacji. Klasyczny problem: Czy można zgrubnie scharakteryzować ogólny przebieg ACF dla danego PACF bez długotrwałego liczenia? (Troche˛ na ten temat napisano, ale nie wyczerpano.) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 23/25 =1 Y 1 − |α(k)| Y 1 + |α(k)| , 1 + |α(k)| =1 1 − |α(k)| =1 # (3) dla wszystkich k, to Y 1 + (±1) α(k) = (±1) ρ(k) = X " zaś, jeżeli α(k) ∈ ! " 1 − |α(k)| (2) , =1 ∈ = ρ(k)e X Y 1 + |α(k)| 2 |ρ(k)|2 ≤ X = (1) |ρ(k)| < ∞, = P |α(k)| < ∞, |α(k)| < 1, to zachodzi Jeżeli P Jeden z głównych moich rezultatów =1 1 − (±1) α(k) . (4) Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 24/25 Kilka wniosków z (4) Jeżeli (±1) α(k) < 0: (±1) ρ(k). (±1) ρ(k). = P =1 1 − (±1) α(k) > Y Y 1 + (±1) α(k) Zwiekszenie ˛ |α(k)| powoduje zwiekszenie ˛ = Jeżeli (±1) α(k) > 0: Zwiekszenie ˛ |α(k)| powoduje zmniejszenie P (1 + (±1) 2α(k)) =1 Położenie (±1) α(k) > a > 0 dla N różnych k dla co najmniej (1 + 2a) # implikuje, że (±1) ρ(m) > 0 zachodzi różnych m, ponieważ |ρ(k)| ≤ 1. Stacjonarne procesy gaussowskie, czyli o zwiazkach ˛ pomiedzy ˛ zwykła˛ i cz˛e ściowa˛ funkcja˛ autokorelacji – p. 25/25