znaleźć odtwarzania fg

Transkrypt

znaleźć odtwarzania fg
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
6.3. Metody probabilistyczne
Metody probabilistyczne są adekwatnym narzędziem formowania ograniczeń zbioru
dopuszczalnych rozwiązań w sytuacji niepewności co do informacji apriorycznej. Ich użycie opiera
się na założeniu, że sygnał odtwarzany jest realizacją pewnego procesu losowego x n , zaś
{ }
{ } . Pełna informacja aprioryczna o
zaburzenie {ηn } jest realizacją innego procesu losowego η
n
tych procesach - to odpowiednie funkcje gęstości rozkładu prawdopodobieństwa a priori: p( x ) i
{ }
p(η ) . Pełne rozwiązanie zadania odtwarzania - to funkcja gęstości rozkładu x n a posteriori; tzn.
rozkładu x n pod warunkiem, że dysponujemy danymi { ~
y . W praktyce rzadko
yn } i p x ~
{ }
( )
dostępna jest pełna informacja aprioryczna. W najlepszym razie dysponujemy typem rozkładów
oraz estymatami ich dwóch pierwszych momentów. Najczęściej zakładamy, że
{x }
n
{ } są
i η
n
ergodycznymi, białymi, gaussowskimi procesami losowymi o zerowej średniej; założenia te
nazywać będziemy standardowymi. Pełny wynik odtwarzania metodami probabilistycznymi nie jest
na ogół wymagany, a nawet bywa kłopotliwy w użyciu ze względu na swą ekstensywność.
Redukcja pełnego wyniku do postaci użytkowej dokonywana jest najczęściej metodami
wariacyjnymi. Probabilistyczne metody odtwarzania przedstawimy w porządku malejącej ilości
informacji apriorycznej niezbędnej do ich realizacji.
6.3.1. Estymaty Bayesa
Zgodnie z regułą Bayesa
( )
p x~
y = p( ~
y x) p( x) / ∫ p( ~
y x) p( x) dx
(6-34)
x
y − G [ x] [SCHWEPPE ’78 - § 11.1.]. Za najlepszą
przy czym p( ~
y x) = p( O) po podstawieniu O= ~
estymatę sygnału odtwarzanego uznaje się zwykle wartość średnią pewnego funkcjonału L,
zwanego funkcjonałem kosztu, strat lub ryzyka [SCHWARZ & SHAW ’75 - § 6.3., NORTON ’86 § 6.2.2.]:
⎧⎪
x$ = arg min ⎨∫ L ( v , x) p x ~
y dx
⎩⎪ x
( )
⎫⎪
v ∈ X⎬
⎭⎪
(6-35)
Funkcjonał L dobierany jest (w ogólności) do specyfiki zadania. Najczęściej jednak
L ( v , x) = v − x q , q = 1,2, ∞, W [ibid. - § 6.3.]; inne przypadki szczególne przedstawiono w
[SCHWEPPE ’78 - § 11.1.]. Jeżeli rozkład x y jest normalny, to estymaty odpowiadające
L ( v , x) = v − x
q
(q = 1,2) , utożsamiają się z estymatą odpowiadającą L ( v , x) = −δ ( v − x) , tzn.
estymatą największej wiarygodności [NORTON ’86 - § 6.3.5.]. Doniesienia literaturowe na temat
zastosowań estymaty (6-35) do odtwarzania sygnałów są stosunkowo nieliczne; prawdopodobnie ze
względu na złożoność obliczeniową oraz trudności pozyskania pełnej informacji apriorycznej. W
[ISAEV ’87] zaproponowano procedurę jednoczesnej estymacji wektora x oraz wariancji szumu
{η }
n
metodą Bayesa, przy standardowych założeniach. W [CARY & CHAPMAN ’88] z
powodzeniem zastosowano tę metodę do interpretacji danych sejsmicznych, charakteryzujących
dno morskie w pewnym rejonie północnego Atlantyku; do minimalizacji funkcjonału definiującego
estymatę (6-35) użyto przy tym oryginalnego algorytmu iteracyjnego stworzonego na bazie metody
najszybszego spadku i metody Monte Carlo. W obydwu cytowanych przypadkach zastosowano
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
Strona 6-12
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
dodatkowy wariacyjny mechanizm regularyzacji, polegający na powiększeniu minimalizowanego
(
funkcjonału o formę kwadratową wektora x − x z parametrem regularyzacji α (por. § 6.2.2.).
6.3.2. Estymaty największej wiarygodności
( )
Za estymatę najbardziej wiarygodną uważa się tę, która maksymalizuje p x y . Ponieważ
mianownik (6-34) nie zależy od x, jest to estymata maksymalizująca p( ~
y x) p( x) = p( y x)
[EYKHOFF ’80 - § 5.1.3., MAŃCZAK & NAHORSKI ’83, NORTON ’86 - § 6.4.3.]. Nazywa się
ją bezwarunkową estymatą największej wiarygodności dla odróżnienia od warunkowej, która
maksymalizuje p( ~
y x) niezależnie od postaci p( x) [SCHWARTZ & SHAW ’75 - § 6.5.,
NORTON ’86 - § 6.4.1.]. Ta ostatnia staje się estymatą Gaussa-Markowa w przypadku, gdy
zaburzenia mają rozkład normalny o zerowej średniej i znanej macierzy kowariancji Ση [ibid. § 6.4.2.]. Przy założeniu, że
{x }
n
i
{η }
n
mają rozkład normalny, w obydwu przypadkach
wygodniej jest maksymalizować logarytm
prawdopodobieństwa niż samą tę funkcję.
naturalny
z
funkcji
gęstości
rozkładu
W [KORMYLO & MENDEL ’83] poddano analizie 9 wariantów odtwarzania sygnałów
sejsmicznych metodą największej wiarygodności przy następujących założeniach:
{ } , gdzie r ~ N (0,σ ) , zaś q jest binarną
P( q = 1) = λ , P( q = 0) = 1 − λ przy czym {r } i {q } są
1° sygnał odtwarzany jest realizacją procesu r n q
zmienną losową taką, że,
n
n
n
n
2
r
n
n
n
statystycznie niezależne;
2° model danych ma postać równań stanu (4-16);
3° zaburzenia są realizacją białego procesu losowego o zerowej średniej i wariancji σ η2 .
W najogólniejszym wariancie rozważanym w [ibid.] zakłada się, że estymacji bezwarunkową
metodą największej wiarygodności podlega nie tylko sygnał odtwarzany (wektory r i q), ale także
parametry modelu oraz σ r2 , σ η2 i λ (tworzące razem wektor a); maksymalizowany jest więc
funkcjonał:
p( ~
y r , q, a ) ⋅ p(r a ) ⋅ P (q a )
(6-36)
Ponieważ jednak tak postawione zadanie prowadzi do nadmiaru niezerowych estymat qn,
zdekomponowano je na dwa prostsze: najpierw wyznaczano q$ i n$ maksymalizując:
p(y|q,a) P(q|a)
a następnie r, maksymalizując
p(y|r,q,a) p(r|q,a)
(6-37)
(6-38)
Z 9 wariantów rozważanych w [ibid.] 2 należące do dziedziny odtwarzania właściwego (estymacja
r i q przy założeniu, że wektor a jest znany, oraz estymacja r przy założeniu, że znane są wektory a
i q) dały najbardziej obiecujące rezultaty. W konkluzji stwierdzono w związku z tym, że metoda
największej wiarygodności zapewnia dużą rozdzielczość za cenę znacznego nakładu
obliczeniowego; dlatego też powinna być używana jedynie do odtwarzania właściwego, podczas
gdy model i informacja aprioryczna powinny być pozyskiwane technikami tańszymi i szybszymi.
Próbą realizacji tego postulatu jest [KOLLIAS et al. ’84], gdzie odtwarzanie sygnału sejsmicznego
metodą największej wiarygodności skomponowano z identyfikacją modelu autoregresyjnego
metodą zmiennych instrumentalnych. Mniej optymistyczne są wnioski z badań opisanych w
[VAN RIEL et al. ’86], których celem była niezależna ocena przydatności wyżej opisanej metodyki
odtwarzania sygnałów sejsmicznych. Stwierdzono tam m.in., że metoda największej wiarygodności
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
Strona 6-13
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
wykazuje stosunkowo małą odporność na zaburzenia danych, nie jest przystosowana do
wykorzystania zdeterminowanych ograniczeń ani nadmiaru informacyjnego zawartego w sygnałach
przestrzennych.
Jakościowo różnym od opisanego przykładem wykorzystania bezwarunkowej metody największej
wiarygodności do poprawiania rozdzielczości w spektrometrii emisyjnej jest [FRIEDEN ’97].
Funkcja gęstości prawdopodobieństwa a priori p(x) ma w tym wypadku postać dość
skomplikowaną, wynikającą z analizy zjawisk kwantowo-mechanicznych, zachodzących podczas
przechodzenia światła przez szczelinę wejściową spektrometru. W decydującej mierze zależy ona
od założonej funkcji gęstości rozkładu prawdopodobieństwa p(q), charakteryzującej niepewność
estymacji prawdopodobieństw q zajęcia przez foton poszczególnych podprzedziałów
częstotliwości. Jeżeli - na przykład - jesteśmy pewni, że fotony z jednakowym
prawdopodobieństwem 1/M zajmują poszczególne podprzedziały częstotliwości, to wyrazimy to
funkcją gęstości
p(q) = δ ( q 0 − 1 M )δ ( q1 − 1 M )Kδ ( q M −1 − 1 M )
(6-39)
Okazuje się, że wówczas metoda największej wiarygodności utożsami się z metodą maksymalnej
entropii - por. wzór (6-18). Zestawienie innych przypadków szczególnych zawiera [ibid. - tab. 1,
str. 258]. W praktyce zastosowań metody największej wiarygodności dominują owe przypadki
szczególne [VAN RIEL et al. ’85, GRAČEV & SALACHOV ’85], a nie wykorzystanie metody w
jej ogólnym sformułowaniu. Główną przyczyną tego stanu rzeczy jest zapewne fakt, że funkcja
ln[p(y,x)] w praktycznie interesujących przypadkach charakteryzuje się szeregiem właściwości
utrudniających jej numeryczną minimalizację, takimi jak: wielokrotne minima, punkty przegięcia,
wąwozy o stromym nachyleniu zboczy i łagodnym nachyleniu dna, bardzo płaskie minima itp.
[MAŃCZAK & NAHORSKI ’83 - § 6.1.].
6.3.3. Estymaty o najmniejszej wariancji
y]
Estymatorem o najmniejszej wariancji tradycyjnie nazywa się operator liniowy x$ = F [ ~
minimalizujący wariancję błędu odtwarzania [LUENBERGER ’74 - § 4, BRAMMER &
STIFFLING ’85 - § 2]:
J[x$ ] = Var[x$ − x] = Var[F [ ~
y ] − x]
(6-40)
Przy założeniu, że {x} jest realizacją procesu losowego o znanej średniej x$ i macierzy kowariancji
Σx, zaś { ηη } - realizacją procesu losowego o zerowej średniej i znanej macierzy kowariancji Ση,
estymator ten przybiera postać:
x$ = x + F ( ~
y − G x)
(6-41)
gdzie
F = (G T Σ
−1
η
G+Σ
−1 −1 T
−1
x ) G Σ η
(6-42)
Występująca we wzorze (6-42) macierz odwrotna jest jednocześnie macierzą kowariancji x$ , tzn.:
−1
Cov[ x$ ] = (G T Σ
η
G+Σ
−1 −1
x )
(6-43)
Bez dodatkowych zabiegów algorytmicznych można więc uzyskać standardową ocenę dokładności
estymat otrzymywanych przy użyciu estymatora (6-41). Postać macierzy F sugeruje bliskie
powinowactwo estymaty (6-41) z rodziną estymat wynikających za wzoru (6-24). Nietrudno w
szczególności wykazać, że estymata (6-41) minimalizuje sumę kwadratów norm energetycznych
postaci:
x
2
W
+ ~
y − Gx
2
V
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
(6-44)
Strona 6-14
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
z macierzami wagowymi W = Σ
−1
x
i V=Σ
−1
η
Oznacza to możliwość czysto deterministycznej
interpretacji metody najmniejszej wariancji oraz uzasadnienia jej właściwości regularyzujących
przy użyciu wyników przedstawionych w § 6.2.2.
Estymata (6-41) rzadko bywa stosowana w swej postaci ogólnej; częściej stosowane są jej rozliczne
przypadki szczególne. I tak, na ogół zakłada się, że x = 0 ; wówczas estymata (6-41) staje się
dyskretnym filtrem Wienera [FOMIN ’84 - § 3.1.], tj. dyskretnym analogiem klasycznego filtru
Wienera (nie spełniającego warunku fizycznej realizowalności), charakteryzowanego zwykle w
dziedzinie częstotliwości transmitancją:
−1
Rη (ω ) ⎤
⎡
2
∗
Fw ( jω ) = ⎢ G( jω ) +
⎥ G ( jω )
Rx (ω ) ⎦
⎣
gdzie Rη (ω ), Rx (ω ) - funkcje widmowej gęstości mocy procesów η
(6-45)
i x odpowiednio
[BERKHOUT ’84, HUNT ’84 - § II.D.]. Ze względu na trudności związane z pozyskiwaniem
informacji apriorycznej Ση (lub Rη (ω ) ), Σx (lub Rx (ω ) ) zakłada się często, że η i/lub x są
procesami białymi o wariancjach σ η2
i σ x2 , odpowiednio [FRIEDRICH ’84, OJA &
LAMPINEN ’86]. W [HOFMANN ’84] natomiast pokazano, że estymata o najmniejszej wariancji
zachowuje (asymptotycznie) optymalność, gdy x i Σx zostaną wyznaczone na podstawie danych
empirycznych przy użyciu standardowych estymatorów średniej i macierzy kowariancji.
Założenie Σ −x 1 = 0 we wzorze (6-42) prowadzi do estymaty Gaussa-Markowa [LUENBERGER ’74
- § 4.4.], którą zastosowano do dynamicznej korekcji toru pomiaru napięcia w [HEJN &
LEŚNIEWSKI ’84]. Jeżeli przyjmiemy ponadto, że Σ η = σ η2 I , to estymata ta stanie się klasyczną
estymatą najmniejszych kwadratów. Wariant ten, choć wciąż często stosowany ze względu na swą
logiczną prostotę, odznacza się bardzo słabymi właściwościami regularyzującymi: estymaty
najmniejszych kwadratów są bowiem bardzo wrażliwe na nadmierne błędy danych, odchylenia
rozkładu zaburzeń od normalnego, pojawienie się korelacji zaburzeń danych itp. [VAN DEN
BOS ’82, VAN DEN BOS ’83, VOLKOV ’84]. Metoda ta odegrała jednak fundamentalną rolę w
kształtowaniu się poglądów na temat estymacji sygnałów, a odtwarzania sygnałów sejsmicznych w
szczególności. Do dziś zachowała swą aktualność jedna z najstarszych technik odtwarzania
(opracowana przez N Wienera w 1952 r.) zwana dekonwolucją predykcyjną. Opiera się ona na
założeniu, że dane wolne są od zaburzeń, zaś sygnał odtwarzany jest realizacją białego procesu
losowego o zerowej średniej i nieznanej wariancji; model jest minimalno-fazowy i stabilny. Dane
~
y = y = g∗ x zawierają wówczas część przewidywalną, pochodzącą od jądra g, oraz część
nieprzewidywalną pochodzącą od x . Ideą metody dekonwolucji predykcyjnej jest odejmowanie na
y n opartej na modelu i danych y n −1 , y n − 2 ,... [ARYA &
każdym kroku od y n prognozy ~
HOLDEN ’78]. Metoda umożliwia jednoczesną estymację parametrów modelu i wartości sygnału
2
odtwarzanego poprzez minimalizację sumy ( y n − y$ n ) ; zawodzi, gdy nie są spełnione założenia
dotyczące modelu i sygnału odtwarzanego [ROBINSON ’57]. Podstawowa wersja metody, oparta
na modelu autoregresyjnym, jest do dziś stosowana do analizy sygnałów mowy [BRODZIEWICZ
& JASZCZAK ’87 - § 6.2., TADEUSIEWICZ ’88 - § 4.5.] oraz do estymacji parametrów szumu
pomiarowego [YAROSLAVSKY ’85 - § 6.5.1.]. Podstawowy obszar zastosowań dekonwolucji
predykcyjnej - to jednoczesna identyfikacja modelu i sygnału; z tego względu bliższe jej
omówienie wykracza poza ramy niniejszego opracowania. Przegląd metod i algorytmów
predykcyjnych znaleźć można w [MAKHOUL ’75], zaś szersze podstawy matematyczne - w
[PRIESTLEY ’81 - § 10.1 i ANDEL ’84 - Rozdz. 10].
Najszersze zastosowanie w odtwarzaniu znalazły estymatory o najmniejszej wariancji w wersji
rekurencyjnej, umożliwiającej stopniowe poprawianie estymat odtwarzanego sygnału w miarę
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
Strona 6-15
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
przybywania danych ~
yn = g Tn x + ηn , gdzie g Tn - n-ty wiersz macierzy G . Heurystycznie rzecz
ujmując, możliwość rekurencyjnej realizacji estymatora o najmniejszej wariancji wynika z postaci
yn +1 możemy za średnią x
wzoru (6-41): stosując ten wzór do pojedynczego wyniku pomiaru ~
y 0 ,..., ~
y n . Prowadzi to do wyniku zgodnego ze
podstawić estymatę x$ n uzyskaną na podstawie ~
ściślejszą analizą opartą na założeniu niezależności zmiennych losowych, których realizacjami są
zaburzenia danych pomiarowych [LUENBERGER ’74 - § 4.6.]:
(
f n +1 = g nT+1 Σ xn g n+1 + σ η2, n+1
)
−1
Σ xn g n+1
(6-46)
yn +1
x$ n+1 = ( I − f n +1 g nT+1 ) x$ n + f n+1 ~
(
(6-47)
)
Σ nx+1 = I − f n +1 g Tn+1 Σ nx
(6-48)
yn+1 ; Σ - macierz kowariancji
wariancja charakteryzująca zaburzenie danej ~
~
y n . W [DEMOMENT &
charakteryzująca błąd estymaty otrzymanej na podstawie y 0 ,..., ~
REYNAUD ’85] dokonano optymalizacji powyższego algorytmu ze względu na szybkość obliczeń;
w [HARTWELL ’88] - przedstawiono zastosowanie do estymacji pola pików spektrometrycznych.
gdzie
σ η2, n+1 -
n
x
Uogólnieniem powyższego rozwiązania problemu odtwarzania jest filtr Kalmana [ANDERSON &
MOORE ’84, BROWN ’83 - str. 181-326, BRAMMER & SIFFLING ’85 - § 2.3.,
EITELBERG ’86], odpowiadający następującemu modelowi danych (stanowiącemu uogólnienie
modelu (4-16)):
v n +1 = Φn v n + [εn 0 K 0]
~
yn = c Tn v n + η
T
(6-49)
(6-50)
n
gdzie ε n - realizacje niezależnych zmiennych losowych ε n zerowych średnich i wariancjach σ ε2 ,n ;
ηn - realizacje niezależnych zmiennych losowych η n o zerowych średnich i wariancjach σ η2 ,n .
Sygnał odtwarzany jest składową wektora stanu v n , co jest równoważne założeniu, że sygnał ten
jest modelowany odpowiedzią pewnego układu liniowego na realizację procesu losowego {εn } .
Parametry tego układu oraz parametry modelu zależności x → y określają elementy macierzy Φn i
wektora c Tn . Filtr Kalmana odpowiadający takiemu modelowi danych ma postać
{
}
(6-51)
Σ nv +1− c n+1
(6-52)
Σ nv +1 = Φn Σ vn ΦnT + diag σ n2+1 ,0,...,0
(
f n +1 = c Tn+1 Σ nv +1− c n+1 + σ
(
= (I − fn
)
) Σ nv
2
η , n +1
)
−1
v$ n+1 = I − f n+1 c Tn+1 Φn v$ n + f n+1 ~
y n+1
Σ nv+1
T
+1 c n +1
(6-53)
+1−
(6-54)
y0 ,..., ~
yn ;
gdzie Σ nv+1− - macierz kowariancji estymaty wektora v n+1 , uzyskanej na podstawie ~
y 0 ,..., ~
y n +1 . Estymata
Σ nv+1 - macierz kowariancji estymaty tegoż wektora, uzyskanej na podstawie ~
~
~
x$ n+1 , odpowiadająca danym y 0 ,..., y n +1 , jest jednym z elementów wektora v$n+1 ; zakłada się na
ogół, że macierz Σ 0v jest dana. Szczególne przypadki powyższego rozwiązania zadania
odtwarzania przedstawiono w [CHI & MENDEL ’84, TUGNAIT ’85, COOPER ’86 i
ROUSSEAUX & TROUQUET ’86]. W pierwszej z tych publikacji podjęto próbę przezwyciężenia
podstawowej słabości estymacji rekurencyjnej, która polega na tym, że do wyznaczenia estymaty
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
Strona 6-16
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych
y n+1 ,..., ~
y N −1 . Dla modelu
x$ n nie jest wykorzystana informacja pomiarowa zawarta w danych ~
danych, którego parametry nie zależą od czasu, tj. od n, zaproponowano tam następującą procedurę:
podczas zbierania danych rekurencyjnie wyznaczane są wektory f n oraz estymaty szumu
pomiarowego ηn , a dopiero po zebraniu wszystkich danych, za pomocą odpowiedniego filtru
y n+1 ,..., ~
y N −1 . W
antyprzyczynowego, wyznaczane są estymaty wektorów v n odpowiadające ~
wyniku badań stwierdzono, że efektywność tej procedury istotnie zależy od parametrów modelu
danych i poziomu ich zaburzenia; w zastosowaniu do sygnałów sejsmicznych daje ona na ogół
zawyżone estymaty magnitud pików. W [TUGNAIT ’85] podjęto próbę dodatkowego ograniczenia
zbioru dopuszczalnych rozwiązań poprzez wprowadzenie nieliniowego operatora ograniczeń C do
równania (6-50)
~
yn = c nT C [ v ] + ηn
(6-55)
Pokazano efektywność tego sposobu postępowania na przykładzie z dziedziny spektrometrii.
Dalsze zastosowania filtru Kalmana do odtwarzania sygnałów pomiarowych, także
dwuargumentowych, przedstawiono w [DIKSHIT782 i BIEMOND et al. ’83]. Wstęp do artykułu
[GROUTAGE et al. ’84] zawiera przegląd ważniejszych uogólnień filtru Kalmana; sam artykuł zaś
poświęcony jest jego wersji nie wymagającej znajomości Σ 0v i σ η2, n . Obszerny rys historyczny
rozwoju metod estymacji minimalno-wariacyjnej zawiera [KAILATH ’74].
Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych
Strona 6-17