znaleźć odtwarzania fg
Transkrypt
znaleźć odtwarzania fg
R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych 6.3. Metody probabilistyczne Metody probabilistyczne są adekwatnym narzędziem formowania ograniczeń zbioru dopuszczalnych rozwiązań w sytuacji niepewności co do informacji apriorycznej. Ich użycie opiera się na założeniu, że sygnał odtwarzany jest realizacją pewnego procesu losowego x n , zaś { } { } . Pełna informacja aprioryczna o zaburzenie {ηn } jest realizacją innego procesu losowego η n tych procesach - to odpowiednie funkcje gęstości rozkładu prawdopodobieństwa a priori: p( x ) i { } p(η ) . Pełne rozwiązanie zadania odtwarzania - to funkcja gęstości rozkładu x n a posteriori; tzn. rozkładu x n pod warunkiem, że dysponujemy danymi { ~ y . W praktyce rzadko yn } i p x ~ { } ( ) dostępna jest pełna informacja aprioryczna. W najlepszym razie dysponujemy typem rozkładów oraz estymatami ich dwóch pierwszych momentów. Najczęściej zakładamy, że {x } n { } są i η n ergodycznymi, białymi, gaussowskimi procesami losowymi o zerowej średniej; założenia te nazywać będziemy standardowymi. Pełny wynik odtwarzania metodami probabilistycznymi nie jest na ogół wymagany, a nawet bywa kłopotliwy w użyciu ze względu na swą ekstensywność. Redukcja pełnego wyniku do postaci użytkowej dokonywana jest najczęściej metodami wariacyjnymi. Probabilistyczne metody odtwarzania przedstawimy w porządku malejącej ilości informacji apriorycznej niezbędnej do ich realizacji. 6.3.1. Estymaty Bayesa Zgodnie z regułą Bayesa ( ) p x~ y = p( ~ y x) p( x) / ∫ p( ~ y x) p( x) dx (6-34) x y − G [ x] [SCHWEPPE ’78 - § 11.1.]. Za najlepszą przy czym p( ~ y x) = p( O) po podstawieniu O= ~ estymatę sygnału odtwarzanego uznaje się zwykle wartość średnią pewnego funkcjonału L, zwanego funkcjonałem kosztu, strat lub ryzyka [SCHWARZ & SHAW ’75 - § 6.3., NORTON ’86 § 6.2.2.]: ⎧⎪ x$ = arg min ⎨∫ L ( v , x) p x ~ y dx ⎩⎪ x ( ) ⎫⎪ v ∈ X⎬ ⎭⎪ (6-35) Funkcjonał L dobierany jest (w ogólności) do specyfiki zadania. Najczęściej jednak L ( v , x) = v − x q , q = 1,2, ∞, W [ibid. - § 6.3.]; inne przypadki szczególne przedstawiono w [SCHWEPPE ’78 - § 11.1.]. Jeżeli rozkład x y jest normalny, to estymaty odpowiadające L ( v , x) = v − x q (q = 1,2) , utożsamiają się z estymatą odpowiadającą L ( v , x) = −δ ( v − x) , tzn. estymatą największej wiarygodności [NORTON ’86 - § 6.3.5.]. Doniesienia literaturowe na temat zastosowań estymaty (6-35) do odtwarzania sygnałów są stosunkowo nieliczne; prawdopodobnie ze względu na złożoność obliczeniową oraz trudności pozyskania pełnej informacji apriorycznej. W [ISAEV ’87] zaproponowano procedurę jednoczesnej estymacji wektora x oraz wariancji szumu {η } n metodą Bayesa, przy standardowych założeniach. W [CARY & CHAPMAN ’88] z powodzeniem zastosowano tę metodę do interpretacji danych sejsmicznych, charakteryzujących dno morskie w pewnym rejonie północnego Atlantyku; do minimalizacji funkcjonału definiującego estymatę (6-35) użyto przy tym oryginalnego algorytmu iteracyjnego stworzonego na bazie metody najszybszego spadku i metody Monte Carlo. W obydwu cytowanych przypadkach zastosowano Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych Strona 6-12 R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych dodatkowy wariacyjny mechanizm regularyzacji, polegający na powiększeniu minimalizowanego ( funkcjonału o formę kwadratową wektora x − x z parametrem regularyzacji α (por. § 6.2.2.). 6.3.2. Estymaty największej wiarygodności ( ) Za estymatę najbardziej wiarygodną uważa się tę, która maksymalizuje p x y . Ponieważ mianownik (6-34) nie zależy od x, jest to estymata maksymalizująca p( ~ y x) p( x) = p( y x) [EYKHOFF ’80 - § 5.1.3., MAŃCZAK & NAHORSKI ’83, NORTON ’86 - § 6.4.3.]. Nazywa się ją bezwarunkową estymatą największej wiarygodności dla odróżnienia od warunkowej, która maksymalizuje p( ~ y x) niezależnie od postaci p( x) [SCHWARTZ & SHAW ’75 - § 6.5., NORTON ’86 - § 6.4.1.]. Ta ostatnia staje się estymatą Gaussa-Markowa w przypadku, gdy zaburzenia mają rozkład normalny o zerowej średniej i znanej macierzy kowariancji Ση [ibid. § 6.4.2.]. Przy założeniu, że {x } n i {η } n mają rozkład normalny, w obydwu przypadkach wygodniej jest maksymalizować logarytm prawdopodobieństwa niż samą tę funkcję. naturalny z funkcji gęstości rozkładu W [KORMYLO & MENDEL ’83] poddano analizie 9 wariantów odtwarzania sygnałów sejsmicznych metodą największej wiarygodności przy następujących założeniach: { } , gdzie r ~ N (0,σ ) , zaś q jest binarną P( q = 1) = λ , P( q = 0) = 1 − λ przy czym {r } i {q } są 1° sygnał odtwarzany jest realizacją procesu r n q zmienną losową taką, że, n n n n 2 r n n n statystycznie niezależne; 2° model danych ma postać równań stanu (4-16); 3° zaburzenia są realizacją białego procesu losowego o zerowej średniej i wariancji σ η2 . W najogólniejszym wariancie rozważanym w [ibid.] zakłada się, że estymacji bezwarunkową metodą największej wiarygodności podlega nie tylko sygnał odtwarzany (wektory r i q), ale także parametry modelu oraz σ r2 , σ η2 i λ (tworzące razem wektor a); maksymalizowany jest więc funkcjonał: p( ~ y r , q, a ) ⋅ p(r a ) ⋅ P (q a ) (6-36) Ponieważ jednak tak postawione zadanie prowadzi do nadmiaru niezerowych estymat qn, zdekomponowano je na dwa prostsze: najpierw wyznaczano q$ i n$ maksymalizując: p(y|q,a) P(q|a) a następnie r, maksymalizując p(y|r,q,a) p(r|q,a) (6-37) (6-38) Z 9 wariantów rozważanych w [ibid.] 2 należące do dziedziny odtwarzania właściwego (estymacja r i q przy założeniu, że wektor a jest znany, oraz estymacja r przy założeniu, że znane są wektory a i q) dały najbardziej obiecujące rezultaty. W konkluzji stwierdzono w związku z tym, że metoda największej wiarygodności zapewnia dużą rozdzielczość za cenę znacznego nakładu obliczeniowego; dlatego też powinna być używana jedynie do odtwarzania właściwego, podczas gdy model i informacja aprioryczna powinny być pozyskiwane technikami tańszymi i szybszymi. Próbą realizacji tego postulatu jest [KOLLIAS et al. ’84], gdzie odtwarzanie sygnału sejsmicznego metodą największej wiarygodności skomponowano z identyfikacją modelu autoregresyjnego metodą zmiennych instrumentalnych. Mniej optymistyczne są wnioski z badań opisanych w [VAN RIEL et al. ’86], których celem była niezależna ocena przydatności wyżej opisanej metodyki odtwarzania sygnałów sejsmicznych. Stwierdzono tam m.in., że metoda największej wiarygodności Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych Strona 6-13 R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych wykazuje stosunkowo małą odporność na zaburzenia danych, nie jest przystosowana do wykorzystania zdeterminowanych ograniczeń ani nadmiaru informacyjnego zawartego w sygnałach przestrzennych. Jakościowo różnym od opisanego przykładem wykorzystania bezwarunkowej metody największej wiarygodności do poprawiania rozdzielczości w spektrometrii emisyjnej jest [FRIEDEN ’97]. Funkcja gęstości prawdopodobieństwa a priori p(x) ma w tym wypadku postać dość skomplikowaną, wynikającą z analizy zjawisk kwantowo-mechanicznych, zachodzących podczas przechodzenia światła przez szczelinę wejściową spektrometru. W decydującej mierze zależy ona od założonej funkcji gęstości rozkładu prawdopodobieństwa p(q), charakteryzującej niepewność estymacji prawdopodobieństw q zajęcia przez foton poszczególnych podprzedziałów częstotliwości. Jeżeli - na przykład - jesteśmy pewni, że fotony z jednakowym prawdopodobieństwem 1/M zajmują poszczególne podprzedziały częstotliwości, to wyrazimy to funkcją gęstości p(q) = δ ( q 0 − 1 M )δ ( q1 − 1 M )Kδ ( q M −1 − 1 M ) (6-39) Okazuje się, że wówczas metoda największej wiarygodności utożsami się z metodą maksymalnej entropii - por. wzór (6-18). Zestawienie innych przypadków szczególnych zawiera [ibid. - tab. 1, str. 258]. W praktyce zastosowań metody największej wiarygodności dominują owe przypadki szczególne [VAN RIEL et al. ’85, GRAČEV & SALACHOV ’85], a nie wykorzystanie metody w jej ogólnym sformułowaniu. Główną przyczyną tego stanu rzeczy jest zapewne fakt, że funkcja ln[p(y,x)] w praktycznie interesujących przypadkach charakteryzuje się szeregiem właściwości utrudniających jej numeryczną minimalizację, takimi jak: wielokrotne minima, punkty przegięcia, wąwozy o stromym nachyleniu zboczy i łagodnym nachyleniu dna, bardzo płaskie minima itp. [MAŃCZAK & NAHORSKI ’83 - § 6.1.]. 6.3.3. Estymaty o najmniejszej wariancji y] Estymatorem o najmniejszej wariancji tradycyjnie nazywa się operator liniowy x$ = F [ ~ minimalizujący wariancję błędu odtwarzania [LUENBERGER ’74 - § 4, BRAMMER & STIFFLING ’85 - § 2]: J[x$ ] = Var[x$ − x] = Var[F [ ~ y ] − x] (6-40) Przy założeniu, że {x} jest realizacją procesu losowego o znanej średniej x$ i macierzy kowariancji Σx, zaś { ηη } - realizacją procesu losowego o zerowej średniej i znanej macierzy kowariancji Ση, estymator ten przybiera postać: x$ = x + F ( ~ y − G x) (6-41) gdzie F = (G T Σ −1 η G+Σ −1 −1 T −1 x ) G Σ η (6-42) Występująca we wzorze (6-42) macierz odwrotna jest jednocześnie macierzą kowariancji x$ , tzn.: −1 Cov[ x$ ] = (G T Σ η G+Σ −1 −1 x ) (6-43) Bez dodatkowych zabiegów algorytmicznych można więc uzyskać standardową ocenę dokładności estymat otrzymywanych przy użyciu estymatora (6-41). Postać macierzy F sugeruje bliskie powinowactwo estymaty (6-41) z rodziną estymat wynikających za wzoru (6-24). Nietrudno w szczególności wykazać, że estymata (6-41) minimalizuje sumę kwadratów norm energetycznych postaci: x 2 W + ~ y − Gx 2 V Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych (6-44) Strona 6-14 R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych z macierzami wagowymi W = Σ −1 x i V=Σ −1 η Oznacza to możliwość czysto deterministycznej interpretacji metody najmniejszej wariancji oraz uzasadnienia jej właściwości regularyzujących przy użyciu wyników przedstawionych w § 6.2.2. Estymata (6-41) rzadko bywa stosowana w swej postaci ogólnej; częściej stosowane są jej rozliczne przypadki szczególne. I tak, na ogół zakłada się, że x = 0 ; wówczas estymata (6-41) staje się dyskretnym filtrem Wienera [FOMIN ’84 - § 3.1.], tj. dyskretnym analogiem klasycznego filtru Wienera (nie spełniającego warunku fizycznej realizowalności), charakteryzowanego zwykle w dziedzinie częstotliwości transmitancją: −1 Rη (ω ) ⎤ ⎡ 2 ∗ Fw ( jω ) = ⎢ G( jω ) + ⎥ G ( jω ) Rx (ω ) ⎦ ⎣ gdzie Rη (ω ), Rx (ω ) - funkcje widmowej gęstości mocy procesów η (6-45) i x odpowiednio [BERKHOUT ’84, HUNT ’84 - § II.D.]. Ze względu na trudności związane z pozyskiwaniem informacji apriorycznej Ση (lub Rη (ω ) ), Σx (lub Rx (ω ) ) zakłada się często, że η i/lub x są procesami białymi o wariancjach σ η2 i σ x2 , odpowiednio [FRIEDRICH ’84, OJA & LAMPINEN ’86]. W [HOFMANN ’84] natomiast pokazano, że estymata o najmniejszej wariancji zachowuje (asymptotycznie) optymalność, gdy x i Σx zostaną wyznaczone na podstawie danych empirycznych przy użyciu standardowych estymatorów średniej i macierzy kowariancji. Założenie Σ −x 1 = 0 we wzorze (6-42) prowadzi do estymaty Gaussa-Markowa [LUENBERGER ’74 - § 4.4.], którą zastosowano do dynamicznej korekcji toru pomiaru napięcia w [HEJN & LEŚNIEWSKI ’84]. Jeżeli przyjmiemy ponadto, że Σ η = σ η2 I , to estymata ta stanie się klasyczną estymatą najmniejszych kwadratów. Wariant ten, choć wciąż często stosowany ze względu na swą logiczną prostotę, odznacza się bardzo słabymi właściwościami regularyzującymi: estymaty najmniejszych kwadratów są bowiem bardzo wrażliwe na nadmierne błędy danych, odchylenia rozkładu zaburzeń od normalnego, pojawienie się korelacji zaburzeń danych itp. [VAN DEN BOS ’82, VAN DEN BOS ’83, VOLKOV ’84]. Metoda ta odegrała jednak fundamentalną rolę w kształtowaniu się poglądów na temat estymacji sygnałów, a odtwarzania sygnałów sejsmicznych w szczególności. Do dziś zachowała swą aktualność jedna z najstarszych technik odtwarzania (opracowana przez N Wienera w 1952 r.) zwana dekonwolucją predykcyjną. Opiera się ona na założeniu, że dane wolne są od zaburzeń, zaś sygnał odtwarzany jest realizacją białego procesu losowego o zerowej średniej i nieznanej wariancji; model jest minimalno-fazowy i stabilny. Dane ~ y = y = g∗ x zawierają wówczas część przewidywalną, pochodzącą od jądra g, oraz część nieprzewidywalną pochodzącą od x . Ideą metody dekonwolucji predykcyjnej jest odejmowanie na y n opartej na modelu i danych y n −1 , y n − 2 ,... [ARYA & każdym kroku od y n prognozy ~ HOLDEN ’78]. Metoda umożliwia jednoczesną estymację parametrów modelu i wartości sygnału 2 odtwarzanego poprzez minimalizację sumy ( y n − y$ n ) ; zawodzi, gdy nie są spełnione założenia dotyczące modelu i sygnału odtwarzanego [ROBINSON ’57]. Podstawowa wersja metody, oparta na modelu autoregresyjnym, jest do dziś stosowana do analizy sygnałów mowy [BRODZIEWICZ & JASZCZAK ’87 - § 6.2., TADEUSIEWICZ ’88 - § 4.5.] oraz do estymacji parametrów szumu pomiarowego [YAROSLAVSKY ’85 - § 6.5.1.]. Podstawowy obszar zastosowań dekonwolucji predykcyjnej - to jednoczesna identyfikacja modelu i sygnału; z tego względu bliższe jej omówienie wykracza poza ramy niniejszego opracowania. Przegląd metod i algorytmów predykcyjnych znaleźć można w [MAKHOUL ’75], zaś szersze podstawy matematyczne - w [PRIESTLEY ’81 - § 10.1 i ANDEL ’84 - Rozdz. 10]. Najszersze zastosowanie w odtwarzaniu znalazły estymatory o najmniejszej wariancji w wersji rekurencyjnej, umożliwiającej stopniowe poprawianie estymat odtwarzanego sygnału w miarę Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych Strona 6-15 R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych przybywania danych ~ yn = g Tn x + ηn , gdzie g Tn - n-ty wiersz macierzy G . Heurystycznie rzecz ujmując, możliwość rekurencyjnej realizacji estymatora o najmniejszej wariancji wynika z postaci yn +1 możemy za średnią x wzoru (6-41): stosując ten wzór do pojedynczego wyniku pomiaru ~ y 0 ,..., ~ y n . Prowadzi to do wyniku zgodnego ze podstawić estymatę x$ n uzyskaną na podstawie ~ ściślejszą analizą opartą na założeniu niezależności zmiennych losowych, których realizacjami są zaburzenia danych pomiarowych [LUENBERGER ’74 - § 4.6.]: ( f n +1 = g nT+1 Σ xn g n+1 + σ η2, n+1 ) −1 Σ xn g n+1 (6-46) yn +1 x$ n+1 = ( I − f n +1 g nT+1 ) x$ n + f n+1 ~ ( (6-47) ) Σ nx+1 = I − f n +1 g Tn+1 Σ nx (6-48) yn+1 ; Σ - macierz kowariancji wariancja charakteryzująca zaburzenie danej ~ ~ y n . W [DEMOMENT & charakteryzująca błąd estymaty otrzymanej na podstawie y 0 ,..., ~ REYNAUD ’85] dokonano optymalizacji powyższego algorytmu ze względu na szybkość obliczeń; w [HARTWELL ’88] - przedstawiono zastosowanie do estymacji pola pików spektrometrycznych. gdzie σ η2, n+1 - n x Uogólnieniem powyższego rozwiązania problemu odtwarzania jest filtr Kalmana [ANDERSON & MOORE ’84, BROWN ’83 - str. 181-326, BRAMMER & SIFFLING ’85 - § 2.3., EITELBERG ’86], odpowiadający następującemu modelowi danych (stanowiącemu uogólnienie modelu (4-16)): v n +1 = Φn v n + [εn 0 K 0] ~ yn = c Tn v n + η T (6-49) (6-50) n gdzie ε n - realizacje niezależnych zmiennych losowych ε n zerowych średnich i wariancjach σ ε2 ,n ; ηn - realizacje niezależnych zmiennych losowych η n o zerowych średnich i wariancjach σ η2 ,n . Sygnał odtwarzany jest składową wektora stanu v n , co jest równoważne założeniu, że sygnał ten jest modelowany odpowiedzią pewnego układu liniowego na realizację procesu losowego {εn } . Parametry tego układu oraz parametry modelu zależności x → y określają elementy macierzy Φn i wektora c Tn . Filtr Kalmana odpowiadający takiemu modelowi danych ma postać { } (6-51) Σ nv +1− c n+1 (6-52) Σ nv +1 = Φn Σ vn ΦnT + diag σ n2+1 ,0,...,0 ( f n +1 = c Tn+1 Σ nv +1− c n+1 + σ ( = (I − fn ) ) Σ nv 2 η , n +1 ) −1 v$ n+1 = I − f n+1 c Tn+1 Φn v$ n + f n+1 ~ y n+1 Σ nv+1 T +1 c n +1 (6-53) +1− (6-54) y0 ,..., ~ yn ; gdzie Σ nv+1− - macierz kowariancji estymaty wektora v n+1 , uzyskanej na podstawie ~ y 0 ,..., ~ y n +1 . Estymata Σ nv+1 - macierz kowariancji estymaty tegoż wektora, uzyskanej na podstawie ~ ~ ~ x$ n+1 , odpowiadająca danym y 0 ,..., y n +1 , jest jednym z elementów wektora v$n+1 ; zakłada się na ogół, że macierz Σ 0v jest dana. Szczególne przypadki powyższego rozwiązania zadania odtwarzania przedstawiono w [CHI & MENDEL ’84, TUGNAIT ’85, COOPER ’86 i ROUSSEAUX & TROUQUET ’86]. W pierwszej z tych publikacji podjęto próbę przezwyciężenia podstawowej słabości estymacji rekurencyjnej, która polega na tym, że do wyznaczenia estymaty Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych Strona 6-16 R. Z. Morawski: Metody odtwarzania sygnałów pomiarowych y n+1 ,..., ~ y N −1 . Dla modelu x$ n nie jest wykorzystana informacja pomiarowa zawarta w danych ~ danych, którego parametry nie zależą od czasu, tj. od n, zaproponowano tam następującą procedurę: podczas zbierania danych rekurencyjnie wyznaczane są wektory f n oraz estymaty szumu pomiarowego ηn , a dopiero po zebraniu wszystkich danych, za pomocą odpowiedniego filtru y n+1 ,..., ~ y N −1 . W antyprzyczynowego, wyznaczane są estymaty wektorów v n odpowiadające ~ wyniku badań stwierdzono, że efektywność tej procedury istotnie zależy od parametrów modelu danych i poziomu ich zaburzenia; w zastosowaniu do sygnałów sejsmicznych daje ona na ogół zawyżone estymaty magnitud pików. W [TUGNAIT ’85] podjęto próbę dodatkowego ograniczenia zbioru dopuszczalnych rozwiązań poprzez wprowadzenie nieliniowego operatora ograniczeń C do równania (6-50) ~ yn = c nT C [ v ] + ηn (6-55) Pokazano efektywność tego sposobu postępowania na przykładzie z dziedziny spektrometrii. Dalsze zastosowania filtru Kalmana do odtwarzania sygnałów pomiarowych, także dwuargumentowych, przedstawiono w [DIKSHIT782 i BIEMOND et al. ’83]. Wstęp do artykułu [GROUTAGE et al. ’84] zawiera przegląd ważniejszych uogólnień filtru Kalmana; sam artykuł zaś poświęcony jest jego wersji nie wymagającej znajomości Σ 0v i σ η2, n . Obszerny rys historyczny rozwoju metod estymacji minimalno-wariacyjnej zawiera [KAILATH ’74]. Rozdział 6. Jednolite ujęcie metod odtwarzania sygnałów pomiarowych Strona 6-17