ZAJĘCIA X Zasada największej wiarygodności
Transkrypt
ZAJĘCIA X Zasada największej wiarygodności
Komputerowa identyfikacja obiektów ZAJĘCIA X Zasada największej wiarygodności • Funkcja wiarygodności • Estymacja wg zasady maksymalizacji wiarygodności • Rodzina estymatorów ML • Przypadki szczególne Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów WPROWADZENIE Przyjęcie na początku XIX wieku zasady minimalizacji odległości między odpowiedzią obiektu i modelu mierzonej jako suma kwadratów odchyłek miało charakter arbitralny. Spierano się wówczas czy lepsza jest zasada minimalizacji sumy kwadratów czy też sumy modułów odchyłek, ale spory nie były poparte teorią. Gauss zauważył jednak, że estymator najmniejszej sumy kwadratów maksymalizuje funkcję gęstości prawdopodobieństwa rozkładu normalnego pomiarów odpowiedzi, tj. dla wartości estymat uzyskanych z użyciem estymatora LS zmierzone wartości odpowiedzi są najbardziej wiarygodne. Fakt ten znalazł swoje odbicie w teorii estymacji największej wiarygodności dopiero w początkach dwudziestego wieku za sprawą rozwoju statystyki. Zasadę wyboru takich wartości estymowanych parametrów, które maksymalizują prawdopodobieństwo uzyskiwanych pomiarów a posteriori można stosować w różnych sytuacjach pomiarowych. Konkretny algorytm zależy od postaci modelu identyfikowanego obiektu, modelu zakłóceń, stopnia znajomości parametrów zakłóceń. Stąd nazwa estymator największej wiarygodności mówi nam tylko o klasie algorytmu a nie o jego konkretnej postaci. Przykład: Jaka jest najbardziej prawdopodobna rzeczywista wartość mierzona ? Mierzymy stałe napięcie zakłócone szumem. Po pierwszym pomiarze chcemy określić wartość tego napięcia. Naturalny wybór to przyjęcie wprost wartości zmierzonej za estymatę napięcia. Czy takie postępowanie może prowadzić do systematycznego błędu estymacji (czyli błędu obciążenia) dla specyficznego rozkładu szumu ? Następnie wykonaliśmy bardzo dużo pomiarów ? Czy średnia z pomiarów jest dobrą estymatą napięcia. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów FUNKCJA WIARYGODNOŚCI Przy maksymalizacji prawdopodobieństwa wystąpienia zaobserwowanych wartości odpowiedzi (tzn. ich wiarygodności) postępować będziemy analogicznie jak przy dopasowaniu odpowiedzi modelu do pomiarów, tyle że teraz model odpowiedzi będzie miał charakter statystyczny, podany w postaci funkcji gęstości prawdopodobieństwa wystąpienia określonych wartości odpowiedzi. Najczęściej wartość oczekiwana odpowiedzi będzie równa niezakłóconej odpowiedzi modelu dynamicznego a rozrzut będzie wynikał z zakłóceń addytywnych (np. szumy cieplne, szum kwantowania). Dopasowanie będziemy prowadzić przez dobór takich wartości parametrów modelu, żeby funkcja gęstości prawdopodobieństwa osiągała w punktach pomiarowych wartość maksymalną. Zapiszmy formalnie zadanie takiego wyboru wartości estymat nieznanych parametrów, żeby zmierzone wartości yp odpowiedzi obiektu były najbardziej prawdopodobne. Funkcja gęstości prawdopodobieństwa ciągu próbek y1,…, y N sygnału odpowiedzi na znane pobudzenie ma postać wielowymiarową. Każda z próbek jest zmienną losową a funkcja gęstości opisuje cały wektor próbek y = [ y1,…, y N ] w sposób łączny. Dodatkowo zakładamy, że wartości próbek zależą od poszukiwanych parametrów modelu (zależności od sygnału wejściowego nie notujemy dla utrzymania jasności zapisu). Tak więc funkcja gęstości będzie mieć oznaczenie L = p ( y; θ ) gdzie y jest wektorem próbek (zmiennych losowych), a θ wektorem estymowanych parametrów. Zapis ze średnikiem oznacza, że θ nie jest wektorem losowym tylko wektorem parametrów funkcji gęstości. Funkcja ta nosi nazwę funkcji wiarygodności (ang. likelihood function). Oczywiście jest to ta sama funkcja gęstości prawdopodobieństwa pomiarów, której używaliśmy na poprzednich zajęciach do wyliczenia macierzy informacyjnej. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów ZASADA MAKSYMALIZACJI WIARYGODNOŚCI Estymator maksymalizujący funkcję wiarygodności w punkcie yp (zaobserwowana realizacja wektora próbek): θˆ = arg max p ( y p ; θ ) θ jest nazywany estymatorem największej wiarygodności (ang. maximum likelihood, w skrócie ML) i oznaczany θˆ ML . Oczywiście maksymalizacja może być przeprowadzona tylko przy znajomości postaci funkcji wiarygodności. Zatem żeby określić estymator największej wiarygodności należy znać, lub założyć na podstawie posiadanej wiedzy, ogólną postać funkcji wiarygodności zależnej od nieznanych (a estymowanych) parametrów θ. Maksymalizację można prowadzić metodami iteracyjnego poszukiwania ekstremów funkcji nieliniowych bezpośrednio na funkcji gęstości, jednak w przypadku pewnych rozkładów zadanie upraszcza się do estymatorów jednokrokowych (wyrażeń algebraicznych). Zostanie to pokazane w dalszej części wykładu. Przykład: Bezpośrednia maksymalizacja funkcji wiarygodności dla zakłóceń gaussowskich i dwóch pomiarów clf m=5; % rzeczywista wartość współczynnika (stałej) S=[1 0; 0 1]; % macierz kowariancyjna szumu y=m+randn(2,1); % pomiar zakłócony szumem gaussowskim % funkcja wiarygodności (ze znakiem minus: max->min) L=@(x,y,S) -1/(2*pi*sqrt(det(S)))*exp(-1/2*(y-x)'*inv(S)*(y-x)); mest=fminunc(L, 5,[],y,S) % estymowana wartość współczynnika plot(m, m, 'bo', y(1), y(2),'r*'); axis([0 10 0 10]) y1v=0:0.1:10; y2v=0:0.1:10; for k1=1:length(y1v), for k2=1:length(y2v) V(k1,k2)=-L(mest,[y1v(k1);y2v(k2)],S); end, end hold on, contour(y1v,y2v,V,10), grid on 10 8 6 4 2 0 0 2 4 6 8 10 Jak to wygląda na osi czasowej ? Co się zmieni przy pomiarze inercyjnej odpowiedzi dynamicznej ? Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów ESTYMATORY NAJWIĘKSZEJ WIARYGODNOŚCI I ICH WŁASNOŚCI Popularność estymatorów wynikających z zasady największej wiarygodności wynika z ich korzystnych własności statystycznych. Jak dowiedziono estymatory te są asymptotycznie (tzn. z rosnącą ilością danych pomiarowych): • zgodne, • nieobciążone, • efektywne. Dla przypomnienia, ostatnia cecha oznacza, że mają one najmniejszą macierz kowariancyjną ze wszystkich estymatorów nieobciążonych, równą ograniczeniu Rao-Cramera w postaci odwrotności macierzy informacyjnej. Z jednej strony zasada największej wiarygodności jest metodą generowania optymalnych estymatorów przy przyjętych założeniach co do funkcji gęstości prawdopodobieństwa. Z drugiej strony przyjęło się używać nazwy estymator największej wiarygodności na każdy estymator, które ma wymienione optymalne własności. W tym przypadku mamy więc do czynienia z odwrotną sytuacją, najpierw określa się estymator, a później wykazuje jego korzystne własności. Tak więc pojęcie estymator największej wiarygodności jest bardzo ogólne i obejmuje całą klasę estymatorów o szczególnych własnościach. Jak zobaczymy w następnym punkcie, przyjęcie określonych założeń co do postaci funkcji wiarygodności skutkuje szczególną postacią estymatora ML. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów PRZYPADKI SZCZEGÓLNE PRZYPADEK 1: Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów 1. Model pomiaru Zastosujmy zasadę największej wiarygodności do przypadku najczęściej stosowanego w praktyce, tj. opisu zakłóceń pomiaru rozkładem normalnym. Załóżmy, że niezakłócone wyjście identyfikowanego obiektu yo(t) jest związane ze znanym wejściem obiektu u(t) i parametrami obiektu θ pewną zależnością (dowolną, być może dynamiczną lub nieliniową ze względu na parametry), co zapiszemy w postaci modelu obiektu identyfikacji: y o = g ( u, θ ) Zakładamy również, że zakłócenia pomiarowe ε mają charakter addytywny i rozkład normalny o zerowej wartości oczekiwanej (błąd pomiaru bez składowej systematycznej). Dostępne pomiarowo wyjście obiektu y(t) jest więc opisane zależnością y = g ( u, θ ) + ε Jeśli dokonujemy pomiaru wyjścia obiektu w N różnych chwilach czasowych t1,…, tN , to wynikowy zbiór pomiarów y ( t i )i =1,…,N , który zapiszemy jako kolumnowy wektor pomiarów y , możemy opisać N-wymiarowym rozkładem normalnym o wartości oczekiwanej yo (tzn. y o ( t i )i =1,…,N ). Macierz kowariancji wektora pomiarów jest równa macierzy kowariancji zakłóceń w momentach pomiaru. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów 2. Funkcja wiarygodności Dotychczas nie czyniliśmy założeń co do wariancji zakłóceń przy poszczególnych pomiarach ani o zależności losowej między pomiarami. Przyjmijmy najbardziej ogólne założenie, że te parametry statystyczne zakłóceń są opisane macierzą kowariancyjną V o znanej wartości. Wielowymiarowy rozkład normalny o wymienionych parametrach ma funkcję gęstości (funkcję wiarygodności) o postaci: L = p( y; θ ) = = 1 ( 2π ) N 1 ( 2π ) N T ⎛ 1 ⎞ exp ⎜ − [ y − yo ] V −1 [ y − yo ] ⎟ ⎝ 2 ⎠ V T ⎛ 1 ⎞ exp ⎜ − ⎡⎣ y − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y − g ( u, θ ) ⎤⎦ ⎟ ⎝ 2 ⎠ V Przeprowadźmy maksymalizację funkcji wiarygodności w dziedzinie wektora parametrów θ, dla uzyskanych w wyniku pomiaru wartości yp (pojedynczej realizacji) wektora losowego y. Skorzystamy z faktu, że poszukiwanie maksimum funkcji o dodatnich wartościach jest równoważne poszukiwaniu maksimum logarytmu naturalnego funkcji (logarytm jest funkcją monotoniczną), dzięki czemu obliczenia staną się łatwiejsze. ln L = − T N 1 1 ln ( 2π ) − ln ( V ) − ⎡⎣ y p − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y p − g ( u, θ ) ⎤⎦ 2 2 2 Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów 3. Maksymalizacja wiarygodności Ponieważ pierwsze dwa składniki maksymalizowanego wyrażenia nie zależą od estymowanych parametrów, to ostatecznie maksymalizacja funkcji wiarygodności prowadzi do minimalizacji (zmiana znaku) funkcjonału: J ( θ ) = ⎡⎣ y p − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y p − g ( u, θ ) ⎤⎦ Funkcjonał J w szczególnym przypadku diagonalnej macierzy V (zakłócenia nieskorelowane o różnych T wariancjach) jest sumą ważonych odwrotnościami wariancji kwadratów różnic między wartościami zmierzonymi a wynikającymi z modelu dla danej wartości wektora estymowanych parametrów θ. Jeśli macierz V jest macierzą jednostkową z mnożnikiem σ2 (zakłócenia w poszczególnych pomiarach wzajemnie niezależne i o identycznej wariancji), to funkcjonał J przybiera postać znanej nam sumy kwadratów odchyłek pomiarów wyjścia obiektu od wyjścia modelu. ( ) J ( θ ) = ⎡⎣ y p − g ( u, θ ) ⎤⎦ σ 2I T −1 2 1 N ⎡⎣ y p − g ( u, θ ) ⎤⎦ = 2 ∑ ⎡⎣ y p ( t i ) − g i ( u, θ ) ⎤⎦ σ i =1 Tak więc, sformułowanie największej wiarygodności prowadzi w szczególnym przypadku do klasycznego sformułowania najmniejszej sumy kwadratów. Inaczej mówiąc, estymator LS przy szczególnym modelu zakłóceń jest estymatorem największej wiarygodności. Otrzymaliśmy również ogólniejsze sformułowanie zadania najmniejszej sumy kwadratów w postaci ważonej macierzą kowariancji zakłóceń V dla przypadku kiedy zakłócenia nie mają identycznego rozkładu i/lub są skorelowane. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów PRZYPADEK 2: Obiekt liniowy z zakłóceniami pomiaru wyjścia o znanych parametrach statystycznych Wyprowadźmy z zasady największej wiarygodności estymator najmniejszej sumy kwadratów dla obiektu liniowego w przypadku ogólnym, tj. zakłóceń pomiarowych o rozkładzie normalnym opisanych macierzą kowariancji V. W rozważanym przypadku równanie modelu ma postać: yo = g ( u, θ ) = Uθ a minimalizowany funkcjonał: J ( θ ) = ⎡⎣ y p − Uθ ⎤⎦ V −1 ⎡⎣ y p − Uθ ⎤⎦ Różniczkowanie macierzowe względem θ i przyrównanie do zera (szczegóły w [Soderstrom, Stoica 1997]) prowadzi T do wzoru na estymator: ( θˆ M = UT V −1U ) −1 UT V −1y Ten ogólniejszy od LS estymator jest nazywany w teorii estymacji estymatorem Markowa lub uogólnionym estymatorem LS. Jego macierz kowariancji wynosi ( ) ( ΣM = cov θˆ M = UT V −1U ) −1 podczas gdy klasyczny estymator LS zastosowany w rozważanym przypadku jest co prawda nadal nieobciążony, ale ma większą wariancję, równą ( ) ( ΣLS = cov θˆ LS = UT U ) −1 ( UT VU UT U ) −1 Ponieważ estymator θˆ M został wyprowadzony z zasady największej wiarygodności, to jego macierz kowariancyjna jest najmniejsza możliwa (asymptotycznie) dla estymatora nieobciążonego. Porównanie tej macierzy z ograniczeniem dolnym Cramera-Rao rzeczywiście przekonuje nas o tym, że w przypadku zakłóceń o rozkładzie normalnym i dowolnej macierzy kowariancyjnej estymator Markowa jest efektywny. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów Przykład: Średnia na podstawie wielu pomiarów tej samej wielkości o różnej dokładności Załóżmy, że chcemy się dowiedzieć, która jest godzina, ale nie mamy zegarka. Pytamy napotkanych ludzi o godzinę i wnioskujemy z odpowiedzi o poszukiwanej wielkości. Inaczej mówiąc, zbieramy dane pomiarowe i na ich podstawie estymujemy pewną wielkość. Załóżmy, że odpowiedzi udzieliło nam dziecko z tandetnym plastikowym zegarkiem, zaniedbany człowiek bez zegarka (popatrzył na słońce) i profesor AGH z Omegą na ręce. Uzyskaliśmy następującą informację z przypisaną przez nas wiarygodnością informacji mierzoną odchyleniem standardowym: 11:30 ±15minut (dziecko) 12:00 ±1godzina (zaniedbany) 11:18 ±1minuta (profesor) Zakładając, że odpowiedzi nie są skorelowane, jaka będzie macierz kowariancji zakłóceń pomiaru ? Jaka będzie postać estymatora i wynik estymacji ? Obliczenia przeprowadzimy wspólnie na tablicy. Przykład: Kilka pomiarów o zakłóceniach skorelowanych i różnej wariancji – interpretacja wybielania szumu Interpretacja sposobu obliczeń powyższego estymatora, gdzie każdy pomiar miał skojarzoną wagę reprezentującą istotność informacyjną pomiaru, może być uogólniona dla przypadku zakłóceń skorelowanych. Wtedy mnożenie przez odwrotność macierzy kowariancji daje nie tylko efekt wyrównania poziomu szumu, ale również efekt dekorelacji zakłóceń pomiarów. Efekt jest znany jako wybielanie szumu (ang. noise whitening) i ma swoje odbicie w ważonej postaci kryterium sumy kwadratów reszt dopasowania: J ( θ ) = ⎡⎣ y p − Uθ ⎤⎦ V −1 ⎡⎣ y p − Uθ ⎤⎦ . T Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów PRZYPADEK 3: Zakłócenia pomiaru wyjścia o nieznanych parametrach statystycznych W praktyce rzadko znamy parametry statystyczne zakłóceń przed wykonaniem eksperymentu pomiarowego. Najczęściej szacujemy wariancję zakłóceń na podstawie danych pomiarowych. Parametry zakłócenia są więc dodatkowym elementem wektora parametrów estymowanych jeśli są potrzebne np. do oszacowania wariancji estymat. Dla wyprowadzenia estymatora wariancji największej wiarygodności załóżmy normalny rozkład nieskorelowanych zakłóceń o identycznej nieznanej wariancji, tzn. zakłócenia mają charakter i.i.d. W takim przypadku funkcja wiarygodności po logarytmowaniu ma postać: 2 N N 1 N 2 ⎡ ⎤ − θ ln L = − ln ( 2π ) − ln σ − y t g u , ( ) ( ) ∑ i i ⎦ 2 2 2σ 2 i =1 ⎣ Przyrównanie różniczki względem wariancji do zera doprowadzi nas do poszukiwanego estymatora tej wielkości: ( ) ∂ ln L N 1 =− 2 + 2 ∂σ 2σ 2σ 4 N ∑ ⎡⎣ y ( t ) − g (u, θ )⎤⎦ i =1 i i 2 =0 skąd 2 1 N 1 N 2 ⎡ ⎤ − = y t g u θ , ( ) ( ) ∑ i i ∑ ei ⎦ N i =1 ⎣ N i =1 Estymator wariancji jest więc równy wartości średniokwadratowej reszt dopasowania modelu do pomiarów. σ2 = Dodatkowo estymator wariancji jest niezależny od estymatora parametrów obiektu. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów PRZYPADEK 4: Zakłócenia pomiaru wejścia i wyjścia obiektu liniowego Równie częstym praktycznym problemem jak nieznajomość wariancji zakłóceń jest niedostępność dokładnych wartości sygnału wejściowego, który dotąd zawsze przyjmowaliśmy jako znany dokładnie. Znane są jedynie jego zakłócone wartości zmierzone. Jedno wyjście z tej sytuacji to uznanie wartości zmierzonych za dokładne i stosowanie estymatora klasycznego. Przeanalizujmy problem na przykładzie obiektu liniowego z jednym parametrem opisanego modelem: y o = k ⋅ uo Przyjmijmy, że wartości uo i yo są stałe w czasie trwania N pomiarów. Dostępne pomiarowo sygnały y i u są zakłócone, tj. u = uo + µ , y = y o + ϕ . Załóżmy, że zakłócenia µ,ϕ są wzajemnie nieskorelowane i mają wariancje odpowiednio σ µ2 , σ ϕ2 . Estymator LS parametru k ma w tym prostym skalarnym przypadku postać N kLS = ∑y u i i =1 N ∑u i =1 i 2 i Rozpisując ten wzór z uwzględnieniem zakłóceń otrzymujemy N kLS = ∑(y i =1 o + ϕi )( uo + µi ) N ∑ (u i =1 o + µi ) 2 N = N ∑y u + ∑y i =1 o o i =1 N ∑u i =1 2 o N o N µi + ∑ uoϕi + ∑ µiϕi i =1 i =1 N N i =1 i =1 + 2∑ uo µi + ∑ µi 2 Wraz z rosnącą ilością danych pomiarowych poszczególne sumy iloczynów dążą w granicy do korelacji mnożonych czynników. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów Korzystając z braku korelacji między zakłóceniami i z zerowej wartości oczekiwanej zakłóceń, uzyskujemy graniczną wartość estymatora równą N ∑y u o o y o uo k = N N →∞ 1 σ µ2 2 2 2 2 µ µ u u + + 1+ 2 ∑ ∑ ∑ o i o N i =1 i uo i =1 i =1 Powyższy wynik dowodzi, że w przypadku zakłóconych pomiarów wejścia estymator LS daje wyniki obciążone. lim kLS = i =1 N N = Spróbujmy w takim razie wyprowadzić z zasady największej wiarygodności estymator nieobciążony dla rozważanej sytuacji pomiarowej. Przy przyjętych założeniach funkcja wiarygodności ma postać L = p( y; θ ) = 1 ( 2πσ ϕ 2 σµ2 ) N ⎛ 1⎡ 1 N ⎤⎞ 1 N exp ⎜ − ⎢ 2 ∑ ϕi 2 + 2 ∑ µi 2 ⎥ ⎟ ⎜ 2 ⎢ σϕ i =1 σ µ i =1 ⎥⎦ ⎟⎠ ⎣ ⎝ Maksymalizacja powyższej funkcji gęstości jest równoważna minimalizacji wyrażenia J= 1 N 2 1 N 2 ϕ + µi + λ ( y o − kuo ) ∑ i σ 2∑ σϕ 2 i =1 µ i =1 gdzie λ jest mnożnikiem Lagrange’a (metoda mnożników Lagrange’a służy rozwiązywaniu zadań minimalizacji z ograniczeniami równościowymi). Przyrównanie różniczek względem yo, uo i λ do zera prowadzi do wyrażenia na estymator największej wiarygodności o zmodyfikowanej w stosunku do LS postaci N kML = ∑y i ∑u i i =1 N i =1 Porównanie własności statystycznych obydwu analizowanych tu estymatorów jest tematem jednego z zadań. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów ZADANIA Zadanie 1 Zmodyfikuj program bezpośredniej maksymalizacji funkcji wiarygodności do przypadku dwóch pomiarów inercyjnej odpowiedzi dynamicznej z nieznaną i estymowaną stałą czasową ? Przeanalizuj jak przyjęty model odpowiedzi przekłada się na lokalizację zmaksymalizowanej funkcję wiarygodności. Zadanie 2 Porównaj teoretyczną macierz kowariancji estymat parametrów obiektu liniowego (y=au+b) z estymatora klasycznego LS i estymatora Markowa dla 20 zakłóceń pomiaru wyjścia o znanej macierzy kowariancji (np. połowa pomiarów z większą wariancją). Wyrysuj przebieg odchylenia standardowego estymat parametrów w funkcji dysproporcji odchylenia standardowego pomiarów. Zadanie 3 Porównaj obciążenie i wariancję estymatora LS i estymatora największej wiarygodności w funkcji wariancji zakłóceń dla zakłóconych pomiarów wejścia i wyjścia i modelu liniowego z jednym parametrem. Tym razem analizę przeprowadź metodą eksperymentalną. Przedstaw wyniki w postaci graficznej. Katedra Metrologii AGH Kraków 2006 Komputerowa identyfikacja obiektów LITERATURA Sydenham P.H., Podręcznik Metrologii, WKiŁ Warszawa 1988 (rozdział 8 pt. Estymacja parametru, paragraf 8.3.1) Soderstrom T., Stoica P., Identyfikacja systemów, PWN Warszawa 1997 Katedra Metrologii AGH Kraków 2006