ZAJĘCIA X Zasada największej wiarygodności

Transkrypt

Komputerowa identyfikacja obiektów
ZAJĘCIA X
Zasada największej wiarygodności
• Funkcja wiarygodności
• Estymacja wg zasady maksymalizacji wiarygodności
• Rodzina estymatorów ML
• Przypadki szczególne
Katedra Metrologii AGH
Kraków 2006
WPROWADZENIE
Przyjęcie na początku XIX wieku zasady minimalizacji odległości między odpowiedzią obiektu i modelu mierzonej
jako suma kwadratów odchyłek miało charakter arbitralny. Spierano się wówczas czy lepsza jest zasada
minimalizacji sumy kwadratów czy też sumy modułów odchyłek, ale spory nie były poparte teorią. Gauss zauważył
jednak, że estymator najmniejszej sumy kwadratów maksymalizuje funkcję gęstości prawdopodobieństwa rozkładu
normalnego pomiarów odpowiedzi, tj. dla wartości estymat uzyskanych z użyciem estymatora LS zmierzone
wartości odpowiedzi są najbardziej wiarygodne. Fakt ten znalazł swoje odbicie w teorii estymacji największej
wiarygodności dopiero w początkach dwudziestego wieku za sprawą rozwoju statystyki.
Zasadę wyboru takich wartości estymowanych parametrów, które maksymalizują prawdopodobieństwo
uzyskiwanych pomiarów a posteriori można stosować w różnych sytuacjach pomiarowych. Konkretny algorytm
zależy od postaci modelu identyfikowanego obiektu, modelu zakłóceń, stopnia znajomości parametrów zakłóceń.
Stąd nazwa estymator największej wiarygodności mówi nam tylko o klasie algorytmu a nie o jego konkretnej
postaci.
Przykład: Jaka jest najbardziej prawdopodobna rzeczywista wartość mierzona ?
Mierzymy stałe napięcie zakłócone szumem. Po pierwszym pomiarze chcemy określić wartość tego napięcia.
Naturalny wybór to przyjęcie wprost wartości zmierzonej za estymatę napięcia. Czy takie postępowanie może
prowadzić do systematycznego błędu estymacji (czyli błędu obciążenia) dla specyficznego rozkładu szumu ?
Następnie wykonaliśmy bardzo dużo pomiarów ? Czy średnia z pomiarów jest dobrą estymatą napięcia.
Kraków 2006
FUNKCJA WIARYGODNOŚCI
Przy maksymalizacji prawdopodobieństwa wystąpienia zaobserwowanych wartości odpowiedzi (tzn. ich
wiarygodności) postępować będziemy analogicznie jak przy dopasowaniu odpowiedzi modelu do pomiarów, tyle że
teraz model odpowiedzi będzie miał charakter statystyczny, podany w postaci funkcji gęstości prawdopodobieństwa
wystąpienia określonych wartości odpowiedzi. Najczęściej wartość oczekiwana odpowiedzi będzie równa
niezakłóconej odpowiedzi modelu dynamicznego a rozrzut będzie wynikał z zakłóceń addytywnych (np. szumy
cieplne, szum kwantowania). Dopasowanie będziemy prowadzić przez dobór takich wartości parametrów modelu,
żeby funkcja gęstości prawdopodobieństwa osiągała w punktach pomiarowych wartość maksymalną.
Zapiszmy formalnie zadanie takiego wyboru wartości estymat nieznanych parametrów, żeby zmierzone wartości yp
odpowiedzi obiektu były najbardziej prawdopodobne. Funkcja gęstości prawdopodobieństwa ciągu próbek y1,…, y N
sygnału odpowiedzi na znane pobudzenie ma postać wielowymiarową. Każda z próbek jest zmienną losową a
funkcja gęstości opisuje cały wektor próbek y = [ y1,…, y N ] w sposób łączny. Dodatkowo zakładamy, że wartości
próbek zależą od poszukiwanych parametrów modelu (zależności od sygnału wejściowego nie notujemy dla
utrzymania jasności zapisu). Tak więc funkcja gęstości będzie mieć oznaczenie
L = p ( y; θ )
gdzie y jest wektorem próbek (zmiennych losowych), a θ wektorem estymowanych parametrów. Zapis ze
średnikiem oznacza, że θ nie jest wektorem losowym tylko wektorem parametrów funkcji gęstości. Funkcja ta nosi
nazwę funkcji wiarygodności (ang. likelihood function). Oczywiście jest to ta sama funkcja gęstości
prawdopodobieństwa pomiarów, której używaliśmy na poprzednich zajęciach do wyliczenia macierzy informacyjnej.
Kraków 2006
ZASADA MAKSYMALIZACJI WIARYGODNOŚCI
Estymator maksymalizujący funkcję wiarygodności w punkcie yp (zaobserwowana realizacja wektora próbek):
θˆ = arg max p ( y p ; θ )
θ
jest nazywany estymatorem największej wiarygodności (ang. maximum likelihood, w skrócie ML) i oznaczany
θˆ ML . Oczywiście maksymalizacja może być przeprowadzona tylko przy znajomości postaci funkcji wiarygodności.
Zatem żeby określić estymator największej wiarygodności należy znać, lub założyć na podstawie posiadanej
wiedzy, ogólną postać funkcji wiarygodności zależnej od nieznanych (a estymowanych) parametrów θ.
Maksymalizację można prowadzić metodami iteracyjnego poszukiwania ekstremów funkcji nieliniowych
bezpośrednio na funkcji gęstości, jednak w przypadku pewnych rozkładów zadanie upraszcza się do estymatorów
jednokrokowych (wyrażeń algebraicznych). Zostanie to pokazane w dalszej części wykładu.
Przykład: Bezpośrednia maksymalizacja funkcji wiarygodności dla zakłóceń gaussowskich i dwóch pomiarów
clf
m=5; % rzeczywista wartość współczynnika (stałej)
S=[1 0; 0 1]; % macierz kowariancyjna szumu
y=m+randn(2,1); % pomiar zakłócony szumem gaussowskim
% funkcja wiarygodności (ze znakiem minus: max->min)
L=@(x,y,S) -1/(2*pi*sqrt(det(S)))*exp(-1/2*(y-x)'*inv(S)*(y-x));
mest=fminunc(L, 5,[],y,S) % estymowana wartość współczynnika
plot(m, m, 'bo', y(1), y(2),'r*'); axis([0 10 0 10])
y1v=0:0.1:10; y2v=0:0.1:10;
for k1=1:length(y1v), for k2=1:length(y2v)
V(k1,k2)=-L(mest,[y1v(k1);y2v(k2)],S);
end, end
hold on, contour(y1v,y2v,V,10), grid on
10
8
6
4
2
0
0
2
4
6
8
10
Jak to wygląda na osi czasowej ? Co się zmieni przy pomiarze inercyjnej odpowiedzi dynamicznej ?
Kraków 2006
ESTYMATORY NAJWIĘKSZEJ WIARYGODNOŚCI I ICH WŁASNOŚCI
Popularność estymatorów wynikających z zasady największej wiarygodności wynika z ich korzystnych własności
statystycznych. Jak dowiedziono estymatory te są asymptotycznie (tzn. z rosnącą ilością danych pomiarowych):
• zgodne,
• nieobciążone,
• efektywne.
Dla przypomnienia, ostatnia cecha oznacza, że mają one najmniejszą macierz kowariancyjną ze wszystkich
estymatorów nieobciążonych, równą ograniczeniu Rao-Cramera w postaci odwrotności macierzy informacyjnej.
Z jednej strony zasada największej wiarygodności jest metodą generowania optymalnych estymatorów przy
przyjętych założeniach co do funkcji gęstości prawdopodobieństwa. Z drugiej strony przyjęło się używać nazwy
estymator największej wiarygodności na każdy estymator, które ma wymienione optymalne własności. W tym
przypadku mamy więc do czynienia z odwrotną sytuacją, najpierw określa się estymator, a później wykazuje jego
korzystne własności. Tak więc pojęcie estymator największej wiarygodności jest bardzo ogólne i obejmuje całą
klasę estymatorów o szczególnych własnościach. Jak zobaczymy w następnym punkcie, przyjęcie określonych
założeń co do postaci funkcji wiarygodności skutkuje szczególną postacią estymatora ML.
Kraków 2006
PRZYPADKI SZCZEGÓLNE
PRZYPADEK 1: Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów
1. Model pomiaru
Zastosujmy zasadę największej wiarygodności do przypadku najczęściej stosowanego w praktyce, tj. opisu
zakłóceń pomiaru rozkładem normalnym. Załóżmy, że niezakłócone wyjście identyfikowanego obiektu yo(t) jest
związane ze znanym wejściem obiektu u(t) i parametrami obiektu θ pewną zależnością (dowolną, być może
dynamiczną lub nieliniową ze względu na parametry), co zapiszemy w postaci modelu obiektu identyfikacji:
y o = g ( u, θ )
Zakładamy również, że zakłócenia pomiarowe ε mają charakter addytywny i rozkład normalny o zerowej wartości
oczekiwanej (błąd pomiaru bez składowej systematycznej). Dostępne pomiarowo wyjście obiektu y(t) jest więc
opisane zależnością
y = g ( u, θ ) + ε
Jeśli dokonujemy pomiaru wyjścia obiektu w N różnych chwilach czasowych t1,…, tN , to wynikowy zbiór pomiarów
y ( t i )i =1,…,N , który zapiszemy jako kolumnowy wektor pomiarów y , możemy opisać N-wymiarowym rozkładem
normalnym o wartości oczekiwanej yo (tzn. y o ( t i )i =1,…,N ). Macierz kowariancji wektora pomiarów jest równa
macierzy kowariancji zakłóceń w momentach pomiaru.
Kraków 2006
Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów
2. Funkcja wiarygodności
Dotychczas nie czyniliśmy założeń co do wariancji zakłóceń przy poszczególnych pomiarach ani o zależności
losowej między pomiarami. Przyjmijmy najbardziej ogólne założenie, że te parametry statystyczne zakłóceń są
opisane macierzą kowariancyjną V o znanej wartości. Wielowymiarowy rozkład normalny o wymienionych
parametrach ma funkcję gęstości (funkcję wiarygodności) o postaci:
L = p( y; θ ) =
=
1
( 2π )
N
1
( 2π )
N
T
⎛ 1
⎞
exp ⎜ − [ y − yo ] V −1 [ y − yo ] ⎟
⎝ 2
⎠
V
T
⎛ 1
⎞
exp ⎜ − ⎡⎣ y − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y − g ( u, θ ) ⎤⎦ ⎟
⎝ 2
⎠
V
Przeprowadźmy maksymalizację funkcji wiarygodności w dziedzinie wektora parametrów θ, dla uzyskanych w
wyniku pomiaru wartości yp (pojedynczej realizacji) wektora losowego y. Skorzystamy z faktu, że poszukiwanie
maksimum funkcji o dodatnich wartościach jest równoważne poszukiwaniu maksimum logarytmu naturalnego
funkcji (logarytm jest funkcją monotoniczną), dzięki czemu obliczenia staną się łatwiejsze.
ln L = −
T
N
1
1
ln ( 2π ) − ln ( V ) − ⎡⎣ y p − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y p − g ( u, θ ) ⎤⎦
2
2
2
Kraków 2006
Od zasady największej wiarygodności do zasady najmniejszej sumy kwadratów
3. Maksymalizacja wiarygodności
Ponieważ pierwsze dwa składniki maksymalizowanego wyrażenia nie zależą od estymowanych parametrów, to
ostatecznie maksymalizacja funkcji wiarygodności prowadzi do minimalizacji (zmiana znaku) funkcjonału:
J ( θ ) = ⎡⎣ y p − g ( u, θ ) ⎤⎦ V −1 ⎡⎣ y p − g ( u, θ ) ⎤⎦
Funkcjonał J w szczególnym przypadku diagonalnej macierzy V (zakłócenia nieskorelowane o różnych
T
wariancjach) jest sumą ważonych odwrotnościami wariancji kwadratów różnic między wartościami zmierzonymi a
wynikającymi z modelu dla danej wartości wektora estymowanych parametrów θ. Jeśli macierz V jest macierzą
jednostkową z mnożnikiem σ2 (zakłócenia w poszczególnych pomiarach wzajemnie niezależne i o identycznej
wariancji), to funkcjonał J przybiera postać znanej nam sumy kwadratów odchyłek pomiarów wyjścia obiektu od
wyjścia modelu.
( )
J ( θ ) = ⎡⎣ y p − g ( u, θ ) ⎤⎦ σ 2I
T
−1
2
1 N
⎡⎣ y p − g ( u, θ ) ⎤⎦ = 2 ∑ ⎡⎣ y p ( t i ) − g i ( u, θ ) ⎤⎦
σ
i =1
Tak więc, sformułowanie największej wiarygodności prowadzi w szczególnym przypadku do klasycznego
sformułowania najmniejszej sumy kwadratów. Inaczej mówiąc, estymator LS przy szczególnym modelu zakłóceń
jest estymatorem największej wiarygodności. Otrzymaliśmy również ogólniejsze sformułowanie zadania
najmniejszej sumy kwadratów w postaci ważonej macierzą kowariancji zakłóceń V dla przypadku kiedy zakłócenia
nie mają identycznego rozkładu i/lub są skorelowane.
Kraków 2006
PRZYPADEK 2: Obiekt liniowy z zakłóceniami pomiaru wyjścia o znanych parametrach statystycznych
Wyprowadźmy z zasady największej wiarygodności estymator najmniejszej sumy kwadratów dla obiektu liniowego
w przypadku ogólnym, tj. zakłóceń pomiarowych o rozkładzie normalnym opisanych macierzą kowariancji V. W
rozważanym przypadku równanie modelu ma postać:
yo = g ( u, θ ) = Uθ
a minimalizowany funkcjonał:
J ( θ ) = ⎡⎣ y p − Uθ ⎤⎦ V −1 ⎡⎣ y p − Uθ ⎤⎦
Różniczkowanie macierzowe względem θ i przyrównanie do zera (szczegóły w [Soderstrom, Stoica 1997]) prowadzi
T
do wzoru na estymator:
(
θˆ M = UT V −1U
)
−1
UT V −1y
Ten ogólniejszy od LS estymator jest nazywany w teorii estymacji estymatorem Markowa lub uogólnionym
estymatorem LS. Jego macierz kowariancji wynosi
( ) (
ΣM = cov θˆ M = UT V −1U
)
−1
podczas gdy klasyczny estymator LS zastosowany w rozważanym przypadku jest co prawda nadal nieobciążony,
ale ma większą wariancję, równą
( ) (
ΣLS = cov θˆ LS = UT U
)
−1
(
UT VU UT U
)
−1
Ponieważ estymator θˆ M został wyprowadzony z zasady największej wiarygodności, to jego macierz kowariancyjna
jest najmniejsza możliwa (asymptotycznie) dla estymatora nieobciążonego. Porównanie tej macierzy z
ograniczeniem dolnym Cramera-Rao rzeczywiście przekonuje nas o tym, że w przypadku zakłóceń o rozkładzie
normalnym i dowolnej macierzy kowariancyjnej estymator Markowa jest efektywny.
Kraków 2006
Przykład: Średnia na podstawie wielu pomiarów tej samej wielkości o różnej dokładności
Załóżmy, że chcemy się dowiedzieć, która jest godzina, ale nie mamy zegarka. Pytamy napotkanych ludzi o
godzinę i wnioskujemy z odpowiedzi o poszukiwanej wielkości. Inaczej mówiąc, zbieramy dane pomiarowe i na ich
podstawie estymujemy pewną wielkość.
Załóżmy, że odpowiedzi udzieliło nam dziecko z tandetnym plastikowym zegarkiem, zaniedbany człowiek bez
zegarka (popatrzył na słońce) i profesor AGH z Omegą na ręce. Uzyskaliśmy następującą informację z przypisaną
przez nas wiarygodnością informacji mierzoną odchyleniem standardowym:
11:30 ±15minut (dziecko)
12:00 ±1godzina (zaniedbany)
11:18 ±1minuta (profesor)
Zakładając, że odpowiedzi nie są skorelowane, jaka będzie macierz kowariancji zakłóceń pomiaru ?
Jaka będzie postać estymatora i wynik estymacji ? Obliczenia przeprowadzimy wspólnie na tablicy.
Przykład: Kilka pomiarów o zakłóceniach skorelowanych i różnej wariancji – interpretacja wybielania szumu
Interpretacja sposobu obliczeń powyższego estymatora, gdzie każdy pomiar miał skojarzoną wagę reprezentującą
istotność informacyjną pomiaru, może być uogólniona dla przypadku zakłóceń skorelowanych. Wtedy mnożenie
przez odwrotność macierzy kowariancji daje nie tylko efekt wyrównania poziomu szumu, ale również efekt
dekorelacji zakłóceń pomiarów. Efekt jest znany jako wybielanie szumu (ang. noise whitening) i ma swoje odbicie w
ważonej postaci kryterium sumy kwadratów reszt dopasowania: J ( θ ) = ⎡⎣ y p − Uθ ⎤⎦ V −1 ⎡⎣ y p − Uθ ⎤⎦ .
T
Kraków 2006
PRZYPADEK 3: Zakłócenia pomiaru wyjścia o nieznanych parametrach statystycznych
W praktyce rzadko znamy parametry statystyczne zakłóceń przed wykonaniem eksperymentu pomiarowego.
Najczęściej szacujemy wariancję zakłóceń na podstawie danych pomiarowych. Parametry zakłócenia są więc
dodatkowym elementem wektora parametrów estymowanych jeśli są potrzebne np. do oszacowania wariancji
estymat. Dla wyprowadzenia estymatora wariancji największej wiarygodności załóżmy normalny rozkład
nieskorelowanych zakłóceń o identycznej nieznanej wariancji, tzn. zakłócenia mają charakter i.i.d. W takim
przypadku funkcja wiarygodności po logarytmowaniu ma postać:
2
N
N
1 N
2
⎡
⎤
−
θ
ln L = − ln ( 2π ) − ln σ −
y
t
g
u
,
(
)
(
)
∑
i
i
⎦
2
2
2σ 2 i =1 ⎣
Przyrównanie różniczki względem wariancji do zera doprowadzi nas do poszukiwanego estymatora tej wielkości:
( )
∂ ln L
N
1
=− 2 +
2
∂σ
2σ
2σ 4
N
∑ ⎡⎣ y ( t ) − g (u, θ )⎤⎦
i =1
i
i
2
=0
skąd
2
1 N
1 N 2
⎡
⎤
−
=
y
t
g
u
θ
,
(
)
(
)
∑ i i
∑ ei
⎦
N i =1 ⎣
N i =1
Estymator wariancji jest więc równy wartości średniokwadratowej reszt dopasowania modelu do pomiarów.
σ2 =
Dodatkowo estymator wariancji jest niezależny od estymatora parametrów obiektu.
Kraków 2006
PRZYPADEK 4: Zakłócenia pomiaru wejścia i wyjścia obiektu liniowego
Równie częstym praktycznym problemem jak nieznajomość wariancji zakłóceń jest niedostępność dokładnych
wartości sygnału wejściowego, który dotąd zawsze przyjmowaliśmy jako znany dokładnie. Znane są jedynie jego
zakłócone wartości zmierzone. Jedno wyjście z tej sytuacji to uznanie wartości zmierzonych za dokładne i
stosowanie estymatora klasycznego. Przeanalizujmy problem na przykładzie obiektu liniowego z jednym
parametrem opisanego modelem:
y o = k ⋅ uo
Przyjmijmy, że wartości uo i yo są stałe w czasie trwania N pomiarów. Dostępne pomiarowo sygnały y i u są
zakłócone, tj. u = uo + µ , y = y o + ϕ . Załóżmy, że zakłócenia µ,ϕ są wzajemnie nieskorelowane i mają wariancje
odpowiednio σ µ2 , σ ϕ2 . Estymator LS parametru k ma w tym prostym skalarnym przypadku postać
N
kLS =
∑y u
i
i =1
N
∑u
i =1
i
2
i
Rozpisując ten wzór z uwzględnieniem zakłóceń otrzymujemy
N
kLS =
∑(y
i =1
o
+ ϕi )( uo + µi )
N
∑ (u
i =1
o
+ µi )
2
N
=
N
∑y u + ∑y
i =1
o o
i =1
N
∑u
i =1
2
o
N
o
N
µi + ∑ uoϕi + ∑ µiϕi
i =1
i =1
N
N
i =1
i =1
+ 2∑ uo µi + ∑ µi 2
Wraz z rosnącą ilością danych pomiarowych poszczególne sumy iloczynów dążą w granicy do korelacji mnożonych
czynników.
Kraków 2006
Korzystając z braku korelacji między zakłóceniami i z zerowej wartości oczekiwanej zakłóceń, uzyskujemy
graniczną wartość estymatora równą
N
∑y u
o o
y o uo
k
=
N
N →∞
1
σ µ2
2
2
2
2
µ
µ
u
u
+
+
1+ 2
∑
∑
∑
o
i
o
N i =1 i
uo
i =1
i =1
Powyższy wynik dowodzi, że w przypadku zakłóconych pomiarów wejścia estymator LS daje wyniki obciążone.
lim kLS =
i =1
N
N
=
Spróbujmy w takim razie wyprowadzić z zasady największej wiarygodności estymator nieobciążony dla rozważanej
sytuacji pomiarowej. Przy przyjętych założeniach funkcja wiarygodności ma postać
L = p( y; θ ) =
1
( 2πσ
ϕ
2
σµ2
)
N
⎛ 1⎡ 1 N
⎤⎞
1 N
exp ⎜ − ⎢ 2 ∑ ϕi 2 + 2 ∑ µi 2 ⎥ ⎟
⎜ 2 ⎢ σϕ i =1
σ µ i =1
⎥⎦ ⎟⎠
⎣
⎝
Maksymalizacja powyższej funkcji gęstości jest równoważna minimalizacji wyrażenia
J=
1 N 2
1 N 2
ϕ
+
µi + λ ( y o − kuo )
∑ i σ 2∑
σϕ 2 i =1
µ i =1
gdzie λ jest mnożnikiem Lagrange’a (metoda mnożników Lagrange’a służy rozwiązywaniu zadań minimalizacji z
ograniczeniami równościowymi). Przyrównanie różniczek względem yo, uo i λ do zera prowadzi do wyrażenia na
estymator największej wiarygodności o zmodyfikowanej w stosunku do LS postaci
N
kML =
∑y
i
∑u
i
i =1
N
i =1
Porównanie własności statystycznych obydwu analizowanych tu estymatorów jest tematem jednego z zadań.
Kraków 2006
ZADANIA
Zadanie 1
Zmodyfikuj program bezpośredniej maksymalizacji funkcji wiarygodności do przypadku dwóch pomiarów inercyjnej
odpowiedzi dynamicznej z nieznaną i estymowaną stałą czasową ? Przeanalizuj jak przyjęty model odpowiedzi
przekłada się na lokalizację zmaksymalizowanej funkcję wiarygodności.
Zadanie 2
Porównaj teoretyczną macierz kowariancji estymat parametrów obiektu liniowego (y=au+b) z estymatora
klasycznego LS i estymatora Markowa dla 20 zakłóceń pomiaru wyjścia o znanej macierzy kowariancji (np. połowa
pomiarów z większą wariancją). Wyrysuj przebieg odchylenia standardowego estymat parametrów w funkcji
dysproporcji odchylenia standardowego pomiarów.
Zadanie 3
Porównaj obciążenie i wariancję estymatora LS i estymatora największej wiarygodności w funkcji wariancji zakłóceń
dla zakłóconych pomiarów wejścia i wyjścia i modelu liniowego z jednym parametrem. Tym razem analizę
przeprowadź metodą eksperymentalną. Przedstaw wyniki w postaci graficznej.
Kraków 2006
LITERATURA
Sydenham P.H., Podręcznik Metrologii, WKiŁ Warszawa 1988 (rozdział 8 pt. Estymacja parametru, paragraf 8.3.1)
Soderstrom T., Stoica P., Identyfikacja systemów, PWN Warszawa 1997
Kraków 2006

ZAJĘCIA X Zasada największej wiarygodności

Transkrypt

Podobne dokumenty

Metody systemowe i decyzyjne w informatyce

wariancja matematyka

Wygrana w turnieju w branży- z innymi firmami podczas

Asymptotyczna normalnośc i asymptotyczna efektywność

Popularność internetowych serwisów ogłoszeniowych

Agenda - BIG-u

Statystyki i estymatory Estymator wartości oczekiwanej

Warszawa, 30 sierpnia 2011 r. BACKGROUNDER Etapy

Gazeta Finansowa - Creditreform Polska Sp. z oo

dobre praktyki