Wstęp do teorii informacji: Wykład 2

Transkrypt

Wstęp do teorii informacji: Wykład 2
I.
MAKSIMUM ENTROPII = MINIMUM
INFORMACJI
Rozpatrzmy funkcję
H(p) = −p log p − (1 − p) log(1 − p)
(1)
reprezentujacą entropię zwiazaną ze zmienną binarną
(typu „tak–nie”), gdzie prawdopodobieństwo zdarzenia
„tak” wynosi p. Jak widać na Rys. 1 entropia ta osiąga maksimum jeżeli odpowiedzi „tak” i „nie” są równie
prawdopodobne. Odpowiada to sytuacji, gdy jedyną informacją przez nas posiadaną jest fakt, iż zmienna losowa przyjmuje dwie wartości (już mniej informacji udzielić
się tu nie da). Tak więc maksimum entropii odpowiada
tu minimum informacji. Problem ten jest matematycznie
równoważny znalezieniu ekstremum funkcji dwóch zmiennych
H(p1 , p2 ) = −p1 log p1 − p2 log p2
(2)
przy dodatkowym ograniczeniu (więzie) p1 + p2 = 1.
Funkcja H(p1 , p2 ) pokazana jest na rysunkach 2 i 3. Funkcję H(p) uzyskamy, gdy wykres trójwymiarowy przekroimy wzdłuż płaszczyzny pionowej przechodzacej przez
prostą p2 = 1 − p1 . Na dalszych rysunkach widać wyraźnie, iż mówiąc o maksimum entropii nie mamy na myśli
po prostu maksimum funkcji H(p1 , p2 ) dwóch zmiennych,
lecz zawsze jest to ekstremum warunkowe gdzie warunkiem jest co najmniej unormowanie prawdopodobieńst do
1, ale mogą też występować jakies dodatkowe ograniczenia.
1
0.75
0.5
0.25
0
1
0.8
0.6
0.4 p2
0.2
0.4
p1
0.2
0.6
0.8
1
Rysunek 2: Funkcja H(p1 , p2 ). Fukcja H(p) powstaje po
przecięciu tej powierzchni płaszczyzną pionową przechodzącą przez przekątną p2 = 1 − p1 .
1
0.8
0.6
0.4
II.
EKSTREMA WARUNKOWE: METODA
MNOŻNIKÓW LAGRANGE’A
0.2
Zagadnienie rozważane w części poprzedniej trzeba teraz uogólnić na entropie zwiazane ze zmiennymi losowymi
0
0
HHpL
1
0.2
0.4
0.6
0.8
1
Rysunek 3: Wykres poziomicowy funkcji H(p1 , p2 ). Widać,
iż maksimum tego wykresu nie przypada wcale w punkcie
(p1 , p2 ) = (1/2, 1/2). Wynika to z faktu, iż więz p1 + p2 = 1
wyznacza płaszczyznę, która nie przechodzi przez najwyższy
punkt powierzchni będącej wykresem H(p1 , p2 ).
0.8
0.6
0.4
o dowolnej liczbie wartości i rozkładach prawdopodobieństwa {p1 , . . . , pN }. Zawsze będziemy mieli do czynienia z
więzem
0.2
0.2
0.4
0.6
0.8
Rysunek 1: Funkcja H(p).
1
p
g1 (p1 , . . . , pN ) =
N
X
a=1
pa − 1 = 0.
(3)
2
Z tego ostatniego warunku znajdujemy
1
0.8
1
p1 = p2 = · · · = pN = 2− ln 2 +λ1 .
0.6
(10)
0.4
0.2
0.2
0.4
0.6
1
0.8
p
Rysunek 4: Dla porównania, wykres funkcji h(p) = H(p, p)
pojawiającej się po przecięciu powierzchni z Rys. 2 płaszczyzną przechodzącą przez prostą p2 = p1 .
Warunek unormowania g1 = 0 implikuje więc pa = 1/N ,
dla a = 1, . . . , N . Pozwala to nam przy okazji wyliczyć
mnożnik Lagrange’a
log
1
1
+
= λ1 .
N
ln 2
(11)
Innym typowym więzem jest
g2 (p1 , . . . , pN ) =
N
X
xa pa − x = 0.
(4)
a=1
Rozpatrzmy teraz funkcję f (p1 , . . . , pN ) i znajdźmy jej
ekstremum pod warunkiem, że spełnione są więzy
g1 (p1 , . . . , pN ) = · · · = gK (p1 , . . . , pN ) = 0.
(5)
Metoda
mnożników
Lagrange’a
(por.
np.
http://www.slimy.com/
steuard/teaching/tutorials/
Lagrange.html) polega na znalezieniu ekstremum (już
bez więzów) funkcji N + K zmiennych, ktorą definiujemy
następująco:
F (p1 , . . . , pN , λ1 , . . . , λK ) = f (p1 , . . . , pN )
+
K
X
(6)
W tym wypadku sam mnożnik nie jest nam do niczego
potrzebny, ale czasami warto go znać. Powyższy przykład pokazuje jasno iż ekstremum entropii pojawia się dla zdarzeń równie prawdopodobnych,
chyba że mamy jakąś dodatkową informację na temat
rozważanych zmiennych losowych, tak jak to jest w przykładzie następnym.
Przykład 2.2: Niech
λj gj (p1 , . . . , pN ).
j=1
Warunkiem koniecznym na istnienie ekstremum jest w
tym wypadku znikanie (N + K)-wymiarowego gradientu
∂F
∂F ∂F
∂F ~
∇F
=
,...,
,
,...,
= 0. (7)
∂p1
∂pN ∂λ1
∂λK
Przykład 2.1: Niech
f (p1 , . . . , pN ) = −
N
X
pa log pa = H(A),
(12)
a=1
g1 (p1 , . . . , pN ) =
N
X
pa − 1,
(13)
N
X
xa pa − x.
(14)
a=1
f (p1 , . . . , pN ) = −
N
X
pa log pa = H(A),
(8)
a=1
g1 (p1 , . . . , pN ) =
N
X
g2 (p1 , . . . , pN ) =
a=1
pa − 1.
(9)
a=1
Szukamy ekstremum funkcji f przy warunku g1 = 0:
F (p1 , . . . , pN , λ1 ) = −
N
X
pa log pa + λ1
a=1
∂F (p1 , . . . , pN , λ1 )
=
∂λ1
N
X
N
X
pa − 1 ,
a=1
pa − 1 = 0,
a=1
∂F (p1 , . . . , pN , λ1 )
1 = − log pa + pa
+ λ1
∂pa
pa ln 2
1
= − log pa −
+ λ1 = 0,
ln 2
Tutaj dodatkowa informacja jest następująca: rozkład
prawdopodobieństwa jest taki, że warość średnia zmiennej losowej X, o wartościach {x1 , . . . , xN }, wynosi
PN
a=1 xa pa = x. Przykład ten jest bardzo charakterystyczny dla fizyki statystycznej, gdzie rolę zmiennej losowej X zazwyczaj pełni energia, a mnożnik Lagrange’s okazuje się być związany z temperaturą. Funkcja
F nazywana jest w termodynamice energią swobodną, a
rozkład prawdopodobieństwa maksymalizujący entropię
przy ustalonej średniej energii nazywamy stanem równowagi termodynamicznej.
3
F (p1 , . . . , pN , λ1 , λ2 ) = −
N
X
pa log pa + λ1
a=1
∂F (p1 , . . . , pN , λ1 , λ2 )
=
∂λ1
N
X
N
X
a=1
N
X
pa − 1 + λ2
xa pa − x ,
a=1
pa − 1 = 0,
a=1
N
X
∂F (p1 , . . . , pN , λ1 , λ2 )
=
xa pa − x = 0,
∂λ2
a=1
∂F (p1 , . . . , pN , λ1 , λ2 )
1
= − log pa −
+ λ1 + λ2 xa = 0,
∂pa
ln 2
1
1
pa = 2− ln 2 +λ1 +λ2 xa = 2− ln 2 +λ1 2λ2 xa , (15)
N
X
1
pa = 2− ln 2 +λ1
a=1
2
N
X
2λ2 xa = 1,
(16)
a=1
− ln12 +λ1
= PN
1
a=1
(17)
2λ2 xa
W efekcie
2λ2 xa
pa = P N
j=1
2λ2 xj
(18)
Pozostaje nam wyliczyć mnoznik λ2 na podstawie drugiego równania więzu,
P
xa 2λ2 xa
x = PaN
(19)
λ2 xj
j=1 2
czyli znaleźć zależność odwrotną λ2 = λ2 (x), po czym
wstawić ją do
2λ2 (x)xa
pa = PN
= pa (x)
λ2 (x)xj
j=1 2
(20)
co w konkretnych przypadkach może nie być banalne. Uwagi: (a) W fizyce zazwyczaj stosuje się logarytmy naturalne, co daje charakterystyczną postać
eλ2 (x)xa
= pa (x).
pa = PN
λ2 (x)xj
j=1 e
(21)
W termodynamice mnożnik Lagrange’s przyjmuje wtedy
postać λ2 = −1/(kT ), gdzie k to stała Bolzmanna, a T
temperatura mierzona w kelwinach.
(b) Często spotykaną zmienną losową X jest po prostu
xa = a, czyli xa jest liczba naturalną. Wtedy mianownik
wystepujący w pa można wysumować korzystając z własności szeregu geometrycznego.
(c) Prawdopodobieństwo pa = 1/N pojawiajace sie w
pierwszym przykładzie jest również postaci, (20)–(21),
jeżeli przyjąć x1 = · · · = xN = 1.
(d) W wielu zagadnieniach wystepują rozkłady prawdopodobieństwa, które nie mają postaci (20)–(21). Naturalnie pojawia się pytanie, czy nie odpowiadają one
„stanom równowagi” w jakimś szerszym sensie. Zagadnieniom tym będzie poświęcony wykład następny.

Wstęp do teorii informacji: Wykład 2

Transkrypt

Podobne dokumenty

Zadanie Dla jakich liczby: 1, log 2 1 , 25 w podanej

Definicja ekstremum lokalnego funkcji jednej zmiennej. Warunek

Kim jesteśmy Oferujemy Państwu Nasze usługi

Sprawozdanie na prawozdanie na „piątkę”

Kurs wyrównawczy (Inżynieria Danych) Lista nr 3. Funkcje

Wzór Taylora dla funkcji wielu zmiennych

Prawdopodobieństwo a informacja

Bezpieczeństwo systemu operacyjnego. Logi

Ekstrema funkcji jednej i wielu zmiennych

Elementy Modelowania Matematycznego

Drzewa AVL i 2-3-4

Drzewa zbalansowane AVL i 2-3-4

mnożniki Lagrange`a

slajdy do wykładu III

( ) 1 , ze G zeea

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i

t - WEMiF

plik PDF

MATEMATYKA

Metody bayesowskie w statystyce.

Optymalne stałe w nierówności typu LlogL dla ciągłych martyngałów

WYKORZYSTANIE ENTROPII SHANNONA I JEJ UOGÓLNIEŃ DO