Wstęp do teorii informacji: Wykład 2
Transkrypt
Wstęp do teorii informacji: Wykład 2
Wstęp do teorii informacji: Wykład 2 I. MAKSIMUM ENTROPII = MINIMUM INFORMACJI Rozpatrzmy funkcję H(p) = −p log p − (1 − p) log(1 − p) (1) reprezentujacą entropię zwiazaną ze zmienną binarną (typu „tak–nie”), gdzie prawdopodobieństwo zdarzenia „tak” wynosi p. Jak widać na Rys. 1 entropia ta osiąga maksimum jeżeli odpowiedzi „tak” i „nie” są równie prawdopodobne. Odpowiada to sytuacji, gdy jedyną informacją przez nas posiadaną jest fakt, iż zmienna losowa przyjmuje dwie wartości (już mniej informacji udzielić się tu nie da). Tak więc maksimum entropii odpowiada tu minimum informacji. Problem ten jest matematycznie równoważny znalezieniu ekstremum funkcji dwóch zmiennych H(p1 , p2 ) = −p1 log p1 − p2 log p2 (2) przy dodatkowym ograniczeniu (więzie) p1 + p2 = 1. Funkcja H(p1 , p2 ) pokazana jest na rysunkach 2 i 3. Funkcję H(p) uzyskamy, gdy wykres trójwymiarowy przekroimy wzdłuż płaszczyzny pionowej przechodzacej przez prostą p2 = 1 − p1 . Na dalszych rysunkach widać wyraźnie, iż mówiąc o maksimum entropii nie mamy na myśli po prostu maksimum funkcji H(p1 , p2 ) dwóch zmiennych, lecz zawsze jest to ekstremum warunkowe gdzie warunkiem jest co najmniej unormowanie prawdopodobieńst do 1, ale mogą też występować jakies dodatkowe ograniczenia. 1 0.75 0.5 0.25 0 1 0.8 0.6 0.4 p2 0.2 0.4 p1 0.2 0.6 0.8 1 Rysunek 2: Funkcja H(p1 , p2 ). Fukcja H(p) powstaje po przecięciu tej powierzchni płaszczyzną pionową przechodzącą przez przekątną p2 = 1 − p1 . 1 0.8 0.6 0.4 II. EKSTREMA WARUNKOWE: METODA MNOŻNIKÓW LAGRANGE’A 0.2 Zagadnienie rozważane w części poprzedniej trzeba teraz uogólnić na entropie zwiazane ze zmiennymi losowymi 0 0 HHpL 1 0.2 0.4 0.6 0.8 1 Rysunek 3: Wykres poziomicowy funkcji H(p1 , p2 ). Widać, iż maksimum tego wykresu nie przypada wcale w punkcie (p1 , p2 ) = (1/2, 1/2). Wynika to z faktu, iż więz p1 + p2 = 1 wyznacza płaszczyznę, która nie przechodzi przez najwyższy punkt powierzchni będącej wykresem H(p1 , p2 ). 0.8 0.6 0.4 o dowolnej liczbie wartości i rozkładach prawdopodobieństwa {p1 , . . . , pN }. Zawsze będziemy mieli do czynienia z więzem 0.2 0.2 0.4 0.6 0.8 Rysunek 1: Funkcja H(p). 1 p g1 (p1 , . . . , pN ) = N X a=1 pa − 1 = 0. (3) 2 Z tego ostatniego warunku znajdujemy 1 0.8 1 p1 = p2 = · · · = pN = 2− ln 2 +λ1 . 0.6 (10) 0.4 0.2 0.2 0.4 0.6 1 0.8 p Rysunek 4: Dla porównania, wykres funkcji h(p) = H(p, p) pojawiającej się po przecięciu powierzchni z Rys. 2 płaszczyzną przechodzącą przez prostą p2 = p1 . Warunek unormowania g1 = 0 implikuje więc pa = 1/N , dla a = 1, . . . , N . Pozwala to nam przy okazji wyliczyć mnożnik Lagrange’a log 1 1 + = λ1 . N ln 2 (11) Innym typowym więzem jest g2 (p1 , . . . , pN ) = N X xa pa − x = 0. (4) a=1 Rozpatrzmy teraz funkcję f (p1 , . . . , pN ) i znajdźmy jej ekstremum pod warunkiem, że spełnione są więzy g1 (p1 , . . . , pN ) = · · · = gK (p1 , . . . , pN ) = 0. (5) Metoda mnożników Lagrange’a (por. np. http://www.slimy.com/ steuard/teaching/tutorials/ Lagrange.html) polega na znalezieniu ekstremum (już bez więzów) funkcji N + K zmiennych, ktorą definiujemy następująco: F (p1 , . . . , pN , λ1 , . . . , λK ) = f (p1 , . . . , pN ) + K X (6) W tym wypadku sam mnożnik nie jest nam do niczego potrzebny, ale czasami warto go znać. Powyższy przykład pokazuje jasno iż ekstremum entropii pojawia się dla zdarzeń równie prawdopodobnych, chyba że mamy jakąś dodatkową informację na temat rozważanych zmiennych losowych, tak jak to jest w przykładzie następnym. Przykład 2.2: Niech λj gj (p1 , . . . , pN ). j=1 Warunkiem koniecznym na istnienie ekstremum jest w tym wypadku znikanie (N + K)-wymiarowego gradientu ∂F ∂F ∂F ∂F ~ ∇F = ,..., , ,..., = 0. (7) ∂p1 ∂pN ∂λ1 ∂λK Przykład 2.1: Niech f (p1 , . . . , pN ) = − N X pa log pa = H(A), (12) a=1 g1 (p1 , . . . , pN ) = N X pa − 1, (13) N X xa pa − x. (14) a=1 f (p1 , . . . , pN ) = − N X pa log pa = H(A), (8) a=1 g1 (p1 , . . . , pN ) = N X g2 (p1 , . . . , pN ) = a=1 pa − 1. (9) a=1 Szukamy ekstremum funkcji f przy warunku g1 = 0: F (p1 , . . . , pN , λ1 ) = − N X pa log pa + λ1 a=1 ∂F (p1 , . . . , pN , λ1 ) = ∂λ1 N X N X pa − 1 , a=1 pa − 1 = 0, a=1 ∂F (p1 , . . . , pN , λ1 ) 1 = − log pa + pa + λ1 ∂pa pa ln 2 1 = − log pa − + λ1 = 0, ln 2 Tutaj dodatkowa informacja jest następująca: rozkład prawdopodobieństwa jest taki, że warość średnia zmiennej losowej X, o wartościach {x1 , . . . , xN }, wynosi PN a=1 xa pa = x. Przykład ten jest bardzo charakterystyczny dla fizyki statystycznej, gdzie rolę zmiennej losowej X zazwyczaj pełni energia, a mnożnik Lagrange’s okazuje się być związany z temperaturą. Funkcja F nazywana jest w termodynamice energią swobodną, a rozkład prawdopodobieństwa maksymalizujący entropię przy ustalonej średniej energii nazywamy stanem równowagi termodynamicznej. 3 F (p1 , . . . , pN , λ1 , λ2 ) = − N X pa log pa + λ1 a=1 ∂F (p1 , . . . , pN , λ1 , λ2 ) = ∂λ1 N X N X a=1 N X pa − 1 + λ2 xa pa − x , a=1 pa − 1 = 0, a=1 N X ∂F (p1 , . . . , pN , λ1 , λ2 ) = xa pa − x = 0, ∂λ2 a=1 ∂F (p1 , . . . , pN , λ1 , λ2 ) 1 = − log pa − + λ1 + λ2 xa = 0, ∂pa ln 2 1 1 pa = 2− ln 2 +λ1 +λ2 xa = 2− ln 2 +λ1 2λ2 xa , (15) N X 1 pa = 2− ln 2 +λ1 a=1 2 N X 2λ2 xa = 1, (16) a=1 − ln12 +λ1 = PN 1 a=1 (17) 2λ2 xa W efekcie 2λ2 xa pa = P N j=1 2λ2 xj (18) Pozostaje nam wyliczyć mnoznik λ2 na podstawie drugiego równania więzu, P xa 2λ2 xa x = PaN (19) λ2 xj j=1 2 czyli znaleźć zależność odwrotną λ2 = λ2 (x), po czym wstawić ją do 2λ2 (x)xa pa = PN = pa (x) λ2 (x)xj j=1 2 (20) co w konkretnych przypadkach może nie być banalne. Uwagi: (a) W fizyce zazwyczaj stosuje się logarytmy naturalne, co daje charakterystyczną postać eλ2 (x)xa = pa (x). pa = PN λ2 (x)xj j=1 e (21) W termodynamice mnożnik Lagrange’s przyjmuje wtedy postać λ2 = −1/(kT ), gdzie k to stała Bolzmanna, a T temperatura mierzona w kelwinach. (b) Często spotykaną zmienną losową X jest po prostu xa = a, czyli xa jest liczba naturalną. Wtedy mianownik wystepujący w pa można wysumować korzystając z własności szeregu geometrycznego. (c) Prawdopodobieństwo pa = 1/N pojawiajace sie w pierwszym przykładzie jest również postaci, (20)–(21), jeżeli przyjąć x1 = · · · = xN = 1. (d) W wielu zagadnieniach wystepują rozkłady prawdopodobieństwa, które nie mają postaci (20)–(21). Naturalnie pojawia się pytanie, czy nie odpowiadają one „stanom równowagi” w jakimś szerszym sensie. Zagadnieniom tym będzie poświęcony wykład następny.