Wstęp do teorii informacji: Wykład 4
Transkrypt
Wstęp do teorii informacji: Wykład 4
Wstęp do teorii informacji: Wykład 4 I. UZYSKIWANIE INFORMACJI B. Rozpatrzmy zmienną losową A o wartościach a należących do zbioru {a1 , . . . , aN }. Załóżmy, iż zdarzenie a zachodzi z prawdopodobieństwem p(a). Załóżmy następnie, iż po pomiarze zmiennej losowej B znajdujemy wynik b, co zmienia prawdopodobieństwo zdarzenia a z p(a) na prawdopodobieństwo warunkowe p(a|b). Przed pomiarem zmiennej B obserwacja zdarzenia a dałaby nam I(a) = − log p(a) bitów informacji. Jeżeli wpierw zmierzyliśmy B, to późniejsza obserwacja a dałaby nam I(a|b) = − log p(a|b) bitów. Oznacza to, że pomiar zmiennej losowej B dostarczył nam log 1 p(a|b) 1 − log = log p(a) p(a|b) p(a) (1) bitów informacji na temat zmiennej losowej A. Jeżeli zmienne A i B sa niezależne, to p(a|b) = p(a) i mierząc B uzyskujemy p(a|b) = log 1 = 0 log p(a) Entropia warunkowa Definicja 4.3: Entropią warunkową nazywamy wielkość ∑ ∑ H(A|B) = − p(b) p(a|b) log p(a|b) (5) ∑ = b = − a b p(b)H(A|B = b) ∑ (6) p(a|b)p(b) log p(a|b) (7) p(a, b) log p(a|b). (8) a,b = − ∑ a,b Wielkość H(A|B = b) jest entropią warunkowego rozkładu prawdopodobieństwa p(a|b), przy ustalonym b. Twierdzenie 4.1 (Reguła łańcuchowa): H(A, B) = H(A) + H(B|A) (9) Dowód : (2) H(A, B) = − ∑ p(a, b) log p(a, b) a,b informacji na temat A. Średni przyrost informacji na temat zmiennej losowej A, uzyskany na skutek znalezienia wartości b zmiennej losowej B wynosi zatem H(A||b) = ∑ p(a|b) log a p(a|b) . p(a) (3) = − ∑ a,b = − ∑ p(a, b) log p(b|a)p(a) ( ) p(a, b) log p(b|a) + log p(a) a,b = − ∑ p(a, b) log p(b|a) − a,b Definicja 4.1: Wielkość H(A||b) nazywać będziemy zyskiem informacji w sensie Shannona. II. ENTROPIA ŁĄCZNA I WARUNKOWA p(a, b) log p(a) a,b (10) ∑ Ponieważ b p(a, b) = p(a), z ostatniej równości (10) znajdujemy ∑ ∑ H(A, B) = − p(a, b) log p(b|a) − p(a) log p(a) a a,b Pojęciami zbliżonymi do H(A||b) są entropia łączna i entropia warunkowa. ∑ = H(B|A) + H(A) (11) co należało pokazać. A. Uwagi: (a) W ogólności H(A|B) ̸= H(B|A). (b) Natomiast zachodzi H(A) − H(A|B) = H(B) − H(B|A), co zaraz wykorzystamy. Entropia łączna Rozpatrzmy dwie zmienne losowe A i B, oraz zmienną losową polegającą na ich koniunkcji. Niech prawdopodobieństwo znalezienia A = a i B = b wynosi p(a, b). Definicja 4.2: Entropią łączną nazywamy H(A, B) = − ∑ a,b p(a, b) log p(a, b). III. INFORMACJA WZAJEMNA Definicja 4.4: Informacją wzajemną nazywamy wielkość (4) I(A; B) = ∑ a,b p(a, b) log p(a, b) p(a)p(b) (12) 2 Twierdzenie 4.2 (Informacja wzajemna a entropia): I(A; B) = H(A) − H(A|B) (13) Uwaga: Dla nas najważniejszymi przykładami funkcji ściśle wypukłych na półprostej ]0, ∞[ są f (x) = log(1/x) = − log x oraz f (x) = x log x. Jeżeli f jest wypukła, to −f jest wklęsła. Dowód : I(A; B) = ∑ p(a, b) log a,b ∑ p(a, b) p(a)p(b) Twierdzenie 4.3 (Nierówność Jensena): (a) Jeżeli {p1 , . . . , pN } są prawdopodobieństwami i f jest wklęsła, to ( ∑N ) ∑N (18) a=1 pa f (xa ) ¬ f a=1 pa xa . p(a|b)p(b) p(a)p(b) a,b ∑ ∑ p(a, b) log p(a) + p(a, b) log p(a|b) = − = p(a, b) log a,b = − ∑ p(a) log p(a) − a ( a,b − ∑ ) p(a, b) log p(a|b) a,b = H(A) − H(A|B), co mielismy pokazać. Uwaga: Z definicji widać natychmiast, iż I(A; B) = I(B; A), skąd H(A) − H(A|B) = H(B) − H(B|A). IV. ENTROPIA WZGLĘDNA Wiele z powyższych wzorów zawierało człony posta∑ ci a pa log(pa /qa ), gdzie pa i qa były prawdopodobieństwami. Struktura ta jest tak charakterystyczna, iż opłaca się ją wyróżnić poprzez nadanie osobnej nazwy. Definicja 4.5: Entropią względną (inaczej zwaną odległością Kullbacka-Lieblera pomiędzy rozkładami prawdopodobieństwa p i q) nazywamy wyrażenie D(p||q) = ∑ a Jeżeli równość w (16) i (17) zachodzi jedynie dla λ = 0 lub λ = 1, to mówimy o funkcjach ściśle wypukłych i ściśle wklęsłych. p(a) p(a) log . q(a) (b) Jeżeli ponadto f jest ściśle wklęsła oraz ( ∑N ) ∑N a=1 pa f (xa ) = f a=1 pa xa . (19) dla jakiegoś rozkładu prawdopodobieństwa {p1 , . . . , pN }, pk > 0 dla k = 1 . . . N , to x1 = · · · = xN . Dowód : (a) Dla N = 2 wynika to wprost z definicji wklęsłości i faktu, że dla prawdopodobieństw zachodzi p1 = 1 − p2 . Dla dowolnego N dowód przeprowadzimy indukcyjnie. Załóżmy więc, że twierdzenie jest prawdziwe dla N − 1, czyli dla dowolnego rozkładu prawdopodobieństwa {q1 , . . . , qN −1 } prawdziwa jest nierówność ( ∑N −1 ) ∑N −1 (20) a=1 qa f (xa ) ¬ f a=1 qa xa . Wtedy N ∑ pa f (xa ) = a=1 N −1 ∑ pa f (xa ) + pN f (xN ) a=1 = (1 − pN ) N −1 ∑ pa f (xa ) + pN f (xN ) 1 − pN a=1 (14) = (1 − pN ) N −1 ∑ qa f (xa ) + pN f (xN ) a=1 Uwagi: (a) Później pokażemy, iż D(p||q) 0, oraz D(p||q) = 0 wtedy i tylko wtedy, gdy p = q. (b) Informacja wzajemna opisuje odległość Kullbacka-Lieblera pomiędzy rozkładami prawdopodobieństwa p(a, b) oraz p(a)p(b), co można zapisać jako I(A; B) = D(pAB ||pA pB ). (15) gdzie qa = pa /(1 − pN ), a = 1, . . . , N − 1. Liczby qa też są prawdopodobieństwami, gdyż pa pa qa = = ∑N −1 . (21) 1 − pN b=1 pb Stąd na mocy założenia indukcyjnego N ∑ pa f (xa ) = (1 − pN ) a=1 V. N −1 ∑ FUNKCJE WYPUKŁE I WKLĘSŁE ¬ (1 − pN )f Definicja 4.6: Funkcja f jest wypukła na odcinku ]a, b[ jeżeli dla wszystkich x1 , x2 ∈]a, b[ oraz 0 ¬ λ ¬ 1 zachodzi nierówność ( ) f (1 − λ)x1 + λx2 ¬ (1 − λ)f (x1 ) + λf (x2 ). (16) −1 ( N∑ ) qa xa + pN f (xN ) a=1 ( ¬ f (1 − pN ) N −1 ∑ ) qa xa + pN xN a=1 = f Funkcja f jest wklęsła na odcinku ]a, b[ jeżeli dla wszystkich x1 , x2 ∈]a, b[ oraz 0 ¬ λ ¬ 1 zachodzi nierówność ( ) f (1 − λ)x1 + λx2 (1 − λ)f (x1 ) + λf (x2 ). (17) qa f (xa ) + pN f (xN ) a=1 −1 ( N∑ ) pa xa + pN xN a=1 = f N (∑ a=1 ) pa xa 3 co kończy dowód części (a) twierdzenia. (b) Załóżmy teraz, że mamy rozkład prawdopodobieństwa {p1 , . . . , pN }, w którym wszystkie prawdopodobieństwa są niezerowe, oraz N ∑ pa f (xa ) = f N (∑ a=1 ) pa xa . (22) a=1 Ograniczmy nasz dowód do funkcji f dwukrotnie różniczkowalnych, dla których ścisła wklęsłość oznacza f ′′ (x) < 0 dla każdego x z dziedziny f (w zastosowaniach najczęściej f (x) = log x, która spełnia to założenie). Przepiszmy (22) jako f N (∑ ) pa xa = f −1 ( N∑ a=1 ) pa xa + pN xN −1 ( N∑ pa xa + xN − xN a=1 N −1 ∑ Uwaga: Natychmiastową konsekwencją nierówności Jensena jest nierówność ( ∑N ) ∑N (27) a=1 pa log xa ¬ log a=1 pa xa . Twierdzenie 4.4 (Nierówność informacyjna): Niech {p1 , . . . , pN } oraz {q1 , . . . , qN } będą dowolnymi rozkładami prawdopodobieństwa. (a) Wtedy D(p||q) 0. (b) Rowność w (28) jest możliwa wtedy i tylko wtedy gdy oba rozkłady prawdopodobieństwa są identyczne. ) pa N −1 ( ) ∑ = f xN + pa (xa − xN ) = a=1 = (23) a=1 = N −1 ∑ ¬ pa f (xa ) + pN f (xN ) a=1 = N −1 ∑ pa f (xa ) + f (xN ) − f (xN ) a=1 N −1 ∑ = = f (xN ) + ( pa log a∈A pa a=1 N −1 ∑ N ∑ pa qa a=1 ∑ pa − pa log qa a∈A ∑ qa pa log pa a∈A (∑ q ) a log pa pa a∈A (∑ ) qa log −D(p||q) = − a=1 N −1 ( ) ∑ = f xN + pa ∆xa (28) Dowód : (a) Niech A będzie zbiorem tych indeksów a dla których pa = ̸ 0. Ponieważ 0 log 0 = 0, więc a=1 = f więc ∆xk = 0 dla każdego k = 1, . . . , N − 1, czyli x1 = · · · = xN −1 = xN . ¬ log ) N (∑ pa f (xa ) − f (xN ) . (24) ) qa = log 1 = 0 (29) a=1 a=1 co kończy dowód części (a). Jeżeli rozkłady są identyczne, to log(pa /qa ) = 0 i D(p||q) = 0. Załóżmy teraz, że Zbierając razem (23) i (24) mamy D(p||q) = 0. Wtedy N −1 N −1 (∑ q ) ( ) ( ) ∑ ∑ ∑ qa a 0= pa log ¬ log pa ¬0 (30) f xN + pa ∆xa = f (xN ) + pa f (xa ) − f (xN ) pa pa a=1 a∈A a=1 . (25) ( ∆xk f ′ xN + N −1 ∑ ) pa ∆xa więc ∑ Zróżniczkujmy (25) obustronnie po pk : pa log a∈A = f (xk ) − f (xN ). a∈A (26) 1= ∑ a∈A N −1 ( ) ∑ pa ∆xa ̸= 0, f ′′ xN + pa ∑ qa = qa = 1. pa (32) a∈A Ponieważ a=1 Ponieważ f jest ściśle wklęsła, (31) a∈A ∑ Różniczkując jeszcze raz po pk , znajdujemy N −1 ( ) ∑ pa ∆xa = 0. (∆xk )2 f ′′ xN + (∑ q ) qa a = log pa = 0, pa pa co implikuje a=1 a=1 a∈A qa = N ∑ a=1 qa − ∑ a∈A / qa = 1 − ∑ qa , (33) a∈A / ∑ musi zachodzić a∈A / qa = 0, co jest możliwe tylko wtedy gdy qa = 0 dla a ∈ / A. Tak więc jeżeli a ∈ / A, to 4 pa = qa = 0. Równość (31), na mocy Twierdzenia 4.3(b), implikuje qa /pa = x dla każdego a ∈ A i dla pewnego x. Oznacza qa = xpa (teraz już dla każdego a!) oraz ∑ to, że ∑ 1 = a qa = x a pa = x, co kończy dowód. przy czym Twierdzenie 4.5 (Nierówność „log–suma”): Jeżeli aj 0, bj > 0, j = 1, . . . , N , to wtedy i tylko wtedy gdy A i B są niezależne. N ∑ ∑N ∑ ak aj aj log ∑k=1 . N bj l=1 bl j=1 N aj log j=1 (34) Dowód : Oznaczmy f (x) = x log x oraz bj pj = ∑N l=1 bl . (35) I(A; B) = 0 (39) Dowód : I(A; B) = D(pAB ||pA pB ) 0. (40) I(A; B) = D(pAB ||pA pB ) = 0 wtedy i tylko wtedy gdy pAB = pA pB , a więc zdarzenia są niezależne. Pokażemy teraz, że entropia jest zawsze ograniczona od góry przez log N , czyli entropię rozkładu jednostajnego q1 = · · · = qN = 1/N. Wypukłość f implikuje N ∑ pa f (xa ) f N (∑ a=1 ) pa xa , (36) Wniosek 4.2 a=1 H(A) = − a co za tym idzie N ∑ j=1 pj f (a ) j bj = N ∑ pa log pa ¬ log N (41) a=1 pj j=1 aj aj log bj bj N ∑ 1 = ∑N l=1 bj j=1 f N ∑ N (∑ pj j=1 aj log Dowód : 0 ¬ D(p||q) = aj bj a = aj ) bj ∑ pa log(pa /qa ) ( ) pa log pa − log qa a = ( ∑N a ) k=1 k ∑N l=1 bl ∑N ∑N ak ′ ak ′ = ∑kN=1 log ∑k=1 . N l′ =1 bl′ l=1 bl ∑N l=1 bl ∑ pa log pa + a ∑ pa log N a = −H(A) + log N. = f Po obustronnym pomnożeniu przez szukaną nierówność. ∑ (42) co mieliśmy pokazać. (37) Wniosek 4.3 (Uwarunkowanie zmniejsza entropię) H(A|B) ¬ H(A) uzyskujemy (43) przy czym równość zachodzi jedynie dla zmiennych niezależnych. VI. KILKA WNIOSKÓW Z NIERÓWNOŚCI Dowód : Wniosek 4.1 (Nieujemność informacji wzajemnej ): Dla dowolnych zmiennych losowych A i B zachodzi I(A; B) 0 (38) 0 ¬ I(A; B) = H(A) − H(A|B). I(A; B) = 0 tylko dla zmiennych niezależnych. (44)