Wstęp do teorii informacji: Wykład 4

Transkrypt

Wstęp do teorii informacji: Wykład 4
Wstęp do teorii informacji: Wykład 4
I.
UZYSKIWANIE INFORMACJI
B.
Rozpatrzmy zmienną losową A o wartościach a należących do zbioru {a1 , . . . , aN }. Załóżmy, iż zdarzenie
a zachodzi z prawdopodobieństwem p(a). Załóżmy następnie, iż po pomiarze zmiennej losowej B znajdujemy
wynik b, co zmienia prawdopodobieństwo zdarzenia a z
p(a) na prawdopodobieństwo warunkowe p(a|b). Przed
pomiarem zmiennej B obserwacja zdarzenia a dałaby
nam I(a) = − log p(a) bitów informacji. Jeżeli wpierw
zmierzyliśmy B, to późniejsza obserwacja a dałaby nam
I(a|b) = − log p(a|b) bitów. Oznacza to, że pomiar zmiennej losowej B dostarczył nam
log
1
p(a|b)
1
− log
= log
p(a)
p(a|b)
p(a)
(1)
bitów informacji na temat zmiennej losowej A. Jeżeli
zmienne A i B sa niezależne, to p(a|b) = p(a) i mierząc
B uzyskujemy
p(a|b)
= log 1 = 0
log
p(a)
Entropia warunkowa
Definicja 4.3: Entropią warunkową nazywamy wielkość
∑
∑
H(A|B) = −
p(b)
p(a|b) log p(a|b)
(5)
∑
=
b
= −
a
b
p(b)H(A|B = b)
∑
(6)
p(a|b)p(b) log p(a|b)
(7)
p(a, b) log p(a|b).
(8)
a,b
= −
∑
a,b
Wielkość H(A|B = b) jest entropią warunkowego rozkładu prawdopodobieństwa p(a|b), przy ustalonym b.
Twierdzenie 4.1 (Reguła łańcuchowa):
H(A, B) = H(A) + H(B|A)
(9)
Dowód :
(2)
H(A, B) = −
∑
p(a, b) log p(a, b)
a,b
informacji na temat A. Średni przyrost informacji na temat zmiennej losowej A, uzyskany na skutek znalezienia
wartości b zmiennej losowej B wynosi zatem
H(A||b) =
∑
p(a|b) log
a
p(a|b)
.
p(a)
(3)
= −
∑
a,b
= −
∑
p(a, b) log p(b|a)p(a)
(
)
p(a, b) log p(b|a) + log p(a)
a,b
= −
∑
p(a, b) log p(b|a) −
a,b
Definicja 4.1: Wielkość H(A||b) nazywać będziemy zyskiem informacji w sensie Shannona.
II.
ENTROPIA ŁĄCZNA I WARUNKOWA
p(a, b) log p(a)
a,b
(10)
∑
Ponieważ
b p(a, b) = p(a), z ostatniej równości (10)
znajdujemy
∑
∑
H(A, B) = −
p(a, b) log p(b|a) −
p(a) log p(a)
a
a,b
Pojęciami zbliżonymi do H(A||b) są entropia łączna i
entropia warunkowa.
∑
= H(B|A) + H(A)
(11)
co należało pokazać. A.
Uwagi: (a) W ogólności H(A|B) ̸= H(B|A). (b) Natomiast zachodzi H(A) − H(A|B) = H(B) − H(B|A), co
zaraz wykorzystamy.
Entropia łączna
Rozpatrzmy dwie zmienne losowe A i B, oraz zmienną
losową polegającą na ich koniunkcji. Niech prawdopodobieństwo znalezienia A = a i B = b wynosi p(a, b).
Definicja 4.2: Entropią łączną nazywamy
H(A, B) = −
∑
a,b
p(a, b) log p(a, b).
III.
INFORMACJA WZAJEMNA
Definicja 4.4: Informacją wzajemną nazywamy wielkość
(4)
I(A; B) =
∑
a,b
p(a, b) log
p(a, b)
p(a)p(b)
(12)
2
Twierdzenie 4.2 (Informacja wzajemna a entropia):
I(A; B) = H(A) − H(A|B)
(13)
Uwaga: Dla nas najważniejszymi przykładami funkcji ściśle wypukłych na półprostej ]0, ∞[ są f (x) =
log(1/x) = − log x oraz f (x) = x log x. Jeżeli f jest wypukła, to −f jest wklęsła.
Dowód :
I(A; B) =
∑
p(a, b) log
a,b
∑
p(a, b)
p(a)p(b)
Twierdzenie 4.3 (Nierówność Jensena): (a) Jeżeli
{p1 , . . . , pN } są prawdopodobieństwami i f jest wklęsła,
to
( ∑N
)
∑N
(18)
a=1 pa f (xa ) ¬ f
a=1 pa xa .
p(a|b)p(b)
p(a)p(b)
a,b
∑
∑
p(a, b) log p(a) +
p(a, b) log p(a|b)
= −
=
p(a, b) log
a,b
= −
∑
p(a) log p(a) −
a
(
a,b
−
∑
)
p(a, b) log p(a|b)
a,b
= H(A) − H(A|B),
co mielismy pokazać. Uwaga: Z definicji widać natychmiast, iż I(A; B) =
I(B; A), skąd H(A) − H(A|B) = H(B) − H(B|A).
IV.
ENTROPIA WZGLĘDNA
Wiele
z powyższych wzorów zawierało człony posta∑
ci a pa log(pa /qa ), gdzie pa i qa były prawdopodobieństwami. Struktura ta jest tak charakterystyczna, iż opłaca się ją wyróżnić poprzez nadanie osobnej nazwy.
Definicja 4.5: Entropią względną (inaczej zwaną odległością Kullbacka-Lieblera pomiędzy rozkładami prawdopodobieństwa p i q) nazywamy wyrażenie
D(p||q) =
∑
a
Jeżeli równość w (16) i (17) zachodzi jedynie dla λ = 0
lub λ = 1, to mówimy o funkcjach ściśle wypukłych i
ściśle wklęsłych.
p(a)
p(a) log
.
q(a)
(b) Jeżeli ponadto f jest ściśle wklęsła oraz
( ∑N
)
∑N
a=1 pa f (xa ) = f
a=1 pa xa .
(19)
dla jakiegoś rozkładu prawdopodobieństwa {p1 , . . . , pN },
pk > 0 dla k = 1 . . . N , to x1 = · · · = xN .
Dowód : (a) Dla N = 2 wynika to wprost z definicji
wklęsłości i faktu, że dla prawdopodobieństw zachodzi
p1 = 1 − p2 . Dla dowolnego N dowód przeprowadzimy
indukcyjnie. Załóżmy więc, że twierdzenie jest prawdziwe dla N − 1, czyli dla dowolnego rozkładu prawdopodobieństwa {q1 , . . . , qN −1 } prawdziwa jest nierówność
( ∑N −1
)
∑N −1
(20)
a=1 qa f (xa ) ¬ f
a=1 qa xa .
Wtedy
N
∑
pa f (xa ) =
a=1
N
−1
∑
pa f (xa ) + pN f (xN )
a=1
= (1 − pN )
N
−1
∑
pa
f (xa ) + pN f (xN )
1 − pN
a=1
(14)
= (1 − pN )
N
−1
∑
qa f (xa ) + pN f (xN )
a=1
Uwagi: (a) Później pokażemy, iż D(p||q) ­ 0, oraz
D(p||q) = 0 wtedy i tylko wtedy, gdy p = q. (b) Informacja wzajemna opisuje odległość Kullbacka-Lieblera
pomiędzy rozkładami prawdopodobieństwa p(a, b) oraz
p(a)p(b), co można zapisać jako
I(A; B) = D(pAB ||pA pB ).
(15)
gdzie qa = pa /(1 − pN ), a = 1, . . . , N − 1. Liczby qa też
są prawdopodobieństwami, gdyż
pa
pa
qa =
= ∑N −1 .
(21)
1 − pN
b=1 pb
Stąd na mocy założenia indukcyjnego
N
∑
pa f (xa ) = (1 − pN )
a=1
V.
N
−1
∑
FUNKCJE WYPUKŁE I WKLĘSŁE
¬ (1 − pN )f
Definicja 4.6: Funkcja f jest wypukła na odcinku ]a, b[
jeżeli dla wszystkich x1 , x2 ∈]a, b[ oraz 0 ¬ λ ¬ 1 zachodzi nierówność
(
)
f (1 − λ)x1 + λx2 ¬ (1 − λ)f (x1 ) + λf (x2 ). (16)
−1
( N∑
)
qa xa + pN f (xN )
a=1
(
¬ f (1 − pN )
N
−1
∑
)
qa xa + pN xN
a=1
= f
Funkcja f jest wklęsła na odcinku ]a, b[ jeżeli dla wszystkich x1 , x2 ∈]a, b[ oraz 0 ¬ λ ¬ 1 zachodzi nierówność
(
)
f (1 − λ)x1 + λx2 ­ (1 − λ)f (x1 ) + λf (x2 ). (17)
qa f (xa ) + pN f (xN )
a=1
−1
( N∑
)
pa xa + pN xN
a=1
= f
N
(∑
a=1
)
pa xa
3
co kończy dowód części (a) twierdzenia.
(b) Załóżmy teraz, że mamy rozkład prawdopodobieństwa {p1 , . . . , pN }, w którym wszystkie prawdopodobieństwa są niezerowe, oraz
N
∑
pa f (xa ) = f
N
(∑
a=1
)
pa xa .
(22)
a=1
Ograniczmy nasz dowód do funkcji f dwukrotnie różniczkowalnych, dla których ścisła wklęsłość oznacza f ′′ (x) <
0 dla każdego x z dziedziny f (w zastosowaniach najczęściej f (x) = log x, która spełnia to założenie). Przepiszmy (22) jako
f
N
(∑
)
pa xa
= f
−1
( N∑
a=1
)
pa xa + pN xN
−1
( N∑
pa xa + xN − xN
a=1
N
−1
∑
Uwaga: Natychmiastową konsekwencją nierówności Jensena jest nierówność
( ∑N
)
∑N
(27)
a=1 pa log xa ¬ log
a=1 pa xa .
Twierdzenie 4.4 (Nierówność informacyjna): Niech
{p1 , . . . , pN } oraz {q1 , . . . , qN } będą dowolnymi rozkładami prawdopodobieństwa. (a) Wtedy
D(p||q) ­ 0.
(b) Rowność w (28) jest możliwa wtedy i tylko wtedy gdy
oba rozkłady prawdopodobieństwa są identyczne.
)
pa
N
−1
(
)
∑
= f xN +
pa (xa − xN )
=
a=1
=
(23)
a=1
=
N
−1
∑
¬
pa f (xa ) + pN f (xN )
a=1
=
N
−1
∑
pa f (xa ) + f (xN ) − f (xN )
a=1
N
−1
∑
=
= f (xN ) +
(
pa log
a∈A
pa
a=1
N
−1
∑
N
∑
pa
qa
a=1
∑
pa
−
pa log
qa
a∈A
∑
qa
pa log
pa
a∈A
(∑ q )
a
log
pa
pa
a∈A
(∑ )
qa
log
−D(p||q) = −
a=1
N
−1
(
)
∑
= f xN +
pa ∆xa
(28)
Dowód : (a) Niech A będzie zbiorem tych indeksów a dla
których pa =
̸ 0. Ponieważ 0 log 0 = 0, więc
a=1
= f
więc ∆xk = 0 dla każdego k = 1, . . . , N − 1, czyli x1 =
· · · = xN −1 = xN . ¬ log
)
N
(∑
pa f (xa ) − f (xN ) . (24)
)
qa = log 1 = 0
(29)
a=1
a=1
co kończy dowód części (a). Jeżeli rozkłady są identyczne, to log(pa /qa ) = 0 i D(p||q) = 0. Załóżmy teraz, że
Zbierając razem (23) i (24) mamy
D(p||q) = 0. Wtedy
N
−1
N
−1
(∑ q )
(
)
(
)
∑
∑
∑
qa
a
0=
pa log
¬ log
pa
¬0
(30)
f xN +
pa ∆xa = f (xN ) +
pa f (xa ) − f (xN )
pa
pa
a=1
a∈A
a=1
.
(25)
(
∆xk f ′ xN +
N
−1
∑
)
pa ∆xa
więc
∑
Zróżniczkujmy (25) obustronnie po pk :
pa log
a∈A
= f (xk ) − f (xN ).
a∈A
(26)
1=
∑
a∈A
N
−1
(
)
∑
pa ∆xa ̸= 0,
f ′′ xN +
pa
∑
qa
=
qa = 1.
pa
(32)
a∈A
Ponieważ
a=1
Ponieważ f jest ściśle wklęsła,
(31)
a∈A
∑
Różniczkując jeszcze raz po pk , znajdujemy
N
−1
(
)
∑
pa ∆xa = 0.
(∆xk )2 f ′′ xN +
(∑ q )
qa
a
= log
pa
= 0,
pa
pa
co implikuje
a=1
a=1
a∈A
qa =
N
∑
a=1
qa −
∑
a∈A
/
qa = 1 −
∑
qa ,
(33)
a∈A
/
∑
musi zachodzić a∈A
/ qa = 0, co jest możliwe tylko wtedy gdy qa = 0 dla a ∈
/ A. Tak więc jeżeli a ∈
/ A, to
4
pa = qa = 0. Równość (31), na mocy Twierdzenia 4.3(b),
implikuje qa /pa = x dla każdego a ∈ A i dla pewnego x.
Oznacza
qa = xpa (teraz już dla każdego a!) oraz
∑ to, że ∑
1 = a qa = x a pa = x, co kończy dowód. przy czym
Twierdzenie 4.5 (Nierówność „log–suma”): Jeżeli aj ­
0, bj > 0, j = 1, . . . , N , to
wtedy i tylko wtedy gdy A i B są niezależne.
N
∑
∑N
∑
ak
aj
­
aj log ∑k=1
.
N
bj
l=1 bl
j=1
N
aj log
j=1
(34)
Dowód : Oznaczmy f (x) = x log x oraz
bj
pj = ∑N
l=1 bl
.
(35)
I(A; B) = 0
(39)
Dowód :
I(A; B) = D(pAB ||pA pB ) ­ 0.
(40)
I(A; B) = D(pAB ||pA pB ) = 0 wtedy i tylko wtedy gdy
pAB = pA pB , a więc zdarzenia są niezależne. Pokażemy teraz, że entropia jest zawsze ograniczona od
góry przez log N , czyli entropię rozkładu jednostajnego
q1 = · · · = qN = 1/N.
Wypukłość f implikuje
N
∑
pa f (xa ) ­ f
N
(∑
a=1
)
pa xa ,
(36)
Wniosek 4.2
a=1
H(A) = −
a co za tym idzie
N
∑
j=1
pj f
(a )
j
bj
=
N
∑
pa log pa ¬ log N
(41)
a=1
pj
j=1
aj
aj
log
bj
bj
N
∑
1
= ∑N
l=1 bj j=1
­ f
N
∑
N
(∑
pj
j=1
aj log
Dowód :
0 ¬ D(p||q) =
aj
bj
a
=
aj )
bj
∑
pa log(pa /qa )
(
)
pa log pa − log qa
a
=
( ∑N a )
k=1 k
∑N
l=1 bl
∑N
∑N
ak ′
ak
′
= ∑kN=1
log ∑k=1
.
N
l′ =1 bl′
l=1 bl
∑N
l=1 bl
∑
pa log pa +
a
∑
pa log N
a
= −H(A) + log N.
= f
Po obustronnym pomnożeniu przez
szukaną nierówność. ∑
(42)
co mieliśmy pokazać. (37)
Wniosek 4.3 (Uwarunkowanie zmniejsza entropię)
H(A|B) ¬ H(A)
uzyskujemy
(43)
przy czym równość zachodzi jedynie dla zmiennych niezależnych.
VI.
KILKA WNIOSKÓW Z NIERÓWNOŚCI
Dowód :
Wniosek 4.1 (Nieujemność informacji wzajemnej ): Dla
dowolnych zmiennych losowych A i B zachodzi
I(A; B) ­ 0
(38)
0 ¬ I(A; B) = H(A) − H(A|B).
I(A; B) = 0 tylko dla zmiennych niezależnych.
(44)