O oszczędnym dziennikarzu, czyli czym jest informacja i jak ją

Transkrypt

O oszczędnym dziennikarzu, czyli czym jest informacja i jak ją
O oszcz˛ednym dziennikarzu, czyli czym jest
informacja i jak ja˛ mierzymy?
Adam Doliwa
[email protected]
W YKŁAD DLA MŁODZIE ŻY
W YDZIAŁ M ATEMATYKI I I NFORMATYKI UWM
Olsztyn, 9 lutego 2016 r.
Adam Doliwa (UWM)
Informacja
9-II-2016
1 / 14
Kod Morse’a
Stworzony w 1832 przez Samuela Morse’a i Alfreda Vaila sposób
reprezentacji alfabetu, cyfr i znaków specjalnych za pomoca˛ dźwieków,
˛
błysków światła, impulsów elektrycznych lub znaków popularnie
zwanych kreska˛ i kropka.
˛ Alfabetem źródłowym jest alfabet łaciński z
cyframi i znakami specjalnymi, a alfabetem kodowym M = {·, −, }
(trzecim elementem zbioru M jest spacja). Spacja oddziela słowa
kodowe, grupy znaków oddzielamy trzema spacjami.
Adam Doliwa (UWM)
Informacja
9-II-2016
2 / 14
ASCII – American Standard Code for Information Interchange
Dec
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Bin
0000000
0000001
0000010
0000011
0000100
0000101
0000110
0000111
0001000
0001001
0001010
0001011
0001100
0001101
0001110
0001111
0010000
0010001
0010010
0010011
0010100
0010101
0010110
0010111
0011000
0011001
0011010
0011011
0011100
0011101
0011110
0011111
Adam Doliwa (UWM)
Char
NUL
SOH
STX
ETX
EOT
ENQ
ACK
BEL
BS
TAB
LF
VT
FF
CR
SO
SI
DLE
DC1
DC2
DC3
DC4
NAK
SYN
ETB
CAN
EM
SUB
ESC
FS
GS
RS
US
Dec
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
Bin
0100000
0100001
0100010
0100011
0100100
0100101
0100110
0100111
0101000
0101001
0100010
0100011
0100100
0100101
0100110
0100111
0101000
0101001
0101010
0101011
0101100
0101101
0101110
0101111
0110000
0110001
0110010
0110011
0110100
0110101
0110110
0110111
Char
space
!
”
#
$
%
&
’
(
)
*
+
,
.
/
0
1
2
3
4
5
6
7
8
9
:
;
¡
=
¿
?
Dec
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
Informacja
Bin
1000000
1000001
1000010
1000011
1000100
1000101
1000110
1000111
1001000
1001001
1001010
1001011
1001100
1001101
1001110
1001111
1010000
1010001
1010010
1010011
1010100
1010101
1010110
1010111
1011000
1011001
1011010
1011011
1011100
1011101
1011110
1011111
Char
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
ˆ
Dec
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
Bin
1100000
1100001
1100010
1100011
1100100
1100101
1100110
1100111
1101000
1101001
1101010
1101011
1101100
1101101
1101110
1101111
1110000
1110001
1110010
1110011
1110100
1110101
1110110
1110111
1111000
1111001
1111010
1111011
1111100
1111101
1111110
1111111
Char
‘
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
{
—
}
˜
DEL
9-II-2016
3 / 14
BIT – binary digit – cyfra dwójkowa
Problem
Ile bitów potrzeba do zapisania wyniku pieciu
˛
rzutów moneta?
˛
ORROR ↔ 01101
Tyle samo, ile trzeba zadać pytań majacych
˛
za możliwa˛ odpowiedź
TAK lub NIE
Adam Doliwa (UWM)
Informacja
9-II-2016
4 / 14
BIT – binary digit – cyfra dwójkowa
Problem
Ile bitów potrzeba do zapisania wyniku pieciu
˛
rzutów moneta?
˛
ORROR ↔ 01101
Tyle samo, ile trzeba zadać pytań majacych
˛
za możliwa˛ odpowiedź
TAK lub NIE
Adam Doliwa (UWM)
Informacja
9-II-2016
4 / 14
BIT – binary digit – cyfra dwójkowa
Problem
Ile bitów potrzeba do zapisania wyniku pieciu
˛
rzutów moneta?
˛
ORROR ↔ 01101
Tyle samo, ile trzeba zadać pytań majacych
˛
za możliwa˛ odpowiedź
TAK lub NIE
Adam Doliwa (UWM)
Informacja
9-II-2016
4 / 14
Informacja jako redukcja niepewności
Problem
Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu
za każdym razem uzyskaliśmy ten sam wynik?
ALBO
Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO
pytanie
5−x =1
⇒
x =4
Wiadomość ta dostarcza nam cztery bity informacji
Adam Doliwa (UWM)
Informacja
9-II-2016
5 / 14
Informacja jako redukcja niepewności
Problem
Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu
za każdym razem uzyskaliśmy ten sam wynik?
ALBO
Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO
pytanie
5−x =1
⇒
x =4
Wiadomość ta dostarcza nam cztery bity informacji
Adam Doliwa (UWM)
Informacja
9-II-2016
5 / 14
Informacja jako redukcja niepewności
Problem
Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu
za każdym razem uzyskaliśmy ten sam wynik?
ALBO
Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO
pytanie
5−x =1
⇒
x =4
Wiadomość ta dostarcza nam cztery bity informacji
Adam Doliwa (UWM)
Informacja
9-II-2016
5 / 14
Konkurs
Zadanie 1
Ile bitów informacji ma wiadomość, że rzucajac
˛ osiem razy moneta˛
uzyskaliśmy raz orła i siedem razy reszk˛e?
Pierwsza osoba, która nadeśle prawidłowe odpowiedzi na wszystkie
(dwa) zadania na adres [email protected]
otrzyma w nagrode˛ kolorowy pendrive z konferencji w Pekinie lub (do
wyboru) monete˛ z najwybitniejszym matematykiem polskim XX wieku
Uwaga: W liście swoje imie˛ i nazwisko należy zakodować używajac
˛
alfebetu Morse’a
Adam Doliwa (UWM)
Informacja
9-II-2016
6 / 14
Opowieść o dziennikarzu (cz˛eść pierwsza)
Z Centusiowa do Słoneczkowa został wysłany młody dziennikarz,
którego zadaniem było przesyłanie do centrali raz na tydzień
wiadomości zbiorczej o pogodzie jaka była każdego dnia.
słonecznie
zachmurzenie małe
zachmurzenie duże
deszcz
00
01
10
11
Przykładowa wiadomość: 01001101001001
Adam Doliwa (UWM)
Informacja
9-II-2016
7 / 14
Opowieść o dziennikarzu (cz˛eść druga)
Młody dziennikarz zauważył, że w Słoneczkowie (średnio rzecz biorac)
˛
raz na dwa dni jest zachmurzenie małe, raz na cztery dni słonecznie,
raz na osiem dni jest zachmurzenie duże oraz raz na osiem dni pada
deszcz. Postanowił to wykorzystać do skonstruowania lepszego
kodowania wiadomości.
p1 =
0
1
4
p2 =
1
2
p3 =
1
10
p1 + p2 + p3 + p4 =
1
8
p4 =
1
8
11
2 4 1 1
+ + + =1
8 8 8 8
Odpowiadajaca
˛
wiadomość: 101110101
może być odczytana (rozkodowana) jako:
lub nawet jako:
Adam Doliwa (UWM)
Informacja
9-II-2016
8 / 14
W poszukiwaniu optymalnego kodowania
p1 =
1
4
01
p2 =
1
1
2
p3 =
1
8
001
1
8
p4 =
000
Jest to kod jednoznaczny i natychmiastowy (słowo kodowe nie jest
poczatkiem
˛
innego słowa kodowego)
wiadomość ma
Odpowiadajaca
˛ pogodzie
postać: 1010001010011
Czy nowy kod jest lepszy od pierwszego?
Ile zaoszcz˛edzi dziennikarz używajac
˛ przez 40 tygodni nowy kod
zamiast pierwszego, jeśli przesłanie bitu kosztuje 1 PLN ?
Użytkowanie starego kodu kosztuje: 40 × 7 × 2 = 560 [PLN]
Adam Doliwa (UWM)
Informacja
9-II-2016
9 / 14
Rozwiazanie
˛
zadania
Koszty zwiazane
˛
z używaniem nowego kodu w ciago
˛ 40 tygodni:
średnio 20 × 7 = 140 dni z małym zachmurzeniem: 1 × 140 = 140
średnio 10 × 7 = 70 dni słonecznych: 2 × 70 = 140
średnio 5 × 7 = 35 dni z dużym zachmurzeniem: 3 × 35 = 105
średnio 5 × 7 = 35 dni deszczowych: 3 × 35 = 105
Razem przesłano (średnio rzecz biorac)
˛ 140 + 140 + 105 + 105 = 490
bitów za sume˛ 490 PLN.
Dziennikarz oszcz˛edził 560 [PLN] - 490 [PLN] = 70 [PLN]
Uwaga: Średnia długość słowa starego kodu wynosi E(KS ) = 2 bity, a
nowego kodu wynosi E(KN ) = 490/280 = 7/4 bitu
Pytanie
Czy jest to najlepsze (optymalne) kodowanie?
Adam Doliwa (UWM)
Informacja
9-II-2016
10 / 14
Logarytmy informatyczne i entropia
...
1 = 20
2 = 21
4 = 22
8 = 23
16 = 24
...
...
lg 1 = 0
lg 2 = 1
lg 4 = 2
lg 8 = 3
lg 16 = 4
...
Entropia źródła
H(p1 , p2 , . . . , pn ) = p1 lg
1
1
1
+ p2 lg
+ . . . pn lg
p1
p2
pn
Przykład: Entropia pogody w Słoneczkowie
1 1 1 1
1
1
1
1
7
H
, , ,
= lg 4 + lg 2 + lg 8 + lg 8 =
4 2 8 8
4
2
8
8
4
Adam Doliwa (UWM)
Informacja
9-II-2016
11 / 14
Twierdzenie Shannona
Dla dowolnego źródła i dowolnego odpowiadajacego
˛
mu binarnego
kodu natychmiastowego średnia długość E(K ) słowa kodowego jest
nie mniejsza niż entropia tego źródła
E(K ) ≥ H
p1 =
1
16
p2 =
1
16
p3 =
1
8
p4 =
1
2
p5 =
1
4
Zadanie 2
Średnie dane pogody w Deszczykowie przedstawione sa˛ w tabeli
powyżej. Wyznacz odpowiedni optymalny binarny i natychmiastowy
kod do przesyłania informacji o pogodzie.
Adam Doliwa (UWM)
Informacja
9-II-2016
12 / 14
Konkurs
Pierwsza osoba, która nadeśle prawidłowe odpowiedzi na oba zadania
na adres [email protected]
otrzyma w nagrode˛ kolorowy pendrive z konferencji w Pekinie lub (do
wyboru) monete˛ z najwybitniejszym matematykiem polskim XX wieku
Uwaga: W liście swoje imie˛ i nazwisko należy zakodować używajac
˛
alfebetu Morse’a
Adam Doliwa (UWM)
Informacja
9-II-2016
13 / 14