O oszczędnym dziennikarzu, czyli czym jest informacja i jak ją
Transkrypt
O oszczędnym dziennikarzu, czyli czym jest informacja i jak ją
O oszcz˛ednym dziennikarzu, czyli czym jest informacja i jak ja˛ mierzymy? Adam Doliwa [email protected] W YKŁAD DLA MŁODZIE ŻY W YDZIAŁ M ATEMATYKI I I NFORMATYKI UWM Olsztyn, 9 lutego 2016 r. Adam Doliwa (UWM) Informacja 9-II-2016 1 / 14 Kod Morse’a Stworzony w 1832 przez Samuela Morse’a i Alfreda Vaila sposób reprezentacji alfabetu, cyfr i znaków specjalnych za pomoca˛ dźwieków, ˛ błysków światła, impulsów elektrycznych lub znaków popularnie zwanych kreska˛ i kropka. ˛ Alfabetem źródłowym jest alfabet łaciński z cyframi i znakami specjalnymi, a alfabetem kodowym M = {·, −, } (trzecim elementem zbioru M jest spacja). Spacja oddziela słowa kodowe, grupy znaków oddzielamy trzema spacjami. Adam Doliwa (UWM) Informacja 9-II-2016 2 / 14 ASCII – American Standard Code for Information Interchange Dec 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Bin 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111 0001000 0001001 0001010 0001011 0001100 0001101 0001110 0001111 0010000 0010001 0010010 0010011 0010100 0010101 0010110 0010111 0011000 0011001 0011010 0011011 0011100 0011101 0011110 0011111 Adam Doliwa (UWM) Char NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US Dec 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 Bin 0100000 0100001 0100010 0100011 0100100 0100101 0100110 0100111 0101000 0101001 0100010 0100011 0100100 0100101 0100110 0100111 0101000 0101001 0101010 0101011 0101100 0101101 0101110 0101111 0110000 0110001 0110010 0110011 0110100 0110101 0110110 0110111 Char space ! ” # $ % & ’ ( ) * + , . / 0 1 2 3 4 5 6 7 8 9 : ; ¡ = ¿ ? Dec 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 Informacja Bin 1000000 1000001 1000010 1000011 1000100 1000101 1000110 1000111 1001000 1001001 1001010 1001011 1001100 1001101 1001110 1001111 1010000 1010001 1010010 1010011 1010100 1010101 1010110 1010111 1011000 1011001 1011010 1011011 1011100 1011101 1011110 1011111 Char @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ˆ Dec 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 Bin 1100000 1100001 1100010 1100011 1100100 1100101 1100110 1100111 1101000 1101001 1101010 1101011 1101100 1101101 1101110 1101111 1110000 1110001 1110010 1110011 1110100 1110101 1110110 1110111 1111000 1111001 1111010 1111011 1111100 1111101 1111110 1111111 Char ‘ a b c d e f g h i j k l m n o p q r s t u v w x y z { — } ˜ DEL 9-II-2016 3 / 14 BIT – binary digit – cyfra dwójkowa Problem Ile bitów potrzeba do zapisania wyniku pieciu ˛ rzutów moneta? ˛ ORROR ↔ 01101 Tyle samo, ile trzeba zadać pytań majacych ˛ za możliwa˛ odpowiedź TAK lub NIE Adam Doliwa (UWM) Informacja 9-II-2016 4 / 14 BIT – binary digit – cyfra dwójkowa Problem Ile bitów potrzeba do zapisania wyniku pieciu ˛ rzutów moneta? ˛ ORROR ↔ 01101 Tyle samo, ile trzeba zadać pytań majacych ˛ za możliwa˛ odpowiedź TAK lub NIE Adam Doliwa (UWM) Informacja 9-II-2016 4 / 14 BIT – binary digit – cyfra dwójkowa Problem Ile bitów potrzeba do zapisania wyniku pieciu ˛ rzutów moneta? ˛ ORROR ↔ 01101 Tyle samo, ile trzeba zadać pytań majacych ˛ za możliwa˛ odpowiedź TAK lub NIE Adam Doliwa (UWM) Informacja 9-II-2016 4 / 14 Informacja jako redukcja niepewności Problem Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu za każdym razem uzyskaliśmy ten sam wynik? ALBO Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO pytanie 5−x =1 ⇒ x =4 Wiadomość ta dostarcza nam cztery bity informacji Adam Doliwa (UWM) Informacja 9-II-2016 5 / 14 Informacja jako redukcja niepewności Problem Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu za każdym razem uzyskaliśmy ten sam wynik? ALBO Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO pytanie 5−x =1 ⇒ x =4 Wiadomość ta dostarcza nam cztery bity informacji Adam Doliwa (UWM) Informacja 9-II-2016 5 / 14 Informacja jako redukcja niepewności Problem Ile bitów informacji ma wiadomość, że w poprzednim doświadczeniu za każdym razem uzyskaliśmy ten sam wynik? ALBO Teraz do opisania wyniku doświadczenia wystarczy TYLKO JEDNO pytanie 5−x =1 ⇒ x =4 Wiadomość ta dostarcza nam cztery bity informacji Adam Doliwa (UWM) Informacja 9-II-2016 5 / 14 Konkurs Zadanie 1 Ile bitów informacji ma wiadomość, że rzucajac ˛ osiem razy moneta˛ uzyskaliśmy raz orła i siedem razy reszk˛e? Pierwsza osoba, która nadeśle prawidłowe odpowiedzi na wszystkie (dwa) zadania na adres [email protected] otrzyma w nagrode˛ kolorowy pendrive z konferencji w Pekinie lub (do wyboru) monete˛ z najwybitniejszym matematykiem polskim XX wieku Uwaga: W liście swoje imie˛ i nazwisko należy zakodować używajac ˛ alfebetu Morse’a Adam Doliwa (UWM) Informacja 9-II-2016 6 / 14 Opowieść o dziennikarzu (cz˛eść pierwsza) Z Centusiowa do Słoneczkowa został wysłany młody dziennikarz, którego zadaniem było przesyłanie do centrali raz na tydzień wiadomości zbiorczej o pogodzie jaka była każdego dnia. słonecznie zachmurzenie małe zachmurzenie duże deszcz 00 01 10 11 Przykładowa wiadomość: 01001101001001 Adam Doliwa (UWM) Informacja 9-II-2016 7 / 14 Opowieść o dziennikarzu (cz˛eść druga) Młody dziennikarz zauważył, że w Słoneczkowie (średnio rzecz biorac) ˛ raz na dwa dni jest zachmurzenie małe, raz na cztery dni słonecznie, raz na osiem dni jest zachmurzenie duże oraz raz na osiem dni pada deszcz. Postanowił to wykorzystać do skonstruowania lepszego kodowania wiadomości. p1 = 0 1 4 p2 = 1 2 p3 = 1 10 p1 + p2 + p3 + p4 = 1 8 p4 = 1 8 11 2 4 1 1 + + + =1 8 8 8 8 Odpowiadajaca ˛ wiadomość: 101110101 może być odczytana (rozkodowana) jako: lub nawet jako: Adam Doliwa (UWM) Informacja 9-II-2016 8 / 14 W poszukiwaniu optymalnego kodowania p1 = 1 4 01 p2 = 1 1 2 p3 = 1 8 001 1 8 p4 = 000 Jest to kod jednoznaczny i natychmiastowy (słowo kodowe nie jest poczatkiem ˛ innego słowa kodowego) wiadomość ma Odpowiadajaca ˛ pogodzie postać: 1010001010011 Czy nowy kod jest lepszy od pierwszego? Ile zaoszcz˛edzi dziennikarz używajac ˛ przez 40 tygodni nowy kod zamiast pierwszego, jeśli przesłanie bitu kosztuje 1 PLN ? Użytkowanie starego kodu kosztuje: 40 × 7 × 2 = 560 [PLN] Adam Doliwa (UWM) Informacja 9-II-2016 9 / 14 Rozwiazanie ˛ zadania Koszty zwiazane ˛ z używaniem nowego kodu w ciago ˛ 40 tygodni: średnio 20 × 7 = 140 dni z małym zachmurzeniem: 1 × 140 = 140 średnio 10 × 7 = 70 dni słonecznych: 2 × 70 = 140 średnio 5 × 7 = 35 dni z dużym zachmurzeniem: 3 × 35 = 105 średnio 5 × 7 = 35 dni deszczowych: 3 × 35 = 105 Razem przesłano (średnio rzecz biorac) ˛ 140 + 140 + 105 + 105 = 490 bitów za sume˛ 490 PLN. Dziennikarz oszcz˛edził 560 [PLN] - 490 [PLN] = 70 [PLN] Uwaga: Średnia długość słowa starego kodu wynosi E(KS ) = 2 bity, a nowego kodu wynosi E(KN ) = 490/280 = 7/4 bitu Pytanie Czy jest to najlepsze (optymalne) kodowanie? Adam Doliwa (UWM) Informacja 9-II-2016 10 / 14 Logarytmy informatyczne i entropia ... 1 = 20 2 = 21 4 = 22 8 = 23 16 = 24 ... ... lg 1 = 0 lg 2 = 1 lg 4 = 2 lg 8 = 3 lg 16 = 4 ... Entropia źródła H(p1 , p2 , . . . , pn ) = p1 lg 1 1 1 + p2 lg + . . . pn lg p1 p2 pn Przykład: Entropia pogody w Słoneczkowie 1 1 1 1 1 1 1 1 7 H , , , = lg 4 + lg 2 + lg 8 + lg 8 = 4 2 8 8 4 2 8 8 4 Adam Doliwa (UWM) Informacja 9-II-2016 11 / 14 Twierdzenie Shannona Dla dowolnego źródła i dowolnego odpowiadajacego ˛ mu binarnego kodu natychmiastowego średnia długość E(K ) słowa kodowego jest nie mniejsza niż entropia tego źródła E(K ) ≥ H p1 = 1 16 p2 = 1 16 p3 = 1 8 p4 = 1 2 p5 = 1 4 Zadanie 2 Średnie dane pogody w Deszczykowie przedstawione sa˛ w tabeli powyżej. Wyznacz odpowiedni optymalny binarny i natychmiastowy kod do przesyłania informacji o pogodzie. Adam Doliwa (UWM) Informacja 9-II-2016 12 / 14 Konkurs Pierwsza osoba, która nadeśle prawidłowe odpowiedzi na oba zadania na adres [email protected] otrzyma w nagrode˛ kolorowy pendrive z konferencji w Pekinie lub (do wyboru) monete˛ z najwybitniejszym matematykiem polskim XX wieku Uwaga: W liście swoje imie˛ i nazwisko należy zakodować używajac ˛ alfebetu Morse’a Adam Doliwa (UWM) Informacja 9-II-2016 13 / 14