Bity, bajty, znaki…
Transkrypt
Bity, bajty, znaki…
Bity, bajty, znaki... 10/6/2005 Bit Bity, bajty, znaki… z Pojęcie bitu Tetrada, oktet, słowo… BCD, EBCDIC, ASCII Unicode z z z Bit podstawowa i najmniejsza jednostka informacji jaka może być przetwarzana przez komputer. Bit może mieć postać dwóch liczb: jedynki lub zera, które są dla komputera informacją, że 'prąd w obwodach płynie' - 1, albo że 'nie płynie' - 0. Bit to po angielsku kawałek – skrót: b. Bit to skrót terminu BInary DigiT. 2/12 Bajt z z z z z Słowa… Za pomocą dwóch bitów można przekazać cztery różne informacje: 00, 01, 10 i 11 Za pomocą trzech bitów aż osiem: 000, 001, 010, 011, 100, 101, 110, 111, … za pomocą czterech bitów szesnaście itd. Cztery bity to tetrada Osiem bitów tworzy tzw. oktet zwany również bajtem - skrót terminu bajt to B 3/12 ©2005 R. Robert ‘RoG@j’ Gajewski z z z z z z z z z z z małe i duże litery, cyfry znaki specjalne (takie jak na klawiaturze maszyny do pisania, np.!, ?), znaki sterujące, inne znaki semigraficzne. 5/12 (C)2005 R. Robert Gajewski ©2005 R. Robert ‘RoG@j’ Gajewski BCD i EBCDIC Zestaw znaków używanych do komunikacji zazwyczaj obejmuje z W jednym bajcie można zakodować 256 różnych znaków Dwa bajty to (najczęściej...) półsłowo. Cztery bajty (32 bity) to słowo. 64 bity to podwójne słowo. Do komunikacji z komputerem używany jest odpowiedni zestaw znaków. Każdy z nich jest odpowiednio kodowany, otrzymuje on interpretację jako ciąg bitów. 4/12 Znaki do komunikacji z ©2005 R. Robert ‘RoG@j’ Gajewski ©2005 R. Robert ‘RoG@j’ Gajewski z z 6/12 Historycznie pierwszą umowa był standard BCD (Binary Coded Decimal), który służył do... zapisu liczb dziesiętnych Został on następnie rozszerzony przez firmę IBM do EBCDIC (Extended Binary Coded Decimal Interchange Code). Nie będziemy go szczegółowo omawiać, gdyż... został on później wyparty przez ASCII (American Standard Code for Information Interchange) ©2005 R. Robert ‘RoG@j’ Gajewski 1 Bity, bajty, znaki... 10/6/2005 ASCII z z z Standardy ASCII w swej początkowej wersji obejmował 128 znaków zapisywanych na 7 bitach. Standard ten został następnie rozszerzony do 256 znaków, które obejmowały także niektóre znaki narodowe i znaki semigrafiki Podstawowe znaki kodu ASCII obejmują: z z z 26 małych liter alfabetu łacińskiego, 26 dużych liter alfabetu łacińskiego, 10 cyfr, spacje i znaki specjalne takie jak: !, @, #, specjalne znaki sterujące o kodach dziesiętnych 0..31. 7/12 ©2005 R. Robert ‘RoG@j’ Gajewski Standard ASCII reprezentując jedynie 256 rożnych znaków miał swoje znaczne ograniczenia - istniały tak zwane rożne narodowe strony kodowe, zawierające typowe dla danego języka znaki. W Polsce co więcej istniało wiele polskich stron kodowych - do dziś dnia w środowisku Windows zachowały się dwa standardy z z Central European ISO Central European Windows 8/12 ©2005 R. Robert ‘RoG@j’ Gajewski Pierwsze 32 znaki ASCII Przykłady Dwuznaki 7 BEL sygnał dźwiękowy (BELl) z 8 BS cofnięcie karetki (BackSpace) z 9 HT tabulacja (Horizontal Tab) 10 LF nowa linia (LineFeed) 11 VT tabulacja pionowa (Vertical Tab) 12 FF nowa strona (FormFeed) 13 CR powrót karetki (Carriage Return) z 9/12 ©2005 R. Robert ‘RoG@j’ Gajewski z z z (C)2005 R. Robert Gajewski ©2005 R. Robert ‘RoG@j’ Gajewski Standardy wewnątrz Unicode Unia Europejska potrzebuje kilku różnych kodowań, by móc używać wszystkich funkcjonujących w niej języków Dwa, różne kodowania używały jednej liczby dla dwu różnych znaków lub różnych liczb dla tego samego znaku. Wszystkie komputery (między innymi serwery) muszą wspierać wszystkie te kodowania 11/12 Po naciśnięciu klawisza <Enter> “produkowana” jest parka 10 13 o prostej interpretacji: nowa linia i powrót karetki (kursora…) 10/12 Po co Unicode? z Niektóre znaki są na klawiaturze komputera: BackSpace, ESCape, tabulacja. Inne stanowią niewidoczne znaki formatowania tekstu. Z pojedynczych znaków formowane są także tak zwane dwuznaki - najważniejszy z nich to znak końca linii tekstu. ©2005 R. Robert ‘RoG@j’ Gajewski z Unicode działa na liczbach 16-bitowych, czyli może opisać 216 - to jest 65 536 różnych znaków z z W ramach Unicode istnieje kilka standardów kodowania z z 12/12 Wystarcza to na zapamiętanie większości liter używanych we wszystkich alfabetach świata UCS-2 (Universal Character Set) UTF-8, ©2005 R. Robert ‘RoG@j’ Gajewski 2