Bity, bajty, znaki…

Transkrypt

Bity, bajty, znaki…
Bity, bajty, znaki...
10/6/2005
Bit
Bity, bajty, znaki…
z
Pojęcie bitu
Tetrada, oktet, słowo…
BCD, EBCDIC, ASCII
Unicode
z
z
z
Bit podstawowa i najmniejsza jednostka
informacji jaka może być przetwarzana przez
komputer.
Bit może mieć postać dwóch liczb: jedynki lub
zera, które są dla komputera informacją, że
'prąd w obwodach płynie' - 1, albo że 'nie
płynie' - 0.
Bit to po angielsku kawałek – skrót: b.
Bit to skrót terminu BInary DigiT.
2/12
Bajt
z
z
z
z
z
Słowa…
Za pomocą dwóch bitów można przekazać
cztery różne informacje: 00, 01, 10 i 11
Za pomocą trzech bitów aż osiem: 000, 001,
010, 011, 100, 101, 110, 111,
… za pomocą czterech bitów szesnaście itd.
Cztery bity to tetrada
Osiem bitów tworzy tzw. oktet zwany również
bajtem - skrót terminu bajt to B
3/12
©2005 R. Robert ‘RoG@j’ Gajewski
z
z
z
z
z
z
z
z
z
z
z
małe i duże litery,
cyfry
znaki specjalne (takie jak na klawiaturze maszyny
do pisania, np.!, ?),
znaki sterujące,
inne znaki semigraficzne.
5/12
(C)2005 R. Robert Gajewski
©2005 R. Robert ‘RoG@j’ Gajewski
BCD i EBCDIC
Zestaw znaków używanych do komunikacji
zazwyczaj obejmuje
z
W jednym bajcie można zakodować 256
różnych znaków
Dwa bajty to (najczęściej...) półsłowo.
Cztery bajty (32 bity) to słowo.
64 bity to podwójne słowo.
Do komunikacji z komputerem używany jest
odpowiedni zestaw znaków.
Każdy z nich jest odpowiednio kodowany,
otrzymuje on interpretację jako ciąg bitów.
4/12
Znaki do komunikacji
z
©2005 R. Robert ‘RoG@j’ Gajewski
©2005 R. Robert ‘RoG@j’ Gajewski
z
z
6/12
Historycznie pierwszą umowa był standard
BCD (Binary Coded Decimal), który służył
do... zapisu liczb dziesiętnych
Został on następnie rozszerzony przez firmę
IBM do EBCDIC (Extended Binary Coded
Decimal Interchange Code).
Nie będziemy go szczegółowo omawiać,
gdyż... został on później wyparty przez
ASCII (American Standard Code for
Information Interchange)
©2005 R. Robert ‘RoG@j’ Gajewski
1
Bity, bajty, znaki...
10/6/2005
ASCII
z
z
z
Standardy
ASCII w swej początkowej wersji obejmował
128 znaków zapisywanych na 7 bitach.
Standard ten został następnie rozszerzony
do 256 znaków, które obejmowały także
niektóre znaki narodowe i znaki semigrafiki
Podstawowe znaki kodu ASCII obejmują:
z
z
z
26 małych liter alfabetu łacińskiego, 26 dużych
liter alfabetu łacińskiego, 10 cyfr, spacje i znaki
specjalne takie jak: !, @, #, specjalne znaki
sterujące o kodach dziesiętnych 0..31.
7/12
©2005 R. Robert ‘RoG@j’ Gajewski
Standard ASCII reprezentując jedynie 256
rożnych znaków miał swoje znaczne
ograniczenia - istniały tak zwane rożne
narodowe strony kodowe, zawierające
typowe dla danego języka znaki.
W Polsce co więcej istniało wiele polskich
stron kodowych - do dziś dnia w środowisku
Windows zachowały się dwa standardy
z
z
Central European ISO
Central European Windows
8/12
©2005 R. Robert ‘RoG@j’ Gajewski
Pierwsze 32 znaki ASCII
Przykłady
Dwuznaki
7
BEL
sygnał dźwiękowy (BELl)
z
8
BS
cofnięcie karetki (BackSpace)
z
9
HT
tabulacja (Horizontal Tab)
10
LF
nowa linia (LineFeed)
11
VT
tabulacja pionowa (Vertical Tab)
12
FF
nowa strona (FormFeed)
13
CR
powrót karetki (Carriage Return)
z
9/12
©2005 R. Robert ‘RoG@j’ Gajewski
z
z
z
(C)2005 R. Robert Gajewski
©2005 R. Robert ‘RoG@j’ Gajewski
Standardy wewnątrz Unicode
Unia Europejska potrzebuje kilku różnych
kodowań, by móc używać wszystkich
funkcjonujących w niej języków
Dwa, różne kodowania używały jednej liczby
dla dwu różnych znaków lub różnych liczb dla
tego samego znaku.
Wszystkie komputery (między innymi
serwery) muszą wspierać wszystkie te
kodowania
11/12
Po naciśnięciu klawisza <Enter> “produkowana”
jest parka 10 13 o prostej interpretacji: nowa linia i
powrót karetki (kursora…)
10/12
Po co Unicode?
z
Niektóre znaki są na klawiaturze komputera:
BackSpace, ESCape, tabulacja.
Inne stanowią niewidoczne znaki
formatowania tekstu.
Z pojedynczych znaków formowane są także
tak zwane dwuznaki - najważniejszy z nich
to znak końca linii tekstu.
©2005 R. Robert ‘RoG@j’ Gajewski
z
Unicode działa na liczbach 16-bitowych, czyli
może opisać 216 - to jest 65 536 różnych
znaków
z
z
W ramach Unicode istnieje kilka standardów
kodowania
z
z
12/12
Wystarcza to na zapamiętanie większości liter
używanych we wszystkich alfabetach świata
UCS-2 (Universal Character Set)
UTF-8,
©2005 R. Robert ‘RoG@j’ Gajewski
2