Pobierz artykuł PDF

Transkrypt

Pobierz artykuł PDF
KOMPRESJA DANYCH A EKONOMICZNA EFEKTYWNO
SYSTEMU
PRZECHOWYWANIA DANYCH 1
JAKUB SWACHA
Uniwersytet Szczeciski
Streszczenie
Ekonomiczna efektywno systemu przechowywania danych stanowi stosunek
wartoci uzyskanych korzyci do kosztów budowy i utrzymania takiego systemu.
Warto uytkowa informacji maleje wraz z wydłuaniem si czasu potrzebnego na
dostp do niej, z kolei koszt urzdze słucych do przechowywania danych wzrasta
wraz z szybkoci dostpu do danych, któr zapewniaj. Podstawowym celem zarzdzania przechowywaniem danych jest przyporzdkowanie danym, z uwzgldnieniem
ich uytkowej wartoci, najbardziej właciwej i efektywnej ekonomicznie infrastruktury informatycznej słucej do ich przechowywania. Istotnym czynnikiem zmieniajcym relacj kosztów i korzyci przechowywania danych jest kompresja danych. Jej
zaimplementowanie w systemie z jednej strony obnia koszty (poprzez zmniejszenie
pojemnoci pamici masowej potrzebnej do przechowania danych), z drugiej obnia
take warto korzyci (przede wszystkim, obniajc szybko dostpu do danych).
W niniejszym artykule opisano wyniki bada przeprowadzonych z wykorzystaniem szeregu najpopularniejszych obecnie algorytmów kompresji bezstratnej na systemie testowym zbudowanym z komponentów powszechnie uywanych w niewielkich
systemach przechowywania danych.
Słowa kluczowe: kompresja danych, efektywno
przechowywania danych, koszty przechowywania danych, system przechowywania danych
1. Wprowadzenie
Jednym z najbardziej charakterystycznych przejawów rewolucji informacyjnej, która zachodzi
w dzisiejszych czasach, jest lawinowy wzrost wiatowych zasobów informacyjnych. Według prognoz analityków wielko
wiatowych cyfrowych zasobów informacyjnych z poziomu 160 eksabajtów na pocztku roku 2007, do roku 2010 wzronie do jednego zetabajta [26].
Bardzo szybkiemu wzrostowi zasobów informacyjnych towarzyszy bardzo szybki wzrost pojemnoci pamici masowych słucych do ich przechowywania. Jest on moliwy za spraw postpu zachodzcego w dziedzinie technologii przechowywania danych – od roku 1956 koszt 1 gigabajta przestrzeni dyskowej zmalał z 10 milionów dolarów [8] do zaledwie 14 centów [4], nastpiła
równie kolosalna poprawa wydajnoci tych urzdze. Niemniej, wydatki na przechowywanie
danych stanowi istotny element całoci wydatków na informatyk [27]. O skali tych wydatków
wiadcz cho
by przychody producentów systemów przechowywania danych – tylko dla producentów systemów dyskowych osignły one 26,3 miliarda dolarów w roku 2007 [28].
1 W artykule wykorzystano rezultaty pracy naukowej finansowanej ze rodków na nauk w latach 2007-2008 jako projekt
badawczy.
214
Jakub Swacha
Kompresja danych a efektywno systemu przechowywania danych
Zgodnie z logik zarzdzania cyklem ycia informacji, infrastruktur pamici masowych powinno si dobiera
w sposób adekwatny do uytkowej wartoci przechowywanych informacji [18].
Wycena uytkowej wartoci informacji musi uwzgldnia
funkcj, jak pełni ona w procesach
realizowanych w przedsibiorstwie (lub innej instytucji) [5]. Naley bra
pod uwag zarówno
warto
informacji jako takiej (w funkcji sterujcej, decyzyjnej, czy konsumpcyjnej), jak i jej
zdolno
do bycia wykorzystan do tworzenia nowych informacji, szczególnie istotn w dobie
rozwoju metod eksploracji danych [9]. W kadym przypadku, czynnikiem ograniczajcym uytkow warto
przechowywanej informacji jest z pewnoci trudno
w dostpie do niej, przede
wszystkim czas, jaki trzeba na to powici
.
Znanym sposobem na zmniejszenie kosztów zwizanych z przechowywaniem danych jest ich
kompresja [23]. Niestety, prowadzi ona zazwyczaj do obnienia szybkoci dostpu do danych.
Powstaje zatem pytanie, na ile uzasadnione ekonomicznie jest stosowanie metod kompresji danych, biorc pod uwag nie tylko korzyci wynikajce z ich uycia, ale i koszty. Prób czstkowej
odpowiedzi na to pytanie s zamieszczone w dalszej czci tego artykułu wyniki bada przeprowadzonych na systemie testowym o parametrach uytkowych zblionych do rzeczywistych systemów
spotykanych w małych firmach i instytucjach. Wczeniej jednak, opisane zostan krótko metody
kompresji danych i praktyczne konsekwencje ich stosowania.
2. Metody kompresji danych i konsekwencje ich stosowania
Kompresja danych moe polega
bd na alternatywnym, krótszym zakodowaniu tych samych
danych (opierajc si na ich właciwociach statystycznych), bd na usuniciu sporód danych
tych, które nie s istotne w ich póniejszej interpretacji (opierajc si na modelu odbiorcy i jego
potrzeb informacyjnych). Metody z pierwszej grupy nazywane s bezstratnymi (ang. lossless),
z drugiej za stratnymi (ang. lossy) [22]. W systemach przechowywania danych ogólnego przeznaczenia implementuje si zwykle metody bezstratne, gdy tylko one umoliwiaj odtworzenie danych w ich oryginalnej postaci.
Wród samych metod bezstratnych rozróniamy cztery podstawowe ich rodzaje, według zasady działania, na której si opieraj [21]:
• substytucyjne,
• predykcyjne,
• transformacyjne,
• hybrydowe.
Metody substytucyjne opieraj swe działanie na podmianie długich, wielokrotnie wystpujcych cigów symboli ich krótszymi odpowiednikami (na przykład zastpowanie słów indeksami
słownika). S to metody najszerzej rozpowszechnione, wystarczy wymieni
tu algorytm Deflate [6]
zaimplementowany w programach Gzip i Zip [7], czy podstawowy tryb działania programu Rar
[14]. Równie zdecydowana wikszo
układów sprztowych realizujcych kompresj bezstratn
implementuje metody substytucyjne. Ich podstawow zalet jest szybko
, wad – wzgldnie słaba
efektywno
kompresji (redukcja długoci plików wskutek kompresji). Najbardziej zaawansowane
algorytmy substytucyjne – takie jak na przykład LZMA zaimplementowany jako podstawowy tryb
programu 7-Zip [13] – wyróniaj si duo lepsz efektywnoci kompresji (cho
nie dorównujc
najlepszym algorytmom innych typów), lecz znacznie wydłuonym czasie kompresji, przy zachowaniu krótkiego czasu dekompresji.
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 17, 2008
215
Metody predykcyjne wykorzystuj model statystyczny, zbudowany w oparciu o wczeniej
przetworzone dane, aby przewidzie
dalszy cig danych. Prosty model osiga zazwyczaj nisk
efektywno
kompresji, skomplikowany moe osign
bardzo wysok, jednak jego budowa
i utrzymanie wymaga duej iloci pamici i czasu. Podstawowym parametrem modelu jest jego
rzd, okrelajcy maksymaln długo
kontekstu, czyli liczb ostatnio przetworzonych symboli,
która wpływa na wynik predykcji kolejnego symbolu. Zwykle jest to kilka symboli, w bardziej
zaawansowanych modelach – kilkanacie, lub nawet kilkadziesit.
Dwa najczciej obecnie spotykane rodzaje bezstratnych metod predykcyjnych to predykcja
przez czciowe dopasowanie (ang. prediction by partial match, PPM) oraz mieszanie kontekstów
(ang. context mixing, CM). PPM próbuje wykorzysta
najpierw model dla najdłuszego moliwego
kontekstu, a w przypadku, gdy nie przewidział on wystpienia nastpnego symbolu, koduje błd
predykcji (tak zwan ucieczk) i przechodzi do modelu dla kontekstu o jeden symbol krótszego
[16]. W CM prawdopodobiestwo wystpienia pewnego symbolu jest redni prawdopodobiestw
wystpienia tego symbolu otrzymanych ze wszystkich dostpnych modeli (niekoniecznie rónicych si tylko długoci kontekstu), waon efektywnoci poszczególnych modeli [10].
Najbardziej znan implementacj PPM jest PPMd D. Szkarina [17]; PPM wykorzystywany
jest take w trybie kompresji tekstu programu Rar [14]. Z kolei najbardziej znana implementacja
CM to najbardziej efektywny obecnie program kompresujcy, PAQ [11]. Znacznie bardziej praktyczn implementacj (z uwagi na szybko
działania) stanowi program CCM [12].
Metody transformacyjne posługuj si zwykle bardzo prostymi modelami statystycznymi, kluczem ich działania jest jednak przekształcenie, któremu poddaj wpierw dane. Celem tego przekształcenia jest taka zmiana kolejnoci i zakresu wartoci danych, by efektywnie si one kompresowały z wykorzystaniem tego prostego (lecz odpowiednio dobranego) modelu. Dwa podstawowe
przekształcenia to transformata Burrowsa-Wheelera (BWT) [3] i transformata sortujca Schindlera
(ST) [15]. Adaptacj pierwszej z nich stanowi popularny program bzip2 i programy z nim kompatybilne (na przykład 7-Zip w jednym ze swych trybów). Pod wzgldem efektywnoci metody transformacyjne ustpuj jedynie najlepszym metodom predykcyjnym, s jednak wyranie wolniejsze
od metod substytucyjnych.
Metody hybrydowe stanowi połczenie metod rónego typu. Przykładem jest algorytm PLZ
[25], łczcy substytucj z predykcj i pozwalajcy przez to na uzyskanie szybkoci i efektywnoci
kompresji plasujcej si pomidzy tymi dwoma podejciami.
Wykonanie kompresji (w przypadku zapisu) lub dekompresji (w przypadku odczytu) wydłua
czas dostpu do danych. Nie jest to jednak jedyna negatywna konsekwencja stosowania kompresji.
Kompresja utrudnia losowy dostp do danych. Po skompresowaniu pliku, w przypadku
wikszoci powszechnie stosowanych metod kompresji danych, moliwy jest jedynie sekwencyjny
dostp do jego zawartoci. Oznacza to, e aby odczyta
dane znajdujce si przed samym kocem
pliku, naley wpierw zdekompresowa
wszystkie znajdujce si wczeniej. Podobnie modyfikacja
danych znajdujcych si na pocztku pliku wymaga rekompresji jego całoci. Sposobem
złagodzenia tego zjawiska jest podział pliku na bloki, z których kady kompresowany jest osobno
– negatywnie wpływa to jednak na efektywno
kompresji.
Uszkodzenie (przekłamanie) krótkiej sekwencji symboli na pewnej pozycji w pliku zwykle
uniemoliwia odczyt wszystkich symboli znajdujcych si za ni. Tak jak poprzednio, złagodzi
to
mona przez podział pliku na bloki, wtedy uszkodzenia wtórne nie bd wykraczały poza granice
bloków. Lepszym rozwizaniem jest dodanie bloków redundantnych, pozwalajcych na
216
Jakub Swacha
Kompresja danych a efektywno systemu przechowywania danych
odtworzenie całoci danych nawet w przypadku wielu uszkodze. Obnia to efektywno
kompresji, polepsza jednak prawdopodobiestwo wiernego przechowania danych nawet wobec
oryginalnej postaci nieskompresowanej.
3. Miejsce, zakres i sposób przeprowadzenia eksperymentu badawczego
W celu przeprowadzenia eksperymentu badawczego przygotowano niewielki testowy system
przechowywania danych o niskich kosztach eksploatacji według załoe przedstawionych w pracy
[20]. Sporód szerokiej gamy urzdze mogcych posłuy
do zbudowania systemu przechowywania danych do przeprowadzenia eksperymentu badawczego wybrano nastpujce:
• dyski twarde SATA:
o Western Digital Raptor 150 GB (10000 obr./min.) – reprezentujcy najwyszy poziom
wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0;
o Seagate Barracuda 320 GB (7200 obr./min.) – reprezentujcy redni poziom wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0;
o Hitachi HTS 100 GB (5400 obr./min.) – reprezentujcy niski poziom wydajnoci dla
dysków SATA (charakterystyczny dla komputerów przenonych);
• napdy dysków optycznych ATA DVD-RW:
o Lite-On LH20A1H11C obsługujcy noniki CD-RW Verbatim 12x 700MB w trybie
zapisu pakietowego,
o Samsung SH-182M obsługujcy noniki DVD+RW 4x Verbatim 4,7GB w trybie zapisu
pakietowego;
• pami
zewntrzn dołczana poprzez interfejs USB:
o dysk twardy Western Digital Passport 120 GB (5400 obr./min.),
o pami
półprzewodnikowa Corsair Flash Voyager 8GB.
Pamici masowe umieszczono w trzech jednostkach komputerowych:
• komputer „A” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core
2 Duo 6420 2,13 GHz (FSB 1066 MHz), płyta główna oparta na układzie Intel P965 /
ICH8, pami
DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego
Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Western
Digital Raptor, obie stacje dysków optycznych oraz obie pamici zewntrzne USB;
• komputer „B” o nastpujcej specyfikacji technicznej: procesor AMD Athlon64 3800+
2,4 GHz (FSB 1000 MHz), płyta główna oparta na układzie GeForce 6100 / nForce 430,
pami
DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Seagate Barracuda;
• komputer „C” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core
Duo 2250 1,73 GHz (FSB 533 MHz), płyta główna oparta na układzie Intel Mobile 945
Express, pami
DDR2 533 MHz 1 GB, pod kontrol 32-bitowego systemu operacyjnego
Windows Vista Home Basic; wbudowany dysk Hitachi.
Rozpatrzono nastpujce sposoby dostpu do przechowywanych danych:
• lokalny, dane dostpne na urzdzeniach bezporednio podłczonych do stacji roboczej
(poprzez interfejs SATA, PATA lub USB);
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 17, 2008
217
zdalny, dane dostpne na urzdzeniach bezporednio podłczonych do serwera, stacja robocza połczona z serwerem przewodowo (Gigabit Ethernet) lub bezprzewodowo
(802.11g).
Sporód dostpnych implementacji algorytmów kompresji do eksperymentów wybrano:
• Deflate [6] zaimplementowany w programie Zip 2.32 (wraz z Unzip 5.52) [7] w domylnym trybie redniej kompresji „–6”,
• LZMA zaimplementowany w programie 7-Zip [13] w trybie „–5”,
• PPM [16] zaimplementowany w PPMd [17] z nastpujcymi ustawieniami: rzd modelu
7, 256 MB pamici,
• PPM zaimplementowany w programie Rar [14] w trybie najlepszej kompresji,
• BWT [3] zaimplementowany w programie bzip2 w trybie najlepszej kompresji („-9”),
• algorytm hybrydowy (LZP+BWT) zaimplementowany w programie GRZipII w trybie najlepszej kompresji.
Efektywno
kompresji zaley od zawartoci kompresowanych plików. W przypadku takich
jak opisywany eksperymentów prowadzonych w warunkach sztucznych, wykorzystuje si zestawy
testowe, do których pliki dobiera si w taki sposób, by były moliwie reprezentatywne dla swoich
typów, to znaczy, by efektywno
kompresji pliku ujtego w zestawie testowym nie odbiegała
znaczco od redniej efektywnoci kompresji duej liczby plików tego samego typu. Z uwagi na to,
e opisywany eksperyment nie jest ograniczony do pewnego ustalonego typu danych, lecz ma
umoliwi
porównanie efektywnoci badanych technologii dla plików rónego typu, a jednoczenie biorc pod uwag ograniczon limitem długoci artykułu moliwo
przedstawienia wyników,
posłuono si uniwersalnym zestawem testowym najwikszego obecnie internetowego serwisu
powiconego kompresji danych – Maximum Compression [2]. Zestaw ten składa si z 10 plików
o łcznej długoci 53 134 726 bajtów, nalecych do szeroko obecnie rozpowszechnionych typów
danych:
• Obraz JPEG „A10.jpg” o długoci 842 468 bajtów,
• Plik programu „AcroRd32.exe” o długoci 3 870 784 bajtów,
• Plik słownika „english.dic” o długoci 4 067 439 bajtów,
• Ksika elektroniczna „FlashMX.pdf” o długoci 4 526 946 bajtów,
• Log webowy „fp.log” o długoci 20 617 071 bajtów,
• Biblioteka dynamiczna „mso97.dll” o długoci 3 782 416 bajtów,
• Dokument edytora Word „ohs.doc” o długoci 4 168 192 bajtów,
• Obraz BMP „rafale.bmp” o długoci 4 149 414 bajtów,
• Plik pomocy on-line „vcfiu.hlp” o długoci 4 121 418 bajtów,
• Dokument tekstowy „world95.txt” o długoci 2 988 578 bajtów.
Zgodnie z wytycznymi przedstawionymi w pracy [20], przed przeprowadzeniem eksperymentów na wykorzystanych w nich komputerach wykonano wiee instalacje systemów operacyjnych.
Pomiary parametrów wydajnociowych wykonano z pomoc autorskiego oprogramowania CoTe
[19]. Zgodnie z przyjt metodologi, mierzono całkowity czas trwania poszczególnych operacji.
Zmierzonych czasów nie rozbijano na czasy składowe odnoszce si do poszczególnych etapów
pozyskiwania danych (odczytu, zapisu, przesłania w sieci, kompresji, dekompresji).
•
218
Jakub Swacha
Kompresja danych a efektywno systemu przechowywania danych
4. Wyniki eksperymentów i ich dyskusja
Tabela 1 przedstawia uzyskane wyniki kompresji poszczególnych plików (w bitach pliku
skompresowanego przypadajcych na bajt pliku oryginalnego).
Tabela 1. Efektywno kompresji dla poszczególnych programów i plików
Plik
7-Zip
bzip2
A10.jpg
AcroRd32.exe
english.dic
FlashMX.pdf
FP.LOG
MSO97.DLL
ohs.doc
rafale.bmp
vcfiu.hlp
world95.txt
rednia
8,033
2,664
1,675
6,557
0,360
3,657
1,524
1,911
1,207
1,579
2,917
7,943
3,513
2,403
6,735
0,281
4,465
1,740
1,716
1,383
1,545
3,172
Program
GRZipII Zip
PPM
d
7,922 7,993 7,917
3,333 3,585 3,202
2,336 2,066 2,100
6,615 6,780 6,577
0,243 0,562 0,241
4,108 4,635 3,960
1,588 1,948 1,600
1,523 2,432 1,512
1,275 1,648 1,298
1,291 2,338 1,270
3,023 3,399 2,968
Rar
8,001
2,845
2,193
6,626
0,258
3,919
1,547
1,585
1,298
1,242
2,951
rednia
7,969
3,110
2,063
6,619
0,305
4,014
1,614
1,734
1,296
1,481
3,021
Jak wida
, dla testowego zestawu plików, najlepszy rezultat przypadł algorytmowi LZMA
(program 7-Zip). Nieznacznie ustpuj mu wyniki uzyskane przez programy GRZipII i PPMd.
Czołówce wyranie ustpuje Zip.
Tabele 2, 3 i 4 zawieraj pomiary czasu kompresji uzyskane odpowiednio dla dostpu do
pamici masowych: lokalnego (z komputera „A”), sieciowego przewodowego (z komputera „B”)
i sieciowego bezprzewodowego (z komputera „C”). Dla odniesienia, w pierwszej kolumnie podano
czasy kopiowania nieskompresowanych plików. Pomiary czasu uzyskano w pojedynczej sesji
testowej. W sytuacjach, w których wystpił przynajmniej jeden błd odtworzenia danych (wynikały
one z problemów ze współdziałaniem niektórych programów i sterownika zapisu pakietowego
napdów optycznych w warunkach pracy sieciowej), by zachowa
porównywalno
danych, nie
powtarzano eksperymentu, a odpowiednie pola tablicy oznaczono słowem „błd”. Nie były one
take brane przy obliczaniu kosztów (std brak niektórych kolumn na rys. 1 i 2).
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 17, 2008
219
Tabela 2. redni czas kompresji pliku dla komputera „A” (pamici lokalne)
Urzdzenie/nonik
Lite-On/DVD-RW 4,7 GB
RAID0 2xRaptor 150 GB
Samsung/CD-RW 0,7 GB
Flash Corsair 8 GB
USB WD Passport 120
GB
rednia
(brak) 7-Zip
bzip2
1,310
0,039
6,483
2,770
0,328
1,195
1,400
1,789
2,167
1,510
5,809
5,107
6,916
6,500
5,221
2,186
1,559 6,175
Program
GRZiZip
PPMd
pII
1,488 1,016 1,853
1,035 0,332 1,175
2,802 2,517 2,702
2,405 2,440 2,539
1,140 0,587 1,279
2,030
1,378
Rar
rednia
2,851
1,080
2,530
2,233
1,173
2,246
1,406
3,585
3,102
2,010
2,154 1,824
2,645
Tabela 3. redni czas kompresji pliku komputera „B” (sie przewodowa)
Program
GRZipII Zip
Urzdzenie/nonik
(brak)
7-Zip
bzip2
Lite-On/DVD-RW 4,7 GB
RAID0 2xRaptor 150 GB
Samsung/CD-RW 0,7 GB
Flash Corsair 8 GB
RAID0 2xBarracuda 320GB*
rednia
4,297
0,512
28,414
7,559
0,153
8,187
12,517
6,162
15,231
14,922
14,940
16,019
14,839
15,190
* Dysk lokalny.
błd
12,888
6,093
3,193
3,171
3,199
3,392
3,104
3,212
błd
0,885
błd
4,849
0,724
PPMd
4,178
3,837
3,742
4,557
3,779
4,024
Rar
5,559
3,979
rednia#
7,496
5,431
błd
5,544
3,886
8,327
5,309
# Z pominiciem wyników programu Zip.
Tabela 4. Czasy kompresji dla komputera „C” (sie bezprzewodowa)
Urzdzenie/nonik
(brak)
7-Zip
bzip2
Lite-On/DVD-RW 4,7 GB
RAID0 2xRaptor 150 GB
Samsung/CD-RW 0,7 GB
Flash Corsair 8 GB
Hitachi 100GB*
rednia
5,611
1,911
31,837
7,223
0,173
9,320
3,242
2,702
8,914
7,736
11,335
8,654
7,228
8,748
* Dysk lokalny.
błd
3,313
2,325
Program
GRZipII Zip
4,211
2,165
4,146
2,884
1,708
3,014
błd
1,341
błd
4,371
0,471
PPMd
Rar
8,390
6,461
11,784
8,799
5,160
8,143
4,599
2,054
rednia#
5,828
3,838
błd
3,502
1,866
5,729
3,077
# Z pominiciem wyników programu Zip.
Aby zbada
ekonomiczny efekt uycia kompresji danych, posłuono si prost formuł
kosztów sumujc koszty przechowywania danych i koszty kadorazowego dostpu do nich.
Przyjto, e roczne całkowite koszty utrzymania pamici masowych równe s kosztom ich nabycia
(przyjtym według cen podanych na stronie [4]) a koszty dostpu równaj si redniemu
wynagrodzeniu pracownika przypadajcemu na czas dostpu do danych (przyjtym za stron [1]).
Wykorzystanie bardziej skomplikowanej formuły (takiej jak podana w pracy [24]) wymagałoby
220
Jakub Swacha
Kompresja danych a efektywno systemu przechowywania danych
wprowadzenia wielu dodatkowych załoe, co mijałoby si z ogóln natur przeprowadzonych
bada. Z uwagi na ograniczone miejsce, wyniki przedstawiono w postaci dwóch wykresów. Rys. 1
przedstawia koszt archiwizacji dla komputera „A” (uwzgldniajcy tylko koszty przechowywania
i jednokrotnej kompresji). Z kolei rys. 2 przedstawia koszty przechowywania dla komputera „B”
obejmujce koszty przechowywania, jednokrotnej kompresji i stukrotnej dekompresji. Z uwagi na
duy rozrzut wartoci, wykres na rys. 2 przedstawiono w skali logarytmicznej.
Z obserwacji rys. 1 wynika, e w przypadku pamici lokalnych, jedynie szybki algorytm, taki
jak Deflate uyty w programie Zip, pozwala uzasadni
ekonomicznie zastosowanie kompresji
danych. Rys. 2 pokazuje, e w przypadku pamici dołczonych sieciowo – nawet jeeli jest to
szybkie połczenie gigabitowe – uzasadnione ekonomicznie moe by
signicie po bardziej
efektywne algorytmy, takie jak LZMA zaimplementowany w programie 7-Zip. Jest to take
najlepszy wybór w przypadku łcza bezprzewodowego, dla którego nie zamieszczono tu
szczegółowych rezultatów z powodu ograniczonego miejsca.
4,500
4,000
3,500
Koszt (cent US)
3,000
2,500
2,000
1,500
1,000
0,500
Lite-On/DVD-RW 4,7 GB
RAID0 2xRaptor 150 GB
Bez kompresji
Samsung/CD-RW 0,7 GB
7-Zip
bzip2
GRZipII
Flash Corsair 8 GB
PPMd
Rar
USB WD Passport 120 GB
Zip
Rys. 1. redni koszt archiwizacji danych dla komputera „A” (pamici lokalne)
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 17, 2008
221
10 000,00
Koszt (cent US)
1 000,00
100,00
10,00
1,00
Lite-On/DVD-RW 4,7 GB
RAID0 2xRaptor 150 GB
Bez kompresji
Flash Corsair 8 GB
7-Zip
bzip2
GRZipII
Samsung/CD-RW 0,7 GB
PPMd
Rar
RAID0 2xBarracuda
320GB (lokalny)
Zip
Rys. 2. redni koszt przechowywania danych dla komputera „B” (Gigabit Ethernet)
5. Uwagi kocowe
Wyniki przeprowadzonych eksperymentów badawczych pokazuj, e mimo istotnego wzrostu
wydajnoci pamici masowych, stosowanie kompresji danych nadal znajduje uzasadnienie
ekonomicznie. W niniejszym artykule zamieszczono wyniki otrzymane w systemie testowym,
zbudowanym z przykładowych komponentów i zawierajcym przekrojowy wybór danych.
W przypadku rzeczywistych systemów przechowywania danych o opłacalnoci zastosowania
kompresji decydowa
bd parametry wydajnociowe uytych do ich budowy komponentów
sprztowych oraz podatno
na kompresj przechowywanych w nich danych. Naley zauway
, e
dziki dostpnoci programu CoTe [19], istnieje moliwo
wykonania podobnych testów dla
systemu uytkownika i zestawu danych dowolnie przez niego przygotowanych.
Przy obecnych poziomach cen najbardziej efektywnym ekonomicznie urzdzeniem
przechowywania danych zapewniajcym swobodny dostp do danych (w testach nie badano
pamici tamowych), biorc pod uwag nie tylko koszty przechowywania danych, ale
i póniejszego do nich dostpu, s dyski SATA.
Sporód algorytmów kompresji najbardziej uzasadnione wydaje si uycie algorytmów
substytucyjnych. W zalenoci od wydajnoci urzdze i czstotliwoci dostpu do danych moe
by
to szybki algorytm Deflate lub wolniejszy LZMA.
222
Jakub Swacha
Kompresja danych a efektywno systemu przechowywania danych
Bibliografia
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Average hourly earnings of production and nonsupervisory workers on private nonfarm
payrolls by industry sector and selected industry detail, seasonally adjusted, U.S. Bureau
of Labor Statistics, http://www.bls.gov/news.release/empsit.t17.htm, dane za 03.2008.
[dostp: 2008-05-29].
Bergmans
W.:
Maximum
Compression.
The
Test
Files,
http://www.maximumcompression.com/data/files, 2007 [dostp: 2008-05-29].
Burrows M., Wheeler D. J.: A block-sorting data compression algorithm. SRC Research
Report 124, Digital Equipment Corporation, Palo Alto, CA, USA, 1994.
Cennik
sklepów
internetowych,
http://computers.pricegrabber.com/harddrives/p/11/st=pop_category, [dostp: 2008-05-29].
Cypryjaski J.: Metodyczne podstawy ekonomicznej oceny inwestycji informatycznych
przedsibiorstw, Uniwersytet Szczeciski, Szczecin 2007.
Deutsch P.: DEFLATE Compressed Data Format Specification version 1.3. RFC1951,
Network Working Group 1996. http://www.ietf.org/rfc/rfc1951.txt.
Gailly J-L., Adler M.: Zip 2.32 (program do kompresji), 2006. http://www.info-zip.org/.
Historical Notes about the Cost of Hard Drive Storage Space (Smith I., ed.).
http://www.littletechshoppe.com/ns1625/winchest.html, January 21, 2008 [dostp: 200805-29].
Larose D.T.: Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006.
Mahoney M.: Adaptive Weighing of Context Models for Lossless Data Compression.
Technical Report CS-2005-16, Florida Institute of Technology, Melbourne, FL, USA.
Mahoney
M.:
PAQ
8o10t
(program
do
kompresji),
2008.
http://www.cs.fit.edu/~mmahoney/compression/paq8o10t.zip, [dostp: 2008-08-03].
Martelock
Ch.:
CCM
1.30c
(program
do
kompresji),
2008.
http://christian.martelock.googlepages.com/dl_ccm130c.zip.
Pavlov I.: 7-Zip 4.57 (program do kompresji), 2007. http://www.7-Zip.org.
Roshal
A.:
WinRar
3.62
(program
do
kompresji),
2007.
http://www.rarlab.com/download.htm.
Schindler M.: A fast block-sorting algorithm for lossless data compression. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA,
USA, 1997, 469.
Shkarin D.: PPM: One Step to Practicality. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA, USA, 2002, 202-211.
Shkarin D.: PPMd var. J (program do kompresji), 2006. http://www.compression.ru/ds.
Short J. E.: Information Lifecycle Management: An Analysis of End User Perspectives.
Working Paper 06-01, University of California, San Diego, CA, USA, January 2006.
Swacha J.: CoTe: A Software Tool for Compression Benchmarking. In: Proceedings Data
Compression Conference. IEEE Computer Society, Los Alamitos, CA, USA, 2008, 547.
Swacha J.: Design of low-cost system for compressed storage benchmarking. Polish Journal of Environmental Studies, 16, 4A, 2007, 328-330.
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 17, 2008
223
21. Swacha J.: Ekonomiczne miary efektywnoci kompresji danych. Informatyka Ekonomiczna, nr 9. Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1144. Wydawnictwo
Akademii Ekonomicznej we Wrocławiu, Wrocław 2006, 252-268.
22. Swacha J.: Popularne standardy kompresji danych. Pro Dialog, nr 9, 1999, 23-32.
23. Swacha J.: Usprawnienie systemów informatycznych poprzez uycie kompresji danych.
W: Informatyka w globalnym wiecie (Kisielnicki J., red.). Wydawnictwo PolskoJaposkiej Wyszej Szkoły Technik Komputerowych, Warszawa 2006, 364-370.
24. Swacha J.: Zarzdzanie przechowywaniem danych: zarys praktycznej metodyki oceny
efektywnoci. W: Zarzdzanie wiedz i technologiami informatycznymi (Orłowski C.,
Kowalczuk Z., Szczerbiski E., red.), Pomorskie Wydawnictwo Naukowo-Techniczne,
Gdask 2008, 139-146.
25. Szyjewski Z., Swacha J.: A New Method of Predictive-substitutional Data Compression.
In: Internet Technologies, Applications and Societal Impact. Kluwer Academic Publishers, Boston, 2002, 123-134.
26. The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through
2010 (Gantz J. F., ed.), IDC, Framingham, MA, USA, March 2007.
http://www.emc.com/about/destination/digital_universe.
27. Toigo J. W.: Zarzdzanie przechowywaniem danych w sieci, Helion, Gliwice 2004.
28. Worldwide Disk Storage Market Experiences Strong Fourth Quarter Growth as 2007
Revenues Surge Higher, According to IDC (Nisbet B., Yezhkova N., eds.), IDC,
Framingham, MA, USA, March 6, 2008.
DATA COMPRESSION AND ECONOMIC EFFICIENCY OF DATA STORAGE SYSTEM
Summary
An important factor affecting the relation of costs to benefits of data storage is
data compression. Implementing it reduces the storage costs (by decreasing the capacity required to store the data), but on the other hand it increases the usage costs
(because of additional compression/decompression procedures). This paper covers
the results of experiments involving a selection of the most popular lossless compression algorithms and a test system based on widely used low-cost components, typical
for small data storage systems.
Keywords: data compression, data storage efficiency, data storage costs, data storage system
Jakub Swacha
Wydział Nauk Ekonomicznych i Zarzdzania
Instytut Informatyki w Zarzdzaniu
Uniwersytet Szczeciski,
71-101 Szczecin, ul. Mickiewicza 64
e-mail: [email protected]

Podobne dokumenty