Pobierz artykuł PDF
Transkrypt
Pobierz artykuł PDF
KOMPRESJA DANYCH A EKONOMICZNA EFEKTYWNO SYSTEMU PRZECHOWYWANIA DANYCH 1 JAKUB SWACHA Uniwersytet Szczeciski Streszczenie Ekonomiczna efektywno systemu przechowywania danych stanowi stosunek wartoci uzyskanych korzyci do kosztów budowy i utrzymania takiego systemu. Warto uytkowa informacji maleje wraz z wydłuaniem si czasu potrzebnego na dostp do niej, z kolei koszt urzdze słucych do przechowywania danych wzrasta wraz z szybkoci dostpu do danych, któr zapewniaj. Podstawowym celem zarzdzania przechowywaniem danych jest przyporzdkowanie danym, z uwzgldnieniem ich uytkowej wartoci, najbardziej właciwej i efektywnej ekonomicznie infrastruktury informatycznej słucej do ich przechowywania. Istotnym czynnikiem zmieniajcym relacj kosztów i korzyci przechowywania danych jest kompresja danych. Jej zaimplementowanie w systemie z jednej strony obnia koszty (poprzez zmniejszenie pojemnoci pamici masowej potrzebnej do przechowania danych), z drugiej obnia take warto korzyci (przede wszystkim, obniajc szybko dostpu do danych). W niniejszym artykule opisano wyniki bada przeprowadzonych z wykorzystaniem szeregu najpopularniejszych obecnie algorytmów kompresji bezstratnej na systemie testowym zbudowanym z komponentów powszechnie uywanych w niewielkich systemach przechowywania danych. Słowa kluczowe: kompresja danych, efektywno przechowywania danych, koszty przechowywania danych, system przechowywania danych 1. Wprowadzenie Jednym z najbardziej charakterystycznych przejawów rewolucji informacyjnej, która zachodzi w dzisiejszych czasach, jest lawinowy wzrost wiatowych zasobów informacyjnych. Według prognoz analityków wielko wiatowych cyfrowych zasobów informacyjnych z poziomu 160 eksabajtów na pocztku roku 2007, do roku 2010 wzronie do jednego zetabajta [26]. Bardzo szybkiemu wzrostowi zasobów informacyjnych towarzyszy bardzo szybki wzrost pojemnoci pamici masowych słucych do ich przechowywania. Jest on moliwy za spraw postpu zachodzcego w dziedzinie technologii przechowywania danych – od roku 1956 koszt 1 gigabajta przestrzeni dyskowej zmalał z 10 milionów dolarów [8] do zaledwie 14 centów [4], nastpiła równie kolosalna poprawa wydajnoci tych urzdze. Niemniej, wydatki na przechowywanie danych stanowi istotny element całoci wydatków na informatyk [27]. O skali tych wydatków wiadcz cho by przychody producentów systemów przechowywania danych – tylko dla producentów systemów dyskowych osignły one 26,3 miliarda dolarów w roku 2007 [28]. 1 W artykule wykorzystano rezultaty pracy naukowej finansowanej ze rodków na nauk w latach 2007-2008 jako projekt badawczy. 214 Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych Zgodnie z logik zarzdzania cyklem ycia informacji, infrastruktur pamici masowych powinno si dobiera w sposób adekwatny do uytkowej wartoci przechowywanych informacji [18]. Wycena uytkowej wartoci informacji musi uwzgldnia funkcj, jak pełni ona w procesach realizowanych w przedsibiorstwie (lub innej instytucji) [5]. Naley bra pod uwag zarówno warto informacji jako takiej (w funkcji sterujcej, decyzyjnej, czy konsumpcyjnej), jak i jej zdolno do bycia wykorzystan do tworzenia nowych informacji, szczególnie istotn w dobie rozwoju metod eksploracji danych [9]. W kadym przypadku, czynnikiem ograniczajcym uytkow warto przechowywanej informacji jest z pewnoci trudno w dostpie do niej, przede wszystkim czas, jaki trzeba na to powici . Znanym sposobem na zmniejszenie kosztów zwizanych z przechowywaniem danych jest ich kompresja [23]. Niestety, prowadzi ona zazwyczaj do obnienia szybkoci dostpu do danych. Powstaje zatem pytanie, na ile uzasadnione ekonomicznie jest stosowanie metod kompresji danych, biorc pod uwag nie tylko korzyci wynikajce z ich uycia, ale i koszty. Prób czstkowej odpowiedzi na to pytanie s zamieszczone w dalszej czci tego artykułu wyniki bada przeprowadzonych na systemie testowym o parametrach uytkowych zblionych do rzeczywistych systemów spotykanych w małych firmach i instytucjach. Wczeniej jednak, opisane zostan krótko metody kompresji danych i praktyczne konsekwencje ich stosowania. 2. Metody kompresji danych i konsekwencje ich stosowania Kompresja danych moe polega bd na alternatywnym, krótszym zakodowaniu tych samych danych (opierajc si na ich właciwociach statystycznych), bd na usuniciu sporód danych tych, które nie s istotne w ich póniejszej interpretacji (opierajc si na modelu odbiorcy i jego potrzeb informacyjnych). Metody z pierwszej grupy nazywane s bezstratnymi (ang. lossless), z drugiej za stratnymi (ang. lossy) [22]. W systemach przechowywania danych ogólnego przeznaczenia implementuje si zwykle metody bezstratne, gdy tylko one umoliwiaj odtworzenie danych w ich oryginalnej postaci. Wród samych metod bezstratnych rozróniamy cztery podstawowe ich rodzaje, według zasady działania, na której si opieraj [21]: • substytucyjne, • predykcyjne, • transformacyjne, • hybrydowe. Metody substytucyjne opieraj swe działanie na podmianie długich, wielokrotnie wystpujcych cigów symboli ich krótszymi odpowiednikami (na przykład zastpowanie słów indeksami słownika). S to metody najszerzej rozpowszechnione, wystarczy wymieni tu algorytm Deflate [6] zaimplementowany w programach Gzip i Zip [7], czy podstawowy tryb działania programu Rar [14]. Równie zdecydowana wikszo układów sprztowych realizujcych kompresj bezstratn implementuje metody substytucyjne. Ich podstawow zalet jest szybko , wad – wzgldnie słaba efektywno kompresji (redukcja długoci plików wskutek kompresji). Najbardziej zaawansowane algorytmy substytucyjne – takie jak na przykład LZMA zaimplementowany jako podstawowy tryb programu 7-Zip [13] – wyróniaj si duo lepsz efektywnoci kompresji (cho nie dorównujc najlepszym algorytmom innych typów), lecz znacznie wydłuonym czasie kompresji, przy zachowaniu krótkiego czasu dekompresji. POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008 215 Metody predykcyjne wykorzystuj model statystyczny, zbudowany w oparciu o wczeniej przetworzone dane, aby przewidzie dalszy cig danych. Prosty model osiga zazwyczaj nisk efektywno kompresji, skomplikowany moe osign bardzo wysok, jednak jego budowa i utrzymanie wymaga duej iloci pamici i czasu. Podstawowym parametrem modelu jest jego rzd, okrelajcy maksymaln długo kontekstu, czyli liczb ostatnio przetworzonych symboli, która wpływa na wynik predykcji kolejnego symbolu. Zwykle jest to kilka symboli, w bardziej zaawansowanych modelach – kilkanacie, lub nawet kilkadziesit. Dwa najczciej obecnie spotykane rodzaje bezstratnych metod predykcyjnych to predykcja przez czciowe dopasowanie (ang. prediction by partial match, PPM) oraz mieszanie kontekstów (ang. context mixing, CM). PPM próbuje wykorzysta najpierw model dla najdłuszego moliwego kontekstu, a w przypadku, gdy nie przewidział on wystpienia nastpnego symbolu, koduje błd predykcji (tak zwan ucieczk) i przechodzi do modelu dla kontekstu o jeden symbol krótszego [16]. W CM prawdopodobiestwo wystpienia pewnego symbolu jest redni prawdopodobiestw wystpienia tego symbolu otrzymanych ze wszystkich dostpnych modeli (niekoniecznie rónicych si tylko długoci kontekstu), waon efektywnoci poszczególnych modeli [10]. Najbardziej znan implementacj PPM jest PPMd D. Szkarina [17]; PPM wykorzystywany jest take w trybie kompresji tekstu programu Rar [14]. Z kolei najbardziej znana implementacja CM to najbardziej efektywny obecnie program kompresujcy, PAQ [11]. Znacznie bardziej praktyczn implementacj (z uwagi na szybko działania) stanowi program CCM [12]. Metody transformacyjne posługuj si zwykle bardzo prostymi modelami statystycznymi, kluczem ich działania jest jednak przekształcenie, któremu poddaj wpierw dane. Celem tego przekształcenia jest taka zmiana kolejnoci i zakresu wartoci danych, by efektywnie si one kompresowały z wykorzystaniem tego prostego (lecz odpowiednio dobranego) modelu. Dwa podstawowe przekształcenia to transformata Burrowsa-Wheelera (BWT) [3] i transformata sortujca Schindlera (ST) [15]. Adaptacj pierwszej z nich stanowi popularny program bzip2 i programy z nim kompatybilne (na przykład 7-Zip w jednym ze swych trybów). Pod wzgldem efektywnoci metody transformacyjne ustpuj jedynie najlepszym metodom predykcyjnym, s jednak wyranie wolniejsze od metod substytucyjnych. Metody hybrydowe stanowi połczenie metod rónego typu. Przykładem jest algorytm PLZ [25], łczcy substytucj z predykcj i pozwalajcy przez to na uzyskanie szybkoci i efektywnoci kompresji plasujcej si pomidzy tymi dwoma podejciami. Wykonanie kompresji (w przypadku zapisu) lub dekompresji (w przypadku odczytu) wydłua czas dostpu do danych. Nie jest to jednak jedyna negatywna konsekwencja stosowania kompresji. Kompresja utrudnia losowy dostp do danych. Po skompresowaniu pliku, w przypadku wikszoci powszechnie stosowanych metod kompresji danych, moliwy jest jedynie sekwencyjny dostp do jego zawartoci. Oznacza to, e aby odczyta dane znajdujce si przed samym kocem pliku, naley wpierw zdekompresowa wszystkie znajdujce si wczeniej. Podobnie modyfikacja danych znajdujcych si na pocztku pliku wymaga rekompresji jego całoci. Sposobem złagodzenia tego zjawiska jest podział pliku na bloki, z których kady kompresowany jest osobno – negatywnie wpływa to jednak na efektywno kompresji. Uszkodzenie (przekłamanie) krótkiej sekwencji symboli na pewnej pozycji w pliku zwykle uniemoliwia odczyt wszystkich symboli znajdujcych si za ni. Tak jak poprzednio, złagodzi to mona przez podział pliku na bloki, wtedy uszkodzenia wtórne nie bd wykraczały poza granice bloków. Lepszym rozwizaniem jest dodanie bloków redundantnych, pozwalajcych na 216 Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych odtworzenie całoci danych nawet w przypadku wielu uszkodze. Obnia to efektywno kompresji, polepsza jednak prawdopodobiestwo wiernego przechowania danych nawet wobec oryginalnej postaci nieskompresowanej. 3. Miejsce, zakres i sposób przeprowadzenia eksperymentu badawczego W celu przeprowadzenia eksperymentu badawczego przygotowano niewielki testowy system przechowywania danych o niskich kosztach eksploatacji według załoe przedstawionych w pracy [20]. Sporód szerokiej gamy urzdze mogcych posłuy do zbudowania systemu przechowywania danych do przeprowadzenia eksperymentu badawczego wybrano nastpujce: • dyski twarde SATA: o Western Digital Raptor 150 GB (10000 obr./min.) – reprezentujcy najwyszy poziom wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0; o Seagate Barracuda 320 GB (7200 obr./min.) – reprezentujcy redni poziom wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0; o Hitachi HTS 100 GB (5400 obr./min.) – reprezentujcy niski poziom wydajnoci dla dysków SATA (charakterystyczny dla komputerów przenonych); • napdy dysków optycznych ATA DVD-RW: o Lite-On LH20A1H11C obsługujcy noniki CD-RW Verbatim 12x 700MB w trybie zapisu pakietowego, o Samsung SH-182M obsługujcy noniki DVD+RW 4x Verbatim 4,7GB w trybie zapisu pakietowego; • pami zewntrzn dołczana poprzez interfejs USB: o dysk twardy Western Digital Passport 120 GB (5400 obr./min.), o pami półprzewodnikowa Corsair Flash Voyager 8GB. Pamici masowe umieszczono w trzech jednostkach komputerowych: • komputer „A” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core 2 Duo 6420 2,13 GHz (FSB 1066 MHz), płyta główna oparta na układzie Intel P965 / ICH8, pami DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Western Digital Raptor, obie stacje dysków optycznych oraz obie pamici zewntrzne USB; • komputer „B” o nastpujcej specyfikacji technicznej: procesor AMD Athlon64 3800+ 2,4 GHz (FSB 1000 MHz), płyta główna oparta na układzie GeForce 6100 / nForce 430, pami DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Seagate Barracuda; • komputer „C” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core Duo 2250 1,73 GHz (FSB 533 MHz), płyta główna oparta na układzie Intel Mobile 945 Express, pami DDR2 533 MHz 1 GB, pod kontrol 32-bitowego systemu operacyjnego Windows Vista Home Basic; wbudowany dysk Hitachi. Rozpatrzono nastpujce sposoby dostpu do przechowywanych danych: • lokalny, dane dostpne na urzdzeniach bezporednio podłczonych do stacji roboczej (poprzez interfejs SATA, PATA lub USB); POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008 217 zdalny, dane dostpne na urzdzeniach bezporednio podłczonych do serwera, stacja robocza połczona z serwerem przewodowo (Gigabit Ethernet) lub bezprzewodowo (802.11g). Sporód dostpnych implementacji algorytmów kompresji do eksperymentów wybrano: • Deflate [6] zaimplementowany w programie Zip 2.32 (wraz z Unzip 5.52) [7] w domylnym trybie redniej kompresji „–6”, • LZMA zaimplementowany w programie 7-Zip [13] w trybie „–5”, • PPM [16] zaimplementowany w PPMd [17] z nastpujcymi ustawieniami: rzd modelu 7, 256 MB pamici, • PPM zaimplementowany w programie Rar [14] w trybie najlepszej kompresji, • BWT [3] zaimplementowany w programie bzip2 w trybie najlepszej kompresji („-9”), • algorytm hybrydowy (LZP+BWT) zaimplementowany w programie GRZipII w trybie najlepszej kompresji. Efektywno kompresji zaley od zawartoci kompresowanych plików. W przypadku takich jak opisywany eksperymentów prowadzonych w warunkach sztucznych, wykorzystuje si zestawy testowe, do których pliki dobiera si w taki sposób, by były moliwie reprezentatywne dla swoich typów, to znaczy, by efektywno kompresji pliku ujtego w zestawie testowym nie odbiegała znaczco od redniej efektywnoci kompresji duej liczby plików tego samego typu. Z uwagi na to, e opisywany eksperyment nie jest ograniczony do pewnego ustalonego typu danych, lecz ma umoliwi porównanie efektywnoci badanych technologii dla plików rónego typu, a jednoczenie biorc pod uwag ograniczon limitem długoci artykułu moliwo przedstawienia wyników, posłuono si uniwersalnym zestawem testowym najwikszego obecnie internetowego serwisu powiconego kompresji danych – Maximum Compression [2]. Zestaw ten składa si z 10 plików o łcznej długoci 53 134 726 bajtów, nalecych do szeroko obecnie rozpowszechnionych typów danych: • Obraz JPEG „A10.jpg” o długoci 842 468 bajtów, • Plik programu „AcroRd32.exe” o długoci 3 870 784 bajtów, • Plik słownika „english.dic” o długoci 4 067 439 bajtów, • Ksika elektroniczna „FlashMX.pdf” o długoci 4 526 946 bajtów, • Log webowy „fp.log” o długoci 20 617 071 bajtów, • Biblioteka dynamiczna „mso97.dll” o długoci 3 782 416 bajtów, • Dokument edytora Word „ohs.doc” o długoci 4 168 192 bajtów, • Obraz BMP „rafale.bmp” o długoci 4 149 414 bajtów, • Plik pomocy on-line „vcfiu.hlp” o długoci 4 121 418 bajtów, • Dokument tekstowy „world95.txt” o długoci 2 988 578 bajtów. Zgodnie z wytycznymi przedstawionymi w pracy [20], przed przeprowadzeniem eksperymentów na wykorzystanych w nich komputerach wykonano wiee instalacje systemów operacyjnych. Pomiary parametrów wydajnociowych wykonano z pomoc autorskiego oprogramowania CoTe [19]. Zgodnie z przyjt metodologi, mierzono całkowity czas trwania poszczególnych operacji. Zmierzonych czasów nie rozbijano na czasy składowe odnoszce si do poszczególnych etapów pozyskiwania danych (odczytu, zapisu, przesłania w sieci, kompresji, dekompresji). • 218 Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych 4. Wyniki eksperymentów i ich dyskusja Tabela 1 przedstawia uzyskane wyniki kompresji poszczególnych plików (w bitach pliku skompresowanego przypadajcych na bajt pliku oryginalnego). Tabela 1. Efektywno kompresji dla poszczególnych programów i plików Plik 7-Zip bzip2 A10.jpg AcroRd32.exe english.dic FlashMX.pdf FP.LOG MSO97.DLL ohs.doc rafale.bmp vcfiu.hlp world95.txt rednia 8,033 2,664 1,675 6,557 0,360 3,657 1,524 1,911 1,207 1,579 2,917 7,943 3,513 2,403 6,735 0,281 4,465 1,740 1,716 1,383 1,545 3,172 Program GRZipII Zip PPM d 7,922 7,993 7,917 3,333 3,585 3,202 2,336 2,066 2,100 6,615 6,780 6,577 0,243 0,562 0,241 4,108 4,635 3,960 1,588 1,948 1,600 1,523 2,432 1,512 1,275 1,648 1,298 1,291 2,338 1,270 3,023 3,399 2,968 Rar 8,001 2,845 2,193 6,626 0,258 3,919 1,547 1,585 1,298 1,242 2,951 rednia 7,969 3,110 2,063 6,619 0,305 4,014 1,614 1,734 1,296 1,481 3,021 Jak wida , dla testowego zestawu plików, najlepszy rezultat przypadł algorytmowi LZMA (program 7-Zip). Nieznacznie ustpuj mu wyniki uzyskane przez programy GRZipII i PPMd. Czołówce wyranie ustpuje Zip. Tabele 2, 3 i 4 zawieraj pomiary czasu kompresji uzyskane odpowiednio dla dostpu do pamici masowych: lokalnego (z komputera „A”), sieciowego przewodowego (z komputera „B”) i sieciowego bezprzewodowego (z komputera „C”). Dla odniesienia, w pierwszej kolumnie podano czasy kopiowania nieskompresowanych plików. Pomiary czasu uzyskano w pojedynczej sesji testowej. W sytuacjach, w których wystpił przynajmniej jeden błd odtworzenia danych (wynikały one z problemów ze współdziałaniem niektórych programów i sterownika zapisu pakietowego napdów optycznych w warunkach pracy sieciowej), by zachowa porównywalno danych, nie powtarzano eksperymentu, a odpowiednie pola tablicy oznaczono słowem „błd”. Nie były one take brane przy obliczaniu kosztów (std brak niektórych kolumn na rys. 1 i 2). POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008 219 Tabela 2. redni czas kompresji pliku dla komputera „A” (pamici lokalne) Urzdzenie/nonik Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB USB WD Passport 120 GB rednia (brak) 7-Zip bzip2 1,310 0,039 6,483 2,770 0,328 1,195 1,400 1,789 2,167 1,510 5,809 5,107 6,916 6,500 5,221 2,186 1,559 6,175 Program GRZiZip PPMd pII 1,488 1,016 1,853 1,035 0,332 1,175 2,802 2,517 2,702 2,405 2,440 2,539 1,140 0,587 1,279 2,030 1,378 Rar rednia 2,851 1,080 2,530 2,233 1,173 2,246 1,406 3,585 3,102 2,010 2,154 1,824 2,645 Tabela 3. redni czas kompresji pliku komputera „B” (sie przewodowa) Program GRZipII Zip Urzdzenie/nonik (brak) 7-Zip bzip2 Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB RAID0 2xBarracuda 320GB* rednia 4,297 0,512 28,414 7,559 0,153 8,187 12,517 6,162 15,231 14,922 14,940 16,019 14,839 15,190 * Dysk lokalny. błd 12,888 6,093 3,193 3,171 3,199 3,392 3,104 3,212 błd 0,885 błd 4,849 0,724 PPMd 4,178 3,837 3,742 4,557 3,779 4,024 Rar 5,559 3,979 rednia# 7,496 5,431 błd 5,544 3,886 8,327 5,309 # Z pominiciem wyników programu Zip. Tabela 4. Czasy kompresji dla komputera „C” (sie bezprzewodowa) Urzdzenie/nonik (brak) 7-Zip bzip2 Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB Hitachi 100GB* rednia 5,611 1,911 31,837 7,223 0,173 9,320 3,242 2,702 8,914 7,736 11,335 8,654 7,228 8,748 * Dysk lokalny. błd 3,313 2,325 Program GRZipII Zip 4,211 2,165 4,146 2,884 1,708 3,014 błd 1,341 błd 4,371 0,471 PPMd Rar 8,390 6,461 11,784 8,799 5,160 8,143 4,599 2,054 rednia# 5,828 3,838 błd 3,502 1,866 5,729 3,077 # Z pominiciem wyników programu Zip. Aby zbada ekonomiczny efekt uycia kompresji danych, posłuono si prost formuł kosztów sumujc koszty przechowywania danych i koszty kadorazowego dostpu do nich. Przyjto, e roczne całkowite koszty utrzymania pamici masowych równe s kosztom ich nabycia (przyjtym według cen podanych na stronie [4]) a koszty dostpu równaj si redniemu wynagrodzeniu pracownika przypadajcemu na czas dostpu do danych (przyjtym za stron [1]). Wykorzystanie bardziej skomplikowanej formuły (takiej jak podana w pracy [24]) wymagałoby 220 Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych wprowadzenia wielu dodatkowych załoe, co mijałoby si z ogóln natur przeprowadzonych bada. Z uwagi na ograniczone miejsce, wyniki przedstawiono w postaci dwóch wykresów. Rys. 1 przedstawia koszt archiwizacji dla komputera „A” (uwzgldniajcy tylko koszty przechowywania i jednokrotnej kompresji). Z kolei rys. 2 przedstawia koszty przechowywania dla komputera „B” obejmujce koszty przechowywania, jednokrotnej kompresji i stukrotnej dekompresji. Z uwagi na duy rozrzut wartoci, wykres na rys. 2 przedstawiono w skali logarytmicznej. Z obserwacji rys. 1 wynika, e w przypadku pamici lokalnych, jedynie szybki algorytm, taki jak Deflate uyty w programie Zip, pozwala uzasadni ekonomicznie zastosowanie kompresji danych. Rys. 2 pokazuje, e w przypadku pamici dołczonych sieciowo – nawet jeeli jest to szybkie połczenie gigabitowe – uzasadnione ekonomicznie moe by signicie po bardziej efektywne algorytmy, takie jak LZMA zaimplementowany w programie 7-Zip. Jest to take najlepszy wybór w przypadku łcza bezprzewodowego, dla którego nie zamieszczono tu szczegółowych rezultatów z powodu ograniczonego miejsca. 4,500 4,000 3,500 Koszt (cent US) 3,000 2,500 2,000 1,500 1,000 0,500 Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Bez kompresji Samsung/CD-RW 0,7 GB 7-Zip bzip2 GRZipII Flash Corsair 8 GB PPMd Rar USB WD Passport 120 GB Zip Rys. 1. redni koszt archiwizacji danych dla komputera „A” (pamici lokalne) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008 221 10 000,00 Koszt (cent US) 1 000,00 100,00 10,00 1,00 Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Bez kompresji Flash Corsair 8 GB 7-Zip bzip2 GRZipII Samsung/CD-RW 0,7 GB PPMd Rar RAID0 2xBarracuda 320GB (lokalny) Zip Rys. 2. redni koszt przechowywania danych dla komputera „B” (Gigabit Ethernet) 5. Uwagi kocowe Wyniki przeprowadzonych eksperymentów badawczych pokazuj, e mimo istotnego wzrostu wydajnoci pamici masowych, stosowanie kompresji danych nadal znajduje uzasadnienie ekonomicznie. W niniejszym artykule zamieszczono wyniki otrzymane w systemie testowym, zbudowanym z przykładowych komponentów i zawierajcym przekrojowy wybór danych. W przypadku rzeczywistych systemów przechowywania danych o opłacalnoci zastosowania kompresji decydowa bd parametry wydajnociowe uytych do ich budowy komponentów sprztowych oraz podatno na kompresj przechowywanych w nich danych. Naley zauway , e dziki dostpnoci programu CoTe [19], istnieje moliwo wykonania podobnych testów dla systemu uytkownika i zestawu danych dowolnie przez niego przygotowanych. Przy obecnych poziomach cen najbardziej efektywnym ekonomicznie urzdzeniem przechowywania danych zapewniajcym swobodny dostp do danych (w testach nie badano pamici tamowych), biorc pod uwag nie tylko koszty przechowywania danych, ale i póniejszego do nich dostpu, s dyski SATA. Sporód algorytmów kompresji najbardziej uzasadnione wydaje si uycie algorytmów substytucyjnych. W zalenoci od wydajnoci urzdze i czstotliwoci dostpu do danych moe by to szybki algorytm Deflate lub wolniejszy LZMA. 222 Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych Bibliografia 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Average hourly earnings of production and nonsupervisory workers on private nonfarm payrolls by industry sector and selected industry detail, seasonally adjusted, U.S. Bureau of Labor Statistics, http://www.bls.gov/news.release/empsit.t17.htm, dane za 03.2008. [dostp: 2008-05-29]. Bergmans W.: Maximum Compression. The Test Files, http://www.maximumcompression.com/data/files, 2007 [dostp: 2008-05-29]. Burrows M., Wheeler D. J.: A block-sorting data compression algorithm. SRC Research Report 124, Digital Equipment Corporation, Palo Alto, CA, USA, 1994. Cennik sklepów internetowych, http://computers.pricegrabber.com/harddrives/p/11/st=pop_category, [dostp: 2008-05-29]. Cypryjaski J.: Metodyczne podstawy ekonomicznej oceny inwestycji informatycznych przedsibiorstw, Uniwersytet Szczeciski, Szczecin 2007. Deutsch P.: DEFLATE Compressed Data Format Specification version 1.3. RFC1951, Network Working Group 1996. http://www.ietf.org/rfc/rfc1951.txt. Gailly J-L., Adler M.: Zip 2.32 (program do kompresji), 2006. http://www.info-zip.org/. Historical Notes about the Cost of Hard Drive Storage Space (Smith I., ed.). http://www.littletechshoppe.com/ns1625/winchest.html, January 21, 2008 [dostp: 200805-29]. Larose D.T.: Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006. Mahoney M.: Adaptive Weighing of Context Models for Lossless Data Compression. Technical Report CS-2005-16, Florida Institute of Technology, Melbourne, FL, USA. Mahoney M.: PAQ 8o10t (program do kompresji), 2008. http://www.cs.fit.edu/~mmahoney/compression/paq8o10t.zip, [dostp: 2008-08-03]. Martelock Ch.: CCM 1.30c (program do kompresji), 2008. http://christian.martelock.googlepages.com/dl_ccm130c.zip. Pavlov I.: 7-Zip 4.57 (program do kompresji), 2007. http://www.7-Zip.org. Roshal A.: WinRar 3.62 (program do kompresji), 2007. http://www.rarlab.com/download.htm. Schindler M.: A fast block-sorting algorithm for lossless data compression. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA, USA, 1997, 469. Shkarin D.: PPM: One Step to Practicality. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA, USA, 2002, 202-211. Shkarin D.: PPMd var. J (program do kompresji), 2006. http://www.compression.ru/ds. Short J. E.: Information Lifecycle Management: An Analysis of End User Perspectives. Working Paper 06-01, University of California, San Diego, CA, USA, January 2006. Swacha J.: CoTe: A Software Tool for Compression Benchmarking. In: Proceedings Data Compression Conference. IEEE Computer Society, Los Alamitos, CA, USA, 2008, 547. Swacha J.: Design of low-cost system for compressed storage benchmarking. Polish Journal of Environmental Studies, 16, 4A, 2007, 328-330. POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008 223 21. Swacha J.: Ekonomiczne miary efektywnoci kompresji danych. Informatyka Ekonomiczna, nr 9. Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1144. Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław 2006, 252-268. 22. Swacha J.: Popularne standardy kompresji danych. Pro Dialog, nr 9, 1999, 23-32. 23. Swacha J.: Usprawnienie systemów informatycznych poprzez uycie kompresji danych. W: Informatyka w globalnym wiecie (Kisielnicki J., red.). Wydawnictwo PolskoJaposkiej Wyszej Szkoły Technik Komputerowych, Warszawa 2006, 364-370. 24. Swacha J.: Zarzdzanie przechowywaniem danych: zarys praktycznej metodyki oceny efektywnoci. W: Zarzdzanie wiedz i technologiami informatycznymi (Orłowski C., Kowalczuk Z., Szczerbiski E., red.), Pomorskie Wydawnictwo Naukowo-Techniczne, Gdask 2008, 139-146. 25. Szyjewski Z., Swacha J.: A New Method of Predictive-substitutional Data Compression. In: Internet Technologies, Applications and Societal Impact. Kluwer Academic Publishers, Boston, 2002, 123-134. 26. The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through 2010 (Gantz J. F., ed.), IDC, Framingham, MA, USA, March 2007. http://www.emc.com/about/destination/digital_universe. 27. Toigo J. W.: Zarzdzanie przechowywaniem danych w sieci, Helion, Gliwice 2004. 28. Worldwide Disk Storage Market Experiences Strong Fourth Quarter Growth as 2007 Revenues Surge Higher, According to IDC (Nisbet B., Yezhkova N., eds.), IDC, Framingham, MA, USA, March 6, 2008. DATA COMPRESSION AND ECONOMIC EFFICIENCY OF DATA STORAGE SYSTEM Summary An important factor affecting the relation of costs to benefits of data storage is data compression. Implementing it reduces the storage costs (by decreasing the capacity required to store the data), but on the other hand it increases the usage costs (because of additional compression/decompression procedures). This paper covers the results of experiments involving a selection of the most popular lossless compression algorithms and a test system based on widely used low-cost components, typical for small data storage systems. Keywords: data compression, data storage efficiency, data storage costs, data storage system Jakub Swacha Wydział Nauk Ekonomicznych i Zarzdzania Instytut Informatyki w Zarzdzaniu Uniwersytet Szczeciski, 71-101 Szczecin, ul. Mickiewicza 64 e-mail: [email protected]