wprowadzenie - Politechnika Warszawska

Transkrypt

wprowadzenie - Politechnika Warszawska
Problemy długoterminowej archiwizacji
zasobów cyfrowych – wprowadzenie
dr inż. Grzegorz Płoszajski
doc. dr inż. Tomasz Traczyk
Instytut Automatyki i Informatyki Stosowanej
Politechnika Warszawska
13 kwietnia 2015
Wprowadzenie
Archiwizacja długoterminowa
Archiwizacja długoterminowa zasobów cyfrowych
I
Długotrwałe przechowywanie zasobów cyfrowych okazuje się trudne
I
Problem ten nie był jednak do niedawna szerzej zauważany
I
Obecnie, wobec eksplozji danych cyfrowych, nabiera rangi problemu
cywilizacyjnego
G.Płoszajski, T.Traczyk
IAiIS
2/17
Wprowadzenie
Archiwizacja długoterminowa
Archiwizacja długoterminowa zasobów cyfrowych
I
Przechowywanie długoterminowe
I
I
I
przez co najmniej kilkadziesiąt lat, często na wiele pokoleń
przez czas znacząco dłuższy od czasu życia współczesnych
technologii
Archiwizacja długoterminowa
I
I
G.Płoszajski, T.Traczyk
zapewnienie nie tylko długoterminowego przechowania
spełnienie wielu dodatkowych wymagań
IAiIS
3/17
Wprowadzenie
Archiwizacja długoterminowa
Wymagania archiwizacji zasobów cyfrowych
I
Trwałość informacji
I
I
Weryfikowalność poprawności przechowywania
I
I
I
zgodność zawartości rzeczywistej z deklarowaną (np. w metadanych)
Dostępność informacji
I
I
I
kompletność (np. w sensie wymagań użytego formatu)
pewność, że nie dokonano nieuprawnionych modyfikacji
Autentyczność informacji
I
I
niezbędna dla zapewnienia trwałości – musi istnieć metoda
sprawdzenia, czy nie doszło do uszkodzenia informacji
Integralność informacji
I
I
trudna do uzyskania z powodu braku trwałych nośników i zmienności
technologii
możliwość odnalezienia i pozyskania żądanego zasobu
interpretowalność zasobu
Poufność informacji
I
G.Płoszajski, T.Traczyk
gwarancja udostępnienia jedynie podmiotom uprawnionym
IAiIS
4/17
Wprowadzenie
Archiwizacja długoterminowa
Standardy w archiwum cyfrowym
I
Tylko zgodność ze standardami może zapewnić długookresową
możliwość poprawnej interpretacji zasobów
I
Standardy muszą dotyczyć zawartości archiwum: formatów
przechowywanych zasobów, metadanych
I
Także struktura archiwum i procedury jego działania powinny być
zgodne ze standardami lub ogólnie przyjętymi „obyczajami”
I
Przykłady standardów w archiwizacji cyfrowej
I
I
I
G.Płoszajski, T.Traczyk
Open Archival Information System (OAIS) – standard określający
model referencyjny dla archiwów cyfrowych (ISO 14721:2012)
XML Formatted Data Unit (XFDU) – standard określający budowę
pakietu archiwalnego
standardy metadanych, np. PREMIS (Preservation Metadata:
Implementation Strategies)
IAiIS
5/17
Wprowadzenie
Archiwizacja długoterminowa
Archiwa płytkie i głębokie
I
Archiwum musi mieć akceptowalne koszty utrzymania
I
Archiwum płytkie
I
I
I
I
dostęp na żądanie (on-line)
nieefektywne energetycznie → drogie
oferta rynkowa rozwiązań technicznych w miarę szeroka
Archiwum głębokie
I
I
I
G.Płoszajski, T.Traczyk
dostęp na zamówienie (off-line)
może być efektywne energetycznie
oferta efektywnych rozwiązań technicznych znikoma
IAiIS
6/17
Wprowadzenie
Trwałość zasobów cyfrowych
Trwałość zasobów cyfrowych
I
Współczesna technologia nie zapewnia długoletniej trwałości danych
cyfrowych
I
I
konieczne duplikowanie (replikacja, dyslokacja) i przepisywanie
Trwałość zasobu nie jest równoznaczna z wiernym przechowaniem
strumienia bitów
I
trwałość bitowa
I
I
I
I
trwałość treści
I
I
I
G.Płoszajski, T.Traczyk
oznacza dokładne przechowanie zasobu bit w bit
jest dość łatwa do weryfikacji
nie musi automatycznie powodować trwałości treści
oznacza możliwość poprawnej interpretacji treści zasobu
nie musi koniecznie wymagać idealnej trwałości bitowej
jest trudna do weryfikacji
IAiIS
7/17
Wprowadzenie
Trwałość zasobów cyfrowych
Nośniki a trwałość zapisu cyfrowego
I
Nośniki magnetyczne: dyski, dyskietki, taśmy
I
I
I
I
G.Płoszajski, T.Traczyk
informacja cyfrowa może ulec zmianie pod wpływem: podwyższonej
temperatury, pola magnetycznego (odkurzacz, kolumna głośnikowa),
uderzenia, a nawet samoczynnie
na trwałość zapisu mają wpływ warunki przechowywania
(temperatura, wilgotność) i przestrzeganie rozmaitych zaleceń (np.
okresowe przewijanie taśm, trzymanie ich w odpowiedniej pozycji
i w odpowiednim opakowaniu)
zaleca się odświeżanie zapisu (np. dyski nie rzadziej niż co 2 lata,
taśmy – co 4 lata)
na możliwość odczytania informacji może mieć wpływ niewłaściwa
obsługa (dotknięcie, zanieczyszczenia)
IAiIS
8/17
Wprowadzenie
Trwałość zasobów cyfrowych
Nośniki a trwałość zapisu cyfrowego
I
Płyty CD i DVD (zwłaszcza zapisywalne)
I
I
I
I
G.Płoszajski, T.Traczyk
trwałość zapisu zależy od materiałów użytych na poszczególne
warstwy – początkowo szacowano na kilkaset lat, ale nastąpiło
znaczne obniżenie jakości płyt (i cen)
obecnie nie zaleca się stosowania płyt CD-R do długoterminowego
przechowywania informacji, nawet płyt o tzw. jakości archiwalnej,
których trwałość bywa deklarowana na 300 lat
przechowywanie płyt CD, DVD ma specyficzne wymagania: oprócz
temperatury i wilgotności np. pozycja pionowa, ochrona przed
światłem, odpowiednie opakowanie
płyty się starzeją także przed zapisem i trwałość zapisu może od tego
zależeć
IAiIS
9/17
Wprowadzenie
Trwałość zasobów cyfrowych
Nośniki a trwałość zapisu cyfrowego
I
Pamięci flash
I
I
I
I
G.Płoszajski, T.Traczyk
trwałość zapisu nie jest dobrze zbadana
informacji skasowanej, np. w wyniku awarii, nie daje się odtworzyć
(a z materiału magnetycznego czasem się udaje)
zapisu można dokonać ograniczoną liczbę razy (potem urządzenie
przestaje działać)
nośniki tego typu nadal są drogie (wysoki koszt na GB)
IAiIS
10/17
Wprowadzenie
Trwałość zasobów cyfrowych
Urządzenia pamięciowe
I
Trwałość zapisanej informacji (poza tym, co wynika
z wykorzystywanych zjawisk fizycznych) zależy od stosowania kodów
autokorekcyjnych
I
Trzeba się liczyć z problemami wynikającymi z następstw
nieustannego wprowadzania nowych urządzeń, nowych standardów
(np. taśm LTO) i znikaniem z rynku starych
I
Powstaje pytanie: czy lepiej trzymać stare urządzenia do
odczytywania informacji, czy przechodzić na nowe urządzenia
i przepisywać informację na nowe nośniki
Jedno z ważnych pytań dotyczy energii potrzebnej do
przechowywania informacji i jej kosztu
I
I
G.Płoszajski, T.Traczyk
Jak pod tym względem wypadłoby porównanie macierzy dyskowych
z taśmami?
IAiIS
11/17
Wprowadzenie
Metadane i formaty
Metadane w archiwum cyfrowym
I
Metadane = dane o danych
I
Metadane są niezbędne do wyszukiwania przechowywanych
obiektów, do ich prezentowania przy udostępnianiu oraz do
poprawnego konwertowania na inne formaty
I
Co by było bez nich?
I
I
G.Płoszajski, T.Traczyk
Wyobraźmy sobie stare zdjęcia przechowywane bez metadanych
opisowych, a więc bez nazw przedstawianych miejsc, nazwisk osób,
bez dat i opisu sytuacji. Jak je wyszukiwać? Co na nich oglądać?
Wyobraźmy sobie nagrania wideo bez metadanych technicznych,
w szczególności bez informacji o formacie. Jak je prezentować? Jak
przeprowadzić konwersję na nowy format?
IAiIS
12/17
Wprowadzenie
Metadane i formaty
Metadane w archiwum cyfrowym
I
Typy metadanych: opisowe, techniczne, strukturalne,
konserwatorskie, prawne, administracyjne, behawioralne
I
Standardy metadanych
I
I
I
I
G.Płoszajski, T.Traczyk
standardy metadanych opisowych, technicznych, strukturalnych
standardy wymienne, służące do przenoszenia informacji
standardy dziedzinowe
niektóre standardy osiągnęły poziom ISO (np. Dublin Core – ISO
15836:2009)
IAiIS
13/17
Wprowadzenie
Metadane i formaty
Metadane – problemy
I
I
Jak skutecznie i przy rozsądnych kosztach tworzyć metadane?
Co powinno towarzyszyć obiektom z metadanymi, by po wielu latach
te opisy były zrozumiałe?
I
Systemy metadanych rozbudowują się, powstają kolejne wersje,
tworzone są słowniki i ontologie; czy te słowniki i ontologie też
powinny być przechowywane?
I
Jakie metadane prawne mają znaczenie przy długotrwałym
przechowywaniu? Czy należy to uzgadniać np. z organizacjami
zarządzania zbiorowego prawami?
I
Czy powinny być zachowywane rejestry z kodami ISAN dla utworów
audiowizualnych lub ISBN?
G.Płoszajski, T.Traczyk
IAiIS
14/17
Wprowadzenie
Metadane i formaty
Formaty plików a długotrwałe przechowywanie
I
Formaty plików można oceniać pod kątem przydatności do
długotrwałego przechowywania
I
Analizę przydatności formatów przeprowadziły m.in. Biblioteka
Kongresu USA, National Archives w USA, The National Archives
w Wielkiej Brytanii
I
Kryteria oceny: otwartość (jawność), szeroka akceptacja,
przejrzystość, samodokumentowanie, brak zależności zewnętrznych,
możliwości migracji
I
Wiele z powszechnie stosowanych formatów zupełnie nie nadaje się
do archwizacji długoterminowej
G.Płoszajski, T.Traczyk
IAiIS
15/17
Wprowadzenie
Certyfikacja archiwów
Certyfikacja archiwów cyfrowych
I
Potrzebę oparcia zaufania do archiwów cyfrowych na certyfikacji
sformułowano już w roku 1996
I
Model referencyjny OAIS dostarczył terminologię i strukturę logiczną
I
Zasady certyfikacji określa dokument Trusted Digital Repositories
(ISO 16363:2012)
I
Norma ISO 16919:2014 określa wymagania stawiane instytucjom
certyfikującym
I
Certyfikacja ocenia
I
I
I
I
infrastrukturę organizacyjną
zarządzanie obiektami cyfrowymi
technologię, infrastrukturę techniczną i bezpieczeństwo
Przebieg certyfikacji
I
I
G.Płoszajski, T.Traczyk
samoocena wg określonego schematu
ocena przeprowadzana przez certyfikatorów
IAiIS
16/17
Wprowadzenie
Zagrożenie utratą informacji cyfrowej
„Czarna dziura”
Wiceprezes Google’a Vint Cerf ostrzegł całkiem niedawno (luty 2015), że
ludzkości grozi utrata informacji cyfrowej na taką skalę, iż historycy będą
mówić o „zapomnianym pokoleniu” lub „zapomnianym stuleciu”
I
I
Może to nastąpić pomimo postępów nauki w zakresie długotrwałego
przechowywania danych cyfrowych
Zagrożenie wiąże się z różnorodnością formatów i potencjalnym
przyszłym brakiem sprzętu i oprogramowania do ich odczytywania
I
W szczególności nie rozwiązano problemu dopuszczalności prawnej
kopiowania i przechowywania oprogramowania do odczytu informacji
I
Rada dla zwykłych ludzi: zdjęcia należy przechowywać w formie
odbitek, a nie tylko na nośnikach cyfrowych
I
Pytanie: a muzyka, filmy. . . ?
G.Płoszajski, T.Traczyk
IAiIS
17/17