wprowadzenie - Politechnika Warszawska
Transkrypt
wprowadzenie - Politechnika Warszawska
Problemy długoterminowej archiwizacji zasobów cyfrowych – wprowadzenie dr inż. Grzegorz Płoszajski doc. dr inż. Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechnika Warszawska 13 kwietnia 2015 Wprowadzenie Archiwizacja długoterminowa Archiwizacja długoterminowa zasobów cyfrowych I Długotrwałe przechowywanie zasobów cyfrowych okazuje się trudne I Problem ten nie był jednak do niedawna szerzej zauważany I Obecnie, wobec eksplozji danych cyfrowych, nabiera rangi problemu cywilizacyjnego G.Płoszajski, T.Traczyk IAiIS 2/17 Wprowadzenie Archiwizacja długoterminowa Archiwizacja długoterminowa zasobów cyfrowych I Przechowywanie długoterminowe I I I przez co najmniej kilkadziesiąt lat, często na wiele pokoleń przez czas znacząco dłuższy od czasu życia współczesnych technologii Archiwizacja długoterminowa I I G.Płoszajski, T.Traczyk zapewnienie nie tylko długoterminowego przechowania spełnienie wielu dodatkowych wymagań IAiIS 3/17 Wprowadzenie Archiwizacja długoterminowa Wymagania archiwizacji zasobów cyfrowych I Trwałość informacji I I Weryfikowalność poprawności przechowywania I I I zgodność zawartości rzeczywistej z deklarowaną (np. w metadanych) Dostępność informacji I I I kompletność (np. w sensie wymagań użytego formatu) pewność, że nie dokonano nieuprawnionych modyfikacji Autentyczność informacji I I niezbędna dla zapewnienia trwałości – musi istnieć metoda sprawdzenia, czy nie doszło do uszkodzenia informacji Integralność informacji I I trudna do uzyskania z powodu braku trwałych nośników i zmienności technologii możliwość odnalezienia i pozyskania żądanego zasobu interpretowalność zasobu Poufność informacji I G.Płoszajski, T.Traczyk gwarancja udostępnienia jedynie podmiotom uprawnionym IAiIS 4/17 Wprowadzenie Archiwizacja długoterminowa Standardy w archiwum cyfrowym I Tylko zgodność ze standardami może zapewnić długookresową możliwość poprawnej interpretacji zasobów I Standardy muszą dotyczyć zawartości archiwum: formatów przechowywanych zasobów, metadanych I Także struktura archiwum i procedury jego działania powinny być zgodne ze standardami lub ogólnie przyjętymi „obyczajami” I Przykłady standardów w archiwizacji cyfrowej I I I G.Płoszajski, T.Traczyk Open Archival Information System (OAIS) – standard określający model referencyjny dla archiwów cyfrowych (ISO 14721:2012) XML Formatted Data Unit (XFDU) – standard określający budowę pakietu archiwalnego standardy metadanych, np. PREMIS (Preservation Metadata: Implementation Strategies) IAiIS 5/17 Wprowadzenie Archiwizacja długoterminowa Archiwa płytkie i głębokie I Archiwum musi mieć akceptowalne koszty utrzymania I Archiwum płytkie I I I I dostęp na żądanie (on-line) nieefektywne energetycznie → drogie oferta rynkowa rozwiązań technicznych w miarę szeroka Archiwum głębokie I I I G.Płoszajski, T.Traczyk dostęp na zamówienie (off-line) może być efektywne energetycznie oferta efektywnych rozwiązań technicznych znikoma IAiIS 6/17 Wprowadzenie Trwałość zasobów cyfrowych Trwałość zasobów cyfrowych I Współczesna technologia nie zapewnia długoletniej trwałości danych cyfrowych I I konieczne duplikowanie (replikacja, dyslokacja) i przepisywanie Trwałość zasobu nie jest równoznaczna z wiernym przechowaniem strumienia bitów I trwałość bitowa I I I I trwałość treści I I I G.Płoszajski, T.Traczyk oznacza dokładne przechowanie zasobu bit w bit jest dość łatwa do weryfikacji nie musi automatycznie powodować trwałości treści oznacza możliwość poprawnej interpretacji treści zasobu nie musi koniecznie wymagać idealnej trwałości bitowej jest trudna do weryfikacji IAiIS 7/17 Wprowadzenie Trwałość zasobów cyfrowych Nośniki a trwałość zapisu cyfrowego I Nośniki magnetyczne: dyski, dyskietki, taśmy I I I I G.Płoszajski, T.Traczyk informacja cyfrowa może ulec zmianie pod wpływem: podwyższonej temperatury, pola magnetycznego (odkurzacz, kolumna głośnikowa), uderzenia, a nawet samoczynnie na trwałość zapisu mają wpływ warunki przechowywania (temperatura, wilgotność) i przestrzeganie rozmaitych zaleceń (np. okresowe przewijanie taśm, trzymanie ich w odpowiedniej pozycji i w odpowiednim opakowaniu) zaleca się odświeżanie zapisu (np. dyski nie rzadziej niż co 2 lata, taśmy – co 4 lata) na możliwość odczytania informacji może mieć wpływ niewłaściwa obsługa (dotknięcie, zanieczyszczenia) IAiIS 8/17 Wprowadzenie Trwałość zasobów cyfrowych Nośniki a trwałość zapisu cyfrowego I Płyty CD i DVD (zwłaszcza zapisywalne) I I I I G.Płoszajski, T.Traczyk trwałość zapisu zależy od materiałów użytych na poszczególne warstwy – początkowo szacowano na kilkaset lat, ale nastąpiło znaczne obniżenie jakości płyt (i cen) obecnie nie zaleca się stosowania płyt CD-R do długoterminowego przechowywania informacji, nawet płyt o tzw. jakości archiwalnej, których trwałość bywa deklarowana na 300 lat przechowywanie płyt CD, DVD ma specyficzne wymagania: oprócz temperatury i wilgotności np. pozycja pionowa, ochrona przed światłem, odpowiednie opakowanie płyty się starzeją także przed zapisem i trwałość zapisu może od tego zależeć IAiIS 9/17 Wprowadzenie Trwałość zasobów cyfrowych Nośniki a trwałość zapisu cyfrowego I Pamięci flash I I I I G.Płoszajski, T.Traczyk trwałość zapisu nie jest dobrze zbadana informacji skasowanej, np. w wyniku awarii, nie daje się odtworzyć (a z materiału magnetycznego czasem się udaje) zapisu można dokonać ograniczoną liczbę razy (potem urządzenie przestaje działać) nośniki tego typu nadal są drogie (wysoki koszt na GB) IAiIS 10/17 Wprowadzenie Trwałość zasobów cyfrowych Urządzenia pamięciowe I Trwałość zapisanej informacji (poza tym, co wynika z wykorzystywanych zjawisk fizycznych) zależy od stosowania kodów autokorekcyjnych I Trzeba się liczyć z problemami wynikającymi z następstw nieustannego wprowadzania nowych urządzeń, nowych standardów (np. taśm LTO) i znikaniem z rynku starych I Powstaje pytanie: czy lepiej trzymać stare urządzenia do odczytywania informacji, czy przechodzić na nowe urządzenia i przepisywać informację na nowe nośniki Jedno z ważnych pytań dotyczy energii potrzebnej do przechowywania informacji i jej kosztu I I G.Płoszajski, T.Traczyk Jak pod tym względem wypadłoby porównanie macierzy dyskowych z taśmami? IAiIS 11/17 Wprowadzenie Metadane i formaty Metadane w archiwum cyfrowym I Metadane = dane o danych I Metadane są niezbędne do wyszukiwania przechowywanych obiektów, do ich prezentowania przy udostępnianiu oraz do poprawnego konwertowania na inne formaty I Co by było bez nich? I I G.Płoszajski, T.Traczyk Wyobraźmy sobie stare zdjęcia przechowywane bez metadanych opisowych, a więc bez nazw przedstawianych miejsc, nazwisk osób, bez dat i opisu sytuacji. Jak je wyszukiwać? Co na nich oglądać? Wyobraźmy sobie nagrania wideo bez metadanych technicznych, w szczególności bez informacji o formacie. Jak je prezentować? Jak przeprowadzić konwersję na nowy format? IAiIS 12/17 Wprowadzenie Metadane i formaty Metadane w archiwum cyfrowym I Typy metadanych: opisowe, techniczne, strukturalne, konserwatorskie, prawne, administracyjne, behawioralne I Standardy metadanych I I I I G.Płoszajski, T.Traczyk standardy metadanych opisowych, technicznych, strukturalnych standardy wymienne, służące do przenoszenia informacji standardy dziedzinowe niektóre standardy osiągnęły poziom ISO (np. Dublin Core – ISO 15836:2009) IAiIS 13/17 Wprowadzenie Metadane i formaty Metadane – problemy I I Jak skutecznie i przy rozsądnych kosztach tworzyć metadane? Co powinno towarzyszyć obiektom z metadanymi, by po wielu latach te opisy były zrozumiałe? I Systemy metadanych rozbudowują się, powstają kolejne wersje, tworzone są słowniki i ontologie; czy te słowniki i ontologie też powinny być przechowywane? I Jakie metadane prawne mają znaczenie przy długotrwałym przechowywaniu? Czy należy to uzgadniać np. z organizacjami zarządzania zbiorowego prawami? I Czy powinny być zachowywane rejestry z kodami ISAN dla utworów audiowizualnych lub ISBN? G.Płoszajski, T.Traczyk IAiIS 14/17 Wprowadzenie Metadane i formaty Formaty plików a długotrwałe przechowywanie I Formaty plików można oceniać pod kątem przydatności do długotrwałego przechowywania I Analizę przydatności formatów przeprowadziły m.in. Biblioteka Kongresu USA, National Archives w USA, The National Archives w Wielkiej Brytanii I Kryteria oceny: otwartość (jawność), szeroka akceptacja, przejrzystość, samodokumentowanie, brak zależności zewnętrznych, możliwości migracji I Wiele z powszechnie stosowanych formatów zupełnie nie nadaje się do archwizacji długoterminowej G.Płoszajski, T.Traczyk IAiIS 15/17 Wprowadzenie Certyfikacja archiwów Certyfikacja archiwów cyfrowych I Potrzebę oparcia zaufania do archiwów cyfrowych na certyfikacji sformułowano już w roku 1996 I Model referencyjny OAIS dostarczył terminologię i strukturę logiczną I Zasady certyfikacji określa dokument Trusted Digital Repositories (ISO 16363:2012) I Norma ISO 16919:2014 określa wymagania stawiane instytucjom certyfikującym I Certyfikacja ocenia I I I I infrastrukturę organizacyjną zarządzanie obiektami cyfrowymi technologię, infrastrukturę techniczną i bezpieczeństwo Przebieg certyfikacji I I G.Płoszajski, T.Traczyk samoocena wg określonego schematu ocena przeprowadzana przez certyfikatorów IAiIS 16/17 Wprowadzenie Zagrożenie utratą informacji cyfrowej „Czarna dziura” Wiceprezes Google’a Vint Cerf ostrzegł całkiem niedawno (luty 2015), że ludzkości grozi utrata informacji cyfrowej na taką skalę, iż historycy będą mówić o „zapomnianym pokoleniu” lub „zapomnianym stuleciu” I I Może to nastąpić pomimo postępów nauki w zakresie długotrwałego przechowywania danych cyfrowych Zagrożenie wiąże się z różnorodnością formatów i potencjalnym przyszłym brakiem sprzętu i oprogramowania do ich odczytywania I W szczególności nie rozwiązano problemu dopuszczalności prawnej kopiowania i przechowywania oprogramowania do odczytu informacji I Rada dla zwykłych ludzi: zdjęcia należy przechowywać w formie odbitek, a nie tylko na nośnikach cyfrowych I Pytanie: a muzyka, filmy. . . ? G.Płoszajski, T.Traczyk IAiIS 17/17