Problemy długoterminowej archiwizacji zasobów cyfrowych a
Transkrypt
Problemy długoterminowej archiwizacji zasobów cyfrowych a
Problemy długoterminowej archiwizacji zasobów cyfrowych a projekt CREDO doc. dr inż. Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechnika Warszawska Konferencja CREDO 29 lutego – 1 marca 2016 Problemy archiwizacji długoterminowej a CREDO Cele projektu CREDO Cele projektu CREDO I Stworzenie repozytorium cyfrowego mogącego pełnić funkcje I I I T.Traczyk repozytorium krótkoterminowego archiwum długoterminowego Zbudowanie instalacji demonstracyjnej o pojemności 2 PB IAiIS PW 2/21 Problemy archiwizacji długoterminowej a CREDO Cele projektu CREDO Repozytorium krótkoterminowe I Bezpieczny system plików o wielkiej pojemności I I T.Traczyk system plików z replikacją pojemność petabajtowa, pojedyncze pliki wieloterabajtowe I Zarządzanie i aplikacje po stronie użytkownika I Główna trudność: wielkość zasobów IAiIS PW 3/21 Problemy archiwizacji długoterminowej a CREDO Cele projektu CREDO Archiwum długoterminowe I Długookresowe zapewnienie trwałości zasobów I I I Kompletne funkcje archiwum cyfrowego, w tym I I I I I T.Traczyk gwarancja wiarygodnego (łac. credibile) odczytu zasobu dyslokacja zasobów i współdziałanie wielu archiwów zgodność z OAIS i innymi standardami archiwum głębokie efektywne energetycznie opakowanie zasobów z ich metadanymi w pakiety archiwalne zarządzanie metadanymi i wyszukiwanie zdatność do certyfikacji I Zarządzanie archiwum po stronie systemu CREDO I Główna trudność: długowieczność archiwum (kilkadziesiąt lat lub więcej) IAiIS PW 4/21 Problemy archiwizacji długoterminowej a CREDO Pojęcie archiwizacji długoterminowej Archiwizacja długoterminowa zasobów cyfrowych I Przechowywanie długoterminowe I I I przez co najmniej kilkadziesiąt lat, często na wiele pokoleń przez czas znacząco dłuższy od czasu życia współczesnych technologii Archiwizacja długoterminowa I I zapewnienie nie tylko długoterminowego przechowania spełnienie wielu dodatkowych wymagań I I I T.Traczyk integralność informacji interpretowalność informacji ... IAiIS PW 5/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Trwałość informacji cyfrowej I I Trudna do uzyskania Brak trwałych nośników I I I I Zmienne technologie I I potrzebne specjalne warunki przechowywania konieczne okresowe przepisywanie/odświeżanie konieczne regularne „poruszanie” (dyski, taśmy) nośniki mogą nie pasować do dostępnych napędów Co można zrobić? I duplikowanie I I I T.Traczyk replikacja – kopie lokalne dyslokacja – kopie zdalne relokacja – przepisywanie lub odświeżanie zapisu IAiIS PW 6/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Nośniki w CREDO I W obecnej wersji dyski magnetyczne i taśmy I Bezproblemowe użycie dysków SSD I W przyszłości możliwe użycie innych nośników I Otwarta architektura CREDO pozwoli dodać oprogramowanie optymalizujące sposób użycia nowych nośników I I I I I T.Traczyk inne metody zarządzania energią inne algorytmy badania niezawodności dodatkowe zabezpieczenia ... Możliwe jest zautomatyzowanie migracji na nowe nośniki IAiIS PW 7/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Systemy plików w CREDO I W obecnej wersji rozproszony system plików SZPAK (oparty na LizardFS i MooseFS) I Bezproblemowe użycie standardowych systemu plików, np. z Linuksa I W przyszłości możliwe użycie innych systemów plików I Archiwum CREDO obsłuży bez większych problemów I I dowolny system plików zgodny z POSIX nie musi to być rozwiązanie natywne I T.Traczyk zgodność z POSIX można uzyskać dzięki dodatkowej warstwie abstrakcji, np. Fuse over Fuse IAiIS PW 8/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Relokacja w CREDO I Relokacja automatycznie wykonywana przez archiwum I I Optymalizacja alokacji i relokacji I I T.Traczyk z automatyczną „ucieczką” z nośników niepewnych lub oznaczonych jako przestarzałe z uwzględnieniem danych statystycznych dotyczących awaryjności z dążeniem do alokacji na pewniejszych nośnikach IAiIS PW 9/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Replikacja w CREDO I Replikacja niskopoziomowa – na poziomie systemu plików I I Replikacja wysokopoziomowa – zarządzana przez archiwum I I T.Traczyk może być zastąpiona innym mechanizmem wspomagania niezawodności zapisu, np. kodami korekcyjnymi także w różnych technologicznie systemach plików także w odległych centrach danych IAiIS PW 10/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Trwałość informacji Dyslokacja w CREDO I Dyslokacja w ramach tego samego archiwum = replikacja do odległych centrów danych I I Dyslokacja w ramach federacji archiwów (między archiwami) I I I T.Traczyk budujemy od razu dwa centra danych wzajemna świadomość posiadania kopii i stanu ich poprawności koordynacja działań związanych z ryzykiem uszkodzenia kopii możliwa odrębność technologiczna lub nawet treściowa kopii IAiIS PW 11/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Weryfikowalność poprawności przechowywania Weryfikowalność poprawności przechowywania I Niezbędna dla zapewnienia trwałości – musi istnieć metoda sprawdzenia, czy nie doszło do uszkodzenia informacji Monitorowanie sprzętu w CREDO T.Traczyk I Dla dysków ocena bieżącej niezawodności zapisu na podstawie analizy danych SMART I Możliwe dodanie innych metod dla nowych typów nośników IAiIS PW 12/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Weryfikowalność poprawności przechowywania Monitorowanie stanu zasobów w CREDO I Regularne dwupoziomowe monitorowanie stanu zasobów I Na poziomie systemu plików: automatyczne sprawdzanie sum kontrolnych niskopoziomowych porcji informacji (tzw. chunks) I Na poziomie archiwum: okresowe sprawdzanie I I kompletności pakietów skrótów cyfrowych plików I I T.Traczyk w obecnej wersji SHA-256 możliwa zmiana standardu i równoczesne użycie wielu standardów IAiIS PW 13/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Integralność informacji Integralność informacji I Kompletność (np. w sensie wymagań użytego formatu) I Pewność, że nie dokonano nieuprawnionych modyfikacji W CREDO I Przechowywanie zasobów łącznie z ich metadanymi I Kopia wybranych metadanych w bazie danych archiwum Mechanizmy sprawdzania integralności I I I I T.Traczyk kompletności pakietów poprawności formatu plików niezmienności zapisu (skróty cyfrowe) IAiIS PW 14/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Autentyczność informacji Autentyczność informacji I Zgodność zawartości rzeczywistej z deklarowaną (np. w metadanych) W CREDO I Metadane w archiwum zapisane w XML I I Metadane w bazie danych zapisane w elastycznych strukturach I T.Traczyk możliwość poprawnej interpretacji po latach możliwość wykorzystania różnych standardów, także jeszcze nieistniejących I Kontrola zgodności zawartości pakietu z zadeklarowaną I Kontrola zgodności formatu pliku z zadeklarowanym IAiIS PW 15/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Dostępność informacji Dostępność informacji I I Możliwość odnalezienia i pozyskania żądanego zasobu Interpretowalność zasobu I szczególnie problematyczna w archiwum długoterminowym ze względu na „moralne” starzenie się formatów zapisu cyfrowego Formaty plików w CREDO I Formaty zapisu zapewniające poprawną interpretację zasobów I I T.Traczyk dopuszczone tylko formaty uznane za odpowiednie dla archiwizacji dokumentacja formatów dostępna w archiwum i powiązana z zasobami IAiIS PW 16/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Dostępność informacji Wyszukiwanie w CREDO I Kopie wybranych metadanych w bazie danych on-line I I I Różnorodne, współistniejące identyfikatory zasobów (DOI, URI itp.) I Mechanizmy wyszukiwania I I I I T.Traczyk metadane opisowe „zrzutowane” do Dublin Core wskazane metadane w XML przechowywane w bazie danych „klasyczne” zapytania do bazy danych wyszukiwanie pełnotekstowe wyszukiwanie w XML (XQuery) względna łatwość rozbudowy o nowe mechanizmy IAiIS PW 17/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Poufność informacji Poufność informacji I Gwarancja udostępnienia jedynie podmiotom uprawnionym W CREDO T.Traczyk I Ochrona fizyczna i zabezpieczenia techniczne zgodne z najwyższymi standardami przemysłowymi (PWPW) I Dostęp do systemu CREDO wyłącznie w chronionej sieci VPN I Udostępnianie zasobów jedynie ich właścicielowi i użytkownikom przez niego upoważnionym I Brak bezpośredniego dostępu użytkowników do systemu plików archiwum I Możliwość wydzielenia osobnych systemów plików dla szczególnie wymagających klientów I Wydzielony podsystem bezpieczeństwa, uprawniający programy CREDO do operowania na plikach archiwum tylko w niezbędnym zakresie i na niezbędny czas IAiIS PW 18/21 Problemy archiwizacji długoterminowej a CREDO Wymagania archiwizacji długoterminowej Efektywność ekonomiczna Efektywność ekonomiczna I Archiwum musi mieć akceptowalne koszty utrzymania I bardzo znaczącym składnikiem są koszty energii Efektywność energetyczna w CREDO I Tzw. archiwum głębokie I I T.Traczyk dostęp na zamówienie (off-line), a nie na żądanie z oszacowaniem czasu dostawy I „Inteligentne” wyłączanie urządzeń pamięciowych (serwerów) I Optymalizacja okresów dostępu do poszczególnych obszarów danych w celu minimalizacji zużycia energii IAiIS PW 19/21 Problemy archiwizacji długoterminowej a CREDO Standardy i certyfikacja Standardy w archiwum cyfrowym Standardy w archiwum cyfrowym I Tylko zgodność ze standardami może zapewnić długookresową możliwość poprawnej interpretacji zasobów I Standardy muszą dotyczyć zawartości archiwum I I I formatów przechowywanych zasobów metadanych Także struktura archiwum i procedury jego działania powinny być zgodne ze standardami lub ogólnie przyjętymi dobrymi praktykami Standardy w CREDO I I T.Traczyk Zgodność „filozofii” i działania systemu z Open Archival Information System (OAIS) – standardem określającym model referencyjny dla archiwów cyfrowych (ISO 14721:2012) Użycie standardowych formatów metadanych (np. METS, PREMIS) IAiIS PW 20/21 Problemy archiwizacji długoterminowej a CREDO Standardy i certyfikacja Certyfikacja Certyfikacja archiwum cyfrowego I Potrzebę oparcia zaufania do archiwów cyfrowych na certyfikacji sformułowano już w roku 1996 I Model referencyjny OAIS dostarczył terminologię i strukturę logiczną I Zasady certyfikacji określa dokument Trusted Digital Repositories (ISO 16363:2012) W CREDO I Założona zdatność archiwum CREDO do certyfikacji I Zgodność z modelem OAIS I Przejrzysta architektura z dobrze określonym podziałem zadań I Szczegółowe rejestrowanie zdarzeń w dziennikach (logach) Dokumentacja techniczna w języku angielskim I I T.Traczyk ze względu na potencjalny brak krajowych instytucji certyfikujących IAiIS PW 21/21