Problemy długoterminowej archiwizacji zasobów cyfrowych a

Transkrypt

Problemy długoterminowej archiwizacji zasobów cyfrowych a
Problemy długoterminowej archiwizacji
zasobów cyfrowych a projekt CREDO
doc. dr inż. Tomasz Traczyk
Instytut Automatyki i Informatyki Stosowanej
Politechnika Warszawska
Konferencja CREDO
29 lutego – 1 marca 2016
Problemy archiwizacji długoterminowej a CREDO
Cele projektu CREDO
Cele projektu CREDO
I
Stworzenie repozytorium cyfrowego mogącego pełnić funkcje
I
I
I
T.Traczyk
repozytorium krótkoterminowego
archiwum długoterminowego
Zbudowanie instalacji demonstracyjnej o pojemności 2 PB
IAiIS PW
2/21
Problemy archiwizacji długoterminowej a CREDO
Cele projektu CREDO
Repozytorium krótkoterminowe
I
Bezpieczny system plików o wielkiej pojemności
I
I
T.Traczyk
system plików z replikacją
pojemność petabajtowa, pojedyncze pliki wieloterabajtowe
I
Zarządzanie i aplikacje po stronie użytkownika
I
Główna trudność: wielkość zasobów
IAiIS PW
3/21
Problemy archiwizacji długoterminowej a CREDO
Cele projektu CREDO
Archiwum długoterminowe
I
Długookresowe zapewnienie trwałości zasobów
I
I
I
Kompletne funkcje archiwum cyfrowego, w tym
I
I
I
I
I
T.Traczyk
gwarancja wiarygodnego (łac. credibile) odczytu zasobu
dyslokacja zasobów i współdziałanie wielu archiwów
zgodność z OAIS i innymi standardami
archiwum głębokie efektywne energetycznie
opakowanie zasobów z ich metadanymi w pakiety archiwalne
zarządzanie metadanymi i wyszukiwanie
zdatność do certyfikacji
I
Zarządzanie archiwum po stronie systemu CREDO
I
Główna trudność: długowieczność archiwum
(kilkadziesiąt lat lub więcej)
IAiIS PW
4/21
Problemy archiwizacji długoterminowej a CREDO
Pojęcie archiwizacji długoterminowej
Archiwizacja długoterminowa zasobów cyfrowych
I
Przechowywanie długoterminowe
I
I
I
przez co najmniej kilkadziesiąt lat, często na wiele pokoleń
przez czas znacząco dłuższy od czasu życia współczesnych
technologii
Archiwizacja długoterminowa
I
I
zapewnienie nie tylko długoterminowego przechowania
spełnienie wielu dodatkowych wymagań
I
I
I
T.Traczyk
integralność informacji
interpretowalność informacji
...
IAiIS PW
5/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Trwałość informacji cyfrowej
I
I
Trudna do uzyskania
Brak trwałych nośników
I
I
I
I
Zmienne technologie
I
I
potrzebne specjalne warunki przechowywania
konieczne okresowe przepisywanie/odświeżanie
konieczne regularne „poruszanie” (dyski, taśmy)
nośniki mogą nie pasować do dostępnych napędów
Co można zrobić?
I
duplikowanie
I
I
I
T.Traczyk
replikacja – kopie lokalne
dyslokacja – kopie zdalne
relokacja – przepisywanie lub odświeżanie zapisu
IAiIS PW
6/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Nośniki w CREDO
I
W obecnej wersji dyski magnetyczne i taśmy
I
Bezproblemowe użycie dysków SSD
I
W przyszłości możliwe użycie innych nośników
I
Otwarta architektura CREDO pozwoli dodać oprogramowanie
optymalizujące sposób użycia nowych nośników
I
I
I
I
I
T.Traczyk
inne metody zarządzania energią
inne algorytmy badania niezawodności
dodatkowe zabezpieczenia
...
Możliwe jest zautomatyzowanie migracji na nowe nośniki
IAiIS PW
7/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Systemy plików w CREDO
I
W obecnej wersji rozproszony system plików SZPAK
(oparty na LizardFS i MooseFS)
I
Bezproblemowe użycie standardowych systemu plików, np. z Linuksa
I
W przyszłości możliwe użycie innych systemów plików
I
Archiwum CREDO obsłuży bez większych problemów
I
I
dowolny system plików zgodny z POSIX
nie musi to być rozwiązanie natywne
I
T.Traczyk
zgodność z POSIX można uzyskać dzięki dodatkowej warstwie
abstrakcji, np. Fuse over Fuse
IAiIS PW
8/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Relokacja w CREDO
I
Relokacja automatycznie wykonywana przez archiwum
I
I
Optymalizacja alokacji i relokacji
I
I
T.Traczyk
z automatyczną „ucieczką” z nośników niepewnych lub oznaczonych
jako przestarzałe
z uwzględnieniem danych statystycznych dotyczących awaryjności
z dążeniem do alokacji na pewniejszych nośnikach
IAiIS PW
9/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Replikacja w CREDO
I
Replikacja niskopoziomowa – na poziomie systemu plików
I
I
Replikacja wysokopoziomowa – zarządzana przez archiwum
I
I
T.Traczyk
może być zastąpiona innym mechanizmem wspomagania
niezawodności zapisu, np. kodami korekcyjnymi
także w różnych technologicznie systemach plików
także w odległych centrach danych
IAiIS PW
10/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Trwałość informacji
Dyslokacja w CREDO
I
Dyslokacja w ramach tego samego archiwum
= replikacja do odległych centrów danych
I
I
Dyslokacja w ramach federacji archiwów (między archiwami)
I
I
I
T.Traczyk
budujemy od razu dwa centra danych
wzajemna świadomość posiadania kopii i stanu ich poprawności
koordynacja działań związanych z ryzykiem uszkodzenia kopii
możliwa odrębność technologiczna lub nawet treściowa kopii
IAiIS PW
11/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Weryfikowalność poprawności przechowywania
Weryfikowalność poprawności przechowywania
I
Niezbędna dla zapewnienia trwałości – musi istnieć metoda
sprawdzenia, czy nie doszło do uszkodzenia informacji
Monitorowanie sprzętu w CREDO
T.Traczyk
I
Dla dysków ocena bieżącej niezawodności zapisu na podstawie
analizy danych SMART
I
Możliwe dodanie innych metod dla nowych typów nośników
IAiIS PW
12/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Weryfikowalność poprawności przechowywania
Monitorowanie stanu zasobów w CREDO
I
Regularne dwupoziomowe monitorowanie stanu zasobów
I
Na poziomie systemu plików: automatyczne sprawdzanie sum
kontrolnych niskopoziomowych porcji informacji (tzw. chunks)
I
Na poziomie archiwum: okresowe sprawdzanie
I
I
kompletności pakietów
skrótów cyfrowych plików
I
I
T.Traczyk
w obecnej wersji SHA-256
możliwa zmiana standardu i równoczesne użycie wielu standardów
IAiIS PW
13/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Integralność informacji
Integralność informacji
I
Kompletność (np. w sensie wymagań użytego formatu)
I
Pewność, że nie dokonano nieuprawnionych modyfikacji
W CREDO
I
Przechowywanie zasobów łącznie z ich metadanymi
I
Kopia wybranych metadanych w bazie danych archiwum
Mechanizmy sprawdzania integralności
I
I
I
I
T.Traczyk
kompletności pakietów
poprawności formatu plików
niezmienności zapisu (skróty cyfrowe)
IAiIS PW
14/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Autentyczność informacji
Autentyczność informacji
I
Zgodność zawartości rzeczywistej z deklarowaną (np. w metadanych)
W CREDO
I
Metadane w archiwum zapisane w XML
I
I
Metadane w bazie danych zapisane w elastycznych strukturach
I
T.Traczyk
możliwość poprawnej interpretacji po latach
możliwość wykorzystania różnych standardów, także jeszcze
nieistniejących
I
Kontrola zgodności zawartości pakietu z zadeklarowaną
I
Kontrola zgodności formatu pliku z zadeklarowanym
IAiIS PW
15/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Dostępność informacji
Dostępność informacji
I
I
Możliwość odnalezienia i pozyskania żądanego zasobu
Interpretowalność zasobu
I
szczególnie problematyczna w archiwum długoterminowym ze
względu na „moralne” starzenie się formatów zapisu cyfrowego
Formaty plików w CREDO
I
Formaty zapisu zapewniające poprawną interpretację zasobów
I
I
T.Traczyk
dopuszczone tylko formaty uznane za odpowiednie dla archiwizacji
dokumentacja formatów dostępna w archiwum i powiązana
z zasobami
IAiIS PW
16/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Dostępność informacji
Wyszukiwanie w CREDO
I
Kopie wybranych metadanych w bazie danych on-line
I
I
I
Różnorodne, współistniejące identyfikatory zasobów (DOI, URI itp.)
I
Mechanizmy wyszukiwania
I
I
I
I
T.Traczyk
metadane opisowe „zrzutowane” do Dublin Core
wskazane metadane w XML przechowywane w bazie danych
„klasyczne” zapytania do bazy danych
wyszukiwanie pełnotekstowe
wyszukiwanie w XML (XQuery)
względna łatwość rozbudowy o nowe mechanizmy
IAiIS PW
17/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Poufność informacji
Poufność informacji
I
Gwarancja udostępnienia jedynie podmiotom uprawnionym
W CREDO
T.Traczyk
I
Ochrona fizyczna i zabezpieczenia techniczne zgodne z najwyższymi
standardami przemysłowymi (PWPW)
I
Dostęp do systemu CREDO wyłącznie w chronionej sieci VPN
I
Udostępnianie zasobów jedynie ich właścicielowi i użytkownikom
przez niego upoważnionym
I
Brak bezpośredniego dostępu użytkowników do systemu plików
archiwum
I
Możliwość wydzielenia osobnych systemów plików dla szczególnie
wymagających klientów
I
Wydzielony podsystem bezpieczeństwa, uprawniający programy
CREDO do operowania na plikach archiwum tylko w niezbędnym
zakresie i na niezbędny czas
IAiIS PW
18/21
Problemy archiwizacji długoterminowej a CREDO
Wymagania archiwizacji długoterminowej
Efektywność ekonomiczna
Efektywność ekonomiczna
I
Archiwum musi mieć akceptowalne koszty utrzymania
I
bardzo znaczącym składnikiem są koszty energii
Efektywność energetyczna w CREDO
I
Tzw. archiwum głębokie
I
I
T.Traczyk
dostęp na zamówienie (off-line), a nie na żądanie
z oszacowaniem czasu dostawy
I
„Inteligentne” wyłączanie urządzeń pamięciowych (serwerów)
I
Optymalizacja okresów dostępu do poszczególnych obszarów danych
w celu minimalizacji zużycia energii
IAiIS PW
19/21
Problemy archiwizacji długoterminowej a CREDO
Standardy i certyfikacja
Standardy w archiwum cyfrowym
Standardy w archiwum cyfrowym
I
Tylko zgodność ze standardami może zapewnić długookresową
możliwość poprawnej interpretacji zasobów
I
Standardy muszą dotyczyć zawartości archiwum
I
I
I
formatów przechowywanych zasobów
metadanych
Także struktura archiwum i procedury jego działania powinny być
zgodne ze standardami lub ogólnie przyjętymi dobrymi praktykami
Standardy w CREDO
I
I
T.Traczyk
Zgodność „filozofii” i działania systemu z Open Archival Information
System (OAIS) – standardem określającym model referencyjny dla
archiwów cyfrowych (ISO 14721:2012)
Użycie standardowych formatów metadanych (np. METS, PREMIS)
IAiIS PW
20/21
Problemy archiwizacji długoterminowej a CREDO
Standardy i certyfikacja
Certyfikacja
Certyfikacja archiwum cyfrowego
I
Potrzebę oparcia zaufania do archiwów cyfrowych na certyfikacji
sformułowano już w roku 1996
I
Model referencyjny OAIS dostarczył terminologię i strukturę logiczną
I
Zasady certyfikacji określa dokument Trusted Digital Repositories
(ISO 16363:2012)
W CREDO
I
Założona zdatność archiwum CREDO do certyfikacji
I
Zgodność z modelem OAIS
I
Przejrzysta architektura z dobrze określonym podziałem zadań
I
Szczegółowe rejestrowanie zdarzeń w dziennikach (logach)
Dokumentacja techniczna w języku angielskim
I
I
T.Traczyk
ze względu na potencjalny brak krajowych instytucji certyfikujących
IAiIS PW
21/21

Podobne dokumenty