Utrzymanie dostępności dokumentów elektronicznych

Transkrypt

Utrzymanie dostępności dokumentów elektronicznych
Keeping Electronic Records Accessible - How The Federal Archives Of
Germany Preserves The Digital Heritage Of The German Democratic Republic:
A Case Study
Andrea Hänger
About 200 datasets (with some 200,000 files) stored in the digital repository of the
Federal Archives of Germany were created in the German Democratic Republic
between 1970 and 1990. Computerised databases covering the general areas of
statistics, economics, agriculture, education, penal registration, and labour have all
been preserved. These records are frequently used by scientific users as well as by
agencies and individuals to verify legal claims. This paper seeks to present the
acquisition, preservation and accessibility of these records. It discusses the question
of authenticity and assesses the prospects for presenting and preserving the data
with modern exchange standards like the Metadata Encoding and Transmission
Standard (METS).
Acquisition
Following formal unification in October 1990, East German government agencies and
institutions that were not taken over by federal agencies or by one of the newly
established Länder were either privatised or dissolved. As a result, many of the State
data-processing centres were shut down, and in the dismantling process, data
holdings were often systematically destroyed or relocated within new private
companies. The Federal Archives immediately set up an active acquisition policy and
succeeded in rescuing a significant number of historical and evidential records.
Above all, it was important not only to acquire data, but also to safeguard
documentary information that allowed this data to be read and interpreted. The
acquisition was, and still is, an ongoing process. Over the years hundreds of
magnetic tapes were found in attics or in abandoned offices. Even today, floppy disks
are found in paper records in the course of description. The latest discovery is a
dataset containing the findings of an investigation committee of the last GDRparliament, the Volkskammer. This committee was established to throw light on
accusations of corruption against the government. Data was stored on several 5.25”
floppy disks in the format Redabas, the socialist version of dBase. One of the most
important datasets is the “Central Executives (Cadres) repository” which holds data
gathered during the 1980s in the GDR’s Council of Ministers. With records covering
approximately 700,000 individuals including the whole ‘functional’ elite and the upper
echelons of the GDR’s service class (but excluding full time party functionaries and
officers in the military and the security apparatus) this unique data source provides us
with full records of their social and political family backgrounds, their family situation
in the 1980s, their occupational careers, educational backgrounds, party and
organisation affiliations, status in the nomenclature and further information regarding
their position as cadres (such as foreign language skills, entitlement to travel into
non-socialist countries etc.). Other examples of important datasets are the “1971 and
1981 Census dataset” or the “Petition dataset” containing the description of more
than one million petitions addressed to the GDR-government between 1979 and
1989.
Preservation
Following the first acquisitions, a strategy for the long term preservation had to be
defined. According to Margret Hedstrom preservation means: “Retaining the ability to
display, retrieve, manipulate and use the digital information in the face of constantly
changing technology”1. For archival purposes it is not only preservation for the
months and years to come but it is also long term preservation. Long term means
that it is long enough to be concerned with the impacts of changing technologies,
including support for new media and data formats, or with a changing user
community. Long term may extend indefinitely.
In general there are two different strategies for long-term preservation of born digital
records: migration and emulation. Born digital records are those whose meaning or
usability arise from and rely on their being encoded in digital form. They cannot be
stored on anything other than digital media without losing their whole functionality.
Migration can be broadly defined as the transfer of digital information from one
hardware/software platform to another, or from one generation of digital technology to
another. Migration is almost always an ongoing process. Rarely can one migration
result in permanence of data; instead, migrations must take place periodically in
order to ensure that information remains “evergreen.”
1
Margret Hedstrom, Preserving digital information, in: Long Term Preservation of Electronic Materials
A JISC/BRITISH LIBRARY Workshop as part of the Electronic Libraries Programme (eLib),
http://www.ukoln.ac.uk/services/papers/bl/rdr6238/paper.html
Emulation as the second alternative attempts to preserve the original software or
hardware environment. Ideally, emulators reproduce the “look and feel” of the original
electronic document by mimicking the software or hardware with which the document
was produced. The user can thus access the document in its original format, with all
functionality preserved. In the perspective of archival sciences this is without any
doubt the best way because it keeps as much of the original as possible. However, it
is also the most complicated and expensive way. The choice of the strategy depends
on the degree of functionality which needs to be preserved and on the resources an
archive can invest in digital preservation.
It would be fair to say that, as yet, no single strategy has emerged as a clear cut
solution, and digital preservation remains a technically complex and resource
intensive process. The first aim should be to keep data open to any questions which
could be raised over the course of time. In the long term new communities of users
will emerge with needs and expectations that differ from those of the communities
that created the digital content.
Both migration and emulation represent ongoing preservation commitments – an
archive must be prepared to provide resources on a cyclical basis in order to
maintain the accessibility of its records. Even ignoring the issues of preserving
content in a meaningful manner, the physical storage media are themselves subject
to obsolescence and deterioration, and must be regularly refreshed.
The Federal Archives has decided to follow the migration strategy for the media and
for the formats. For the GDR-datasets ASCII was chosen as preservation format.
ASCII is undisputed the safest way to keep data, but only the bit stream without any
information about former functionality and form is preserved. This information has to
be kept in supplementary documentation.
In many cases data structures had to be reconstructed. A lot of research had to be
done to identify structures and codes. In order to safe storage space which was
extremely expensive when these records were created the information had been
compressed as much as possible. Mostly data was encrypted and packed, so that
the conversion into an archival format could not be managed by commercial
conversion programs. Each dataset demanded special programming. In some cases
the software engineers who had written the algorithms had to be found because they
were the only ones who could help with the encryption. In 2003 the Federal Archives
developed a special conversion tool which migrates the original file from EBCDIC to
ASCII and XML. It has an unpack routine for packed data and converts hexadecimal
into binary values. With this tool a simple analysis of the values of each field is
possible, so that file structures and codes can be validated. The most important
function consists of the non-detachable connection of the data, the description of the
structure and the codes. This function is able to compensate for the disadvantage of
ASCII that only the bitstream is preserved.
During the processing of the datasets, often anomalies were identified in the data.
Information about content validation and possible constraints on the reliability of data
are documented in the finding aids. Sample checks were carried out to compare the
transformed data against the original data. These included carrying out plausibility
checks on the data, comparing the value of specific fields and checking that the
overall number of records and fields remained the same.
Accessibility
The GDR-datasets are frequently used not only for scientific but also for evidential
purposes. Thus, the conversion tool is also able to replace codes. That is to say that
the numeric codes are replaced by plain text, for example "German Democratic
Republic" instead of "111". This is especially important for datasets which are
frequently used for official and individual purposes and which contain highly sensitive
personal data. Whereas for example the Social Courts are provided with the “GDR
Company Register dataset” as a whole to carry out the retrieval themselves, it is, as
a matter of course, not possible to deliver copies of datasets containing personal
data. For enquiries related to these datasets the research can only be carried out by
the Federal Archives.
The highest number of enquiries is related to the “Detainee and Prisoner dataset”.
The tables include information about the family situation, the term of imprisonment,
the punishable act, and every event (including illnesses) which occurred during the
term of imprisonment. Much time and effort was spent on the conversion and
documentation of this dataset. Many codes have been replaced by plain text. The
advantage of plain text spreadsheets over encoded data is that no expert is needed
to carry out a research.
To support fast access another tool was developed which adapts the structures of
files with the same content but varying structures. For example the “Detainee and
Prisoner Dataset” contains annual datasets from 1980 up to 1990. The structure has
evolved over the years. For research purposes the tool normalises the structure and
reads the files in a mySQL-database. As a consequence, an enquiry can be
answered by a single retrieval. This tool is also able to compare the different files
and to identify those which are identical.
For scientific users anonymised copies are produced. The conversion tool is able to
extract the fields to be saved and anonymise those fields that contain sensitive
information. Most of the users work with copies of data delivered on CD-R. These
users are participants of bigger research programmes where data is processed in
modern databases. They only come to the Federal Archives to consult the
supplementary documentation. Only few users use the on-site public access of data.
The dataset description catalogue is presented on the website of the Federal
Archives. A web-based public presentation system is not yet planned because
access conditions for many datasets specifically prohibit free access.
Authenticity and reliability
The question how to keep and prove the authenticity of electronic records is a core
issue not only for archivists but for the information society as a whole. As a
consequence one can observe that electronic records management programs have
to face security requirements which clearly exceed those for paper records.
In turn, the experience with the GDR-data collection is completely different. The
records are frequently used for evidential purposes. Citizens of the former GDR use
the records to establish their claim for refund, compensation or entitlement for a
pension. To give you some examples: One of the most important datasets is the
dataset “Corporate Working Capacity” which contains the individual-level information
for a high percentage of the former GDR workforce, including details on education,
training and employment for about 7,25 million individuals. This source often serves
as proof of periods of employment.
As mentioned above, the highest number of enquiries is related to the “Detainee and
Prisoner dataset”. Information especially about diseases suffered during the term of
imprisonment can help former prisoners to get compensation. It exists in electronic
form only and it is the only source a person concerned can rely on when applying for
compensation. In the first instance local authorities or regional government
departments decide about the application. If it is defeated the applicant has the
possibility to challenge the decision and to make an application for judicial review.
As shown above the acquisition of these datasets did not comply with standards and
guidelines about secure data transfer. But no authority or judge has, to today,
doubted the authenticity and reliability of the records. Apparently the careful
documentation about the context, the validation, transformation and processing of the
data is adequate for evidential purposes.
This experience confirms the policy to avoid short- or mid-term remedies like digital
signatures for long-term issues and to give priority to organisational rather than
technical provisions to keep the authenticity. The Federal Archives is taking an active
part in a multidisciplinary initiative which is modelled on the RLG’s “Digital
Repositories Certification”. The goal of this project is to set up requirements for digital
repositories which are able to reliably store, migrate, and provide access to digital
collections.2
METS
It is a prerequisite for keeping reliable and authentic data that the accompanying
documentation is complete. As shown above, to start with, the Federal Archives
developed a tool which non-detachably connects the data, the description of the
structure and the codes thus avoiding that the link between these different sources
gets lost. If one of the three parts is missing the data cannot be interpreted anymore.
But from an archival perspective it is also a core requirement that context and
technical information are preserved with the data to make sure that at any time the
whole history of the file can be reconstructed. This includes information about the
administrative context of the creating agency, the way the data was originally
captured and validated and the documentation of the processing of data in the
archive, for example about content validation, sample checks, migration, refreshment
etc. Today this information is kept separate from the data. The Federal Archives is
currently investigating if the Metadata Encoding and Transmission Standard (METS)
could be a way to bring data, context and technical documentation together. METS is
an initiative of the Digital Library Federation. It provides an XML document format for
encoding metadata necessary for both management of digital objects within a
repository and exchange of such objects between repositories and their users.
2
nestor: Network of Expertise in Long-Term Storage of Digital Resources:
http://www.langzeitarchivierung.de/index.php?newlang=eng
Originally intended for presentation purposes3, METS is increasingly used for
preservation purposes. A METS document could be used in the role of Submission
Information Package (SIP), Archival Information Package (AIP), or Dissemination
Information Package (DIP) within the Open Archival Information System (OAIS)
Reference Model. It uses XML as a flexible, open standard with widespread support,
combined with the ability to separate content from presentation in a manner which
offers many advantages to the archivist.
A METS document consists of seven major sections: 1. the METS-Header describing
the METS document itself, 2. the Descriptive Metadata, 3. the Administrative
Metadata, 4. the File Section listing all files which can be referenced or contained
within the METS document (in XML or as Base64 Binary) , 5. the Structural Map
which describes the hierarchical structure of the digital object, and links the elements
of that structure to content files and metadata that pertain to each element, 6.
Structural Links and 7. Behaviour.
The advantage of METS is that the descriptive and the technical/administrative
metadata are not defined internally, but they point to external standard schemas.
These could be international ones like Dublin Core or EAD, but also national
standards for records originating from electronic records management systems. Also
the technical metadata can be represented by international standards like PREMIS.4
PREMIS for example offers the possibility to register every “event” that occurs while
transforming, processing or describing data. METS offers the possibility to link
together the descriptive and the technical metadata and provides for a coherent
documentation not only of the content and context but also of the preservation
process.
Lessons learned
The experience with the GDR-data can be seen as a case study which shows what
happens when the cooperation between the data producer und the archive fails. To
start working only when records are given up without a standardised transfer is a
difficult and expensive task. In the years to come we anticipate that the majority of
our accessions will originate from electronic records management systems, and will
3
In the research project “Digitized Archives in Online Finding Aids” supported by the Andrew W.
Mellon-Foundation a pilot application for the presentation with METS is currently developed at the
Federal Archives: www.daofind.de.
4
PREMIS (Preservation Metadata: Implementation Strategies):
http://www.oclc.org/research/projects/pmwg/
arrive with standardised metadata and comprehensive audit trails, but the lessons
learned by the GDR-experience will need to be kept in mind:
Archivists have as their mission the preservation of records of continuing value and
the provision of access to those records. However, that does not imply that archivists
should remain on the sidelines until the time comes when an organisation feels that it
no longer needs its records. Representative and relevant archives are based on
records that are created and managed well by the creating organisation. This axiom
is of greater importance in the electronic era where lack of planning can doom
electronic records to an early grave. Archivists must be involved early in the life cycle
of records if they are to have an impact. If action is not taken, there is a significant
risk that society will lose generations of historical and evidential records as archives
become increasingly impoverished. Archives rely heavily on data producers to
provide complete and accurate documentation when they deposit data and to comply
with other requirements, such as file structures and formats, transfer media, and
requirements for protection of privacy and confidentiality. The entire enterprise of
digital archiving assumes some degree of cooperation between producers of digital
information and the archives. When data producers do not comply with submission
guidelines, archives incur additional costs in preparing the data for preservation and
dissemination, They experience delays between ingest and release, and assume
risks if data that does not meet quality assurance standards is released.
The example of the GDR-data underlines that archives wishing to set up a strategic
vision for electronic records must take account of two perspectives: There is the
cultural side of their role, which focuses on access, learning and being culturally
inclusive. But they have also to be aware of their evidential role, i.e. their potential to
provide evidence of rights of democratic access
For both, the cultural and the evidential role authenticity is a major issue. METS
could present – besides other advantages – one possibility to safeguard authentic
records over the long term.
Utrzymanie dostępności dokumentów elektronicznych - Jak Bundesarchiv
przechowało cyfrowe dziedzictwo z czasów NRD - analiza przypadku
Andrea Haenger (Bundesarchiv)
Około 200 zbiorów danych (zawierających 200 tys. plików) znajdujących się obecnie w
magazynach Bundesarchiv zostało utworzonych w byłej NRD pomiędzy 1970 a 1990 r.
Przetrwały skomputeryzowane bazy danych obejmujące swym zakresem takie ogólne
zagadnienia jak: statystyka, ekonomia, rolnictwo, edukacja, rejestry skazanych i rejestry
pracowników. Te dokumenty są często wykorzystywane zarówno przez naukowców jak i
przez instytucje rządowe oraz pojedyncze osoby w celu uwiarygodnienia ich legalnych
roszczeń. Poniższy tekst to próba przedstawienia historii przejęcia, przechowania i
udostępniania tych dokumentów. Rozważa się tu zagadnienia autentyczności oraz szans na
przedstawianie i przechowywanie tych danych w oparciu o współczesne standardy wymiany
danych takie jak METS - Metadata Encoding and Transmission Standard.
Dopływy
W następstwie formalnego zjednoczenia Niemiec w październiku 1990 r. agencje i instytucje
rządowe Niemiec Wschodnich, które nie zostały wchłonięte przez agencje federalne lub przez
jeden z nowo utworzonych landów albo sprywatyzowano albo rozwiązano. W wyniku tego
zamknięto wiele państwowych centrów przetwarzania danych. W trakcie ich likwidacji zbiory
danych często systematycznie niszczono albo przejmowano przez nowe prywatne
organizacje. Bundesarchiv rozpoczęło aktywną politykę pozyskiwania [takich danych] w
wyniku, której udało się ocalić pokaźną ilość dokumentów historycznych i mających
współcześnie wartość dowodową. Przede wszystkim istotne było nie tylko pozyskanie
samych danych, ale także zabezpieczenie dokumentacji zawierającej informacje pozwalające
te dane odczytać i zinterpretować / zrozumieć. To pozyskiwanie danych jeszcze trwa. W ciągu
tych lat setki taśm magnetycznych znaleziono na strychach lub w porzuconych urzędach.
Nawet obecnie odnajduje się dyskietki wśród opisywanych papierowych dokumentów.
Ostatnim znaleziskiem jest zbiór danych zawierający ustalenia komitetu dochodzeniowego
ostatniego parlamentu NRD Volkskammer. Komitet ten utworzono, aby zbadać zarzuty
korupcji podnoszone wobec rządu. Dane zapisano w formacie Redabas, 'socjalistycznej'
wersji programu dBase na licznych dyskietkach 5,25". Jeden z najważniejszych zbiorów
danych to „Kadry” – Zentraler Kaderdatenspeicher, który zawiera dane gromadzone w latach
1980. przez NRD'owską Radę Ministrów. Dokumenty te odnoszą się do około 700 tys. osób i
obejmują całą 'funkcyjną' elitę (nomenklaturę) i wyższe warstwy NRD'owskiej administracji
(z pominięciem etatowych funkcjonariuszy partii, oficerów wojskowych i aparatu
bezpieczeństwa). Stanowią one unikatowe źródło, informujące o ich społecznym i
politycznym zapleczu rodzinnym, ich sytuacji rodzinnej w latach 1980., ich zawodowej
karierze, wykształceniu, przynależności do partii i innych pokrewnych organizacji, statusie w
nomenklaturze a także informacje o ich potencjale jako kadry (znajomość języków obcych,
uprawnienia do podróżowania poza kraje bloku wschodniego etc.). Innymi przykładami
ważnych zbiorów są dane ze spisów powszechnych z 1971 i 1981 r. czy „Zbiór podań”
(Eingabenprojekt des Staatsrats der DDR), zawierający opis więcej niż miliona podań
adresowanych do władz NRD w latach 1979-1989.
Przechowywanie
Kolejnym elementem będącym wynikiem przejęcia [zbiorów danych] jest konieczność
określenia strategii ich przechowywania w długim czasie. Według Margaret Hedstrom
oznacza to: "przechowanie zdolności wyświetlania, odtworzenia, manipulowani i użycia
cyfrowej informacji przy stale zmieniającej się technologii"5. Z punktu widzenia archiwów to
nie tylko przechowanie przez miesiące i lata, które nadejdą, ale także w nieokreślenie długim
czasie. Owe określenie oznacza, iż będzie on wystarczająco długi, aby brać pod uwagę wpływ
zmieniającej się technologii, włączając w wsparcie dla nowych nośników i formatów zapisu
danych a także zmiany w społeczności odbiorców. Ten niesprecyzowany okres czasu może się
rozciągnąć bez ograniczenia. Ogólnie rzecz biorąc istnieją dwie strategie przechowywania
dokumentów powstałych w formie cyfrowej (born digital) w długim czasie: migracja i
emulacja. Dokumenty powstałe w formie cyfrowej to takie dokumenty, których znaczenie lub
użycie (odczytanie lub wykorzystanie) wynika z tego, iż zostały one zakodowane w formie
cyfrowej. Nie można ich przenosić i składować, bez utraty ich całej funkcjonalności, na żaden
inny nośniku niż cyfrowy. Migrację można szeroko określić jako transfer cyfrowo zapisanych
informacji z jednej platformy sprzętowo/programowej na inną lub z jednej generacji cyfrowej
technologii do generacji kolejnej. Migracja to prawie zawsze trwający proces. Rzadko
rezultatem jednej migracja może być permanentność danych; przeciwnie migracje muszą się
odbywać cyklicznie [co jakiś okres czasu] w celu zapewnienia, że informacja pozostaje
zawsze 'świeża'.
5
Margret Hedstrom, Preserving digital information, [w:] Long Term Preservation of Electronic Materials A
JISC/BRITISH LIBRARY Workshop as part of the Electronic Libraries Programme (eLib),
http://www.ukoln.ac.uk/services/papers/bl/rdr6238/paper.html
Emulacja, jako drugie z możliwych podejść, to przechowanie oryginalnego (pierwotnego)
środowiska sprzętowego lub programowego. Idealnie, emulatory powinny odtwarzać 'wygląd
i funkcje' oryginalnego dokumentu elektronicznego, naśladując oprogramowanie lub sprzęt,
na którym pierwotnie powstał dokument. W ten sposób użytkownik może mięć dostęp do
dokumentu w oryginalnym formacie, z zachowanymi wszelkimi dostępnymi funkcjami. Z
perspektywy archiwistyki to jest bez wątpienia najlepsze rozwiązanie, gdyż pozawala ono
zachować tak wiele z oryginału jak tylko jest to możliwe. Rozwiązanie takie jest jednak
niezwykle skomplikowane i najdroższe. Wybór strategii zależy od złożoności funkcji, które
trzeba przechować a także od nakładów finansowych, które dane archiwum jest gotowe
wyłożyć na przechowywanie dokumentów w postaci cyfrowej.
Należy uczciwie zaznaczyć, iż jak dotąd, żadna pojedyncza strategia nie pojawiła się jako
jednoznaczne rozwiązanie, a cyfrowe przechowywanie pozostaje procesem techniczne
złożonym i wymagającym znacznych nakładów finansowych. Pierwszym celem powinno być
utrzymanie dostępu do danych dla wszelkich pytań, które mogą się pojawić z biegiem czasu.
W długim czasie nowe grupy użytkowników będą zadawać nowe pytania badawcze,
odmienne od tych, które stawiało sobie pokolenie tworzące cyfrowe treści.
Zarówno migracja, jak i emulacja wymagają stałego zaangażowania się w przechowywanie archiwum musi być przygotowane na cykliczne wydatki w celu zapewnienia dostępności
swoich dokumentów. Nawet lekceważąc problem przechowania zrozumiałej, znaczącej treści
(zawartości), samo fizyczne składowanie nośników podlegających starzeniu się i
uszkodzeniom, musi oznaczać ich regularne 'odświeżanie'.
Bundesarchiv zdecydowało się na przyjęcie strategii migracji wobec nośników i formatów
zapisu. Dla NRD'owskich zbiorów danych kody ASCII wybrano jako format do
przechowywania. Zapis w kodach ASCII jest bezsprzecznie najbezpieczniejszym sposobem
zachowania danych, lecz przechowany jest tylko strumień bitów bez jakichkolwiek informacji
o uprzedniej funkcjonalności i formie. Takie informacje trzeba przechowywać w
dokumentacji uzupełniającej.
Często należy zrekonstruować strukturę danych. Wiele badań należy przeprowadzić dla
zidentyfikowania struktury i sposobów kodowania. Aby zaoszczędzić miejsce na nośniku, a
pamięć była bardzo droga w czasach, gdy te dane powstawały, informacja podlegała jak
największej kompresji. Większość danych była zaszyfrowana i spakowana, a wobec tego
konwersja na archiwalny format nie może zostać przeprowadzona przez dostępne,
komercyjne konwertery. Każdy ze zbiorów danych wymagał specjalnego oprogramowania. W
pewnych wypadkach, należało dotrzeć do programistów, którzy napisali pierwotny algorytm,
gdyż tylko oni byli jedynymi osobami mogącymi pomóc przy odszyfrowywaniu. W 2003 r.
Bundesarchiv opracowało specjalne narzędzie do konwersji, które przepisuje oryginalne pliki
z EBCDIC na ASCII i XML. Zawiera ono program rozpakowujący dane i konwertujący kody
heksadecymalne na wartości binarne [FOT]. Dzięki temu narzędziu możliwa jest prosta
analiza wartości każdego pola, tak, aby można było sprawdzić poprawność struktury i
kodowania. Najważniejsza funkcja polega na wzajemnym łączeniu danych, opisu struktury i
kodów. Ta funkcja umożliwia zrównoważenie niedogodności zapisu kodami ASCII, który
przechowuje tylko strumień bitów.
W trakcie opracowywania zbiorów danych wykrywane są liczne anomalie w danych.
Informacje o poprawności zawartości i możliwych ograniczeniach, co do możliwości
polegania na danych są odnotowywane w pomocach archiwalnych. Przykładowe sprawdzenia
są dokonywane, aby porównać przekonwertowane już dane z oryginalnymi. Zalicza się do
tego przeprowadzenie kontroli poprawności, porównanie wartości poszczególnych pól i
sprawdzenia czy ogólna liczba rekordów i pól pozostaje bez zmian.
Dostępność
NRD'owskie zbiory danych są często wykorzystywane nie tylko do celów naukowych, ale
także dla celów dowodowych. Wobec tego narzędzie do konwersji ma też możliwość
zastępowania kodów w treści; np. numeryczne kody są zastępowane przez tekst: 'DDR'
zamiast '111'. To jest ważne zwłaszcza dla zbiorów danych sensytywnych zawierających dane
osobowe, często wykorzystywanych dla celów urzędowych i osobistych. Na przykład Sądom
Społecznym (Sozialgerichte) (ZUS ?) są udostępniane NRD'owskie rejestry pracownicze w
całości, aby one same przeprowadziły wyszukiwanie. Ze względów proceduralnych nie
można dostarczyć kopii danych zawierających dane osobowe. W wypadku zapytań w tych
zbiorach danych takie poszukiwanie może być prowadzone tylko przez pracowników
Bundesarchiv. Największa ilość zapytań jest skierowana do zbirów „Zatrzymani i Skazani”
(Strafgefangenen und Verhaftetendateien). Tablice zawierają informacje o sytuacji rodzinnej,
warunkach uwięzienia, wyroku skazującym i wszystkich wydarzeniach (w tym przebytych
chorobach), które miały miejsce w trakcie odbywania wyroku. Wiele czasu i wysiłku
poświęcono na skonwertowanie i dokumentacje tego zbioru danych; wiele zakodowanych
informacji zastąpiono tekstem. Przewaga tekstu nad informacją zakodowaną polega na tym, iż
nie potrzeba już znających kody ekspertów, aby prowadzić poszukiwania w takim zbiorze.
W celu zapewnienia szybkiego dostępu opracowano też inne narzędzie, które dostosowuje
strukturę plików zawierających te same treści, lecz mających odmienne struktury. Na
przykład "Zatrzymani i Skazani" obejmują coroczne zbiory danych z lat 1980-1990; ale
struktura tych baz zmieniała się w ciągu tej dekady. Dla celów badawczych owo narzędzie
znormalizowało tę strukturę i wczytało dane do bazy danych w mySQL. [FOT] W ten sposób
odpowiedź na zadane pytanie uzyskuje się po jednym wyszukaniu w bazie. To narzędzie
potrafi także porównać różne pliki {?} aby znaleźć te, które są identyczne.
Dla celów badań naukowych tworzone są zanonimizowane kopie. Narzędzie do konwersji
umożliwia wybór pól, które mają być zachowane i anonimizację pól z sensytywną
zawartością. Większość użytkowników pracuje na kopiach danych dostarczonych im w
postaci płyt CD-R. Użytkownicy ci uczestniczą w większych programach badawczych, gdzie
dane są opracowywane w nowoczesnych bazach danych. Oni zjawiają się tylko w
Bundesarchiv w celu zapoznania się z uzupełniającą dokumentacją. Tylko niewielu badaczy
korzysta z możliwości publicznego dostępu na miejscu [w Bundesarchiv]. Inwentarz
opisujący zbiór danych jest dostępny na stronie internetowej Bundesarchiv, ale system
prezentacji zawartości dokumentów wykorzystujący internet nie jest jeszcze planowany, gdyż
wolny dostęp do wielu zbiorów danych jest zakazany przez specjalne przepisy.
Autentyczność i wiarygodność
Pytanie jak zachować i dowodzić autentyczności dokumentów elektronicznych to zasadniczy
problem nie tylko dla archiwistów, ale dla wszystkich uczestników społeczeństwa
informacyjnego. Można zaobserwować, że programy do zarządzania dokumentami
elektronicznymi muszą spełniać wymagania bezpieczeństwa znacznie przewyższające te
stawiane dokumentom papierowym. Z kolei doświadczenia z NRD'owskimi zbiorami danych
są zupełnie inne. Te dokumenty są często przywoływane dla celów dowodowych. Obywatele
byłej NRD korzystają z tych dokumentów, aby ustalić swoje roszczenia, co do odszkodowań
lub tytułu do emerytury. Np. jednym z najważniejszych zbiorów danych jest zbiór „Potencjał
Pracy
Zbiorowej”
(Datenspeicher
gesellschaftliches
Arbietsvermögen),
zawierający
zindywidualizowane informacje o znacznym procencie osób stanowiących siłę roboczą byłej
NRD, włączając w to szczegóły dotyczące wykształcenia, nabytych doświadczeń (kursów) i
przebiegu zatrudnienia około 7,25 mln osób. To źródło często służy do udokumentowania
okresu zatrudnienia. Jak już wspomniano duża ilość zapytań kierowana jest do zbioru
"Zatrzymani i Aresztowani". Szczególnie informacje na temat przebytych chorób w trakcie
okresu uwięzienia mogą pomóc byłym więźniom w uzyskaniu odszkodowania. Informacje te
istnieją tylko w formie elektronicznej i są jedynym źródłem, na którym może polegać osoba,
gdy stara się o odszkodowanie. W pierwszej instancji władze lokalne lub odpowiednie
wydziały rządów regionalnych rozpatrują takie podania. Jeżeli podanie zostanie odrzucone
składający je może się odwołać od decyzji domagając się jej rozpatrzenia przez właściwy sąd.
Jak pokazano to powyżej przejęcie tych zbiorów danych [przez archiwa] nie odbywało się z
zachowaniem standardów ani wytycznych odnoszących się do bezpieczeństwa takiego
transferu. Jednak żadna władza ani sędzia - przynajmniej do dnia dzisiejszego - nie
zakwestionował autentyczności i wiarygodności tych dokumentów. Oczywiście staranna
dokumentacja, co do kontekstu, poprawności przekształcania i postępowania z tymi danymi
jest wystarczająca dla celów dowodowych.
To doświadczenie potwierdza politykę unikania krótko- lub średnio- terminowych środków
zastępczych takich jak sygnatura elektroniczna w przypadku problemów długiego czasu
[przechowywania] oraz politykę dającą priorytet rozwiązaniom organizacyjnym przed
technologicznym w odniesieniu do utrzymania autentyczności. Bundesarchiv aktywnie
uczestniczy w interdyscyplinarnej inicjatywie wzorowanej na projekcie RLG - "Digital
Repositories Certification". Celem tego przedsięwzięcia jest określenie wymagań dla
"magazynów cyfrowych", które będą mogły wiarygodnie składować, migrować i zapewniać
dostęp do kolekcji w postaci cyfrowej6.
MEST
Wstępnym warunkiem utrzymywania wiarygodnych i autentycznych danych jest poprawność
towarzyszącej im dokumentacji. Jak już o tym wspomniano Bundesarchiv opracowało
narzędzie, które wzajemnie łączy dane, opis ich struktury oraz użyte kody, aby w ten sposób
uniknąć 'zerwania' połączeń między tymi różnym typami informacji. Jeżeli jednej z tych
trzech typów zabraknie, dane stają się niezrozumiałe. Także z punktu widzenia archiwów
istotne jest wymaganie, aby kontekst i techniczne informacje przechowywać wraz z danymi.
Umożliwi to w dowolnym czasie odtworzenie historii danego pliku. Obejmuje to informacje o
kontekście administracyjnym wytwórcy dokumentów, sposobie w jaki dane były pierwotnie
zbierane i sprawdzane oraz dokumentacji opracowywania tych danych w archiwum; np.
sprawdzania poprawności zawartości, próbek sprawdzających, migracji, odświeżania
nośników etc. Dziś takie informacje są przechowywane oddzielnie od danych. Obecnie
prowadzi się w Bundesarchiv badania czy standard METS [Metadata Encoding and
Transmission Standard]7 może stanowić sposób połączenia danych, kontekstu i dokumentacji.
6
Network of Expertise in Long-Term Storage of Digital Resources:
http://www.langzeitarchivierung.de/index.php?newlang=eng
7
Strona internetowa poświęcona standardowi METS –
http://www.loc.gov/standards/mets/METSOverview.v2.html (przyp. tłum.)
Standard ten to inicjatywa Digital Library Federation. Jest to zestaw koniecznych metadanych
zakodowanych jako dokument XML zarówno dla zarządzania obiektami cyfrowymi
wewnątrz magazynu jak i wymiany takich obiektów między magazynami i ich
użytkownikami. METS pomyślany początkowo dla celów prezentacji8 jest coraz częściej
stosowany dla celów przechowywania. Dokument METS może być użyty w roli Submission
Information Package (SIP), Archival Information Package (AIP) lub Dissemination
Information Package (DIP) w ramach standardu modelu referencyjnego Open Archival
Information System - OAIS9. Wykorzystanie XML jako elastycznego, otwartego standardu z
szerokim wsparciem technicznym połączone z możliwością oddzielenia zawartości od
sposobu jej przedstawienia oferuje wiele korzyści dla archiwisty. Standard METS składa się z
siedmiu zasadniczych części: Standard METS składa się z siedmiu zasadniczych części:
1. Nagłówek (header) - opisujący sam dokument METS (datę powstania dokumentu,
jego twórcę etc.);
2. Metadane opisowe - wskazujące, jakim zewnętrznym standardem się posłużono np.:
MARC, MODS, EAD, DC etc. i/lub pobierają stosowne metadane z tego standardu
np.: <dc:title> <dc:creator> <dc:date>;
3. Matadane administracyjne - jak plik utworzono i przechowywano, czyja jest to
własność intelektualna; tu są też zawarte metadane pierwotnego obiektu, z którego
utworzono obiekt biblioteki cyfrowej i jego proweniencja (migracje). Cztery główne
typy informacji: techniczne (format); własność intelektualna (prawa autorskie,
licencje); źródło (metadane analogowego źródła, z którego wywodzi się obiekt
cyfrowy); cyfrowa proweniencja (związki zachodzące między źródłem a jego cyfrową
kopią, migracje, przekształcenia);
4. Sekcja plików - zawierająca listę wszystkich plików wchodzących w skład obiektu
cyfrowego, które mogą stanowić odniesienia lub znajdować się wewnątrz dokumenty
METS (w XML lub jako Base64Binary);
5. Mapa struktury - to podstawa dokumentu METS, opisująca hierarchiczny struktury
obiektów biblioteki cyfrowej oraz połączenia elementów tej struktury z zawartością
plików i metadanymi należącymi do każdego elementu;
8
W projekcie “Digitized Archives in Online Finding Aids” wspieranym przez Andrew W. Mellon-Foundation
jest wykorzystywana przez Bundesarchiv pilotażowa aplikacja służąca do prezentacji z wykorzystaniem METS:
www.daofind.de.
9
Reference Model for an Open Archival Information System (OAIS) - ISO 14721; 2003; model ten opisuje
funkcje cyfrowego archiwum (digital repository); jak cyfrowe obiekty mają być przygotowywane, przekazywane
do archiwum (Submission Information Packages – SIPs; trwają prace nad standaryzacją opartego na XML
pakietu), składowane i podtrzymywane w długim czasie (Archival Information Packages - AIPs) oraz
udostępnianie (Dissemination Information Packages – DIPs). (przyp. tłum.)
6. Strukturalne połączenia - gdzie twórca dokumentu METS może odnotować istnienie
powiązań hipertekstowych (ta część jest istotna zwłaszcza przy archiwizowaniu stron
internetowych);
7. Zachowanie - gdzie zidentyfikowany został fragment kodu odpowiedzialny za
konkretną zdefiniowaną funkcję wykonywaną przez program funkcjonowanie.
Zaletą standardu METS jest to, iż metadane opisowe oraz techniczno-administracyjne nie są
definiowane wewnętrznie, ale wskazują na zewnętrzne zestandaryzowane schematy. Mogą
nimi być standardy międzynarodowe takie jak Dublin Core lub Encoded Archival
Description, ale także narodowe standardy dla dokumentów wywodzących się z systemów
zarządzania dokumentami elektronicznymi. Także techniczne metadane mogą być opisane w
międzynarodowych standardach takich jak PREMIS10. Na przykład oferuje on możliwość
rejestrowania
każdego
zdarzenia,
które
miało
miejsce
podczas
przekształcania,
opracowywania lub opisywania danych. METS daje możliwość połączenia razem opisowych i
technicznych metadanych i stanowi w ten sposób spójną dokumentację nie tylko dla
zawartości i kontekstu, lecz także dla procesu przechowywania.
Czego się nauczyliśmy
Doświadczenie z danymi z byłej NRD można potraktować jako studium przypadku,
ukazujące, co się dzieje gdy współpraca między wytwórcą danych i archiwistą się nie
powiodła. Rozpoczęcie opracowania archiwalnego dopiero po tym, gdy dokumenty zostały
porzucone bez zestandaryzowanego przekazania do archiwum jest trudnym i kosztownym
zadaniem. Zakładamy, że w nadchodzących latach większość naszych dopływów będzie
pochodzić z systemów zarządzania dokumentami elektronicznymi i będzie dostarczana wraz
ze standardowymi metadanymi i odpowiednią dokumentacją poświadczającą przekazanie [?],
lecz należy pamiętać o tym czego się nauczyliśmy w przypadku zbiorów danych z byłej NRD.
Misją archiwistów jest przechowanie dokumentów o trwałej wartości i umożliwienie do nich
dostępu. Nie oznacza to jednak, że archiwiści powinni pozostać na uboczu aż do czasu, gdy
dana organizacja poczuje, iż już dłużej nie potrzebuje swoich dokumentów. Reprezentatywne
i odpowiednie archiwa opierają się na dokumentach, które wytworzono i którymi prawidłowo
zarządzano w organizacji, będącej ich twórcą. Ten aksjomat ma wielkie znaczenie w erze
elektronicznej, gdzie brak planowania może z góry skazać elektroniczne dokumenty na
przedwczesną śmierć. Aby tak się nie stało archiwista musi mieć udział we wczesnych fazach
cyklu życia dokumentów. Bez takich działań istnieje poważne ryzyk, że społeczeństwo straci
10
PREMIS (Preservation Metadata: Implementation Strategies): http://www.oclc.org/research/projects/pmwg/
generację historycznych i dowodowych dokumentów a archiwa będą się stawać coraz
uboższe. Archiwa w znacznym stopniu polegają na wytwórcach danych dostarczających
kompletną i dokładną dokumentację w momencie, kiedy je składają do archiwum; a także na
tym, iż przestrzegano innych wymagań, co do struktury i formatów plików, nośników, na
których je przekazano, ochrony prywatności i tajemnicy. Całościowe przedsięwzięcie
archiwizowania w postaci cyfrowej zakłada pewien stopień współdziałania między
wytwórcami cyfrowej informacji a archiwistami. Kiedy ci pierwsi nie dostosowują się do
przedstawionych wytycznych, archiwa ponoszą dodatkowe koszty na przygotowanie danych
do przechowywania i udostępniania. Pojawią się opóźnienia między przejmowaniem a
udostępnianiem oraz ryzyko, że dopuszczono dane, które nie spełniają standardów
jakościowych.
Przykład danych z byłej NRD uwydatnia, iż archiwa pragnące określić strategiczne wizje dla
dokumentów elektronicznych muszą wziąć pod uwagę dwa punkty widzenia: kulturalną
stronę swojej roli, skupiającą się na udostępnianiu, uczeniu i uczestniczeniu w kulturze. Lecz
jest też rola dowodowa, której też muszą być świadome - ich potencjał dostarczania
świadectw praw demokratycznego dostępu.
Dla obu tak kulturalnej jak i dowodowej roli autentyczność jest wielkim problemem. Być
może właśnie METS - obok innych zalet - może stanowić jedną z możliwości zabezpieczenia
autentycznych dokumentów w długim czasie.
Tłum. HWs

Podobne dokumenty