Metadane w archiwum CREDO

Transkrypt

Metadane w archiwum CREDO
Metadane w archiwum CREDO
Projekt CREDO
Instytut Automatyki i Informatyki Stosowanej
Politechnika Warszawska
29 lutego 2016
Metadane
Metadane ogólnie
Metadane – dane o danych
I
I
Metadane – dane o danych
Pojęcie metadanych nie odnosi się jedynie do obiektów cyfrowych
I
za metadane można uznać biblioteczne katalogi kartkowe,
umożliwiające i ułatwiające wyszukanie odpowiedniej książki
I
. . . ale dopiero z rozwojem techniki cyfrowej w zakresie przetwarzania
informacji (czyli wiedzy) metadane nabrały większego znaczenia
I
Doświadczamy dziś ogromnych możliwości wyszukiwania informacji
I
Przynajmniej częściowo zawdzięczamy je metadanym, zarówno ich
treści, jak możliwości ich automatycznego analizowania
i przetwarzania
CREDO
2/30
Metadane
Metadane w technice cyfrowej
Podział metadanych
I
Metadane dzielone są na typy wg różnych kryteriów, np.
I
I
I
I
I
opisowe i strukturalne – strukturalne opisują pojemnik danych,
a opisowe konkretny egzemplarz danych zawarty w pojemniku
opisowe, strukturalne i administracyjne – administracyjne obejmują
tu metadane techniczne, prawne i konserwatorskie (NISO)
techniczne i biznesowe – odpowiadające metadanym wewnętrznym
i zewnętrznym
techniczne i biznesowe j.w. – oraz dodatkowo metadane procesowe,
opisujące np. wyniki operacji przeprowadzanych w hurtowni danych
opisowe, techniczne, strukturalne, konserwatorskie, prawne,
administracyjne, behawioralne (odnoszące się do techniki
udostępniania) – to typowy podział funkcji metadanych np.
w bibliotekach cyfrowych
CREDO
3/30
Metadane
Metadane w technice cyfrowej
Znaczenie metadanych
I
Metadane opisowe są niezbędne do wyszukiwania przechowywanych
obiektów;
I
Metadane techniczne i strukturalne, ew. także behawioralne, są
potrzebne do prezentowania obiektów cyfrowych przy ich
udostępnianiu
I
Metadane administracyjne, zwłaszcza prawne, muszą być
uwzględniane przy udostępnianiu obiektów
I
Metadane techniczne są potrzebne do takich operacji
konserwatorskich jak migracje na nowe formaty
I
Metadane prawne muszą być brane pod uwagę także przy migracjach
I
Metadane konserwatorskie są stosowane przy przechowywaniu
obiektów cyfrowych, zwłaszcza długotrwałym, gromadząc informacje
potrzebne do zapewnienia tym obiektom cech integralności
i autentyczności
CREDO
4/30
Metadane
Metadane w technice cyfrowej
Znaczenie metadanych
I
I
I
Część metadanych musi być opracowywana i wprowadzana ręcznie,
zwłaszcza metadane opisowe tam, gdzie odnoszą się do
zewnętrznych obiektów – fotografowanych czy filmowanych ludzi,
miejsc, wydarzeń
Część metadanych, przede wszystkim technicznych może być
wprowadzana przy użyciu sprzętu – aparatu fotograficznego, skanera
itd. (np. parametry zdjęcia, czas powstania obiektu)
Część metadanych biznesowych może powstawać bez udziału
człowieka, jak np. wielokrotność odtworzenia filmu na YouTube,
statystyki wymiany audycji itp.
CREDO
5/30
Metadane
Metadane w technice cyfrowej
Przechowywanie metadanych
I
Metadane mają dla człowieka charakter informacji tekstowej, nawet
gdy posługują się parametrami liczbowymi i kodowaniem informacji
I
W naturalny sposób mogą być gromadzone na zewnątrz obiektu
cyfrowego, np. w bazach danych obsługujących gromadzone kolekcje
obiektów
I
Niektóre metadane mogą być zapisane wewnątrz obiektu cyfrowego,
np. zdjęcia lub nagrania dźwiękowego – dotyczy to konkretnych
formatów obiektów i konkretnych typów metadanych zgodnych
z określonymi specyfikacjami
I
Japońscy producenci sprzętu fotograficznego uzgodnili standardy
metadanych technicznych i sposoby ich zapisywania w obiektach
cyfrowych (zdjęciach, nagraniach), tak że metadane takie są
samoczynnie wprowadzane do obiektów przez sprzęt
CREDO
6/30
Metadane
Metadane w technice cyfrowej
Znaczenie standardów
I
O rosnącym znaczeniu standardów w dziedzinie metadanych
świadczyć może fakt, że niektóre z nich uzyskały status normy ISO,
np. Dublin Core (ISO 15836:2009) opracowany w celu opisywania
cyfrowych obiektów w internecie, ale stosowany szerzej
I
Komputerowe przetwarzanie metadanych sprzyjało temu, by do ich
zapisywania stosować takie języki, jak XML
I
Z kolei stosowanie XML wpłynęło na to, że jeszcze większego
znaczenia nabrały standardy oraz służące do walidacji metadanych
przestrzenie nazw i schematy w języku XML Schema, udostępniane
w internecie
CREDO
7/30
Metadane
Formaty plików w archiwach cyfrowych
Formaty plików a długotrwałe przechowywanie
I
Formaty plików można oceniać pod kątem przydatności do
długotrwałego przechowywania
I
Analizę przydatności formatów przeprowadziły m.in. Biblioteka
Kongresu USA, National Archives w USA, The National Archives
w Wielkiej Brytanii
I
Kryteria oceny: otwartość (jawność), szeroka akceptacja,
przejrzystość, samodokumentowanie, brak zależności zewnętrznych,
możliwości migracji
I
Uwaga! Wiele z powszechnie stosowanych formatów nie nadaje się
do archwizacji długoterminowej
CREDO
8/30
Metadane
Metadane w archiwach cyfrowych
Metadane w archiwum cyfrowym
I
Wprowadzenie techniki cyfrowej do archiwów zaowocowało
znaczącymi zmianami
I
I
I
I
najpierw wprowadzeniem cyfrowego opisywania gromadzonych
obiektów analogowych i wykorzystaniem gromadzonych informacji do
zarządzania działalnością archiwum
następnie gromadzeniem także obiektów cyfrowych, które pociągnęło
za sobą dalsze zmiany
To pierwsze zaowocowało powstaniem nowych standardów opisu
obiektów analogowych (a więc nowych standardów metadanych),
dostosowanych do specyfiki archiwów
To drugie zaowocowało
I
I
wprowadzeniem wymagań na formaty obiektów sprzyjające
długotrwałemu ich przechowywaniu
wprowadzeniem wymagań na przesyłanie obiektów do archiwum
CREDO
9/30
Metadane
Metadane w archiwum CREDO
Metadane w archiwum CREDO
I
Metadane w archiwum CREDO są przechowywane
I
I
I
w plikach w pakiecie archiwalnym
w bazie danych archiwum
Metadane w bazie danych archiwum CREDO są przechowywane
I
w strukturach relacyjnych bazy danych
I
I
I
wybrane metadane używane rutynowo do wyszukiwania i do
identyfikacji zasobu, np. Dublin Core
wyszukiwanie możliwe tylko w sposób przewidziany przez archiwum
w bazie danych w postaci XML
I
I
I
źródłowa postać metadanych
zapisana w bazie danych dla umożliwienia sprawnego wyszukiwania
możliwe dowolne wyszukiwanie za pomocą języka zapytań XQuery
CREDO
10/30
Metadane
Metadane w archiwum CREDO
Metadane wspólne dla wielu formatów
Metadane opisowe w archiwum CREDO
I
I
Wobec faktu, że użytkownicy stosują różne standardy metadanych
opisowych, przyjmuje się wspólny zestaw elementów służący do
wyszukiwania
Jako wspólny dla wielu standardów przyjmuje się zestaw elementów
Prostego Dublin Core
I
I
I
I
jest powszechnie znany i szeroko stosowany
ma tylko 15 elementów (Title, Creator, Subject, Description,
Publisher, Contributor, Date, Type, Format, Identifier, Source,
Language, Relation, Coverage, Rights)
szczególne znaczenie przy wyszukiwaniu mają elementy: Title,
Creator, Description, Date, Identifier, Coverage)
do planowania migracji wykorzystany może być element Format i
Rights
CREDO
11/30
Metadane
Metadane w archiwum CREDO
Metadane wspólne dla wielu formatów
Metadane opisowe w archiwum CREDO
I
Problemem praktycznym jest rzutowanie na Dublin Core
metadanych stosowanych przez użytkownika w swojej bazie danych,
gdy nie stosuje Dublin Core
I
Operację rzutowania powinien przeprowadzić użytkownik, gdyż ma
odpowiednią wiedzę merytoryczną, a poza tym to on miałby
w przyszłości korzystać z wyszukiwania w archiwum, więc lepiej,
żeby wiedział, co faktycznie było rzutowane i gdzie
Archiwum powinno otrzymać w tej sytuacji zarówno metadane
oryginalne użytkownika, jak i dodatkowo metadane Dublin Core
powstałe w wyniku rzutowania
I
I
I
jeśli użytkownik dostarczy metadane opisowe w innym standardzie
znanym archiwum, to możliwe jest ich zrzutowanie na Dublin Core
w procesie Ingest
Metadane Dublin Core wprowadzane są do bazy archiwum podczas
sesji Ingest
CREDO
12/30
Metadane
Metadane w archiwum CREDO
Metadane wspólne dla wielu formatów
Metadane opisowe w archiwum CREDO
I
Dla Simple Dublin Core
I
I
I
I
jest określony zapis w formacie XML
jest podana przestrzeń nazw
jest podany schemat w języku XML Schema
. . . zatem użytkownik
I
I
może dostarczać metadane w formacie XML
ponadto może sprawdzać ich poprawność, poddając je walidacji
CREDO
13/30
Metadane
Metadane w archiwum CREDO
Metadane wspólne dla wielu formatów
Metadane techniczne w archiwum CREDO
I
W docelowym archiwum CREDO baza danych archiwum może być
bardziej rozbudowana niż w Demonstratorze
I
W szczególności w archiwum CREDO będzie zawierać metadane
techniczne pomocne przy planowaniu operacji migracji, a więc
oprócz formatu plików może mieć także np. jego wersję oraz
standard kodowania obrazu i dźwięku
I
Uwaga. W przypadku obiektów takich jak film, zawierający wiele
zdjęć (klatek), dopuszcza się zapis „grupowy” parametrów zdjęć, by
nie zapisywać ich dla każdej z dziesiątków tysięcy klatek
I
Zapis taki można uzyskać wykorzystując specjalnie dodany
„wirtualny” poziom w hierarchii obiektów cyfrowych, nazwany
w CREDO zasobem (resource)
CREDO
14/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zagłębione
I
Metadane mogą być zapisane w niektórych typach plików.
I
Do plików, których specyfikacja umożliwia taki zapis i określa jego
sposób, należą m.in. TIFF, JPEG, WAVE, AVI, mp3
I
Mówimy w takim przypadku o metadanych zagłębionych embedded
CREDO
15/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zagłębione
I
I
Podobnie jak w przypadku rzutowania metadanych opisowych
powstaje problem praktyczny odczytania i przekazania do archiwum
metadanych zagłębionych
Operację odczytania powinien przeprowadzić użytkownik, gdyż
wtedy dla obu stron będzie jasne, jakie metadane archiwum
otrzymuje i za jakie bierze odpowiedzialność
I
I
I
kłopotliwe, gdyż zazwyczaj dla metadanych zagłębionych zwykle nie
ma standardów zapisu zewnętrznego
Docelowe archiwum CREDO w umowie z użytkownikiem może
określić postępowanie z takimi danymi, w szczególności sposób ich
konwersji i wprowadzenia do bazy danych archiwum
Docelowo archiwum powinno być zdolne przyjąć i zachować w jakiejś
postaci wszystkie metadane, jakie zostaną odczytane przez użyte
oprogramowanie
I
w Demonstratorze CREDO założenie to będzie zrealizowane tylko
częściowo
CREDO
16/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zaglębione IPTC
I
Metadane IPTC zostały opracowane dla fotografii prasowej
I
Mogą być zapisywane w plikach TIFF i JPEG
Zawierają dwie grupy metadanych
I
I
I
I
IPTC Core
IPTC Extension
Zakłada się że wybrane metadane IPTC Core odczytane z plików
zostaną rzutowane na metadane Dublin Core w celu umożliwienia
użycia ich w wyszukiwaniu
CREDO
17/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zagłębione Exif
I
Metadane Exif zostały opracowane przez stowarzyszenie
producentów japońskich JEIDA (JEITA, CIPA)
I
Pierwotnie przeznaczone było dla zdjęć cyfrowych TIFF i JPEG
Następnie standard rozszerzono na pliki oparte na specyfikacji RIFF,
w tym
I
I
I
I
dźwiękowe WAVE
wideo AVI
Archiwum CREDO może odczytywać część metadanych Exif
i umieszczać je w bazie danych archiwum
CREDO
18/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane w standardzie MIX
I
Biblioteka Kongresu USA opracowała standard MIX NISO Metadata
for Images in XML Schema. Technical Metadata for Digital Still
Images Standard, w którym mogą być zapisane metadane Exif
I
Standard MIX wykorzystuje zapis XML, ma słownik pojęć,
umożliwia walidację
I
Docelowo archiwum CREDO może być zdolne odczytywać metadane
zapisane w MIX; na etapie Demonstratora się tego nie przewiduje
I
MIX umożliwia zapisanie także niewielkiej liczby metadanych
konserwatorskich; w projekcie CREDO wobec użycia standardu
PREMIS nie przewiduje się wykorzystania tej możliwości
CREDO
19/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zagłębione w plikach PDF
I
W plikach PDF stosowany jest własny standard XMP producenta
I
W oficjalnej specyfikacji XMP dla plików PDF są przewidziane tylko
metadane: Keywords, PDFVersion, Producer and Trapped
I
W badaniach zaobserwowano wypełnianie w plikach PDF tagów:
Author, Copyright, CreationDate, Creator, Keywords, Marked,
ModDate, PDFVersion, Producer, Subject, Title, Trapped
I
Archiwum CREDO może odczytywać część metadanych XMP
i umieszczać je w bazie danych archiwum
CREDO
20/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane opisowe i techniczne ID3 zagłębione
w plikach audio mp3
I
W obecnie stosowanych obecnie dwóch wersjach standardu ID3; 2.3
i 2.4 (obie mają status “draft”) operuje się ponad 70 tagami
I
Niektóre z tagi mają charakter dość ogólny, a niektóre szczegółowy,
co wymaga uwagi przy ewentualnym rzutowaniu na Dublin Core
I
Archiwum CREDO może odczytywać część metadanych ID3
i umieszczać je w bazie danych archiwum
CREDO
21/30
Metadane
Metadane w archiwum CREDO
Metadane specyficzne dla formatów plików
Metadane zagłębione w plikach WAVE, BWF i AVI
I
Formaty WAV, BWF i AVI są oparte na specyfikacji RIFF
I
Specyfikacja RIFF przewidziała miejsce na zapis metadanych w tzw.
chunku INFO
I
Nie został opracowany żaden standard metadanych dla plików
dźwiękowych WAVE
I
Spotykane są pliki WAV z rozmaitymi metadanymi, ich stosowanie
nie jest jednak oparte na standardzie, nawet w wersji draft, wobec
tego w archiwum CREDO nie zakłada się ich wykorzystywania
I
BWF (Broadcast Wave Format) jest odmianą formatu WAVE,
mającą dodatkowe miejsce na metadane w chunku BEXT
Te metadane są dobrze ustandaryzowane
I
I
Archiwum CREDO może odczytywać część metadanych BWF
i umieszczać je w bazie danych archiwum
CREDO
22/30
Metadane
Metadane konserwatorskie
Metadane konserwatorskie w archiwum CREDO
I
Zadania archiwum w zakresie metadanych konserwatorskich
I
przygotowanie struktury metadanych konserwatorskich dla
poszczególnych obiektów cyfrowych
I
umieszczenie w niej informacji początkowych
dopisywanie do niej raportów z wydarzeń dotyczących obiektów
podczas przechowywania ich w archiwum
I
I
I
I
wykorzystanie otrzymanej od dostawcy lub utworzenie od początku
dopisywanie informacji tylko w bazie danych albo również w samych
pakietach AIP, zależnie od rangi wydarzeń
przekazywanie odbiorcy w pakietach DIP razem z obiektami także
metadanych konserwatorskich (z pakietów AIP oraz z bazy)
CREDO
23/30
Metadane
Metadane konserwatorskie
Metadane konserwatorskie PREMIS w archiwum
CREDO
I
Ze względu na opóźnienia w tworzeniu dokumentacji dla wersji
PREMIS 3.0, archiwum CREDO opierać się będzie na –
bezpieczniejszej i pełniej udokumentowanej – wersji 2.2.
I
PREMIS Data Dictionary operuje jednostkami semantycznymi:
Object, Event, Agent, Rights, Intellectual Entity
I
W archiwum CREDO największe znaczenie ma wydarzenie (Event)
I
I
to właśnie wydarzenia będą zapisywane w metadanych
konserwatorskich
przykłady: sprawdzenie sum kontrolnych, sprawdzenie formatów
plików, wykonanie operacji ingestu/outgestu, przeprowadzenie
migracji
CREDO
24/30
Metadane
Metadane konserwatorskie
Metadane prawne w archiwum CREDO
I
Przyjmuje się, że docelowo w archiwum CREDO szczegółowe
metadane prawne powinny być zapisywane przede wszystkim
w standardzie PREMIS (a nie np. w METS)
I
W Demonstratorze CREDO metadane prawne będą przechowywane
jedynie w takiej postaci, w jakiej zostały dostarczone przez dostawcę
W Demonstratorze CREDO dostarczone metadane prawne będą
przechowywane w AIP, nie będą zaś umieszczane w bazie danych;
nie będą także obsługiwane w żaden specjalny sposób metadane
prawne zanurzone w plikach
I
CREDO
25/30
Metadane
Metadane konserwatorskie
Metadane opakowujące w archiwum CREDO
I
Docelowo w archiwum CREDO przewiduje się wykorzystanie dwóch
standardów metadanych służących do tworzenia pakietów
archiwalnych
I
I
METS – Metadata Encoding & Transmission Standard, opracowany
i rozwijany przez Bibliotekę Kongresu
XFDU – XML Formatted Data Unit, standard opracowany przez
Consultative Committee for Space Data Systems (CCSDS)
I
W Demonstratorze CREDO do tworzenia pakietów SIP będzie
stosowany standard METS, jako częściej stosowany w Polsce przy
przesyłaniu obiektów cyfrowych, a nawet niekiedy wymagany
I
W przyszłości w archiwum CREDO przewiduje się stosowanie także
standardu XFDU, jako bardziej elastycznego i szybciej rozwijanego
CREDO
26/30
Metadane
Metadane konserwatorskie
Pakiet SIP w archiwum CREDO
I
W dostarczonym pakiecie SIP powinny się znajdować
I
I
I
I
plik lub pliki obiektu cyfrowego (ew. w strukturze katalogów
i podkatalogów)
plik METS opisujący te wszystkie pliki
ew. plik z metadanymi PREMIS, jeżeli dostawca przekazał wstępne
metadane konserwatorskie (np. typu provenance)
W CREDO dopuszczalne jest dostarczenie obiektu cyfrowego bez
metadanych i uzupełnienie ich
I
I
ręczne za pomocą aplikacji systemu CREDO
automatyczne przez system CREDO, na podstawie zawartości
obiektu cyfrowego (np. metadanych zagłębionych)
CREDO
27/30
Metadane
Metadane konserwatorskie
Metadane w procesie Ingest
I
I
Do bazy danych archiwum wpisywane są dostarczone metadane
opisowe Dublin Core
Do bazy danych archiwum wpisywane są wybrane metadane
I
I
I
pozyskane z obiektu cyfrowego (np. z metadanych zagłębionych)
wprowadzone ręcznie za pomocą aplikacji CREDO
Jeżeli w pakiecie SIP nie było metadanych PREMIS, to tworzony
jest plik PREMIS
CREDO
28/30
Metadane
Metadane konserwatorskie
Metadane w pakietach AIP
I
I
Metadane dostarczone przez użytkownika przechowywane są
w niezmienionej postaci
Metadane konserwatorskie mogą być uzupełniane
I
I
mniej ważne wydarzenia, np. kontrola poprawności pakietu
z wynikiem pomyślnym, odnotowywane są jedynie w bazie danych
archiwum, bez konieczności dokonywania zapisu w AIP
ważniejsze wydarzenia, np. migracje, powinny być zapisywane
zarówno w bazie danych, jak i w pliku PREMIS w pakiecie AIP
CREDO
29/30
Metadane
Metadane konserwatorskie
Metadane w procesie Outgest
I
W Demonstratorze CREDO pakiet DIP składa się z zawartości
jednego lub wielu pakietów AIP w całości
I
W docelowej wersji CREDO pakiet DIP będzie mógł być tworzony
z wybranych fragmentów pakietów AIP
I
Tworzony jest plik METS zawierający informację o strukturze całego
pakietu DIP
I
Dostarczany jest także plik PREMIS z metadanymi technicznymi
pakietu DIP
CREDO
30/30

Podobne dokumenty