Metadane w archiwum CREDO
Transkrypt
Metadane w archiwum CREDO
Metadane w archiwum CREDO Projekt CREDO Instytut Automatyki i Informatyki Stosowanej Politechnika Warszawska 29 lutego 2016 Metadane Metadane ogólnie Metadane – dane o danych I I Metadane – dane o danych Pojęcie metadanych nie odnosi się jedynie do obiektów cyfrowych I za metadane można uznać biblioteczne katalogi kartkowe, umożliwiające i ułatwiające wyszukanie odpowiedniej książki I . . . ale dopiero z rozwojem techniki cyfrowej w zakresie przetwarzania informacji (czyli wiedzy) metadane nabrały większego znaczenia I Doświadczamy dziś ogromnych możliwości wyszukiwania informacji I Przynajmniej częściowo zawdzięczamy je metadanym, zarówno ich treści, jak możliwości ich automatycznego analizowania i przetwarzania CREDO 2/30 Metadane Metadane w technice cyfrowej Podział metadanych I Metadane dzielone są na typy wg różnych kryteriów, np. I I I I I opisowe i strukturalne – strukturalne opisują pojemnik danych, a opisowe konkretny egzemplarz danych zawarty w pojemniku opisowe, strukturalne i administracyjne – administracyjne obejmują tu metadane techniczne, prawne i konserwatorskie (NISO) techniczne i biznesowe – odpowiadające metadanym wewnętrznym i zewnętrznym techniczne i biznesowe j.w. – oraz dodatkowo metadane procesowe, opisujące np. wyniki operacji przeprowadzanych w hurtowni danych opisowe, techniczne, strukturalne, konserwatorskie, prawne, administracyjne, behawioralne (odnoszące się do techniki udostępniania) – to typowy podział funkcji metadanych np. w bibliotekach cyfrowych CREDO 3/30 Metadane Metadane w technice cyfrowej Znaczenie metadanych I Metadane opisowe są niezbędne do wyszukiwania przechowywanych obiektów; I Metadane techniczne i strukturalne, ew. także behawioralne, są potrzebne do prezentowania obiektów cyfrowych przy ich udostępnianiu I Metadane administracyjne, zwłaszcza prawne, muszą być uwzględniane przy udostępnianiu obiektów I Metadane techniczne są potrzebne do takich operacji konserwatorskich jak migracje na nowe formaty I Metadane prawne muszą być brane pod uwagę także przy migracjach I Metadane konserwatorskie są stosowane przy przechowywaniu obiektów cyfrowych, zwłaszcza długotrwałym, gromadząc informacje potrzebne do zapewnienia tym obiektom cech integralności i autentyczności CREDO 4/30 Metadane Metadane w technice cyfrowej Znaczenie metadanych I I I Część metadanych musi być opracowywana i wprowadzana ręcznie, zwłaszcza metadane opisowe tam, gdzie odnoszą się do zewnętrznych obiektów – fotografowanych czy filmowanych ludzi, miejsc, wydarzeń Część metadanych, przede wszystkim technicznych może być wprowadzana przy użyciu sprzętu – aparatu fotograficznego, skanera itd. (np. parametry zdjęcia, czas powstania obiektu) Część metadanych biznesowych może powstawać bez udziału człowieka, jak np. wielokrotność odtworzenia filmu na YouTube, statystyki wymiany audycji itp. CREDO 5/30 Metadane Metadane w technice cyfrowej Przechowywanie metadanych I Metadane mają dla człowieka charakter informacji tekstowej, nawet gdy posługują się parametrami liczbowymi i kodowaniem informacji I W naturalny sposób mogą być gromadzone na zewnątrz obiektu cyfrowego, np. w bazach danych obsługujących gromadzone kolekcje obiektów I Niektóre metadane mogą być zapisane wewnątrz obiektu cyfrowego, np. zdjęcia lub nagrania dźwiękowego – dotyczy to konkretnych formatów obiektów i konkretnych typów metadanych zgodnych z określonymi specyfikacjami I Japońscy producenci sprzętu fotograficznego uzgodnili standardy metadanych technicznych i sposoby ich zapisywania w obiektach cyfrowych (zdjęciach, nagraniach), tak że metadane takie są samoczynnie wprowadzane do obiektów przez sprzęt CREDO 6/30 Metadane Metadane w technice cyfrowej Znaczenie standardów I O rosnącym znaczeniu standardów w dziedzinie metadanych świadczyć może fakt, że niektóre z nich uzyskały status normy ISO, np. Dublin Core (ISO 15836:2009) opracowany w celu opisywania cyfrowych obiektów w internecie, ale stosowany szerzej I Komputerowe przetwarzanie metadanych sprzyjało temu, by do ich zapisywania stosować takie języki, jak XML I Z kolei stosowanie XML wpłynęło na to, że jeszcze większego znaczenia nabrały standardy oraz służące do walidacji metadanych przestrzenie nazw i schematy w języku XML Schema, udostępniane w internecie CREDO 7/30 Metadane Formaty plików w archiwach cyfrowych Formaty plików a długotrwałe przechowywanie I Formaty plików można oceniać pod kątem przydatności do długotrwałego przechowywania I Analizę przydatności formatów przeprowadziły m.in. Biblioteka Kongresu USA, National Archives w USA, The National Archives w Wielkiej Brytanii I Kryteria oceny: otwartość (jawność), szeroka akceptacja, przejrzystość, samodokumentowanie, brak zależności zewnętrznych, możliwości migracji I Uwaga! Wiele z powszechnie stosowanych formatów nie nadaje się do archwizacji długoterminowej CREDO 8/30 Metadane Metadane w archiwach cyfrowych Metadane w archiwum cyfrowym I Wprowadzenie techniki cyfrowej do archiwów zaowocowało znaczącymi zmianami I I I I najpierw wprowadzeniem cyfrowego opisywania gromadzonych obiektów analogowych i wykorzystaniem gromadzonych informacji do zarządzania działalnością archiwum następnie gromadzeniem także obiektów cyfrowych, które pociągnęło za sobą dalsze zmiany To pierwsze zaowocowało powstaniem nowych standardów opisu obiektów analogowych (a więc nowych standardów metadanych), dostosowanych do specyfiki archiwów To drugie zaowocowało I I wprowadzeniem wymagań na formaty obiektów sprzyjające długotrwałemu ich przechowywaniu wprowadzeniem wymagań na przesyłanie obiektów do archiwum CREDO 9/30 Metadane Metadane w archiwum CREDO Metadane w archiwum CREDO I Metadane w archiwum CREDO są przechowywane I I I w plikach w pakiecie archiwalnym w bazie danych archiwum Metadane w bazie danych archiwum CREDO są przechowywane I w strukturach relacyjnych bazy danych I I I wybrane metadane używane rutynowo do wyszukiwania i do identyfikacji zasobu, np. Dublin Core wyszukiwanie możliwe tylko w sposób przewidziany przez archiwum w bazie danych w postaci XML I I I źródłowa postać metadanych zapisana w bazie danych dla umożliwienia sprawnego wyszukiwania możliwe dowolne wyszukiwanie za pomocą języka zapytań XQuery CREDO 10/30 Metadane Metadane w archiwum CREDO Metadane wspólne dla wielu formatów Metadane opisowe w archiwum CREDO I I Wobec faktu, że użytkownicy stosują różne standardy metadanych opisowych, przyjmuje się wspólny zestaw elementów służący do wyszukiwania Jako wspólny dla wielu standardów przyjmuje się zestaw elementów Prostego Dublin Core I I I I jest powszechnie znany i szeroko stosowany ma tylko 15 elementów (Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights) szczególne znaczenie przy wyszukiwaniu mają elementy: Title, Creator, Description, Date, Identifier, Coverage) do planowania migracji wykorzystany może być element Format i Rights CREDO 11/30 Metadane Metadane w archiwum CREDO Metadane wspólne dla wielu formatów Metadane opisowe w archiwum CREDO I Problemem praktycznym jest rzutowanie na Dublin Core metadanych stosowanych przez użytkownika w swojej bazie danych, gdy nie stosuje Dublin Core I Operację rzutowania powinien przeprowadzić użytkownik, gdyż ma odpowiednią wiedzę merytoryczną, a poza tym to on miałby w przyszłości korzystać z wyszukiwania w archiwum, więc lepiej, żeby wiedział, co faktycznie było rzutowane i gdzie Archiwum powinno otrzymać w tej sytuacji zarówno metadane oryginalne użytkownika, jak i dodatkowo metadane Dublin Core powstałe w wyniku rzutowania I I I jeśli użytkownik dostarczy metadane opisowe w innym standardzie znanym archiwum, to możliwe jest ich zrzutowanie na Dublin Core w procesie Ingest Metadane Dublin Core wprowadzane są do bazy archiwum podczas sesji Ingest CREDO 12/30 Metadane Metadane w archiwum CREDO Metadane wspólne dla wielu formatów Metadane opisowe w archiwum CREDO I Dla Simple Dublin Core I I I I jest określony zapis w formacie XML jest podana przestrzeń nazw jest podany schemat w języku XML Schema . . . zatem użytkownik I I może dostarczać metadane w formacie XML ponadto może sprawdzać ich poprawność, poddając je walidacji CREDO 13/30 Metadane Metadane w archiwum CREDO Metadane wspólne dla wielu formatów Metadane techniczne w archiwum CREDO I W docelowym archiwum CREDO baza danych archiwum może być bardziej rozbudowana niż w Demonstratorze I W szczególności w archiwum CREDO będzie zawierać metadane techniczne pomocne przy planowaniu operacji migracji, a więc oprócz formatu plików może mieć także np. jego wersję oraz standard kodowania obrazu i dźwięku I Uwaga. W przypadku obiektów takich jak film, zawierający wiele zdjęć (klatek), dopuszcza się zapis „grupowy” parametrów zdjęć, by nie zapisywać ich dla każdej z dziesiątków tysięcy klatek I Zapis taki można uzyskać wykorzystując specjalnie dodany „wirtualny” poziom w hierarchii obiektów cyfrowych, nazwany w CREDO zasobem (resource) CREDO 14/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zagłębione I Metadane mogą być zapisane w niektórych typach plików. I Do plików, których specyfikacja umożliwia taki zapis i określa jego sposób, należą m.in. TIFF, JPEG, WAVE, AVI, mp3 I Mówimy w takim przypadku o metadanych zagłębionych embedded CREDO 15/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zagłębione I I Podobnie jak w przypadku rzutowania metadanych opisowych powstaje problem praktyczny odczytania i przekazania do archiwum metadanych zagłębionych Operację odczytania powinien przeprowadzić użytkownik, gdyż wtedy dla obu stron będzie jasne, jakie metadane archiwum otrzymuje i za jakie bierze odpowiedzialność I I I kłopotliwe, gdyż zazwyczaj dla metadanych zagłębionych zwykle nie ma standardów zapisu zewnętrznego Docelowe archiwum CREDO w umowie z użytkownikiem może określić postępowanie z takimi danymi, w szczególności sposób ich konwersji i wprowadzenia do bazy danych archiwum Docelowo archiwum powinno być zdolne przyjąć i zachować w jakiejś postaci wszystkie metadane, jakie zostaną odczytane przez użyte oprogramowanie I w Demonstratorze CREDO założenie to będzie zrealizowane tylko częściowo CREDO 16/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zaglębione IPTC I Metadane IPTC zostały opracowane dla fotografii prasowej I Mogą być zapisywane w plikach TIFF i JPEG Zawierają dwie grupy metadanych I I I I IPTC Core IPTC Extension Zakłada się że wybrane metadane IPTC Core odczytane z plików zostaną rzutowane na metadane Dublin Core w celu umożliwienia użycia ich w wyszukiwaniu CREDO 17/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zagłębione Exif I Metadane Exif zostały opracowane przez stowarzyszenie producentów japońskich JEIDA (JEITA, CIPA) I Pierwotnie przeznaczone było dla zdjęć cyfrowych TIFF i JPEG Następnie standard rozszerzono na pliki oparte na specyfikacji RIFF, w tym I I I I dźwiękowe WAVE wideo AVI Archiwum CREDO może odczytywać część metadanych Exif i umieszczać je w bazie danych archiwum CREDO 18/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane w standardzie MIX I Biblioteka Kongresu USA opracowała standard MIX NISO Metadata for Images in XML Schema. Technical Metadata for Digital Still Images Standard, w którym mogą być zapisane metadane Exif I Standard MIX wykorzystuje zapis XML, ma słownik pojęć, umożliwia walidację I Docelowo archiwum CREDO może być zdolne odczytywać metadane zapisane w MIX; na etapie Demonstratora się tego nie przewiduje I MIX umożliwia zapisanie także niewielkiej liczby metadanych konserwatorskich; w projekcie CREDO wobec użycia standardu PREMIS nie przewiduje się wykorzystania tej możliwości CREDO 19/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zagłębione w plikach PDF I W plikach PDF stosowany jest własny standard XMP producenta I W oficjalnej specyfikacji XMP dla plików PDF są przewidziane tylko metadane: Keywords, PDFVersion, Producer and Trapped I W badaniach zaobserwowano wypełnianie w plikach PDF tagów: Author, Copyright, CreationDate, Creator, Keywords, Marked, ModDate, PDFVersion, Producer, Subject, Title, Trapped I Archiwum CREDO może odczytywać część metadanych XMP i umieszczać je w bazie danych archiwum CREDO 20/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane opisowe i techniczne ID3 zagłębione w plikach audio mp3 I W obecnie stosowanych obecnie dwóch wersjach standardu ID3; 2.3 i 2.4 (obie mają status “draft”) operuje się ponad 70 tagami I Niektóre z tagi mają charakter dość ogólny, a niektóre szczegółowy, co wymaga uwagi przy ewentualnym rzutowaniu na Dublin Core I Archiwum CREDO może odczytywać część metadanych ID3 i umieszczać je w bazie danych archiwum CREDO 21/30 Metadane Metadane w archiwum CREDO Metadane specyficzne dla formatów plików Metadane zagłębione w plikach WAVE, BWF i AVI I Formaty WAV, BWF i AVI są oparte na specyfikacji RIFF I Specyfikacja RIFF przewidziała miejsce na zapis metadanych w tzw. chunku INFO I Nie został opracowany żaden standard metadanych dla plików dźwiękowych WAVE I Spotykane są pliki WAV z rozmaitymi metadanymi, ich stosowanie nie jest jednak oparte na standardzie, nawet w wersji draft, wobec tego w archiwum CREDO nie zakłada się ich wykorzystywania I BWF (Broadcast Wave Format) jest odmianą formatu WAVE, mającą dodatkowe miejsce na metadane w chunku BEXT Te metadane są dobrze ustandaryzowane I I Archiwum CREDO może odczytywać część metadanych BWF i umieszczać je w bazie danych archiwum CREDO 22/30 Metadane Metadane konserwatorskie Metadane konserwatorskie w archiwum CREDO I Zadania archiwum w zakresie metadanych konserwatorskich I przygotowanie struktury metadanych konserwatorskich dla poszczególnych obiektów cyfrowych I umieszczenie w niej informacji początkowych dopisywanie do niej raportów z wydarzeń dotyczących obiektów podczas przechowywania ich w archiwum I I I I wykorzystanie otrzymanej od dostawcy lub utworzenie od początku dopisywanie informacji tylko w bazie danych albo również w samych pakietach AIP, zależnie od rangi wydarzeń przekazywanie odbiorcy w pakietach DIP razem z obiektami także metadanych konserwatorskich (z pakietów AIP oraz z bazy) CREDO 23/30 Metadane Metadane konserwatorskie Metadane konserwatorskie PREMIS w archiwum CREDO I Ze względu na opóźnienia w tworzeniu dokumentacji dla wersji PREMIS 3.0, archiwum CREDO opierać się będzie na – bezpieczniejszej i pełniej udokumentowanej – wersji 2.2. I PREMIS Data Dictionary operuje jednostkami semantycznymi: Object, Event, Agent, Rights, Intellectual Entity I W archiwum CREDO największe znaczenie ma wydarzenie (Event) I I to właśnie wydarzenia będą zapisywane w metadanych konserwatorskich przykłady: sprawdzenie sum kontrolnych, sprawdzenie formatów plików, wykonanie operacji ingestu/outgestu, przeprowadzenie migracji CREDO 24/30 Metadane Metadane konserwatorskie Metadane prawne w archiwum CREDO I Przyjmuje się, że docelowo w archiwum CREDO szczegółowe metadane prawne powinny być zapisywane przede wszystkim w standardzie PREMIS (a nie np. w METS) I W Demonstratorze CREDO metadane prawne będą przechowywane jedynie w takiej postaci, w jakiej zostały dostarczone przez dostawcę W Demonstratorze CREDO dostarczone metadane prawne będą przechowywane w AIP, nie będą zaś umieszczane w bazie danych; nie będą także obsługiwane w żaden specjalny sposób metadane prawne zanurzone w plikach I CREDO 25/30 Metadane Metadane konserwatorskie Metadane opakowujące w archiwum CREDO I Docelowo w archiwum CREDO przewiduje się wykorzystanie dwóch standardów metadanych służących do tworzenia pakietów archiwalnych I I METS – Metadata Encoding & Transmission Standard, opracowany i rozwijany przez Bibliotekę Kongresu XFDU – XML Formatted Data Unit, standard opracowany przez Consultative Committee for Space Data Systems (CCSDS) I W Demonstratorze CREDO do tworzenia pakietów SIP będzie stosowany standard METS, jako częściej stosowany w Polsce przy przesyłaniu obiektów cyfrowych, a nawet niekiedy wymagany I W przyszłości w archiwum CREDO przewiduje się stosowanie także standardu XFDU, jako bardziej elastycznego i szybciej rozwijanego CREDO 26/30 Metadane Metadane konserwatorskie Pakiet SIP w archiwum CREDO I W dostarczonym pakiecie SIP powinny się znajdować I I I I plik lub pliki obiektu cyfrowego (ew. w strukturze katalogów i podkatalogów) plik METS opisujący te wszystkie pliki ew. plik z metadanymi PREMIS, jeżeli dostawca przekazał wstępne metadane konserwatorskie (np. typu provenance) W CREDO dopuszczalne jest dostarczenie obiektu cyfrowego bez metadanych i uzupełnienie ich I I ręczne za pomocą aplikacji systemu CREDO automatyczne przez system CREDO, na podstawie zawartości obiektu cyfrowego (np. metadanych zagłębionych) CREDO 27/30 Metadane Metadane konserwatorskie Metadane w procesie Ingest I I Do bazy danych archiwum wpisywane są dostarczone metadane opisowe Dublin Core Do bazy danych archiwum wpisywane są wybrane metadane I I I pozyskane z obiektu cyfrowego (np. z metadanych zagłębionych) wprowadzone ręcznie za pomocą aplikacji CREDO Jeżeli w pakiecie SIP nie było metadanych PREMIS, to tworzony jest plik PREMIS CREDO 28/30 Metadane Metadane konserwatorskie Metadane w pakietach AIP I I Metadane dostarczone przez użytkownika przechowywane są w niezmienionej postaci Metadane konserwatorskie mogą być uzupełniane I I mniej ważne wydarzenia, np. kontrola poprawności pakietu z wynikiem pomyślnym, odnotowywane są jedynie w bazie danych archiwum, bez konieczności dokonywania zapisu w AIP ważniejsze wydarzenia, np. migracje, powinny być zapisywane zarówno w bazie danych, jak i w pliku PREMIS w pakiecie AIP CREDO 29/30 Metadane Metadane konserwatorskie Metadane w procesie Outgest I W Demonstratorze CREDO pakiet DIP składa się z zawartości jednego lub wielu pakietów AIP w całości I W docelowej wersji CREDO pakiet DIP będzie mógł być tworzony z wybranych fragmentów pakietów AIP I Tworzony jest plik METS zawierający informację o strukturze całego pakietu DIP I Dostarczany jest także plik PREMIS z metadanymi technicznymi pakietu DIP CREDO 30/30