Standardy metadanych
Transkrypt
Standardy metadanych
Standardy metadanych dr Marek Nahotko Opis zasobów cyfrowych I r. SUM Plan Podstawy – Rodzaje metadanych – Języki kodowania dokumentów i kodowanie znaków MetaMapa Syntaktyka: RDF Formaty metadanych: – – – – MARC, MODS DC, ONIX TEI, EAD, METS, MIX FGDC. Podstawy 5 rodzajów metadanych Opisowe – Tytuł, autor, abstrakt, hasła przedmiotowe itp…. Techniczne i strukturalne – Rozmiar pliku, niezbędne oprogramowanie, typ pliku, zasady prezentacji itp…. Administracyjne (zwane “meta-metadanymi”) – Numer rekordu, data utworzenia, pochodzenie rekordu itp…. Prawa własności – Własność copyright, warunki wykorzystania itp…. Zarządzanie – [Zwykle przez/dla właściciela]: opłaty, zasady udostępniania itp…. Podstawy Języki kodowania dokumentów - XML Języki kodowania: – Opisują strukturę dokumentu – Zawierają instrukcje dla oprogramowania przetwarzającego tekst w celu: • indeksowania tekstu przez wyszukiwarki, • tworzenia prezentacji tekstu (na ekranie lub wydruku), • transformacji tekstu dla urządzeń wyjściowych (np. dla syntezatorów mowy). – Kodowanie jest na ogół niewidoczne dla użytkownika Extensible Markup Language (XML): – XML jest metajęzykiem • Agencje definiują własny XML do własnych celów – Tworząc Document Type Definitions (DTDs) lub XML Schema – Dane są oddzielone od instrukcji dot. prezentacji • Instrukcje dot. prezentacji trafiają do opisu stylu (style sheet) – Pozwala uzyskać właściwe połączenie elastyczności z ustrukturyzowaniem Podstawy Języki kodowania dokumentów - RDF Resource Description Format (RDF) – Metajęzyk oparty na teorii grafów (wierzchołki i krawędzie), o syntaktyce XML, do wyrażania metadanych o zasobach Web – Zaprojektowany do maszynowego przetwarzania metadanych (podstawowy RDF nie jest zbyt przyjazny dla człowieka) – Głównym elementem RDF jest trójka: (temat + predykat + obiekt) – Zarządzany przez W3C (World Wide Web Consortium) Zalety RDF: – Kwestia dyskusji (zwykle wybór między RDF a XML)! – Za: oparte na modelu wyrażanie metadanych niezbędne dla Semantycznego Webu; bardziej elastyczny, skalowalny i „wyrozumiały” niż XML – Przeciw: RDF powoduje wzrost przetwarzania; dokumenty RDF mają za dużo słabych punktów; mało używany Zastosowania RDF: – Open Directory Project, wybrane oprogramowanie (np. Siderean) – OCLC Connexion eksportuje Dublin Core w RDF/XML RDF - przykład Wierzchołki i krawędzie Podstawy Kodowanie znaków Kodowanie znaków: – Stosowane dla przedstawiania znaków tekstu w środowisku cyfrowym – Istnieją setki standardów kodowania znaków narodowych – Konwersja znaków jest skomplikowana i kosztowna Unicode: – Jeden, „powszechny” światowy standard kodowania znaków – Zawiera znaki wszystkich ważniejszych współczesnych, wielu mniejszych i wybranych martwych języków MetaMapa http://mapageweb.umontreal.ca/turner/meta/english/metamap.html MARC 21 MARC 21 (ISO 2709) – Protokół komunikacyjny metadanych oparty na ISO 2709 – Możliwość wyboru 2 opcji kodowania znaków: • MARC 8 (ASCII, ANSEL, częściowo ISO, EACC) • Unicode (ograniczony do odpowiednika zestawu MARC) – Możliwe zastosowanie XML – Zarządzanie: Library of Congress, współpr. NLC, BL Zalety: • • • • Dojrzały standard dobrze zarządzany Szeroko stosowany w bibliotekarstwie na świecie Dostępna olbrzymia liczba rekordów MARC 21 Możliwość swobodnego wyboru oprogramowania bibliotecznego Wady (obecnie i w przyszłości): • • • • Praktycznie nie stosowany poza bibliotekami Ograniczenia rozmiarów pola i rekordu Ograniczony zakres dostępnych skryptów Ograniczona zdolność do wyrażania złożonych relacji, hierarchii, atrybutów na poziomie etykiet/podpól MARCXML <datafield tag="100" ind1="1" ind2=" "> <subfield code="a">Sandburg, Carl,</subfield> <subfield code="d">1878-1967.</subfield> </datafield> <datafield tag="245" ind1="1" ind2="0"> <subfield code="a">Arithmetic /</subfield> MARCXML <subfield code="c"> Carl Sandburg ; illustrated as an anamorphic adventure by Ted Rand. </subfield> </datafield> <datafield tag="250" ind1=" " ind2=" "> <subfield code="a">1st ed.</subfield> </datafield> <datafield tag="260" ind1=" " ind2=" "> <subfield code="a">San Diego :</subfield> <subfield code="b">Harcourt Brace Jovanovich,</subfield> <subfield code="c">c1993.</subfield> </datafield> <datafield tag="300" ind1=" " ind2=" "> <subfield code="a">1 v. (unpaged) :</subfield> <subfield code="b">ill. (some col.) ;</subfield> <subfield code="c">26 cm.</subfield> </datafield> MODS Metadata Object Description Schema (MODS) – W zasadzie przeróbka MARC 21 do środowiska XML • Etykiety tekstowe zamiast cyfrowych, • Zestawy atrybutów MARC 21 scalone w jeden element MODS – MARC 21 jest łatwo konwertowany do MODS, konwersja z powrotem z MODS do MARC 21nie jest bezstratna – Zarządzanie: Library of Congress Zalety MODS: – – – – Obszerny, biblioteczny schemat metadanych w XML Optymalny dla konwersji rekordów z MARC Równie prosty jak DC Odpowiedni jako format metadanych dla współpracy z OAI Zastosowania MODS: – Konwersja rekordów MARC w LC z American Memory – Projekt Minerva, U of Chicago Press, California Digital Library, inni stosują dla rekordów na stronach Web, e-tekstów. – Projekt bibliograficzny OpenOffice MODS TitleInfo Name Type of resources Genre PublicationInfo Language Physical description Abstract Table of contents Target audience Note Cartographics Subject Classification Related item Identifier Location Access conditions Extension RecordInfo MARC 21 & MODS Cecha MARC 21 MARC 21 Unicode MARC XML MARC Slim MODS ISO 2709 ISO 2709 XML XML XML Kodowanie MARC 8 Unicode Unicode Unicode Unicode Repertuar skryptów JACKPHY JACKPHY JACKPHY JACKPHY Unicode bezstrat. Structura Konwersja z MARC 21 bezstrat. bezstrat. bezstrat. minimal. strata bezstrat. bezstrat. bezstrat. bezstrat? małe straty OCLC OCLC R OCLC R OCLC R OCLC DCPS OCLC OCLC R OCLC R x · Klasyfikacja x OCLC OCLC R R OCLC R x · Użytkownicy x x x x OCLC x x x Konwersja do MARC 21 · Dane bibliograficzne · Dane autorytarne · Zasób JACKPHY - Japoński, Arabski, Chiński, Koreański, Perski, Hebrajski oraz Yiddish DC, MARC & MODS Format rekordu Etykiety pól Związek z AACR Typowy sposób tworzenia DC QDC XML XML RDF RDF (X)HTML (X)HTML Tekstowe Brak MARC MARCXML MODS ISO 2709 [ANSI Z39.2] XML XML Tekstowe Numerycz. Numerycz. Tekstowe Brak Silny Silny Pod wpływem Automatycz nie Przez specjalistów i automat. Przez Przez użytkown., użytkown., Przez specjalistów i specjalistów i specjalistów automat. automat. Dublin Core Dublin Core Metadata Element Set – ISO 15836:2003(E) The Dublin Core metadata element set – ISO 15836:2006(P) Informacja i dokumentacja – Zestaw elementów metadanych Dublin Core – Standard dla wielodziedzinowego opisu zasobów • Zaprojektowany głównie dla realizacji wyszukiwania – Definiuje semantykę a nie syntaktykę – Dostępny podstawowy lub kwalifikowany zestaw elementów DC – Zarządzanie: Dublin Core Metadata Initiative (DCMI) Zalety Dublin Core: – Prostota, rozszerzalność współdziałanie – Globalne zastosowanie (DCMES tłumaczony na ponad 20 języków) – Przydatny jako schemat przełącznikowy między różnymi standardami Zastosowania Dublin Core: – Open Archives Initiative (OAI) opiera się na metadanych DC – Stosowana duża liczba rozszerzonych wersji: • W bibliotekach cyfrowych (dLibra), archiwach, muzeach • W programach e-government (AU, CA, DK, FI, IE, NZ, UK) – Zastosowanie w OCLC: Connexion, DCPS, ContentDM, badania ONIX ONIX International (Online Information Exchange): – Standardowy format wymiany danych dla wydawców i księgarzy • Oparty na EPICS (EDItEUR Product Information Communication Standards) – Służy reprezentacji i komunikacji informacji elektronicznej o produktach przemysłu wydawniczego • Oferuje dwa poziomy szczegółowości (level 1 & level 2) – Zastosowanie schematu XML i Unicode – Zarządzanie: EDItEUR we współpracy z Book Industry Communication (BIC) i Book Industry Study Group (BISG) Zalety of ONIX: – Zaspakaja potrzeby wydawców i księgarzy przez: • Łatwiejszy dostęp do pełnych danych o książkach (dane bibliograficzne, sztuka ilustracyjna, spisy treści i wiele innych) • Łatwy do zaimplementowania format wymiany danych Zastosowanie ONIX: – Głównie przeznaczony dla wydawców i sprzedawców książek • Większość głównych firm (Amazon, Baker & Taylor, etc.) stosuje ONIX – Współpraca ONIX z bibliotekami i dostawcami ILS ONIX Product record TEI Text Encoding Initiative (TEI): – – – – Służy kompleksowemu kodowaniu tekstów literackich Możliwe stosowanie SGML jak i DTD XML Nagłówek TEI (TEIH) może służyć jako rekord metadanych Agencja zarządzająca: Konsorcjum TEI: • Konsorcjum TEI posiada biura w Bergen (Norwegia) i na czterech uniwersytetach: Univ. of Bergen, Brown Univ., Oxford Univ., Univ. of Virginia • Opisany w “P4” Guidelines for Electronic Text Encoding and Interchange http://www.tei-c.org/release/doc/tei-p4-doc/html/ Zalety TEI: – Posiada wersję XML – Zaprojektowany na potrzeby pracowników naukowych (gł. humanistów) do różnych celów, w tym: • Dodawanie komentarzy naukowych do e-tekstów • Wspomagania badań przez tworzenie specjalnych indeksów itp. Zastosowania TEI: – Szeroko stosowany w głównych zbiorach humanistycznych tekstów elektronicznych (np. CETH, UVa e-text center i in.). TEI – moduły elementów TEI Header TEI Header Element <teiHeader> posiada cztery zasadnicze części: – <fileDesc> zawiera pełny opis bibliograficzny obiektu elektronicznego – <encodingDesc> opisuje relacje pomiędzy tekstem elektronicznym a źródłem lub źródłami z których został on pobrany – <profileDesc> zawiera szczegółowy opis niebibliograficznych aspektów tekstu, w szczególności stosowane języki, konketst, w którym powstał oraz osoby biorące udział w tworzeniu – <revisionDesc> zawiera historię zmian dokonywanych w obiekcie. EAD Encoded Archival Description (EAD) – Format dla wyszukiwania elektronicznych zasobów archiwalnych – Utworzono EAD DTD (wersja z 2002) działający zarówno jako SGML i XML DTD – Zarządzany wspólnie przez Library of Congress oraz Society of American Archivists (SAA) Zalety EAD: – Efektywnie zorganizowana prezentacja zasobu dokumentów (głównie zbiorów archiwalnych i rękopiśmiennych) • Nagłówek EAD zawiera metadane do wyszukiwania • Umożliwia proste lub złożone kodowanie dla różnych poziomów indeksowania • Pomocny w tworzeniu sieci dokumentów z linkami do określonych obiektów w zasobie (albo bezpośrednio do obiektu albo poprzez rekord z linkiem do obiektu). Zastosowania EAD: – Konwersja papierowych narzędzi wyszukiwawczych do cyfrowych – Szeroko stosowany przez uczelnie i archiwa w USA – W bazie RLG Archival Resources jest wiele opisów w EAD Struktura EAD EAD METS Metadata Encoding and Transmission Standard (METS) – Standard „konteneru” do kodowania danych do wyszukiwania, archiwizowania i obsługi zasobów cyfrowych • Sześć modułów definiujących metadane opisowe, administracyjne, strukturalne, własnościowe i inne • Pewne części obiektu METS mogą być zewnętrzne (np. rekord MODS dla metadanych opisowych) – Zarządzający schematem: Library of Congress Zalety METS: – Potrzeba METS określona na spotkaniach ekspertów metadanych DLF (Digital Library Federation - http://www.diglib.org/) • Zróżnicowanie lokalnych metadanych nieopisowych szkodzi skalowalności i współdziałaniu – Oferuje standard dla „pakietowania” obiektów dla archiwizacji, umieszczania w repozytoriach itp. Zastosowania METS: – LC: plany użycia dla filmów, audio i zasobów multimedialnych – Zastosowanie w OCLC DCPS, RLG, Harvard, Stanford, UC Berkeley, National Library of Wales w różnych projektach METS METS METS Header – metadane dotyczące samego pliku METS, w tym data utworzenia, twórca, status itp. Descriptive Metadata – metadane opisowe dotyczące obiektu biblioteki cyfrowej Administrative Metadata – metadane administracyjne dotyczące obiektu, w tym zagadnienia techniczne, copyright, informacje o źródle i cyfrowej archiwizacji File Inventory – zestaw wszystkich plików składających się na zawartość obiektu biblioteki cyfrowej Structural Map – opis struktury logicznej obiektu wraz z opisem sposobu powiązania z tą strukturą metadanych opisowych i administracyjnych Structural Links – wykaz linków między węzłami struktury logicznej zapisanej w Structural map, który jest stosowany do wykazania hiperlinków między plikami tworzącymi złożony obiekt biblioteki cyfrowej Behaviors – zapis sposobu funkcjonowania oprogramowania niezbędnego dla uzyskania dostępu do obiektu lub którejś z jego części. METS MIX Metadata for Images in XML (MIX) – Schemat XML dla zestawu elementów danych technicznych niezbędnych dla obsługi zasobów obrazów cyfrowych – Format dla wymiany i/lub przechowywania danych opisany w normie NISO Data Dictionary - Technical Metadata for Digital Still Images (ANSI/NISO Z39.87-2006). – Dotąd na wstępnym etapie rozwoju i testowania – Powstaje we współpracy: Library of Congress i NISO Technical Metadata for Digital Still Images Standards Committee Zalety MIX: – Dostarcza schemat XML dla wyrażania danych technicznych, głównie dla obrazów cyfrowych nieruchomych i ruchomych – Można go używać z innymi schematami, np. METS i MODS jako część systemu zarządzania i archiwizacji cyfrowych obrazów Zastosowanie MIX: – OCLC DCPS, LC, inni planują lub testują – MIX jeszcze we wstępnym etapie rozwoju i testów MIX Zestawienie: DC ONIX TEI EAD METS MIX XML XML XML XML XML Kodowanie Unicode Unicode Unicode Unicode Unicode Repertuar znaków Unicode Unicode Unicode Unicode Unicode Różna strata Minimalna strata Tylko nagłówki stratny Tylko nagłówki stratny Minimalna strata Część danych stratna Tylko nagłówki bez straty Tylko nagłówki bez straty Prosty opis do wyszukiwania Inf. o nowych publikacjach Kodowanie etekstów naukowych Wyszukiw. Obiektów archiwalnych Kontener z danymi techniczny mi Dane techniczne dla obrazów Biblioteki, muzea, archiwa, erząd Wydawcy, księgarze Naukowcy z dziedzin humanist. Archiwa, biblioteki Archiwa, biblioteki Archiwa, biblioteki DCMI Editeur LC + SAA LC LC Struktura HTML, XML Konwersja z MARC 21 Konwersja do MARC 21 Główne zastosowanie Główny użytkownik Agencja zarządzająca TEI Consortium CSDGM (inaczej FGDC) Content Standard for Digital Geospatial Metadata (CSDGM) [wcześniej znany jako “FGDC”] – – – – CSDGM Version 2 - FGDC-STD-001-1998 Definiuje terminologię i opis cyfrowych danych geoprzestrzennych Zarządzany przez Federal Geographic Data Committee (FGDC) Dostępna konwersja z FGDC do ISO 19115:2003(E) Geographic information - Metadata; Zalety FGDC: – Stanowi standard dla publikowania metadanych o zasobach geoprzestrzennych – Szeroko stosowany przez agendy rządowe i biznes – Standard wykorzystywany przez wiele systemów i aplikacji Zastosowania FGDC: – Stosowany lub przystosowany przez główne agencje geoprzestrzenne. – Przydatność rozszerzona dzięki profilom (np. dla danych biologicznych) FGDC FGDC FGDC Linki Dublin Core: http://www.dublincore.org EAD: http://www.loc.gov/ead FGDC: http://www.fgdc.gov/metadata/meta_stand.html MARC 21: http://lcweb.loc.gov/marc/marcdocz.html MARCXML: http://www.loc.gov/marc/marcxml.html METS: http://www.loc.gov/standards/mets MIX: http://www.loc.gov/standards/mix MODS: http://www.loc.gov/standards/mods ONIX: http://www.editeur.org/onix.html RDF: http://www.w3.org/RDF TEI: http://www.tei-c.org OCLC Research: http://www.oclc.org/research