Standardy metadanych

Transkrypt

Standardy metadanych
Standardy metadanych
dr Marek Nahotko
Opis zasobów cyfrowych I r. SUM
Plan
Podstawy
– Rodzaje metadanych
– Języki kodowania dokumentów i kodowanie znaków
MetaMapa
Syntaktyka: RDF
Formaty metadanych:
–
–
–
–
MARC, MODS
DC, ONIX
TEI, EAD, METS, MIX
FGDC.
Podstawy
5 rodzajów metadanych
Opisowe
– Tytuł, autor, abstrakt, hasła przedmiotowe itp….
Techniczne i strukturalne
– Rozmiar pliku, niezbędne oprogramowanie, typ pliku,
zasady prezentacji itp….
Administracyjne (zwane “meta-metadanymi”)
– Numer rekordu, data utworzenia, pochodzenie rekordu
itp….
Prawa własności
– Własność copyright, warunki wykorzystania itp….
Zarządzanie
– [Zwykle przez/dla właściciela]: opłaty, zasady
udostępniania itp….
Podstawy
Języki kodowania dokumentów - XML
Języki kodowania:
– Opisują strukturę dokumentu
– Zawierają instrukcje dla oprogramowania przetwarzającego
tekst w celu:
• indeksowania tekstu przez wyszukiwarki,
• tworzenia prezentacji tekstu (na ekranie lub wydruku),
• transformacji tekstu dla urządzeń wyjściowych (np. dla
syntezatorów mowy).
– Kodowanie jest na ogół niewidoczne dla użytkownika
Extensible Markup Language (XML):
– XML jest metajęzykiem
• Agencje definiują własny XML do własnych celów
– Tworząc Document Type Definitions (DTDs) lub XML Schema
– Dane są oddzielone od instrukcji dot. prezentacji
• Instrukcje dot. prezentacji trafiają do opisu stylu (style sheet)
– Pozwala uzyskać właściwe połączenie elastyczności z
ustrukturyzowaniem
Podstawy
Języki kodowania dokumentów - RDF
Resource Description Format (RDF)
– Metajęzyk oparty na teorii grafów (wierzchołki i krawędzie), o
syntaktyce XML, do wyrażania metadanych o zasobach Web
– Zaprojektowany do maszynowego przetwarzania metadanych
(podstawowy RDF nie jest zbyt przyjazny dla człowieka)
– Głównym elementem RDF jest trójka: (temat + predykat + obiekt)
– Zarządzany przez W3C (World Wide Web Consortium)
Zalety RDF:
– Kwestia dyskusji (zwykle wybór między RDF a XML)!
– Za: oparte na modelu wyrażanie metadanych niezbędne dla
Semantycznego Webu; bardziej elastyczny, skalowalny i
„wyrozumiały” niż XML
– Przeciw: RDF powoduje wzrost przetwarzania; dokumenty RDF mają
za dużo słabych punktów; mało używany
Zastosowania RDF:
– Open Directory Project, wybrane oprogramowanie (np. Siderean)
– OCLC Connexion eksportuje Dublin Core w RDF/XML
RDF - przykład
Wierzchołki i krawędzie
Podstawy
Kodowanie znaków
Kodowanie znaków:
– Stosowane dla przedstawiania znaków tekstu w
środowisku cyfrowym
– Istnieją setki standardów kodowania znaków
narodowych
– Konwersja znaków jest skomplikowana i kosztowna
Unicode:
– Jeden, „powszechny” światowy standard kodowania
znaków
– Zawiera znaki wszystkich ważniejszych
współczesnych, wielu mniejszych i wybranych
martwych języków
MetaMapa
http://mapageweb.umontreal.ca/turner/meta/english/metamap.html
MARC 21
MARC 21 (ISO 2709)
– Protokół komunikacyjny metadanych oparty na ISO 2709
– Możliwość wyboru 2 opcji kodowania znaków:
• MARC 8 (ASCII, ANSEL, częściowo ISO, EACC)
• Unicode (ograniczony do odpowiednika zestawu MARC)
– Możliwe zastosowanie XML
– Zarządzanie: Library of Congress, współpr. NLC, BL
Zalety:
•
•
•
•
Dojrzały standard dobrze zarządzany
Szeroko stosowany w bibliotekarstwie na świecie
Dostępna olbrzymia liczba rekordów MARC 21
Możliwość swobodnego wyboru oprogramowania bibliotecznego
Wady (obecnie i w przyszłości):
•
•
•
•
Praktycznie nie stosowany poza bibliotekami
Ograniczenia rozmiarów pola i rekordu
Ograniczony zakres dostępnych skryptów
Ograniczona zdolność do wyrażania złożonych relacji, hierarchii,
atrybutów na poziomie etykiet/podpól
MARCXML
<datafield tag="100" ind1="1" ind2=" ">
<subfield code="a">Sandburg, Carl,</subfield>
<subfield code="d">1878-1967.</subfield>
</datafield>
<datafield tag="245" ind1="1" ind2="0">
<subfield code="a">Arithmetic /</subfield>
MARCXML
<subfield code="c">
Carl Sandburg ; illustrated as an anamorphic adventure by Ted Rand.
</subfield>
</datafield>
<datafield tag="250" ind1=" " ind2=" ">
<subfield code="a">1st ed.</subfield>
</datafield>
<datafield tag="260" ind1=" " ind2=" ">
<subfield code="a">San Diego :</subfield>
<subfield code="b">Harcourt Brace Jovanovich,</subfield>
<subfield code="c">c1993.</subfield>
</datafield>
<datafield tag="300" ind1=" " ind2=" ">
<subfield code="a">1 v. (unpaged) :</subfield>
<subfield code="b">ill. (some col.) ;</subfield>
<subfield code="c">26 cm.</subfield>
</datafield>
MODS
Metadata Object Description Schema (MODS)
– W zasadzie przeróbka MARC 21 do środowiska XML
• Etykiety tekstowe zamiast cyfrowych,
• Zestawy atrybutów MARC 21 scalone w jeden element MODS
– MARC 21 jest łatwo konwertowany do MODS, konwersja z
powrotem z MODS do MARC 21nie jest bezstratna
– Zarządzanie: Library of Congress
Zalety MODS:
–
–
–
–
Obszerny, biblioteczny schemat metadanych w XML
Optymalny dla konwersji rekordów z MARC
Równie prosty jak DC
Odpowiedni jako format metadanych dla współpracy z OAI
Zastosowania MODS:
– Konwersja rekordów MARC w LC z American Memory
– Projekt Minerva, U of Chicago Press, California Digital Library, inni
stosują dla rekordów na stronach Web, e-tekstów.
– Projekt bibliograficzny OpenOffice
MODS
TitleInfo
Name
Type of resources
Genre
PublicationInfo
Language
Physical description
Abstract
Table of contents
Target audience
Note
Cartographics
Subject
Classification
Related item
Identifier
Location
Access conditions
Extension
RecordInfo
MARC 21 & MODS
Cecha
MARC
21
MARC
21
Unicode
MARC
XML
MARC
Slim
MODS
ISO 2709
ISO 2709
XML
XML
XML
Kodowanie
MARC 8
Unicode
Unicode
Unicode
Unicode
Repertuar skryptów
JACKPHY
JACKPHY
JACKPHY
JACKPHY
Unicode
bezstrat.
Structura
Konwersja z MARC 21
bezstrat.
bezstrat.
bezstrat.
minimal.
strata
bezstrat.
bezstrat.
bezstrat.
bezstrat?
małe straty
OCLC
OCLC R
OCLC R
OCLC R
OCLC DCPS
OCLC
OCLC R
OCLC R
x
· Klasyfikacja
x
OCLC
OCLC R
R
OCLC R
x
· Użytkownicy
x
x
x
x
OCLC
x
x
x
Konwersja do MARC 21
·
Dane bibliograficzne
· Dane autorytarne
·
Zasób
JACKPHY - Japoński, Arabski, Chiński, Koreański, Perski, Hebrajski oraz Yiddish
DC, MARC & MODS
Format
rekordu
Etykiety
pól
Związek z
AACR
Typowy
sposób
tworzenia
DC
QDC
XML
XML
RDF
RDF
(X)HTML
(X)HTML
Tekstowe
Brak
MARC
MARCXML
MODS
ISO 2709
[ANSI
Z39.2]
XML
XML
Tekstowe
Numerycz.
Numerycz.
Tekstowe
Brak
Silny
Silny
Pod
wpływem
Automatycz
nie
Przez
specjalistów
i automat.
Przez
Przez
użytkown.,
użytkown.,
Przez
specjalistów i specjalistów i specjalistów
automat.
automat.
Dublin Core
Dublin Core Metadata Element Set
– ISO 15836:2003(E) The Dublin Core metadata element set
– ISO 15836:2006(P) Informacja i dokumentacja – Zestaw elementów
metadanych Dublin Core
– Standard dla wielodziedzinowego opisu zasobów
• Zaprojektowany głównie dla realizacji wyszukiwania
– Definiuje semantykę a nie syntaktykę
– Dostępny podstawowy lub kwalifikowany zestaw elementów DC
– Zarządzanie: Dublin Core Metadata Initiative (DCMI)
Zalety Dublin Core:
– Prostota, rozszerzalność współdziałanie
– Globalne zastosowanie (DCMES tłumaczony na ponad 20 języków)
– Przydatny jako schemat przełącznikowy między różnymi standardami
Zastosowania Dublin Core:
– Open Archives Initiative (OAI) opiera się na metadanych DC
– Stosowana duża liczba rozszerzonych wersji:
• W bibliotekach cyfrowych (dLibra), archiwach, muzeach
• W programach e-government (AU, CA, DK, FI, IE, NZ, UK)
– Zastosowanie w OCLC: Connexion, DCPS, ContentDM, badania
ONIX
ONIX International (Online Information Exchange):
– Standardowy format wymiany danych dla wydawców i
księgarzy
• Oparty na EPICS (EDItEUR Product Information Communication Standards)
– Służy reprezentacji i komunikacji informacji elektronicznej o
produktach przemysłu wydawniczego
• Oferuje dwa poziomy szczegółowości (level 1 & level 2)
– Zastosowanie schematu XML i Unicode
– Zarządzanie: EDItEUR we współpracy z Book Industry
Communication (BIC) i Book Industry Study Group (BISG)
Zalety of ONIX:
– Zaspakaja potrzeby wydawców i księgarzy przez:
• Łatwiejszy dostęp do pełnych danych o książkach (dane
bibliograficzne, sztuka ilustracyjna, spisy treści i wiele innych)
• Łatwy do zaimplementowania format wymiany danych
Zastosowanie ONIX:
– Głównie przeznaczony dla wydawców i sprzedawców książek
• Większość głównych firm (Amazon, Baker & Taylor, etc.) stosuje
ONIX
– Współpraca ONIX z bibliotekami i dostawcami ILS
ONIX
Product record
TEI
Text Encoding Initiative (TEI):
–
–
–
–
Służy kompleksowemu kodowaniu tekstów literackich
Możliwe stosowanie SGML jak i DTD XML
Nagłówek TEI (TEIH) może służyć jako rekord metadanych
Agencja zarządzająca: Konsorcjum TEI:
• Konsorcjum TEI posiada biura w Bergen (Norwegia) i na czterech
uniwersytetach: Univ. of Bergen, Brown Univ., Oxford Univ., Univ. of
Virginia
• Opisany w “P4” Guidelines for Electronic Text Encoding and Interchange
http://www.tei-c.org/release/doc/tei-p4-doc/html/
Zalety TEI:
– Posiada wersję XML
– Zaprojektowany na potrzeby pracowników naukowych (gł.
humanistów) do różnych celów, w tym:
• Dodawanie komentarzy naukowych do e-tekstów
• Wspomagania badań przez tworzenie specjalnych indeksów itp.
Zastosowania TEI:
– Szeroko stosowany w głównych zbiorach humanistycznych tekstów
elektronicznych (np. CETH, UVa e-text center i in.).
TEI
– moduły elementów
TEI Header
TEI Header
Element <teiHeader> posiada cztery zasadnicze
części:
– <fileDesc> zawiera pełny opis bibliograficzny
obiektu elektronicznego
– <encodingDesc> opisuje relacje pomiędzy tekstem
elektronicznym a źródłem lub źródłami z których
został on pobrany
– <profileDesc> zawiera szczegółowy opis
niebibliograficznych aspektów tekstu, w
szczególności stosowane języki, konketst, w
którym powstał oraz osoby biorące udział w
tworzeniu
– <revisionDesc> zawiera historię zmian
dokonywanych w obiekcie.
EAD
Encoded Archival Description (EAD)
– Format dla wyszukiwania elektronicznych zasobów archiwalnych
– Utworzono EAD DTD (wersja z 2002) działający zarówno jako SGML
i XML DTD
– Zarządzany wspólnie przez Library of Congress oraz Society of
American Archivists (SAA)
Zalety EAD:
– Efektywnie zorganizowana prezentacja zasobu dokumentów
(głównie zbiorów archiwalnych i rękopiśmiennych)
• Nagłówek EAD zawiera metadane do wyszukiwania
• Umożliwia proste lub złożone kodowanie dla różnych poziomów
indeksowania
• Pomocny w tworzeniu sieci dokumentów z linkami do określonych
obiektów w zasobie (albo bezpośrednio do obiektu albo poprzez rekord z
linkiem do obiektu).
Zastosowania EAD:
– Konwersja papierowych narzędzi wyszukiwawczych do cyfrowych
– Szeroko stosowany przez uczelnie i archiwa w USA
– W bazie RLG Archival Resources jest wiele opisów w EAD
Struktura EAD
EAD
METS
Metadata Encoding and Transmission Standard (METS)
– Standard „konteneru” do kodowania danych do wyszukiwania,
archiwizowania i obsługi zasobów cyfrowych
• Sześć modułów definiujących metadane opisowe, administracyjne,
strukturalne, własnościowe i inne
• Pewne części obiektu METS mogą być zewnętrzne (np. rekord MODS dla
metadanych opisowych)
– Zarządzający schematem: Library of Congress
Zalety METS:
– Potrzeba METS określona na spotkaniach ekspertów metadanych
DLF (Digital Library Federation - http://www.diglib.org/)
• Zróżnicowanie lokalnych metadanych nieopisowych szkodzi
skalowalności i współdziałaniu
– Oferuje standard dla „pakietowania” obiektów dla archiwizacji,
umieszczania w repozytoriach itp.
Zastosowania METS:
– LC: plany użycia dla filmów, audio i zasobów multimedialnych
– Zastosowanie w OCLC DCPS, RLG, Harvard, Stanford, UC
Berkeley, National Library of Wales w różnych projektach
METS
METS
METS Header – metadane dotyczące samego pliku METS, w tym data
utworzenia, twórca, status itp.
Descriptive Metadata – metadane opisowe dotyczące obiektu
biblioteki cyfrowej
Administrative Metadata – metadane administracyjne dotyczące
obiektu, w tym zagadnienia techniczne, copyright, informacje o źródle i
cyfrowej archiwizacji
File Inventory – zestaw wszystkich plików składających się na
zawartość obiektu biblioteki cyfrowej
Structural Map – opis struktury logicznej obiektu wraz z opisem
sposobu powiązania z tą strukturą metadanych opisowych i
administracyjnych
Structural Links – wykaz linków między węzłami struktury logicznej
zapisanej w Structural map, który jest stosowany do wykazania
hiperlinków między plikami tworzącymi złożony obiekt biblioteki
cyfrowej
Behaviors – zapis sposobu funkcjonowania oprogramowania
niezbędnego dla uzyskania dostępu do obiektu lub którejś z jego
części.
METS
MIX
Metadata for Images in XML (MIX)
– Schemat XML dla zestawu elementów danych technicznych
niezbędnych dla obsługi zasobów obrazów cyfrowych
– Format dla wymiany i/lub przechowywania danych opisany w normie
NISO Data Dictionary - Technical Metadata for Digital Still Images
(ANSI/NISO Z39.87-2006).
– Dotąd na wstępnym etapie rozwoju i testowania
– Powstaje we współpracy: Library of Congress i NISO Technical
Metadata for Digital Still Images Standards Committee
Zalety MIX:
– Dostarcza schemat XML dla wyrażania danych technicznych,
głównie dla obrazów cyfrowych nieruchomych i ruchomych
– Można go używać z innymi schematami, np. METS i MODS jako
część systemu zarządzania i archiwizacji cyfrowych obrazów
Zastosowanie MIX:
– OCLC DCPS, LC, inni planują lub testują
– MIX jeszcze we wstępnym etapie rozwoju i testów
MIX
Zestawienie:
DC
ONIX
TEI
EAD
METS
MIX
XML
XML
XML
XML
XML
Kodowanie
Unicode
Unicode
Unicode
Unicode
Unicode
Repertuar znaków
Unicode
Unicode
Unicode
Unicode
Unicode
Różna strata
Minimalna
strata
Tylko
nagłówki stratny
Tylko
nagłówki stratny
Minimalna
strata
Część
danych
stratna
Tylko
nagłówki bez
straty
Tylko
nagłówki bez
straty
Prosty opis
do
wyszukiwania
Inf. o
nowych
publikacjach
Kodowanie
etekstów
naukowych
Wyszukiw.
Obiektów
archiwalnych
Kontener z
danymi
techniczny
mi
Dane
techniczne
dla
obrazów
Biblioteki,
muzea,
archiwa, erząd
Wydawcy,
księgarze
Naukowcy z
dziedzin
humanist.
Archiwa,
biblioteki
Archiwa,
biblioteki
Archiwa,
biblioteki
DCMI
Editeur
LC + SAA
LC
LC
Struktura
HTML, XML
Konwersja z MARC 21
Konwersja do MARC 21
Główne zastosowanie
Główny użytkownik
Agencja zarządzająca
TEI
Consortium
CSDGM (inaczej FGDC)
Content Standard for Digital Geospatial Metadata (CSDGM)
[wcześniej znany jako “FGDC”]
–
–
–
–
CSDGM Version 2 - FGDC-STD-001-1998
Definiuje terminologię i opis cyfrowych danych geoprzestrzennych
Zarządzany przez Federal Geographic Data Committee (FGDC)
Dostępna konwersja z FGDC do ISO 19115:2003(E) Geographic
information - Metadata;
Zalety FGDC:
– Stanowi standard dla publikowania metadanych o zasobach
geoprzestrzennych
– Szeroko stosowany przez agendy rządowe i biznes
– Standard wykorzystywany przez wiele systemów i aplikacji
Zastosowania FGDC:
– Stosowany lub przystosowany przez główne agencje
geoprzestrzenne.
– Przydatność rozszerzona dzięki profilom (np. dla danych
biologicznych)
FGDC
FGDC
FGDC
Linki
Dublin Core: http://www.dublincore.org
EAD: http://www.loc.gov/ead
FGDC: http://www.fgdc.gov/metadata/meta_stand.html
MARC 21: http://lcweb.loc.gov/marc/marcdocz.html
MARCXML: http://www.loc.gov/marc/marcxml.html
METS: http://www.loc.gov/standards/mets
MIX: http://www.loc.gov/standards/mix
MODS: http://www.loc.gov/standards/mods
ONIX: http://www.editeur.org/onix.html
RDF: http://www.w3.org/RDF
TEI: http://www.tei-c.org
OCLC Research: http://www.oclc.org/research

Podobne dokumenty