Duplikaty w sieci bibliotek cyfrowych

Transkrypt

Duplikaty w sieci bibliotek cyfrowych
Zaawansowane usługi dla
rozproszonych bibliotek
cyfrowych
Marcin Werla
Poznańskie Centrum Superkomputerowo-Sieciowe
IV Warsztaty „Biblioteki cyfrowe”
Toruń, 2007
Plan prezentacji
• Federacja Bibliotek Cyfrowych
• Przechowywanie skanów wysokiej jakości
• Duplikaty w sieci bibliotek cyfrowych
• Spójność opisów bibliograficznych
Federacja Bibliotek
Cyfrowych
http://fbc.pionier.net.pl/
Agnieszka Lewandowska
Początek prac
Biblioteka cyfrowa
???
Określenie architektury
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Rozpoczynają się wdrożenia
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
…
Treść
Metadane
Wyszukiwanie Użytkownicy
Możliwość dostępu poprzez OAI-PMH
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
…
Treść
Metadane
Wyszukiwanie Użytkownicy
II Warsztaty „Biblioteki cyfrowe” 11.2005
Wyszukiwanie zasobów
rozproszonych w systemie dLibra
Polskie zasoby w światowych
wyszukiwarkach OAI-PMH
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
…
Treść
Metadane
Wyszukiwanie Użytkownicy
Udostępnienie FBC
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
Treść
Metadane
Wyszukiwanie Użytkownicy
Biblioteka cyfrowa
…
Treść
Metadane
Wyszukiwanie Użytkownicy
II Warsztaty „Biblioteki cyfrowe” 11.2005
Wyszukiwanie zasobów
rozproszonych w systemie dLibra
Federacja Bibliotek Cyfrowych
• Cel
– Ułatwienie wykorzystania zasobów polskich bibliotek
cyfrowych i repozytoriów
– Zwiększenie widoczności zasobów polskich bibliotek
cyfrowych i repozytoriów w Internecie
– Udostępnienie użytkownikom Internetu nowych,
zaawansowanych usług sieciowych opartych na
zasobach polskich bibliotek cyfrowych i repozytoriów
Federacja Bibliotek Cyfrowych
• Podstawowe założenia
– Nie ma konieczności przekazywania zasobów
na rzecz FBC
– Nie ma opłat za korzystanie z FBC
– Podstawą działania są otwarte standardy
• Możliwość użycia różnych rozwiązań technicznych
przez poszczególne biblioteki cyfrowe
Federacja Bibliotek Cyfrowych
• Dostępne funkcje
– Przeszukiwanie dostępnych publikacji
– Plany digitalizacji
• Przeszukiwanie
• Zestawienie
– Rozwiązywanie identyfikatora OAI
– Wykrywanie duplikatów
• Raport
• Bezpośrednie wsparcie dla redaktorów bibliotek cyfrowych
Federacja Bibliotek Cyfrowych
•
Wewnętrzna struktura:
– Dwie usługi wyszukiwania rozproszonego
opracowane w ramach projektu dLibra
1. Wydania
2. Publikacje planowane
–
–
Aplikacja WWW dająca dostęp do usług
wyszukiwania rozproszonego i realizująca
dodatkowe funkcje
Baza danych PostgreSQL
Federacja Bibliotek Cyfrowych
• Platforma sprzętowa - serwer Sun Fire 440
– 4 procesory UltraSPARC IV
• 1 593 GHz
• 1MB cache
– 16 GB RAM
– 4 dyski twarde 143 GB, 10000 RPM Ultra320
SCSI
Wykres popularności FBC
11893
12000
10000
8219
8000
6403
5949
6000
4000
3022
2583
2056
2000
856
1206
1543
0
lip-07
sie-07
wrz-07
Liczba unikatowych gości
paź-07
Liczba wizyt
lis-07
Możliwe kierunki rozwoju
• Obsługa „zamówień” czytelników
• Sieciowe konto czytelnika
• Implementacja interfejsu SRU
– FBC w KARO
• Przeszukiwanie treści publikacji
• Nowe funkcje oparte o ujednolicone metadane
– Wyszukiwanie
– Przeglądanie
– Wizualizacje
Plan prezentacji
• Federacja Bibliotek Cyfrowych
• Przechowywanie skanów wysokiej jakości
• Duplikaty w sieci bibliotek cyfrowych
• Spójność opisów bibliograficznych
Przechowywanie skanów…
• Obecnie większość bibliotek cyfrowych to dwie biblioteki:
– Biblioteka postaci prezentacyjnych
(DjVu/PDF/JPG/…)
– Biblioteka postaci archiwalnych (TIFF/…)
• Płyty CD/DVD
• Macierze dyskowe
• Wyjątki
– Biblioteki, które nie zabezpieczają TIFFów…
Przechowywanie skanów…
• Postać prezentacyjna
– Główna funkcja: udostępnianie
– Względnie małe pliki
– Pliki widoczne w Internecie
– Używane regularnie
– Wymagany szybki dostęp
Przechowywanie skanów…
Postać archiwalna
– Główna funkcja: długoterminowe przechowywanie
– Duże pliki
– Dostęp tylko dla redaktorów
– Rzadko potrzebne
• Do stworzenia postaci prezentacyjnej
• W razie awarii
• Na „specjalne okazje”
– Możliwe kilkusekundowe opóźnienia w dostępie
Przechowywanie skanów…
• Przechowywanie postaci archiwalnej w
bibliotece cyfrowej
– Zwiększone bezpieczeństwo przechowywania
– Lepsze zarządzanie postaciami archiwalnymi
– Prostszy dostęp dla redaktorów i
administratorów
Przechowywanie skanów…
• Konieczność opracowania rozszerzeń biblioteki
cyfrowej umożliwiających przechowywanie
postaci archiwalnej w dedykowanych systemach
– Macierze dyskowe
– Archiwizatory
– Outsourcing
– Krajowy Magazyn Danych
Krajowy Magazyn Danych
Krajowy Magazyn Danych
System przechowywania danych:
• wiarygodny i bezpieczny:
• replikacja geograficzna
• szyfrowanie
• trwałość składowanych danych przy niskich kosztach:
• wewnętrzne mechanizmy migracji między technologiami składowania:
• np. dysk -> dysk magneto-optyczny -> taśma LTO4
• cykliczne, audyty spójności danych i meta-danych oraz stanu mediów
• automatyczne, przeźroczyste dla użytkownika
• możliwość wykorzystania różnego typu mediów, np. dysk vs taśma
w zależności od potrzeb i możliwości finansowych użytkownika
• rozproszony, brak centralizacji
• wiele fizycznych punktów dostępu
• wiele replik – możliwość optymalizacji dostępu
• dostępny i wydajny:
• krajowy „zasięg” – centra danych w głównych centrach KDM
• dostęp szerokopasmowy
Krajowy Magazyn Danych
• Metody dostępu i usługi (1):
• zdalny, wirtualny, logiczny system plików:
• logiczny system plików:
• jedna przestrzeń nazw (z pkt. widzenia użytkownika)
• oddzielne przestrzenie dla użytkowników
• fizycznie:
• dane na macierzach dyskowych, serwerach plików, w systemach HSM
• replikacja
• metody dostępu:
• standardowe protokoły do przesyłu plików: SCP, (s)FTP, HTTP(s)
• architektura umożliwia stworzenie tzn. „wtyczek dostępowych”
• można wykorzystać w bibliotekach cyfrowych?
Krajowy Magazyn Danych
• Metody dostępu i usługi (2):
• usługa kopii zapasowej, archiwizacji oraz odtwarzania
• kopie pełne, przyrostowe i różnicowe :
• optymalizacja ilości przesyłanych danych
• wersjonowanie
• możliwość powrotu do dawnych wersji plikó
• automatyzacja procesu wykonywania kopii danych i archiwizacji:
• na podstawie polityk zdefiniowanych przez użytkownika
• zwolnienie użytkownika z „myślenia” o kopiach zapasowych
• możliwa automatyczna replikacja danych:
• w obrębie centrum danych (rozłączne media lub grupy/typy mediów)
• replikacja geograficzna
• interesujące z pkt. widzenia bibliotek cyfrowych
• jak biblioteki cyfrowe zabezpieczone są przed:
• „wandalizmem”,
• „pomyłką” administratora lub użytkownika,
• awariami sprzętu przechowującego dane?
KMD – Infrastruktura
Infrastruktura docelowa:
• 4 główne węzły przechowywania
• 4 węzły aplikacyjne
• osadzone w sieci PIONIER
Węzły przechowywania:
• realizują udostępnianie i zarządzanie obiektami danych
• zarządzają odwzorowaniem logicznej struktury plików na fizyczne systemy
przechowywania: macierze dyskowe, systemy HSM
• kontrolują elementy infrastruktury: systemy przechowywania, serwery dostępowe i
aplikacyjne, sieć
Węzły dostępowe:
• świadczą usługi dostępowe do KMD
• mogą realizować dodatkowe usługi, np. zarządzanie zawartością, wyszukiwanie na
podstawie meta-danych itd. (otwarte pole do działania)
KMD – Uczestnicy projektu
•Politechnika Białostocka, Centrum Komputerowych Sieci Rozległych
•Akademickie Centrum Komputerowe
•Centrum Komputerowe Politechniki Łódzkiej
•Uniwersytet Marii Curie-Skłodowskiej w Lublinie
•Poznańskie Centrum Superkomputerowo-Sieciowe
•Politechnika Częstochowska
•Politechnika Gdańska
•Politechnika Wrocławska
Plan prezentacji
• Federacja Bibliotek Cyfrowych
• Przechowywanie skanów wysokiej jakości
• Duplikaty w sieci bibliotek cyfrowych
• Spójność opisów bibliograficznych
Duplikaty
• FBC pozwoliło na budowanie nowych funkcji na
bazie zasobów bibliotek cyfrowych dostępnych
przez OAI-PMH
• Jedna z pierwszych nowych usług: mechanizm
automatycznego wykrywania potencjalnych
duplikatów
Mechanizm automatycznego
wykrywania duplikatów
• Bazuje na indeksach wyszukiwawczych FBC
• Wykonuje automatyczną analizę porównawczą
wszystkich opisów dostępnych w FBC
• Obecnie podstawą do analizy jest
– Tytuł
– Autor
– Data wydania
Mechanizm automatycznego
wykrywania duplikatów
• Wykrywanie duplikatów pomimo, że:
– Nie wszystkie analizowane atrybuty są
wypełnione
– Wartości w analizowanych atrybutach różnią
się od siebie nieznacznie
Mechanizm automatycznego
wykrywania duplikatów
• System uczy się na błędach
– Jest udoskonalany na podstawie analizy
opisów faktycznych duplikatów, których sam
nie wykrył
– Wkrótce na FBC formularz do zgłaszania
duplikatów
Czy duplikaty to coś złego?
•
•
•
•
Liczba publikacji: 100 000
Liczba faktycznych duplikatów: 50?
Na 1 potencjalny duplikat na 2 000 publikacji
Ale – jak zdefiniować publikację (pod względem liczby
stron)?
Theatrum Chemicum
vs
Telegram Kościuszkowski
• Duplikat = kopia bezpieczeństwa 
Dlaczego powstają duplikaty?
Jak zmniejszyć ich liczbę do minimum?
•
Przyczyna: brak wymiany informacji między bibliotekami
– Rozwiązanie: mechanizm publikacji planowanych
• Informacje o planach digitalizacji dla innych bibliotek
• Automatyczne sprawdzenie w FBC, czy jest dostępna
podobna publikacja już na etapie planowania digitalizacji
– Uwzględnia obiekty planowane i zdigitalizowane ze wszystkich
bibliotek widocznych w FBC
Dlaczego powstają duplikaty?
Jak zmniejszyć ich liczbę do minimum?
• Przyczyna: spójność i kompletność posiadanych
kolekcji
– Rozwiązanie: publikacje/kolekcje wirtualne
• Umieszczanie w bibliotece cyfrowej obiektów
cyfrowych pochodzących z:
– innych bibliotek cyfrowych (identyfikator OAI)
– innych systemów sieciowych (adres URL)
• Co z prawami?
Dlaczego powstają duplikaty?
Jak zmniejszyć ich liczbę do minimum?
• Przyczyna: Zła jakość obiektów już
zdigitalizowanych
• Rozwiązanie: standardy digitalizacji?
Czy duplikaty to coś złego?
Jeżeli tak, to dlaczego powstają i jak
zmniejszyć ich liczbę do minimum?
Dyskusja
Plan prezentacji
• Federacja Bibliotek Cyfrowych
• Przechowywanie skanów wysokiej jakości
• Duplikaty w sieci bibliotek cyfrowych
• Spójność opisów bibliograficznych
Spójność opisów bibliograficznych
• FBC pozwoliło na budowanie nowych funkcji na
bazie zasobów bibliotek cyfrowych dostępnych
przez OAI-PMH
• Pierwszym poważnym problemem jaki się
pojawia są różnice w opisach pochodzących z
różnych bibliotek cyfrowych
Spójność opisów bibliograficznych
• Przykład 1:
typ
Wartość atrybutu
Liczba wystąpień
Udział %
gazeta
26782
27%
czasopismo
16281
16%
Czasopismo
10913
11%
Gazeta
7877
8%
gazety
5415
5%
książka
4960
5%
fotografia
2149
2%
grafika
1860
2%
artykuł z czasopisma
1333
1%
pocztówka
1094
1%
Czasopisma
1040
1%
starodruk
1033
1%
czasopisma
927
1%
Książka
858
1%
mapa
749
1%
Spójność opisów bibliograficznych
• Przykład 2:
język
Wartość atrybutu
Liczba wystąpień
Udział %
pol
82181
82%
ger
10813
11%
lat
2528
3%
und
941
1%
fre
889
1%
eng
847
1%
polski
151
0%
ita
124
0%
mul
114
0%
pl
82
0%
cze
80
0%
pol/ger
80
0%
lat/pol
79
0%
rus
64
0%
pol ; ger
61
0%
Spójność opisów bibliograficznych
• Konsekwencje niespójności opisów
– Utrudnione wyszukiwanie
• Np.: zapytania pisane pod kątem specyficznego
sposobu opisywania zasobów
– Uniemożliwione automatyczne przetwarzanie
opisów w celu realizacji nowych funkcji
• Np.: wyszukiwanie po zakresie dat
Spójność opisów bibliograficznych
• Kluczowe atrybuty
– Te, które posiadają względnie małą liczbę
różnych wartości
Liczba unikalnych wartości poszczególnych atrybutów
120000
101461
100000
80000
60000
37902
40000
30390
22595
20000
13
46
127
637
396
4558
2701
2624
4579
8498
8543
sł o
w
ak
Ty
tuł
luc
zo
we
yd
an
ia
Te
ma
ti
Da
ta
w
Op
is
ór
ca
Tw
a
W
yd
aw
c
Źr
ód
ło
órc
a
W
sp
ół t
w
ąz
an
ia
Po
wi
Ide
nt
yfi
ka
tor
as
ob
u
Ty
pz
Pr
aw
a
Ję
zy
k
Fo
rm
at
Za
kre
s
0
Liczba powiązań wartości danego atrybutu z wydaniami
200000
177341
172149
180000
178268
160000
140000
128862
112585
120000
99621
100000
102457
100008
89164
80000
60000
39913
32261
40000
20000
16121
10556
20355
895
sł o
w
ak
Pr
aw
a
luc
zo
we
Fo
rm
at
Te
ma
ti
a
W
yd
aw
c
Ty
tuł
yd
an
ia
Da
ta
w
Ję
zy
k
as
ob
u
Ty
pz
Op
is
órc
a
W
sp
ół t
w
ór
ca
Tw
Źr
ód
ło
ąz
an
ia
Po
wi
Ide
nt
yfi
ka
tor
Za
kre
s
0
Średnia liczba powiązań z wydaniem
przypadająca na jedną wartość danego atrybutu
4000,0
3742,4
3500,0
3000,0
2500,0
2000,0
1500,0
1000,0
787,5
450,2
500,0
1,1
3,4
3,8
3,9
4,0
4,4
4,7
8,8
6,0
15,2
156,4
68,8
Fo
rm
at
Ję
zy
k
Pr
aw
a
as
ob
u
Ty
pz
Za
kre
s
a
W
yd
aw
c
órc
a
W
sp
ół t
w
ąz
an
ia
Po
wi
sł o
w
ak
luc
zo
we
Źr
ód
ło
Te
ma
ti
Ide
nt
yfi
ka
tor
Op
is
ór
ca
Tw
yd
an
ia
Da
ta
w
Ty
tuł
0,0
Wykorzystanie wartości atrybutów
180000
3500,0
160000
3000,0
140000
2500,0
120000
2000,0
100000
80000
1500,0
60000
1000,0
40000
500,0
20000
Srednia liczba pow iązań na w artość Liczba pow iązań z w ydaniami
Fo
rm
at
Ję
zy
k
Pr
aw
a
as
ob
u
Ty
pz
Za
kre
s
a
W
yd
aw
c
órc
a
W
sp
ół t
w
ąz
an
ia
Po
wi
sł o
w
ak
luc
zo
we
Źr
ód
ło
Te
ma
ti
Op
is
Ide
nt
yfi
ka
tor
Tw
Da
ta
w
ór
ca
0
yd
an
ia
0,0
Ty
tuł
Srednia liczba powiązań z wydaniem
przypadająca na jedną wartość danego atrybutu
200000
Liczba powiązań wartości danego atrybutu z wydaniami
4000,0
Spójność opisów bibliograficznych
• Kluczowe atrybuty
– Te, które posiadają względnie małą liczbę
różnych wartości: typ, format, język, prawa
Spójność opisów bibliograficznych
• Kluczowe atrybuty
– Te, które posiadają względnie małą liczbę różnych
wartości: typ, format, język, prawa
– Te, które mogłyby posiadać pewien podstawowy
„słownik” dowolnie rozszerzany przez poszczególne
biblioteki: temat i słowa kluczowe, …
– Te, w których sposób zapisu ma znaczenie: data
Spójność opisów bibliograficznych
• Jak zapewnić/poprawić spójność opisów
bibliograficznych?
– Tak jak Google ;-)
– Ustalając zasady opisu w ramach sieci
bibliotek cyfrowych
– Korzystając z pomocy „zewnętrznej” instytucji
Jak zapewnić/poprawić spójność
opisów bibliograficznych?
• Tak jak Google ;-)
– Podpowiadanie wartości atrybutów w Aplikacji
Redaktora oparte na statystykach użycia
poszczególnych wartości wg FBC
• Dominacja WBC?
• Co z datami?
Jak zapewnić/poprawić spójność
opisów bibliograficznych?
• Ustalając zasady opisu w ramach sieci bibliotek
cyfrowych
– Wykorzystując opracowania takie jak
„e-Poradnik redaktora zasobów cyfrowych”
opracowany na Uniwersytecie Wrocławskim
http://fbc.pionier.net.pl/id/oai:www.bibliotekacyfrowa.pl:17703
Jak zapewnić/poprawić spójność
opisów bibliograficznych?
• Korzystając z pomocy „zewnętrznych” baz
– NUKAT (p. Agnieszka Kasprzyk)
Jak zapewnić/poprawić
spójność opisów
bibliograficznych?
Dyskusja
Dziękuję za uwagę!