NUKAT – Autostrada Informacji Cyfrowej

Transkrypt

Konferencja naukowa
NUKAT – Autostrada
Informacji Cyfrowej
Biblioteka Uniwersytecka w Warszawie, 18 marca 2013 r.
Biblioteka Uniwersytecka w Warszawie
Centrum NUKAT
NUKAT – Autostrada Informacji Cyfrowej
materiały z konferencji naukowej
Biblioteka Uniwersytecka w Warszawie, 18 marca 2013 r.
Warszawa 2013
Anna Wołodko
[email protected]
Recenzje tekstów:
dr hab. Jerzy Franke, dr Włodzimierz Daszewski, Anna Wołodko
Redakcja
Kamila Grzędzińska
Korekta
Ewa Fibinger, Kamila Grzędzińska
Skład
Kamila Grzędzińska
Przekład abstraktów
Agnieszka Kasprzyk
Zdjęcie na okładce
Jadwiga Antoniak
ISBN 978-83-93-6791-0-2
Niniejsza publikacja, będąca pokłosiem konferencji naukowej „NUKAT – Autostrada Informacji Cyfrowej”,
została przygotowana w ramach projektu „NUKAT – Autostrada Informacji Cyfrowej” współfinansowanego ze środków Europejskiego Funduszu Rozwoju Regionalnego w zakresie Programu Operacyjnego
Innowacyjna Gospodarka.
Publikacja dostępna na licencji Creative Commons Uznanie autorstwa 3.0. Polska. Pewne prawa zastrzeżone na rzecz autorów oraz Biblioteki Uniwersyteckiej w Warszawie. Zezwala się na dowolne wykorzystanie treści, pod warunkiem zachowania niniejszej informacji licencyjnej i wskazania autorów
oraz Biblioteki Uniwersyteckiej w Warszawie jako właścicieli praw do tekstu.
Tekst licencji dostępny pod adresem: http://creativecommons.org/licenses/by/3.0/pl/legalcode
Spis treści
Słowem wstępu
7
NUKAT – Autostrada Informacji Cyfrowej: blaski i cienie
Anna Wołodko, Biblioteka Uniwersytecka w Warszawie 9
Proces typowania czasopism dziewiętnastowiecznych przeznaczonych
do digitalizacji – problemy metodyki pracy
Zbigniew Olczak, Biblioteka Uniwersytecka w Warszawie 19
KaRo 2001–2013, dwanaście lat polskiej wyszukiwarki bibliograficznej
Tomasz Wolniewicz, Uniwersytet Mikołaja Kopernika w Toruniu 29
NUKAT i Federacja Bibliotek Cyfrowych – pierwsze wyniki działań
w kierunku integracji metadanych
Cezary Mazurek, Marcin Mielnicki, Krzysztof Sielski, Marcin Werla,
Poznańskie Centrum Superkomputerowo-Sieciowe 35
Standardy katalogowania gwarantem jakości informacji i filarem współpracy
w katalogach centralnych
Małgorzata Wielek-Konopka, Biblioteka Jagielońska 47
NUKAT wobec nowych trendów w katalogowaniu
Leszek Śnieżko, Biblioteka Uniwersytecka w Warszawie, Centrum NUKAT 63
Katalogi centralne: aspekty polityczne
Henryk Hollender, Biblioteka Uczelni Łazarskiego w Warszawie 69
NUKAT – czy doszliśmy do ściany?
Agnieszka Kasprzyk, Biblioteka Uniwersytecka w Warszawie, Centrum NUKAT 77
Anna Wołodko
[email protected]
Słowem wstępu
Biblioteka Uniwersytecka w Warszawie w latach 2009–2013 realizowała projekt finansowany ze środków Programu Operacyjnego Innowacyjna Gospodarka „NUKAT – Autostrada Informacji Cyfrowej”, którego celem było zapewnienie szerszego dostępu do informacji o zbiorach polskich bibliotek naukowych
oraz do wybranych zasobów cyfrowych online.
Efekty prac, przeprowadzonych w ramach projektu przedstawiają się imponująco: do katalogu centralnego NUKAT włączono opisy bibliograficzne z katalogów lokalnych 30 polskich bibliotek naukowych,
dzięki czemu znacząco wzrosła wartość informacji centralnej. Zmodernizowano wyszukiwarkę katalogu rozproszonego KaRo. Wykonano retrokonwersję opisów katalogowych 1 825 tytułów czasopism
z lat 1801–1939 z katalogów kartkowych bibliotek Uniwersytetu Warszawskiego oraz poszerzono zasób
biblioteki cyfrowej e-bUW o wersje elektroniczne najcenniejszych czasopism ze zbiorów bibliotek UW.
Konferencja naukowa „NUKAT – Autostrada Informacji Cyfrowej”, która odbyła się 18 marca 2013 r.
w gmachu Biblioteki Uniwersyteckiej w Warszawie, była podsumowaniem osiągnięć projektu i jednocześnie okazją do rozważań na temat przepływu i dostępu do informacji naukowej w Polsce, wpływu
nowoczesnych technologii na funkcjonowanie bibliotek, roli norm i standardów we wspólnym budowaniu i szerokim wykorzystywaniu źródeł wiedzy, perspektyw rozwoju dla katalogów centralnych, bibliotek cyfrowych, repozytoriów wiedzy i baz danych.
Zaproszeni prelegenci reprezentowali wszystkie środowiska, które objął swoim zasięgiem projekt.
Znaleźli się wśród nich koordynatorzy i wykonawcy zadań zapisanych w projekcie oraz ich odbiorcy.
Merytoryczną opiekę nad konferencją sprawowali Członkowie komitetu naukowego: prof. dr hab. Alojzy
Nowak, dr hab. Jadwiga Woźniak-Kasperek, dr hab. Jerzy Franke, dr Włodzimierz Daszewski oraz Anna
Wołodko – główny koordynator projektu. Sesje oraz dyskusje prowadziły: Ewa Kobierska-Maciuszko,
ustępująca ze stanowiska po 10 latach pracy, Dyrektor Biblioteki Uniwersyteckiej w Warszawie oraz
Maria Burchard, kierownik Centrum NUKAT, współzałożycielka katalogu centralnego NUKAT.
Niniejsza publikacja jest zbiorem recenzowanych tekstów wygłoszonych referatów.
7i
Anna Wołodko
[email protected]
NUKAT – Autostrada Informacji Cyfrowej: blaski i cienie
Wstęp
Projekt „NUKAT – Autostrada Informacji Cyfrowej” jest realizowany przez Bibliotekę Uniwersytecką
w Warszawie (BUW) w ramach Programu Operacyjnego Innowacyjna Gospodarka (POIG), Oś priorytetowa 2. Infrastruktura sfery B+R, Działanie 2.3. Inwestycje związane z tworzeniem infrastruktury informatycznej nauki. Większość prac w projekcie jest prowadzona w ramach poddziałania 2.3.2. (Projekty
w zakresie rozwoju zasobów informacyjnych nauki w postaci cyfrowej); prace rozwojowe nad wyszukiwarką KaRo należą do poddziałania 2.3.3. (Projekty w zakresie rozwoju zaawansowanych aplikacji
i usług teleinformatycznych).
Przygotowania do udziału w konkursie
Projekt został zgłoszony w I konkursie dla działania 2.3. w końcu sierpnia 2008 r. Początkiem projektu było otwarte spotkanie informacyjne dla przedstawicieli jednostek organizacyjnych Uniwersytetu
Warszawskiego (UW) „Fundusze strukturalne w nowej perspektywie finansowej 2007-2013”, które odbyło się 30 stycznia 2008 r. Wzięli w nim udział przedstawiciele instytucji odpowiadających za wdrażanie
funduszy strukturalnych – Ministerstwa Nauki i Szkolnictwa Wyższego (MNiSW) oraz Mazowieckiej
Jednostki Wdrażania Funduszy Unijnych. Wtedy po raz pierwszy dowiedzieliśmy się o istnieniu programów operacyjnych i o tym, że działanie 2.3. w POIG jest zatytułowane „Tworzenie infrastruktury
informatycznej nauki”. Pomyśleliśmy, że to brzmi znajomo, że to hasło, którego nie trzeba oswajać,
w które nie trzeba na siłę wpisywać działań biblioteki. To spotkanie było ważne z tego względu, że
zdobyliśmy wiedzę na temat źródeł finansowania, ale też zostaliśmy skutecznie zachęceni do myślenia
o projekcie. W przypadku bibliotek akademickich istotne jest, by czuć wsparcie macierzystej uczelni. Skoro
o wsparciu Uniwersytetu mowa chcę wspomnieć o roli Biura ds. Wspomagania Rozwoju UW (BWR UW).
Biuro to zostało powołane, aby występować o środki na projekty realizowane przez Uniwersytet Warszawski, ale także po to, aby wspierać te jednostki UW, które realizują projekty samodzielnie. Z pomocy
Biura korzystaliśmy wielokrotnie w trakcie trwania naszego projektu. Za każdym razem, kiedy brakowało nam wiedzy albo doświadczenia w kontaktach z Instytucją Pośredniczącą (najpierw MNiSW, a od
2011 r. Narodowe Centrum Badań i Rozwoju (NCBiR)) koledzy z BWR służyli nam radą i wsparciem, bez
nich realizacja projektu byłaby z pewnością znacznie trudniejsza. Pomoc BWR dla jednostek UW jest
wpisana w zadania Biura, ale warto podkreślić, że akurat w tym przypadku była realnym wsparciem
i była dla nas bardzo cenna.
Na kształt naszego projektu miało wpływ także to, co działo się w 2008 roku w środowisku bibliotek naukowych w Polsce. Od 2007 r. trwał projekt „Ochrona i konserwacja cieszyńskiego dziedzictwa
piśmienniczego”. Jego celem było kompleksowe zabezpieczenie oraz wprowadzenie do obiegu naukowego i kulturalnego zbiorów pięciu cieszyńskich instytucji bibliotecznych i archiwalnych: Książnicy Cieszyńskiej, Archiwum Państwowego w Katowicach Oddział w Cieszynie, Biblioteki i Archiwum
im. Tschammera przy Parafii Ewangelicko-Augsburskiej, Archiwum i Biblioteki Konwentu Zakonu Bonifratrów oraz Biblioteki Muzeum Śląska Cieszyńskiego. Wartość projektu wyniosła ogółem 2 027 185
euro, z czego 81,78% ze środków Mechanizmu Finansowego Europejskiego Obszaru Gospodarczego,
a w pozostałej części z dotacji pochodzącej z programu Promesa Ministra Kultury i Dziedzictwa Narodowego (http://www.eog.kc-cieszyn.pl/). W projekcie zaplanowano i zrealizowano działania inwestycyjne
9i
(remont i wyposażenie siedzib pięciu bibliotek i archiwów, modernizacja pracowni konserwatorskiej
Książnicy Cieszyńskiej), konserwatorskie (dezynfekcja, czyszczenie i zabiegi introligatorskie 43 000 woluminów oraz 900 metrów bieżących akt archiwalnych, kompleksowa konserwacja 144 manuskryptów
i druków), ponadto skatalogowano ponad 37 500 woluminów (w tym przede wszystkim starych druków
i/lub kodeksów rękopiśmiennych) oraz 60 metrów bieżących archiwaliów, zdigitalizowano i zmikrofilmowano ok. 570 000 stron dawnej prasy, rękopisów oraz starych druków, do użytku publicznego
oddano Muzeum Protestantyzmu na Śląsku Cieszyńskim, uruchomiono „Szlak cieszyńskich archiwów
i bibliotek zabytkowych”, wyposażając go w zestaw wydanych drukiem przewodników i informatorów.
Projekt ten był pierwszym dużym projektem bibliotecznym finansowanym ze środków zewnętrznych.
Skomplikowany organizacyjnie (realizowany przez konsorcjum złożone z instytucji świeckich i kościelnych – różnych wyznań) był zachęcającym przykładem, że biblioteki mogą realizować projekty kosztowne i trudne. Analizując projekt cieszyński dowiedzieliśmy się także, jakich rozwiązań powinno się
unikać (szczególnie pouczające były dla nas trudności z przetargiem na opracowanie zbiorów).
Dopiero później, bo w 2010 roku, największe polskie biblioteki naukowe rozpoczęły swoje duże projekty: Biblioteka Jagiellońska projekt „Jagiellońska Biblioteka Cyfrowa” realizowany ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Infrastruktura i Środowisko,
a Biblioteka Narodowa i NASK (Naukowa i Akademicka Sieć Komputerowa) projekt ACADEMICA w ramach POIG.
Ani bezpośrednie otoczenie BUW, ani świadomość istnienia innych przedsięwzięć bibliotecznych
w Polsce nie były decydującymi czynnikami dla powstania projektu „NUKAT – Autostrada Informacji
Cyfrowej”, ale wszystkie razem stworzyły atmosferę przychylną wymyślaniu działań i planowaniu projektów.
Od pomysłu do wniosku
Gdy mieliśmy już za sobą pierwszy etap: wybór źródła finansowania, mogła rozpocząć się właściwa
praca nad projektem. Zaczęliśmy od spotkań grupy bibliotekarzy, chętnych do zajęcia się zadaniem
spoza zakresu obowiązków. Grupa pracowników BUW nie tworzyła na tym etapie zorganizowanej struktury. Spotkania zaczęły się od burzy mózgów, podczas których zbierano skojarzenia, których wspólnym
mianownikiem był wyłącznie tytuł działania 2.3. POIG „Tworzenie infrastruktury informatycznej nauki”.
To był trudny etap, planowanie projektu na taką skalę zdarzyło się w BUW po raz pierwszy. Co prawda
działanie 2.3. nie miało określonej minimalnej wartości wydatków kwalifikowalnych, ale wiadomo było,
że w innych działaniach tego priorytetu minimum zostało określone na poziomie 4 mln zł. Wiadomo było
także, że projekt ma mieć charakter ponadregionalny, działania należało zaplanować z pewnym rozmachem, zdecydowaliśmy więc również w naszym projektowanym działaniu 2.3. nie przekraczać minimum
4 mln zł.
Trudność tego pierwszego etapu polegała również na tym, że należało zaplanować działania, które
będą różne od tego, co każda biblioteka robi na co dzień, które będą miały sens w momencie planowania i pod koniec realizacji projektu oraz takie, które wpiszą się w założenia działania 2.3. POIG.
Początkowa wersja projektu znacząco różniła się od finalnej. Pierwszą logiczną całością, której pomysł powstał w Centrum NUKAT (jego autorką była Agnieszka Kasprzyk), była koncepcja utworzenia
portalu informacyjnego pod nazwą UNIWERSJA. Portal ten miał łączyć w sobie funkcje katalogu centralnego NUKAT i wyszukiwarki KaRo oraz dawać dostęp do narzędzi tworzenia bibliografii, narzędzi e-learningowych, e-zbiorów, systemu wspierającego realizację wypożyczeń międzybibliotecznych
i zdalnych usług bibliotecznych, narzędzi do badania satysfakcji użytkowników. Przewidziano w nim
„piaskownicę B+R” – miejsce do testowania technik i zasobów informacyjnych. Z tej pierwszej listy
działań w etapie realizacji uwzględniono scalanie katalogów lokalnych oraz modernizację KaRo. Na dokładne przemyślenie, rozpisanie na konkretne działania i włączenie do projektu pozostałych czynności
zabrakło nam doświadczenia, wyobraźni, czasu. Wiele z porzuconych czynności wymagało zaplanowania ogólnopolskiej współpracy, obawialiśmy się, że takiego powszechnego porozumienia bibliotek (nawet wokół słusznych spraw) nie uda się osiągnąć w krótkim czasie. Zadania te nie zostały włączone do
żadnego z realizowanych później projektów bibliotecznych, co nie znaczy, że przestały być potrzebne,
10
czy też stan obecny ich rozwoju jest zadowalający. Szczególnie brak nowoczesnego systemu wypożyczeń międzybibliotecznych jest w XXI wieku rażącym zaniedbaniem środowiska.
Opracowując projekt należało nie tylko konkretne działania zaplanować i w odpowiedni sposób opisać, ale także oszacować ich koszt. Zdecydowaliśmy się skoncentrować na takich zadaniach, które mogliśmy wykonać sami, powierzyć je bibliotekom stale współpracującym z Centrum NUKAT oraz takich,
które można zamówić jako usługi zewnętrzne.
Do działań związanych ze scalaniem katalogów i modernizacją wyszukiwarki KaRo ostatecznie
dodaliśmy retrokonwersję czasopism ze zbiorów BUW i bibliotek wydziałowych UW oraz skanowanie
XIX-wiecznych czasopism ze zbiorów BUW, aby zasilić nimi elektroniczną bibliotekę Uniwersytetu Warszawskiego e-bUW.
Scalanie katalogów lokalnych w NUKAT
Włączenie do katalogu centralnego NUKAT rekordów bibliograficznych wytworzonych w lokalnych
katalogach bibliotek przed powstaniem katalogu centralnego od dawna było w planach Centrum NUKAT. W 2006 r. stało się nawet przedmiotem wniosku do władz UW o środki na badania własne. Wniosek
ten nie doczekał się pozytywnej reakcji. Może i słusznie – nie było powodu, aby duże ogólnopolskie
przedsięwzięcie było finansowane jedynie ze środków Uniwersytetu. Działanie 2.3. POIG wydaje się
być znacznie właściwszym źródłem funduszy. Ostatecznie zdecydowano, że procesem scalania danych
będą objęte 24 lokalne katalogi 30 bibliotek tworzone w latach 1994–2002 z wykorzystaniem haseł
z Centralnej Kartoteki Haseł Wzorcowych (CKHW).
Modernizacja KaRo
W projekcie przedstawiliśmy wyszukiwarkę KaRo, jako narzędzie wykorzystywane przede wszystkim przez bibliotekarzy. Planowane działania modernizacyjne miały na celu rozpropagowanie jej wśród
nieprofesjonalnych użytkowników (głównie naukowców, pracowników sfery B+R, studentów itp.), jako
przede wszystkim wyszukiwarki opisów bibliograficznych z bibliotek naukowych. Dodatkowo zaplanowano wyposażenie KaRo w możliwość wyszukiwania w zasobach polskich bibliotek cyfrowych.
Retrokonwersja czasopism
Ponieważ przedmiotem procesu scalania katalogów miały być wyłącznie wydawnictwa zwarte, przyjęto założenie, że retrospektywnemu katalogowaniu zostaną poddane czasopisma ze zbiorów bibliotek
Uniwersytetu Warszawskiego – w sumie 1600 tytułów. W trakcie trwania projektu dzięki oszczędnościom uzyskanym w innych działaniach zwiększono tę liczbę do 1825 tytułów. W BUW retrokonwersja
objęła przede wszystkim czasopisma najczęściej zamawiane przez czytelników do Czytelni Ogólnej,
w pierwszym rzędzie ukazujące się od 1801 do 1939 r., stanowiące cenne źródła do badań historycznych.
W bibliotekach wydziałowych wyboru tytułów do katalogowania retrospektywnego dokonali bibliotekarze. Przy wyborze brana była pod uwagę ich unikatowość w skali ogólnopolskiej oraz przydatność dla
badań naukowych. Jeśli przeznaczony do katalogowania retrospektywnego tytuł miał już swój rekord
bibliograficzny w katalogu NUKAT, wówczas był on kopiowany do katalogu lokalnego i sporządzano dla
niego wyłącznie rekord zasobu. Wprowadzenie opisów tych czasopism do katalogu NUKAT oraz katalogu online bibliotek UW istotnie wpłynęło na zwiększenie wartości informacyjnej obydwu baz.
Z uwagi na bardzo nieliczną grupę bibliotekarzy posiadających uprawnienia do sporządzania rekordu
bibliograficznego czasopism w katalogu centralnym NUKAT oraz rekordu zasobu w katalogu lokalnym
(łącznie na UW 10 osób), konieczne dla realizacji projektu było przeprowadzenie szkoleń w pierwszym
etapie projektu. Dzięki tym szkoleniom zespół katalogerów czasopism na UW zwiększył się do 41 osób.
Digitalizacja
W projekcie zapisaliśmy: „Cyfryzacji poddane zostaną najcenniejsze czasopisma ze zbiorów BUW, głównie spośród tych, które zostaną poddane katalogowaniu retrospektywnemu.” Zaplanowano sporządzenie 3 mln skanów, poddanie ich OCR-owaniu i przetworzenie do formatu DjVu. Docelowo wszystkie
publikacje zostaną zamieszczone w elektronicznej bibliotece Uniwersytetu Warszawskiego e-bUW.
Założono, że w ramach realizowanego projektu zostanie zaimplementowanych 40 tys. publikacji.
11i
Wszystkie te działania razem dały się opisać hasłem „wspomaganie infrastruktury informatycznej
nauki”, można było je ująć w spójny wniosek i pozwalały nam na przeprowadzenie działań na taką skalę,
na jaką z pewnością nie znaleźlibyśmy funduszy w budżecie BUW.
Budżet projektu
Wartość projektu została na etapie aplikowania o wniosek skalkulowana na poziomie 9,7 mln złotych.
Koszt realizacji projektu to trzy zasadnicze typy wydatków:
• zakup sprzętu (koszt założony: 1 828,5 tys. zł, realizacja: 3 360,8 tys. zł),
• zakup usługi digitalizacji zewnętrznej (koszt założony: 5 490 tys. zł, realizacja: 3 269,5 tys. zł),
• wynagrodzenia osób zaangażowanych w realizację projektu (koszt założony: 1 185,5 tys. zł,
realizacja: 1 824 tys. zł).
Ponadto w studium wykonalności założono, że sporządzenie dokumentacji projektu będzie kosztem na poziomie 30 tys. zł (okazało się, że ten koszt wyniósł ostatecznie 12,2 tys. zł). Koszty ogólne
(księgowość i zarządzanie projektem) zaplanowano na poziomie 294 tys. zł, z powodu wydłużenia czasu trwania projektu te koszty wzrosły do 417 tys. zł. Koszt promocji projektu założono na poziomie
285,5 tys. zł (nie mógł przekraczać 3% wartości kosztów kwalifikowanych), realne wydatki kształtują się
na poziomie 274 tys. zł. Koszt audytu zewnętrznego założono na poziomie 96,7 tys. zł. Ponieważ wykonawca usługi audytu został wybrany w drodze przetargu, udało się znaleźć ofertę znacznie tańszą – za
audyt zapłaciliśmy zaledwie 8,6 tys. zł.
Wydatki w poszczególnych latach kształtowały się następująco:
2009: 606,8 tys. zł
2010: 1 116,5 tys. zł
2011: 5 014,5 tys. zł
2012: 2 155 tys. zł
Warto w tym miejscu dla porównania przywołać fakt, że roczne wydatki rzeczowe BUW z dotacji budżetowej w 2012 r. wyniosły 913,5 tys. zł (z dochodów Biblioteka wydała 844,6 tys. zł). Wyraźnie widać
więc, jakim znaczącym zastrzykiem inwestycyjnym był dla Biblioteki budżet projektu.
Zakończenie realizacji projektu to dobry moment, żeby zadać sobie pytanie, czy instytucje takie, jak
biblioteki akademickie powinny poważnie rozważać zmianę modelu własnego finansowania. Obecnie
normą jest poleganie na stałym budżecie, otrzymanym z instytucji macierzystej. Znaczące środki zewnętrzne służą głównie realizacji dużych przedsięwzięć, trudno je otrzymać i trudno tak skonfigurować
budżet projektu, żeby mógł służyć także odciążeniu budżetu jednostki (np. sfinansować ze środków
projektu część funduszu płac). Zmiana w finansowaniu instytucji publicznych na wzór modelu grantowego w nauce (stały minimalny budżet + granty na realizację projektów wyłanianych w systemie konkursowym) nie wydaje się realistyczna w odniesieniu do bibliotek. Wiedząc, ile kosztuje przygotowanie
projektu i jakim wysiłkiem organizacyjnym jest jego realizacja – mam świadomość, że powinny się na to
decydować tylko ośrodki duże i silne. Biblioteki, które dysponują odpowiednim potencjałem, powinny
zaakceptować sytuację, w której tylko dzięki dużym zewnętrznym środkom będzie można realizować
działania zakrojone szerzej niż rutynowa, codzienna działalność.
Jak każdy beneficjent projektu o wartości powyżej 1 mln euro, BUW jest zobowiązany do przesyłania
do Instytucji Pośredniczącej monitoringu dochodów i kosztów operacyjnych. Nie przewidywaliśmy i nie
przewidujemy dochodów z jakiejkolwiek działalności związanej z zakupionym w projekcie sprzętem,
co nie zwalnia nas z oszacowania kosztów operacyjnych. Koszty operacyjne w instrukcjach Narodowego
Centrum Badań i Rozwoju (NCBiR) definiowane są jako wydatki pieniężne, niemające charakteru inwestycyjnego, przeznaczone na bieżącą działalność i eksploatację aktywów wytworzonych lub zakupionych w ramach projektu. W kalkulacji kosztów operacyjnych uwzględnia się wszystkie koszty związane
z utrzymaniem trwałości projektu — koszty eksploatacji i utrzymania (wynagrodzenia, materiały, usługi,
media), koszty administracyjne i ogólne, koszty związane ze sprzedażą i dystrybucją (w tym koszty
poniesione w związku z procesem komercjalizacji np. wycena wartości niematerialnych i prawnych),
12
nakłady odtworzeniowe, zmiany w kapitale obrotowym netto, podatki dochodowe i inne podatki bezpośrednie. Koszty operacyjne będziemy monitorować w całym okresie trwałości projektu, tj. do połowy
2018 roku.
Po zakończeniu realizacji projektu i po wykonaniu pierwszego monitoringu kosztów operacyjnych
warto pokusić się o pełny bilans kosztów. Kiedy będzie wiadomo, ile środków przyznanych na realizację projektu ostatecznie udało się wydać i kiedy skończą się wszystkie działania w projekcie, będzie
można oszacować tę pracę, bez której realizacja projektu nie byłaby możliwa, a która (nieuwzględniona
w harmonogramie rzeczowo-finansowym) musiała zostać opłacona z budżetu Biblioteki (tu mam na
myśli głównie czas etatowej pracy wielu osób zaangażowanych w różne działania projektu) lub też
pozostała nieopłacona w ogóle. Taka analiza byłaby dla Biblioteki cennym źródłem danych, możliwym
do wykorzystania w przyszłości. Przeprowadzenie takiej analizy znacznie przekracza założone ramy
niniejszego tekstu i możliwości autorki.
Decyzja: zarządzamy sami
Już na etapie planowania projektu podjęliśmy decyzję, że opracowanie wniosku i studium wykonalności
powierzymy firmie zewnętrznej, natomiast zarządzać projektem będziemy sami. Z perspektywy czasu
obie te decyzje uważamy za właściwe. Współpracującej z nami profesjonalnej firmie opracowanie wniosku i studium wykonalności zajęło około miesiąca. I chociaż wymagało to od nas intensywnej współpracy z firmą, dostarczenia wielu dokumentów i wielu informacji – z pewnością oszczędziło nam czas.
W projekcie zapisaliśmy, że „… dla jego realizacji powołana została grupa robocza, która nadzorować
będzie całość prac realizowanych w ramach przedsięwzięcia.” Grupa ta miała się składać z koordynatora
projektu, odpowiedzialnego również za promocję oraz koordynatorów poszczególnych zadań: scalania
katalogów, retrokonwersji, digitalizacji. W trakcie realizacji projektu okazało się, że zarówno scalanie
katalogów, jak i digitalizacja potrzebują więcej wysiłku, z czasem więc zespół koordynatorów rozrósł się
do sześciu osób. Ten zespół od początku projektu istniał jako struktura nieformalna, nie został oficjalnie
powołany w strukturze Biblioteki. Jedynie główny koordynator otrzymał na wniosek Dyrekcji BUW pełnomocnictwo Rektora UW do reprezentowania Uniwersytetu Warszawskiego wobec MNiSW oraz innych
osób i instytucji w zakresie wynikającym z realizacji projektu, w tym składania oświadczeń, wniosków,
sprawozdań, raportów, planów, harmonogramów, potwierdzeń oraz podejmowania innych wiążących
decyzji, wynikających z realizacji umowy.
Nie udało się, zaplanowane w projekcie, zatrudnienie osoby do zajmowania się księgowością projektu. Środki POIG przekazywane na wyodrębniony rachunek były traktowane jak wszystkie inne zasoby
finansowe UW i obrót nimi podlegał takim samym przepisom, jak inne wydatki uczelni. Zatrudnienie
księgowego z zewnątrz musiałoby oznaczać nadanie tej osobie takich uprawnień, jakie mają pracownicy
Kwestury – w tym dostępu do systemu księgowego UW. Ostatecznie obsługą księgową projektu zajęła
się Kwestura UW i Pełnomocnik Kwestora w BUW.
To, że oceniamy decyzję o samodzielnym zarządzaniu projektem pozytywnie nie oznacza, że chcielibyśmy zastosować to samo rozwiązanie w przypadku kolejnych projektów. Dziś już wiemy, które
z czynności administracyjnych, związanych z realizacją projektu, chcielibyśmy oddać zewnętrznej firmie zarządzającej, a które pozostawić po naszej stronie. Bez szkody dla meritum działań można oddać
sporządzanie comiesięcznych wniosków o płatność, obsługiwanie kolejnych kontroli, gromadzenie i odpowiednie porządkowanie dokumentacji czy sporządzanie szczegółowych rozeznań rynku w przypadku
wszystkich wydatków rzeczowych poniżej progu przetargowego. Warto zaznaczyć, że każdy wydatek
rzeczowy powinien mieć pełną dokumentację: rozeznanie rynku, umowę podpisaną z wykonawcą/dostawcą, protokół odbioru. Nie ma granicy, poniżej której można dokonać zakupu towaru lub usługi bez
dopełnienia tych formalności. W projekcie „NUKAT – Autostrada Informacji Cyfrowej” wszystkim tym
zajmowaliśmy się sami. Wydaje się, że przez to nadzór merytoryczny nad projektem nie był tak dobry,
jak mógłby być, gdybyśmy mogli poświęcić na niego więcej czasu.
13i
Kontrole w projekcie
Decyzja o finansowaniu projektu dotarła do nas w marcu 2009 roku, umowa została podpisana 9 kwietnia tego samego roku. Przez pierwsze kilka miesięcy projektu przesyłaliśmy Instytucji Pośredniczącej
(do 2011 r. było nią Ministerstwo Nauki i Szkolnictwa Wyższego) komplet dokumentów. Po kilku miesiącach MNiSW zdecydował się przyjmować od nas wyłącznie wykaz dokumentów, pozostawiając dokumentację na miejscu do późniejszej kontroli i weryfikacji.
Pierwsza kontrola w projekcie miała miejsce we wrześniu 2010 roku. Był to przegląd dokumentacji
projektu przeprowadzony przez Fundację Fundusz Współpracy, zwycięzcę przetargu na weryfikację.
Takich kontroli było w projekcie jeszcze sześć. Ponadto projekt był kontrolowany przez zewnętrzną
firmę audytorską w grudniu 2012 roku (audyt zewnętrzny jest kosztem kwalifikowalnym dla wszystkich
projektów powyżej 2 mln złotych i był założony w naszym projekcie) oraz przez Narodowe Centrum
Badań i Rozwoju w styczniu 2013 r. Żadna z tych kontroli nie miała charakteru merytorycznego, projekt
był sprawdzany wyłącznie pod względem formalnym i finansowym, ze szczególnym naciskiem na procedurę zamówień publicznych.
Znajomość obowiązujących beneficjentów dokumentów nie chroni przed popełnianiem błędów, ponieważ nie są one na tyle szczegółowe, żeby móc je traktować jak podręcznik realizatora projektu.
Wydaje się, że kolejne instancje kontrolujące mają za zadanie przede wszystkim znaleźć uchybienia
w działaniach beneficjentów. Kontrole mogłyby być bardziej pomocne dla beneficjentów, gdyby odbywały się w pierwszych miesiącach projektu, wskazując błędy formalne; byłoby to szczególnie cenne dla
instytucji realizujących swoje pierwsze projekty. Instytucje pośredniczące (MNiSW, potem NCBiR) nie
wykorzystują takiej szansy na wskazanie właściwych sposobów postępowania realizatorom projektów.
Kolejnym aspektem kontroli jest nieostateczność ich rozstrzygnięć. Jak wspomniałam, szczegółowo były kontrolowane procedury przetargowe w projekcie „NUKAT – Autostrada Informacji Cyfrowej”.
Nie znaleziono w nich poważnych uchybień, które skutkowałyby korektami finansowymi. Jednak za
każdym razem analiza zgromadzonej w Bibliotece dokumentacji przetargowej i akceptacja zastosowanych przez nas rozwiązań była opatrywana zastrzeżeniem, że kolejna kontrola może te same postępowania przetargowe ocenić inaczej, także niekorzystnie dla nas.
Stosunkowo najłagodniej przebiegają kontrole Funduszu Współpracy, po siedmiu edycjach stały się
niemalże rutyną. Niezależnie od tego, co usłyszymy w trakcie kontroli wdrażamy tylko zalecenia, które
otrzymamy na piśmie. W żaden inny sposób nie poradzilibyśmy sobie z zaleceniami kolejnych zespołów
kontrolujących, które bywają ze sobą sprzeczne. Zarówno audyt, jak i planowa kontrola z NCBiR były
dla nas bardzo angażujące i wymagały tworzenia wielu dokumentów oraz udzielania wyjaśnień. Wiele
rozwiązań formalnych przyjętych w projekcie zostało wybranych spośród innych właśnie dlatego, że
oceniliśmy, że łatwiej będzie je wytłumaczyć przyszłym kontrolom.
Tradycją kontroli, co jest trudne do zaakceptowania, jest budowanie w weryfikowanych jednostkach
pewnego napięcia i obaw przed kolejnymi, bardziej restrykcyjnymi kontrolami. Nie kwestionując prawa grantodawców do sprawdzania grantobiorców, zauważamy, że nawet brak uchybień podczas jednej
inspekcji nie pozwala na spokojny sen, bo, jak słyszeliśmy wielokrotnie, każda następna instancja może
potraktować nasze działania odmiennie i inaczej je ocenić. A lista instytucji, które mają prawo skontrolować realizację projektu jest długa i nie do końca przez nas rozpoznana. Wiem, że można oczekiwać kontroli Urzędu Kontroli Skarbowej, Urzędu Zamówień Publicznych, Państwowej Inspekcji Pracy,
Komisji Europejskiej. Doświadczenia realizatorów projektów są takie, że instytucji kontrolujących jest
wiele, nadmiar kontroli i ich mało konstruktywny charakter są dodatkowym obciążeniem, brakuje za to
instytucji wspierających beneficjentów.
Przetargi
Krokiem milowym projektu był duży przetarg na usługę zewnętrzną. W styczniu 2010 roku ogłosiliśmy przetarg na digitalizację XIX-wiecznych czasopism. O ile przed rozpoczęciem projektu skrót SIWZ
(Specyfikacja Istotnych Warunków Zamówienia) nie był jasny dla większości z nas, to w trakcie projektu
stał się być może skrótem najczęściej używanym. Napisanie specyfikacji na digitalizację było dla nas
14
pierwszym poważnym wyzwaniem w zakresie zamówień publicznych. Konstruując SIWZ korzystaliśmy
ze wsparcia wielu bibliotek. Biblioteki różnych typów są wobec siebie nadzwyczaj solidarne i udzielają
sobie nawzajem wszystkich potrzebnych informacji. Warto jednak zauważyć, że biblioteki nigdy nie
podjęły wysiłku uporządkowania informacji na ten temat. Przed dużymi przedsięwzięciami digitalizacyjnymi odbywają się pielgrzymki z biblioteki do bibliotek i intensywna wymiana maili na tematy
związane z przedmiotem przetargu, ale nikt nie podjął się zorganizowania warsztatów nt. sposobów
konfigurowania usług digitalizacji zewnętrznej albo stworzenia portalu czy forum dyskusyjnego wokół
tych zagadnień. To jest w równym stopniu uwaga krytyczna jak autokrytyczna, my także takich warsztatów nie zorganizowaliśmy. Wydaje się, że nadal warto podjąć ten wysiłek.
Materia zamówień publicznych jest trudna dla wszystkich. W trakcie realizacji przetargów zetknęliśmy się z wieloma absurdami przepisów ustawy Prawo zamówień publicznych. Wśród szkoleń oferowanych beneficjentom POIG znalazło się także szkolenie z tego zakresu. Podczas szkolenia dowiedzieliśmy
się, że stosowanie w procedurze oceny ofert wyłącznie kryterium ceny jest błędem i może grozić beneficjentom odpowiedzialnością karną. Tymczasem w praktyce okazuje się, że zastosowanie oprócz ceny
kryterium jakościowego, nawet o niskiej wadze, jest niezwykle trudne. Wszystkie przetargi ogłaszane w ramach projektu są przetargami Uniwersytetu Warszawskiego i podlegają lokalnym regulacjom.
My zostaliśmy skutecznie zniechęceni do zastosowania kryterium innego niż cena. Byłoby nam łatwiej
upierać się przy kryterium jakościowym, gdybyśmy mogli powiedzieć, że stosują je wszystkie polskie
biblioteki w przetargach na usługi digitalizacyjne. Informacją z innego obszaru, która wzbudziła pewne
obawy (do której także się w końcu nie zastosowaliśmy) były zasady zakupu sprzętu komputerowego
w projekcie. Zdaniem szkolących przetarg na zakup sprzętu powinien odbyć się raz (niezależnie od
czasu trwania projektu). Każda inna sytuacja może być potraktowana jako dzielenie zamówienia. Usłyszeliśmy wtedy, że można dostawy sprzętu rozłożyć w czasie, ale sam przetarg powinien być jeden.
Nie zastosowaliśmy się do tego zalecenia, bo wydało nam się absurdalne. Naszego sposobu postępowania nie zakwestionowała dotychczas żadna z kontroli. Podjęliśmy ryzyko ogłoszenia wielu przetargów
na zakup sprzętu, ale uznaliśmy, że tak będzie lepiej dla osiągnięcia założonych przez nas celów.
Warto przypomnieć, że w Polsce coraz częściej podnoszą się protesty przeciw obowiązującemu prawu o zamówieniach publicznych. Protestują przede wszystkim jednostki naukowe, którym obowiązujące
ograniczenia nie tyle utrudniają, co uniemożliwiają statutową działalność (przykładem takiego protestu
jest grupa na portalu facebook – „Realizacja PZP wiąże ręce nauce”). Bibliotekom obowiązujące prawo
raczej utrudnia niż uniemożliwia pracę, ale warto przyłączyć się do kolegów z instytucji naukowych.
Może należy wspólnie zadać pytanie, dlaczego, skoro unijny próg przetargowy to w tej chwili granica 130 tys. euro, a kraje UE mogą (ale nie muszą) ustalać własne niższe progi, próg przetargowy jest
w Polsce znacznie niższy niż w innych krajach europejskich (w Danii jest to 67 tys. euro, w Czechach
– 70 tys. euro; w Polsce – 14 tys. euro). Tylko w Bułgarii, na Malcie i na Łotwie próg przetargowy jest
niższy niż w Polsce.
Elastyczność projektu
Istotnym problemem, który pojawił się kilkakrotnie w trakcie różnych procedur kontrolnych jest kwestia
elastyczności projektu, a raczej tego na ile projekt można zmienić w stosunku do złożonego wniosku
i studium wykonalności.
Ostatnia kontrola z NCBiR zwróciła uwagę, że lista zakupionego przez nas sprzętu znacząco różni
się od listy zaplanowanej w 2008 roku. To oczywiste, że się różni. W 2008 roku planowaliśmy na potrzeby archiwizacji wytworzonych w projekcie skanów zakup biblioteki magnetooptycznej o ogromnej
(jak nam się wtedy wydawało) pojemności 8 TB. Tymczasem w 2012 roku zakupiliśmy do tego celu 120
dysków 1 TB. Ponieważ wśród zaleceń pokontrolnych nie znalazła się konieczność aneksowania studium wykonalności, nie zrobiliśmy tego, ale niepokój pozostał. W przypadku projektów takich jak nasz,
w wielu aspektach związanych z nowymi technologiami, utrzymanie listy sprzętu w niezmienionej postaci było niemożliwe.
Lista sprzętu pod koniec projektu w zupełnie innym kształcie niż we wniosku to tylko jeden z aspektów zmian, jakim siłą rzeczy podlega projekt tak rozciągnięty w czasie, jak nasz. W każdym momencie
15i
można przesunąć pomiędzy kategoriami wydatków kwoty poniżej 10% wartości danej kategorii. Przesunięcia większe, tym bardziej utworzenie nowych kategorii, likwidacja innych, czy zmiana czasu trwania
projektu wymagają aneksowania umowy. O taki aneks może wystąpić każda ze stron. W przypadku naszego projektu aneksów było siedem, z czego dwa obligatoryjne (na wniosek Instytucji Pośredniczącej),
o pięć wnioskowaliśmy my jako beneficjent. Procedura aneksowania zmieniała się w czasie, różny był
także czas od złożenia wniosku do podpisania aneksu. W naszym przypadku było to od jedenastu dni
do czterech miesięcy. Procedura przetargowa narzuca pewien rytm czynności (także płatności), zasady
kwalifikowalności wydatków mówią o tym, że każdą przekazaną zaliczkę należy wydać w ciągu 120 dni,
a możliwość wydania środków jest często zależna od podpisania aneksu – w tej sytuacji wielomiesięczne oczekiwanie na aneks jest dla beneficjenta trudnym doświadczeniem.
Dorobek projektu
Po czterech niełatwych latach jesteśmy jednak dumni z dorobku projektu. W ramach retrokonwersji
w BUW i bibliotekach wydziałowych utworzono zgodnie z planem 1 825 nowych rekordów bibliograficznych czasopism.
Scalanie katalogów lokalnych z katalogiem centralnym NUKAT przyniosło 293 584 nowe rekordy
w bazie oraz 1 263 981 lokalizacji, przy okazji wytworzono narzędzia informatyczne, z których będzie
można skorzystać w przyszłości.
Została zmodernizowana wyszukiwarka KaRo.
W ramach digitalizacji masowej wykonano 3 mln skanów z XIX-wiecznych czasopism ze zbiorów
BUW, trwa (realizowana dzięki oszczędnościom uzyskanym w innych kategoriach wydatków) digitalizacja uzupełniająca, dzięki której możemy uzupełnić luki w skanowanym materiale.
Szczegółowe informacje na temat projektu staramy się zamieszczać na jego stronie internetowej
(autostrada.buw.uw.edu.pl).
Projekt w liczbach
PROJEKT
LUDZIE
PIENIĄDZE
• czas trwania projektu to:
58 tygodni: 09.2009–06.2013
• 7 aneksów
podpisanych do umowy o realizację projektu
• 48 wniosków o płatność
w planach jeszcze 4
• 7 przetargów
zorganizowanych i rozstrzygniętych (trwa osatnia procedura
przetargowa)
• 2 instytucje pośredniczace
(MNiSW, a od września 2011
NCBiR)
• 115 osób
zatrudnionych na podstawie
aneksów do umów o pracę
• 371 umów
umów-zleceń i umów o dzieło
• 5 kolejnych opiekunów
projektu z MNiSW
• 1 główny koordynator
projektu z BUW i 8 koordynatorów poszczególnych zadań
• wartość projektu to
9 724 313,40 zł
• wydano i rozliczono
9 355 492,78 zł
co stanowi 96,21% wartości
projektu (stan na 31.03.2013)
Wśród osób, które pracowały przy projekcie są takie, które zrobiły jeden rekord bibliograficzny i takie,
które przepracowały nieprzerwanie cztery lata. Wysiłek duży i mały był ważny dla tego projektu, każde
zaangażowanie miało znaczenie. Poza osobami formalnie zatrudnionymi w projekcie, wielu spośród
pracowników BUW przyjęło dodatkowe obowiązki, wynikające z realizacji projektu, jako rozszerzenie
swojego zakresu obowiązków.
16
W trakcie realizacji projektu zbudowaliśmy sprawnie działającą strukturę i nauczyliśmy się działać
w niej skutecznie. Projekt był dla nas ważną lekcją. Dowiedzieliśmy się wielu rzeczy dotyczących realizacji projektu, ale też poznaliśmy dobrze swoje mocne i słabe strony. Nie uniknęliśmy błędów, ale staraliśmy się z każdego potknięcia wyciągnąć wnioski. Także dzięki błędom wiemy więcej niż na początku
drogi.
Abstrakty
Realizacja projektu unijnego – blaski i cienie
Projekt NUKAT – Autostrada Informacji Cyfrowej, realizowany w ramach Programu Operacyjnego Innowacyjna
Gospodarka, to pierwsze tego typu przedsięwzięcie w historii Biblioteki Uniwersyteckiej w Warszawie: pierwszy
projekt realizowany z funduszy strukturalnych, pierwszy duży outsourcing, pierwsza euforia z powodu naprawdę
dużych środków zewnętrznych dla BUW i gorzkie doświadczenia debiutantów w ich wydawaniu.
Kiedy dziś, pod koniec projektu, oglądamy się za siebie – wiemy, że samo przygotowanie projektu, chociaż trudne,
długotrwałe, pracochłonne i kosztowne, było niczym wobec wyzwania, jakim stała się dla nas jego realizacja.
Mimo licznych ostrzeżeń nie byliśmy świadomi wielości spraw, których będziemy się musieli nauczyć, regulacji,
które będziemy musieli wdrożyć.
Referat będzie próbą syntetycznego przedstawienia doświadczeń zebranych w trakcie realizacji projektu i ewolucji, jaką przebyliśmy od nieopierzonego beneficjenta do wyjadacza unijnych środków. Dziś, kończąc projekt, możemy podzielić się refleksją, z czego jesteśmy dumni, co nam się w projekcie szczególnie udało, co zrobilibyśmy
inaczej, co warto zaplanować odmiennie niż my.
Może warto także publicznie zadać pytania: dlaczego instytucji wspierających beneficjentów jest tak mało,
a instytucji kontrolujących tak wiele albo dlaczego realizacja ustawy o zamówieniach publicznych przypomina
chodzenie po polu minowym.
W sytuacji, kiedy nie sposób planować projektów, których zakres wykracza poza codzienną działalność bibliotek
bez dużych zewnętrznych środków, warto podjąć wysiłek wypracowania takich rozwiązań, które ułatwią staranie
się o środki i realizację samych projektów. Być może warto pomyśleć, jak biblioteki akademickie w Polsce mogłyby ułatwić sobie życie opracowując kodeks dobrych praktyk albo zestaw standardów, z których - zwłaszcza przy
okazji projektów - mogłoby korzystać całe środowisko.
Implementing EU-funded project – light and dark sides
„NUKAT – Digital Information Highway” project implemented within EU “Innovative Economy” Operational Program is first project of that type in the history of the University of Warsaw Library: first project implemented
with EU structural funds, first large outsourcing, euphoria caused by significant financial injection granted to the
Library and bitter experience when the Library debuted in spending such considerable funds.
When the Library staff involved in the project looks back now they know that designing the project, although difficult, time-, money- and effort-consuming, was nothing when compared to the challenge of its implementation.
Despite multiple warnings they were not aware of all issues they were going to face and rules they were obliged
to learn and follow.
This paper is an attempt to present experience they gathered during the project implementation and evolution
they went through from rookies to old hands as regards spending EU funds. Today, finishing this project, they can
share what they are proud of, what they would do in a different way if possible and what is important to design
in a different way than they did.
It is also worth asking some questions publicly – why the institutions supporting grant recipients are so scarce
and those controlling them – so numerous, and why implementing the rules of the public procurement law makes one think about a walk in a minefield.
Libraries are unable to design and implement large projects which outgrow their everyday tasks without external
grants of appropriate size – it would be very helpful to collect or build solutions which make grant requesting
and project implementation less complicated. Polish academic libraries should consider developing a list of best
practices or standards for the rest of library community to follow while creating and implementing projects funded with external grants.
17i
Zbigniew Olczak
[email protected]
Proces typowania czasopism dziewiętnastowiecznych
przeznaczonych do digitalizacji – problemy metodyki
pracy
Zobowiązania Biblioteki Uniwersyteckiej w Warszawie
Biblioteka Uniwersytecka w Warszawie (BUW), składając wniosek o dofinansowanie projektu „NUKAT
– Autostrada Informacji Cyfrowej” w ramach europejskiego Programu Operacyjnego Innowacyjna Gospodarka obok innych działań wzięła na siebie zobowiązanie polegające na digitalizacji najcenniejszych
czasopism ze zbiorów BUW. To działanie pozostawało w ścisłym związku z innymi zadaniami realizowanymi w ramach tego samego projektu – retrokonwersją czasopism. Już podczas przygotowywania
wniosku pojawiła się myśl, że digitalizacji poddane zostaną czasopisma dziewiętnastowieczne. Tworząc
Gabinet Zbiorów XIX Wieku, Biblioteka Uniwersytecka przyjęła definicję, według której za wydawnictwa
dziewiętnastowieczne uznaje się druki wydane między 1 stycznia 1801 r. a 31 grudnia 1918 r. Oznacza
to, że początek epoki jest wyznaczony zgodnie z chronologią, natomiast cezurę zamykającą wybrano
posługując się kryterium merytorycznym, odnoszącym się do wydarzeń powszechnie uznanych za przełomowe w historii Polski. W wypadku druków zwartych zastosowanie wyżej przytoczonej definicji nie
nastręcza dodatkowych problemów, natomiast odnośnie wydawnictw ciągłych pojawiają się problemy
interpretacyjne. Powstaje pytanie, jakie wydawnictwo ma być uznane za dziewiętnastowieczne, czy
takie, którego wszystkie numery ukazały się w latach 1801–1918, czy takie, którego wydawanie zostało
zainicjowane w tym okresie, lecz było kontynuowane po roku 1918? Na potrzeby realizacji projektu
zdecydowaliśmy, że uznajemy za dziewiętnastowieczne te czasopisma, których przynajmniej jeden numer ukazał się w latach 1801–1918. To rozstrzygnięcie spowodowało powstanie kolejnego pytania: jak
winniśmy digitalizować czasopisma, które choć zapoczątkowane w XIX w., to ukazywały się w dalszym
ciągu w kolejnych latach? Zasadne wydało się zespołowi przygotowującemu wniosek, aby poddać procesowi cyfryzacji cały tytuł, aż do ostatniego numeru. Niestety, pojawiła się kwestia niewygasłych praw
autorskich, gdyż zdigitalizowane czasopisma winny być dostępne w domenie publicznej. Rozwiązaliśmy
ten problem kompromisowo, uznając, że granicą naszych działań będzie rok 1939. W wypadku pewnej,
niewielkiej na szczęście, liczby tytułów oznacza to, że część numerów jednego ciągu tytułowego nadal jest dostępna tylko prezencyjnie, w pierwotnej formie wydawniczej lub na mikrofilmach. Rok 1939
został zapisany w dokumentach, na podstawie których ubiegaliśmy się o uzyskanie finansowania, czyli
we „Wniosku” i „Studium Wykonalności”; dokumenty te nie mówią wprost o czasopismach dziewiętnastowiecznych, lecz używają sformułowania „czasopisma z lat 1801–1939”. Mimo to, podczas typowania
tytułów przeznaczonych do digitalizacji, punktem odniesienia były czasopisma dziewiętnastowieczne
w rozumieniu przyjętym w BUW.
Składając wniosek o finansowanie projektu, BUW nie zadeklarowała liczby tytułów, które zostaną
zdigitalizowane, natomiast zobowiązała się do sporządzenia 3 mln skanów oraz poddania ich procesowi
OCR (Optical Character Recognition)1 i przetworzenia ich do formatu DjVu (jest to wysoce efektywna
metoda kompresji obrazu, umożliwiająca przechowywanie zeskanowanych tekstów z jakością odpowiadającą papierowemu oryginałowi przy jednoczesnym małym rozmiarze pliku). Format DjVu zapewnia wysoką funkcjonalność, dając użytkownikowi biblioteki cyfrowej jednoczesny dostęp do wiernej
1 Oprogramowanie OCR wykorzystuje różne metody segmentacji obrazu np. progowanie, aby wyodrębnić
poszczególne znaki z obrazu, które następnie są najczęściej osobno klasyfikowane jako poszczególne litery.
19i
podobizny oryginału oraz do tekstu, który jest czytelny dla oprogramowania, dzięki czemu może być
automatycznie przeszukiwany oraz, za pośrednictwem syntezatora mowy, może zostać przetworzony
na dźwięk, a zatem jest dostępny również dla osób niewidomych.
Biblioteka Uniwersytecka zobowiązała się również do tego, że w trakcie realizacji projektu zostanie
zaimplementowanych 40 tys. publikacji w bibliotece cyfrowej Uniwersytetu Warszawskiego (e-bUW).
W wypadku digitalizacji czasopism, jeden numer periodyku stanowi jedną publikację. Zaplanowana w ramach projektu liczba publikacji może wydawać się niewspółmiernie mała wobec liczby przewidzianych
skanów. W momencie ubiegania się o dotację, kiedy nie dysponowaliśmy listą czasopism przeznaczonych do digitalizacji, nie mogliśmy także przewidzieć liczby publikacji, chociaż oczywiście zdawaliśmy
sobie sprawę, że będzie ona znacznie większa od zapisanej w projekcie. Realistycznie przewidywaliśmy,
iż niemożliwe jest opublikowanie w trakcie realizacji projektu wszystkich wytworzonych kopii cyfrowych; oczywiście docelowo będą one dostępne w e-bUW, po zakończeniu projektu publikowane będą
w ramach obowiązków etatowych pracowników BUW.
nego czasopisma, w konsekwencji każdy nowy rekord bibliograficzny jest liczony jako odrębny tytuł3.
Zatem liczba 11 618 tytułów, osiągnięta w wyniku policzenia ich według katalogu kartkowego, uległaby
zwiększeniu, gdyby dokonano pełnej retrokonwersji dziewiętnastowiecznych czasopism BUW. Dodatkowo komplikuje sprawę dość niekonsekwentne traktowanie w katalogu kartkowym dodatków do tytułu.
Część z dodatków ma swoje odrębne karty katalogowe, część (zwłaszcza jeżeli ukazywały się krótko
i nieregularnie) odnotowywana jest tylko w kolumnie uwag. W katalogu elektronicznym, każdy dodatek, o ile ma swój tytuł, otrzymuje odrębny rekord bibliograficzny. Szczególnie jaskrawym przykładem
zderzenia tych dwóch wykluczających się sposobów określania tytułów czasopism jest periodyk ukazujący się w Warszawie od końca XVIII w. do końca lat 30. wieku XIX, w katalogu kartkowym opisany pod
sztucznie stworzonym tytułem „Korespondent”, w katalogu elektronicznym ciąg tej gazety podzielony
został na kilkanaście rekordów bibliograficznych (zob. rys. 1).
Proces typowania czasopism
Jak już wyżej powiedziano, przystępując do realizacji projektu nie dysponowaliśmy gotową listą tytułów
czasopism przeznaczonych do digitalizacji, jej ułożenie było częścią realizacji zadania. W dużym stopniu
na procesie typowania tytułów do digitalizacji zaważył fakt, że na początku, gdy przystępowano do
typowania tytułów, większość historycznych periodyków była opisana wyłącznie w tradycyjnych katalogach kartkowych. BUW poddaje digitalizacji wyłącznie pozycje opracowane w zautomatyzowanym
katalogu elektronicznym, co spowodowało, że w trakcie realizacji projektu dwa odrębne działania, czyli
retrokonwersja i digitalizacja, zostały ze sobą ściśle powiązane, oddziaływując wzajemnie na siebie,
w sposób nie zawsze korzystny z punktu widzenia osiągniętych efektów.
Ze względu na olbrzymią liczbę tytułów czasopism w zbiorach BUW, projekt przewidywał retrokonwersję tylko wybranej części. Dobór tych czasopism wymagał dokładnego przejrzenia całego
kartkowego katalogu wydawnictw ciągłych. W ten sposób miały zostać wyselekcjonowane tytuły do
retrokonwersji, ale dodatkowo uzyskaliśmy wstępną listę najbardziej wartościowych tytułów, spośród
których można było dokonać dalszej selekcji. Na tym pierwszym etapie katalog wydawnictw ciągłych
(czasopism i kalendarzy) został przejrzany karta po karcie. W specjalnej tabeli, sporządzonej w programie Excel, zapisano każdy tytuł, który spełniał definicję „czasopisma dziewiętnastowiecznego” (odnotowywano skrócony tytuł, miejsce wydania, lata w jakich dane wydawnictwo się ukazywało, liczbę
egzemplarzy posiadanych przez BUW, sygnatury), następnie sprawdzano w katalogu NUKAT i w naszym
katalogu lokalnym (OPAC) stopień opracowania tytułu. Na koniec należało dany tytuł zakwalifikować
do jednej z 5 kategorii, zaznaczając wiersz odpowiednim kolorem:
• tytuł opracowany w pełni (zarówno w katalogu NUKAT, jaki i katalogu OPAC – jest rekord
bibliograficzny i rekordy zasobów) – kolor niebieski;
• tytuł opracowany bibliograficznie w katalogu NUKAT. W trakcie retrokonwersji należy go
skopiować i uzupełnić o rekord zasobu – kolor różowy;
• tytuł do opracowania od podstaw, w pierwszej kolejności – kolor zielony;
• tytuł do opracowania od podstaw, w drugiej kolejności, czyli lista rezerwowa – kolor żółty;
• tytuły czasopism pominięte w tym projekcie – kolor czerwony.
Przegląd katalogu kartkowego ujawnił w zbiorach BUW 11 618 tytułów czasopism dziewiętnastowiecznych. Należy podkreślić, że zachodzi tu znacząca różnica w rozumieniu tytułu czasopisma w katalogu kartkowym i katalogu zautomatyzowanym. W tradycyjnym katalogu kartkowym tytułem, pod
którym należy szukać czasopisma jest pierwszy tytuł, późniejsze zmiany tytułu są odnotowywane
w kolumnie uwag, ale ciąg czasopisma nie jest przerywany.2 Inaczej dzieje się w katalogach elektronicznych, gdzie zmiana tytułu pociąga za sobą konieczność stworzenia oddzielnego rekordu bibliograficz2 Zob. B. Nałęcz, E. Stańczak, Instrukcja Opracowania Wydawnictw Ciągłych Biblioteki Uniwersytetu Warszaw skiego, Warszawa 1982, s. 8.
20
3 B. Nałęcz, Format MARC 21 rekordu bibliograficznego dla wydawnictwa ciągłego, Warszawa, 2001. s. 33-34.
[aktualizacje: http://centrum.nukat.edu.pl/images/stories/file/instrukcje_procedury/MARC_21/marc21
_ciagle_070717.pdf]
21i
Wykres 1. Stan opracowania czasopism dziewiętnastowiecznych z zasobów BUW
Typowanie tytułów czasopism do digitalizacji
Rys. 1. Karty katalogowe czasopisma skatalogowanego pod sztucznie stworzonym tytułem „Korespondent”
Spośród 11 618 dziewiętnastowiecznych tytułów czasopism, zidentyfikowanych na podstawie katalogu kartkowego, 206 (2%) było już w pełni opracowanych, a 806 (7%) miało opracowane rekordy
bibliograficzne w katalogu NUKAT. Do pełnego opracowania w pierwszej kolejności wytypowano 894
tytuły (8%). Do tej kategorii kwalifikowano szczególnie cenne wydawnictwa, polonica, wydawnictwa
które nadal zachowują aktualność lub są ważne jako źródła historyczne. Pierwszeństwo przyznawano
także ze względu na stan zasobu – ciągi charakteryzujące się licznymi brakami przesuwano na listę
rezerwową, czyli oznaczano jako przeznaczone do opracowania w drugiej kolejności. Przeprowadzony
przegląd katalogu miał na celu przede wszystkim dostarczenie listy tytułów przeznaczonych do katalogowania, ale stanowił również wstępną selekcję tytułów do digitalizacji, gdyż w kolejnym etapie
spośród kategorii 1–3 wybierane były wydawnictwa do cyfryzacji. Kontrowersyjny, sprawiający wiele
trudności, okazał się podział na czasopisma przeznaczone do opracowania od podstaw w pierwszej
kolejności i przeznaczonych do opracowania w drugiej kolejności (lista rezerwowa). W tym przypadku
powstało najwięcej niejasności, podejmowano także decyzje o przeniesieniu z jednej do drugiej kategorii. Ponad trzy czwarte wszystkich tytułów, zarejestrowanych w katalogu kartkowym, które nie były
opracowane w katalogu NUKAT ani w katalogu lokalnym, zostały wykluczone z pola zainteresowania
w projekcie „NUKAT – Autostrada Informacji Cyfrowej”. W przeważającej części są to czasopisma obce
lub tytuły o mocno zdekompletowanych zasobach (zob. wykres).
22i
Gdy przegląd katalogu kartkowego został zakończony, nie podejrzewając niczego złego, przystąpiłem
do typowania czasopism do digitalizacji. Lista tytułów czasopism przeznaczonych do digitalizacji miała być moją autorską pracą. Już na etapie typowania należało jakoś przewidzieć liczbę skanów, które
otrzymamy w efekcie kopiowania danego tytułu. Teoretycznie można było policzyć, strona po stronie,
wszystkie roczniki, lecz liczenie do 3 mln może nie jest całkiem niemożliwie, ale z całą pewnością
jest zajęciem niezwykle czasochłonnym. Dodatkowo przeważająca część zbiorów, których digitalizacja
wchodziła w rachubę, była w złym lub bardzo złym stanie zachowania. Kartkowanie destruktów tylko
w celu obliczenia skanów nie przyniosłoby niczego dobrego. Postanowiłem zatem oszacować liczbę
kart, które następnie były kopiowane, mierząc grubość bloków woluminów. Jako model posłużył nam
„Korespondent”, którego karty zostały dokładnie policzone, a grubość woluminów zmierzona. Z tych
obliczeń wynikało, że 1 metr bieżący daje 15 tys. kart. Metoda ta, z założenia niedokładna, pozwoliła
oszacować w przybliżony sposób przewidywaną liczbę skanów otrzymywanych przy digitalizacji jednego tytułu i ułatwiła w miarę racjonalne planowanie przebiegu procedur związanych z kopiowaniem
zbiorów.
Swoją pracę widziałem przede wszystkim jako dostarczenie merytorycznie uzasadnionej listy tytułów osobom, które zajmą się technicznymi szczegółami przygotowania obiektów do digitalizacji.
Ze względu na znaczną czasochłonność katalogowania, musiałem nadal pracować z katalogiem kartkowym. Do pewnego momentu ta okoliczność nawet ułatwiała moją pracę. Przygotowywany przeze mnie
wykaz uwzględniał pierwszy tytuł. Osoby, które wykonywały dalsze procedury związane z digitalizacją,
dotyczące zwłaszcza zarezerwowania danego tytułu (duże biblioteki cyfrowe, działające w powiązaniu
z instytucjami naukowymi, przestrzegają zasady niedublowania zdigitalizowanych tytułów), oczekiwały
wykazu tytułów zgodnego z wymaganiami NUKAT. Zdarzało się również i tak, że ciąg, który ja rozumiałem jako całość, został opracowany tylko w części, co w trakcie kopiowania zbiorów bywało przyczyną
zawieszenia pracy.
Wyselekcjonowanie czasopism do digitalizacji odbywało się według następujących kryteriów merytorycznych:
• tytuły unikatowe,
• duża wartość źródłowa,
• reprezentatywność dla swojej epoki,
23i
• różnorodność typów oraz przeznaczeń czytelniczych:
– gazety,
– czasopisma literackie i naukowe,
– prasa fachowa, w tym lekarska i techniczna,
– czasopisma humorystyczne i satyryczne,
– wydawnictwa mniejszości narodowych,
– polonica obcojęzyczne,
– wydawnictwa polityczne, zwłaszcza ukazujące w czasie powstań narodowych
(głównie powstania listopadowego) i tytuły emigracyjne.
więc, ze względu na konieczność ścisłego ewidencjonowania liczby wydanych i zwróconych numerów historycznych czasopism, Biblioteka Uniwersytecka nie mogła sobie pozwolić na posługiwanie się
nieaktualnymi danymi. Różnicę między informacją na temat zasobów Biblioteki jakie przynosił dawny
katalog kartkowy, a jakie podaje obecnie katalog elektroniczny, można sobie uzmysłowić porównując
sporządzony w trakcie Projektu rekord zasobu „Kuriera Warszawskiego” ze starą kartą katalogową tegoż
czasopisma (rys. 2).
(1864) nr 1-300 Uwaga: + liczne dod. -- w
def. br. s. 1-2 -- w dod. do nr 277 def. s. I-II
nr 64 def. s. 389-390, w nr 187 def. s. 1123-
-- br. nr 241 R.55, nr 1-290 (1875) Uwaga:
1124, w nr 200 def. s. 1191-1192 R.44,
+ liczne dod. -- w nr 55, 172, 194 def. s. 1
Zależało mi ponadto na tym, żeby w naszych staraniach o poszerzenie zasobów cyfrowych nie pomijać periodyków ukazujących się w Królestwie Polskim w języku rosyjskim, kojarzonych wciąż jeszcze
z opresją rusyfikacji, ale z naszego współczesnego punktu widzenia posiadających nie mniejsze znaczenie dla poznania naszej historii niż prasa polska. Bardzo dużo skorzystałem w tej części pracy związanej z typowaniem zbiorów z monumentalnej serii „Historia Prasy Polskiej” redagowanej przez Jerzego
Łojka4 oraz bibliografii retrospektywnych prasy polskiej5. Przy typowaniu czasopism prosiliśmy także
naszych czytelników o propozycje tytułów, które ich zdaniem winny znaleźć się w bibliotece cyfrowej.
Prośba ta spotkała się z pewnym odzewem ze strony czytelników, niestety z różnych przyczyn propozycje te zostały w niewielkim stopniu wykorzystane w pracy nad typowaniem tytułów do digitalizacji,
mogą jednak być przydatne w przyszłości. Ponadto, przy wyborze tytułów brane były pod uwagę następujące kryteria formalne:
• czasopisma niezdigitalizowane przez inne biblioteki cyfrowe,
• czasopisma nieposiadające form wtórnych,
• pierwszeństwo dla wydawnictw warszawskich i emigracyjnych,
• wydawnictwa z terytorium Królestwa Polskiego,
• wydawnictwa polskie z pozostałej części Cesarstwa Rosyjskiego,
• pierwszeństwo dla zbiorów w złym stanie zachowania,
• ze względów na utrudnienia związane z procesem OCR pominięte zostały tytuły drukowane
alfabetem hebrajskim6.
nr 1-296 (1865) Uwaga: + liczne dod. -- w
-- w nr 125, 131 def. s. 5-6 -- br. dod. do
nr 33 def. br. s. 151-154 -- w dod. do nr
nr 55, 131, 137, 264 R.56, nr 1-289 (1876)
282 def. R.45, nr 1-292 (1866) Uwaga: +
Uwaga: + liczne dod. -- defekt w nr 148,
liczne dod. -- w nr 117 br. s. 647-650 -- br.
s. 1-2, nr 156, s. 3-4, nr 287, s.1-6 -- w nr
nr 188 R.46, nr 1-292 (1867) Uwaga: +
267 br. s. 5-6, w nr 269 br. s. 5-6, -- defekt
Już przy układaniu pierwszej listy pojawiły się nieusuwalne sprzeczności. Gdyby zastosować ściśle
kryterium cyfryzacji wyłącznie tytułów nieposiadających form wtórnych, zaowocowałoby to pominięciem, z przyczyn formalnych, „Kuriera Warszawskiego”, (ukazywał się w latach 1821–1939) oraz „Gazety Warszawskiej” (według katalogu kartkowego zasób BUW 1774–1939, kilkukrotne zmiany tytułów
uwzględnione w polu uwag). Przyszło więc dokonywać różnych kompromisów, pojawiły się arbitralne
decyzje, nie zawsze w pełni zgodne z ustalonymi wcześniej kryteriami.
Duże trudności pojawiły się w trakcie kopiowania zbiorów. O ile sam proces typowania czasopism
mógł jeszcze odbywać się przy pomocy tradycyjnych katalogów kartkowych, to przekazanie oryginałów
do kopiowania zewnętrznej firmie musiało dokonać się po uprzednim opracowaniu nowoczesnych katalogach elektronicznych. Wynikało to między innymi stąd, że tylko rekord zasobu opracowany de visu
dawał nam możliwość kontroli kompletności przekazywanych i odbieranych zasobów od zewnętrznej
firmy kopiującej zbiory. Stare karty katalogu kartkowego nie odnotowywały wszystkich braków, tak
4 Prasa Polska w latach 1661–1864, [aut. Jerzy Łojek et al.], Warszawa 1976 ; Prasa Polska w latach 1864–1918,
[aut. Zenon Kmiecik et al.], Warszawa 1976.
5 Bibliografia Prasy Polskiej 1661–1831, oprac. Jerzy Łojek przy udziale zespołu pracowni Historii Czasopiś miennictwa Polskiego XIX i XX wieku Polskiej Akademii Nauk, Warszawa 1965 ; Bibliografia Prasy Polskiej
1832–1864, oprac. Bolesław Korczak przy udziale zespołu pracowni Historii Czasopiśmiennictwa Polskiego
XIX i XX wieku Polskiej Akademii Nauk, Warszawa 1968.
6 Nie pomijaliśmy prasy żydowskiej, jeżeli była wydawana w językach zapisywanych alfabetem łacińskim
lub cyrylicą.
24i
liczne dod. -- w dod. do nr 143 br. s. III-IV w 2-gim dod. do nr 143, s. I-IV, w nr 147, s.
R.47, nr 1-289 (1868) Uwaga: dod. do nr
II-IV, defekt w dod. do nr 266, s. III-IV, nr
1-3, 5, 7-275, 277-289 -- w nr 41, 45, 48,
278, s. III, w 2-gim dod. do nr 127 br. s. III-
54, 56, 78, 90, 101, 133 br. s. 7-8 -- w nr
-VI -- brak nr 107, 173 -- brak 2-go dod. do
17 def. s. 121-122 -- w nr 21 def. s. 7-8
nr 132, 169, brak dod. do nr 269 R.57, nr
-- br. drugiego dod. do nr 278, 283 R.48,
1-288 (1877) Uwaga: + liczne dod. -- + dod.
nr 1-289 (1869) Uwaga: + dod. do nr 1-289
nadzwycz. do nr 94 -- defekty w nr 5 s. 1,
-- w nr 84 br. s. 1-4 -- br. drugiego dod. do
nr 74 s. 7 -- defekty w nr 100, 142-144, 147,
nr 51, 281 R.50, nr 1-290 (1870) Uwaga:
148, 153-154, 162, 268 -- w nr 103 brak s.
+ dod. do nr 1-168, 170-173, 175-178, 180-
3-6 -- defekt dod. do nr 137 -- brak dod.
181, 183-290 -- w dod. do nr 10 br. s.III-IV
do nr 10, 18, 102, 116, 142, 154, 184, 225,
-- nr 75 + dublet R.51, nr 1-289 (1871)
252, 288 R.58, nr 1-293 (1878) Uwaga: +
Uwaga: + liczne dod. -- w nr 92, 163, 189,
liczne dod. -- defekty w nr 1-4 na każdej
195 br. s. 5-6 -- br. drugiego dod. w nr 281
s., defekt w nr 38, s. 7-8, nr 39, s. 3, nr 44,
-- br. nr 239 R.52, nr 1-259 (1872) Uwaga:
s. 1-2, nr 81, s. 3, nr 86, s. 1-2, nr 95, s. 2, nr
+ liczne dod. -- w nr 205 br. s. 1-2 -- br.
110, s. 3-4, nr 134, s. 7, nr 144, s. 3-4 -- w
drugiego dod. do nr 200 R.53, nr 1-284
nr 102 brak s. 7-8 -- w dod. do nr 120, 135
(1873) Uwaga: + liczne dod. -- w nr 102,
defekt s. III-IV -- w dod do nr 141, 143 brak
106, 128, 191, 204, 205, 237, 270, 280 br.
s. I-II -- brak nr 89, brak w magazynie nr
s. 5-6 -- w nr 94, 137 dubl. dod. -- br. nr
145-288 (spr. dn 14.09.2010) -- brak dod.
271-272 R.54, nr 1-288 (1874) Uwaga: +
do nr 28, 57, 62-66, 68-69, 71-74, 76-78,
liczne dod. -- w nr 30, 35, 53, 70, 71 br.
obu dod. do nr 83, dod. do nr 84, 2-giego
s. 5-6 -- w nr 141-142 defekt -- w nr 260
dod. do nr 121, 1-go dod. do nr 139
Rys. 2. Porównanie zasobu „Kuriera Warszawskiego” w katalogu kartkowym i w katalogu elektronicznym
Ze względu na to, że katalogowanie czasopism, zwłaszcza sporządzenie rekordu zasobu gazety,
która ukazywała się przez kilkadziesiąt lat, jest niezwykle pracochłonne, a rytmiczne przekazywanie
roczników wymuszało na katalogerach pracę pod presją czasu, doszło do swego rodzaju sprzężenia
zwrotnego. Wskutek braku czasu, w opracowaniu dano pierwszeństwo tym tytułom, które przewidziano
do digitalizacji. Okazało się, że terminy realizacji projektu narzuciły nam taki tryb pracy, który, choć
nie do uniknięcia, był sprzeczny z założeniami, z którymi przystępowaliśmy do pracy. W naszych pierwotnych założeniach, związek między retrokonwersją a digitalizacją miał wyglądać w ten sposób, że
pełne opracowanie katalogowe jest warunkiem koniecznym dla poprawnego przebiegu digitalizacji,
a później dla efektywnego wyszukiwania żądanej publikacji elektronicznej, lecz nie przewidywaliśmy,
że wytypowanie tytułu do digitalizacji będzie warunkować retrokonwersję. W konsekwencji, chociaż
25i
ostatecznie znacznie większa liczba tytułów poddana została retrokonwersji niż digitalizacji, to jednak
niektóre ważne historycznie tytuły, które BUW posiada w swoich zbiorach, a które z pewnych przyczyn
nie zostały wytypowane do digitalizacji (np. były już zdigitalizowane przez inne ośrodki), nadal mają
swoje opisy wyłącznie w katalogach kartkowych. Problem ten na szczęście złagodziła przeprowadzona
w ostatnich miesiącach, niezależnie od projektu „NUKAT – Autostrada Informacji Cyfrowej”, digitalizacja
katalogów kartkowych, która sfinansowana została ze środków Ministerstwa Nauki i Szkolnictwa Wyższego przeznaczonych na działalność upowszechniającą naukę.
Osiągnięte efekty
Mimo omówionych powyżej trudności, udało się zrealizować najważniejsze założenia projektu w zakresie digitalizacji zbiorów. Ogółem wykonano 3 001 513 skanów. W trakcie trwania projektu udało się
umieścić w e-bUW 82 412 publikacji, co oznacza ponad dwukrotne przekroczenie pierwotnego zobowiązania BUW. Wytworzono ogółem 316 890 publikacji, co oznacza, że na ogłoszenie oczekuje jeszcze 234
478 publikacji (dla przypomnienia 1 publikacja = 1 numer czasopisma). W bibliotece cyfrowej dostępnych jest już 116 tytułów, w tej liczbie są takie giganty polskiej prasy codziennej jak „Kurier Warszawski”, „Gazeta Warszawska”, czy „Korespondent”.
Gazety, czy szerzej prasa popularna, to dzisiaj znakomite źródła historyczne. Zachowane w zbiorach
BUW egzemplarze kopiowane były w całości, nie pomijano dodatków reklamowych i działów ogłoszeń.
Dzięki digitalizacji będą eksploatowane nie tylko przez specjalistów historyków, ale mogą stać się materiałami wykorzystywanymi w dydaktyce historii w szkołach średnich, mogą być przydatne studentom
przy pisaniu prac rocznych, licencjackich i magisterskich, mogą po nie sięgnąć również studenci z mniejszych uczelni, oddalonych od wielkich bibliotek, posiadających zbiory historyczne.
Udało się także ułatwić dostęp do wielu tytułów prasy literackiej, naukowej i specjalistycznej, które
odegrały doniosłą rolę w historii polskiego życia umysłowego, w których publikowali najwybitniejsi
twórcy XIX i pierwszej połowy XX wieku. Spośród tych tytułów wymieńmy jako przykłady: Ćwiczenia
Naukowe. Oddział Matematyczno-Fizyczny; Gazeta Literacka. Warszawa: Druk. N. Glücksberg, 1821–
1822, oraz Nowy Pamiętnik Warszawski redagowany przez Franciszka Ksawerego Dmochowskiego ukazujący się w Warszawie w latach 1801–1805. Jak z powyższych przykładów widać, udało się również
zrealizować postulat różnorodności tematycznej oraz przeznaczeń czytelniczych tytułów poddawanych
cyfryzacji.
Wnioski dotyczące pracy nad typowaniem czasopism przeznaczonych do digitalizacji
Z powodu uzależnienia przebiegu procesu digitalizacji od uprzedniego opracowania w katalogach
elektronicznych, niekorzystne jest równoczesne wykonywanie tych dwóch różnych procedur. Podczas
realizacji projektu „NUKAT – Autostrada Informacji Cyfrowej” równoległa realizacja obu zadań doprowadziła do licznych zakłóceń płynnego przebiegu procesu digitalizacji, zwłaszcza w fazie kopiowania
zbiorów. Doszło także do tego, że wytypowanie lub pominięcie czasopisma do digitalizacji wpływało
na jego opracowanie w katalogu elektronicznym. Sądzę, że dużo korzystniejsze jest, aby przystępując
do cyfryzacji papierowych oryginałów, mieć pełne i aktualne dane o jakości zasobów, występujących
brakach poszczególnych numerów, uszkodzeniach itp. W wypadku czasopism, a zwłaszcza gazet, takie
informacje można uzyskać tylko dzięki retrokonwersji zasobów danego tytułu. Przy posługiwaniu się
często nieaktualnymi danymi z kart katalogowych, musi dojść do licznych nieporozumień, wybierania
do cyfryzacji zasobów niepełnych, przy jednoczesnym pomijaniu egzemplarzy lepiej zachowanych. Ponadto, tylko przeprowadzenie ponownego katalogowania czasopism, zgodnie z obowiązującymi dzisiaj
normami, z rozumieniem pojęcia tytułu czasopisma innym niż prezentuje katalog kartkowy, pozwoli na
precyzyjne określenie zmian tytułów, wyłowienie wszystkich tytułów powiązanych, które historycznie
były łączone lub rozdzielane z tytułem głównym dość dowolnie. Bez tej wiedzy racjonalna digitalizacja
nie jest możliwa. Najkorzystniejsze dla cyfryzacji jest, aby te dane, które można uzyskać tylko dzięki
retrokonwersji, zgromadzić przed przystąpieniem do wyboru tytułów przeznaczonych do digitalizacji.
Wykluczyć trzeba taką sytuację, w której to wybór do digitalizacji przesądza o retrokonwersji danego
tytułu. Skutkiem takiego odwrócenia kolejności zadań jest chaos, nietrafne decyzje odnośnie digitaliza26i
cji, pominięcie niektórych tytułów powiązanych. W celu osiągnięcia pożądanego efektu należy podzielić
projekt na dwa etapy o wyraźnie zaznaczonych ramach czasowych i precyzyjnie określonej kolejności.
Pierwszy etap miałby na celu retrokonwersję, a dopiero po jego zakończeniu, wykonawca mógłby przystąpić do następnego, w którym realizowane byłyby wszelkie działania związane z digitalizacją zbiorów.
Drugim wnioskiem, wypływającym z doświadczeń zebranych podczas realizacji projektu, jest rozłączenie zadań polegających na merytorycznej ocenie zasadności digitalizacji od oceny formalnej.
Sporządzeniem listy obiektów przeznaczonych do digitalizacji winien zajmować się zespół; autorska
jednoosobowa praca, tak jak to miało miejsce w naszym przypadku, sprawia, że rodzi się pokusa dawania pierwszeństwa jednym kryteriom przed innymi, a w następstwie dochodzi do niekonsekwencji
w wyborze materiałów bibliotecznych poddawanych cyfryzacji. Z całą pewnością należy też w przyszłości, już na etapie przygotowania wniosku, zarezerwować środki finansowe na techniczne przygotowanie
obiektów przeznaczonych do digitalizacji, dzięki czemu proces cyfryzacji przebiegać będzie sprawniej.
Abstrakty
Proces typowania czasopism dziewiętnastowiecznych przeznaczonych do digitalizacji – problemy metodyki
pracy
Wśród zadań jakie zostały zrealizowane w ramach realizacji projektu „NUKAT – Autostrada Informacji Cyfrowej”
znalazło się m. in. poszerzenie zasobów biblioteki cyfrowej e-bUW o wersje elektroniczne najcenniejszych czasopism ze zbiorów UW. Wykonawcy projektu zobowiązali się do stworzenia 40 tys. publikacji, dostępnych w domenie publicznej sieci Internet, na które składać się miało łącznie 3 miliony skanów. Od początku zakładano, że będą
to czasopisma historyczne, głównie dziewiętnastowieczne. Aplikując o środki nie przedstawiono listy czasopism,
ani nie określono liczby tytułów przeznaczonych do digitalizacji. Wytypowanie tytułów stało się elementem
realizacji projektu. Sama procedura digitalizacji wiązała się ściśle z innym działaniem włączonym do projektu
– retrokonwersją opisów katalogowych, gdyż Biblioteka Uniwersytecka digitalizuje wyłącznie publikacje posiadające opis w katalogu elektronicznym. Dopiero w trakcie realizacji projektu wypracowano kryteria doboru
tytułów i procedury, według których przygotowano listę tytułów czasopism.
Referat składa się z czterech części. W pierwszej omówione zostały przyjęte kryteria merytoryczne i formalne
oraz procedury, których użyto przy doborze tytułów przeznaczonych do digitalizacji. W drugiej przedstawiono
proces typowania czasopism oraz trudności, jakie wystąpiły przy zastosowaniu wypracowanych wcześniej teoretycznych zasad. W trzeciej przedstawiono osiągnięte efekty, poddając ocenie stopień realizacji wcześniejszych
założeń. W końcowej części referatu przedstawione zostały wnioski dotyczące organizacji pracy przy digitalizacji
czasopism oraz propozycje metodyczne przydatne przy tworzeniu dużych projektów digitalizacyjnych.
Selecting nineteenth century journals for digitization – methodology issues
One of the objectives of „NUKAT – Digital Information Highway” project was to expand the resources of the Digital Library of the University of Warsaw with electronic versions of most valuable periodicals from the collections
of the University libraries – 40,000 publications available online made of 3 million scanned pages. The prevailing number of periodicals selected for digitization was published in the 19th century. The request for EU grant
did not include specific titles and their overall number, though – their selection was one of the tasks performed
during the project implementation. Moreover, the procedure of digitization was intertwined with another project
objective – retrospective cataloging of the periodicals in question as the University of Warsaw Library digitizes
only cataloged publications.
The author discusses criteria and procedures used during the selection of titles for digitization, following with
the description of the process of selection and difficulties encountered while applying aforementioned criteria.
Next he lists the results of the selection and evaluates the criteria and procedures used during the process.
Finally he provides some conclusions on the organization of periodical digitization process and methodological
suggestions useful during the implementation of other extensive digitization projects.
27i
Tomasz Wolniewicz
Uniwersytet Mikołaja Kopernika w Toruniu
[email protected]
KaRo 2001–2013, dwanaście lat polskiej wyszukiwarki
bibliograficznej
Wprowadzenie
Katalog Rozproszony Bibliotek Polskich – KaRo jest wyszukiwarką zasobów bibliograficznych bazującą
na protokole ISO Z39.50. W swojej najnowszej edycji KaRo przeszukuje również zasoby Federacji Bibliotek Cyfrowych (FBC). System jest dostępny pod adresem http://karo.umk.pl.
Wyszukiwarka KaRo powstała w odpowiedzi na bardzo konkretne zapotrzebowanie – polskie biblioteki poszukiwały platformy prezentującej ich zasoby w jednolity i wygodny sposób. Jednym z rozważanych rozwiązań była centralna baza. Rozwiązanie scentralizowane byłoby jednak trudne i drogie
w utrzymaniu. Niezbędne byłoby stworzenie bazy zdolnej do obsłużenia wielu rekordów i bardzo wielu
użytkowników jednocześnie korzystających z systemu, trudnym zadaniem byłaby również synchronizacja zawartości baz lokalnych z bazą centralną, zwłaszcza w sytuacji gdy bazy lokalne pracowały na
wielu różnych platformach systemowych.
KaRo było efektem prostego eksperymentu programistycznego, polegającego na udostępnieniu informacji przekazywanych przez serwer protokołu Z39.50 – podstawowego narzędzia do zdalnego dostępu do zasobów bibliograficznych. Powstanie pierwszej wersji w stosunkowo krótkim czasie było
możliwe dzięki istnieniu otwartego oprogramowania narzędziowego, implementującego zarówno różne
funkcje protokołu Z39.50 jak i przetwarzanie opisów bibliograficznych zapisanych w postaci MARC.
Jednym z podstawowych założeń projektowych systemu KaRo było maksymalne dopasowanie do
dostępnych w Polsce implementacji systemów bibliotecznych, tak by użytkownik otrzymywał wyniki w jednakowym formacie nawet w sytuacjach, kiedy dane prezentowane przez serwery istotnie się
różniły. W trakcie prac nad KaRo zauważono szereg błędów w implementacjach standardu Z39.50 oraz
nieoczekiwanych rozwiązań nadużywających definicję opisu bibliograficznego do tworzenia powiązań
pomiędzy elementami bazy bibliotecznej. Przykładami takich sytuacji mogą być specyficzne podpola
opisu bibliograficznego, będące w rzeczywistości odsyłaczami do rekordów kartoteki haseł wzorcowych czy zaszywanie informacji o zasobie w postaci automatycznie generowanych dodatkowych pól
opisu. Ponieważ to KaRo musiało się dopasować do wielu różnych implementacji, w efekcie stworzony
został system o bardzo dużej elastyczności. Właśnie ta elastyczność i możliwość pracy nawet wbrew
ustaleniom standardów decyduje o tym, że przez te wszystkie lata nie powstała dla KaRo konkurencja
o porównywalnym zakresie działania.
Pierwsze prezentacje miały miejsce na początku 2001 roku i dobre przyjęcie ze strony bibliotekarzy
spowodowało rezygnację z budowy „drugiej bazy” NUKAT. KaRo ruszyło produkcyjnie w lecie 2001.
W 2003 r., na wniosek Konferencji Dyrektorów Bibliotek Szkół Wyższych, KaRo otrzymało nagrodę
Ministra Edukacji Narodowej i Sportu. W roku 2009 rozpoczęto prace nad wersją 3 (w ramach projektu
„NUKAT – Autostrada Informacji Cyfrowej”), a w październiku 2012 r. nastąpiło przełączenie głównej
wersji KaRo na KaRo 3.
Jądro systemu KaRo w ciągu ostatnich 10 lat zostało zmodyfikowane w zasadzie tylko w zakresie
zmiany kodowania znaków z formatu ISO-8859-2 (tzw. latin 2) na Unicode – UTF-8. Algorytmy pracy
rozproszonej okazały się wystarczająco wydajne by obsłużyć obciążenia na poziomie do 5 zapytań bibliograficznych na sekundę, a obecny serwer główny KaRo jest w stanie przyjąć takich zleceń znacznie
29i
więcej. Prace rozwojowe dotyczyły przede wszystkim dodatkowych funkcjonalności, rozszerzających
możliwości systemu i ułatwiających użytkownikowi pracę w KaRo.
Rozwój KaRo w ramach projektu „NUKAT – Autostrada Informacji Cyfrowej”
Zadanie dotyczące KaRo zakładało wyposażenie systemu w wysokowydajne serwery oraz szereg zmian
w samym oprogramowaniu. Efektem prac programistycznych jest trzecia wersja KaRo.
Modyfikacje w obrębie jądra systemu
Zmiana kodowania na Unicode
Wszystkie wewnętrzne procedury zostały zmienione na Unicode, w szczególności pobierane z katalogów dane bibliograficzne i dane zasobu są zawsze przekodowywane do Unicode. Wyrażenia wyszukiwawcze są przekodowywane z Unicode do formatu katalogu, w którym prowadzone jest wyszukanie.
Znacznym wyzwaniem przeprowadzonej modyfikacji był fakt, że jądro systemu KaRo zostało napisane w języku Perl, który stosuje stosunkowo specyficzną metodę reprezentacji ciągów znaków.
Automatyczne metody przekodowywania stosowane wewnętrznie przez język Perl, w wielu wypadkach
znacznie utrudniały osiągnięcie poprawnego formatu wydruku danych.
Obsługa rekordów Dublin Core
Biblioteki cyfrowe, w tym biblioteki Federacji Bibliotek Cyfrowych, do opisu bibliograficznego stosują
format Dublin Core, zasadniczo różniący się od formatu MARC stosowanego przez biblioteki tradycyjne.
Niezbędne było stworzenie tablic przejścia pomiędzy zasadami tworzenia wyrażeń wyszukiwawczych
KaRo a obydwoma formatami, tak by w ramach pojedynczego wyszukania rozproszonego możliwe było
odnalezienie pozycji zarówno w FBC, jak i katalogach tradycyjnych. Przygotowane zostały również formaty prezentacji danych Dublin Core, tak by maksymalnie zbliżyć prezentacje opisów pozycji tradycyjnych i elektronicznych.
Obsługa wyszukiwania w katalogu FBC
We współpracy z programistami i administratorami FBC przygotowany został interfejs do metod wyszukiwania wspieranych przez katalog FBC, system transferu listy bibliotek FBC oraz obsługi wyników
wyszukania.
Przekodowywanie binarnych rekordów MARC 8 do postaci MARC 21
Wszystkie pobierane rekordy MARC są przekodowywane do formatu MARC 21. Dotyczy to również
wielu niepoprawnych rekordów MARC 21, w których pominięty został znacznik kodowania UTF. Przekodowany rekord MARC 21 jest podstawą do prezentacji wyników, może być również zachowany jako plik.
Przekodowanie rekordów jest znaczącą nowością w stosunku do KaRo w wersji 2, kiedy to zachowywany rekord binarny był po prostu kopią rekordu pobranego z katalogu źródłowego. Ponieważ KaRo 3
wspiera zachowywanie paczki wielu rekordów, często pochodzących z wielu katalogów, to stosowanie
jednorodnego kodowania jest szczególnie istotne.
Zmiana systemu przechowywania danych konfiguracyjnych katalogów
W KaRo 2 dane konfiguracyjne katalogów są przechowywane w pliku, w KaRo 3 stworzona została
baza danych.
Zmiana bazy danych profili użytkowników
W KaRo 2 profile użytkowników są przechowywane w bazie LDAP. Ten system został zaprojektowany wiele lat temu i nie odpowiadał obecnym trendom w programowaniu podobnych systemów informacyjnych. Na potrzeby KaRo 3 przygotowany został schemat relacyjnej bazy mySQL oraz narzędzia,
które pozwoliły na przeniesienie danych ze starej bazy. Należy podkreślić, że profile użytkowników
nie zawierają żadnych danych osobowych użytkowników. Służą wyłącznie przechowywaniu preferencji.
Nie są zbierane indywidualne statystyki działań użytkowników.
30i
Wdrożenie pamięci podręcznej dla wyników przeszukiwania rozproszonego
Najbardziej „kosztowną” operacją wykonywaną przez KaRo jest wyszukiwanie rozproszone. Wymaga
ono uruchomienia wielu połączeń jednocześnie i zaangażowania zasobów wielu katalogów. Ponadto
czas oczekiwania na wynik przeszukiwania rozproszonego jest równy czasowi odpowiedzi najwolniejszego z wybranych katalogów i często może przekraczać 10 sekund. Jeżeli użytkownik chciałby powrócić do wyników wcześniejszego wyszukiwania rozproszonego to powtarzanie całego wyszukiwania
byłoby zbędnym obciążeniem, dlatego KaRo zapamiętuje ostatnie wyszukiwanie rozproszone danego
użytkownika i w razie potrzeby odtwarza jego wyniki.
Modyfikacje interfejsu użytkownika
Zmiana układu strony początkowej
Strona początkowa uzyskała układ dwukolumnowy, bardziej dopasowany do obecnych ekranów
komputerowych. Wprowadzony został również nowy sposób odwołania do informacji o katalogach.
Przy katalogach niedostępnych pojawia się informacja od kiedy występują problemy i jaka jest ich
prawdopodobna przyczyna.
Wprowadzenie dwóch trybów pracy – prostego i zaawansowanego
Wykonana kilka lat temu analiza sposobu korzystania z KaRo wskazała, że wyszukiwania z użyciem trzech wyrażeń praktycznie się nie zdarzają. Dlatego standardowy widok obecnie zawiera tylko
dwa pola. Standardowy widok ukrywa też część rzadziej używanych opcji. Widok zaawansowany jest
przeznaczony przede wszystkim dla bibliotekarzy systemowych lub użytkowników o nietypowych potrzebach. W tym widoku dostępne są trzy pola wyszukiwawcze, pojawia się również dodatkowe menu,
z którego można zarejestrować nowy katalog.
Zmiana kodowania interfejsu na Unicode
Interfejs użytkownika używa kodowania UTF-8. Jeżeli rekordy bibliograficzne są zapisane w innym
kodowaniu, to tekst jest poddawany konwersji do UFT-8.
Obsługa Federacji Bibliotek Cyfrowych (FBC)
Interfejs pozwala na wykonanie jednoczesnego wyszukiwania w katalogach tradycyjnych i katalogu Federacji Bibliotek Cyfrowych. Domyślnie przeszukiwany jest cały katalog FBC, a wyniki wyszukiwania prezentowane są w formie zagregowanej, ale użytkownik ma możliwość wybrania konkretnych
bibliotek. Decyzja o domyślnym przeszukiwaniu wszystkich bibliotek FBC wynika z dwóch przesłanek.
Po pierwsze, dane bibliotek FBC są zebrane w jednym katalogu centralnym, więc przeszukiwanie całości nie jest obciążające. Po drugie, zbiory bibliotek cyfrowych są dostępne niezależnie od lokalizacji
użytkownika, a zatem użytkownikowi jest wszystko jedno w jakiej bibliotece cyfrowej odnajdzie poszukiwaną pozycję.
Wdrożenie technologii AJAX zapewniającej płynną i bardziej niezawodną pracę
AJAX to stosunkowo nowa technologia obsługi stron WWW. Pozwala na wprowadzanie danych do
fragmentów strony poprzez odwołanie do serwera realizowane w tle. Dzięki temu nie występuje efekt
ładowania nowej strony i niepotrzebnego odświeżenia ekranu. Zmniejsza się również ilość danych przekazywanych z serwera do przeglądarki.
W KaRo technologia AJAX została użyta na stronie głównej przy pobieraniu wyników przeszukiwania
rozproszonego oraz przy obsłudze koszyka.
Do prezentacji wyników szczegółowych pozostawiono dotychczasowe, tradycyjne podejście, po to
by nie utracić dwóch bardzo ważnych cech KaRo:
• możliwości zapamiętywania poszczególnych stron wyszukiwania w postaci zakładek,
lub wysyłania odnośników bezpośrednio do konkretnej strony z wynikami;
• niewystępowania irytującego problemu wygaśnięcia sesji użytkownika – nawet jeżeli wynik
przeszukiwania zostanie na ekranie przez długi czas, to użytkownik może kliknąć przejście
do kolejnego wyniku i system to poprawnie zrealizuje.
31i
Bardziej rozbudowana nawigacja w wynikach wyszukiwania
Wprowadzony został dodatkowy pasek nawigacji pozwalający przemieszczać się pomiędzy stronami.
Dodanie logowania do profilu w oparciu o konta zewnętrzne
W wersji 3 dodana została możliwość logowania do profilu przy pomocy konta zewnętrznego, takiego jak Google, dowolne konto OpenId, czy logowanie SAML. Ta ostania opcja pozwoli na włączenie
KaRo do nowo powstającej federacji zarządzania tożsamością.
„Najserdeczniejsze gratulacje i podziękowania za KaRo!”
„Bardzo dziękuję za ten katalog, który bardzo, bardzo ułatwia mi życie, tym bardziej, że jako jedna
osoba w całym powiecie zajmuję się realizacją wypożyczeń międzybibliotecznych”.
„Korzystanie z opracowanego przez Państwa Katalogu Rozproszonych Bibliotek Polskich KaRo
stanowi dla nas niezwykle istotną pomoc przy opracowywaniu naszych własnych zbiorów”.
„Proszę przyjąć wyrazy moje najwyższego uznania za KaRo, którego jestem stałym użytkownikiem”.
„Doceniam precyzję kwerend i niezawodność”.
„Korzystając z okazji chciałam podziękować za katalog KaRo – jest nieocenioną pomocą w naszej
bibliotekarskiej pracy”.
„Często używamy katalogu KaRo w celu znalezienia polskich tytułów i jest nam bardzo pomocny”.
„Na początku mego listu chciałabym Panu BARDZO, BARDZO, BARDZO podziękować za KaRo.”
„Od wielu lat korzystam na co dzień z Pana katalogu i cieszę się, że KaRo jest coraz lepsze”.
Szczególnie użyteczną funkcją dodaną w nowej wersji jest dla mnie możliwość przeszukiwania
zawartości bibliotek cyfrowych”.
Użytkowanie KaRo
Bibliografia
Funkcja koszyka rekordów do pobrania
Użytkownik może zapamiętać oglądany opis w koszyku. Zawartość koszyka może być przeglądana
i edytowana, a wybrane elementy lub cała zawartość koszyka może być zapisana na dysku w postaci
binarnych rekordów MARC.
Zmiana interfejsu obsługi konfigurowania profilu użytkownika
Interfejs obsługi użytkownika został gruntownie przeprogramowany, chociaż jego wygląd jest zbliżony do tego znanego z wersji 2. Nowe podejście pozwala jednak na dużo płynniejszą pracę interfejsu.
Na podstawie badań ankietowych przeprowadzonych w na przełomie 2005 i 2006 roku ([1], [2]), ustalono, że około 50% wszystkich użytkowników to bibliotekarze katalogujący, korzystający z KaRo jako
ze źródła opisów bibliograficznych. Docelowo, rola KaRo jako źródła opisów powinna maleć, ponieważ
najwłaściwszym i coraz bardziej kompletnym źródłem staje się NUKAT.
KaRo osiągnęło maksimum liczby zapytań w roku 2010, W latach 2011 i 2012 odnotowano spadki w stosunku do lat poprzednich, chociaż koniec roku 2012 plasuje się wyżej niż 2011. Duże liczby zapytań w roku 2010 (częściowo też w 2011) były spowodowane masowym pobieraniem danych
z KaRo przez automaty; takie pobieranie zostało później częściowo zablokowane. Zarówno zmniejszenie pobierania automatycznego, jak i słuszna tendencja odchodzenia od KaRo części bibliotekarzy,
mogą odpowiadać za zmniejszenie sumarycznej liczby zapytań, w ostatnim czasie odnotowywany jest
jednak ponowny wzrost.
Statystyki KaRo dotyczą liczby pojedynczych operacji KaRo takich jak:
• wyszukanie rozproszone,
• wyświetlenie listy wyników,
• wyświetlenie wyniku szczegółowego,
• zmiana formy np. podgląd MARC lub pobranie rekordu.
Do statystyk nie są wliczane:
• wyświetlania ekranu głównego,
• wyświetlania ekranów pomocy,
• konfiguracja profilu użytkownika.
Przykładowo w okresie od 1 do 15 marca 2013 r. KaRo obsłużyło 1 250 tys. operacji KaRo, z czym
związane było aż 4,4 mln zapytań obsłużonych przez serwer http. W tym okresie maksymalna liczba
dzienna operacji KaRo przekroczyła 128 tys., a minimalna dzienna – 19 tys., co daje ponad 5 operacji
KaRo na sekundę (i ponad 17 zapytań http na sekundę).
1. B. Latecka, Rozproszony katalog biblioteczny KaRo. Praca magisterska wykonana na Wydziale
Nauk Historycznych UMK pod kierunkiem T. Wolniewicza. Toruń 2006
2. T. Wolniewicz, Katalogi rozproszone na przykładzie polskiej wyszukiwarki KaRo, [w:] Rola kata logu centralnego NUKAT w kształtowaniu społeczeństwa wiedzy w Polsce, red. M. Burchard
[et al.], Warszawa 2010
Abstrakty
Karo 2001–2013, dwanaście lat polskiej wyszukiwarki bibliograficznej
Katalog Rozproszony Bibliotek Polskich KaRo powstał w roku 2001 jako wyszukiwarka zasobów bibliotecznych.
Jego celem była prezentacja zasobów polskich bibliotek, przy jednoczesnym udostępnieniu funkcji pobierania
opisów bibliograficznych. W ciągu 12 lat istnienia, KaRo zdobył znaczną popularność zarówno wśród czytelników,
jak i bibliotekarzy. Stał się również źródłem informacyjnym rekomendowanym na zajęciach z informacji naukowej.
W referacie przedstawiony zostanie rozwój wyszukiwarki, ze szczególnym uwzględnieniem nowych funkcji wersji
3, która powstała w ramach projektu Autostrada Informacji Cyfrowej.
KaRo 2001–2013, twelve years of Polish distributed bibliographic search tool
KaRo – the Distributed Catalog of Polish Libraries was launched in 2001 as a search tool for library resources.
It was designed and created to present Polish library resources and enable the download of ready-made bibliographic records. For last 12 years KaRo has gained considerable popularity among library patrons and librarians
and has become an information source recommended in library and information science courses.
The author discusses the development of KaRo tool with emphasis on new features of KaRo release 3 added during the implementation of „NUKAT – Digital Information Highway” project.
Opinie użytkowników
KaRo od początku było bardzo dobrze przyjmowane przez użytkowników. W ciągu 12 lat eksploatacji
nie odebrano ani jednej uwagi krytycznej, zazwyczaj użytkownicy, którzy zadają pytania lub sugerują
nową funkcjonalność, przy okazji dodają wyrazy uznania. Poniżej załączono kilka cytatów.
„Na początku chciałbym przekazać wyrazy uznania dla Pańskiej pracy, której wynikiem jest wyjątkowo przydatne narzędzie”.
32i
33i
Cezary Mazurek, Marcin Mielnicki, Krzysztof Sielski, Marcin Werla
Poznańskie Centrum Superkomputerowo-Sieciowe
{mazurek,marcinm,sielski,mwerla}@man.poznan.pl
NUKAT i Federacja Bibliotek Cyfrowych – pierwsze wyniki
działań w kierunku integracji metadanych
Wstęp
Od początku obecnego stulecia obserwujemy w Polsce coraz bardziej dynamiczny rozwój naukowych
i kulturowych zasobów informacyjnych dostępnych on-line. Projekty takie jak Wielkopolska (2002),
Dolnośląska (2004) czy Kujawsko-Pomorska Biblioteka Cyfrowa (2005) wytyczały ścieżki organizacji
regionalnych konsorcjów skupionych wokół działań digitalizacyjnych [1]. Początkowo praktycznie całość tych działań miała charakter oddolny, często nieoparty na dedykowanym finansowaniu. Polska
Biblioteka Internetowa (2003), pierwszy projekt rządowy związany z digitalizacją o dużym finansowaniu
na przestrzeni kilku lat, okazał się ostatecznie porażką i jest obecnie podtrzymywany przy życiu przez
Bibliotekę Narodową, do czasu przeniesienia zasobów do Cyfrowej Biblioteki Narodowej POLONA (2006).
Na szczęście to jedyny negatywny przykład tego typu działań z ostatnich lat.
Duże zainteresowanie czytelników, jakim cieszyły się wspomniane powyżej inicjatywy oraz rosnąca
stopniowo dostępność krajowego i unijnego finansowania owocowały stale rosnącą liczbą bibliotek
cyfrowych. W 2007 roku tych bibliotek było już kilkanaście i dawały dostęp do około 80 000 różnorodnych obiektów. Wtedy też w Poznańskim Centrum Superkomputerowo-Sieciowym (PCSS) powstała
Federacja Bibliotek Cyfrowych, której głównym celem było ułatwienie dostępu do rozproszonych zasobów i zwiększenie ich wykorzystania, a sposobem realizacji tego celu była agregacja metadanych
z poszczególnych bibliotek i udostępnianie ich poprzez jeden wspólny portal, wraz z odnośnikami do
poszczególnych obiektów [2]. W ciągu 5 lat działalności FBC rozwój polskich bibliotek cyfrowych zaowocował około setką tego typu serwisów dostępnych on-line na początku 2013 roku, dających możliwość zapoznania się z ponad 1.2 mln obiektów ze zbiorów kilkuset instytucji kultury i nauki. W dużej
mierze przyczyniły się do tego duże projekty takie jak Jagiellońska Biblioteka Cyfrowa, e-Biblioteka
Uniwersytetu Warszawskiego czy Repozytorium Cyfrowe Instytutów Naukowych [3].
Równolegle do zasobów cyfrowych rozwijały się w Polsce w wielu dziedzinach bazy bibliograficzne
(np. BazTECH czy Polska Bibliografia Literacka). Coraz więcej bibliotek udostępniało swoje katalogi
on-line, a inicjatywy takie jak NUKAT czy KaRo ułatwiały dostęp do informacji w nich zawartych oraz
w znaczący sposób wspierały dalszy rozwój m.in. poprzez możliwość wspólnego, skoordynowanego
katalogowania (NUKAT) czy łatwego wyszukiwania i importu już istniejących opisów (KaRo). Coraz
częściej też bazy katalogowe czy bibliograficzne gromadziły odnośniki do cyfrowych postaci opisywanych publikacji, dostępnych w bibliotekach cyfrowych. Biblioteki cyfrowe z kolei ułatwiały użytkownikom przejście od cyfrowej postaci obiektu i uproszczonych metadanych do pełnego opisu dostępnego
on-line w katalogu bibliotecznym.
W 2010 roku dzięki finansowaniu Narodowego Centrum Badań i Rozwoju uruchomiony został projekt SYNAT, którego celem było „utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa
wiedzy”. Koordynatorem projektu zostało Interdyscyplinarne Centrum Modelowania Matematycznego
i Komputerowego Uniwersytetu Warszawskiego (ICM UW), a wśród konsorcjum 16 instytucji jako jeden
z głównych wykonawców znalazł się również PCSS. Celem prac podejmowanych przez PCSS w ramach
etapów A9 i A10 projektu SYNAT było m.in. opracowanie architektury systemu agregacji danych z rozproszonych, heterogenicznych systemów informacji naukowej oraz zbudowanie na podstawie tych in35i
formacji prototypowej bazy wiedzy, obejmującej zarówno zasoby z bibliotek czy muzeów cyfrowych, jak
i z muzealnych systemów inwentarzowych czy bibliotecznych systemów katalogowych.
Celem niniejszego artykułu jest poglądowe przedstawienie wyników prac PCSS, jakie udało się osiągnąć w zakresie agregacji i integracji danych z rozproszonych systemów informacji naukowej po 2,5
roku realizacji projektu SYNAT. Następny rozdział niniejszego tekstu omawia nowe podejście do agregacji danych z wielu źródeł wypracowane w ramach etapu A9 projektu SYNAT. Rozdział trzeci przedstawia
podejście do reprezentacji wiedzy przy pomocy ontologii FRBRoo, a rozdział czwarty prezentuje wybrane aspekty zaimplementowanego procesu integracji i wzbogacania danych. Prototypowy interfejs użytkownika do powstałej w ten sposób bazy wiedzy opisano w rozdziale piątym. Rozdział szósty zawiera
scenariusze wykorzystania bazy wiedzy m.in. w portalu Federacji Bibliotek Cyfrowych. Artykuł kończy
podsumowanie i zarysowanie kierunków dalszych prac.
Agregacja danych z wielu źródeł
Zaimplementowany pierwotnie w Federacji Bibliotek Cyfrowych podstawowy mechanizm agregacji metadanych z polskich bibliotek cyfrowych opierał się na założeniu, że każde źródło danych powinno
udostępniać swoje dane poprzez protokół OAI-PMH, w schemacie Dublin Core [4]. Schemat ten był
przyjęty za model danych wspólny dla wszystkich bibliotek cyfrowych współpracujących z FBC i jeżeli
któraś z bibliotek miała inny schemat metadanych, to po jej stronie spoczywał obowiązek opracowania
i wykonania stosownej konwersji – mapowania danych. To założenie sprawdzało się w początkowym
okresie i znacznie uprościło prace związane z implementacją FBC, jednak w dłuższej perspektywie okazało się niewystarczające. Wraz z powstawaniem kolejnych bibliotek cyfrowych okazało się, że schemat
Dublin Core jest niewystarczający i wiele bibliotek rozszerza go o nowe elementy (takie jak chociażby
„Miejsce wydania”) [5]. Wskutek mapowania bogatszego schematu następuje niestety utrata semantyki
(znaczenia) danych (np. „Miejsce wydania” trafia do pola „Wydawca”) lub też utrata danych w całości,
gdy rozszerzenia schematu nie są (celowo lub przypadkiem) uwzględniane w mapowaniu. Ponadto, wymaganie dotyczące posiadania interfejsu OAI-PMH okazało się również problematyczne dla mniejszych
instytucji.
Przy projektowaniu w ramach projektu SYNAT nowego mechanizmu integracji i agregacji danych
o nazwie CLEPSYDRA (http://fbc.pionier.net.pl/pro/clepsydra) zmieniono te założenia. Przyjęto, że system agregacji powinien być w stanie pobrać dane z dowolnego systemu dostępnego on-line, oraz że
pobierane powinny być dane w możliwie najbogatszej postaci – zarówno jeżeli chodzi o ilość danych,
jak i o ich semantykę. Konwersja czy jakiekolwiek inne przetwarzanie danych powinno następować na
późniejszym etapie, z uwzględnieniem specyfiki i oczekiwań aplikacji czy systemu, który będzie chciał
zagregowane dane wykorzystać [6].
Schematycznie przedstawiono to na Rysunku 1, gdzie widać dwa główne komponenty: Agregator
Danych Źródłowych oraz Semantyczną Bazę Wiedzy. Rolą agregatora jest zebranie danych z różnych
źródeł oraz ich czyszczenie i normalizacja. Komunikacja ze źródłami odbywa się poprzez system agentów, czyli małych programów, które są dedykowane do komunikacji z poszczególnymi klasami systemów informacji naukowej. Takie agenty potrafią wydobyć odpowiednie dane z konkretnego systemu
(np. biblioteki cyfrowej czy systemu katalogowego) i zapisać je w odpowiedniej usłudze Agregatora
Danych Źródłowych. Następnie, na podstawie predefiniowanych reguł przetwarzania realizowana jest
konwersja (np. z formatu MARC binarny na MARC-XML czy z MARC-XML na PLMET) oraz czyszczenie
i normalizacja danych (np. ujednolicenie sposobu zapisu dat czy języków). W ramach projektu SYNAT
opracowane zostały agenty wspierające źródła danych zgodne z protokołami OAI-PMH i OAI-ORE oraz
źródła, które udostępniają dane w postaci plików CSV. Dodatkowo przygotowano dedykowane agenty
dla systemów NUKAT i Muzeum Narodowego w Warszawie.
36i
Rys. 1. Schemat systemu agregacji i wzbogacania danych oraz konstrukcji bazy wiedzy
Semantyczna Baza Wiedzy to system, który korzysta z Agregatora Danych Źródłowych – zebrane
dane są okresowo pobierane i przetwarzane do postaci bazy wiedzy. W celu lepszej integracji zebranych
danych źródłowych wykorzystywane są również źródła pomocnicze, takie jak JHP Kaba, Geonames,
TERYT czy VIAF. Baza wiedzy reprezentowana jest w ontologii FRBRoo, która została pokrótce przedstawiona w następnym rozdziale.
Reprezentacja wiedzy w ontologii FRBRoo
Pierwotnie do reprezentacji wiedzy w tworzonej przez PCSS w ramach projektu SYNAT bazie wiedzy
wybrano ontologię CIDOC CRM [7]. Ontologia ta to zbiór konceptów i relacji między nimi, który umożliwia formalną reprezentację wiedzy na temat dziedzictwa kulturowego (w szczególności obiektów muzealnych). CIDOC CRM definiuje 86 różnych konceptów, takich jak na przykład nośnik informacji, osoba,
temat czy język. Do tego wyspecyfikowano 139 relacji między nimi, np.: ma temat, brał udział w zdarzeniu, jest powiązany z.
FRBRoo [8] to rozszerzenie ontologii CIDOC CRM o koncepty z FRBR [9]. Rozszerzenie to wprowadza
33 nowe koncepty oraz 39 nowych relacji, pozwalając na lepsze wyrażenie wiedzy na temat obiektów
bibliotecznych. Na Rysunku 2 widać przykładowe rozmieszczenie grup informacji na temat różnych form
dzieła zatytułowanego „Pan Tadeusz” na czterech poziomach FRBR.
37i
Opisany powyżej model jest modelem abstrakcyjnym i ogólnym. W zależności od charakteru przedmiotów i typu mediów, poszczególne poziomy mogą się w praktyce łączyć czy też tracić sens istnienia.
Przykładem może być tutaj takie dzieło, które występuje tylko w jednym fizycznym egzemplarzu – unikalny rękopis wiersza czy pocztówka z wakacji. W takiej sytuacji Egzemplarz jest tylko jeden i możliwość rozróżnienia cech unikalnych poszczególnych egzemplarzy traci na znaczeniu. Inny przykład to
Manifestacje zapisane na nośnikach cyfrowych. Tutaj co prawda cyfrowych kopii, Egzemplarzy, może
być wiele, ale właściwie powinno być tak, że każda z nich jest identyczna z dokładnością do pojedynczego bitu. Znów więc możliwość wyrażenia różnic pomiędzy poszczególnymi Egzemplarzami może tracić
na znaczeniu.
Integracja i wzbogacanie danych
Rys. 2. Przykład umiejscowienia różnych postaci dzieła w modelu FRBR
Najwyższy poziom to Dzieło (ang. Work). Pozwala on na wyrażenie cech pewnego ogólnego wytworu
intelektualnego (w tym również artystycznego), bez przywiązywania się do konkretnej ustalonej formy
intelektualnej tego dzieła. W uproszczeniu można to rozumieć jako pewne dzieło idealne funkcjonujące w umyśle autora. W momencie, gdy dzieło to zostanie ustalone w konkretnej formie intelektualnej
– np. autor napisze swoją książkę, spisze jej konkretny tekst – mamy do czynienia z drugim poziomem,
czyli Realizacją (ang. Expression). Jest to jednak nadal poziom informacyjny – abstrahujemy na tym etapie od tego, przy pomocy jakiego medium treść informacyjna została ustalona. Przykładami dwóch
różnych Realizacji tego samego Dzieła mogą być np. tekst w oryginale i jego przekład na język obcy czy
różniące się między sobą teksty dwóch kolejnych wydań tej samej książki. W tym drugim przypadku,
jeżeli różnice pomiędzy tekstami wydań będą zbyt duże (np. zmiany tekstu całych rozdziałów), możemy
mieć sytuację, w której będą to ostatecznie dwa różne Dzieła. Trudno niestety podać tutaj bardzo jasne
kryteria rozróżnienia.
Kolejny poziom FRBR to Materializacja (ang. Manifestation). Jest to poziom dotyczący fizycznego urzeczywistnienia realizacji dzieła i służy do wyrażenia cech wspólnych wszystkich egzemplarzy
danego wydania. Nawiązując do przykładu z tłumaczeniem książki – jeżeli tekst tego tłumaczenia
w identycznym brzmieniu zostanie wydany przez dwóch wydawców (lub jednego wydawcę na różnych
mediach – drukiem i jako e-book), to będą to dwie Materializacje tej samej Realizacji tego samego Dzieła. Każda z tych Materializacji będzie miała przypisane cechy, takie jak właśnie wydawca, rok wydania
czy nośnik, jednak będą to tylko informacje ogólne, takie jak np. format książki czy rodzaj okładki. Do
wyrażenia cech specyficznych dla poszczególnych egzemplarzy (np. informacje o zniszczeniach, autografach czy proweniencji) służyć ma ostatni z poziomów FRBR czyli Egzemplarz (ang. Item).
38i
Jak wspomniano w rozdziale 2, opisywany tu proces budowy bazy wiedzy w ogólności polega na mapowaniu zagregowanych i znormalizowanych danych do postaci ontologii FRBRoo, z wykorzystaniem
pomocniczych źródeł danych, takich jak kartoteki i bazy lokalizacji geograficznych, osób, instytucji czy
haseł przedmiotowych.
Proces ten nazywany procesem integracji i wzbogacania danych realizowany jest okresowo, w sposób w pełni zautomatyzowany. Ze względu na dużą ilość danych wejściowych (kilka milionów rekordów)
i jeszcze większą ilość danych wynikowych (kilkaset milionów faktów/trójek w bazie wiedzy) nie ma
możliwości ręcznej czy szczegółowo nadzorowanej przez człowieka realizacji takiego przetwarzania.
W celu zapewnienia jakości przetwarzania dla każdego ze schematów danych wejściowych opracowane
zostały unikalne reguły mapowania, a dodatkowo wynikowa baza wiedzy poddawana jest testom weryfikującym jej spójność. Przetwarzanie rekordów metadanych realizowane jest przy pomocy autorskiego
narzędzia jMet2Ont (http://fbc.pionier.net.pl/pro/jmet2ont) [10].
Na Rysunku 3 przedstawiono wyrażony w XML-u fragment jednego z rekordów metadanych zagregowanego z biblioteki cyfrowej i przetworzonego do postaci PLMET. Jak widać, rekord ten składa się z pól ze
schematu Dublin Core (pola poprzedzone przedrostkiem ‘dc:’) oraz pól specyficznych dla schematu PLMET
(pola poprzedzone przedrostkiem ‘plmet:’). Rozszerzenie schematu Dublin Core umożliwiło w tym przypadku zachowanie informacji o tym, jakie jest miejsce wydania obiektu (plmet:placeOfPublishing), gdzie
znajduje się obiekt fizyczny, który został poddany digitalizacji (plmet:locationOfPhysicalObject) i jakie
było źródło finansowania tej digitalizacji (plmet:digitisationSponsor).
<plmet:metadata>
<dc:title>Figliki albo rozlicznych ludzi przypadki dworskie [...]</dc:title>
<dc:creator>Rej, Mikołaj (1505-1569)</dc:creator>
<dc:contributor>Pencz, Georg (ca 1500-1550). Il.</dc:contributor>
<dc:description>Dzieło pierwotnie współwydane z dziełem: Zwierziniec W ktorym rozmaitych
[...]</dc:description>
<dc:publisher>Drukarnia Macieja Wirzbięty</dc:publisher>
<plmet:placeOfPublishing>Kraków</plmet:placeOfPublishing>
<dc:date>1574</dc:date>
<dc:language>pol</dc:language>
<dc:coverage>16 w.</dc:coverage>
<dc:subject>starodruki 16 w.</dc:subject>
<dc:type>starodruk</dc:type>
<dc:format>image/vnd.djvu</dc:format>
<plmet:locationOfPhysicalObject>Biblioteka Jagiellońska</plmet:locationOfPhysicalObject>
<dc:rights>Domena publiczna (public domain)</dc:rights>
<plmet:digitisationSponsor>EFRR POIiŚ 11.1</plmet:digitisationSponsor>
</plmet:metadata>
Rys. 3. Fragment metadanych z biblioteki cyfrowej po agregacji i mapowaniu do schematu PLMET
39i
Z kolei na Rysunku 4 przedstawiono grafową wizualizację powyższego rekordu po przetworzeniu go
do postaci bazy wiedzy. W efekcie tej operacji uzyskano 33 powiązane ze sobą obiekty opisane przez
78 trójek RDF. Na etapie wzbogacania danych udało się ustalić powiązania informacji ze źródłowego
rekordu z pomocniczymi bazami danych (w nawiasach podano oznaczenia klas z ontologii FRBRoo):
• Zapis Rej, Mikołaj (1505–1569) został rozpoznany jako informacja o osobie (klasa E21 Person)
i powiązany z pozycją z VIAF http://viaf.org/viaf/61585459
• Zapis Pencz, Georg (ca 1500–1550). Il. został rozpoznany jako informacja o osobie (klasa E21
Person) i powiązany z pozycją z VIAF http://viaf.org/viaf/64120782
• Zapis Kraków został rozpoznany jako informacja o miejscu (klasa E53 Place) i powiązany
z pozycją z Geonames http://www.geonames.org/3094802
• Zapis pol został rozpoznany jako informacja o języku (klasa E56 Language) i powiązany
z pozycją z Lexvo http://lexvo.org/id/iso639-3/pol
• Zapis starodruki 16 w. został rozpoznany jako informacja o haśle przedmiotowym (klasa E55h
Subject Hierarchy) i powiązany z hasłem z NUKAT s 2010216717 (Stare druki -- 16 w.)
• Zapis Biblioteka Jagiellońska został rozpoznany jako informacja o instytucji (klasa E40 Legal
Body) i powiązany z hasłem w VIAF http://viaf.org/viaf/148485690
Rys. 4. Graf wizualizujący wynik mapowania rekordu metadanych z Rys. 3 do ontologii FRBRoo
Powyższy przykład pokazuje, że wypracowana metodyka bazy wiedzy daje wymierne efekty, a wykorzystanie pomocniczych źródeł danych zwiększa integralność danych wynikowych – w powyższym
przykładzie rekord z biblioteki cyfrowej został skojarzony m.in. z informacjami z NUKATu [11]. Oczywiście opisywane tu rozwiązanie nie jest w stanie poradzić sobie z dowolnymi danymi – im większy
będzie stopień normalizacji danych wejściowych, tym większa szansa na wyższą jakość danych wynikowych. Dla niektórych elementów informacji źródłowych możliwe jest też podjęcie próby normalizacji
wszystkich wartości, gdyż unikalnych wartości do przejrzenia i uwzględnienia w mapowaniu nie jest
zbyt wiele (do kilkuset w przypadku pól „język” czy „prawa”) lub też wartości te cechują się stosunkowo
dużą regularnością formy zapisu i mogą być przetwarzane automatycznie (pole „data”).
Dodatkowym efektem opisanego powyżej procesu przetwarzania danych źródłowych i pomocniczych do postaci bazy wiedzy może być poprawa jakości tych danych. Po pierwsze, dostawcy danych
źródłowych mogą być zainteresowani dostępem czy zwrotnym transferem tych danych już po ich czyszczeniu i normalizacji. Po drugie, w przypadku źródeł danych pomocniczych o podobnym charakterze
możliwe jest podjęcie próby wzbogacenia jednego z tych źródeł na podstawie informacji w drugim. Dla
przykładu w kartotece KABA istnieją osobne hasła reprezentujące miejscowość Kcynia (s 97053818)
i gminę Kcynia (s 2012307665). Nie ma jednak między nimi żadnego powiązania (tzw. tropu), które
wskazywałoby zależność między gminą i leżącą na jej terenie miejscowością (jest to akurat zgodne
z zasadami tworzenia kartoteki KABA). Hasła można powiązać automatycznie z ich odpowiednikami
w bazie Geonames (miasto: http://www.geonames.org/3096385/kcynia, gmina: http://www.geonames.
org/7533422/kcynia), gdzie takie powiązanie już funkcjonuje. Automatyczne wykrycie różnic w powiązaniach pomiędzy dwiema różnymi bazami mówiącymi o tych samych obiektach (lokalizacjach) jest
40i
w tym przypadku możliwe, a wygenerowany na tej podstawie raport może zostać następnie użyty do
wzbogacenia przeanalizowanych w ten sposób baz.
Kolejnym naturalnym etapem prac po zaprojektowaniu i implementacji mechanizmów automatycznej budowy bazy wiedzy było przygotowanie interfejsów dostępowych. Rozdział 5 przedstawia pokrótce prototypowy interfejs dostępowy do bazy wiedzy, a w rozdziale 6 zaprezentowane są wybrane
scenariusze wykorzystania tej bazy m.in. w interfejsie użytkownika Federacji Bibliotek Cyfrowych.
Prototypowy interfejs do bazy wiedzy
Semantyczna baza wiedzy, w odróżnieniu do systemów opartych na relacyjnych bazach danych, operuje
na grafowym modelu informacji. Oznacza to, że w bazie semantycznej nie mamy do czynienia z wielokolumnowymi tabelami zawierającymi kompleksowe informacje na temat danego rodzaju obiektów (lub
ewentualnie relacjami do innych tabel). Zamiast tego są pojedyncze obiekty powiązane pomiędzy sobą
relacjami. Prezentacja takich danych może być zwizualizowana w postaci grafu, jednak w przypadku
rozległej bazy semantycznej problemem jest to, jaką część grafu prezentować jednorazowo. Dla przykładu, jeżeli użytkownik zapyta się o informacje dotyczące autora, to czy należy zaprezentować wyłącznie jego imię i nazwisko, czy może jeszcze daty narodzin i śmierci, miejsce urodzenia i dzieła? A jeżeli
pokazujemy miejsce urodzenia, to czy od razu podać też nazwiska innych urodzonych tam twórców? Czy
przy dziełach podać ich wydawców? Czy podać słowa kluczowe? Czy przy tych słowach kluczowych
podać inne dzieła na ten sam temat lub podobne słowa kluczowe? Każda z tych decyzji wpływa na
ilość jednorazowo prezentowanych informacji, co przekłada się na satysfakcję użytkownika (lub jej brak
– zarówno w przypadku braku jak i nadmiaru informacji) oraz na obciążenie systemu informatycznego.
W przypadku prostych modeli danych łatwiej jest określić, które informacje prezentować od razu,
a które powinny być dostępne po dodatkowym żądaniu. Ontologia FRBRoo nie jest jednak modelem
prostym (119 konceptów, 178 relacji). Do tego jej natura skłania do przyjmowania różnych perspektyw
prezentowania informacji – wiedzę o tym, że książka Mikołaja Reja została wydana w 1574 r. w Krakowie przez Drukarnię Macieja Wirzbięty można spojrzeć z perspektywy twórcy, wydawcy, miejsca jak
i roku wydania – wszystko zależy od tego, w którym miejscu widocznego na Rysunku 4 grafu użytkownik rozpocznie eksplorację bazy wiedzy.
W trakcie projektu SYNAT w PCSS wypracowane zostało rozwiązanie polegające na oznaczaniu krawędzi grafu (czyli relacji) specjalnymi znacznikami informującymi, czy informację jaką wnosi ta krawędź
wyświetlić bezpośrednio, czy w postaci hiperłącza prowadzącego do dalszej części informacji, czy też
ją pominąć. Na tej podstawie opracowane zostało uniwersalne narzędzie do prezentacji semantycznych
baz wiedzy oznakowanych w opisany powyżej sposób. Przykładowy zrzut ekranu z tego narzędzia widoczny jest na Rysunku 5 (s. 40).
Jak widać, w tym przypadku system od razu wyświetlił m.in. informacje o tym, kto jest twórcą książki,
kto wydawcą oraz szczegółowe informacje na temat nośnika – egzemplarza publikacji. Nie prezentowano jednak od razu żadnych dodatkowych informacji na temat autora, pozwalając użytkownikowi kliknąć
na odpowiednie hiperłącze i przejść do widoku bazy, gdzie ten autor, a nie jego publikacja, będzie podstawowym obiektem zainteresowania.
Na Rysunku 6 (s. 40) przedstawiono kolejny zrzut ekranu interfejsu bazy wiedzy, tym razem prezentujący informacje o wydaniu Figlików Mikołaja Reja, opublikowanym w Warszawie w 1974 roku. Na tym
zrzucie ekranu zarysowuje się wyraźnie podział na dzieło, realizację i materializację z modelu FRBR, tak
jak to opisano w rozdziale 3.
41i
Scenariusze wykorzystania bazy wiedzy
Opisany w poprzednim rozdziale prototypowy interfejs dostępowy do bazy wiedzy to tylko jeden ze sposobów korzystania z tej bazy. Docelowo planowane jest stopniowe wzbogacanie funkcji oferowanych
przez portal Federacji Bibliotek Cyfrowych o nowe możliwości oparte na technologiach semantycznych,
informacjach zgromadzonych w bazie wiedzy i narzędziach opracowanych na potrzeby jej utworzenia.
Jednym z możliwych scenariuszy jest wprowadzenie wyszukiwania geograficznego. W takim scenariuszu, jeżeli zapytanie wprowadzone przez użytkownika zostanie rozpoznane jako lokalizacja geograficzna, możliwe będzie wyświetlenie wyników związanych nie tylko z tą lokalizacją, ale również
z lokalizacjami pobliskimi czy podrzędnymi lub też wręcz zaprezentowanie wyników na mapie. Przykład
takiego działania przedstawiono na Rysunku 7.
Innym przykładem może być wykorzystanie hierarchii tematów. Gdy użytkownik w wyszukiwarkę
wprowadzi dość ogólne hasło (np. fizyka), poza zaprezentowaniem mu wyników opisanych wprost tym
hasłem, można mu też podpowiedzieć inne słowa węższe znaczeniowo (np. promieniotwórczość, mechanika, …) wraz z liczbą wyników, które dodatkowo uzyska zmieniając w sugerowany sposób swoje
zapytanie.
Rys. 5. Przykładowy zrzut ekranu z prototypowego interfejsu dostępowego do bazy wiedzy
Rys. 7. Przykład wyszukiwania geograficznego – użytkownik wyszukujący miejscowości Kcynia otrzymuje informacje o publikacjach powiązanych również z pobliskimi miejscowościami
Rys. 6. Wyróżnienie poziomów FRBR w danych przetworzonych do postaci ontologii FRBRoo i zaprezentowanych
w prototypowym interfejsie dostępowym bazy wiedzy
42i
Scenariuszy tego typu można wskazać więcej. Możliwe jest m.in. sugerowanie innego sposobu zapisu nazwiska autora czy też użycie w wyszukiwaniu nie tylko oficjalnego nazwiska, ale i literackiego
pseudonimu. Można również sugerować użytkownikowi obiekty powiązane w ciekawy sposób z obiektem aktualnie prezentowanym – np. przy wyświetlaniu danych na temat obrazu można wyświetlić listę
publikacji dotyczących twórczości autora tego dzieła.
43i
Podsumowanie
W niniejszej pracy przedstawiono realizowane przez PCSS w ramach projektu SYNAT podejście do agregacji, wzbogacania i integracji danych z heterogenicznych rozproszonych systemów informacji naukowej
do postaci bazy wiedzy. Zrealizowany w trakcie projektu SYNAT prototyp z powodzeniem wykorzystany został do zebrania w jednej bazie łącznie kilku milionów rekordów z kilkudziesięciu źródeł danych
– w tym bibliotek, muzeów i archiwów cyfrowych, katalogów bibliotecznych (w tym bazy NUKAT) oraz
części danych z systemu inwentaryzacji zabytków Muzeum Narodowego w Warszawie. Do integracji
danych wykorzystano ontologię FRBRoo oraz pomocnicze źródła danych takie jak Geonames, TERYT,
VIAF czy słownik JHP KABA.
Poza opracowaniem prototypowego interfejsu dostępowego do bazy wiedzy, planuje się również
stopniowe wzbogacanie funkcji portalu FBC o nowe możliwości, których implementacja możliwa będzie
dzięki powstałej bazie wiedzy i towarzyszącym jej narzędziom.
Dalsze prace badawcze i rozwojowe skupią się na przyłączaniu nowych źródeł danych i opracowywaniu zasad reprezentacji uzyskanych w ten sposób danych w bazie wiedzy, a także na nowych wizualnych interfejsach eksploracji bazy wiedzy i wykorzystywania zawartych w niej informacji w pracy
naukowców korzystających z narzędzi takich jak Wirtualne Laboratorium Transkrypcji (http://wlt.synat.
pcss.pl/). Kolejnym wyzwaniem będzie włączanie informacji z semantycznych baz danych, które PCSS
utrzymuje na potrzeby naukowych projektów humanistycznych, w ramach platformy e-humanistyki dostępnej pod adresem http://ehum.psnc.pl/.
Bibliografia
1. C. Mazurek, M. Stroiński, M. Werla, Wdrażanie regionalnych bibliotek cyfrowych w sieci PIONIER
w oparciu o środowisko dLibra, [w:] INFOBAZY 2005 – Bazy Danych dla Nauki, Gdańsk, 25–27
września 2005, Gdańsk 2005
2. C. Mazurek, M. Werla, Federacja Bibliotek Cyfrowych – studium przypadku, [w:] Biblioteki
cyfrowe, red. M. Janiak, M. Krakowska, M. Próchnicka, Warszawa 2012
3. D. Czarnocka-Cieciura [et al.], Realizacja projektu RCIN, [online], http://www.petea.home.pl/
apan/files/user_files2/iii%20spotkania_do%20publikacji/rcinapan2011_.pdf [dostęp:
26.04.2013]
4. C. Mazurek [et al.], Distributed Services and Metadata Flow in the Polish Federation of Digital,
[w:] 2011 International Conference on Information Society (i-Society), 2011
5. A. Wróbel, J. Potęga, The Dublin Core Metadata Element Set, Ver. 1.1 a potrzeby i oczekiwania
bibliotekarzy cyfrowych – analiza przypadków, [w:] Polskie Biblioteki Cyfrowe 2009, Poznań
2010
6. C. Mazurek [et al.], Architecture for Aggregation, Processing and Provisioning of Data from Hete rogeneous Scientific Information Services, [w:] Intelligent Tools for Building a Scientific Informa tion Platform: Advanced Architectures and Solutions, red. R. Bembenik [et al.], Springer Berlin
Heidelberg 2013
7. ICOM/CIDOC Documentation Standards Group and CIDOC CRM Special Interest Group, Definition
of the CIDOC Conceptual Reference Model. Version 5.0.4, [online], http://www.cidoc-crm.org/
docs/cidoc_crm_version_5.0.4.pdf [dostęp: 26.04.2013]
8. International Working Group on FRBR and CIDOC CRM Harmonisation, FRBR object-oriented
definition and mapping to FRBRer (Version 1.0.2), [online], http://www.cidoc-crm.org/docs/
frbr_oo/frbr_docs/FRBRoo_V1.0.2.pdf [dostęp: 26.04.2013]
9. IFLA Study Group on the Functional Requirements for Bibliographic Records, Functional
Requirements for Bibliographic Records. Final Report, 1997, [online], http://www.ifla.org/en/
publications/functional-requirements-for-bibliographic-records [dostęp: 26.04.2013]
44i
10. J. Walkowska, M. Werla, Advanced Automatic Mapping from Flat or Hierarchical Metadata
Schemas to a Semantic Web Ontology, [w:] „Lecture Notes in Computer Science”, vol. 7489,
Springer Berlin Heidelberg 2012
11. C. Mazurek [et al.], From MARC21 and Dublin Core, through CIDOC CRM: First Tenuous Steps
towards Representing Library Data in FRBRoo, [w:] CIDOC 2012, 2012
Abstrakty
NUKAT i Federacja Bibliotek Cyfrowych – pierwsze wyniki działań w kierunku integracji metadanych
Od 2010 roku Poznańskie Centrum Superkomputerowo-Sieciowe bierze udział w trzyletnim projekcie badawczo-rozwojowym SYNAT finansowanym przez NCBiR. W ramach tego projektu PCSS realizuje cztery etapy związane
z: agregowaniem i wzbogacaniem danych z rozproszonych usług informacji naukowej (etap A9), budowaniem na
podstawie tych danych bazy wiedzy (etap A10), długoterminowym przechowywaniem danych źródłowych (etap
A11) oraz usługami wspierającymi wykorzystanie danych źródłowych z bibliotek cyfrowych w badaniach naukowych (etap A12). W ramach dwóch pierwszych etapów, we współpracy z Centrum NUKAT, podjęto prace mające
na celu agregowanie w jednej bazie danych z katalogu NUKAT, muzealnych systemów inwentaryzacji zabytków
oraz bibliotek i muzeów cyfrowych, a następnie przetwarzanie ich do postaci semantycznej bazy danych opartej
na ontologii FRBRoo. W celu lepszej integracji danych, pochodzących z heterogenicznych źródeł, wykorzystywane były dodatkowe bazy takie jak Geonames, TERYT, VIAF czy słownik JHP KABA. Prototypowy interfejs dostępowy do zbudowanej z tych danych bazy wiedzy daje unikalną możliwość przeszukiwania oraz eksplorowania
danych nie dostępnych do tej pory w tak zunifikowanej postaci.
Celem niniejszego referatu jest prezentacja wyników opisanych powyżej prac oraz omówienie potencjalnych scenariuszy wzbogacenia na ich podstawie funkcji portalu Federacji Bibliotek Cyfrowych. Scenariusze te zakładają
między innymi sugerowanie użytkownikowi nowego kontekstu wyszukiwawczego na podstawie semantycznej
analizy zapytania, wyszukiwanie oparte na lokalizacji geograficznej, oraz szereg połączeń pomiędzy informacjami prezentowanymi w portalu FBC i dotyczącymi zbiorów bibliotek cyfrowych, a szerszymi danymi zebranymi
w bazie wiedzy, pochodzącymi ze wspominanych wcześniej heterogenicznych źródeł.
NUKAT and Polish Digital Library Federation – first results of work on metadata integration
Since 2010 Poznan Supercomputing and Networking Center has been implementing the following stages of
SYNAT - a three-year research and development project financed by Polish National Center for Research and
Development: stageA9 - aggregating and enhancing data from dispersed scholarly information resources, stage
A10 - building a knowledge database based on data from stage A9, stage A11 - long-term storage of source data,
stage A12 - services supporting the use of source data from digital libraries in scientific research.
First two stages implemented in cooperation with NUKAT Center consisted of aggregation of data from NUKAT
union catalog, museum inventory databases and digital libraries and museums followed by the transformation
of these data into a semantic database employing FRBRoo ontology. In order to improve the integration of data
collected from heterogeneous sources some additional databases were used such as Geonames, TERYT, VIAF or
KABA Subject Headings vocabulary records. The prototypical user interface for the knowledge database including all these data provides a unique opportunity of searching and exploring data never earlier available in such
unified form.
The authors present the results of work described above and discuss the scenarios of enhancing Polish Digital
Library Federation website with these newly developed tools. Scenarios cover, among else, suggesting user
a new search context based on semantic analysis of his query, offering search option based on geographical location, linking information provided by the website on digital library collections to more extensive data collected
in the knowledge database from heterogeneous sources mentioned earlier.
45i
Małgorzata Wielek-Konopka
Biblioteka Jagiellońska
[email protected]
Standardy katalogowania gwarantem jakości informacji
i filarem współpracy w katalogach centralnych
„Szaleństwo katalogowania”
Listy, spisy, wykazy, wyliczenia, inwentarze, katalogi… Człowiek tworzy je właściwie od zawsze, odczuwając potrzebę porządkowania świata. Szaleństwo katalogowania1, jak zauważa w swojej książce
Umberto Eco, dotyczy dwóch obszarów naszego życia: sfery poetyckiej – wspomnieć tu można choćby
barwne homeryckie wyliczenia i listy, na przykład katalog okrętów przedstawiony w Iliadzie czy biblijne opisy, takie jak lista przymiotów Oblubienicy z Pieśni nad pieśniami i sfery praktycznej – czego
przykładem jest zarówno katalog Biblioteki Aleksandryjskiej, jak również… lista zakupów. W pierwszym
przypadku człowiek, podejmując próbę wyliczenia czegoś, czego w rzeczywistości nie potrafi nazwać,
wypowiedzieć i policzyć, spotyka się z nieskończonością, w drugim – uporządkowanie otaczających
go przedmiotów w pewne zbiory, utworzone według określonego klucza, ułatwia mu poruszanie się
w materialnej rzeczywistości.
Chociaż wykazy literackie i listy praktyczne w swej istocie są kompletnie różne, jednak mają wspólną cechę, którą jest „uporządkowanie”, dążenie do nadania spójności tworzonemu zbiorowi poprzez
stosowanie jednolitych konstrukcji i zabiegów czy to poetyckich – jak forma literacka lub rym, czy to
praktycznych – jak porządkowanie dzieł w bibliotece według alfabetu, dziedzin wiedzy albo tworzenie
listy zakupów poprzez grupowanie produktów z uwzględnieniem ich układu na sklepowych półkach
(nabiał, mięso, warzywa). W każdym przypadku porządek rzeczy jest niezwykle istotny dla osiągnięcia
zamierzonego celu.
Katalog biblioteczny (gr. katálogos – lista) to sztandarowy przykład listy praktycznej, tworzonej
przede wszystkim po to, aby „…wiedzieć co biblioteka posiada, co się w niej znajduje”2. Stanowi realny,
uporządkowany według ściśle określonych kryteriów zbiór dokumentów zgromadzonych w bibliotece,
lub, w przypadku katalogów centralnych w wielu bibliotekach. Od czasów Joachima Lelewela funkcje katalogu bibliotecznego zostały znacznie rozbudowane. Z prostego kartkowego rejestru książek
przeobraził się w zautomatyzowany system biblioteczny o skomplikowanej strukturze informatycznej
opartej na systemie licznych powiązań, zawierający informacje o rozmaitych dokumentach nie tylko piśmienniczych, zapisanych na różnych nośnikach informacji. Zmieniło się naprawdę wiele, ale dążenie do
uporządkowania informacji jest niezmienną cechą każdego katalogu bibliotecznego. To bibliotekarskie
zamiłowanie do porządku wynika z praktyki bibliotecznej i prostego rachunku – im większy porządek,
tym mniej czasu potrzebujemy, aby odnaleźć poszukiwany dokument. Ta zasada jest odzwierciedleniem
reguł obowiązujących w życiu codziennym – dużo szybciej znajdziemy ulubioną koszulę, jeśli mamy starannie poukładane ubrania, ponieważ po otwarciu drzwi szafy od razu widać wszystkie rzeczy w niej
zgromadzone.
Im większy i bardziej zróżnicowany zbiór elementów, które chcemy „przeglądać”, tym sztuka porządkowania staje się trudniejsza. Wielu tysięcy czy milionów obiektów już nie wystarczy starannie poukła1 Tak w tłumaczeniu T. Kwietnia brzmi tytuł książki U. Eco przygotowanej z okazji cyklu imprez Vertiges de
la liste zaplanowanych przez Muzeum Luwru (listopad 2009) pod kierunkiem U. Eco. Tyt. oryg.: Vertigine
della lista.
2 J. Lelewel, Bibliograficznych ksiąg dwoje, t. 2, Wilno 1826, s. 278.
47i
dać, trzeba opracować spójny system, który ułatwi nam szybkie i bezproblemowe poruszanie się wśród
interesujących nas przedmiotów i wyłonienie spośród nich tych naprawdę cennych. „Lista praktyczna
nigdy nie jest niespójna, pod warunkiem że wyodrębnia się kryterium konstrukcji, które nią rządzi”3.
Sprawnie działający system musi opierać się na mocnych fundamentach, musi być zbudowany według
ściśle określonych zasad, uwzględniających ogólnie przyjęte normy. Ta zależność, którą obserwujemy
w różnych aspektach życia ma odniesienie również w rzeczywistości bibliotecznej. Tak jak w przypadku
budowli sposób powiązania jej poszczególnych elementów musi uwzględniać zasady fizyki i ekonomii,
tak zautomatyzowany system biblioteczny musi opierać się na przepisach katalogowania i stosowaniu
przyjętych norm.
Standardy katalogowania – rys historyczny
Od wieków filarem konstrukcji katalogów bibliotecznych są standardy katalogowania – to one odgrywają kluczową rolę w budowaniu informacji bibliograficznej, a współcześnie również prawidłowo działającego zautomatyzowanego systemu informacyjno-wyszukiwawczego. Pierwsze próby uporządkowania
i opisania zasobów bibliotecznych sięgają zamierzchłych czasów starożytnych, odległych krajów Asyrii,
Egiptu, Grecji i związane są z historią na przykład biblioteki króla Assurbanipala – księgozbioru składającego się z około 20 tys. glinianych tabliczek pokrytych pismem klinowym. Zgromadzono w niej teksty
z zakresu filologii, astronomii, matematyki, nauk przyrodniczych, historii, prawa i teologii, uporządkowane według treści i podzielone na działy. Inne przykłady to Biblioteka Aleksandryjska ze zbiorem około
700 tys. zwojów i katalogiem rzeczowym Pinakes, sporządzonym przez bibliotekarza, poetę i filologa
– Kallimacha z Cyreny, oraz Biblioteka w Pergamonie czy Biblioteka Arystotelesa i wiele innych.
Wraz z przemijaniem kolejnych epok, postępem cywilizacyjnym i wynalezieniem druku księgozbiory
powiększały się i rosła również potrzeba opracowywania coraz to doskonalszych sposobów na ich uporządkowanie i opisanie. Katalogi alfabetyczne i rzeczowe rozrastały się w oparciu o schematy postępowania wypracowane w praktyce. Z biegiem czasu dostrzeżono wagę spójności w zakresie tworzenia
opisu bibliograficznego dokumentów i pojawiła się potrzeba ujednolicenia i kodyfikacji stosowanych
zasad opracowania zbiorów. Pod koniec XIX wieku zostały opracowane zalecenia dotyczące sposobu katalogowania, tzw. instrukcja pruska Instruktionen für die alphabetischen Kataloge der preussischen Bibliotheken (1899), która znalazła zastosowanie w Polsce. Od 1917 roku prace nad ustaleniami dotyczącymi
zasad katalogowania podjął Związek Bibliotekarzy Polskich, a efektem tych prac był wydany drukiem
w 1923 roku projekt dotyczący katalogowania alfabetycznego w bibliotekach polskich. Kolejne ważne
daty związane z tworzeniem przepisów katalogowania w Polsce związane są z osobą Józefa Grycza,
który na podstawie praktyki bibliotecznej i badań porównawczych polskich i zagranicznych katalogów
bibliotecznych zaprezentowanych w artykułach: Porównanie polskich przepisów katalogowania (1926)
i Porównanie zagranicznych przepisów katalogowania (1929), opracował Przepisy katalogowania w bibljotekach polskich. 1, Alfabetyczny katalog druków (1934), które stały się obowiązujące w Polsce. Na ich podstawie powstały Skrócone przepisy katalogowania alfabetycznego (1946), które w kolejnych latach były
kilkakrotnie aktualizowane przy współudziale Władysławy Borkowskiej i Marii Dybaczewskiej.
Przełom wieków XIX i XX to okres, w którym zaczęto podejmować próby ujednolicania przepisów
katalogowania na arenie międzynarodowej. W 1876 roku ukazała się pierwsza edycja Rules for a printed
dictionary catalogue Charlesa Ammiego Cuttera, która stała się podstawą angloamerykańskich przepisów katalogowania (AACR). W 1910 roku na Międzynarodowym Kongresie Bibliograficznym w Brukseli
odbyła się pierwsza konferencja dotycząca katalogowania, a w 1927 powołana została w Edynburgu
Międzynarodowa Federacja Stowarzyszeń i Instytucji Bibliotekarskich IFLA (International Federation
of Library Associations and Institutions), która od początku swojego istnienia miała ogromny wpływ
na opracowanie międzynarodowych standardów bibliotecznych, również w zakresie katalogowania.
W 1954 roku na posiedzeniu Rady IFLA w Zagrzebiu utworzono Grupę Roboczą do Spraw Koordynacji
Zasad Katalogowania. Od tego momentu rozpoczęły się intensywne prace państw członkowskich IFLA
nad unifikacją przepisów katalogowania, czego rezultatem były „Zasady katalogowania” – tzw. „Zasady Paryskie” – przedstawione na międzynarodowej konferencji w Paryżu (International Conference on
3 U. Eco, Szaleństwo katalogowania, Poznań 2009, s. 116.
48i
Cataloguing Principles) w 1961 roku. W wyniku badań porównawczych kilku bibliografii narodowych,
prowadzonych przez ekspertów katalogowania na zlecenie UNESCO, oraz dalszych prac podjętych przez
Komisję Katalogowania IFLA, po wielu latach dyskusji i szukania konsensusu w 1974 roku ukazało się
pierwsze wydanie ISBD(M) International Standard Bibliographic Description for Monographic Publication
– międzynarodowego znormalizowanego opisu bibliograficznego książek. Kolejne lata istnienia IFLA
to zacieśnianie międzynarodowej współpracy w zakresie ujednolicania zasad katalogowania, reedycje
zaleceń ISBD, współpraca z Komitetem Technicznym ISO w tworzeniu międzynarodowych norm, stosowanych w procesie katalogowania.
Rozwiązania międzynarodowe przyjęte przez kraje członkowskie IFLA, propagowane w naszym kraju
przez Stowarzyszenie Bibliotekarzy Polskich – zrzeszone w IFLA, stały się podstawą prac normalizacyjnych prowadzonych w Polsce. Kontynuatorką ujednolicania polskich zasad katalogowania z uwzględnieniem zaleceń ISBD była Maria Lenartowicz. W 1983 roku zostały wydane Przepisy katalogowania
książek. Cz. 1, Opis bibliograficzny. Prace normalizacyjne z zakresu bibliografii i katalogowania podjął
także Polski Komitet Normalizacyjny, opracowując normę PN-N-01152-00:1982 Opis bibliograficzny.
Postanowienia ogólne i wiele innych4. Prace normalizacyjne prowadzone były w ścisłej współpracy
z Biblioteką Narodową, której jednym z głównych zadań była i jest działalność normalizacyjna. Ujednolicanie przepisów katalogowania rozszerzało się na coraz to nowe typy dokumentów – wydawnictwa ciągłe, muzykalia, mapy, dokumenty elektroniczne, itd., uwzględniało również normy transliteracji
i transkrypcji, skrótów wyrazowych, terminologię, a następnie również konwersję znaków i języki informacyjno-wyszukiwawcze.
Zachodzące na całym świecie zmiany związane z automatyzacją procesów bibliotecznych, w tym
również katalogowania, spowodowały przeniesienie katalogów kartkowych do wirtualnej rzeczywistości, z czym wiązała się konieczność przystosowania obowiązujących przepisów katalogowania do
zastosowania w komputerowych bazach katalogowych, tak aby systemy informatyczne stosowane
w bibliotekach mogły prawidłowo zinterpretować dane i wykorzystać je do budowania informacji bibliograficznej. Udaną próbę opracowania formatu danych, który umożliwiłby zautomatyzowane katalogowanie podjęła Biblioteka Kongresu (Library of Congress). Pierwszy format służący do zapisu i wymiany
danych bibliograficznych powstał w Stanach Zjednoczonych w 1965 roku i otrzymał nazwę Pilot MARC
(później zmienioną na MARC I). Równolegle prace nad formatem były prowadzone przez IFLA. W efekcie tych prac stworzony został uniwersalny format dla rekordu bibliograficznego pod nazwą UNIMARC.
W kolejnych latach obydwa formaty były rozwijane, na potrzeby poszczególnych krajów tworzono ich
odrębne wersje.
Kłopoty związane z istnieniem wielu niespójnych formatów stały się impulsem do podjęcia wysiłku utworzenia nowego, zintegrowanego formatu do katalogowania różnych zasobów bibliotecznych,
zgodnego ze standardem ISBD i normami ISO. Podsumowaniem przeprowadzonych prac był dokument: MARC format for bibliographic data, który ukazał się w 1980 roku (zmieniona wersja pt.: USMARC
format for bibliographic data, 1988). Dalsze prace nad ujednolicaniem formatów USMARC, CAN/MARC
i UKMARC doprowadziły do powstania formatu MARC 21 (MARC 21 format for bibliographic data, 1999).
Opracowania zgodnej z ISBD instrukcji tworzenia rekordu bibliograficznego przy wykorzystaniu
technik komputerowych na potrzeby polskich bibliotek akademickich podjęła się Maria Lenartowicz,
przy współpracy Anny Paluszkiewicz. W 1993 roku został wydany przez Wydawnictwo Stowarzyszenia
Bibliotekarzy Polskich Format USMARC opisu katalogowego książek. Instrukcja wypełniania rekordu w VTLS.
Szybki postęp w dziedzinie informatyki i zastosowanie w bibliotekach do opisu dokumentów i prezentacji danych bibliograficznych nowych technik informatycznych otworzyło nowe możliwości, ale
równocześnie postawiło przed bibliotekarzami wiele wyzwań. Wraz ze wzrostem tempa cywilizacyj4 Obszerny wykaz norm związanych z katalogowaniem znaleźć można na stronach Biblioteki Narodowej
w zakładce: Normalizacja http://www.bn.org.pl/dla-bibliotekarzy/nfs/normalizacja, a także w prezentacji
W. Klenczon i G. Jaroszewicz „Bibliografia i katalogowanie w normach ISO i w zbiorze Polskich Norm”
przedstawionej na Seminarium poświęconemu standardom bibliograficznym i przepisom katalogowania,
które odbyło się w Bibliotece Narodowej w Warszawie 14 listopada 2011 roku, [online], http://www.bn.org.
pl/download/document/1321438629.ppt [dostęp: 2.04.2013].
49i
nego, publikowaniem coraz większej liczby dokumentów na stale pojawiających się nowych, bardziej
wyszukanych nośnikach, tworzeniem wciąż doskonalszych narzędzi informatycznych i postępującym
procesem globalizacji oraz rozwojem społeczeństwa informacyjnego rozpędu nabrały również prace
normalizacyjne związane z katalogowaniem dokumentów gromadzonych w bibliotekach. Rozwój formatu MARC 21 dotyczył zarówno formatu rekordu bibliograficznego – pojawiły się kolejne opracowania
dotyczące opisu różnych typów dokumentów, jak również formatu rekordu kartoteki haseł wzorcowych,
rekordu zasobu, rekordu danych faktograficznych.
Standardy katalogowania – aspekt terminologiczny
Czym jest właściwie standard? Co to jest norma? Czemu służy normalizacja? Jakie są blaski i cienie stosowania standardów we współczesnym bibliotekarstwie? Chociaż na co dzień bibliotekarze posługują
się tymi pojęciami bardzo często, niejednokrotnie odnosi się wrażenie, że używane są nie do końca
świadomie lub bez uwzględnienia szerszego kontekstu. Najpierw staramy się zgłębić w gruncie rzeczy
niełatwą sztukę katalogowania, a następnie pieczołowicie wprowadzamy w życie standardy skupiając
się na obowiązku przestrzegania reguł – bez refleksji na temat praktycznego celu, któremu mają służyć
wszelkie działania normalizacyjne i wdrażanie ich do bibliotecznego świata. Dlatego warto przytoczyć
kilka definicji, z równoczesnym podkreśleniem tych elementów, które nabierają wyjątkowego znaczenia
w kontekście standardów katalogowania.
Wikipedia:
standard „wspólnie ustalone kryterium, które określa powszechne, zwykle najbardziej pożądane
cechy czegoś, np. wytwarzanego przedmiotu”5
Słownik języka polskiego PWN:
standardy „normy określające podstawowe wymagania stawiane czemuś”6
Słownik poprawnej polszczyzny PWN:
standard „przeciętna norma, przeciętny typ; wzorzec, model”7
standaryzacja „ustalając cechy pożądane przez odbiorców, wpływa na podniesienie jakości towarów,
umożliwia łatwe gatunkowanie i ułatwia obrót”8
normalizacja „wprowadzenie obowiązujących norm, przepisów w zakresie pewnych czynności,
usług, świadczeń itp.; ujednolicenie. Normalizacja ma cel dwojaki: ułatwienie i potanienie wytwarzania oraz udogodnienie użytkowania”9
Słownik współczesnego języka polskiego:
standard „typowy, przeciętny model, wzorzec, gatunek jakiegoś wyrobu odpowiadający określonym
normom, wzorzec, norma...”
standardowy „zgodny z przyjętymi normami, nieodbiegający od norm, typowy…”10
Encyklopedia PWN:
standaryzacja – normalizacja „[łac. normalis „uregulowany”], standaryzacja, opracowywanie
i wprowadzanie w życie norm; ma na celu m.in. zapewnienie funkcjonalności wyrobom i usługom,
usuwanie barier w handlu, ułatwianie współpracy naukowej i technicznej”11
5 Wikipedia. Wolna encyklopedia, [online], http://pl.wikipedia.org/wiki/Standard [dostęp: 2.04.2013].
6 Słownik języka polskiego PWN, [online], http://sjp.pwn.pl/slownik/3061827/standardy [dostęp: 2.04.2013].
7 Słownik poprawnej polszczyzny PWN, pod red. W. Doroszewskiego, [online], http://doroszewski.pwn.pl/
haslo/standard/ [dostęp: 2.04.2013].
haslo/standaryzacja/ [dostęp: 2.04.2013].
haslo/ normalizacja/ [dostęp: 2.04.2013].
10 Słownik współczesnego języka polskiego, t. 4, red. nauk. B. Dunaj, Warszawa 1996, s. 1056.
11 Encyklopedia PWN, [online], http://encyklopedia.pwn.pl/idex.php?module=haslo&id=3948277 [2.04.2013].
50i
Ustawa z dnia 12 września 2002 r. o normalizacji:
normalizacja „działalność zmierzająca do uzyskania optymalnego, w danych okolicznościach,
stopnia uporządkowania w określonym zakresie, poprzez ustalanie postanowień przeznaczonych
do powszechnego i wielokrotnego stosowania, dotyczących istniejących lub mogących wystąpić
problemów”
norma „dokument przyjęty na zasadzie konsensu i zatwierdzony przez upoważnioną jednostkę
organizacyjną, ustalający – do powszechnego i wielokrotnego stosowania – zasady, wytyczne
lub charakterystyki odnoszące się do różnych rodzajów działalności lub ich wyników i zmierzające
do uzyskania optymalnego stopnia uporządkowania w określonym zakresie”
konsensie „rozumie się przez to ogólne porozumienie charakteryzujące się brakiem trwałego
sprzeciwu znaczącej części zainteresowanych w odniesieniu do istotnych zagadnień, osiągnięte
w procesie rozpatrywania poglądów wszystkich zainteresowanych i zbliżenia przeciwstawnych
stanowisk”12
Przeglądając drukowane i internetowe słowniki, encyklopedie, glosariusze terminologiczne czy
korpusy językowe znajdziemy jeszcze wiele innych definicji standardu i normalizacji. Różnią się one
w szczegółach w zależności od sfery życia, do której będziemy odnosić te pojęcia. W kontekście tych rozważań trafne wydają się zwłaszcza takie określenia jak: „wzorzec”, „wspólnie ustalone kryterium”, „ujednolicenie”, „uporządkowanie”. Dla współczesnego bibliotekarstwa znacznie ważniejsze od samej istoty
pojęć są cele, którym mają służyć wszelkie zabiegi normalizacyjne: „podniesienie jakości”, „ułatwienie
i potanienie wytwarzania oraz udogodnienie użytkowania”, „zapewnienie funkcjonalności”, „ułatwianie
współpracy naukowej”. Znalazły one swoje odzwierciedlenie w Deklaracji Międzynarodowych Zasad Katalogowania (International Cataloguing Principles), w których jako najważniejsze zasady porządkujące
tworzenie przepisów katalogowania wymienia się przede wszystkim wygodę użytkownika, a w dalszej
kolejności: powszechne użycie, reprezentatywność, trafność, wystarczalność i konieczność, znaczenie,
ekonomię, spójność i standaryzację, integrację13.
O standardach katalogowania w praktyce
Jak już wspomniano powyżej, najistotniejszy cel działań normalizacyjnych w zakresie katalogowania
dotyczy „udogodnień użytkowania”, „podniesienia jakości” i „zapewnienia funkcjonalności”. Każdy katalog biblioteczny powinien być zbudowany tak, aby korzystający z niego użytkownik mógł dowiedzieć
się nie tylko jakie dokumenty posiada dana biblioteka, ale od razu uzyskać rzetelną, niezbyt rozbudowaną informację na temat ich powstania, zawartości, formy i sposobu udostępniania – temu właśnie
ma służyć stosowanie w praktyce standardów katalogowania. O konieczności uwzględnienia przede
wszystkim potrzeb czytelnika przy tworzeniu ujednoliconych zasad opisywania dzieł pisał już Józef
Grycz w artykule O polskie przepisy katalogowania, zwracając uwagę na to, że „nie do tego bowiem
służyć mają przepisy katalogowania, aby pewne dzieło bibljotekarz umiał skatalogować, lecz przedewszystkiem zdążać do tego powinny, aby dzieło to czytelnik mógł łatwo i pewnie w katalogu odszukać”14.
Zautomatyzowanym systemom bibliotecznym stawiane są jeszcze wyższe wymagania ze względu na
ich potencjalnie większe możliwości. Poprzez zastosowanie technologii informatycznych katalogi komputerowe powinny oferować skuteczne wyszukiwanie pożądanych informacji przy niewielkim zasobie
wstępnych danych. Poruszanie się po nich ma być na tyle intuicyjne, aby czytelnik w wielomilionowym zbiorze dokumentów mógł odszukać legendarną wśród bibliotekarzy „książkę o historii Polski
w niebieskiej okładce”. Ciągłe doskonalenie aparatu informacyjno-wyszukiwawczego przy równoczesnym uwzględnieniu potrzeb i kompetencji informacyjnych użytkowników ma na celu „zapewnienie
funkcjonalności” systemu, a tym samym ułatwienie czytelnikowi korzystania z zasobów informacyjnych.
12 Ustawa z dnia 12 września 2002 r. o normalizacji. Rozdz. 1. Przepisy ogólne. Art. 2, s. 1, [online], http://isip.
sejm.gov.pl/DetailsServlet?id=WDU20021691386 [dostęp: 2.04.2013].
13 Deklaracja Międzynarodowych Zasad Katalogowania, przetł. M. Krynicka, 2009, s. 2, [online], http://bn.org.
pl/download/document/1270034955 [dostęp: 2.04.2013].
14 J. Grycz, O polskie przepisy katalogowania, Kraków 1925, s. 11.
51i
Jak w praktyce, poprzez katalogowanie, możemy podnieść jakość przekazywanej informacji i ułatwić
użytkownikowi korzystanie z katalogów komputerowych? Przede wszystkim należy pamiętać, że przyjęty przez nas sposób opracowania dokumentu, dobór zastosowanych haseł, pól i wskaźników, uwzględnienie bądź pominięcie pewnych elementów opisu istotnie wpływa na proces prezentacji zapisanych
danych oraz sposób ich przeszukiwania. Jeśli na przykład popełnimy błąd na etapie typologii dokumentu i czasopismo opracujemy jako wydawnictwo zwarte, czytelnik wybierając wyszukiwanie przez indeks
czasopism nie odnajdzie poszukiwanego dokumentu.
Rys. 2. Niejednolity sposób prezentacji egzemplarzy
Rys. 1. Niewłaściwe indeksowanie czasopisma spowodowane błędną typologią dokumentu
Literówka w pierwszych słowach tytułu zupełnie uniemożliwi wyszukanie publikacji w indeksie
tytułowym, a także przez słowa kluczowe. Podobnie jeśli nie dodamy wariantu tytułu opracowując
książkę, której tytuł okładkowy odmienny jest od tytułu właściwego zamieszczonego na stronie tytułowej, użytkownik może uznać, że nie ma w bibliotece interesującej go publikacji. Bardzo dotkliwe dla
czytelnika jest niejednolite, niezgodne z przepisami postępowanie w przypadku wspólnych katalogów
komputerowych wielu instytutów czy filii bibliotek, zawierających informacje o egzemplarzach zlokalizowanych w różnych miejscach. Brak uporządkowania takich samych elementów powoduje chaos
i szum informacyjny. Tak się dzieje, gdy przy opisie całości dzieła wielotomowego wprowadzane są raz
rekordy zasobu z dołączonymi rekordami egzemplarzy, innym razem wyłącznie rekordy egzemplarzy.
Mniej doświadczony użytkownik otworzy wyłącznie zakładkę EGZEMPLARZE, a tym samym pominie
egzemplarze, które są w ZASOBACH. Sytuację prezentuje przykład zamieszczony poniżej – po otwarciu
zakładki ZASOBY widocznych jest kolejnych 14 egzemplarzy.
52i
Kilka przytoczonych przykładów oczywiście nie wyczerpuje wszystkich „kategorii” kłopotów, jakich
może przysporzyć bibliotekarz czytelnikowi, gdy nie przestrzega przepisów katalogowania. Stosowanie
się do przyjętych założeń, wypracowanych przez praktyków na przestrzeni wielu lat, nabiera jeszcze
większego znaczenia w przypadku zautomatyzowanych systemów bibliotecznych. Oczywiste jest, że
dają one dużo większe możliwości wyszukiwawcze, ale kryją w sobie również wiele pułapek. Podobnie
jak w nowoczesnych samochodach wyposażonych w elektronikę, tak samo w katalogu komputerowym
– dużo więcej może się popsuć, a do usunięcia usterki nie wystarczy już młotek i śrubokręt jak to było
w przypadku słynnego „malucha” czyli samochodu Fiat 126p. Skomplikowana struktura współczesnych
systemów informacyjno-wyszukiwawczych wymaga od bibliotekarzy dużej wiedzy, wzmożonej czujności i precyzji. Aby system działał sprawnie, potrzebny jest uporządkowany rekord w formacie wymiennym, takim jak MARC 21, którego bazę stanowi rzetelna informacja bibliograficzna sporządzona
zgodnie ze sztuką katalogowania i obowiązującymi zasadami, uzupełniona o liczne powiązania jakimi są
różnego typu hasła i odsyłacze. Taki rekord powinien być sam w sobie „narzędziem”, przy użyciu którego
czytelnik uzyska komplet potrzebnych informacji bez konieczności zapoznawania się z budową urządzenia.
Ale na tym nie koniec… Współczesnego czytelnika nie satysfakcjonuje już przeszukiwanie – choć
zautomatyzowanych, ale jednak pojedynczych – katalogów poszczególnych bibliotek. W erze globalizacji oczekuje katalogów zintegrowanych, zawierających dane na temat obiektów zgromadzonych
w bibliotekach na terenie całej Polski, a najlepiej świata. Łatwość przekraczania granic, zwłaszcza ta
wirtualna sprawia, że skorzystanie z dokumentów przechowywanych w najbardziej odległych miejscach
stało się możliwe. Bramą do ich odkrycia są zintegrowane katalogi komputerowe.
Jaki powinien być katalog idealny? Bez trudu można wymienić kilka cech szczególnie pożądanych.
Z pewnością powinien być kompletny, czyli zawierać opisy wszystkich dokumentów, które znajdują się
w prezentowanym przez ten katalog zbiorze. Ale jak znaleźć czas i środki finansowe na retrokonwersję
i przeniesienie opisów bibliograficznych publikacji z katalogów kartkowych do baz komputerowych, gdy
53i
trudno nadążyć z bieżącym opracowaniem? Idealny katalog powinien oprócz tego zmieścić wszystko!
Współczesny czytelnik chciałby odnaleźć w jednym, zintegrowanym katalogu całą światową produkcję wydawniczą. Tymczasem bibliotekarzy wciąż nurtuje pytanie w jaki sposób nakłonić wydawców
do przekazywania uprawnionym bibliotekom egzemplarza obowiązkowego? Równocześnie użytkownik
chce mieć wybór i możliwość zawężenia poszukiwań do wybranego kraju, określonego typu dokumentu,
języka, itd. Trudno jednak powiązać ze sobą opisy katalogowe sporządzone na dwóch krańcach świata,
nacechowane różnorodnością kulturową i kolorytem lokalnym i uniknąć przy tym dublowania metadanych i szumu informacyjnego. Doskonały katalog komputerowy powinien być wyposażony w takie
funkcje, po które łatwo sięgnąć i przy pomocy których użytkownik szybko dotrze do wybranego celu.
Ale jak wskazać właściwą drogę do każdego z wielu milionów dokumentów? Odpowiedzią na powyższe
pytania jest ciągła troska o tworzenie wzorców postępowania i zachowanie przyjętych standardów.
Zbudowanie naprawdę wartościowej bazy z kompletną i relewantną informacją bibliograficzną,
zapewniającą czytelnikowi dostęp do wiadomości wiarygodnych i spełniających kryteria naukowości
wymaga nie tylko kompetencji, ale także dostatecznych zasobów ludzkich, czasu i pieniędzy. I tutaj dotykamy kolejnych bardzo ważnych funkcji jakie mają spełniać normy i standardy – „ułatwienie i potanienie wytwarzania” oraz „ułatwienie współpracy naukowej”. Znane powiedzenie „razem możemy więcej”
okazuje się prawdziwe także w kontekście współpracy międzybibliotecznej w zakresie katalogowania.
Kooperacja jest jednak możliwa i przynosi wymierne korzyści tylko przy zachowaniu określonych reguł. Dlatego wszystkie działania normalizacyjne w kraju i na świecie zmierzają do osiągnięcia takiego
poziomu spójności w zakresie katalogowania, aby już nie tylko możliwe było łatwe odnalezienie poszukiwanego dokumentu i uzyskanie na jego temat skondensowanej informacji o jak najwyższej jakości,
ale również aby umożliwić wymianę (wielokrotne pobieranie gotowych opisów) i integrację utworzonej
informacji (scalanie katalogów) w skali krajowej i międzynarodowej. Wypracowanie standardów w zakresie wszystkich zagadnień związanych z katalogowaniem, zarówno w obrębie norm bibliograficznych
jak i norm stosowanych w komputerowych systemach bibliotecznych, to warunek konieczny uzyskania
wewnętrznej spójności, a co się z tym wiąże, umożliwienia współpracy między często bardzo różniącymi się ośrodkami informacji, jakimi są biblioteki, które kierują się własnymi regułami, mają rozmaite
zadania i cele. To właśnie dzięki dopracowaniu się wspólnych rozwiązań w postaci przepisów ISBD czy
formatu MARC 21 możliwe jest podejmowanie takich inicjatyw, jak NUKAT, KaRo, FBC, WorldCat, KVK,
Europeana i wielu innych.
Jak dużo problemów przysparza brak ujednolicenia przepisów katalogowania i unifikacji systemów
wymiany informacji nie trzeba chyba nikogo przekonywać. Przykładów na to jest wiele. Odrębność
i indywidualizm – cechy gdzie indziej tak często pożądane, w świecie zautomatyzowanych bibliotek stanowią wadę i powodują izolację. Przekonały się o tym na przykład biblioteki niemieckie posługujące się
od 1973 roku własnym formatem opisu danych MAB (Maschinelles Austauschformat für Bibliotheken).
Kiedy okazało się, że format MAB nie jest kompatybilny z formatem MARC 21 i zasadami katalogowania
AACR2, co uniemożliwiało przekazywanie opisów niemieckich do OCLC i korzystanie z zasobów amerykańskich, w 2004 roku Niemcy podjęli decyzję o przejściu z formatu MAB na format MARC 21.
Na gruncie polskim również można wskazać, bardzo dotkliwy w skutkach dla środowiska bibliotekarzy dowód na to, że wyjątkowość nie jest zaletą przy podejmowaniu wspólnych inicjatyw w zakresie
katalogowania. Zbyt duża odrębność i niewystarczający poziom unifikacji na wielu płaszczyznach przyczyniły się do podjęcia przez Bibliotekę Narodową decyzji o odstąpieniu od porozumienia w zakresie
katalogowania w Narodowym Uniwersalnym Katalogu Centralnym NUKAT. W efekcie polski katalog
NARODOWY tworzony jest bez udziału Biblioteki Narodowej.
Wspólne wypracowanie standardów, przystosowanie systemów informatycznych i akceptacja ustalonych norm to za mało, aby współpraca była możliwa i efektywna. Konieczne jest przede wszystkim
poddanie się rygorowi, przestrzeganie przyjętych procedur, czyli po prostu konsekwentne wywiązywanie się z umowy. Brak odpowiedniej wiedzy, wybiórcze lub nieumiejętne stosowanie norm może
być szkodliwe bądź wręcz przynieść efekt przeciwny do zamierzonego. Zamiast przyspieszać prace
będzie je spowalniać, zamiast spójnej i kompletnej informacji otrzymamy zbiór elementów zdublowanych, zawierających nieprawdziwe bądź niepełne dane. O tym, że współpraca nie zawsze bywa łatwa,
a niekiedy z powodu konieczności konsultacji z innymi ośrodkami, rozstrzygania spornych kwestii, bądź
54i
sprawdzania wątpliwych danych droga książki od bibliotekarza do czytelnika znacznie się wydłuża, wiedzą dobrze wszyscy uczestniczący czynnie we współtworzeniu katalogu NUKAT. Dlaczego tak się dzieje? Główna przyczyna zdarzających się niepowodzeń tkwi w nieprzestrzeganiu przyjętych standardów.
Zwrócę uwagę tylko na kilka, spośród wielu wiążących się z tym zagadnieniem kwestii. Pierwsza z nich
dotyczy nieprzestrzegania przyjętych procedur współpracy. Pomijanie sprawdzania obszaru roboczego
przy tworzeniu nowych rekordów, spory o to, kto jest odpowiedzialny za modyfikację opisu, przetrzymywanie niegotowych rekordów w obszarze roboczym, itd. – wszystko to istotnie wpływa na spowolnienie procesu opracowania dokumentów, dublowanie rekordów, które następnie muszą być usuwane
z bazy NUKAT-u i zastępowane w katalogach lokalnych. Tylko w lutym 2013 roku z bazy NUKAT-u zostało usuniętych 149 opisów bibliograficznych, które z powodu dubletów lub konieczności zmiany sposobu
opracowania zostały uznane za zbędne. W wyniku konieczności wykonywania tego typu dodatkowych
czynności koszt skatalogowania dokumentu rośnie, a opłacalność całego przedsięwzięcia maleje.
Kolejny problem to nieumiejętne stosowanie przyjętych ustaleń, które jest przyczyną wielu dubletów. Zaprezentowany poniżej przykład dotyczy stosowania nieprawidłowego zapisu daty wydania
w strefie adresu wydawniczego w sytuacji, gdy na publikacji występuje data niezgodna z faktyczną datą
wydania dokumentu. W opisywanej książce zamieszczona została data cop. 2004, przy czym było wiele
przesłanek wskazujących na to, że nie jest to faktyczna data wydania tego dokumentu. Publikacja wpłynęła do biblioteki w 2008 roku, a w bazie znajdowało się już wydanie 10 z datą wydania 2004. Ponadto
na dokumencie zamieszczono dodatkową informację „Zamówienie 2006”, która jest potwierdzeniem,
że data cop. 2004 nie jest faktyczną datą wydania tej publikacji.
Rys. 3. Opis bibliograficzny, uwzględniający wyłącznie datę copyright, która występuje w publikacji
55i
Rys. 4. Opis bibliograficzny, uwzględniający w strefie adresu wydawniczego datę copyright, występującą w publikacji, a w polu uwag faktyczną datę wydania ustaloną przez katalogującego
Rys. 6. Opis bibliograficzny, uwzględniający w strefie adresu wydawniczego faktyczną datę wydania publikacji
ustaloną przez katalogującego, a w polu uwag datę copyright z dokumentu. W oznaczeniu wydania pominięto
informację o dodruku
Opis tego dokumentu zgodnie z ustaleniami z 23.09.2008 roku, przyjętymi przez biblioteki współpracujące, powinien zawierać w strefie adresu wydawniczego obydwie daty, ze stosownym wyjaśnieniem
w polu 500:
„W sytuacji, gdy na dokumencie występuje data niezgodna z faktyczną datą wydania dokumentu
(copyright wydania oryginalnego, data druku), należy:
• w polach stałej długości podać datę faktyczną,
• w polu 260 podać datę faktyczną, ustaloną przez bibliotekarza oraz najpóźniejszą datę
z dokumentu,
• w polu 500 podać uwagę – źródło ustalonej daty”15.
Taki zapis wydaje się najbardziej przejrzysty, rekord zawiera kompletne dane, zarówno przejęte
z dokumentu, jak również faktyczną datę wydania ustaloną przez katalogującego, co pozwala jednoznacznie zidentyfikować publikację.
Rys. 5. Opis bibliograficzny, uwzględniający wyłącznie datę wydania spoza dokumentu, ustaloną przez bibliotekarza katalogującego
56i
15 Zmiany w opisie bibliograficznym dokumentów opracowywanych w katalogu NUKAT (obowiązują od
1 października 2008 r.), NUKAT, Warszawa, 23.09.2008 r., s. 2, [online], http://centrum.nukat.edu.pl/images/
stories/file/ustalenia/bibliograficzne/014_opis_bibl_zmiany_2008.pdf [dostęp: 2.04.2013].
57i
ków, warunkom technologicznym systemów oraz nowym kierunkom w zakresie standaryzacji procesu
opracowania dokumentów i być otwartym na zmiany, które pozwolą te procesy zoptymalizować, ale
dopiero wówczas, kiedy zapadnie wspólna decyzja o przyjęciu nowych rozwiązań, można wdrażać je
w życie – postępowanie wbrew obowiązującym regułom i nieprzestrzeganie „wspólnie ustalonych kryteriów” zawsze powoduje dezorientację i wprowadza chaos.
Należy zwrócić również uwagę na fakt, że w tworzeniu dużych baz danych, zawierających wielomilionowe zestawy metadanych niezwykle istotne staje się przywiązywanie należytej wagi do przestrzegania standardów związanych z poprawnym funkcjonowaniem systemów bibliotecznych. Współczesna
technika umożliwia nam stworzenie narzędzi pomocniczych, dzięki którym można zautomatyzować
wiele procesów, które wcześniej wymagały udziału człowieka. Narzędzia informatyczne potrzebują jednak obsługi ze strony osób zaangażowanych w proces budowania informacji katalogowej w postaci
wydawania jasnych, powtarzalnych komend, które komputer będzie mógł właściwie zinterpretować.
Mowa tutaj o różnorakich skryptach przygotowywanych przez informatyków, dzięki którym katalogujący zwolnieni są z wielu żmudnych czynności, np. z ręcznego kopiowania rekordów kartoteki haseł
wzorcowych do baz lokalnych. Wszystkie rekordy KHW związane z pobieranym do bazy rekordem bibliograficznym przekazywane są aktualnie przez NUKAT w plikach i automatycznie wgrywane do katalogów lokalnych bibliotek, ale aby ten proces mógł przebiegać bez zakłóceń, rekord bibliograficzny musi
zawierać symbol biblioteki, która pobrała opis do swojej bazy. W tym konkretnym przypadku zachowanie prawidłowych ustawień systemu i przestrzeganie przyjętych procedur wpływa już nie tylko na
informację o lokalizacji dokumentu, ale ma znaczenie dla zachowania spójności kartotek wzorcowych
na poziomie bazy lokalnej.
Rola standardów w integracji katalogów bibliotecznych
Rys. 7. Opis bibliograficzny z zapisem daty wydania, w którym uwzględnione są zasady z ustalenia Centrum
NUKAT z 23.09.2008 r.
Następna sytuacja wiąże się z nieodpowiednim użyciem przepisów. Na przykład, zastosowanie dla
druku nowego reguł przyjętych wyłącznie do opracowania starych druków, w procesie współkatalogowania powoduje zaburzenie komunikacji, czego rezultatem jest wielokrotna, długotrwała wymiana
uwag pomiędzy katalogującymi z różnych bibliotek i administratorami Centrum NUKAT, którzy starają
się być mediatorami w toczącym się sporze, jednak bez dostępu do dokumentu nie są w stanie rozstrzygnąć wielu kwestii. Tymczasem w przypadku tego typu wątpliwości odwołanie się do przyjętych zasad
katalogowania znacznie skraca czas opracowania dokumentu.
Wybiórcze traktowanie przepisów prowadzi do nieporozumień takich jak przypadek wydawnictwa
wielotomowego Po drogach uczonych : z członkami Polskiej Akademii Umiejętności rozmawia Andrzej M.
Kobos. W połowie lutego 2013 roku toczyła się dyskusja dotycząca zmiany sposobu katalogowania tej
publikacji i zastąpienia pięciu rekordów sporządzonych dla pojedynczych tomów jednym opisem dla
całości wydawnictwa wielotomowego. Propozycja modyfikacji została zaakceptowana pomimo obowiązującego ustalenia, które mówi, że: „podstawową metodą opisu książki wielotomowej jest sporządzenie
odrębnych rekordów dla każdego tomu”16, a zgodnie z przyjętymi dodatkowymi rozwiązaniami sporządzenie opisu całości książki wielotomowej dopuszcza się tylko w przypadku encyklopedii, słowników,
informatorów, oczywiście przy założeniu, że poszczególne tomy nie mają samodzielnych tytułów. Omawiana publikacja nie spełniała tych warunków. Po interwencji opisy zostały przywrócone, po czym…
po niespełna miesiącu – opisy usunięto ponownie, a po kolejnej interwencji, jeszcze tego samego dnia
przywrócono.
Oczywiście można, a nawet trzeba dyskutować nad słusznością przyjętych zasad, rozpatrywać poglądy wszystkich zainteresowanych, przyglądać się uważnie zmieniającym się potrzebom użytkowni16 Format MARC 21 rekordu bibliograficznego dla książki, pod red. K. Grzędzińskiej, wyd. 3, Warszawa 2012,
p. 245, s. 19.
58i
Znaczenie standardów staje się doskonale widoczne podczas przeprowadzania integracji katalogów
w ramach projektów takich jak „NUKAT – Autostrada Informacji Cyfrowej”. Kompatybilność systemów
to warunek, bez którego realizacja tego typu przedsięwzięć jest niemożliwa. Kluczowym zadaniem
w procesie scalania danych jest ich automatyczne porównanie. W wyniku sprawnego przeprowadzenia
tej operacji przy pomocy przygotowanych narzędzi informatycznych możliwe jest uzupełnienie zasobu
metadanych przy równoczesnym wyeliminowaniu powtarzających się opisów tych samych publikacji.
Tylko jednolity sposób opracowania dokumentów w różnych katalogach umożliwia poprawne zidentyfikowanie i powiązanie ze sobą właściwych rekordów. Im wyższy poziom uporządkowania, tym mniej
wątpliwości i bardziej jednoznaczne wyniki porównania.
Scalanie Komputerowego Katalogu Zbiorów Bibliotek Uniwersytetu Jagiellońskiego (KKZBUJ) i Narodowego Uniwersalnego Katalogu Centralnego NUKAT rozpoczęło się w czerwcu 2010 roku, a zakończyło w listopadzie 2012 roku, faktycznie jednak prace prowadzone były już od drugiej połowy 2009
roku i trwają nadal. Przeprowadzenie integracji baz wymagało uporządkowania metadanych w katalogu
lokalnym Biblioteki Jagiellońskiej. Konieczne było wykonanie wielu prac, które miały na celu wyeliminowanie z KKZBUJ rozbieżności i uzupełnienie brakujących elementów, potrzebnych do prawidłowego
scalenia porównywanych danych. Dodatkowo, w związku ze stwierdzonymi podczas trwania projektu nieprawidłowościami i przypadkami błędnie zastąpionych rekordów, przeprowadzone zostały prace
kontrolne, które miały na celu ocenę skali problemu i wyeliminowanie zaistniałych błędów. Chociaż ta
część projektu już się zakończyła, prace porządkowe i kontrolne cały czas trwają zarówno w Bibliotece
Jagiellońskiej, jak i w katalogu NUKAT. Wspólnie staramy się przeprowadzić niezbędne melioracje, wyeliminować dublety i podnieść jakość scalonych rekordów, dostosowując je do obowiązujących przepisów.
Nie ulega wątpliwości, że uczestnictwo w tego typu przedsięwzięciu z założenia wiąże się z pewnym ryzykiem utraty części danych i z dużym nakładem pracy, ale wzbogacenie centralnej informacji
o zasobach polskich bibliotek jest nie do przecenienia. Z perspektywy czasu i na podstawie doświadczeń
związanych z uczestnictwem w projekcie, z całą pewnością można stwierdzić, że integracja baz byłaby
o wiele łatwiejsza i efektywniejsza, gdyby poziom spójności metadanych był większy. Wiele rekordów
musiało zostać odrzuconych ze scalania ze względu na zbyt duże rozbieżności, których w sposób au59i
tomatyczny nie można było zweryfikować. Przy ręcznej kontroli i porównaniu danych katalogowych
z książką często okazywało się, że rekordy opisują ten sam dokument. Odmienny sposób opracowania niestety uniemożliwiał ich jednoznaczną identyfikację w procesie automatycznego porównania.
Co więcej, nawet przy ręcznej kontroli rekordów, z powodu niejednolicie skatalogowanych publikacji
nie zawsze możliwe było jednoznaczne stwierdzenie, czy dokument opisany w bazie lokalnej został już
opracowany w katalogu centralnym. To powodowało dublowanie opisów lub niewłaściwe ich scalanie.
Niemniej jednak wszystkie wykonane dotychczas analizy, prace kontrolne, porządkowe oraz śledzenie na bieżąco prac melioracyjnych, nieustannie prowadzonych przez administratorów Centrum NUKAT
przy udziale bibliotek uczestniczących w scalaniu danych bibliograficznych utwierdza w przekonaniu, że
bilans zysków i strat wypada korzystnie dla Biblioteki Jagiellońskiej i przystąpienie do projektu „NUKAT
– Autostrada Informacji Cyfrowej” było słuszną decyzją, a trud się opłacił. W ramach tego przedsięwzięcia zintegrowanych zostało 119 550 rekordów bibliograficznych znajdujących się w Komputerowym
Katalogu Zbiorów Bibliotek UJ z odpowiednikami, które zawiera baza NUKAT (na ogólną liczbę 1 263
981 scalonych rekordów) oraz przekazano do katalogu centralnego 55 233 opisów publikacji, które
zostały wprowadzone do KKZBUJ przed rozpoczęciem współkatalogowania i dotąd nie zostały odnotowane w katalogu centralnym (na ogólną liczbę 293 584 opisów wprowadzonych do NUKAT-u jako
rekordy nowe).
Standardy podstawą konstrukcji zautomatyzowanych katalogów bibliotecznych
Wszystkie negatywne przykłady zaprezentowane powyżej mają na celu zwrócenie uwagi na występowanie ścisłych zależności pomiędzy tworzeniem, wdrażaniem i przestrzeganiem przyjętych standardów,
a praktyką i ostatecznym kształtem produktu, jakim jest komputerowy katalog biblioteczny. Nie unikniemy ludzkiej omylności, ale świadomie stosując dobre praktyki możemy zoptymalizować działania,
podnieść efektywność i zminimalizować niepożądane skutki. Normy i zalecenia nie są wartością samą
w sobie, ale nabierają znaczenia wówczas, gdy dzięki nim realizujemy postawione sobie zadania. Znaki
interpunkcyjne takie jak średnik, przecinek czy kropka nie występują w bazach katalogowych jedynie
w funkcji estetycznej, ale pełnią określone funkcje komunikacyjne i umożliwiają właściwe zinterpretowanie i przetworzenie podanej treści przez narzędzia informatyczne.
W kontekście współczesnej biblioteki tworzenie kompletnych i spójnych katalogów komputerowych,
rządzących się jednolitymi zasadami opracowania zbiorów, to warunek konieczny sprawnego poruszania się czytelnika w przestrzeni coraz większej liczby dokumentów bibliotecznych, dostępnych w coraz
bogatszych formach, na różnych nośnikach informacji. Przestrzeganie procedur i standardów katalogowania jest kluczem do zapewnienia wysokiej jakości informacji, opracowania sprawnych mechanizmów wyszukiwawczych, a więc wysokiej jakości obsługi użytkowników bibliotek. Im większa baza, im
większe konsorcjum i liczba osób tworzących katalog, tym większa potrzeba przestrzegania przyjętych
rozwiązań. Współczesny bibliotekarz, pretendujący do roli przewodnika po zasobach wiedzy, musi mieć
świadomość tego, że budując informację katalogową wskazuje kierunek poszukiwań i to od niego zależy, czy czytelnik dotrze do celu. Standardy bibliograficzne i biblioteczne są najważniejszym elementem
konstrukcyjnym tej wyjątkowej budowli, jaką są zautomatyzowane katalogi biblioteczne.
Bibliografia
Deklaracja Międzynarodowych Zasad Katalogowania, przetł. M. Krynicka, 2009, [online], http://bn.org.
pl/download/document/1270034955 [dostęp: 2.04.2013]
U. Eco, Szaleństwo katalogowania, przekł. T. Kwiecień, Poznań 2009
Format MARC 21 rekordu bibliograficznego dla książki, pod red. K. Grzędzińskiej, wyd. 3, Warszawa
2012, [online], http://centrum.nukat.edu.pl/images/stories/file/instrukcje_procedury/MARC_21/
marc21ksiazka_www.pdf [dostęp: 2.04.2013]
A. Giermaziak, Katalogowanie – przecież to proste, [w:] „Biuletyn Informacyjny BUŁ”, [online],
nr 4/2012 (60), http://www.lib.uni.lodz.pl/bibula/bibula60/artykul.htm [dostęp: 2.04.2013]
60i
IFLA’s History, [online], http://www.ifla.org/history [dostęp: 2.04.2013]
K. Hudzik, Standardy gromadzenia i opracowania zbiorów w bibliotekach uniwersyteckich w Niemczech,
[w:] Standardy biblioteczne : praktyka, teoria, projekty, pod red. M. Wojciechowskiej, Gdańsk 2010,
s. 221–229
M. Kisilowska, Czy katalogowanie ma przyszłość? Dwugłos względnie uporządkowany, głos pierwszy,
Katalogować czy nie? Oto jest pytanie, [w:] Biblioteki XXI wieku. Czy przetrwamy?, Łódź 2006, s. 71-76,
[online], http://eprints.rclis.org/9053/1/kisilowska.pdf [dostęp: 2.04.2013]
W. Klenczon, G. Jaroszewicz, Bibliografia i katalogowanie w normach ISO i w zbiorze Polskich Norm,
[online], http://www.bn.org.pl/download/document/1321438629.ppt [dostęp: 2.04.2013]
J. Lelewel, Bibliograficznych ksiąg dwoje, t. 2, Wilno 1826
Normalizacja, [hasło w:] Encyklopedia PWN, [online], http://encyklopedia.pwn.pl/index.php?module=haslo&id=3948277 [dostęp: 2.04.2013]
Normalizacja, [hasło w:] Słownik poprawnej polszczyzny PWN, pod red. W. Doroszewskiego, [online],
http://doroszewski.pwn.pl/haslo/normalizacja/ [dostęp: 2.04.2013]
Normy, Formaty, Standardy – serwis Biblioteki Narodowej, [online], http://www.bn.org.pl/dla-bibliotekarzy/nfs/o-serwisie [dostęp: 2.04.2013]
Standard, [hasło w:] Słownik poprawnej polszczyzny PWN, pod red. W. Doroszewskiego, [online],
http://doroszewski.pwn.pl/haslo/standard/ [dostęp: 2.04.2013]
Standard, Standardowy, [hasło w:] Słownik współczesnego języka polskiego, t. 4, red. nauk. B. Dunaj,
Warszawa 1996, s. 1056
Standard, [hasło w:] Wikipedia. Wolna encyklopedia, [online], http://pl.wikipedia.org/wiki/Standard
[dostęp: 2.04.2013]
Standardy, [hasło w:] Słownik języka polskiego PWN, [online], http://sjp.pwn.pl/slownik/3061827/
standardy [dostęp: 2.04.2013]
Standaryzacja, [hasło w:] Słownik poprawnej polszczyzny PWN, pod red. W. Doroszewskiego, [online],
http://doroszewski.pwn.pl/haslo/standaryzacja/ [dostęp: 2.04.2013]
G. Tomczuk, Biblioteki starożytnych władców, [w:] profesor.pl – serwis edukacyjny, [online], http://
www.profesor.pl/publikacja,21840,Artykuly,Biblioteki-starozytnych-wladcow [dostęp: 2.04.2013]
Ustawa z dnia 12 września 2002 r. o normalizacji. Rozdz. 1. Przepisy ogólne. Art. 2, [online], http://isip.
sejm.gov.pl/DetailsServlet?id=WDU20021691386 [dostęp: 2.04.2013]
Zmiany w opisie bibliograficznym dokumentów opracowywanych w katalogu NUKAT (Obowiązują od
1 października 2008 r.), Warszawa 2008, [online], http://centrum.nukat.edu.pl/
images/stories/file/ustalenia/bibliograficzne/014_opis_bibl_zmiany_2008.pdf [dostęp: 2.04.2013]
Abstrakty
Standardy katalogowania gwarantem jakości informacji i filarem współpracy w katalogach centralnych
Tworzenie katalogów, list, uporządkowanych według określonych reguł zbiorów informacji towarzyszy człowiekowi właściwie od początku świata. Było i jest elementem kultury człowieka, sposobem na uporządkowanie
otaczającej nas rzeczywistości, co umożliwia poruszanie się w świecie w ogóle, w każdym z jego wymiarów.
W kontekście współczesnej biblioteki tworzenie spójnych katalogów komputerowych, rządzących się jednolitymi
zasadami opracowania zbiorów to warunek konieczny sprawnego poruszania się czytelnika w przestrzeni coraz
większej liczby dokumentów bibliotecznych dostępnych w coraz bogatszych formach, na różnych nośnikach informacji. Po co komu standardy? Na to pytanie powinien odpowiedzieć sobie współczesny bibliotekarz pretendujący do roli przewodnika po zasobach wiedzy. Przestrzeganie procedur i standardów katalogowania jest kluczem
do zapewnienia wysokiej jakości informacji, opracowania sprawnych mechanizmów wyszukiwawczych, a co za
61i
tym idzie wysokiej jakości obsługi użytkowników bibliotek. Proces tworzenia, a zwłaszcza wdrażania standardów
to trudna sztuka, zwłaszcza gdy chcemy je zastosować na szerokim polu współpracy rozwijającej się między
bibliotekami w skali ogólnokrajowej czy międzynarodowej. Im większe konsorcjum i liczba osób tworzących katalog, tym większa potrzeba przestrzegania przyjętych rozwiązań, czego dowodem jest między innymi codzienna
praktyka współkatalogowania w Narodowym Uniwersalnym Katalogu Centralnym NUKAT. Ścisłe podporządkowanie się przyjętym standardom nie tylko przyczynia się do tworzenia bieżącej, profesjonalnej, uporządkowanej,
a przez to użytecznej informacji bibliograficznej, ale także umożliwia współdziałanie w zakresie katalogowania
oraz realizowanie projektów, takich jak na przykład „NUKAT – Autostrada Informacji Cyfrowej”, dzięki którym budowane są bazy wiedzy o wielotysięcznych, a nawet wielomilionowych zbiorach bibliotecznych.
Leszek Śnieżko
Centrum NUKAT
[email protected]
Cataloging standards as a guarantee of information quality and a pillar of cooperation in the union catalogs
The construction of catalogs or lists arranged with specific principles has accompanied mankind from its beginning, being a part of culture and a method for organizing the world and helping people to move around it.
In contemporary library context coherent library catalogs built with consistent cataloging rules become an indispensable condition for successful use of quickly growing and extremely diversified library resources by library
users.
Who needs standards? Contemporary librarians perceived as guides to knowledge resources should know the answer to this question. Complying with cataloging procedures and standards is a key to high-quality information,
development of efficient search tools and professional services offered to library users. The development and
implementation of standards is very difficult if they are to be used in library cooperative projects on a national
or international level. The larger the consortium and the number of catalogers building the database, the more
urgent the need to comply with shared rules, which is clearly visible in shared cataloging performed in NUKAT
union catalog of Polish research libraries. Following shared standards does not only help to build current, professional, ordered and useful bibliographic information, but also enables librarians to develop shared projects such
as „NUKAT - Digital Information Highway” which enhance access to centralized information on large, geographically dispersed library resources.
62i
Konferencja podsumowująca efekty kilkuletniej pracy nad realizacją programu „NUKAT – Autostrada
Informacji Cyfrowej” jest świetną okazją nie tylko ku temu, aby spojrzeć w przeszłość i oceniać dotychczasowe osiągnięcia, lecz również, aby spojrzeć w przyszłość. W ostatnich latach wykonaliśmy ogromną
pracę i jej efekty zasługują na bardzo wysoką ocenę, przed nami stoją jednak kolejne ważne wyzwania.
Aby zrozumieć ich wagę, zacznijmy od spojrzenia na to, co obecnie dzieje się w świecie katalogowania.
Jakie zmiany następują już teraz oraz jakich możemy spodziewać się w najbliższej przyszłości? Przegląd
ten należy rozpocząć od modelu FRBR (Functional Requirements for Bibliographic Records), który ma
na nowo zdefiniować bibliograficzne uniwersum. Chociaż funkcjonuje on już od około piętnastu lat,
zaliczam go do nowości, ponieważ dopiero teraz przestaje być traktowany jako model czysto teoretyczny i wchodzi do bibliotekarskiej praktyki. Następny punkt to „Deklaracja międzynarodowych zasad
katalogowania”. Dokument ten ma zastąpić tzw. „Zasady paryskie” z 1961 r., które postrzegane były
jako fundament międzynarodowej standaryzacji katalogowania. Bibliotece Narodowej zawdzięczamy
tłumaczenie tego dokumentu na język polski, mam jednak wrażenie, że mimo to nie funkcjonuje on
w świadomości polskich bibliotekarzy. Warto jednak zwrócić na niego uwagę. Są tam sformułowane
istotne wytyczne, na pozór oczywiste, jak np. to że w naszej pracy powinniśmy kierować się wygodą
użytkownika, o której jednak często zdarza się nam zapominać. Trzeci punkt to RDA (Resource Description and Access), zasady katalogowania, które nie bezpodstawnie aspirują do roli światowego standardu
katalogowania. Już w tym roku staną się obowiązującym standardem w wielu czołowych bibliotekach
na świecie, a lista bibliotek deklarujących chęć wdrażania RDA w następnych latach również jest pokaźna. Do tematu RDA jeszcze wrócę, a teraz następny punkt, Linked Data, czyli technologia, która ma
odmienić oblicze Internetu. Nie została ona stworzona ani przez bibliotekarzy, ani dla bibliotekarzy,
szybko jednak stała się bardzo popularna w naszym środowisku. Wielu w tej technologii widzi naszą
przyszłość, ma to być sposób na włączenie danych bibliotecznych do światowego obiegu informacji. I na
koniec BIBFRAME (Bibliographic Framework Transition Initiative), projekt zainicjowany przez Bibliotekę
Kongresu, którego celem jest zastąpienie formatu MARC, formatem opartym na wspomnianej przed
chwilą technologii Linked Data.
Tak w ogólnych zarysach przedstawia się lista nowych zjawisk w dziedzinie katalogowania, które
w najbliższych latach będą kształtować nasz warsztat pracy. Podsumowując, jesteśmy świadkami wprowadzania nowych zasad katalogowania oraz powstawania nowego formatu. Zmiany można by nazwać
rewolucyjnymi, gdyby nie to, że tempo ich wdrażania kojarzy się raczej z ewolucją. Ze względu na czas
jaki mam do dyspozycji, nie jestem w stanie szczegółowo przeanalizować potencjalnego wpływu tych
zmian na kształt katalogu NUKAT. Muszę ograniczyć się do przedstawienia kilku zagadnień, które wydają mi się istotne, głównie z tego względu, że związane z nimi problemy mogą i powinny być rozwiązane
już teraz, w celu lepszego przystosowania naszych danych do ewentualnego wdrażania nowych zasad
katalogowania lub technologii Linked Data.
Chciałbym jednak zacząć od postawienia pewnego pytania, które nurtuje mnie od dłuższego czasu.
Czy my, polscy bibliotekarze, jesteśmy zainteresowani tymi zmianami? Dlaczego wyraźnie widoczne
w świecie bibliotekarskim dążenie do wprowadzenia nowych zasad katalogowania w Polsce pozostaje
niezauważalne? Czy problemy, które skłoniły innych do działania, u nas nie występują?
Zastanówmy się, dlaczego tak wiele bibliotek decyduje się na wdrażanie RDA? Powodów, dla których
zdecydowano się na stworzenie nowego standardu katalogowania było oczywiście wiele, w tej chwili
63i
chciałbym skupić się na jednym z nich, który wydaje mi się szczególnie istotny. AACR (Anglo-American
Cataloguing Rules) zostały stworzone w zupełnie innej rzeczywistości niż ta, w której obecnie funkcjonujemy. Biblioteki katalogowały głównie tradycyjne typy dokumentów (książki, czasopisma) i pod tym
kątem sformułowane były zasady. Z czasem, gdy zaczęły pojawiać się nowe typy dokumentów, konieczne okazało się dodawanie kolejnych rozdziałów, jak np. rozdziału dla dokumentów elektronicznych.
W latach 90-tych zauważono jednak, że i to nie wystarcza. Rzeczywistość bibliograficzna stawała się
coraz bardziej skomplikowana. Coraz częściej pojawiały się dokumenty niedające się zaklasyfikować
w prosty sposób jako wydawnictwo zwarte, ciągłe, dokument kartograficzny itp., w związku z czym
skatalogowanie jednego dokumentu wiązało się z koniecznością korzystania z kilku rozdziałów jednocześnie.
RDA ma w zdecydowany sposób rozwiązać tego typu problemy. Dzięki wdrożeniu modeli FRBR
i FRAD (Functional Requirements for Authority Data), RDA wprowadza jednolite zasady katalogowania,
umożliwiające opisanie wszystkich typów dokumentów; wszystkich, czyli zarówno tych, które już teraz
trafiają do bibliotek, jak również tych, które pojawią się w przyszłości. Czy nasza sytuacja różni się od
sytuacji bibliotekarzy amerykańskich lub brytyjskich? Moim zdaniem niewiele. Wprawdzie nie korzystamy z AACR2, ale na naszych biurkach spoczywa całkiem pokaźny stos książek, których tytuł zaczyna
się od słów „Format MARC 21 rekordu bibliograficznego dla …”. Być może jednak w większym stopniu
niż nasi amerykańscy i brytyjscy koledzy poruszamy się w kręgu tradycyjnych zasobów i nie jesteśmy
zmuszani do takiego jak oni „żonglowania” formatami, ponieważ nie skłoniło nas to jeszcze do podjęcia
próby opracowania skonsolidowanych zasad katalogowania. Nie sądzę jednak, by sytuacja taka mogła
trwać w nieskończoność. Wkrótce również my staniemy w obliczu konieczności masowego katalogowania blogów, podcastów, webcastów i różnych nowych typów zasobów, o których w tej chwili nawet
nie myślimy. Jaką decyzję podejmiemy, mając do wyboru pisanie kolejnych formatów lub wdrożenie
skonsolidowanych zasad katalogowania?
Postawmy sobie teraz kolejne pytanie. Czy w momencie, kiedy my będziemy gotowi na zmiany, gotowe będą na nie również nasze dane? Jak już wspomniałem, podstawą RDA są modele FRBR i FRAD.
Należy więc oczekiwać, że również w naszym przypadku wspomniane modele będą podstawą skonsolidowanych zasad. Czyli należy doprecyzować postawione przed chwilą pytanie, czy nasze dane są
przygotowane na eferberyzację? Jestem skłonny zaryzykować udzielenie na to pytanie odpowiedzi
twierdzącej, chociaż z pewnymi zastrzeżeniami. Zacznijmy od plusów, które zresztą zdecydowanie przeważają nad minusami. Oczywiście na pierwszym miejscu należy wymienić kartoteki haseł wzorcowych.
Nad tym punktem nie będę się jednak dłużej zatrzymywać. Mam nadzieję, że po 20 latach funkcjonowania Centralnej Kartoteki Haseł Wzorcowych, zagadnienie to nie wymaga dłuższych komentarzy. Nieco
więcej uwagi chciałbym poświęcić następnemu punktowi, czyli tytułom ujednoliconym. Problem stosowania tytułów ujednoliconych jest różnie rozwiązywany w różnych katalogach. My zdecydowaliśmy
się na stosowanie tych tytułów w bardzo szerokim zakresie. Poza nielicznymi wyjątkami tworzone są
one zawsze, gdy dysponujemy kilkoma tłumaczeniami tego samego dzieła, lub gdy tytuł ulegał zmianie.
Moim zdaniem była to słuszna decyzja, która może pozytywnie wpłynąć na możliwość wykorzystywania naszych danych, nie tylko w przypadku ewentualnej eferberyzacji. Dodatkowym elementem sprzyjającym przejrzystej organizacji zeferberyzowanego katalogu jest stosowanie haseł dla współtwórców
z oznaczeniem relacji zachodzącej między daną osobą lub instytucją a katalogowanym zasobem (czyli
to co nazywamy oznaczeniem formy odpowiedzialności). Przechodząc do minusów, chciałbym zauważyć, że pewnym problemem może okazać się brak rekordów dla tytułu dzieła. Dzieło zgodnie z modelem
FRBR nie posiada cechy „język”, tymczasem nasze tytuły ujednolicone posiadają podpole $l, co oznacza,
że powiązane są nie z dziełem, lecz realizacją. Powszechnie stosowaną praktyką jest tworzenie tytułu
ujednoliconego bez podpola językowego dla oryginalnej wersji językowej.
100 1@ $a Mickiewicz, Adam $d (1798–1855). $t Pan Tadeusz $l (pol.)
zamiast
100 1@ $a Mickiewicz, Adam $d (1798–1855). $t Pan Tadeusz
64i
W katalogu NUKAT tytuły ujednolicone bez podpól językowych są wprawdzie tworzone, wykorzystywane są jednak jako hasła związku w rekordach dla różnych form adaptacji danego dzieła.
245 00 $a 30 door key $h [Film] = $b Ferdydurke / $c screenplay by Joseph Kay, John Yorick,
Jerzy Skolimowski ; prod. and dir. by Jerzy Skolimowski.
700 1@ $a Gombrowicz, Witold $d (1904–1969). $t Ferdydurke
Drugi problem, na który chciałbym zwrócić uwagę, choć ma on znacznie mniejsze znaczenie, to stosowanie wyłącznie jednego oznaczenia formy odpowiedzialności dla współtwórców. Nie ma to może
większego znaczenia dla eferberyzowania katalogu, może jednak w pewnych sytuacjach ograniczać
użytkownikom możliwość dotarcia do pełnej informacji.
245 00 $a Absolute power $h [Film] = $b Władza absolutna / $c dir. by Clint Eastwood ; screenplay
by William Goldman.
NUKAT:
700 1@ $a Eastwood, Clint $d (1930– ). $e Reż.
Library of Congress:
700 1@ $a Eastwood, Clint, $d 1930– $e direction, $e production, $e cast.
Eferberyzacja to jednak nie wszystko. Obecnie dąży się do tego, aby dane zapisywane w rekordach
były czytelne nie tylko dla człowieka, ale również dla komputerów. Oznacza to, że informacje, które
dotychczas zapisywaliśmy w postaci wolnej frazy, muszą być zapisywane w sposób ustrukturyzowany.
Zagadnienie to również jest zbyt szerokie, aby można było omówić je teraz w pełnym zakresie. Problem ten przedstawię więc w oparciu o rekordy dla nazw osobowych.
Obecnie dane o osobach zapisywane są w polu 667 oraz w podpolu $b pola 670. Zapisy te mają
postać niesformalizowaną i automatyczne przetwarzanie tych danych jest praktycznie niemożliwe.
W ramach prac nad RDA dostrzeżono potrzebę zmiany tego stanu rzeczy. W związku z tym format MARC
został rozbudowany o kilka dodatkowych pól, w których informacje dotyczące osoby, dla której tworzony jest rekord mają być zapisywane w bardziej sformalizowany sposób.
370 Associated Place
371 Address
372 Field of Activity
373 Associated Group
374 Occupation
375 Gender
376 Family Information
377 Associated Language
378 Fuller Form of Personal Name
Nie będę szczegółowo przedstawiać wszystkich tych pól. Zasadę ich funkcjonowania przedstawię na
przykładzie pola 370.
100 1@ $a Gombrowicz, Witold $d (1904–1969).
370 @@ $a Małoszyce, Polska $b Vence, Francja, urodzony w Małoszycach, zmarły w Vence
370 @@ $e Polska $s 1904 $t 1939
370 @@ $e Argentyna $s 1939 $t 1963
370 @@ $e Niemcy $s 1963 $t 1964
370 @@ $e Francja $s 1964 $t 1969 przebywał w Polsce w latach 1904–1939, w latach 1939–1963
w Argentynie, w latach 1963–1964 w Niemczech i w latach 1964–1969 we Francji
65i
Jak widać, w tym polu możemy w czytelny dla komputerów sposób zapisać informacje dotyczące
miejsc związanych z życiem Witolda Gombrowicza. Podpola $a i $b dotyczą miejsca narodzin i śmierci, w podpolu $e podaje się miejsce pobytu. W podpolach $s i $t zapisujemy daty pobytu danej osoby
w danym miejscu. To jest oczywiście sytuacja idealna. Na tym przykładzie chciałem przedstawić możliwości, jakie obecnie oferuje format MARC, nie oznacza to jednak, że obecnie powinniśmy szczegółowo
wypełniać wszystkie dostępne w formacie pola i podpola. Nie chodzi o to, żeby zwiększyć nakład pracy
nad rekordem, ale o to, żeby zmienić tryb wprowadzania danych do rekordu.
Na zakończenie, aby jeszcze wyraźniej pokazać, w którym kierunku zmierza myślenie nad sposobem opracowywania danych bibliograficznych, chciałbym zaprezentować model Aspect-Unit-Quantity, nad którym pracuje specjalna grupa robocza (Task Force on Machine-Actionable Data Elements in
RDA Chapter 3), powołana przez American Library Association. Celem działalności tej grupy jest ocena
struktury danych opisywanych w rozdziale trzecim RDA, czyli dotyczącym fizycznego opisu zasobów.
Stwierdzono, że podawanie informacji dotyczących np. liczby stron, wymiarów dokumentu itp. w postaci niesformalizowanej jest sprzeczne z aktualnymi tendencjami do przekształcania danych do postaci
czytelnej dla komputerów. Po dokładnym przeanalizowaniu tych danych uznano, że można wyodrębnić
trzy elementy pozwalające wprowadzić sformalizowany zapis. Pierwszy element, który otrzymał nazwę
Aspect, informuje o tym, jaki aspekt opisu fizycznego jest rejestrowany, czyli np. wymiar, wysokość itp.
Drugi element to unit, czyli jakimi jednostkami się posługujemy, i trzeci Quantity, czyli liczba danych
jednostek.
nie obowiązującymi w katalogu NUKAT. Chciałbym spróbować ocenić jak istotne są to różnice i jaki wpływ na
funkcjonowanie katalogu centralnego może mieć dostosowanie naszych zasad do tych światowych standardów.
NUKAT and new cataloging trends
The year 2013 will be very important for international library community. First, new cataloging principles, known
as Resource Description and Access (RDA) will become a cataloging standard in such libraries as Library of Congress, U.S. National Agricultural Library, National Library of Medicine, British Library, Library & Archives Canada,
National Library of Australia. Many other libraries are going to implement RDA for the coming years. Second,
considerable attention will be drawn to the development of Bibliographic Framework Transition Initiative (BIBFRAME) project, initiated by the Library of Congress last year, which is aimed at replacing MARC format with
a new format better adapted to the needs of the library community.
The author discusses main principles of RDA and BIBFRAME and compares them to the principles currently followed in NUKAT database. He attempts to evaluate the significance of any differences noticed and potential
impact of the implementation of new standards on the development of Polish union catalog.
Aspect: height
Unit: centimeters
Quantity: 23
Propozycja ta spotkała się z bardzo przychylnym przyjęciem ze strony Europejskiej Grupy RDA (EURiG). Nie tylko zaakceptowano zaproponowane rozwiązanie, ale również zasugerowano prowadzenie
dalszych badań w celu wytypowania kolejnych elementów, które będzie można w podobny sposób
sformalizować.
Niedawna decyzja Centrum NUKAT o wprowadzeniu rekordów dla nazw wydawców doskonale wpisuje się w ten nurt. Uzupełnienie wpisywanych ręcznie danych o kontrolowane kartoteką hasło również
zwiększa możliwości automatycznego przetwarzania rekordów, a przy okazji oferuje użytkownikom
nowe możliwości przeszukiwania katalogu.
W podsumowaniu chciałbym stwierdzić, że dysponujemy katalogiem, który dzięki starannie opracowywanym rekordom oferuje nam ogromne możliwości działania. Musimy być jednak bardziej otwarci
na te nowe możliwości, podejmując decyzje musimy uwzględniać fakt, że nasze dane wkrótce mogą
przestać być wyłączną własnością bibliotekarzy. Nie powinniśmy więc patrzeć na nie przez pryzmat
przydatności w procesie katalogowania, lecz brać pod uwagę również możliwość wykorzystania ich
w inny sposób, również taki, którego w tej chwili nie jesteśmy w stanie przewidzieć.
Abstrakty
Bieżący rok będzie bardzo istotny dla światowego bibliotekarstwa. Przede wszystkim dlatego, że nowe zasady
katalogowania, znane jako Resource Description and Access (RDA), powinny stać się ostatecznie obowiązującym
standardem katalogowania w takich bibliotekach jak Library of Congress, U.S. National Agricultural Library, National Library of Medicine, British Library, Library & Archives Canada, National Library of Australia. Wiele innych
bibliotek przygotowuje się do wdrożenia tych zasad w następnych latach. Ponadto bibliotekarze z zainteresowaniem będą śledzić rozwój prac prowadzonych w ramach, zainicjowanego w ubiegłym roku przez Bibliotekę Kongresu, projektu Bibliographic Framework Transition Initiative (BIBFRAME), który ma doprowadzić do zastąpienia
formatu MARC formatem lepiej przystosowanym do aktualnych potrzeb środowiska bibliotekarskiego. Celem
prezentacji jest porównanie głównych założeń, na których opierają się RDA oraz BIBFRAME, z zasadami aktual-
66i
67i
Henryk Hollender
Biblioteka Uczelni Łazarskiego w Warszawie
[email protected]
Katalogi centralne: aspekty polityczne
Nie rozmawiajmy o polityce
Badając jakość rozwiązań administracyjnych, organizacyjnych, naukowych, informacyjnych itp., pytamy
o ich kontekst polityczny. Termin „polityczny” wskazuje na skalę zjawiska, którym chcemy się zajmować.
Jest oczywiste, że kiedy mówimy o czyimś warsztacie (dosłownie i w przenośni), posłużymy się raczej
pojęciem „organizacji pracy”. W instytucji z kolei zapytamy o to, jak jest zarządzana. Kiedy natomiast
przyglądamy się większej społeczności, właściwym terminem jest polityka. Kontekst polityczny ma
miejsce wtedy, gdy jest misja do spełnienia czy strategia do realizacji; kiedy jest wielu interesariuszy
i mogą być realizowane wielorakie cele, a w grę wchodzą liczne instytucje, władza, wspólne dobro
i środki itp. Polityka jest wszechobecna.
Konieczność mówienia o polityce jest chętnie kwestionowana w dyskursie publicznym. Znajdujemy
się pod presją stereotypów, które powiadają nam: „nie upolityczniajmy tej sprawy”. Polityka jest chętnie mylona z ideologią albo z partyjnością („partyjniactwem”). Tym samym budzi niechęć. W kulturze
masowej potrzebę „rozmowy o polityce” akceptuje się wtedy, kiedy coś „nie idzie”. W powszechnej świadomości nie ma czegoś takiego jak działanie polityczne obywatela. Ale politycy używają chętnie tego
terminu i jest on dobrze zakorzeniony. Dla przykładu możemy wymienić Radę Polityki Pieniężnej, organ
decyzyjny Narodowego Banku Polskiego, który prowadzi – bo trzeba to robić w skali kraju – „politykę
monetarną, czyli systematyczne działania, mające na celu zapewnienie stabilności cen. (…) Oddziałuje
ona na poziom podaży pieniądza oraz na kursy walutowe”1.
A czym mogłaby być polityka informacyjna o analogicznym usytuowaniu w obrębie instytucji państwowych? Tu musimy wyjść od definicji w języku angielskim, która powiada, że jest to „zestaw praw
publicznych, regulacji i wytycznych, które pobudzają, ograniczają lub ustanawiają wytwarzanie, używanie, przechowywanie informacji, dostęp do niej, porozumiewanie się za jej pomocą i jej rozpowszechnianie. Zawiera się w niej zatem każda czynność polegająca na podejmowaniu decyzji na skalę społeczną,
do której niezbędny jest przepływ informacji i jej przetwarzanie”2. W Polsce szerzej rozpowszechnione
jest pojęcie public relations (PR), które stanowi zapewne szczególny przypadek polityki informacyjnej
– mianowicie marketing określonej instytucji. Możemy jednak z łatwością wyobrazić sobie politykę
informacyjną, w ramach której funkcjonuje krajowy system informacji, a w nim katalog centralny. Takie zagadnienia jak organizacja i ekonomika katalogowania, zasady informacji i udostępniania zbiorów
czy sposoby odzwierciedlenia spuścizny dokumentarnej w zasobach cyfrowych byłyby rozwiązywane
w sposób odpowiednio ogólny i dalekosiężny, czyli polityczny.
Tak więc Narodowy Uniwersalny Katalog Centralny może być postrzegany i badany jako instytucja
polityczna. Ujednolicenie zasad katalogowania, usługi typu współkatalogowanie czy informacja naukowa, zasady finansowania katalogu, traktowanie materiału zawartego w katalogu jako dóbr kultury,
1 Wikipedia, http://pl.wikipedia.org/wiki/Rada_Polityki_Pieni%C4%99%C5%BCnej, [dostęp 7.03.2013].
2 Information policy can be defined as the set of all public laws, regulations and policies that encourage,
discourage, or regulate the creation, use, storage, access, and communication and dissemination of infor mation. It thus encompasses any other decision-making practice with society-wide constitutive efforts
that involve the flow of information and how it is processed. Wikipedia, http://en.wikipedia.org/wiki/Infor mation_policy, notowane 7 marca 2013.
69i
wartości, które towarzyszyły zakładaniu katalogu, takie jak typowe w bibliotekarstwie: kompletność,
obiektywizm i neutralność – wszystkie te zjawiska należą nie tylko do kultury, ale i do polityki informacyjnej.
Search experience
Polityczne będą więc pytania o kształt katalogu oraz wszelkie wybory i decyzje nadające mu określone
kierunki rozwoju. Katalog jest wszak produktem o określonych walorach użytkowych, grupie celowej
i właściwościach bibliograficznych, takich jak zasięg i zakres. Projektanci i wytwórcy katalogu określają
jego strukturę chronologiczną, geograficzną, językową, relacje między zawartością a domniemaną całością, którą katalog mógłby objąć, itd.
Katalog jest całością i odwzorowaniem większej całości; zawiera w sobie określoną liczbę narracji
i sam nią jest. Katalog krajowy stanowi mapę kultury, i to o światowym kontekście. Może przecież służyć realizacji zasady, że książki wydawane w danym kraju w nim właśnie powinny być po raz pierwszy
katalogowane, może definiować centrum i peryferia kręgu cywilizacyjnego, do którego się odnosi. Realizacja tych zasad wykorzystuje typowe dla katalogu narzędzia, zwłaszcza takie jak język haseł przedmiotowych i klasyfikacja. Dość powiedzieć, że hasła przedmiotowe nadawane utworom literackim mogą
odzwierciedlać ich treść w sposób powierzchowny i ogólnikowy, tak jak w Polsce, albo penetrować ją
tak, jakby przedmiot utworu beletrystycznego był realny – jak to się dzieje m.in. w tradycji amerykańskiej, ucieleśnionej w Library of Congress Subject Headings. Dalej, brak symboli klasyfikacji w katalogu
krajowym ma określone konsekwencje dla możliwości oceny czy doboru polskiego piśmiennictwa według kryteriów rzeczowych; niewątpliwie konieczność nadawania symboli klasyfikacji na nowo książkom, które w Polsce już je mają – w katalogach lokalnych – jest pewnego rodzaju stratą polityczną. Jak
ukazać katalog jako dobro kultury, i to „narodowej”? Jak przedstawić użytkownikowi search experience
związane z posługiwaniem się tym właśnie katalogiem, jak określić jego unikalność? Katalogi często
prezentują się użytkownikom za pomocą elokwentnych wstępów, z prezentacją stojących za nim podmiotów i celów strategicznych. Wstępy te tworzą wizerunek kraju, który takiego katalogu potrzebował,
i kultury bibliograficznej, która powołała go do życia.
Jak nasz NUKAT prezentuje się wśród innych katalogów, jakiej polityki jest wytworem? Nie sięgając
po całościowe oceny, musimy odnotować, że ma on interesującą i wiele mówiącą strukturę chronologiczną.
Record by publication date
NUKAT
WorldCat
by 1500
0,04
0,18
1501–1600
0,43
0,44
1601–1700
0,98
1,02
1701–1800
0,36
2,13
1801–1900
5,79
8,93
1901–2000
92,4
87,30
Tab. 1. Struktura chronologiczna katalogu centralnego – porównanie katalogów NUKAT i WorldCat w poszczególnych okresach według daty wydania i przypisanych im wielkości „zbioru”, określonych procentowo jako część
całości. Zestawienie traktuje zapisy do roku 2000 jako 100%, pomijane są lata od 2001 jako najszybciej przyrastająca część obu katalogów. Źródło: opracowanie własne na podstawie trybu wyszukiwania zaawansowanego
w obu katalogach, styczeń 2013.
70i
Widać tu daleko posuniętą zbieżność w obrębie większości stuleci – niespodziewaną w obliczu faktu,
że NUKAT jest tworzony od 2002 r. (ostatnio – ze stopniowym włączaniem zapisów z lat 1994–2001),
zaś na WorldCat złożyły się tysiące bibliotek, katalogujących od lat 60-tych XX w. Widać też, że zespoły
katalogujące stare druki nie dotarły jeszcze do XVIII w., co jest decyzją polityczną: zaczęły od inkunabułów i druków XVI w., bo te uchodzą za wytwór klasycznego okresu „czarnej sztuki”, i dopiero później
zajmą się szerzej stuleciem, które z powodów historycznych i językowych powinno dziś mieć dla nas
większe znaczenie niż wcześniejsze. „Opóźniony” jest też na razie wiek XIX.
Polityczny czyli kulturowy
Jest więc katalog centralny wytworem powszechnie przyjętej wizji dziejów, w tym zwłaszcza – kultury
narodowej. Szukajmy zatem dalszych składników jego tożsamości. Czy przejmuje na przykład znamiona
kultury popularnej, jaka kształtuje – to przecież nieuniknione – jego odbiorców i wytwórców? Spójrzmy
na jakiś termin, z którym łatwo się dziś zetknąć w Polsce, choćby „in vitro”. Jeśli szukamy tej frazy jako
tematu, to otrzymujemy zaledwie jedną książkę, i widząc, że to przecież nie o to chodziło, czujemy się
bezradni, bo system nie podsuwa nam odsyłacza. Szukając intuicyjnie, znajdujemy „zapłodnienie in
vitro” i oczywiście zgadzamy się, że jako temat języka haseł przedmiotowych jest to lepszy wybór. Dlaczego jednak system w ogóle odpowiedział na „in vitro”? W wyszukanej książce (Agnieszka Mielczarek:
Ocena potencjału remineralizacyjnego ludzkiego szkliwa…, Warszawa 2012) in vitro jest przywołane
jako technika laboratoryjna; co więcej, zostaje to odzwierciedlone hasłem „gatunek/forma” z jhp MeSH,
co wydaje się absurdem, ale tym razem bez żadnego już chyba oblicza kulturowego. Ma je natomiast
podjęta przez katalogującego, zapewne nieświadomie, próba ukrycia niepożądanego – jego zdaniem?
– wątku w polskim dyskursie publicznym3.
Trzeba podkreślić, że nie mówimy tu już o katalogu jako o wytworze pewnych zasad zawodowych,
ale o tym, w jaki sposób szeroko rozpowszechnione pojęcia i praktyki komunikacyjne wpływają na decyzje pracowników bibliotek, zapewne poza wszelkimi „przepisami” i „formatami”. Widać to w bardziej
skomplikowanym przypadku „aborcji” jako tematu. Do tego terminu zostaniemy odesłani, gdybyśmy wyszukiwanie zaczęli od „przerywania ciąży”. Zgodnie z praktyką jhp KABA, użytkownik otrzymuje wyjaśnienie, jaki jest zakres stosowalności terminu. Czytamy: Stosuje się do prac ogólnych na temat sztucznych
poronień przeprowadzanych pod kontrolą medyczną lub bez niej, niemotywowanych wskazaniami lekarskimi.
Do prac na temat poronień sztucznych przeprowadzanych ze wskazań lekarskich stosuje się hasło „Poronienie
ze wskazań lekarskich” […]4 Innymi słowy, zdaniem Ośrodka Kontroli Rekordów Kartoteki Haseł Wzorcowych, jeśli dochodzi do aborcji, to tylko bez wskazań lekarskich! Tak jakby medyczną technikę stosowano dla zrealizowania decyzji, która zawsze ma charakter pozamedyczny. Jest to nieprawda. Aborcja jest
sztucznym poronieniem zakazywanym nie przez lekarzy, lecz przez prawo – w określonych przypadkach, w zależności od legislacji. Neutralne narzędzie bibliotekarskie, jakim jest język haseł przedmiotowych, przeradza się tu w swoje zaprzeczenie poprzez dodanie zideologizowanej kwalifikacji w temacie
medycznym.
I jeszcze sięgnijmy po termin nieuwikłany chyba na razie w spór ideologiczny, w każdym razie
w Polsce, ale odzwierciedlający zmieniające się poczucie relacji istoty ludzkiej do tzw. świata zwierząt.
Jednym ze znaczących kierunków myśli humanistycznej jest wyciągnięcie konsekwencji z wyników badań, które wskazują, że 13 milionów lat temu wyginął wspólny przodek dzisiejszego człowieka i dzisiejszego orangutana, zaś zaledwie 6 milionów lat temu – wspólny przodek człowieka i pozostałych tzw.
małp człekokształtnych: goryla, szympansa i bonobo. Pięć wymienionych gatunków traktuje się na ogół
jako należące do jednej rodziny: hominidae (hominidy, człowiekowate); potocznie mówi się też: „wielkie
małpy”. Fakt ten ma doniosłe konsekwencje poznawcze i etyczne i jest szeroko omawiany w encyklopediach, podręcznikach, dyskursie publicznym itp. W szerokim kontekście społecznym powtarza się tu jak3 Zapis poprawiono po konferencji. Obecnie wśród haseł przedmiotowych przypisanych książce nie ma
w ogóle tematu „in vitro”, za to od tematu „in vitro” utworzono odsyłacz do „zapłodnienie in vitro”.
Temat ten funkcjonuje zarówno w jhp KABA, jak i w jhp MeSH.
4 http://www.nukat.edu.pl, [dostęp 25.04.2013].
71i
by dawna dyskusja nad rzekomą tezą Darwina, że „człowiek pochodzi od małpy”; teraz wychodzi na to
(z taką samą dawką uproszczenia), że „człowiek jest małpą”. I great apes jako temat Libary of Congress
Subject Headings przynosi ponad 180 trafień. W jhp KABA istnieje temat ”wielkie małpy człekokształtne”, ale wyłącznie jako odsyłacz „małp człekokształtnych”, co niejako unicestwia potrzebę wydzielania
hominidów. Z takim hasłem przedmiotowym jest zresztą tylko 6 pozycji, a ponadto 8 pozycji z takim
tematem i jakimś określnikiem. Najnowsza pochodzi z 2004 r. Tym razem nie ma co domniemywać, czy
to redaktorzy leksyki KABA (lub ich partnerzy, katalogujący w poszczególnych bibliotekach) po swojemu interpretują nam naukę, trzeba raczej pytać o ogólny stan wiedzy i świadomości ludzi piszących
i czytających książki w naszym kraju.
W gąszczu instytucji
Nasz katalog będzie tym większy, bardziej precyzyjny, celniej odzwierciedlający zróżnicowany świat
piśmiennictwa, im większe będą jego możliwości jako instytucji pożytku publicznego. Proces polityczny
obejmuje nie tylko przesłanki podejmowania decyzji, ale i same zasady procedowania. Przyglądając się
funkcjonowaniu wielkich central i platform bibliograficznych, obserwujemy, w jak dużym stopniu są „instytucjami politycznymi” w sensie zakorzenienia w silnie wyodrębnionych praktykach społecznych. Taka
np. ABES (Agence bibliographique de l’enseignement supérieur), powstała w 1994 r., która we Francji
odpowiada za katalog centralny bibliotek naukowych SUDOC, to sieć ponad 1800 bibliotek. Wytworzyła
ona 10 mln zapisów bibliograficznych i 32 mln rekordów egzemplarza, prowadzi licencje krajowe i repozytorium prac naukowych Fichier Central des Theses (wraz ze STEP – Referencing Theses in Progress),
zajmuje się badaniami nad sieciami semantycznymi itp. Obudowana grupami roboczymi i komitetami5, nie przypomina polskiego katalogu centralnego, który jest oddziałem w bibliotece akademickiej
(co prawda wielkiej), nie wspartym żadnymi prawami poza statutem uczelni, dobrowolnymi uzgodnieniami wewnętrznymi uczestników oraz decyzjami budżetowymi Ministerstwa Nauki i Szkolnictwa
Wyższego.
Czas właściwie zapytać, jak w państwie o określonej wielkości i wymiernej wartości gospodarki
można tworzyć skuteczne instytucje państwowe, w tym instytucje zajmujące się polityką informacyjną.
Trudno tu o jakieś badania, ponieważ mówimy o całokształcie życia społecznego i powszechnie przyjętych technikach jego regulacji. Jak się wydaje, w dojrzałych krajach o bogatym dorobku naukowym i kulturalnym, interesowi publicznemu służy szczególnie złożony, wielostopniowy obieg decyzji i środków
finansowych, który utrudnia koncentrację władzy i środków w obrębie jednej grupy. W takie procesy
jak choćby działalność katalogów centralnych uwikłanych jest wiele instytucji, po prostu niemających
swoich polskich odpowiedników. Są one połączone rozbudowanym systemem zależności, w którym relacje hierarchiczne wydają się znosić się nawzajem. Zasada pracy zespołowej dotyczy zarówno ludzi, jak
i instytucji. Przestrzega się podziału na ciała programowe, kompetencyjne i wykonawcze. Do działania
przystępuje się, dysponując dostępnym publicznie rozpoznaniem sytuacji (takim jak np. brytyjski report,
poprzedzony na ogół nazwiskiem koordynatora, którym bywa ekspert lub polityk); z niego wynikają
zalecenia, a następnie decyzje. Powstaje złożony układ, w którym nie widać samotnych graczy, wszelkie
bowiem postanowienia, choćby jak najbardziej autorskie, mają wielu wykonawców, wypełniających ich
luki i korygujących ich defekty – a może także generujących własne błędy i pominięcia, co znów jest
przedmiotem kontroli i korekt, realizowanych zgodnie z zasadą transparentności.
Aby urealnić nasze rozważania, podjęliśmy próbę schematycznej rekonstrukcji układu instytucjonalnego, w jakim zanurzony jest brytyjski katalog bibliotek naukowych Copac. Poniższa ilustracja jest jej
graficznym wyrazem.
5 Por. www.abes.fr
72i
Rys. 1. Copac i interesariusze. Copac to zespół czterech osób, zarządzanych przez managera, podlegającego
senior managerowi, który należy do zespołu MIMES, stanowiącego jednostkę w strukturze Uniwersytetu Manchesterskiego. Copac ma swój Komitet Sterujący; za jego strategię odpowiada Biblioteka Brytyjska razem z Research Libaries U[nited] K[ingdom] (dawniej Konferencja Bibliotek Uniwersyteckich i Naukowych CURL). Partnerem
strategicznym tych instytucji jest Chartered Institute of Information Professionals CILIP; finansowanie zapewnia
JISC Innovations, a częściowo także – poprzez MIMES – Rada Badań Naukowych w zakresie Nauk Ekonomicznych
i Społecznych6.
Z obserwacji, bezwarunkowo zasługującej na pogłębienie, brytyjskiej sceny informacyjnej wynika,
że wiele rozwiązań tam przyjętych – jak choćby ulokowanie „nationally designated data centre” na jednym z uniwersytetów – musiało być wynikiem działań ad hoc, a nie zamierzeń odgórnych i planowych.
Nie wyobrażajmy sobie zatem, że to jest jakiś inny, skazany na sukces świat, pozostający w ścisłym
kontraście do polskiej improwizacji i działań oddolnych. Zobaczmy jednak istotne różnice. Zasadniczą
z nich jest nieobecność ministerstwa. Inaczej niż w Polsce, nie „biega się” do niego w każdej sprawie;
ministerstwo jest politycznym centrum, które nie realizuje bezpośrednio ani meritum, ani finansowania,
6 Organizację informacji naukowej w Zjednoczonym Królestwie badałem w 2010 r. w Uczelni Łazarskiego
w ramach projektu SYNAT, umowa nr SP/I/1/77065/10 z Narodowym Centrum Badań i Rozwoju, zadanie
badawcze B8. Model długoterminowego finansowania zapewniający trwałość system informacji naukowo technicznej. Informacje o Copac (National, Academic and Specialist Library Catalogue) por. http://copac.
ac.uk/. Kluczowa, niemająca w Polsce odpowiednika instytucja JISC jest opisana m in. w opracowaniu:
H. Hollender: Rozwiązania światowe w zakresie platform informacyjnych, w: Rozwiązania organizacyjne
zapewniające trwałość systemu informacji naukowo-technicznej, praca zbiorowa, red. J. Kisielnicki, M. Gałą zka-Sobotka, Warszawa 2012, s. 60-76.
73i
ani kontroli, mając do tego celu liczne urzędy i agencje. Czy nie tak wyobrażaliśmy sobie bezpośrednio
po 1989 r. docelowy ustrój Polski7?
Wbrew zatem wszelkim populizmom, które z nieufnością traktują wszelkie instytucjonalne formy
zarządzania państwem, w rozwoju instytucji i wzbogacaniu ich współpracy upatrywalibyśmy sposobów
rozwiązania zadań w zakresie zarządzania nauką i kulturą, zwłaszcza takich, które wymagają tworzenia
i utrzymywania centralnych baz danych. Dysfunkcjonalność drożności decyzyjnej (poziomej – pomiędzy resortami i instytucjami, oraz pionowej – od polityki w skali kraju do decyzji lokalnych) wymaga
umiejętnego pośrednictwa. Zdajemy sobie sprawę, że grozi tu pewnego rodzaju „puszka Pandory” – instytucje współpracujące nieprzejrzyście, z niejasnymi kompetencjami, na podstawie mało nośnych założeń programowych, to zagrożenie marnotrawstwem, a nawet korupcją. Jeśli jednak współpraca będzie
zorganizowana w sposób nie tylko podatny na kontrolę społeczną, ale ją wręcz stymulujący (od tego
jest między innymi umiejętny marketing), to instytucje warto tworzyć. Widać, że jest na nie zapotrzebowanie – wszak reforma bibliotek publicznych, odbywająca się pod egidą Instytutu Książki, to nie tylko menedżerski łamaniec, ale i wynik – zapewne – rozsądnego spostrzeżenia, że Ministerstwo Kultury
i Dziedzictwa Narodowego ma za szczupły aparat i kompetencje, by prowadzić takie akcje.
Jednak niektóre instytucje szczęśliwie powstawały – poczynając od Komitetu Badań Naukowych, aż
po dzisiejsze Narodowe Centrum Nauki oraz Narodowe Centrum Badań i Rozwoju. Czy NCBiR jest przygotowane, by kształtować NUKAT, zaspokajać jego potrzeby, stwarzać mu warunki rozwoju? Czy w kraju
nie przydałoby się Narodowe Centrum Informacji i Infrastruktury? Można oczekiwać, że katalog lepiej
zarządzany będzie także rozleglej wykorzystywany, a zawarte w nim treści wzbogacą kulturę wysoką
i popularną.
Union catalogs – political aspects
Multifunctional union catalog is a part of a nation-wide information system, most often a part of an institution
performing the role of a bibliographic agency. Untypically, NUKAT Center is a department of the University of
Warsaw Library – however, it does not mean that its tasks are not subject to political planning and political evaluation.
As a catalog NUKAT provides access to information on Polish library resources and shapes the image of these
resources, belonging thus to the domains of scholarly and cultural politics and historic awareness.
Library tools for formal and subject description of resources are rooted in political language and culture, indirectly offering information on Polish publishing trends and reception of world-wide ideas in Poland. As the institution producing the union catalog, NUKAT Center participates in higher education and science management,
remaining within certain budget and being defined with specific economic indicators, etc.
The comparative research on similar institutions situated in the countries of longer membership in EU bodies
reveals the inadequacy of political processes in Poland, in particular lack of institutions mediating the allocation of funds between the government level and legal entities implementing the objectives of scholarly and
cultural politics. Poland also lacks programming and controlling bodies and it does not sufficiently implement
management by objectives, being dominated by inertia and passive pattern of numerous councils. Rulemaking is
inhibited by lack of tools which would improve communication and cooperation between ministries. Moreover,
there is not a sufficient use of tools for rational and transparent decision-making such as expert blogs, reports
or public recommendations.
Abstrakty
Katalogi centralne : aspekty polityczne
Wielofunkcyjny katalog centralny jest częścią krajowego systemu informacji, na ogół – instytucji pełniącej rolę
centrali bibliograficznej. Usytuowanie Centrum NUKAT jako oddziału Biblioteki Uniwersyteckiej w Warszawie jest
nietypowe, co nie oznacza, że jego czynności nie podlegają politycznemu planowaniu i politycznym ocenom. Jako
katalog NUKAT stanowi narzędzie dostępu do zbiorów bibliotek w Polsce, a także wizerunek tych zbiorów, należy
więc do domen: polityki naukowej i kulturalnej oraz świadomości historycznej. Stosowane przez biblioteki narzędzia charakterystyki formalnej, a zwłaszcza rzeczowej posiadanych zbiorów, są zakorzenione w języku i kulturze
politycznej, pośrednio zaś informują o kierunkach rozwoju ruchu wydawniczego, jak i recepcji myśli światowej
w Polsce. Z kolei jako instytucja wytwarzająca katalog Centrum NUKAT ma swoje miejsce w zarządzaniu szkolnictwem wyższym i nauką, zużywa środki, cechują go określone wskaźniki ekonomiczne itp.
Obserwacje porównawcze podobnych instytucji w krajach o dłuższym stażu członkowskim we wspólnotowych
instytucjach europejskich wskazują na niedostatki procesu politycznego w Polsce. Jest nim zwłaszcza – stopniowo obecnie przezwyciężany – brak instytucji pośredniczących w podziale środków pomiędzy szczeblem centralnym a osobami prawnymi realizującymi cele polityki naukowej i kulturalnej. Brakuje też ciał o kompetencjach
programowych i kontrolnych. W skali kraju nie udaje się zarządzanie przez cele. Dominuje też inercyjny, pasywny
wzorzec wszelkiego rodzaju rad i komitetów. Proces stanowienia prawa jest zaburzony poprzez brak narzędzi
komunikacji i współpracy pomiędzy ministerstwami. W zbyt małym stopniu są też wykorzystywane zwyczajowe
narzędzia racjonalnego i transparentnego procedowania przy podejmowaniu decyzji, takie jak blog ekspertów,
raport, czy ogłaszanie rekomendacji.
7 Por. też M. Strąk, Luka po Biurze Politycznym. Potrzebna jest reforma centrum, [w:] „Gazeta Wyborcza” 2013,
7 lutego, s. 8. Wątek ten rozwiniemy nieco w referacie Zasoby bibliograficzne jako narzędzie i model wiedzy,
wygłoszonym dn. 17 kwietnia 2013 r. w Bibliotece Politechniki Poznańskiej na konferencji „Bibliograficzne
bazy danych i ich rola w rozwoju nauki”, por. http://www.biblos.pk.edu.pl/scs-bbd13/scs/files/File/Hollen
der%202013.pdf. Pełny tekst w opracowaniu.
74i
75i
Agnieszka Kasprzyk
Centrum NUKAT
[email protected]
NUKAT rozwija się już od ponad 10 lat, współkatalogowanie w bazie centralnej rozpoczęto 5 lipca 2002
roku, poprzedzając je prawie dekadą wspólnego budowania Centralnej Kartoteki Haseł Wzorcowych
(CKHW) i Centralnej Kartoteki Tytułów Czasopism (CKTCz).
Katalog centralny obejmuje informacje o niemal wszystkich typach zbiorów bibliotecznych, z wyjątkiem obiektów o charakterze muzealnym i rękopisów (w tym ostatnim przypadku już niedługo ograniczenie zostanie uchylone dla niepublikowanych prac doktorskich). Od 2002 r. wprowadzono do bazy
NUKAT powyżej 2,5 mln rekordów bibliograficznych, w tym w ramach scalania katalogów lokalnych
z katalogiem centralnym w projekcie „NUKAT – Autostrada Informacji Cyfrowej”1 przejęto automatycznie
ponad 200 tys. i wprowadzono ręcznie 90 tys. rekordów bibliograficznych, obecnych do tego momentu
tylko w bazach lokalnych. Obecnie w ciągu miesiąca w katalogu centralnym przybywa średnio 20 tys.
nowych opisów publikacji.2
Baza NUKAT zawiera ponad 8,5 mln symboli centralnej informacji o bibliotekach udostępniających
skatalogowane pozycje – każda biblioteka dysponująca danym tytułem dodaje w jego opisie w katalogu NUKAT swój symbol. Miesięcznie przybywa ich w katalogu centralnym około 100 tys.3 Na potrzeby
użytkowników symbole są zamieniane na nazwy bibliotek i wyświetlane jako linki w opisach, które
prowadzą do kopii rekordów bibliograficznych z katalogu NUKAT w katalogach lokalnych. W ten sposób
można szybko i łatwo sprawdzić dostępność szukanej pozycji w danej bibliotece, gdyż jej status (dostępny, wypożyczony, zagubiony, itp.) jest widoczny tylko w bazie lokalnej. Podczas scalania w ramach
projektu „NUKAT – Autostrada Informacji Cyfrowej” w rekordach katalogu centralnego przybyło ponad
1 260 tys. symboli4, co jest równoznaczne z zamianą ponad 1 260 tys. opisów w katalogach lokalnych
na aktualne wersje z katalogu centralnego wraz z uporządkowaniem związanych rekordów kartoteki
haseł wzorcowych (khw).
Centralna Kartoteka Haseł Wzorcowych tworzona przez 10 lat poprzedzających zaistnienie NUKAT-u, została włączona do bazy katalogu centralnego wraz z jego uruchomieniem. W ciągu kolejnych
10 lat nastąpił wzrost z 700 tys. rekordów haseł wzorcowych opisu bibliograficznego oraz rekordów
haseł wzorcowych i rozwiniętych Języka Haseł Przedmiotowych KABA (jhp KABA) do prawie 3 mln
obsługujących obecnie rekordy bibliograficzne NUKAT.5 W celu zapewnienia różnorodnego opisu przedmiotowego w bazie NUKAT jest udostępniana także pełna kopia JHP BN (Języka Haseł Przedmiotowych
Biblioteki Narodowej) oraz kopie rekordów MeSH PL (polskiej wersji Medical Subject Headings) dla
haseł przedmiotowych MeSH zastosowanych w rekordach bibliograficznych NUKAT (jhp KABA, JHP BN
i MeSH stanowią 3 oficjalne języki haseł przedmiotowych stosowane w katalogu centralnym i katalogach lokalnych współpracujących bibliotek).
1 Strona www projektu „NUKAT – Autostrada Informacji Cyfrowej” http://autostrada.buw.uw.edu.pl/
[Dostęp: 22.04.2013].
2 Statystyki bazy NUKAT na dzień 31.03.2013 http://www.nukat.edu.pl/nukat/pl/statystyka.phtml?id=9&
stid=3&dl=1&sm=b&mc=1303 [Dostęp: 22.04.2013].
3 Jw.
4 Statystyki scalania katalogów lokalnych z katalogiem NUKAT na dzień 04.01.2013 http://autostrada.buw.
uw.edu.pl/images/scalanie_raporty/scalanie_raport_do_20130104.pdf [Dostęp: 22.04.2013].
5 Statystyki bazy NUKAT http://www.nukat.edu.pl/nukat/pl/starystyka.phtml?sm=a&poz=0&stid=2&id=29
[Dostęp: 22.04.2013].
77i
Do współtworzenia NUKAT-u w roku 2002 przystąpiły biblioteki budujące wcześniej CKHW, w ciągu dekady nastąpiło ponad 4-krotne zwiększenie ich liczby, z 27 do 120, stopniowo przyłączają się
kolejne.6 Są to oficjalni współpracownicy NUKAT, natomiast brakuje szczegółowych danych o liczbie
bibliotek niewspółpracujących z katalogiem centralnym, ale korzystających z danych NUKAT w sposób pośredni, nierejestrowany (przez KaRo, schowek na stronie www NUKAT, bazę WorldCat, katalogi
bibliotek współpracujących z NUKAT-em). Nie pozwala to na odpowiednio precyzyjną ocenę stopnia
wykorzystania bazy NUKAT.
Niezmieniona liczbowo obsada personalna Centrum NUKAT koordynującego współkatalogowanie
i kontrolującego wprowadzane dane oraz rosnąca liczba wprowadzanych danych (ze średnio 10 tys. rekordów bibliograficznych i 10 tys. rekordów khw na miesiąc w roku 2002 do 20 tys. rekordów bibliograficznych i 20 tys. rekordów khw na miesiąc w roku 2012) wymusiły wprowadzenie licznych usprawnień
mechanizmu współkatalogowania, polegających na znacznej lub całkowitej automatyzacji procesów
wprowadzania, kontroli, dystrybuowania i melioracji danych.
Udało się utrzymać na satysfakcjonującym poziomie technicznym platformę sprzętowo-softwarową katalogu NUKAT dzięki: startowemu grantowi Fundacji Mellona (zakup i wymiana sprzętu, zakup i
rozbudowa oprogramowania), dofinansowaniu w latach 2009–2013 z projektu „NUKAT – Autostrada Informacji Cyfrowej” (wymiana sprzętu, rozbudowa oprogramowania) oraz stosunkowo niedawno ustabilizowanemu funduszowi SPUB (rozbudowa oprogramowania), który stanowi od 2002 roku jedno z dwóch
podstawowych źródeł finansowania bazy NUKAT. Ten ostatni po raz pierwszy po 10 latach umożliwia
perspektywiczne uregulowanie opłaty maintenance (rozwój i naprawa) za użytkowany do obsługi katalogu centralnego system (oprogramowanie) Virtua – uiszczenie opłaty za 3 lata z góry skutkuje bezpłatnym wsparciem ze strony producenta dla systemu w ciągu kolejnego, czwartego roku trwania umowy,
co powoduje znaczne oszczędności dla licencjobiorcy oprogramowania.
Baza NUKAT stanowi od kilku lat część projektów międzynarodowych obejmujących m.in.: udostępnianie danych bibliograficznych z katalogu NUKAT do wyszukiwania przez Google (Google Books oraz
Google Scholar), udostępnianie rekordów khw do wykorzystania w systemie wirtualnej międzynarodowej kartoteki haseł wzorcowych VIAF oraz udostępnianie rekordów bibliograficznych do wykorzystania
w największym katalogu centralnym świata WorldCat. Wzrasta dzięki temu widoczność i rozpoznawalność danych pochodzących z polskich bibliotek.
Katalog centralny jest również zaangażowany w projekty o skali krajowej, takie jak automatyczne
i półautomatyczne scalanie danych bibliograficznych z katalogów lokalnych z bazą NUKAT w ramach
projektu „NUKAT – Autostrada Informacji Cyfrowej”, rozbudowa CKHW o rekordy khw dla nazw wydawców i zastosowanie tych haseł w opisach zasobów bibliotek w ramach projektu SYNAT7 czy tworzenie
statystyki publikacji zagranicznych w zbiorach bibliotek współpracujących z NUKAT na zamówienie
Stowarzyszenia Autorów i Wydawców „Polska Książka”. Pierwszy z projektów ma na celu głębsze zintegrowanie, scentralizowanie i uaktualnienie informacji o zbiorach polskich bibliotek, z drugiego mogą
skorzystać zarówno użytkownicy poszukujący informacji o publikacjach wybranych wydawnictw jak
i bibliotekarze z działów gromadzenia czy nawet sami wydawcy, ostatni ma posłużyć szacowaniu wysokości repartycji wypłacanych wydawcom zagranicznym.
NUKAT stał się czymś więcej niż kolejną bazą danych. To także sztab profesjonalistów (bibliotekarzy,
informatyków i administratorów bazy centralnej) oraz wypracowane przez nich narzędzia, procedury,
standardy i spójność danych, to wciąż nie do końca znani twórcom katalogu centralnego jego użytkownicy, bez których nawet najbardziej wartościowe dane są martwe, wreszcie to efekt dobrze zorganizowanej współpracy, sukces koncepcyjny i organizacyjny, którego nie można zaprzepaścić.
NUKAT niewątpliwie rozwija się, ale czy rozwój ten spełnia nasze oczekiwania? I jakie właściwie są
nasze oczekiwania, a przede wszystkim oczekiwania użytkowników katalogu centralnego?
Dlaczego NUKAT jest budowany tylko przez 1/10 ogólnej liczby uprawnionych bibliotek, bibliotek
naukowych? Wśród „nieobecnych w NUKAT” łatwo dostrzec Centralną Bibliotekę Wojskową, Główną
Bibliotekę Lekarską, Bibliotekę Śląską, Bibliotekę Uniwersytetu Rzeszowskiego, Bibliotekę Uniwersytetu Zielonogórskiego, Bibliotekę Politechniki Krakowskiej, Bibliotekę Uniwersytetu Medycznego
w Poznaniu, wiele bibliotek instytutów Polskiej Akademii Nauk, nie wspominając o Bibliotece Narodowej (BN), która współpracę z katalogiem centralnym podjęła, by zarzucić ją po zaledwie 2 latach.
Są to ostrożne szacunki na podstawie danych z bazy adresowej Biblioteki Narodowej8, prawdopodobnie
jest to nawet mniej niż 1/10. Czy powodem jest brak świadomości pozostałych instytucji, czy raczej
brak woli do podjęcia przez nie współpracy? A może na przeszkodzie stoi brak możliwości technicznych? Wiele bibliotek posługuje się wciąż systemami komputerowymi wykluczającymi sprawną
współpracę z bazą centralną, brakuje też kompetentnych informatyków, czuwających nad obsługą
katalogów lokalnych.
Czy w NUKAT jest aż czy zaledwie 2,5 mln rekordów bibliograficznych? Dlaczego biblioteki nie prowadzą aktywniejszej retrokonwersji? Użytkowników mocno rozczarowuje niekompletność bazy, o ile
oczywiście są jej świadomi – wiele osób obecnie uważa, że jeśli nie znalazły poszukiwanej informacji
online, to owa informacja zwyczajnie nie istnieje. Skanowanie katalogów kartkowych to tylko częściowe udogodnienie w dostępie do danych bibliograficznych, pozwala jedynie zaoszczędzić czas spędzany
dotąd na osobistej wizycie w danej bibliotece w celu przejrzenia szufladek, nie dostarcza jednak równie
bogatych możliwości wyszukiwawczych co bazy komputerowe, nie oferuje również źródła opisów gotowych do wielokrotnego wykorzystania w katalogach lokalnych. Dane bibliograficzne w Polsce wciąż
są rozproszone pomiędzy katalog centralny, komputerowe katalogi lokalne i katalogi kartkowe – tylko
nieznacznie sytuację poprawiło scalenie części danych lokalnych z wybranych katalogów z bazą NUKAT
w ramach projektu „NUKAT – Autostrada Informacji Cyfrowej” (scalenie w celu jak najszerszej automatyzacji objęło jedynie dane identyfikowane numerami ISBN, umożliwiającymi stosunkowo wysoką
bezbłędność automatycznego scalania). Nie podjęto dotąd próby oszacowania liczby danych wymagających scalenia, a ujętych jedynie w katalogach kartkowych – obserwuje się zupełny brak zainteresowania przynajmniej próbą zintegrowania informacji o zasobach polskich bibliotek naukowych.
Dlaczego nie podjęto prób zbudowania na bazie katalogu NUKAT tego, co oczywiste – centralnego
systemu wypożyczeń międzybibliotecznych? W przypadku publikacji papierowych system taki stanowi
logiczne i funkcjonalne przedłużenie informacji o bibliotekach udostępniających te publikacje. Nawet
w przypadku całkowitego zarzucenia wydawnictw papierowych na korzyść elektronicznych pozostaje
olbrzymia liczba już istniejących zbiorów bibliotecznych, które nieprędko zostaną zdigitalizowane, a ich
digitalizacja i tak nie rozwiąże potrzeby dotarcia do informacji o nich (wydobycie sensownych danych
bibliograficznych z treści publikacji i przetworzenie ich na dane katalogowe to olbrzymia, niełatwa do
przeprowadzenia praca dodatkowa).
Warto też zauważyć, że współcześni użytkownicy informacji chętniej korzystają z narzędzi i źródeł
kompleksowych, a nie wybiórczych. NUKAT nie zapewnia informacji na poziomie wydawnictw niesamoistnych (artykułów, rozdziałów w pracach zbiorowych) ani – w dużej mierze – informacji o zbiorach
bibliotecznych dostępnych online. Informacje te są jednak dostępne z innych źródeł. Konieczne jest
zatem zintensyfikowanie prac takich, jak te prowadzone przez Poznańskie Centrum Superkomputerowo-Sieciowe w ramach projektu SYNAT, nad zintegrowaniem katalogu centralnego z pokrewnymi mu
źródłami danych (bibliografiami zawartości, bazami czasopism elektronicznych, bibliotekami cyfrowymi). Na poziomie krajowym brakuje zarówno kompleksowego narzędzia, integrującego dane katalogowe i bibliograficzne, jak i udostępniającego zasoby elektroniczne prenumerowane przez biblioteki
zarówno indywidualnie, jak w i ramach licencji krajowej. Katalog centralny NUKAT może stanowić jeden
z węzłów tej sieci, trudno jednak oczekiwać, aby spełnił te wszystkie funkcje obok swojej roli podstawowej, czyli informowania o „fizycznych” czy też „analogowych” (przez opozycję do elektronicznych)
zasobach bibliotek.
Dużym problemem pozostaje brak współpracy Biblioteki Narodowej z katalogiem centralnym NUKAT.
Dlaczego toleruje się nieekonomiczne, równoległe do działania bazy NUKAT tworzenie przez Bibliotekę
Narodową katalogów centralnych oraz drugiej kartoteki haseł wzorcowych? Propozycja współpracy
6 Baza bibliotek współpracujących z katalogiem centralnym http://centrum.nukat.edu.pl/index.php?option
=com_nubbw&layout=pl&Itemid=143 [Dostęp 22.04.2013].
7 Strona www projektu SYNAT http://www.synat.pl/osynat [Dostęp 22.04.2013].
8 Informator Biblioteki Narodowej o bibliotekach w Polsce http://mak.bn.org.pl/cgi-bin/makwww.exe?BM=8
[Dostęp 22.04.2013].
78i
79i
w tym ostatnim zakresie złożona BN przez Centrum NUKAT pozostaje wciąż bez praktycznych wdrożeń,
a nawet rozmów i prac merytorycznych z powodu braku odzewu ze strony BN. Zaś zgodnie z informacją
na stronie www książnicy narodowej katalogi centralne książek i czasopism zagranicznych oraz czasopism polskich w zbiorach bibliotek polskich są nadal na bieżąco aktualizowane. Tymczasem z punktu
widzenia użytkownika, jak i sztuki tworzenia systemu informacji w Polsce, najekonomiczniej byłoby
doprowadzić do integracji tych danych (zarówno khw, jak i opisów bibliograficznych) oraz kontynuowania ich tworzenia tylko w jednej bazie centralnej. Zadziwia milczenie w tej sprawie bibliotekarskich ciał
opiniotwórczych.
Dlaczego dane z katalogu NUKAT nie są szeroko wykorzystywane w środowisku pozabibliotecznym?
Co pewien czas z Centrum NUKAT kontaktują się kolejne firmy bądź instytucje, które rozważają różnorakie wykorzystanie danych bibliograficznych z katalogu centralnego, jednak do tej pory współpraca
w tym zakresie jest nikła. Czasem na przeszkodzie staje brak możliwości technicznych po obu stronach,
częściej jednak czynnikiem blokującym okazuje się brak jasnych zasad udostępniania tego typu danych,
zwłaszcza odbiorcom komercyjnym. Ekspertyza prawna, dotycząca możliwości odpłatnego udostępniania danych z katalogu NUKAT, zamówiona przez Centrum NUKAT w ramach projektu SYNAT, powinna
choćby częściowo rozwiać te wątpliwości – wkrótce nastąpi jej opublikowanie.
Niespecjalnie cieszy też fakt, że dane w katalogu centralnym są dość słabo „wzbogacone”. Użytkownik może trafić co najwyżej na zeskanowaną okładkę publikacji lub sporadycznie na link do wersji
online. Brakuje dostępu do recenzji, spisów treści, fragmentów tekstów, utworów muzycznych bądź
filmowych, linków do księgarni, antykwariatów i giełd internetowych. Jest to spowodowane zarówno
brakiem możliwości technicznych łatwego udostępniania wartości tego typu w oprogramowaniu obsługującym katalog centralny, jak i brakiem jednolitego, łatwo dostępnego źródła takich „dodatków”
(trudno oczekiwać, że opisy będą wzbogacane w ten sposób przez bibliotekarzy, opracowujących zasoby biblioteczne). Czy jest możliwa współpraca pod tym kątem pomiędzy wydawnictwami, księgarniami
i bibliotekami? Może dałoby się wykorzystać widoczny tu pomysł na mariaż nauki z biznesem – znane
są firmy dostarczające tego typu „dane dodatkowe” (Syndetics, Bowker, Nielsen), są to jednak firmy zagraniczne, które nie dysponują obecnie dostatecznie obszerną wartością dodaną dla publikacji polskich.
Wciąż nie wiadomo też, ile właściwie użytkownicy bibliotek wiedzą o katalogu centralnym, jego
zastosowaniu i swoich możliwościach wpływania na rozwój tej bazy. W jakim stopniu my, twórcy bazy,
znamy użytkowników NUKAT-u? Ilu ich jest, skąd się wywodzą, co im odpowiada, co przeszkadza, czego brak doskwiera im najbardziej? Czy katalog centralny jest budowany w sposób odpowiadający jego
odbiorcom, czy jest promowany wśród nich dostatecznie zachęcająco i szczegółowo? Zasadne jest przeprowadzenie badań w tym zakresie i ewentualne poszerzenie świadomości użytkowników. Profesjonalne badania tego typu powinna przeprowadzić specjalizująca się w nich instytucja/firma, zapewniając
odpowiednie przesłanki do dalszego rozwoju bazy NUKAT.
Kiełkuje także pytanie, czy dla bibliotek katalog NUKAT to tylko opisy i rekordy khw? Do czego
jeszcze może przydać się katalog centralny (analiza zbiorów, gromadzenie, zarządzanie zbiorami)?
Mamy sygnały, że można bazę NUKAT wykorzystywać do monitorowania kompletności egzemplarza
obowiązkowego9. Niewątpliwie nawiązanie szerszej współpracy z wydawcami przyniosłoby korzyści
obu stronom (w sferze egzemplarza obowiązkowego, katalogowania w toku publikacji (CIP) i bazy nowości wydawniczych), jednak współpraca ta musi być wspierana i animowana przez odpowiednie ciała.
Tu także zaznacza się wyraźnie brak udziału i zainteresowania ze strony książnicy narodowej.
Inicjatywy takie jak NUKAT, aby były efektywne, muszą stać na ramionach olbrzymów – bez ich
wsparcia rozwój NUKAT-u będzie przypominał raczej kręcenie się w kółko. Potrzeba większego zainteresowania i wsparcia ze strony takich ciał jak Ministerstwo Nauki i Szkolnictwa Wyższego, Konferencja
Dyrektorów Bibliotek Akademickich Szkół Polskich, Konferencja Dyrektorów Wojewódzkich Bibliotek
Publicznych, Biblioteka Narodowa, Krajowa Rada Biblioteczna, Rada Główna Szkolnictwa Wyższego,
Stowarzyszenie Bibliotekarzy Polskich, instytuty bibliotekoznawstwa i informacji naukowej, Ministerstwo Kultury i Dziedzictwa Narodowego, Ministerstwo Administracji i Cyfryzacji, Polska Akademia Nauk,
9 Szturo, G. KHW 2013. Nowy Rok z nazwą wydawnictwa. „Tytuł Ujednolicony” 9 (2013) , s. 3-5 http://issuu.
com/nukat/docs/tu_9_2013/5 [Dostęp 22.04.2013].
80i
Fundacja Nauki Polskiej, Narodowe Centrum Badań i Rozwoju, Narodowe Centrum Nauki. Doceniamy
uzyskaną stabilność finansową w ramach funduszu SPUB, wciąż jednak przy braku głębszego zainteresowania ze strony środowiska nie jest możliwe projektowanie długofalowych, szeroko zakrojonych
działań rozwojowych.
Czy zatem doszliśmy już do ściany? Jeszcze nie, ale zbliżamy się do niej w dość niebezpiecznym tempie. Warto sprawdzić, czy są w niej drzwi, a jeśli nie, zastanowić się, jak je zamontować.
Wskazane jest opracowanie strategii rozwoju katalogu centralnego na następne lata z uwzględnieniem wszystkich wspomnianych powyżej osiągnięć i zagrożeń. Strategia ta winna być elementem szerszej strategii budowania krajowego systemu informacji jako zaplecza dla edukacji, nauki i kultury. Jest
to zadanie, którym pilnie powinny się zająć wiodące instytucje i organizacje z dziedziny bibliotekarstwa
i informacji naukowej. Katalog centralny należy postrzegać jako wspólne przedsięwzięcie środowiska
bibliotekarskiego, które angażuje się w jego rozwój i przyszłość, zamiast dostrzegać w nim jedynie
magazyn gotowych rekordów. To nasza wspólna, międzyresortowa odpowiedzialność – żyjemy w XXI
wieku, uczestniczymy w Unii Europejskiej i globalnym społeczeństwie informacyjnym, a jednak wciąż
istnieją w Polsce biblioteki jednostek naukowych, w których nie ma dostępnych online komputerowych
katalogów zbiorów, wciąż funkcjonują w kraju jednostki naukowe lub badawcze, które w ogóle nie
uważają za słuszne i potrzebne dysponować zapleczem informacyjnym zwanym tradycyjnie biblioteką.
Opracowanie wspomnianej powyżej strategii budowania krajowego systemu informacji mogłoby
uregulować i połączyć wiele przedsięwzięć, które obecnie są realizowane w oderwaniu od siebie, często
bez dbałości o ich wzajemną spójność. Musimy wiedzieć, do czego w kraju zmierzamy – do informacji
zintegrowanej czy resortowej, jednolitej czy rozproszonej na tysiące maleńkich, różnorakich baz, w których użytkownik z trudem odnajduje potrzebne mu informacje. Czy możemy być pewni, że zmierzamy ku
systemowi informacji o wysokiej jakości, informacji zintegrowanej, uporządkowanej, ponadresortowej
– czy można uważać za jaskółki takiego systemu powstawanie takich projektów jak POL-on (system
informacji o szkolnictwie wyższym)10, Wirtualna Biblioteka Nauki czy SYNAT? Warto wykorzystać doświadczenia zebrane przez innych, przecierających nam drogę do sukcesu (OCLC, DBC (Danish Bibliographic Center), Rero (Library network of Western Switzerland, itp.). Konieczne jest też zweryfikowanie
poprawności kursu, który obierzemy, przez odbiorców końcowych oferowanych przez nas zasobów.
Krąży opinia, że nie warto inwestować czasu i środków w takie projekty jak NUKAT czy system wypożyczeń międzybibliotecznych, bo już „za chwilę wszystko będzie dostępne online”. Odpowiedzią na
tego typu poglądy jest szereg pytań:
• po pierwsze, jak długa jest ta „chwila”?
• po drugie, skąd ta pewność, że „wszystko”?
• po trzecie, w jakim zakresie będzie „dostępne online”?
• po czwarte, ale tak naprawdę po pierwsze – to zależy od tego, czym stanie się katalog
centralny „za chwilę” dzięki nam...
Czy polskie społeczeństwo i rząd potrafi odpowiednio zainwestować „zyski” wypracowane do tej pory
przez katalog centralny NUKAT? Czy też ściana, o którą wkrótce możemy się rozbić, jest właśnie pracowicie wznoszona naszymi własnymi rękami? Inspirującym tekstem, zmuszającym zarówno jednostki jak
i środowisko związane z polską informacją do przemyśleń nad przyszłością bibliotek i katalogów, może
okazać się tu, między innymi, artykuł Lorcana Dempseya11, dyrektora działu badań i głównego stratega
OCLC, w którym autor wskazuje, że katalogi nie znikają ze współczesnej sceny informacyjnej, pozostającej pod dyktatem Internetu, lecz ulegają rekonfiguracji wywołanej zmianą punktu skupienia uwagi
i postępowania współczesnego użytkownika, i nawołuje między innymi do zintensyfikowanego wykorzystania potencjału współpracy bibliotek realizowanej także poprzez budowanie katalogów centralnych.
10 POL-on – system informacji o szkolnictwie wyższym http://polon.nauka.gov.pl [Dostęp 22.04.2013].
11 L. Dempsey, Thirteen Ways of Looking at Libraries, Discovery, and the Catalog: Scale, Workflow, Attention. [w:]
„Educause Review Online”, December 10, 2012 http://www.educause.edu/ero/article/thirteen-ways looking-libraries-discovery-and-catalog-scale-workflow-attention [Dostęp 22.04.2013].
81i
Abstrakty
10 lat, 2,5 mln rekordów bibliograficznych, 8,5 mln symboli centralnej informacji o bibliotekach udostępniających
daną publikację, imponująca Centralna Kartoteka Haseł Wzorcowych, 5-krotne zwiększenie liczby współpracujących bibliotek, kooperacja z Google, Virtual International Authority File i WorldCat, projekty krajowe: NUKAT – Autostrada Inforacji Cyfrowej (scalanie katalogów lokalnych z bazą katalogu centralnego) i SYNAT (rozbudowa CKHW
o hasła wzorcowe dla wydawców i zastosowanie tych haseł w opisach zasobów bibliotek).
Z pewnością nie stoimy w miejscu, ale czy biegniemy, czy drepczemy? A może kręcimy się w kółko lub – co gorsza
– cofamy?
Dlaczego NUKAT jest budowany przez zaledwie 1/10 liczby uprawnionych do tego bibliotek? Czy mamy aż 2,5
mln opisów czy zaledwie 2,5 mln opisów? Dlaczego na bazie katalogu centralnego nie działa centralny system
wypożyczeni międzybibliotecznych? Dlaczego tolerujemy nieekonomiczne, równoległe do działania bazy NUKAT
tworzenie przez Bibliotekę Narodową katalogów centralnych oraz drugiej kartoteki haseł wzorcowych? Dlaczego dane z NUKAT nie są szeroko wykorzystywane w środowisku pozabibliotecznym? Ile właściwie użytkownicy
bibliotek wiedzą o katalogu centralnym? I kogo właściwie ten NUKAT obchodzi?
Czy doszliśmy do ściany? A jeśli tak, to czy zależy nam na jej rozbiciu i pójściu dalej? Co zrobić, żeby się udało?
NUKAT up against a brick wall?
Ten years, nearly 3 million bibliographic records, nearly 9 million library symbols indicating libraries that offer access to given publications, impressive Union Authority File, five times increase in the number of member libraries,
cooperation with Google, Virtual International Authority File and WorldCat, projects on a national scale: NUKAT
- DIGITAL INFORMATION HIGHWAY (integrating local catalogs with the union database) and SYNAT (expanding
Union Authority File with authority records for publishers and adding those headings to appropriate bibliographic
records).
Certainly NUKAT is not brought to a halt, but does it run ahead or stumble? Or maybe it chases its own tail,
or, even worse, runs back?
Why are NUKAT members only one tenth of all libraries entitled to cooperate with the union catalog? Impressive
or mere 2,5 million bibliographic records? Why is the union database not expanded into a union system of interlibrary loans? Why does the community approve of parallel construction of union catalogs and separate authority
file by the National Library of Poland? Why are NUKAT data not used more often beyond libraries? How much do
the library users know about the union catalog and who really cares about NUKAT?
Have we hit a brick wall? And, if the answer is confirmative, are we keen on breaking this wall and continuing on?
What should we do in order to succeed?
82i

NUKAT – Autostrada Informacji Cyfrowej

Transkrypt

Podobne dokumenty