Przekazywanie danych z systemów instytucjonalnych - POL-on

Transkrypt

Przekazywanie danych z systemów instytucjonalnych - POL-on
Polska Bibliografia
Naukowa
Przekazywanie danych z systemów
instytucjonalnych
Aleksander Nowiński
Centrum Otwartej Nauki, ICM, Uniwersytet Warszawski
Rola PBN
●
Raportowanie
–
Zastąpienie ankiet jednostki (w części
publikacyjnej)
–
Raporty
●
Upublicznianie dorobku
●
Sprawne prowadzenie bibliografii dorobku
Polska Bibliografia
Naukowa - ekosystem
Bazy bibliograficzne
Administracja
Internet
Repozytoria
Operator
Bazy dorobku
Instytucjonalny
Autorzy
Przekazywanie danych z
baz dorobku instytucji
1)Eksport danych z systemu lokalnego konwersja
2)Przygotowanie słowników identyfikatorów
3)Właściwy proces importu
4)Analiza raport błędów
5)Ew. korekty on-line
Konwersja danych
<XML>
<XML>
Baza dorobku
Pliki XML
Paczka
Importowa
Konwersja - eksport
●
Konwersja do formatu XML
–
●
●
●
Opis formatu i XSD dostępne na stronach pomocy
Eksport (praktycznie) wszystkich dostępnych
danych
Umieszczanie szczegółowej informacji o
ścieżce wydawniczej
Dołączanie identyfikatorów osób i jednostek
Przykładowy dokument
<book>
<title>Język C++</title>
<author>
<given-names>B.</given-names>
<family-name>Stroustrup</familyname>
</author>
<contributor>
<affiliation id="_4"/>
<given-names>Janina</given-names>
<family-name>MincerDaszkiewicz</family-name>
<role>translator</role>
</contributor>
<affiliation id="_4">
<name>Uniwersytet Warszawski Wydział Matematyki, Informatyki i
Mechaniki - Instytut Informatyki</name>
</affiliation>
<lang>pl</lang>
<publication-date>2000</publicationdate>
<is>popular-science-book</is>
<system-identifier>xyz42</systemidentifier>
<publisher-name>WNT</publisher-name>
<publicationplace>Warszawa</publication-place>
</book>
Problemy w czasie
konwersji
●
●
●
●
Afiliacje spoza uczelni
Braki w danych (np. brak ISSN, braki ISBN,
etc.)
Identyfikacja autorów tylko po nazwiskach
Historia instytucji – podziały, przekształcenia
etc.
Słowniki – identyfikacja
osób
●
●
Identyfikacja osób i
jednostek w POLon.
Można wykorzystać
PESEL autora
POL-on
Artykuł
Autor
Instytucja
Czasopismo
Słowniki
●
●
Bazy bibliograficzne nie mają dostępu (stałego) do
PESELi
Przed importem przygotowywane są słowniki
identyfikatorów
–
●
●
API do pobierania identyfikatora osoby o danym PESEL
Instytucje – łatwo jest zestawić słownik ręcznie
(typowo – 5 do 10 pozycji)
Dostarczone słowniki są podstawą do
automatycznej akceptacji prac
Import
●
●
●
●
Proces realizowany przez interfejs WWW
Uprawnienie do importu – najlepiej rola w
systemie POL-on
Operator ładuje pliki
Wynik – raport importu, podsumowanie
problemów
●
Wykonywany periodycznie
●
Jeśli dane powtarzają się, to są ignorowane
Wyniki
●
●
●
Po imporcie – bezpośrednio – raport
–
zestawienie błędów
–
informacja o rekordach scalonych, pominiętych
etc.
Pełne przetworzenie (podłączenie do
jednostek/osób, etc.) - po 24 godzinach
Potwierdzenie (włączenie do bibliografii)
zależne od wyników
Problemy
●
Konflikty pomiędzy danymi z różnych
uczelni
●
Konflikty z pracami dodanymi bezpośrednio
●
Złożoność procesu deduplikacji
–
wykrywanie duplikatów przy niewielkich
błędach
–
scalanie duplikatów (w szczególności afiliacji)
Podsumowanie
●
●
Możliwe jest sprawne i niewielkim kosztem
zaimportowanie całości istniejącej
bibliografii do PBN
Proces jest zautomatyzowany, a
konieczność korekt ograniczona
Dziękuję za uwagę!
[email protected]
[email protected]