Metodyka gromadzenia Metadanych w projekcie INVISIP

Transkrypt

Metodyka gromadzenia Metadanych w projekcie INVISIP
Metodyka gromadzenia geometadanych w projekcie INVISIP
Streszczenie
W niniejszym artykule zaprezentowano fragment systemu przetwarzania metadanych
zrealizowanego w projekcie INVSIP - Wizualizacja Informacji w Miejscowym Planowaniu
Przestrzennym. (Information Visualisation for Site Planning), adres online: www.invisip.de.
Projekt ten ustanowiony został w ramach V Ramowego Programu - Technologie Społeczeństwa
Informacyjnego (Information Society Technologies Programme).
Wstęp
Realizacja projektu INVSIP ma na celu stworzenie międzynarodowego systemu
wspomagania procesu planowania przestrzennego z uwzględnieniem lokalizacji i projektowania
inwestycji. Osiągniecie tego celu jest możliwe poprzez zastosowanie nowoczesnych technik
przechowywania i udostępniania metadanych o zasobach danych przestrzennych jak i tekstowych.
Pozwoli to na usprawnienie procesu wyszukiwania potrzebnej, na danym etapie planowania,
informacji dotyczącej aktualnie dostępnych geodanych jeszcze przed podjęciem decyzji o
konieczności ich wykorzystania.
Podstawowym narzędziem służącym do realizacji tak zdefiniowanego celu jest system MIS
(Metadata Information System) - System Informacji o Metadanych. System ten będzie zarządzał
informacjami (metadanymi) o geodanych i dokumentach. Dla użytkownika system jest
udostępniony poprzez aplikację umieszczoną na stronie internetowej. Applet - Control Unit
integruje scenariusze inwestycyjne (etapy inwestycji) z poszczególnymi narzędziami projektu
wizualizującymi proces przeszukiwania informacji.
Założenia
Rozpoczęcie realizacji projektu poprzedziły ustalenia partnerów dotyczące przyjęcia
określonych standardów metadanych. W zakresie gromadzenia metadanych dotyczących danych
geograficznych 9 partnerów z 4 europejskich krajów jednoznacznie wskazało na przyjęcie projektu
międzynarodowego standardu ISO 19115 "Geographic Information - Metadata". Prowadzone
dyskusje na ten temat wśród partnerów potwierdziły, że europejskie normy w zakresie
standaryzacji metadanych ze względu na zrezygnowanie z kontynuacji prac przez europejski
CEN/TC 287 nie mogą być brane pod uwagę w projekcie zorientowanym do zastosowania w
przyszłości.
Ze względu na użytkowane w projekcie innego typu metadanych niż geograficzne,
przyjęto, że metadane o informacji geograficznej określane będą mianem geometadane - GMD
(Geographic MetaData). Natomiast drugi rodzaj metadanych wyróżnionych w projekcie - metadane
dotyczące dokumentów tekstowych, przyjęto określać mianem metadane o dokumentach - DMD
(Document MetaData). Zarówno standaryzacja DMD jak i metody wprowadzania tego typu
metadanych stanowią osobne zagadnienie w stosunku do tematu niniejszego artykułu.
W kolejnym etapie prac opracowano projekt systemu typu MIS (Metadata Information
System) - Systemu Informacji o Metadanych. Z punktu widzenia funkcjonalności system możemy
podzielić na 3 części:
1) wprowadzanie metadanych,
2) składowanie metadanych,
3) użytkowanie metadanych.
Wyjaśnienia wymaga tutaj przyjęcie założenia odrębności wprowadzania danych od
miejsca ich gromadzenia (składowania). Przyjęto założenie, że wprowadzanie danych powinno być
realizowane przez producentów geodanych lub jednostki posiadające do nich bezpośredni dostęp.
A więc takie operacje jak kompletowanie danych (nie zawsze są przecież w danej chwili wszystkie
informacje dostępne) czy weryfikacja wprowadzonych danych jest przeprowadzana przez
producenta geodanych. Jeśli chodzi zaś o użytkowanie metadanych to w projekcie przygotowano
kilka niezależnych narzędzi przeznaczonych do wyszukiwania metadanych przez użytkownika.
Przyjęcie rozproszonego wprowadzania danych wymagało opracowania odpowiedniej
metodyki pozwalającej na realizację tego zadania. W takiej sytuacji kluczową kwestią było
opracowanie rozwiązania, które charakteryzowałoby się takimi cechami jak: możliwość
powszechnego stosowania, łatwość i prostota obsługi, elastyczna forma przekazywania danych do
miejsca ich gromadzenia, zastosowanie uniwersalnego (otwartego) formatu danych.
W wyniku analiz w/w zagadnień przyjęto następującą metodykę gromadzenia
geometadanych.
1. Zastosowania lokalnych bazy danych, które będą służyły do wprowadzania
geometadanych. Bazy te zainstalowane będą u producenta geodanych lub innych
ośrodków posiadających geodane.
2. Jako standardu wymiany danych (eksportu geometadanych) użyto języka xml.
3. Ze względu na fakt ze dane xml są dobrze zdefiniowane (pliki dtd) ich import do
wspólnej bazy danych nie nastręcza większych trudności.
Zaproponowane rozwiązanie pozwala twórcom geodanych tworzyć niezależne od
właściwego systemu własne bazy geometadanych. Przy eksporcie geometadanych do xml
równocześnie automatycznie jest tworzony plik profilu geometadanych - XML DTD. Należy
zauważyć, że dane te nie są ograniczone tylko do jednego odbiorcy. Ilość ośrodków gromadzących
geometadane może być oczywiście większa. Nadesłane pliki xls importowane są następnie do
Hurtowni Metadanych (MetaDataBase Warehouse). W bazie tej "spotykają się" geometadane
(GMD) oraz metadane o dokumentach (DMD).
Zastosowanie tej metodyki pozwala na osiągnięcie kilku korzyści. Na przykład raz
wprowadzone geometadane są zawsze w bazie danych w miejscu ich wprowadzania. Stwarza to
korzystną sytuację utrzymywania (korekcji i aktualizacji) zasobu geometadanych przez producenta
geodanych. Wyeksportowanie i przesłanie plików xml, choćby emailem, nie nastręcza wielkich
trudności nawet dla przeciętnego użytkownika komputera. Zastosowanie tej metody pozwala na
łatwe przyłączanie kolejnych dostawców geometadanych. Aktualizacja hurtowni metadanych jest
wykonywana w zależności od decyzji administratora bazy. Może on wykonywać tą czynność w
okresach, kiedy hurtownia nie jest obciążona użytkownikami korzystającymi z jej zasobów.
Oprogramowanie
Od strony technicznej zagadnienie gromadzenia geometadanych rozwiązano poprzez
opracowanie oprogramowania InGeo EntryTool. Jest to aplikacja napisana w VisualBasicu, która
podczas pracy generuje bazę danych w formacie Microsoft Access. Oczywiście do jej użycia
wymagane jest zainstalowanie wcześniej bazy danych Microsoft Access. Wygenerowana przez
InGeo EntryTool baza geometadanych jest oczywiście "formatowana", czyli zostaje wypełniona
predefiniowanymi pustymi tabelami. Użytkownik może założyć dowolną ilość baz geometadanych.
Jednak nazwa takiej bazy musi składać się z dwóch części - obligatoryjnej InGeoLight oraz
użytkownika np. Ośrodek. W efekcie powstaje nazwa pliku InGeoLightOśrodek.mdb. Wiele plików
bazy danych pozwala na lepsze zarządzanie wprowadzaniem danych i kontrolę danych.
Umieszczenie plików bazy danych na serwerze plików pozwala na pracę nad plikiem przez różne
osoby. Można wprowadzić specjalizację użytkowników wpisujących geometadane.
Testy oprogramowania wskazały jednak na pewne niedoskonałości tego rozwiązania.
Okazało się, że część danych, które powinny być identyczne w kilku bazach geometadanych (np.
adres dostawcy geodanych) zawierały pewne różnice - choć powinny być identyczne.
W najnowszej wersji rozwiązano ten problem poprzez dołożenie do wersji instalacyjnej
aplikacji dodatkowej bazy - "address template.mdb". Jest to baza adresów firm dostarczających
geodane. W tej chwili do pliku geometadanych nie można wpisać ręcznie adresu dostawcy danych,
można jedynie go skopiować z bazy address template a dodanie nowego adresu dodaje adres tylko i
wyłącznie do bazy adresów.
Po zakończeniu wprowadzania, geometadane są eksportowane do plików w formacie XML
oraz generowany jest plik DTD. Pliki te stanowią produkt wyjściowy wprowadzania danych.
Oczywiście eksport geometadanych stanowi okazję dla aplikacji sprawdzenia kompletności danych
- niekompletne zestawy geometadanych nie mogą zostać wyeksportowane.
Program do wprowadzania geometadanych może być zainstalowany u dowolnej ilości
klientów. Wyprodukowane przez nich geometadane są, bowiem przesyłane do określonej hurtowni
metadanych gdzie następuje weryfikacja geometadanych pochodzących od różnych dostawców.
Walory użytkowe oprogramowania
Program InGeo EntryTool został napisany na zlecenie konsorcjum INVISIP przez firmę
GIS-tec (http://www.gistec-online.com). Na rysunku 1 przedstawiono okno tego programu
uwidaczniające podstawowe części składowe interfejsu aplikacji.
Rys. 1. Główne okno aplikacji InGeoEntry Tool
Okno Record list Box przedstawia nazwy zestawów rekordów poszczególnych
geometadanych wpisanych do bazy. Jedna nazwa identyfikuje jedną geometadaną (rekord). W
drugim oknie położonym poniżej widać poszczególne elementy rekordu. Dostęp do grup
elementów zorganizowany został na zasadzie drzewa katalogów.
Podział elementów został dokonany przy uwzględnieniu 2 czynników: zestawienia
elementów danych logiczne między sobą powiązanych oraz występowanie tych elemntów w
jednym oknie widokowym aplikacji. I tak na przykład węzeł About posiada pięć elementów
danych, z których 4 (koloru czerwonego) są obligatoryjne a jeden - niebieski jest elementem nie
obowiązkowym. Węzeł About jest reprezentowany przez okno aplikacji o nazwie Describing the
Metadata.
Zorganizowany w ten sposób dostęp do poszczególnych elementów ułatwia wprowadzanie
danych a wizualizacja stanu danego elementu pozwala na dość łatwą orientację w ilości pracy
pozostałej do wykonania. W aplikacji zastosowano dość dużą ilość list wyboru oraz przejrzysty
interfejs. Dzięki temu uzyskano stosunkowo wysoki komfort pracy.
Ciekawym narzędziem jest wizualna kontrola kompletności wprowadzonych danych. Przed
wyeksportowaniem geometadanych do postaci xml użytkownik poprzez użycie opcji histogram
może sprawdzić ich kompletność (Rys. 2.).
Rys. 2 Histogram kompletności danych
Pojawiające się czarne słupki histogramu oznaczają niekompletność danych w zakresie
elementów obligatoryjnych. Taki rekord oczywiście nie może zostać wyeksportowany.
Poprawny rekord po wyeksportowaniu go pliku xls może zostać wysłany do odbiorcy.
Ważną kwestią przesyłania danych jest fakt, że nie są one "zamknięte" w jakimś binarnym, obcym
formacie dla użytkownika jak i dla odbiorcy. Dane po wyeksportowaniu są łatwe do przeglądnięcia
- wystarczy przeglądarka internetowa (Rys. 3.). Możliwość ta stwarza dodatkową okazję do
kontroli danych i eliminacji błędów.
Rys. 3. Zawartość przykładowego pliku metadanych.xml
Podsumowanie
Prezentowany program nie jest jeszcze w obecnej chwili produktem komercyjnym. W
trakcie realizacji projektu jest on w dalszym ciągu rozbudowywany, modernizowany i testowany.
W pierwszym etapie osiągnięto cel, jakim było zaimplementowanie obsługi wprowadzania
podstawowych elementów metadanych (core metadata elements), które są niezbędne do opisu
metadanej. Obecnie lista dostępnych do wpisania elementów sukcesywnie rośnie.
Zaimplementowana hierarchia jak na razie nie pozwala na odwzorowanie więcej niż 1 relacji.
Jednak już w tej formie aplikacja może stanowić dobry przykład oderwania potocznego
wyobrażenia użytkowników na temat metadanych, które głównie kojarzy się z mozolnym
wypełnianiem tabelek, na rzecz komfortowych warunków pracy w środowisku graficznym.