Metodyka gromadzenia Metadanych w projekcie INVISIP
Transkrypt
Metodyka gromadzenia Metadanych w projekcie INVISIP
Metodyka gromadzenia geometadanych w projekcie INVISIP Streszczenie W niniejszym artykule zaprezentowano fragment systemu przetwarzania metadanych zrealizowanego w projekcie INVSIP - Wizualizacja Informacji w Miejscowym Planowaniu Przestrzennym. (Information Visualisation for Site Planning), adres online: www.invisip.de. Projekt ten ustanowiony został w ramach V Ramowego Programu - Technologie Społeczeństwa Informacyjnego (Information Society Technologies Programme). Wstęp Realizacja projektu INVSIP ma na celu stworzenie międzynarodowego systemu wspomagania procesu planowania przestrzennego z uwzględnieniem lokalizacji i projektowania inwestycji. Osiągniecie tego celu jest możliwe poprzez zastosowanie nowoczesnych technik przechowywania i udostępniania metadanych o zasobach danych przestrzennych jak i tekstowych. Pozwoli to na usprawnienie procesu wyszukiwania potrzebnej, na danym etapie planowania, informacji dotyczącej aktualnie dostępnych geodanych jeszcze przed podjęciem decyzji o konieczności ich wykorzystania. Podstawowym narzędziem służącym do realizacji tak zdefiniowanego celu jest system MIS (Metadata Information System) - System Informacji o Metadanych. System ten będzie zarządzał informacjami (metadanymi) o geodanych i dokumentach. Dla użytkownika system jest udostępniony poprzez aplikację umieszczoną na stronie internetowej. Applet - Control Unit integruje scenariusze inwestycyjne (etapy inwestycji) z poszczególnymi narzędziami projektu wizualizującymi proces przeszukiwania informacji. Założenia Rozpoczęcie realizacji projektu poprzedziły ustalenia partnerów dotyczące przyjęcia określonych standardów metadanych. W zakresie gromadzenia metadanych dotyczących danych geograficznych 9 partnerów z 4 europejskich krajów jednoznacznie wskazało na przyjęcie projektu międzynarodowego standardu ISO 19115 "Geographic Information - Metadata". Prowadzone dyskusje na ten temat wśród partnerów potwierdziły, że europejskie normy w zakresie standaryzacji metadanych ze względu na zrezygnowanie z kontynuacji prac przez europejski CEN/TC 287 nie mogą być brane pod uwagę w projekcie zorientowanym do zastosowania w przyszłości. Ze względu na użytkowane w projekcie innego typu metadanych niż geograficzne, przyjęto, że metadane o informacji geograficznej określane będą mianem geometadane - GMD (Geographic MetaData). Natomiast drugi rodzaj metadanych wyróżnionych w projekcie - metadane dotyczące dokumentów tekstowych, przyjęto określać mianem metadane o dokumentach - DMD (Document MetaData). Zarówno standaryzacja DMD jak i metody wprowadzania tego typu metadanych stanowią osobne zagadnienie w stosunku do tematu niniejszego artykułu. W kolejnym etapie prac opracowano projekt systemu typu MIS (Metadata Information System) - Systemu Informacji o Metadanych. Z punktu widzenia funkcjonalności system możemy podzielić na 3 części: 1) wprowadzanie metadanych, 2) składowanie metadanych, 3) użytkowanie metadanych. Wyjaśnienia wymaga tutaj przyjęcie założenia odrębności wprowadzania danych od miejsca ich gromadzenia (składowania). Przyjęto założenie, że wprowadzanie danych powinno być realizowane przez producentów geodanych lub jednostki posiadające do nich bezpośredni dostęp. A więc takie operacje jak kompletowanie danych (nie zawsze są przecież w danej chwili wszystkie informacje dostępne) czy weryfikacja wprowadzonych danych jest przeprowadzana przez producenta geodanych. Jeśli chodzi zaś o użytkowanie metadanych to w projekcie przygotowano kilka niezależnych narzędzi przeznaczonych do wyszukiwania metadanych przez użytkownika. Przyjęcie rozproszonego wprowadzania danych wymagało opracowania odpowiedniej metodyki pozwalającej na realizację tego zadania. W takiej sytuacji kluczową kwestią było opracowanie rozwiązania, które charakteryzowałoby się takimi cechami jak: możliwość powszechnego stosowania, łatwość i prostota obsługi, elastyczna forma przekazywania danych do miejsca ich gromadzenia, zastosowanie uniwersalnego (otwartego) formatu danych. W wyniku analiz w/w zagadnień przyjęto następującą metodykę gromadzenia geometadanych. 1. Zastosowania lokalnych bazy danych, które będą służyły do wprowadzania geometadanych. Bazy te zainstalowane będą u producenta geodanych lub innych ośrodków posiadających geodane. 2. Jako standardu wymiany danych (eksportu geometadanych) użyto języka xml. 3. Ze względu na fakt ze dane xml są dobrze zdefiniowane (pliki dtd) ich import do wspólnej bazy danych nie nastręcza większych trudności. Zaproponowane rozwiązanie pozwala twórcom geodanych tworzyć niezależne od właściwego systemu własne bazy geometadanych. Przy eksporcie geometadanych do xml równocześnie automatycznie jest tworzony plik profilu geometadanych - XML DTD. Należy zauważyć, że dane te nie są ograniczone tylko do jednego odbiorcy. Ilość ośrodków gromadzących geometadane może być oczywiście większa. Nadesłane pliki xls importowane są następnie do Hurtowni Metadanych (MetaDataBase Warehouse). W bazie tej "spotykają się" geometadane (GMD) oraz metadane o dokumentach (DMD). Zastosowanie tej metodyki pozwala na osiągnięcie kilku korzyści. Na przykład raz wprowadzone geometadane są zawsze w bazie danych w miejscu ich wprowadzania. Stwarza to korzystną sytuację utrzymywania (korekcji i aktualizacji) zasobu geometadanych przez producenta geodanych. Wyeksportowanie i przesłanie plików xml, choćby emailem, nie nastręcza wielkich trudności nawet dla przeciętnego użytkownika komputera. Zastosowanie tej metody pozwala na łatwe przyłączanie kolejnych dostawców geometadanych. Aktualizacja hurtowni metadanych jest wykonywana w zależności od decyzji administratora bazy. Może on wykonywać tą czynność w okresach, kiedy hurtownia nie jest obciążona użytkownikami korzystającymi z jej zasobów. Oprogramowanie Od strony technicznej zagadnienie gromadzenia geometadanych rozwiązano poprzez opracowanie oprogramowania InGeo EntryTool. Jest to aplikacja napisana w VisualBasicu, która podczas pracy generuje bazę danych w formacie Microsoft Access. Oczywiście do jej użycia wymagane jest zainstalowanie wcześniej bazy danych Microsoft Access. Wygenerowana przez InGeo EntryTool baza geometadanych jest oczywiście "formatowana", czyli zostaje wypełniona predefiniowanymi pustymi tabelami. Użytkownik może założyć dowolną ilość baz geometadanych. Jednak nazwa takiej bazy musi składać się z dwóch części - obligatoryjnej InGeoLight oraz użytkownika np. Ośrodek. W efekcie powstaje nazwa pliku InGeoLightOśrodek.mdb. Wiele plików bazy danych pozwala na lepsze zarządzanie wprowadzaniem danych i kontrolę danych. Umieszczenie plików bazy danych na serwerze plików pozwala na pracę nad plikiem przez różne osoby. Można wprowadzić specjalizację użytkowników wpisujących geometadane. Testy oprogramowania wskazały jednak na pewne niedoskonałości tego rozwiązania. Okazało się, że część danych, które powinny być identyczne w kilku bazach geometadanych (np. adres dostawcy geodanych) zawierały pewne różnice - choć powinny być identyczne. W najnowszej wersji rozwiązano ten problem poprzez dołożenie do wersji instalacyjnej aplikacji dodatkowej bazy - "address template.mdb". Jest to baza adresów firm dostarczających geodane. W tej chwili do pliku geometadanych nie można wpisać ręcznie adresu dostawcy danych, można jedynie go skopiować z bazy address template a dodanie nowego adresu dodaje adres tylko i wyłącznie do bazy adresów. Po zakończeniu wprowadzania, geometadane są eksportowane do plików w formacie XML oraz generowany jest plik DTD. Pliki te stanowią produkt wyjściowy wprowadzania danych. Oczywiście eksport geometadanych stanowi okazję dla aplikacji sprawdzenia kompletności danych - niekompletne zestawy geometadanych nie mogą zostać wyeksportowane. Program do wprowadzania geometadanych może być zainstalowany u dowolnej ilości klientów. Wyprodukowane przez nich geometadane są, bowiem przesyłane do określonej hurtowni metadanych gdzie następuje weryfikacja geometadanych pochodzących od różnych dostawców. Walory użytkowe oprogramowania Program InGeo EntryTool został napisany na zlecenie konsorcjum INVISIP przez firmę GIS-tec (http://www.gistec-online.com). Na rysunku 1 przedstawiono okno tego programu uwidaczniające podstawowe części składowe interfejsu aplikacji. Rys. 1. Główne okno aplikacji InGeoEntry Tool Okno Record list Box przedstawia nazwy zestawów rekordów poszczególnych geometadanych wpisanych do bazy. Jedna nazwa identyfikuje jedną geometadaną (rekord). W drugim oknie położonym poniżej widać poszczególne elementy rekordu. Dostęp do grup elementów zorganizowany został na zasadzie drzewa katalogów. Podział elementów został dokonany przy uwzględnieniu 2 czynników: zestawienia elementów danych logiczne między sobą powiązanych oraz występowanie tych elemntów w jednym oknie widokowym aplikacji. I tak na przykład węzeł About posiada pięć elementów danych, z których 4 (koloru czerwonego) są obligatoryjne a jeden - niebieski jest elementem nie obowiązkowym. Węzeł About jest reprezentowany przez okno aplikacji o nazwie Describing the Metadata. Zorganizowany w ten sposób dostęp do poszczególnych elementów ułatwia wprowadzanie danych a wizualizacja stanu danego elementu pozwala na dość łatwą orientację w ilości pracy pozostałej do wykonania. W aplikacji zastosowano dość dużą ilość list wyboru oraz przejrzysty interfejs. Dzięki temu uzyskano stosunkowo wysoki komfort pracy. Ciekawym narzędziem jest wizualna kontrola kompletności wprowadzonych danych. Przed wyeksportowaniem geometadanych do postaci xml użytkownik poprzez użycie opcji histogram może sprawdzić ich kompletność (Rys. 2.). Rys. 2 Histogram kompletności danych Pojawiające się czarne słupki histogramu oznaczają niekompletność danych w zakresie elementów obligatoryjnych. Taki rekord oczywiście nie może zostać wyeksportowany. Poprawny rekord po wyeksportowaniu go pliku xls może zostać wysłany do odbiorcy. Ważną kwestią przesyłania danych jest fakt, że nie są one "zamknięte" w jakimś binarnym, obcym formacie dla użytkownika jak i dla odbiorcy. Dane po wyeksportowaniu są łatwe do przeglądnięcia - wystarczy przeglądarka internetowa (Rys. 3.). Możliwość ta stwarza dodatkową okazję do kontroli danych i eliminacji błędów. Rys. 3. Zawartość przykładowego pliku metadanych.xml Podsumowanie Prezentowany program nie jest jeszcze w obecnej chwili produktem komercyjnym. W trakcie realizacji projektu jest on w dalszym ciągu rozbudowywany, modernizowany i testowany. W pierwszym etapie osiągnięto cel, jakim było zaimplementowanie obsługi wprowadzania podstawowych elementów metadanych (core metadata elements), które są niezbędne do opisu metadanej. Obecnie lista dostępnych do wpisania elementów sukcesywnie rośnie. Zaimplementowana hierarchia jak na razie nie pozwala na odwzorowanie więcej niż 1 relacji. Jednak już w tej formie aplikacja może stanowić dobry przykład oderwania potocznego wyobrażenia użytkowników na temat metadanych, które głównie kojarzy się z mozolnym wypełnianiem tabelek, na rzecz komfortowych warunków pracy w środowisku graficznym.