MPEG-7 – standard informacji multimedialnej
Transkrypt
MPEG-7 – standard informacji multimedialnej
V Konferencja PLOUG Zakopane Październik 1999 MPEG-7 - standard informacji multimedialnej Czesław Jędrzejek e-mail: [email protected] Instytut Telekomunikacji, Akademia Techniczno-Rolnicza, Bydgoszcz oraz Instytut Technik Telekomunikacyjnych i Informatycznych, Poznań Streszczenie Multimedialność w odniesieniu do baz danych występuje w kilku znaczeniach: • płytkim przez występowanie danych w formie obrazu, dźwięku i wideo. Odwołanie nie następuje przez zawartość (content), a przez plik binarny (BLOB). Schemat bazy jest relacyjny, • odwoływanie do bazy danych następuje nie poprzez tekstowe słowo kluczowe, ale poprzez elementy zawartości, • najbardziej ogólnym: obiekty multimedialne są zsynchronizowane • połączenie z bazą danych następuje poprzez skrypty współpracujące z WWW. Powstający standard ISO MPEG-7 „Multimedia Content Description Interface” zunifikuje: formę informacji, deskryptory i ich schematy oraz Data Definition Language. Zastosowania obejmą: wyszukiwanie, zarządzanie, przetwarzanie i archiwizowanie informacji multimedialnej. Wstęp W chwili obecnej, gdy zalewa nas zwiększająca się masa informacji różnego typu coraz większe znaczenie zdobywają metody zarządzania takimi informacjami. Większość dotychczasowych rozwiązań bazuje na technice etykietowania przechowywanych informacji. Jednak cała procedura etykietowania jest dość pracochłonna, i wymaga zatrudnienia ludzi, którzy będą „wymyślali” etykiety dla poszczególnych informacji. Takie rozwiązania nie oddają rzeczywistych podobieństw przechowywanych informacji i powodują nieporozumienia podczas wyszukiwania według takich etykiet. Jedynym słusznym rozwiązaniem jest danie użytkownikowi możliwości wyszukiwania informacji bazującej na faktycznej zawartości bazy danych, a nie tylko na opisach tych informacji. Całe zagadnienie jest niezwykle trudne i pracochłonne, ponieważ należy opracować kryteria podobieństw informacji zależnych od jej typu. Nie można opierać się - jak to jest możliwe w stosowanych dotychczas rozwiązaniach - na binarnej reprezentacji informacji. Dwie zupełnie różne (binarnie) informacje mogą się okazać zdjęciami tej samej osoby wykonanymi tylko w innej scenerii. Nadawanie sekwencjom wideo opisów słownych, czyli tworzenie bazy obrazów indeksowanej tekstem ma następujące wady: 1. nie pozwala wyszukiwać wykorzystując własności wizualnych obrazu 2. wyniki są zależne od użytego słownictwa 3. nie pozwala na wyszukiwanie podobnych obrazów. Ważne jest też opracowanie bardzo wydajnych algorytmów, które by umożliwiały możliwie szybkie określenie stopnia podobieństwa dwóch informacji tego samego typu, aby czas wyszukiwania zadanej przez użytkownika informacji z często kilku-gigabajtowej bazy danych był dla niego zadawalający. Należy też rozwiązać sposób reprezentowania informacji w bazie danych. Dotychczas wszystkie informacje niestandardowych typów (obrazy, dźwięki, filmy, itp.) były przechowywane w polach binarnych, które nic nie mówiły o rodzaju przechowywanej informacji. Wydaje się tu rozsądne wprowadzenie większej liczby typów standardowych do przechowywania podstawowych informacji multimedialnych, a także pozostawienia projektantowi (użytkownikowi) możliwości definiowania własnych typów danych i funkcji podobieństwa dla tych typów co da bardzo dużą elastyczność i możliwość rozbudowy. Należy także się liczyć z kosztami przechowywania informacji w formie cyfrowej, które czasem są droższe niż analogowe, a w dodatku bardzo dużo informacji jest w tej chwili dostępne tylko w formie analogowej, a proces ich digitalizacji może być bardzo kosztowny, tak więc istnieje potrzeba rozwiązania problemu wyszukiwania informacji w zbiorach analogowych. Coraz większe możliwości daje obecnie Internet, a w szczególności WWW. Należy więc zapewnić możliwość udostępniania składowanych informacji przez Internet. Użytkownicy sieci WWW mają coraz większe wymagania jeśli chodzi o wrażenia audio-wizualne. Informacja multimedialna Multimedialność w odniesieniu do baz danych występuje w kilku znaczeniach: 1. płytkim przez występowanie danych w formie obrazu, dźwięku i wideo. Odwołanie nie następuje przez zawartość (content), a przez zwykły plik binarny (tzw. BLOB). Schemat bazy jest relacyjny, 2. odwoływanie do bazy danych następuje nie tylko poprzez tekstowe słowo kluczowe, ale także poprzez elementy zawartości, 2 3. najbardziej ogólnym: obiekty multimedialne są zsynchronizowane (istnieją między nimi zależności czasowe) oraz istnieje interakcja użytkownika ze scenariuszem (poprzez start, stop, pauzę, cofnięcie (wstecz) i przegląd) 4. połączenie z bazą danych następuje poprzez skrypty współpracujące z WWW (np. CGI). Multimedialne bazy danych na ogół wiążą się z obiektowością. Do tej pory obiektowe bazy danych stanowiły zaledwie kilka procent całego rynku bazy danych. Jednak nowe zastosowania wymuszają wprowadzanie obiektowych, lub relacyjno-obiektowych baz danych. Tendencją obserwowaną obecnie na rynku jest stopniowe przechodzenie materiałów np. książek z postaci papierowej na postać cyfrową. Np. jedna z największych firm Schuster & Schuster (o sprzedaży znacznie ponad 2 mld USD), (ulokowana w Nowym Yorku, USA) planuje zwiększyć udział dochodów z wydawnictw elektronicznych (materiałów na CDROM-ach, płyty wideo, wkrótce DVD, i materiałów on-line) z 25% do 50% w roku 2000. Sam oddział dotyczący edukacji na poziomie szkół wyższych Higher Education Division (o sprzedaży 500 mln USD) wykorzystuje w podręcznikach i CD-ROM-ach ponad 100 000 fotografii i ilustracji. Przejście na postać cyfrową wiąże się z kilkoma etapami: pozyskiwaniem materiałów, obróbką (przetwarzanie obrazu i dźwięku), indeksowaniem materiału multimedialnego (oraz rozliczaniem własności intelektualnej) i ich archiwizacją. Wiele operacji łącznie z archiwizacją mogłoby być przeprowadzonych o wiele bardziej wydajnie gdyby opanować technologię multimedialnych baz danych. Mimo to wiodące firmy w dziedzinie mediów (Time-Warner, McGraw Hill, wydawca Business Week), firmy w dziedzinie reklamy, oraz korporacje jak General Motors i Amway budują cyfrowe archiwa swoich materiałów promocyjnych, aby ułatwić pracę swoim projektantom oraz firmom współpracującym. Obecny sposób pozyskiwania fotografii jest bardzo uciążliwy. Trzeba przeglądnąć oddzielnie archiwa agencji fotograficznych. Po zwróceniu się o udostępnienie, wykonuje się odbitki w koszcie 75 USD za sztukę. Na ogół dla różnych aplikacji trzeba wykonać oddzielne formatowanie. W przypadku archiwum cyfrowego można dotrzeć do każdego przechowywanego materiału. Proces przeszukiwania jest najważniejszy w całym procesie. Jest to poważny problem nawet przy przeszukiwaniu tekstowym. Często podanie hasła w wyszukiwarce WWW przynosi kilkadziesiąt bezużytecznych stron. Typowe jest, że wśród pierwszych z nich często nie ma np. strony domowej poszukiwanej firmy. Fotografie jest trudno scharakteryzować na podstawie wyrazów hasłowych. Podobne problemy występują w przypadku materiałów dźwiękowych. Komputery nie rozpoznają w prosty sposób wyrazu twarzy człowieka czy otoczenia. Standardowa procedura polega na zleceniu przeglądnięcia zdjęcia lub przesłuchania nagrania i zapisaniu nagłówków opisujących podstawowe atrybuty. W USA powszechnie nagrywa się programy TV lub materiał na CD-ROM-ach w wersji z podpisami (closed captioned) dla głuchoniemych, podobnie jak polskiej TV, nieliczne programy (filmy) zawierają okno w którym dokonywany jest przekład na język migowy. Bardzo trudno jest jednak znaleźć zdjęcie do wyrazów hasłowych reprezentujących stany lub uczucia. Rozwiązaniem jest zadawanie pytań (query) w języku naturalnym i poszukiwaniu podobnych znaczeń także kontekstowych. Oracle Corp. i SRA International Inc. wprowadziły na rynek oprogramowanie oparte na lingwistyce i sztucznej inteligencji. W USA istnieje kilka mniejszych firm np. Cycorp z Austin oraz Natural Language Systems z Syracuse, które korzystają z tysięcy reguł semantycznych i syntaktycznych klasyfikacji znaczenia. W ten 3 sposób hasło broń umożliwi znalezienie zdjęcia z występującym na nim czołgiem. Istnieją inne sposoby klasyfikacji zdjęć po występujących kształtach i po kolorze. Takie produkty posiada m.in. IBM (program QBIC, Query By Image Content) i Virage Inc., VIR Image Engine. Oba systemy dokonują pomiaru statystyk kolorów w zdjęciu oraz rozpoznają układ oraz charakterystyczne kształty. Komputer może jednak zamiast czerwonej róży na białym tle znaleźć flagę Japonii. Dlatego używa się technik komplementarnych. Gdy zdjęcie zostanie wybrane, archiwum przekazuje je do dalszej obróbki (właściwy rozmiar i rozdzielczość, duża do książek, niska do Internetu). System sam rozsyła obrazy oraz dodatkowe dokumenty np. formularze z kontraktami dotyczących praw autorskich oraz dodaje do obrazów cyfrowe znaki wodne, watermarks. Znaki te są niewidoczne (nie powodują pogorszenia jakości obrazu). Proste przetwarzanie obrazu np. filtrowanie, zmiana skali nie usuwają znaku. Właściciel może je odzyskać dysponując tylko sobie znanym kodem, w przypadku podejrzenia o plagiat. Podane przykłady ilustrują tylko możliwości tkwiące w wykorzystaniu zestrukturyzowanej i indeksowanej po zawartości informacji multimedialnej. 1. Szerokie obszary zastosowań informacji multimedialnej to: 2. Edukacja 3. Dziennikarstwo (np. wyszukiwanie przemówień polityków na podstawie głosu lub twarzy) 4. Kultura (muzea, galerie itp.) 5. Telemedycyna i aplikacje biomedyczne 6. Informacja turystyczna 7. Rozrywka (np. wyszukiwanie gier) 8. Działania śledcze i detektywistyczne (rozpoznawanie ludzi) 9. Systemy informacji geograficznej 10. Obrazy satelitarne 11. Śledzenie (kontrola ruchu, kontrola produkcji) 12. Architektura, agencje mieszkaniowe 13. Archiwa filmu, wideo i dźwięku Reprezentacja i standaryzacja danych multimedialnych Problem reprezentacji i standaryzacji danych multimedialnych jest niezwykle złożony. Zajmuje się nim wiele organizacji standaryzacyjnych, na różnych poziomach. ISO/IEC SC32-Data Management and Interchange, Komitet zajmujący się wymianą danych i ich zarządzaniem dąży do ujednolicenia i harmonizacji wysiłku w następującym zakresie: 1. Modele odniesienia i ramy dla istniejących i przyszłych standardów 2. Definicje dziedzin danych oraz struktur i typów danych, a także ich semantyki 3. Języki, usługi i protokoły do archiwizowania, współzbieżnego dostępu, aktualizacji i wymiany danych 4. Metody, języki, usługi i protokoły do strukturyzacji i organizacji metadanych oraz inne środki związane z wykorzystaniem wzajemnym i interoperacyjnością danych, włączając handel elektroniczny. W szczególności, SQL Multimedia (SQL/MM) [1] zamierza dokonać specyfikacji abstrakcyjnych typów danych (ADT) w ramach SQL3 oraz zestandaryzować biblioteki klas dla potrzeb przetwarzania pełnotekstowego i dokumentów oraz metody do 4 zarządzania obiektami multimedialnymi takimi jak obraz , dźwięk, animacja , muzyka i wideo. Celem są także dowiązania do SQL obiektów zdefiniowanych przez inne komitety standaryzacyjne ISO (np. SC18 dla dokumentów, SC24 dla obrazów i SC29 dla fotografii i wideo). Generalnie prace nad SQL/MM postępują wolno – rozpoczęły się w 1993 r. i ciągle są na poziomie edycji FCD (Final Committee Draft). Jest to odzwierciedlenie wolnego postępu prac nad SQL3 w ogólności. Przy standaryzacji danych multimedialnych możnaby skorzystać z doświadczeń w zbliżonych dziedzinach [2] np. standaryzacji danych geograficznych. Komitet ISO/TC211 i konsorcjum Open GIS połączyło swoje wysiłki w celu przygotowaniu standardu 15046 Geographic Information części 1-19 wraz z dodatkowymi standardami 15854, 16569, 16822, 17753 i 17754. Standard ten definiuje schemat SQL dla celów archiwizacji, odtwarzania, zapytań i aktualizacji danych geograficznych. Tablice cech są zgodne z dwoma docelowymi środowiskami: SQL92 i SQL92 with Geometry Types. W standardach tych używane są obiektowe modele danych geograficznych i ponieważ głównymi firmami popierającymi te standardy są ESRI Inc., IBM, Informix, MapInfo i Oracle należy spodziewać się szybkiej implementacji. Dla danych multimedialnych istnieją rozwiązania firmowe. W przypadku Oracle istnieją narzędzia autorskie do kreacji aplikacji interaktywnych, obecnie interMedia pod Oracle8i, poprzednio Oracle Media Objects. Są one kluczowe dla działania Oracle Video Server obecnie w wersji 3.1 stanowiącego podstawową platformę do wdrażania usług interaktywnych w tym Video-on-Demand, w skrócie VoD (wideo-na-żądanie). Oracle brał udział w dwu z trzech wczesnych prób z VoD w latach 1994-96 (z Bell Atlantic i British Telecom), które wykazały całkowitą nieopłacalność ekonomiczną takich usług. Obecnie jednak w wyniku rozwoju wideoserwerów, przystawek, interaktywnych sieci kablowych, oraz szybkiego spadku cen komputerów VoD staje się atrakcyjną usługą. Jednym w najbardziej zaawansowanych opracowań schematu obiektowego informacji multimedialnej była baza Illustra, obecnie występująca w postaci modułów (blades) produktu Dynamic Server z Universal Data Option, bazy relacyjno-obiektowej firmy Informix, która nie osiągnęła jednak powodzenia rynkowego. MPEG-7 MPEG-7 jest inicjatywą Komitetu ISO/IEC SC29 WG11, którzy poprzednio zestandaryzował MPEG-1, MPEG-2 i obecnie kończy standaryzację MPEG-4. Standard MPEG jest jednym z największych sukcesów ISO w dziedzinie techniki cyfrowej. Powstający standard ISO MPEG-7 „Multimedia Content Description Interface” zunifikuje: formę informacji, deskryptory i ich schematy oraz Data Definition Language. Zastosowania obejmą: wyszukiwanie, zarządzanie, przetwarzanie i archiwizowanie informacji multimedialnej. Uczestnicy w procesie standaryzacji pochodzą ze środowisk techniki wizyjnej, grafiki komputerowej i przetwarzania sieciowego, a nie baz danych co nie stanowi dobrych perspektyw na przyszłość. Większość patentów dla algorytmów obiektowego reprezentacji informacji multimedialnej należy do IBM i zostały one stworzone przy opracowaniu systemu QBIC. 5 Choć na najwyższym poziomie podejście MPEG-7 używa zunifikowanego języka do modelowania UML (Unified Modeling Language) [3], Rys. 1, nie jest ono sformułowane obiektowo. Język Definicji Deskryptorów 1..* 1..* definiuje 0..* Element audiowizualny Schemat Deskryptorów * 1..* 1..* Deskryptor opisuje oznacza Dane Cecha *..1 1..* do Człowieka albo Systemu Rys. 1: Reprezentacja UML możliwych związków pomiędzy Ds and DSs. Autorzy koncentrują się na podejściu funkcjonalnym, Rys. 2 [4]. 6 Materiał multimedialny Tworzenie Deskryptorów Opis MPEG-7 Koder Język Definicji Deskryptorów (DDL) System przetwarzania danych Schematy Deskryptorów (DS) Deskryptory (D) Deskryptory zakodowane w MPEG-7 Filtry, Agenty Wyszukiwarka Dekoder Rys. 2: Abstrakcyjna reprezentacja możliwych aplikacji przy użyciu MPEG-7. Podstawowymi pojęciami są cecha i deskryptor. W przypadku obiektu geometrycznego cecha to np. kształt i tekstura. Deskryptorami może być zbiór współczynników DCT lub falkowych. Niestety w ogóle nie wystepuje pojęcie obiektu i atrybutu, ponieważ nie zdecydowano się jeszcze na skorzystanie ze znanych rozwiazań modelowania obiektowego. Na tym etapie patentuje się algorytmy wchodzące w skład Języka Definicji Deskryptorów (Description Definition Language). Ceną za kompletny brak związku z istniejącymi standardami SQL i schematami obiektowych baz danych może być odrzucenie standardu. Praca częściowo wykonana w ramach grantu KBN 8T11E035 10. Referencje [1] SQL Multimedia (SQL/MM), http://www.jcc.com/SQLPages [2] Unified Modeling Language, http://www.rational.com/uml/resources/documentation [2] ISO/TC211 Geographic Information/Geomatics, Scope, http://www.statkart.no/isotc21 [4] F. Pereira, MPEG-7 requirements Document V.9, ISO/IEC SC29/WG11 N2859, lipiec 1999, Vancouver 7