Sieć Semantyczna i Ontologie
Transkrypt
Sieć Semantyczna i Ontologie
Sieć Semantyczna i Ontologie dr inż. Tomasz Boiński Tomasz Boiński: 1 Sieć Semantyczna • projekt, który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w Internecie w sposób, który umożliwi maszynom i programom przetwarzanie informacji w sposób odpowiedni do ich znaczenia • Semantic Web jest wizją Tima Bernersa-Lee (twórcy standardu WWW i pierwszej przeglądarki internetowej, a także przewodniczącego W3C). W swoich założeniach Semantic Web ma korzystać z istniejącego protokołu komunikacyjnego, na którym bazuje dzisiejszy Internet. Różnica miałaby polegać na tym, że przesyłane dane mogłyby być 'rozumiane' także przez maszyny. Owo 'rozumienie' polegałoby na tym, że dane przekazywane byłyby w postaci, w której można by powiązać ich znaczenia między sobą a także w ramach odpowiedniego kontekstu. Tomasz Boiński: 2 Sieć Semantyczna • Informacje przekazywane w ramach Semantic Web wymagałyby nie tylko samych danych, ale także informacji o tychże (tzw. meta-danych). To właśnie meta-dane zawierałyby sformułowania dotyczące relacji między danymi oraz prawa logiki, które można do nich zastosować. • Dzięki temu można by: – powiązać różne dane znajdujące się w Internecie w ramach wspólnych jednostek znaczeniowych (np. strony dotyczące filmów, dziedzin nauki, kuchni francuskiej, etc.) – rozróżnić dane, które dla maszyn są w tej chwili nierozróżnialne ze względu na identyczny zapis tekstowy (np. zamek - urządzenie do zamykania drzwi; urządzenie do łączenia w ustalonym położeniu elementów ubrania; okazała budowla mieszkalno-obronna) – przeprowadzać na tychże danych wnioskowania , tzn. otrzymywać informacje na ich temat, które nie są zawarte explicite Tomasz Boiński: 3 Techniczne podstawy Semantic Web • Semantic Web zbudowany ma być na bazie już istniejących, wykorzystywanych i sprawdzonych standardów internetowych, nadbudowanych przez kilka kolejnych standardów. • Każdy kolejny standard nakłada się na kolejny, dotycząc innego poziomu abstrakcji • Kolejne warstwy prezentują się następująco (od dołu): – – – – – – – Unicode URI XML i XML Schema RDF i RDF Schema OWL mechanizmy wnioskowania mechanizmy certyfikacji i zaufania Tomasz Boiński: 4 Techniczne podstawy Semantic Web (c.d.) • Unicode - jest standardem pozwalającym na wyrażenie w języku maszyn dowolnego znaku pisanego, dowolnego języka znanego na Ziemi. Standard ten rozwiązuje problem niewygód związanych z prymatem w świecie komputerów podstawowego alfabetu łacińskiego • URI - standard zapewniającym unikatowość zasobów internetowych. Ponieważ wszystkie dane przesyłane w ramach Semantic Web będą zasobami internetowymi, będą one wymagały także określenia dla nich identyfikatora. Identyfikator będzie mógł składać się właśnie z zestawu znaków Unicode. • XML i XML Schema - standard pozwalający w ogólności na zapis danych. Tomasz Boiński: 5 Techniczne podstawy Semantic Web (c.d.) • Schematy XML wprowadzają ograniczenia dotyczące typu i struktury danych. Zachowanie typu i struktury daje gwarancję, że dane XML są poprawne w sensie syntaktycznym (np. w polu, w którym oczekujemy wartości liczbowej, wartość taka się pojawi) • RDF i RDF Schema – RDF jest standardem, który pozwala na zapis danych w postaci grafu skierowanego. W grafie tym dane zawarte są w wierzchołkach a relacje pomiędzy nimi i własności tychże znajdują się w krawędziach. – Schematy RDF wprowadzają do grafów takie pojęcia jak klasy i podklasy, pozwalające na wspólne grupowanie danych mających cechy wspólne. Dowolna dana może znajdować się w wielu klasach. • OWL - standard pozwalający na definiowanie klas na podstawie własności danych, a także na definiowanie logicznych charakterystyk relacji. OWL jest więc standardem formalnie zapisującym ontologię. Tomasz Boiński: 6 Techniczne podstawy Semantic Web (c.d.) • Mechanizmy wnioskowania - Język OWL pozwala na definiowanie zależności między danymi, dzięki czemu można przeprowadzać wnioskowanie. Jednakże osobną sprawą jest przygotowanie odpowiednich mechanizmów, które takie wnioskowanie przeprowadzą poprawnie, a jednocześnie w odpowiednio szybkim czasie. Program, przeprowadzający wnioskowanie nosi miano 'reasonera'. • Mechanizmy certyfikacji i zaufania - Istnieją w tej chwili w sferze rozważań teoretycznych. Mechanizmy te pozwoliłyby na zestandaryzowanie i rozwiązanie problemów autoryzacji użytkowników, identyfikacji ich zasobów, a także określenia praw, na jakich te zasoby są przesyłane i mogą być udostępniane. Tomasz Boiński: 7 Semantic MediaWiki • Rozszerzenie MediaWiki, czyli silnika napędzającego Wikipedię i inne podobne serwisy. • Umożliwia opatrzenie wpisów w Wikipedii znacznikami pozwalającymi na ich jednoznaczną interpretację • Tym samym bazę Wikipedii można traktować jak dużą bazę danych • Na tak oznaczonej bazie można wykonywać zapytania zarówno w wewnętrznym języku SMW jak i SPARQL • Obecnie trwają prace nad dodaniem tej funkcjonalności do oryginalnej Wikipedii Tomasz Boiński: 8 Ontologia – co to takiego? • Termin "ontologia" cieszy się dużą popularnością w informatyce oraz badaniach nad sztuczną inteligencją i oznacza określony sposób formalizacji wiedzy. • Ontologia zajmuje się odkrywaniem i opisywaniem „tego co jest”, pewnym fragmentem rzeczywistości, mniej lub bardziej dokładnie określonym. Aby zapewnić jednoznaczność przekazu wiedzy na temat określonej rzeczywistości, wykorzystuje się kategoryzację oraz hierarchizację. • Jest formalną reprezentacją zbioru pojęć oraz powiązań między nimi zawartych w określonej domenie Tomasz Boiński: 9 Kategoryzacja i hierarchizacja • kategoryzacja – zdolność przyporządkowania symbolu występującego w komunikacie do określonej grupy obiektów, które to obiekty posiadają określone cechy, np. „kot” – klasa kotów, pojęcie kot. Zestaw tych grup można określić jako zewnętrzny model pojmowania świata. • hierarchizacja – umiejscowienie określonej klasy w hierarchicznej strukturze. Instancja klasy poza oczywistymi charakterystykami wynikającymi z przynależności do klasy posiada także cechy dziedziczone z klas nadrzędnych. Tomasz Boiński: 10 Cechy ontologii • Nie stanowi listy, katalogu czy taksonomii obiektów, stwarza natomiast formalne przesłanki, wedle których takowe mogą być budowane • Jest oderwana od teorii poznania, powiązana jest z obiektem, a nie jego subiektywnym odbiorem • Musi uchwycić rzeczywistość na różnych poziomach atomizacji, jak również relacje pomiędzy tymi warstwami • Uznanie braku możliwości stworzenia jednej ogólnej ontologii, istnienie wielu ontologii • W przeciwieństwie do nauki relacje między obiektami nie są ujęte funkcyjnie (zależności nie są ilościowe) • Założenie otwartości świata Tomasz Boiński: 11 RDF • Każdy element świata rzeczywistego posiada swoją reprezentację w postaci URI/IRI • URI powiązane są ze sobą poprzez różnego rodzaju relacje zapisane w postaci tzw. trójek – podmiot, dopełnienie, orzeczenie – podmiot, predykat, obiekt • W RDF podmiot stanowi opisywany zasób, predykat określa jaka jego własność jest opisywana, zaś obiekt stanowi wartość tej własności. Podstawowym mechanizmem wykorzystywanym przez RDF do identyfikacji podmiotu, predykatu i obiektu jest URI. Tomasz Boiński: 12 RDF (c.d.) Tomasz Boiński: 13 Język OWL • Najpopularniejszy obecnie język zapisu ontologii bazujący na RDF • Semantyka języka bazuje na Logice Opisowej, przez co jest rozstrzygalny (poza dialektem Full) • Jest bardzo podobny do RDF jednak jest językiem silniejszym, o szerszym słowniku. Jest przez to prostszy w interpretacji przez maszyny. Tomasz Boiński: 14