publikacja on-line - Wyższa Szkoła Informatyki i Zarządzania w

Transkrypt

publikacja on-line - Wyższa Szkoła Informatyki i Zarządzania w
Automatyczna identyfikacja relacji semantycznych na przykładzie ankiet studenckich
Marek Jaszuk, Teresa Mroczek, Barbara Fryc
Wyższa Szkoła Informatyki i Zarządzania z siedzibą w Rzeszowie
(Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne
metody analizy szans i zagrożeń w procesie kształcenia)
1. Wstęp
Celem niniejszego dokumentu jest przedstawienie podstaw metodologicznych budowy modelu konceptualnego z danych dotyczących studentów. W ramach projektu opracowane zostało oryginalne podejście do rozwiązania problemu budowy takiego modelu z danych empirycznych, które pozwala na
całkowitą automatyzację procesu bez potrzeby ręcznej manipulacji strukturą modelu. Rozwiązanie to
jest o tyle istotne, że pozwala na całkowitą eliminację najbardziej pracochłonnych elementów pracy
nad przekształceniem zbioru danych w wiedzę. Pracochłonność takich zadań jest bardzo często przeszkodą w możliwości praktycznego wykorzystania systemów obliczeniowych opartych na modelach
wiedzy. Dlatego wyniki przedstawionych tu prac mogą stanowić podwalinę do zastosowań w wielu
obszarach. Przykład danych dotyczących studentów stanowi bardzo dobrą ilustrację problemu do jakiego można stosować stworzone przez nas rozwiązanie. Dane te były potrzebne do tego, żeby móc
zweryfikować założenia teoretyczne na przykładzie realnych danych. Teoria ta ma jednak charakter
uniwersalny i może być stosowana w wielu innych obszarach.
Szczegółowe przedstawienie motywów, dla których przyjęto rozwiązanie zaprezentowane w niniejszej
pracy, jest bardzo istotne dla zasadności używania terminów takich jak: model semantyczny, dystans
semantyczny, ontologia, klasa semantyczna. W literaturze te pojęcia funkcjonują od wielu lat i mają
dobrze ugruntowaną interpretację oraz opracowanie formalne (ter Bekke 1992, Oberle 2009). Sposób
w jaki te same pojęcia są używane tutaj odbiega częściowo od przyjętych standardów. Sytuacja taka
wynika z odmiennego potraktowania problemu. Zazwyczaj model semantyczny wynika w sposób bezpośredni z wiedzy eksperckiej i jest tworzony bezpośrednio przez ekspertów. Zostało rozwiniętych
wiele narzędzi informatycznych wspomagających takie zadania. Przykładem takiego narzędzia jest jeden z popularniejszych edytorów ontologii Protege (Protege 2015).
Temat automatycznej budowy ontologii ma trochę krótszą historię, gdyż większą popularność uzyskał
dopiero w latach 90 ubiegłego wieku. Zazwyczaj jednak pod hasłem tym kryją się narzędzia jedynie
wspomagające pracę eksperta. Działają one na zasadzie analizy dużych korpusów tekstu w celu wyszukiwania powtarzających się fraz w języku naturalnym i znajdowania zależności między nimi (Navigli
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
2004). Techniki te opierają się na założeniu, że wiedza ekspercka jest zawarta w tekstach specjalistycznych z danej dziedziny. Podejście takie można zastosować do zastąpienia pracy ekspertów jedynie w
przypadku systemów, w których wysoka precyzja modelu wiedzy nie jest konieczna. Wszędzie tam,
gdzie wymagana jest wysoka jakość, narzędzia takie pełnią jedynie rolę wspomagającą pracę człowieka.
Budowa ontologii z danych jest tematem bardzo rzadko poruszanym w literaturze. Można znaleźć jedynie bardzo nieliczne pozycje na ten temat (Davidson 2010, Gorskis 2010). Wynika to nie tyle z braku
zainteresowania tym tematem, co z braku podstaw metodologicznych do powiązania dziedziny jaką
jest inżynieria wiedzy z tematyką drążenia danych. Owszem, bardzo bogata jest literatura dotycząca
drążenia danych i budowania różnorodnych modeli tych danych (Hastie 2009). Jednak powiązanie takich modeli z interpretacją semantyczną jest bardzo trudne. Dlatego właśnie została podjęta próba
stworzenia rozwiązania, które stworzy rodzaj pomostu łączącego te dwie dziedziny wiedzy i umożliwi
ich efektywne wykorzystanie. Z jednej strony chcemy mieć możliwość pracy z danymi, ale jednocześnie
chcielibyśmy nadać im interpretację znaczeniową wyłącznie na drodze procesu obliczeniowego.
2. Charakterystyka danych wejściowych
Ankiety przeprowadzane wśród studentów składają się z szeregu pytań, na które udzielane są odpowiedzi. Odpowiedzi mogą mieć różną postać:




Wartości z pewnego zakresu, np. 1-10 – można wybrać tylko jedną wartość, przy czym wartości
są uszeregowane (np. stopień zadowolenia)
Odpowiedzi Tak/Nie na każde z pytań uszczegóławiających pytanie główne
Jednej wartości z podanej listy (wartości nie są uszeregowane)
Kilku wartości z podanej do wyboru listy
Dane zebrane w wyniku ankiety są dla nas informacją o studentach, ale nie tworzą one modelu wiedzy
o obiektach badania (w tym przypadku studentach). Model wiedzy (inaczej model semantyczny) można
stworzyć wtedy kiedy mamy określone przeznaczenie tego modelu.
Ręczna budowa modelu jest bardzo trudna i pracochłonna. W literaturze tematu są opisane liczne podejścia angażujące wiedzę ekspertów dziedzinowych. Podejścia te najczęściej polegają na identyfikacji
słownika pojęć dziedzinowych (nie opisów słownych!). Identyfikacja pojęć, wiąże się ze stworzeniem
słownika synonimów, w którym zawarte są opisy słowne o synonimicznych znaczeniach. Po zidentyfikowaniu słownika pojęć tworzona jest struktura powiązań między pojęciami, zgodna z przyjętą metodologią tworzenia ontologii. Stworzona w taki sposób struktura stanowi model wiedzy (ontologię) danej dziedziny. Problem w tym, że dla danej dziedziny można stworzyć wiele ontologii, które będą poprawne, a jednocześnie żadna z nich nie będzie opisywała wiedzy w sposób pełny. O tym, który ze
stworzonych modeli jest najbardziej odpowiedni musi decydować przeznaczenie tego modelu, czyli to
do czego będziemy daną ontologię wykorzystywać, określi nam jej strukturę.
Jak już wspomniano, jednym z kluczowych problemów jest identyfikacja pojęć/klas semantycznych, a
później identyfikacja relacji między nimi (relacji semantycznych). Będziemy chcieli ten problem rozwiązać wykorzystując w pewien sposób wiedzę ekspertów dziedzinowych, ale minimalizując ich zaangażowanie w tworzenie samego modelu. Struktura modelu powinna wynikać z zastosowania, czyli z danych
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
empirycznych. Dzięki temu eksperci dziedzinowi będą współuczestniczyć w tworzeniu modelu poprzez
dostarczenie aparatu pozyskiwania danych empirycznych. Chodzi o to, żeby eksperci dziedzinowi pracowali z użyciem takich narzędzi jakie są dla nich zrozumiałe i intuicyjne.
Problemem przy tworzeniu ankiet jest to, że pytania ankietowe można sformułować na wiele różnych
sposobów. Niekiedy nawet niewielka zmiana sposobu sformułowania pytania ankietowego będzie prowadziła do zmiany odpowiedzi pytanych osób. W standardowym podejściu do tworzenia ontologii, zagadnienie którego dotyczy pytanie stanowiłoby węzeł ontologii. Przykładowo:
Pytanie: „Czy jest Pan/i zadowolona z obecnych studiów:”
Jako węzeł ontologii moglibyśmy zdefiniować „Zadowolenie ze studiów”. Dodatkowo powiązalibyśmy
tę klasę semantyczną z główną klasą ontologii „Badany obiekt” lub w naszym przypadku dokładniej
„Student”. Z drugiej strony przypisalibyśmy atrybutowi „Zadowolenie ze studiów” jedną z wartości z
zakresu 1-10, gdyż w taki sposób zapisaliśmy to w pierwotnej wersji ontologii. Nie zawsze jednak pojęcie kryjące się za pytaniem będzie tak oczywiste. Dodatkowo często będziemy mieli do czynienia z sytuacjami, kiedy to pojęcie będzie mogło być różnie sformułowane, tzn. będziemy mogli użyć różnych
określeń słownych do tego, żeby określić pojęcie kryjące się za pytaniem. W takiej sytuacji na tworzącym model (inżynier ontologii) będzie spoczywała odpowiedzialność dotycząca rozstrzygnięcia, który z
zapisów jest zapisem właściwym.
W naszym przypadku pytania pochodzące z ankiet nie będą definiowały węzłów ontologii, a jedynie
interfejs służący do gromadzenia danych. Struktura semantyczna będzie pochodziła z odpowiedzi badanych studentów na pytania, oraz z wiedzy pozyskanej z systemu informatycznego uczelni, np. średnia ocen, nieobecności, informacja o rezygnacji ze studiów.
Przy standardowych narzędziach analizy danych, zmiana pytań powoduje bezużyteczność wcześniejszej wersji ankiety. Wynika to z niemożliwości znalezienia powiązania pomiędzy różnymi wersjami kwestionariuszy. Zmiana pytania może się wiązać z potrzebą uszczegółowienia pytania, lub zadania pytania
o nieco zmienionym znaczeniu. Zaletą stosowania modeli semantycznych jest możliwość powiązania
różnych wersji pytań. Dzięki temu ankieta może ewoluować stanowiąc przez cały czas spójny model.
Dzięki temu możliwe będzie również dostosowanie ankiety do badanych osób. Pozwoli to na optymalizację tego procesu, dzięki czemu będziemy mogli efektywniej pozyskiwać informacje, bez nadmiernego obciążania badanych.
3. Rozdzielenie pomiędzy interfejsem i modelem obliczeniowym
W klasycznych systemach opartych na bazie wiedzy, ogólna struktura systemu klasyfikującego obiekty
przedstawiona została na poniższym rysunku. Dane pobierane przez taki model są w sposób bezpośredni powiązane z modelem semantycznym. Oznacza to, że użytkownik takiego systemu posługuje się
bezpośrednio pojęciami z modelu wiedzy. W praktyce taka interakcja może mieć formę pracy z interfejsem programu, lub wczytywania danych z odpowiednio opisanej bazy danych. Dane te są przesyłane
do systemu klasyfikacyjnego, celem uzyskania pożądanego wyniku. W naszym przypadku może to być
określenie szans na odniesienie sukcesu edukacyjnego poprzez zakwalifikowanie studenta do odpowiedniej kategorii.
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
Dane wejściowe
ó Model
semantyczny
System
klasyfikacyjny
Rys. 1. Klasyczna struktura system klasyfikacyjnego opartego na bazie wiedzy
W naszym przypadku stosujemy rozwiązanie oparte nie na dwóch blokach, ale na trzech. Można powiedzieć, że przepływ danych tworzy w takim podejściu strukturę trójkąta. Ogólną strukturę rozważanego modelu przedstawia poniższy schemat. Pomiędzy każdym z wierzchołków trójkąta musi przepływać określony rodzaj informacji. Elementem, z którego użytkownicy korzystają bezpośrednio są pytania ankietowe. Można je uznać za interfejs użytkownika systemu. Za użytkowników można uważać zarówno osoby poddawane badaniu, jak również osoby przeprowadzające badanie (twórcy ankiety).
Dane uzyskiwane przez interfejs (dane wejściowe) będą również uzupełnione o dane z systemu informatycznego lub dane pozyskane innymi sposobami. Danymi, z którymi skonfrontujemy pytania ankietowe, będą dane z systemu informatycznego (dane wyjściowe).
Dane wejściowe
Klasyfikacja
Model
semantyczny
Rys. 2. Struktura bazy wiedzy tworzonej w ramach projektu – przepływ informacji na planie trójkąta
Dane wyjściowe będą zależały od tego do czego ma służyć ten model. W naszym przypadku jako dane
wyjściowe można wykorzystać:

dane o ocenach - najprostsza jest informacja o średniej, ale można też wykorzystać inne informacje, np. informacja o tym, w którym terminie ktoś zaliczał, lub jakie przedmioty zaliczał. W
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.





przypadku informacji o średniej trzeba dokonać dyskretyzacji - model semantyczny jest modelem dyskretnym. Aczkolwiek można też rozważać modele rozmyte, ale to na późniejszym etapie.
dane o przerwaniu studiów – niektóre z ankietowanych osób mogły w międzyczasie przerwać
studia. Jeśli mamy jakieś dodatkowe informacje o przyczynie ich przerwania to może to być
wartościowa wiadomość.
nieobecności – na uczelni mamy możliwość elektronicznego rejestrowania danych o obecnościach. Tę informację można traktować zarówno jako wejściową, jak i wyjściową. Jeśli jest traktowana jako wejściowa to może być podstawą do zaklasyfikowania studenta. Jeśli umieścimy
ją jako wyjściową to będzie wtedy czymś co nasz model będzie mógł przewidywać (czy student
będzie miał tendencję do opuszczania zajęć)
dane o szczególnych osiągnięciach (np. w kołach naukowych) – idealnie byłoby gdyby był jakiś
rejestr takich studentów, ale chyba takiego nie ma. To jest również przykład danych, które
mogą być zarówno na wejściu, jak i na wyjściu systemu.
Informacja o uzyskaniu stypendium rektorskiego (jest przyznawane za średnią, ale także za
działalność w kołach naukowych, i inne formy działalności).
Do przemyślenia jakie jeszcze dane można wykorzystać w tym miejscu.
Wszystkie z wymienionych danych stanowią pewien miernik sukcesu edukacyjnego ucznia/studenta, a
więc wartości, które dostaniemy na wyjściu będą sygnałem szansy lub zagrożenia dla badanego studenta.
Pytania ankietowe/interfejs i Dane wyjściowe/klasyfikacja są danymi, które pozyskujemy w sposób
bezpośredni. Nie stanowią one jednak modelu semantycznego. Generalnie rzecz biorąc model semantyczny będzie czymś ukrytym przed użytkownikiem (czyli inaczej niż to ma miejsce w standardowym
podejściu do semantyki). Jest to zgodne ze sposobem przetwarzania informacji przez nasz mózg. Każdy
z nas ma w mózgu zakodowaną strukturę pamięci semantycznej. Wynika ona z długotrwałego procesu
uczenia i zbierania doświadczeń. Do komunikowania się ze światem zewnętrznym, czyli innymi ludźmi
używamy języka naturalnego. Struktura języka naturalnego jest konsekwencją budowy ludzkiego mózgu. Z jednej strony jest on wygodnym narzędziem komunikacji, ale ma też wadę – nie jest precyzyjnym
odzwierciedleniem struktury znaczeniowej (ontologii) zakodowanej w naszych mózgach. W systemach
informatycznych chcemy mieć precyzyjnie zdefiniowaną strukturę, czyli posługiwać się dobrze zdefiniowaną strukturą semantyczną. Gdy jednak wchodzi czynnik ludzki i komunikacja z użytkownikiem,
staje się to problematyczne, gdyż ten użytkownik posługuje się językiem naturalnym. Konsekwencją
tego jest to, że jedną rzecz potrafi opisać na wiele różnych sposobów. Typowymi cechami wypowiedzi
w języku naturalnym są wieloznaczności i synonimika.
W projektowanym rozwiązaniu chcemy, zrobić to w podobny sposób, w jaki działa mózg. Oczywiście
nie interesuje nas w tym miejscu implementacja biologiczna, ale sposób przeprowadzenia obliczeń.
Chcemy aby można było w różny sposób formułować pytania, czy wręcz zastępować je innymi, jeśli
uznamy, że będą one właściwsze. Jednocześnie wszystkie te pytania będą definiowały w sposób pośredni strukturę semantyczną, więc cały czas będą użyteczne. Taki cel można oczywiście osiągnąć przy
standardowym podejściu do semantyki, jednak jest to okupione dużym nakładem pracy inżyniera ontologicznego, czego chcemy uniknąć.
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
Nie będziemy z góry narzucali struktury modelu semantycznego, gdyż ma ona wyniknąć wyłącznie z
uczenia na danych. Przy tych samych danych wejściowych będziemy mogli uzyskać różne struktury semantyczne, w zależności od tego, jakie chcemy mieć zastosowanie modelu, albo inaczej jaki rodzaj
wiedzy chcemy odkryć. Można powiedzieć, ze poprzez określenie danych wyjściowych będziemy wybierali jeden ze wszystkich możliwych modeli semantycznych. Wszystkie możliwe modele semantyczne
są poprawne i połączone razem stanowią całościowy model wiedzy/wszechwiedzę o świecie (w tym
przypadku o studentach). Jeśli jednak myślimy o konkretnym zastosowaniu to taki całościowy model
jest bezużyteczny. Będzie on na pewno nieefektywny obliczeniowo. Dlatego będziemy chcieli wyekstrahować optymalny model, który jest użyteczny dla danego celu.
Narzędziem determinującym model są dane wejściowe (głównie w postaci pytań ankietowych) i kategorie, do których zaliczamy studentów (docelowy wynik obliczeń). Dobór tych dwóch parametrów determinuje nam zastosowanie. Ten model jest jednocześnie tylko fragmentem wiedzy całościowej o
świecie, która jest zbyt ogromna, aby miały sens próby jej pełnego analizowania. Biorąc jednak pod
uwagę ogrom danych produkowanych obecnie w Internecie określany jako Big Data, podejście tutaj
prezentowane może się okazać użyteczne. Dzięki prezentowanemu tutaj podejściu część problemów,
których nie da się analizować standardowymi technikami, może zostać przeanalizowana przy pomocy
prezentowanych tutaj technik. Dzięki temu możliwe będzie wydobycie z wielkich baz danych, wiedzy
w postaci modeli obliczeniowych użytecznych do realizacji z góry zdefiniowanych zadań. Definiowanie
takich modeli obliczeniowych nie odbywałoby się poprzez bezpośrednie definiowanie przez programistę lub inżyniera ontologicznego, ale poprzez interfejs w języku naturalnym, przyjazny dla ludzkiego
użytkownika.
4. Budowa modelu
Rozpoczniemy rozważania od przyjrzenia się danym, z którymi mamy do czynienia. Z jednej strony
mamy dane wejściowe, które są heterogeniczne i chcemy uniknąć potrzeby ręcznego analizowania zależności między nimi. Z drugiej strony mamy klasyfikację badanych obiektów. Aby możliwe było zbudowanie modelu musimy przyjąć, że kategorie są czymś pewnym. Nie zakładamy przy tym, że przynależność badanego obiektu do danej kategorii jest czymś pewnym. Tutaj mogą pojawić się błędy i jest
to naturalne. Natomiast jako dobrze określone musimy przyjąć kategorie, bo w ten sposób definiujemy
jaki wynik działania systemu chcemy uzyskać.
Dane
wejściowe
Model
semantyczny
Klasyfikacja
Rys. 3. Proces budowy modelu obliczeniowego
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
Jednocześnie mamy komfort zmieniania kategorii przy tych samych danych wejściowych. Dzięki temu
możemy w każdej chwili uzyskać inny model semantyczny, jeśli uznamy, że będzie on lepiej odzwierciedlał cel, który chcemy w danej chwili zrealizować. Oczywiście warunkiem jest posiadanie odpowiednich danych wyjściowych do uczenia.
1.1 Przestrzeń semantyczna i dystans semantyczny
Za każdym ze stwierdzeń w języku naturalnym stoi pewne znaczenie. W naszym przypadku stwierdzeniami w języku naturalnym jest zawartość interfejsu. Znaczenie tych stwierdzeń jest nam znane. Nasz
mózg je identyfikuje, gdyż są zapisane w znanym nam języku, co pozwala na powiązanie ze strukturą
sieci semantycznej. Problemem jest jednak zbudowanie modelu, gdyż stwierdzenia w języku naturalnym jedynie przywołują określone znaczenia, ale nie definiują struktury całej sieci semantycznej. Standardowej podejście do semantyki jest próbą odtworzenia tej struktury semantycznej, którą mamy w
mózgu. Niestety jesteśmy odtworzyć jedynie fragmenty tej struktury, które nie odzwierciedlają w pełni
całej wiedzy, którą mamy. Poza tym problemem może być stosowana standardowo struktura sieci semantycznej oparta na grafie z węzłami zawierającymi wyrażenia w języku naturalnym. Problem struktury sieci semantycznej zostanie poruszony w innym dokumencie.
Podstawą do automatycznego zbudowania modelu semantycznego, jest określenie odległości semantycznej pomiędzy poszczególnymi stwierdzeniami. Będzie to możliwe jeśli będziemy znali klasy, do których zakwalifikowaliśmy osobę biorącą udział w badaniu. Są to dane gromadzone w sposób bezpośredni. Mając te dane poprzez odpowiednie obliczenia, będziemy chcieli zidentyfikować strukturę semantyczną.
Dane z interfejsu
Klasyfikacja
Model
semantyczny
Rys 4 Dane rejestrowane w sposób bezpośredni
Wynikowy model semantyczny będą tworzyły elementy na rysunku poniżej. Należy zwrócić uwagę, że
klasyfikacja jest częścią tego modelu, która jest znana w sposób jawny, gdyż w ten sposób zadajemy co
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
chcemy uzyskać. Interfejs tworzymy nie mając pełnej wiedzy, co dokładnie powinno się w nim znaleźć.
Do pewnego stopnia tworzenie zawartości interfejsu jest zgadywaniem, polegającym na wybraniu spośród wszystkich możliwych pytań tych, które będą miały największy wkład w poprawną klasyfikację.
Jednym z zadań, które będą przed nami stały, będzie określenie ważności poszczególnych pytań dla
postawionego celu klasyfikacyjnego.
Dane z interfejsu
Klasyfikacja
Struktura
znaczeniowa
interfejsu
Rys. 5. Model semantyczny
Przejdźmy teraz do określenia tego w jaki sposób będziemy definiowali znaczenie poszczególnych wyrażeń, oraz w jaki sposób określimy odległość pomiędzy nimi. Rozważania będziemy prowadzili w przestrzeni klasyfikacyjnej. Jej wymiar będzie zależał od tego, ile kategorii zdefiniujemy jako dane wyjściowe. Jeśli kategorii wyjściowych jest N to każdy z badanych obiektów jest punktem w N-wymiarowej
przestrzeni. Jednocześnie zwróćmy uwagę, że na każdy z obiektów poddanych klasyfikacji składa się
pewien wektor cech:
𝑂𝑖 = {𝐶𝑘 : 𝑘 ∈ 1, … , M}
(1)
gdzie:
𝑀 – liczba wszystkich możliwych cech,
𝐶𝑘 – cecha o numerze k,
𝑂𝑖 – badany obiekt (w naszym przypadku uczeń/student).
Cechami mogą być odpowiedzi na pytania ankietowe lub inne rodzaje danych, które zbieramy o studentach. Zaklasyfikowanie obiektu do pewnej kategorii Kj oznacza, że wszystkie cechy, które on posiada, również należą do kategorii Kj. Inaczej można powiedzieć, że są one cechami tej kategorii. Na
początek założymy najprostszy przypadek, kiedy obiekty są klasyfikowany wyłącznie do jednej z kategorii. Taka sytuacja ma miejsce, gdy kategorie są rozłączne względem siebie (przynależność do jednej
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
wyklucza przynależność do innych). W ogólnym przypadku możemy mieć do czynienia z sytuacją, kiedy
obiekt będzie mógł należeć do kilku kategorii jednocześnie, ale takimi przypadkami zajmiemy się później.
Oczywiście raczej mało prawdopodobne, aby dana cecha należała tylko do jednej kategorii. Bardzo
często ta sama cecha będzie należała do obiektów zaklasyfikowanych do różnych kategorii. Po przebadaniu grupy osób uzyskamy pewien rozkład statystyczny cech względem kategorii, do których zostały
zaklasyfikowane. Oznacza to, że każda cecha ma określone prawdopodobieństwo przynależności do
każdej z kategorii:
𝑷𝐶𝑘 → (𝑃𝑘1 , 𝑃𝑘2 , … , 𝑃𝑘𝑁 )
(2)
Gdzie:
𝑁 – liczba kategorii wyjściowych (dla przykładu jeśli za kategorię wyjściową uważamy klaster w przestrzeni ocen, do którego kwalifikujemy ucznia, to 𝑁 jest liczbą klastrów).
𝑃𝑘𝑛 – prawdopodobieństwo, że cecha o numerze k (𝐶𝑘 ) znalazła się w obiekcie zaklasyfikowanym do
kategorii wyjściowej o numerze n. Inaczej zapisując 𝑃(𝐶𝑘 |𝑛)
Wektor prawdopodobieństw będzie określał znaczenie każdej z cech. Ściślej rzecz biorąc będzie nas
interesował nie tyle sam wektor, co jego kierunek. Wyjaśnimy teraz powód dla przyjęcia takich założeń.
Podstawą do przyjęcia takiego założenia jest analiza wyrażeń synonimicznych. Otóż jeśli cecha jest zapisana w postaci wyrażenia w języku naturalnym, to może się tak zdarzyć, że znajdzie się inna cecha,
która będzie zapisana w postaci innego wyrażenia, ale będzie miała to samo znaczenie. Oczywiście w
przypadku świadomego konstruowania ankiet, raczej nie umieszcza się dwóch pytań dotyczących tego
samego. Prowadzimy jednak teraz rozważania na bardziej ogólnym poziomie, a badania ankietowe są
jedynie szczególnym przypadkiem. W szczególności tam gdzie stosuje się niesformalizowane opisy w
języku naturalnym do opisu cech badanego obiektu (np. opisy symptomów chorobowych przez lekarza), synonimiczne opisy mogą się zdarzać dość często.
Poza tym ankiety dotyczące tych samych zagadnień mogą być tworzone przez różne osoby w różnym
czasie. Normalnie takie ankiety będą ze sobą niespójne, więc wyniki przez nie generowane trudno porównywać. Możliwe jest skonstruowanie ontologii, która pozwoli na przejście pomiędzy różnymi ankietami, ale wymaga to pewnego nakładu pracy. W naszym podejściu porównanie takie będzie mogło
zostać wykonane automatycznie, o ile będą dotyczyły tej samej klasyfikacji, albo przynajmniej częściowo pokrywającej się klasyfikacji. Wtedy będzie można zidentyfikować części ankiety, posiadające
znaczenie identyczne, lub zbliżone z inną ankietą, a w konsekwencji można je traktować jako tę samą
ankietę, pomimo, iż mogła zostać inaczej sformułowana. Dla celów badawczych najlepiej byłoby mieć
możliwie największą liczbę wersji ankiet. Wtedy istnieje szansa, że w klastrach byłaby większa liczba
cech synonimicznych. Ta sama ankieta przeprowadzona na różnych grupach także może być przydatna.
Możemy bowiem sprawdzić, czy znaczenie tych samych pytań wyznaczone wg naszej metodologii pokrywa się.
Jeszcze innym przypadkiem, kiedy będziemy mieli do czynienia ze zbliżonym znaczeniem, będą przypadki, kiedy odpowiedzi na pytania będzie dzielił bardzo niewielki dystans. Przykładem może być skala
odpowiedzi na pytanie w zakresie 1-10. Różnica semantyczna odpowiedzi pomiędzy sąsiadującymi
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
wartościami jest tutaj bardzo niewielka i może się okazać, że w modelu zostaną one zgrupowane i np.
dwie lub trzy sąsiadujące wartości zostaną potraktowane jako jedna kategoria.
Jeśli mamy dwie lub więcej cechy o tym samym znaczeniu, to bez względu na to, którą z nich użyjemy,
wynik klasyfikacji będzie taki sam, bo mają one to samo znaczenie. Jest to jedynie inny zapis tych samych wartości semantycznych. Dlatego też kształt rozkładu synonimicznych zapisów w przestrzeni
prawdopodobieństw musi być taki sam. Podkreślić należy, że chodzi tu o kształt rozkładu, a nie o sam
rozkład. Wynika to z tego, że pewne frazy mogą być używane częściej a inne rzadziej, więc nie można
zakładać, że ich rozkład w zakresie wartości bezwzględnych będzie taki sam. Niezmiennikiem będzie
kształt tego rozkładu, bo nikt nie będzie wybierał frazy, którą chce użyć przy zakwalifikowaniu obiektu
do określonej kategorii. Gdyby tak było, to oznaczałoby to, że jednak istnieje różnica znaczeniowa pomiędzy pozornie synonimicznymi frazami.
Przypadek fraz synonimicznych jest jedynie szczególnym przypadkiem, stanowiącym punkt wyjścia do
dalszych rozważań. Większość cech nie będzie synonimami (w szczególności w przypadku ankiet), ale
mimo wszystko będzie pozostawał w pewnej relacji znaczeniowej z innym cechami. Niektóre z nich
będą blisko związane ze sobą znaczeniowo, a inne będą bardziej odległe. Mając wyznaczony kierunek
wektorów poszczególnych cech w przestrzeni prawdopodobieństw zawsze możemy określić kąt między tymi wektorami. Właśnie ten kąt będzie miarą odległości semantycznej pomiędzy cechami (patrz
rys. poniżej). W taki sposób zdefiniowana miara odległości semantycznej będzie podstawą do dalszych
rozważań, w szczególności do zbudowania modelu semantycznego określającego:



zbiór klas semantycznych reprezentujących cechy obiektów,
relacje semantyczne między klasami cech, w tym taksonomię pojęć, oraz relacje horyzontalne,
powiązanie pomiędzy klasami cech obiektów oraz kategoriami klasyfikacji (które również będą
klasami semantycznymi modelu).
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
PK1
Cecha2
dystans
semantyczny
Cecha1
P K2
PK
3
Rys. 6. Przestrzeń znaczeniowa rozpinana przez zbiór klas, wraz z dystansem semantycznym poszczególnych cech
Podsumowanie
W tekście omówiona została motywacja i sposób rozwiązania problemu identyfikacji dystansu znaczeniowego. Szczegółowe przedstawienie motywów, dla których przyjęto właśnie takie rozwiązanie jest
bardzo istotne dla zasadności używania terminów takich jak: model semantyczny, dystans semantyczny, ontologia, klasa semantyczna. W literaturze te pojęcia funkcjonują od wielu lat i mają dobrze
ugruntowaną interpretację i obudowę formalną. Tutaj wprowadzamy nową interpretację tych pojęć,
dlatego wyjaśnienia pomagające rozwiać wątpliwości są tak ważne. Rozwiązanie teoretyczne przedstawione w tej pracy wymaga walidacji eksperymentalnej i uszczegółowienia algorytmów budowy modeli
danych. Wyznaczenie dystansu semantycznego jest bardzo ważne, ale stanowi jedynie bazę do rozwoju
algorytmów szczegółowych. Algorytmy te obejmą: identyfikację klas semantycznych, identyfikację relacji pionowych pomiędzy klasami (taksonomia pojęć), identyfikację relacji poziomych (wszystkie inne
typy relacji, które można zidentyfikować w wyniku procesu obliczeniowego). Ponadto naszym celem
jest stworzenie narzędzia, które będzie pozwalało na wnioskowanie na podstawie stworzonego modelu wiedzy. Narzędzie to będzie opierało się na znanych technikach wnioskowania, jednak musi
uwzględniać specyfikę stworzonego modelu.
Szczegóły przedstawionego rozwiązania zostały dotychczas opublikowane w dwóch artykułach o zasięgu międzynarodowym:
1. Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Data Integration through Clustering and Finding
Statistical Relations - Validation of Approach, Proc. of the international workshop Concurrency
Specification and Programming CS&P 2015, Rzeszów, 2015
2. Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Identifying Semantic Classes within Student's
Data Using Clustering Technique, Proc. of the 3-rd International Conference on Data Management Technologies and Applications DATA 2014, Wiedeń, pp.371-376
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
Literatura
1. J. ter Bekke, Semantic Data Modeling, Prentice Hall, 1992.
2. G.S. Davidson, et.al. Data Mining for Ontology Development, Sandia National Laboratories, Albuquerque, 2010.
3. A. Gómez-Pérez, M. Fernández-López, O. Corcho, (2004). Ontological Engineering: With Examples from the Areas of Knowledge Management, E-commerce and the Semantic Web (1 ed.).
Springer, 2004, p. 403.
4. H. Gorskis, Y. Chizhof, Ontology building using data mining techniques, Information Technology and Management Science, 15, 2012, pp. 183--188.
5. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer Series in Statistics, 2009.
6. R. Navigli, P. Velardi, Learning Domain Ontologies from Document Warehouses and Dedicated
Web Sites,. Computational Linguistics (MIT Press) 30 (2), 2004, p. 151–179.
7. D. Oberle, N. Guarino, S. Staab, What is an ontology?. w: "Handbook on Ontologies". Springer,
2nd edition, 2009.
8. The Protégé Ontology editor, protege.stanford.edu
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.