publikacja on-line - Wyższa Szkoła Informatyki i Zarządzania w
Transkrypt
publikacja on-line - Wyższa Szkoła Informatyki i Zarządzania w
Automatyczna identyfikacja relacji semantycznych na przykładzie ankiet studenckich Marek Jaszuk, Teresa Mroczek, Barbara Fryc Wyższa Szkoła Informatyki i Zarządzania z siedzibą w Rzeszowie (Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia) 1. Wstęp Celem niniejszego dokumentu jest przedstawienie podstaw metodologicznych budowy modelu konceptualnego z danych dotyczących studentów. W ramach projektu opracowane zostało oryginalne podejście do rozwiązania problemu budowy takiego modelu z danych empirycznych, które pozwala na całkowitą automatyzację procesu bez potrzeby ręcznej manipulacji strukturą modelu. Rozwiązanie to jest o tyle istotne, że pozwala na całkowitą eliminację najbardziej pracochłonnych elementów pracy nad przekształceniem zbioru danych w wiedzę. Pracochłonność takich zadań jest bardzo często przeszkodą w możliwości praktycznego wykorzystania systemów obliczeniowych opartych na modelach wiedzy. Dlatego wyniki przedstawionych tu prac mogą stanowić podwalinę do zastosowań w wielu obszarach. Przykład danych dotyczących studentów stanowi bardzo dobrą ilustrację problemu do jakiego można stosować stworzone przez nas rozwiązanie. Dane te były potrzebne do tego, żeby móc zweryfikować założenia teoretyczne na przykładzie realnych danych. Teoria ta ma jednak charakter uniwersalny i może być stosowana w wielu innych obszarach. Szczegółowe przedstawienie motywów, dla których przyjęto rozwiązanie zaprezentowane w niniejszej pracy, jest bardzo istotne dla zasadności używania terminów takich jak: model semantyczny, dystans semantyczny, ontologia, klasa semantyczna. W literaturze te pojęcia funkcjonują od wielu lat i mają dobrze ugruntowaną interpretację oraz opracowanie formalne (ter Bekke 1992, Oberle 2009). Sposób w jaki te same pojęcia są używane tutaj odbiega częściowo od przyjętych standardów. Sytuacja taka wynika z odmiennego potraktowania problemu. Zazwyczaj model semantyczny wynika w sposób bezpośredni z wiedzy eksperckiej i jest tworzony bezpośrednio przez ekspertów. Zostało rozwiniętych wiele narzędzi informatycznych wspomagających takie zadania. Przykładem takiego narzędzia jest jeden z popularniejszych edytorów ontologii Protege (Protege 2015). Temat automatycznej budowy ontologii ma trochę krótszą historię, gdyż większą popularność uzyskał dopiero w latach 90 ubiegłego wieku. Zazwyczaj jednak pod hasłem tym kryją się narzędzia jedynie wspomagające pracę eksperta. Działają one na zasadzie analizy dużych korpusów tekstu w celu wyszukiwania powtarzających się fraz w języku naturalnym i znajdowania zależności między nimi (Navigli Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. 2004). Techniki te opierają się na założeniu, że wiedza ekspercka jest zawarta w tekstach specjalistycznych z danej dziedziny. Podejście takie można zastosować do zastąpienia pracy ekspertów jedynie w przypadku systemów, w których wysoka precyzja modelu wiedzy nie jest konieczna. Wszędzie tam, gdzie wymagana jest wysoka jakość, narzędzia takie pełnią jedynie rolę wspomagającą pracę człowieka. Budowa ontologii z danych jest tematem bardzo rzadko poruszanym w literaturze. Można znaleźć jedynie bardzo nieliczne pozycje na ten temat (Davidson 2010, Gorskis 2010). Wynika to nie tyle z braku zainteresowania tym tematem, co z braku podstaw metodologicznych do powiązania dziedziny jaką jest inżynieria wiedzy z tematyką drążenia danych. Owszem, bardzo bogata jest literatura dotycząca drążenia danych i budowania różnorodnych modeli tych danych (Hastie 2009). Jednak powiązanie takich modeli z interpretacją semantyczną jest bardzo trudne. Dlatego właśnie została podjęta próba stworzenia rozwiązania, które stworzy rodzaj pomostu łączącego te dwie dziedziny wiedzy i umożliwi ich efektywne wykorzystanie. Z jednej strony chcemy mieć możliwość pracy z danymi, ale jednocześnie chcielibyśmy nadać im interpretację znaczeniową wyłącznie na drodze procesu obliczeniowego. 2. Charakterystyka danych wejściowych Ankiety przeprowadzane wśród studentów składają się z szeregu pytań, na które udzielane są odpowiedzi. Odpowiedzi mogą mieć różną postać: Wartości z pewnego zakresu, np. 1-10 – można wybrać tylko jedną wartość, przy czym wartości są uszeregowane (np. stopień zadowolenia) Odpowiedzi Tak/Nie na każde z pytań uszczegóławiających pytanie główne Jednej wartości z podanej listy (wartości nie są uszeregowane) Kilku wartości z podanej do wyboru listy Dane zebrane w wyniku ankiety są dla nas informacją o studentach, ale nie tworzą one modelu wiedzy o obiektach badania (w tym przypadku studentach). Model wiedzy (inaczej model semantyczny) można stworzyć wtedy kiedy mamy określone przeznaczenie tego modelu. Ręczna budowa modelu jest bardzo trudna i pracochłonna. W literaturze tematu są opisane liczne podejścia angażujące wiedzę ekspertów dziedzinowych. Podejścia te najczęściej polegają na identyfikacji słownika pojęć dziedzinowych (nie opisów słownych!). Identyfikacja pojęć, wiąże się ze stworzeniem słownika synonimów, w którym zawarte są opisy słowne o synonimicznych znaczeniach. Po zidentyfikowaniu słownika pojęć tworzona jest struktura powiązań między pojęciami, zgodna z przyjętą metodologią tworzenia ontologii. Stworzona w taki sposób struktura stanowi model wiedzy (ontologię) danej dziedziny. Problem w tym, że dla danej dziedziny można stworzyć wiele ontologii, które będą poprawne, a jednocześnie żadna z nich nie będzie opisywała wiedzy w sposób pełny. O tym, który ze stworzonych modeli jest najbardziej odpowiedni musi decydować przeznaczenie tego modelu, czyli to do czego będziemy daną ontologię wykorzystywać, określi nam jej strukturę. Jak już wspomniano, jednym z kluczowych problemów jest identyfikacja pojęć/klas semantycznych, a później identyfikacja relacji między nimi (relacji semantycznych). Będziemy chcieli ten problem rozwiązać wykorzystując w pewien sposób wiedzę ekspertów dziedzinowych, ale minimalizując ich zaangażowanie w tworzenie samego modelu. Struktura modelu powinna wynikać z zastosowania, czyli z danych Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. empirycznych. Dzięki temu eksperci dziedzinowi będą współuczestniczyć w tworzeniu modelu poprzez dostarczenie aparatu pozyskiwania danych empirycznych. Chodzi o to, żeby eksperci dziedzinowi pracowali z użyciem takich narzędzi jakie są dla nich zrozumiałe i intuicyjne. Problemem przy tworzeniu ankiet jest to, że pytania ankietowe można sformułować na wiele różnych sposobów. Niekiedy nawet niewielka zmiana sposobu sformułowania pytania ankietowego będzie prowadziła do zmiany odpowiedzi pytanych osób. W standardowym podejściu do tworzenia ontologii, zagadnienie którego dotyczy pytanie stanowiłoby węzeł ontologii. Przykładowo: Pytanie: „Czy jest Pan/i zadowolona z obecnych studiów:” Jako węzeł ontologii moglibyśmy zdefiniować „Zadowolenie ze studiów”. Dodatkowo powiązalibyśmy tę klasę semantyczną z główną klasą ontologii „Badany obiekt” lub w naszym przypadku dokładniej „Student”. Z drugiej strony przypisalibyśmy atrybutowi „Zadowolenie ze studiów” jedną z wartości z zakresu 1-10, gdyż w taki sposób zapisaliśmy to w pierwotnej wersji ontologii. Nie zawsze jednak pojęcie kryjące się za pytaniem będzie tak oczywiste. Dodatkowo często będziemy mieli do czynienia z sytuacjami, kiedy to pojęcie będzie mogło być różnie sformułowane, tzn. będziemy mogli użyć różnych określeń słownych do tego, żeby określić pojęcie kryjące się za pytaniem. W takiej sytuacji na tworzącym model (inżynier ontologii) będzie spoczywała odpowiedzialność dotycząca rozstrzygnięcia, który z zapisów jest zapisem właściwym. W naszym przypadku pytania pochodzące z ankiet nie będą definiowały węzłów ontologii, a jedynie interfejs służący do gromadzenia danych. Struktura semantyczna będzie pochodziła z odpowiedzi badanych studentów na pytania, oraz z wiedzy pozyskanej z systemu informatycznego uczelni, np. średnia ocen, nieobecności, informacja o rezygnacji ze studiów. Przy standardowych narzędziach analizy danych, zmiana pytań powoduje bezużyteczność wcześniejszej wersji ankiety. Wynika to z niemożliwości znalezienia powiązania pomiędzy różnymi wersjami kwestionariuszy. Zmiana pytania może się wiązać z potrzebą uszczegółowienia pytania, lub zadania pytania o nieco zmienionym znaczeniu. Zaletą stosowania modeli semantycznych jest możliwość powiązania różnych wersji pytań. Dzięki temu ankieta może ewoluować stanowiąc przez cały czas spójny model. Dzięki temu możliwe będzie również dostosowanie ankiety do badanych osób. Pozwoli to na optymalizację tego procesu, dzięki czemu będziemy mogli efektywniej pozyskiwać informacje, bez nadmiernego obciążania badanych. 3. Rozdzielenie pomiędzy interfejsem i modelem obliczeniowym W klasycznych systemach opartych na bazie wiedzy, ogólna struktura systemu klasyfikującego obiekty przedstawiona została na poniższym rysunku. Dane pobierane przez taki model są w sposób bezpośredni powiązane z modelem semantycznym. Oznacza to, że użytkownik takiego systemu posługuje się bezpośrednio pojęciami z modelu wiedzy. W praktyce taka interakcja może mieć formę pracy z interfejsem programu, lub wczytywania danych z odpowiednio opisanej bazy danych. Dane te są przesyłane do systemu klasyfikacyjnego, celem uzyskania pożądanego wyniku. W naszym przypadku może to być określenie szans na odniesienie sukcesu edukacyjnego poprzez zakwalifikowanie studenta do odpowiedniej kategorii. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Dane wejściowe ó Model semantyczny System klasyfikacyjny Rys. 1. Klasyczna struktura system klasyfikacyjnego opartego na bazie wiedzy W naszym przypadku stosujemy rozwiązanie oparte nie na dwóch blokach, ale na trzech. Można powiedzieć, że przepływ danych tworzy w takim podejściu strukturę trójkąta. Ogólną strukturę rozważanego modelu przedstawia poniższy schemat. Pomiędzy każdym z wierzchołków trójkąta musi przepływać określony rodzaj informacji. Elementem, z którego użytkownicy korzystają bezpośrednio są pytania ankietowe. Można je uznać za interfejs użytkownika systemu. Za użytkowników można uważać zarówno osoby poddawane badaniu, jak również osoby przeprowadzające badanie (twórcy ankiety). Dane uzyskiwane przez interfejs (dane wejściowe) będą również uzupełnione o dane z systemu informatycznego lub dane pozyskane innymi sposobami. Danymi, z którymi skonfrontujemy pytania ankietowe, będą dane z systemu informatycznego (dane wyjściowe). Dane wejściowe Klasyfikacja Model semantyczny Rys. 2. Struktura bazy wiedzy tworzonej w ramach projektu – przepływ informacji na planie trójkąta Dane wyjściowe będą zależały od tego do czego ma służyć ten model. W naszym przypadku jako dane wyjściowe można wykorzystać: dane o ocenach - najprostsza jest informacja o średniej, ale można też wykorzystać inne informacje, np. informacja o tym, w którym terminie ktoś zaliczał, lub jakie przedmioty zaliczał. W Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. przypadku informacji o średniej trzeba dokonać dyskretyzacji - model semantyczny jest modelem dyskretnym. Aczkolwiek można też rozważać modele rozmyte, ale to na późniejszym etapie. dane o przerwaniu studiów – niektóre z ankietowanych osób mogły w międzyczasie przerwać studia. Jeśli mamy jakieś dodatkowe informacje o przyczynie ich przerwania to może to być wartościowa wiadomość. nieobecności – na uczelni mamy możliwość elektronicznego rejestrowania danych o obecnościach. Tę informację można traktować zarówno jako wejściową, jak i wyjściową. Jeśli jest traktowana jako wejściowa to może być podstawą do zaklasyfikowania studenta. Jeśli umieścimy ją jako wyjściową to będzie wtedy czymś co nasz model będzie mógł przewidywać (czy student będzie miał tendencję do opuszczania zajęć) dane o szczególnych osiągnięciach (np. w kołach naukowych) – idealnie byłoby gdyby był jakiś rejestr takich studentów, ale chyba takiego nie ma. To jest również przykład danych, które mogą być zarówno na wejściu, jak i na wyjściu systemu. Informacja o uzyskaniu stypendium rektorskiego (jest przyznawane za średnią, ale także za działalność w kołach naukowych, i inne formy działalności). Do przemyślenia jakie jeszcze dane można wykorzystać w tym miejscu. Wszystkie z wymienionych danych stanowią pewien miernik sukcesu edukacyjnego ucznia/studenta, a więc wartości, które dostaniemy na wyjściu będą sygnałem szansy lub zagrożenia dla badanego studenta. Pytania ankietowe/interfejs i Dane wyjściowe/klasyfikacja są danymi, które pozyskujemy w sposób bezpośredni. Nie stanowią one jednak modelu semantycznego. Generalnie rzecz biorąc model semantyczny będzie czymś ukrytym przed użytkownikiem (czyli inaczej niż to ma miejsce w standardowym podejściu do semantyki). Jest to zgodne ze sposobem przetwarzania informacji przez nasz mózg. Każdy z nas ma w mózgu zakodowaną strukturę pamięci semantycznej. Wynika ona z długotrwałego procesu uczenia i zbierania doświadczeń. Do komunikowania się ze światem zewnętrznym, czyli innymi ludźmi używamy języka naturalnego. Struktura języka naturalnego jest konsekwencją budowy ludzkiego mózgu. Z jednej strony jest on wygodnym narzędziem komunikacji, ale ma też wadę – nie jest precyzyjnym odzwierciedleniem struktury znaczeniowej (ontologii) zakodowanej w naszych mózgach. W systemach informatycznych chcemy mieć precyzyjnie zdefiniowaną strukturę, czyli posługiwać się dobrze zdefiniowaną strukturą semantyczną. Gdy jednak wchodzi czynnik ludzki i komunikacja z użytkownikiem, staje się to problematyczne, gdyż ten użytkownik posługuje się językiem naturalnym. Konsekwencją tego jest to, że jedną rzecz potrafi opisać na wiele różnych sposobów. Typowymi cechami wypowiedzi w języku naturalnym są wieloznaczności i synonimika. W projektowanym rozwiązaniu chcemy, zrobić to w podobny sposób, w jaki działa mózg. Oczywiście nie interesuje nas w tym miejscu implementacja biologiczna, ale sposób przeprowadzenia obliczeń. Chcemy aby można było w różny sposób formułować pytania, czy wręcz zastępować je innymi, jeśli uznamy, że będą one właściwsze. Jednocześnie wszystkie te pytania będą definiowały w sposób pośredni strukturę semantyczną, więc cały czas będą użyteczne. Taki cel można oczywiście osiągnąć przy standardowym podejściu do semantyki, jednak jest to okupione dużym nakładem pracy inżyniera ontologicznego, czego chcemy uniknąć. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Nie będziemy z góry narzucali struktury modelu semantycznego, gdyż ma ona wyniknąć wyłącznie z uczenia na danych. Przy tych samych danych wejściowych będziemy mogli uzyskać różne struktury semantyczne, w zależności od tego, jakie chcemy mieć zastosowanie modelu, albo inaczej jaki rodzaj wiedzy chcemy odkryć. Można powiedzieć, ze poprzez określenie danych wyjściowych będziemy wybierali jeden ze wszystkich możliwych modeli semantycznych. Wszystkie możliwe modele semantyczne są poprawne i połączone razem stanowią całościowy model wiedzy/wszechwiedzę o świecie (w tym przypadku o studentach). Jeśli jednak myślimy o konkretnym zastosowaniu to taki całościowy model jest bezużyteczny. Będzie on na pewno nieefektywny obliczeniowo. Dlatego będziemy chcieli wyekstrahować optymalny model, który jest użyteczny dla danego celu. Narzędziem determinującym model są dane wejściowe (głównie w postaci pytań ankietowych) i kategorie, do których zaliczamy studentów (docelowy wynik obliczeń). Dobór tych dwóch parametrów determinuje nam zastosowanie. Ten model jest jednocześnie tylko fragmentem wiedzy całościowej o świecie, która jest zbyt ogromna, aby miały sens próby jej pełnego analizowania. Biorąc jednak pod uwagę ogrom danych produkowanych obecnie w Internecie określany jako Big Data, podejście tutaj prezentowane może się okazać użyteczne. Dzięki prezentowanemu tutaj podejściu część problemów, których nie da się analizować standardowymi technikami, może zostać przeanalizowana przy pomocy prezentowanych tutaj technik. Dzięki temu możliwe będzie wydobycie z wielkich baz danych, wiedzy w postaci modeli obliczeniowych użytecznych do realizacji z góry zdefiniowanych zadań. Definiowanie takich modeli obliczeniowych nie odbywałoby się poprzez bezpośrednie definiowanie przez programistę lub inżyniera ontologicznego, ale poprzez interfejs w języku naturalnym, przyjazny dla ludzkiego użytkownika. 4. Budowa modelu Rozpoczniemy rozważania od przyjrzenia się danym, z którymi mamy do czynienia. Z jednej strony mamy dane wejściowe, które są heterogeniczne i chcemy uniknąć potrzeby ręcznego analizowania zależności między nimi. Z drugiej strony mamy klasyfikację badanych obiektów. Aby możliwe było zbudowanie modelu musimy przyjąć, że kategorie są czymś pewnym. Nie zakładamy przy tym, że przynależność badanego obiektu do danej kategorii jest czymś pewnym. Tutaj mogą pojawić się błędy i jest to naturalne. Natomiast jako dobrze określone musimy przyjąć kategorie, bo w ten sposób definiujemy jaki wynik działania systemu chcemy uzyskać. Dane wejściowe Model semantyczny Klasyfikacja Rys. 3. Proces budowy modelu obliczeniowego Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Jednocześnie mamy komfort zmieniania kategorii przy tych samych danych wejściowych. Dzięki temu możemy w każdej chwili uzyskać inny model semantyczny, jeśli uznamy, że będzie on lepiej odzwierciedlał cel, który chcemy w danej chwili zrealizować. Oczywiście warunkiem jest posiadanie odpowiednich danych wyjściowych do uczenia. 1.1 Przestrzeń semantyczna i dystans semantyczny Za każdym ze stwierdzeń w języku naturalnym stoi pewne znaczenie. W naszym przypadku stwierdzeniami w języku naturalnym jest zawartość interfejsu. Znaczenie tych stwierdzeń jest nam znane. Nasz mózg je identyfikuje, gdyż są zapisane w znanym nam języku, co pozwala na powiązanie ze strukturą sieci semantycznej. Problemem jest jednak zbudowanie modelu, gdyż stwierdzenia w języku naturalnym jedynie przywołują określone znaczenia, ale nie definiują struktury całej sieci semantycznej. Standardowej podejście do semantyki jest próbą odtworzenia tej struktury semantycznej, którą mamy w mózgu. Niestety jesteśmy odtworzyć jedynie fragmenty tej struktury, które nie odzwierciedlają w pełni całej wiedzy, którą mamy. Poza tym problemem może być stosowana standardowo struktura sieci semantycznej oparta na grafie z węzłami zawierającymi wyrażenia w języku naturalnym. Problem struktury sieci semantycznej zostanie poruszony w innym dokumencie. Podstawą do automatycznego zbudowania modelu semantycznego, jest określenie odległości semantycznej pomiędzy poszczególnymi stwierdzeniami. Będzie to możliwe jeśli będziemy znali klasy, do których zakwalifikowaliśmy osobę biorącą udział w badaniu. Są to dane gromadzone w sposób bezpośredni. Mając te dane poprzez odpowiednie obliczenia, będziemy chcieli zidentyfikować strukturę semantyczną. Dane z interfejsu Klasyfikacja Model semantyczny Rys 4 Dane rejestrowane w sposób bezpośredni Wynikowy model semantyczny będą tworzyły elementy na rysunku poniżej. Należy zwrócić uwagę, że klasyfikacja jest częścią tego modelu, która jest znana w sposób jawny, gdyż w ten sposób zadajemy co Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. chcemy uzyskać. Interfejs tworzymy nie mając pełnej wiedzy, co dokładnie powinno się w nim znaleźć. Do pewnego stopnia tworzenie zawartości interfejsu jest zgadywaniem, polegającym na wybraniu spośród wszystkich możliwych pytań tych, które będą miały największy wkład w poprawną klasyfikację. Jednym z zadań, które będą przed nami stały, będzie określenie ważności poszczególnych pytań dla postawionego celu klasyfikacyjnego. Dane z interfejsu Klasyfikacja Struktura znaczeniowa interfejsu Rys. 5. Model semantyczny Przejdźmy teraz do określenia tego w jaki sposób będziemy definiowali znaczenie poszczególnych wyrażeń, oraz w jaki sposób określimy odległość pomiędzy nimi. Rozważania będziemy prowadzili w przestrzeni klasyfikacyjnej. Jej wymiar będzie zależał od tego, ile kategorii zdefiniujemy jako dane wyjściowe. Jeśli kategorii wyjściowych jest N to każdy z badanych obiektów jest punktem w N-wymiarowej przestrzeni. Jednocześnie zwróćmy uwagę, że na każdy z obiektów poddanych klasyfikacji składa się pewien wektor cech: 𝑂𝑖 = {𝐶𝑘 : 𝑘 ∈ 1, … , M} (1) gdzie: 𝑀 – liczba wszystkich możliwych cech, 𝐶𝑘 – cecha o numerze k, 𝑂𝑖 – badany obiekt (w naszym przypadku uczeń/student). Cechami mogą być odpowiedzi na pytania ankietowe lub inne rodzaje danych, które zbieramy o studentach. Zaklasyfikowanie obiektu do pewnej kategorii Kj oznacza, że wszystkie cechy, które on posiada, również należą do kategorii Kj. Inaczej można powiedzieć, że są one cechami tej kategorii. Na początek założymy najprostszy przypadek, kiedy obiekty są klasyfikowany wyłącznie do jednej z kategorii. Taka sytuacja ma miejsce, gdy kategorie są rozłączne względem siebie (przynależność do jednej Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. wyklucza przynależność do innych). W ogólnym przypadku możemy mieć do czynienia z sytuacją, kiedy obiekt będzie mógł należeć do kilku kategorii jednocześnie, ale takimi przypadkami zajmiemy się później. Oczywiście raczej mało prawdopodobne, aby dana cecha należała tylko do jednej kategorii. Bardzo często ta sama cecha będzie należała do obiektów zaklasyfikowanych do różnych kategorii. Po przebadaniu grupy osób uzyskamy pewien rozkład statystyczny cech względem kategorii, do których zostały zaklasyfikowane. Oznacza to, że każda cecha ma określone prawdopodobieństwo przynależności do każdej z kategorii: 𝑷𝐶𝑘 → (𝑃𝑘1 , 𝑃𝑘2 , … , 𝑃𝑘𝑁 ) (2) Gdzie: 𝑁 – liczba kategorii wyjściowych (dla przykładu jeśli za kategorię wyjściową uważamy klaster w przestrzeni ocen, do którego kwalifikujemy ucznia, to 𝑁 jest liczbą klastrów). 𝑃𝑘𝑛 – prawdopodobieństwo, że cecha o numerze k (𝐶𝑘 ) znalazła się w obiekcie zaklasyfikowanym do kategorii wyjściowej o numerze n. Inaczej zapisując 𝑃(𝐶𝑘 |𝑛) Wektor prawdopodobieństw będzie określał znaczenie każdej z cech. Ściślej rzecz biorąc będzie nas interesował nie tyle sam wektor, co jego kierunek. Wyjaśnimy teraz powód dla przyjęcia takich założeń. Podstawą do przyjęcia takiego założenia jest analiza wyrażeń synonimicznych. Otóż jeśli cecha jest zapisana w postaci wyrażenia w języku naturalnym, to może się tak zdarzyć, że znajdzie się inna cecha, która będzie zapisana w postaci innego wyrażenia, ale będzie miała to samo znaczenie. Oczywiście w przypadku świadomego konstruowania ankiet, raczej nie umieszcza się dwóch pytań dotyczących tego samego. Prowadzimy jednak teraz rozważania na bardziej ogólnym poziomie, a badania ankietowe są jedynie szczególnym przypadkiem. W szczególności tam gdzie stosuje się niesformalizowane opisy w języku naturalnym do opisu cech badanego obiektu (np. opisy symptomów chorobowych przez lekarza), synonimiczne opisy mogą się zdarzać dość często. Poza tym ankiety dotyczące tych samych zagadnień mogą być tworzone przez różne osoby w różnym czasie. Normalnie takie ankiety będą ze sobą niespójne, więc wyniki przez nie generowane trudno porównywać. Możliwe jest skonstruowanie ontologii, która pozwoli na przejście pomiędzy różnymi ankietami, ale wymaga to pewnego nakładu pracy. W naszym podejściu porównanie takie będzie mogło zostać wykonane automatycznie, o ile będą dotyczyły tej samej klasyfikacji, albo przynajmniej częściowo pokrywającej się klasyfikacji. Wtedy będzie można zidentyfikować części ankiety, posiadające znaczenie identyczne, lub zbliżone z inną ankietą, a w konsekwencji można je traktować jako tę samą ankietę, pomimo, iż mogła zostać inaczej sformułowana. Dla celów badawczych najlepiej byłoby mieć możliwie największą liczbę wersji ankiet. Wtedy istnieje szansa, że w klastrach byłaby większa liczba cech synonimicznych. Ta sama ankieta przeprowadzona na różnych grupach także może być przydatna. Możemy bowiem sprawdzić, czy znaczenie tych samych pytań wyznaczone wg naszej metodologii pokrywa się. Jeszcze innym przypadkiem, kiedy będziemy mieli do czynienia ze zbliżonym znaczeniem, będą przypadki, kiedy odpowiedzi na pytania będzie dzielił bardzo niewielki dystans. Przykładem może być skala odpowiedzi na pytanie w zakresie 1-10. Różnica semantyczna odpowiedzi pomiędzy sąsiadującymi Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. wartościami jest tutaj bardzo niewielka i może się okazać, że w modelu zostaną one zgrupowane i np. dwie lub trzy sąsiadujące wartości zostaną potraktowane jako jedna kategoria. Jeśli mamy dwie lub więcej cechy o tym samym znaczeniu, to bez względu na to, którą z nich użyjemy, wynik klasyfikacji będzie taki sam, bo mają one to samo znaczenie. Jest to jedynie inny zapis tych samych wartości semantycznych. Dlatego też kształt rozkładu synonimicznych zapisów w przestrzeni prawdopodobieństw musi być taki sam. Podkreślić należy, że chodzi tu o kształt rozkładu, a nie o sam rozkład. Wynika to z tego, że pewne frazy mogą być używane częściej a inne rzadziej, więc nie można zakładać, że ich rozkład w zakresie wartości bezwzględnych będzie taki sam. Niezmiennikiem będzie kształt tego rozkładu, bo nikt nie będzie wybierał frazy, którą chce użyć przy zakwalifikowaniu obiektu do określonej kategorii. Gdyby tak było, to oznaczałoby to, że jednak istnieje różnica znaczeniowa pomiędzy pozornie synonimicznymi frazami. Przypadek fraz synonimicznych jest jedynie szczególnym przypadkiem, stanowiącym punkt wyjścia do dalszych rozważań. Większość cech nie będzie synonimami (w szczególności w przypadku ankiet), ale mimo wszystko będzie pozostawał w pewnej relacji znaczeniowej z innym cechami. Niektóre z nich będą blisko związane ze sobą znaczeniowo, a inne będą bardziej odległe. Mając wyznaczony kierunek wektorów poszczególnych cech w przestrzeni prawdopodobieństw zawsze możemy określić kąt między tymi wektorami. Właśnie ten kąt będzie miarą odległości semantycznej pomiędzy cechami (patrz rys. poniżej). W taki sposób zdefiniowana miara odległości semantycznej będzie podstawą do dalszych rozważań, w szczególności do zbudowania modelu semantycznego określającego: zbiór klas semantycznych reprezentujących cechy obiektów, relacje semantyczne między klasami cech, w tym taksonomię pojęć, oraz relacje horyzontalne, powiązanie pomiędzy klasami cech obiektów oraz kategoriami klasyfikacji (które również będą klasami semantycznymi modelu). Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. PK1 Cecha2 dystans semantyczny Cecha1 P K2 PK 3 Rys. 6. Przestrzeń znaczeniowa rozpinana przez zbiór klas, wraz z dystansem semantycznym poszczególnych cech Podsumowanie W tekście omówiona została motywacja i sposób rozwiązania problemu identyfikacji dystansu znaczeniowego. Szczegółowe przedstawienie motywów, dla których przyjęto właśnie takie rozwiązanie jest bardzo istotne dla zasadności używania terminów takich jak: model semantyczny, dystans semantyczny, ontologia, klasa semantyczna. W literaturze te pojęcia funkcjonują od wielu lat i mają dobrze ugruntowaną interpretację i obudowę formalną. Tutaj wprowadzamy nową interpretację tych pojęć, dlatego wyjaśnienia pomagające rozwiać wątpliwości są tak ważne. Rozwiązanie teoretyczne przedstawione w tej pracy wymaga walidacji eksperymentalnej i uszczegółowienia algorytmów budowy modeli danych. Wyznaczenie dystansu semantycznego jest bardzo ważne, ale stanowi jedynie bazę do rozwoju algorytmów szczegółowych. Algorytmy te obejmą: identyfikację klas semantycznych, identyfikację relacji pionowych pomiędzy klasami (taksonomia pojęć), identyfikację relacji poziomych (wszystkie inne typy relacji, które można zidentyfikować w wyniku procesu obliczeniowego). Ponadto naszym celem jest stworzenie narzędzia, które będzie pozwalało na wnioskowanie na podstawie stworzonego modelu wiedzy. Narzędzie to będzie opierało się na znanych technikach wnioskowania, jednak musi uwzględniać specyfikę stworzonego modelu. Szczegóły przedstawionego rozwiązania zostały dotychczas opublikowane w dwóch artykułach o zasięgu międzynarodowym: 1. Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Data Integration through Clustering and Finding Statistical Relations - Validation of Approach, Proc. of the international workshop Concurrency Specification and Programming CS&P 2015, Rzeszów, 2015 2. Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Identifying Semantic Classes within Student's Data Using Clustering Technique, Proc. of the 3-rd International Conference on Data Management Technologies and Applications DATA 2014, Wiedeń, pp.371-376 Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Literatura 1. J. ter Bekke, Semantic Data Modeling, Prentice Hall, 1992. 2. G.S. Davidson, et.al. Data Mining for Ontology Development, Sandia National Laboratories, Albuquerque, 2010. 3. A. Gómez-Pérez, M. Fernández-López, O. Corcho, (2004). Ontological Engineering: With Examples from the Areas of Knowledge Management, E-commerce and the Semantic Web (1 ed.). Springer, 2004, p. 403. 4. H. Gorskis, Y. Chizhof, Ontology building using data mining techniques, Information Technology and Management Science, 15, 2012, pp. 183--188. 5. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer Series in Statistics, 2009. 6. R. Navigli, P. Velardi, Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites,. Computational Linguistics (MIT Press) 30 (2), 2004, p. 151–179. 7. D. Oberle, N. Guarino, S. Staab, What is an ontology?. w: "Handbook on Ontologies". Springer, 2nd edition, 2009. 8. The Protégé Ontology editor, protege.stanford.edu Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego.