Ewolucja czasowa modelu semantycznego i optymalizacja aparatu

Transkrypt

Ewolucja czasowa modelu semantycznego
i optymalizacja aparatu gromadzenia informacji
o studentach
Marek Jaszuk, Teresa Mroczek, Barbara Fryc
Wyższa Szkoła Informatyki i Zarządzania z siedzibą w Rzeszowie
(Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne
metody analizy szans i zagrożeń w procesie kształcenia)
1. Wstęp
Wiedza o dowolnym zagadnieniu nie jest rzeczą stałą, ale podlega ciągłym zmianom. Ontologia jako
reprezentacja wiedzy dziedzinowej powinna podlegać takim samym zasadom [Pittet 2011]. Zgodnie
z [Hodgson 2003] cykl życia ontologii jest podzielony na siedem etapów: określenie potrzeb, zarządzanie koncepcją i planowanie, ewolucja, dyfuzja, użycie, ewaluacja. Faza określenia potrzeb rozpoczyna
się od szczegółowej inwentaryzacji dziedziny i celów. Faza koncepcji podobnie jak faza ewolucji wymaga zgromadzenia wiedzy, zbudowania współdzielonej konceptualizacji, formalizacji i integracji istniejących zasobów (inne ontologie, zastosowania). Faza zarządzania i planowania podkreśla istotność
posiadania stałej kontroli i globalnej strategii, aby określić lub zainicjalizować, przygotować lub ocenić
iteracje cyklu życiowego. Etap zarządzania wymaga narzędzi nie tylko do przygotowania ontologii do
zaadaptowania zmian domenowych, ale także do ale także do śledzenia poprzednich wersji ontologii.
Te cele mogą zostać osiągnięte przy pomocy systemu wersjonowania [Flouris 2007]. Faza dyfuzji zajmuje się rozmieszczeniem udostępnianiem ontologii. Faza użycia zamyka wszystkie aktywności związane z dostępem do ontologii. Ostatecznie faza ewaluacji ma na celu ocenę stanu ontologii. Ponadto,
podobnie jak faza określenia potrzeb, ta faza zbiera wiedzę domenową i może także opierać się na
uprzednich analizach i informacjach od użytkowników. Poza fazą ewolucji i zarządzania, wszystkie opisane kroki mogą być uważane za obszary dojrzałe. Ponadto, ten opis cyklu życiowego pokazuje, że
ewolucja i zarządzanie pozostają najbardziej złożonymi fazami. Ewolucja jest szkieletem iteracji cyklu
życia. Dlatego proces zarządzania zmianą jest całkowicie na niej oparty.
Zgodnie z [Flouris 2007] ewolucja ontologii ma na celu reakcję na zmiany w dziedzinie lub konceptualizacji poprzez zastosowanie ich do źródłowej ontologii. Ta krótka definicja wymaga doprecyzowania
i odpowiedzi na pytanie: do jakiego zmian stosuje się ta ewolucja? Jak ewolucja jest do nich stosowana? Jakich kryteriów należy przestrzegać? W jaki sposób możemy dobrze zarządzać ewolucją?
Zmiany ewolucyjne zostały zdefiniowane w literaturze jako sekwencja prostych lub złożonych operacji,
które użytkownik chce zastosować do struktury ontologii lub do danych (sieci semantycznej) [Noy
Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach
Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013.
Inwestujemy w rozwój województwa podkarpackiego.
2004]. Ewolucja ma na celu zaadaptowanie ontologii do zmienionej domeny. Zastosowanie i rozpropagowanie zmiany są zazwyczaj zadaniami manualnymi, ale mogą zostać wykonane automatycznie przez
synchronizację z domeną. Zgodnie z [Tovar 2008] te zadania zazwyczaj pojawiają się podczas fazy użycia ontologii. Dynamika ontologii jasno definiuje kryteria ewolucji. Prace [Atle 2008, Dividino 2008]
kwalifikują utrzymanie ontologii jako najistotniejsze kryterium. Ewolucja musi utrzymać wszystko to co
opiera się na ontologii. Utrzymanie ontologii w stanie spójności i adekwatności jest nieuniknionym
aspektem ewolucji [Zablith 2008]. Stosowanie zmian do ontologii może spowodować niespójności
w konceptualizacji. Dlatego ewolucja nie powinna być ewaluowana przez tym jak użytkownik ma przegląd wpływu zmian na ontologię. Ten wpływ może być oszacowany jeśli operacje ewolucji są semantycznie jasno zdefiniowane. W celu zapewnienia, że ten proces jest całkowicie respektowany, niektóre
prace proponują podejście w 6 fazach:
1. Faza detekcji zmiany polegająca na określeniu zmian jakie pojawiły się w dziedzinie, które muszą zostać przeniesione do konceptualizacji. Dużo prac w dziedzinie dynamiki ontologii zajmuje
się tą fazą i proponuje metody i narzędzia takie jak zintegrowana obsługa zdarzeń [Tovar 2008],
ontology learning [Novacek 2007].
2. Faza reprezentacji mająca na celu reprezentowanie wybranych zmian przez operacje ontologiczne. [Noy 2004] klasyfikuje operacje ewolucji jako elementarne (atomowe) i złożone (kompleksowe). Wg tego podziału elementarne operacje modyfikują tylko jeden element, np. dodanie/usunięcie klasy. Operacje złożone składają się ze zbioru operacji elementarnych. Wybór
operacji złożonych zależy od granularności potrzeb ewolucji.
3. Faza semantyczna zabezpiecza użytkownika przed ryzykiem niespójności, przez określenie znaczenia reprezentowanych zmian. Dla przykładu, jeśli złożone operacje zostały wybrane, to ta
faza umożliwi postrzeganie ich rozbicia na elementarne operacje.
4. Implementacja zmian informuje użytkownika o wpływie na dane w kategoriach zysku, lub strat
tych danych.
5. Faza propagacji ma na celu informowanie wszystkich elementów zależnych (inne ontologie,
zastosowania) o wprowadzonych zmianach.
6. Ostatni krok to walidacja wprowadzonych zmian.
Wszystkie wskazane tutaj fazy będziemy chcieli zaimplementować w pewien sposób w opracowanej
przez nas metodologii. Należy mieć jednak na uwadze, że nasze podejście będzie się różniło w detalach.
Wynika to z faktu, że u nas całość procesu jest przeprowadzana automatycznie. Nie będziemy się także
skupiali na typowych aspektach wdrożeniowych, gdyż nie jest to naszym celem na tym etapie prac.
Bardziej skupimy się na tym w jaki sposób wprowadzane będą zmiany w modelu i w jaki sposób będzie
wyglądał proces utrzymania (konserwacji) ontologii.
Praca jest zorganizowana w sposób następujący. W sekcji 2 jest opisany w sposób ogólny iteracyjny
proces jakiemu podlegają wraz z czasem budowana automatycznie ontologia i ankiety jako narzędzie
gromadzenia informacji o studentach. W sekcji 3 opisane zostały kolejne iteracje procesu optymalizacji
ankiet i aktualizacji modelu semantycznego. W szczególności została wyróżniona pierwsza iteracja i
kolejne. Przedstawiona została także jakość predykcji generowanych przez model po kolejnych iteracjach.
2. Czasowa ewoulcja modelu semantycznego
Jak wielokrotnie podkreślaliśmy, podejście które tutaj stosujemy ma charakter automatyczny, tzn.
chcemy uniknąć jakichkolwiek manualnych modyfikacji modelu. W większości przypadków, które
można znaleźć w literaturze, ewolucja ontologii odbywa się w sposób całkowicie manualny lub w najlepszym przypadku w sposób półautomatyczny. Ewolucja manualna wymaga wykonania zadań opisanych we wstępie przy bezpośrednim udziale ekspertów ludzkich. W drugim przypadku, czyli półautomatycznej ewolucji modelu przeprowadzany jest pewien proces obliczeniowy, który jedynie przygotowuje dane, które następnie będą musiały zostać przetworzone przez eksperta ludzkiego. Czyli w tym
przypadku rola narzędzi automatycznych jest jedynie pomocnicza. Nasze podejście całkowicie eliminuje potrzebę wprowadzania jakichkolwiek zmian manualnych w modelu. Można powiedzieć więcej –
są one niedopuszczalne, gdyż zaburzałyby w sposób niekontrolowany uzyskany model.
Danymi wejściowymi, na podstawie których budowany był model (ontologia), były dane ankietowe,
oraz dane o sukcesie edukacyjnym studentów. W fazie użycia ontologii posługiwaliśmy się jedynie danymi ankietowymi. Ewolucja ontologii będzie opierała się na dokładnie takich samych danych. Kolejnym aspektem, który będzie odróżniał nasze podejście od typowych podejść literaturowych będzie
fakt, że dane gromadzone do naszych eksperymentów są rejestrowane w z grubsza rzecz biorąc stałych
odstępach czasowych – zakładamy, że dane o studentach gromadzone są raz do roku. Można to robić
częściej, ale chcemy uniknąć efektu zniechęcenia studentów do wypełniania zbyt wielu ankiet. Wiąże
się to z kolejnym aspektem, który ma kluczowe znaczenie dla budowy ontologii dziedzinowej. Ważna
jest nie tylko reprezentacja wiedzy jako taka, ale także optymalizacja tej reprezentacji. Powód, dla którego jest to tak istotne wynika nie z potrzeb skutecznego przewidywania wyników procesu edukacyjnego, ale z potrzeb skutecznego gromadzenia danych. Musimy mieć na względzie, że pracujemy z czynnikiem ludzkim, gdzie istotne jest odpowiednie podejście psychologiczne. Jest to niezbędne, aby uniknąć efektu niechęci do wypełniania ankiet. Dlatego chcemy, aby przy minimalnym nakładzie pracy ze
strony wypełniającego ankietę uzyskać maksimum informacji.
Mamy świadomość, że na etapie początkowym ankieta zbudowana przy współpracy ekspertów dziedzinowych, nie będzie doskonała. Wynika to z faktu, że poruszamy się w zagadnieniach, które nie były
wcześniej badane takimi metodami i w związku z tym nie mamy żadnej informacji zwrotnej na temat
możliwych do uzyskania wyników i skuteczności ankiety. Dlatego nawet zakładając dużą wiedzę i doświadczenie ekspertów dziedzinowych nie możemy wymagać optymalnie dobranej ankiety. Taką ankietę będzie można skonstruować dopiero w wyniku przeprowadzenia kilku iteracji przeprowadzania
ankiet i na tej podstawie aktualizacji ontologii.
Na szczęście sam mechanizm budowy ontologii jest tak skonstruowany, że pozwala automatycznie wychwycić odpowiedzi, które są bardziej lub mniej istotne dla badanego zagadnienia. Bardziej istotne to
takie, które bardziej precyzyjnie wskazują klasy wynikowe modelu semantycznego (klasami wynikowymi są u nas klasy sukcesu edukacyjnego). Mniej istotne to takie, które nie wskazują zbyt precyzyjnie
klas wynikowych. Skrajnym przypadkiem będą odpowiedzi, które wskazują tylko jedną klasę wynikową.
Ich wartość jest największa, gdyż z faktu, że student wybrał tę odpowiedź można precyzyjnie wywnioskować, jaki sukces edukacyjny odniesie. Drugą skrajnością są odpowiedzi, które tak samo wskazują
wszystkie klasy sukcesu edukacyjnego. Ich wartość jest znikoma, bo gdyby ankieta składała się wyłącznie z takich pytań, to ontologia nie pozwoliłaby wyciągnąć żadnych wniosków co do potencjalnych wyników studentów.
Po pierwszym etapie zbierania danych ankietowych jesteśmy w stanie stworzyć pewien model hierarchiczny. Szczegóły tworzenia tego modelu zostały opisane w pracy [Jaszuk 2016a]. Specyfika tego modelu hierarchicznego polega na tym, że na wyższych poziomach hierarchii mieszczą się klasy, które w
niespecyficznie wskazują klasy wynikowe. W szczególności najwyższy poziom hierarchii mieści właśnie
takie odpowiedzi, które nie dostarczają żadnej istotnej informacji. Nie można powiedzieć, że są one
ogólnie nieistotne, gdyż nie możemy wykluczyć, że przy inaczej zdefiniowanych klasach wynikowych
okazałoby się, że pozwalają one na zróżnicowanie pomiędzy grupami studentów. Ponieważ jednak
mamy ściśle określone zadanie stawiane przed modelem, to musimy w tym miejscu stwierdzić, że odpowiedzi mieszczące się na najwyższych poziomach hierarchii są bezużyteczne. Dlatego automatycznie
są to odpowiedzi będące kandydatami do wyeliminowania z ankiety. Z drugiej strony odpowiedzi, znajdujące się na najniższych poziomach hierarchii, dają wskazówki jakich zagadnień powinna dotyczyć ankieta, gdyż one wnoszą najwięcej wartościowej informacji.
Cykl życiowy ontologii i systemu ankietyzacji będzie się składał z następujących kroków:
1. Budowa pierwszej wersji ankiety. Tutaj eksperci dziedzinowi budują ankietę, która ich zdaniem
będzie najlepiej służyła zadanym celom.
2. Mając ankietę zbieramy dane od studentów.
3. Po zakończeniu semestru zbieramy oceny i budujemy strukturę hierarchiczną wg metodologii
opisanej w pracy [Jaszuk 2016a] .
4. Dokonujemy ewaluacji odpowiedzi na podstawie ich przynależności do klas hierarchii.
5. Analizujemy ankietę pod kątem możliwych zmian pytań. Ten etap wymaga zaangażowania ekspertów dziedzinowych.
6. Aktualizujemy ankietę
7. Wracamy do kroku 2 i powtarzamy iteracyjnie przez kolejne lata, aż do uzyskania satysfakcjonującego poziomu jakości ankiety.
Wskazany wyżej proces powinien doprowadzić do uzyskania ankiety, składających się z pytań dostarczających wiedzy użytecznej dla założonych celów. Jednocześnie chcemy, aby była to ankieta o optymalnym rozmiarze, aby nie wywoływać znużenia studentów przy jej wypełnianiu. W samej ontologii
będzie się to przejawiało przeniesieniem odpowiedzi z górnych poziomów , do niższych poziomów.
Schematycznie proces optymalizacji ankiety przedstawiono na Rys. 1. Jest to proces, który można powtarzać dowolną liczbę razy, tak długo jak długo nie jesteśmy usatysfakcjonowani uzyskiwanymi rezultatami. Ponadto mamy możliwość bezkonfliktowego wprowadzania pytań dotyczących nowych zagadnień, które w międzyczasie moglibyśmy uznać za istotne. Jest to bardzo istotna zaleta naszego podejścia, w porównaniu do typowo spotykanych rozwiązań opartych na manualnie modyfikowanych ontologiach.
Modyfikacja ankiety
przez eksperta
dziedzinowego
Ankieta prototypowa
Gromadzenie danych
od studentów
Budowa ontologii i
analiza rozkładu
odpowiedzi w
klasach
Ankieta
zoptymalizowana
Rysunek 1 Schematyczna reprezentacja procesu gromadzenia danych, aktualizacji ontologii i optymalizacji ankiety
Aktualizacja ontologii odbywa się współbieżnie z optymalizacją ankiet. Należy jednak pamiętać, że istnieją różne czynniki wpływające na zmiany struktury modelu semantycznego w czasie. W szczególności
wyróżnijmy 2 z nich:
1. Struktura ankiety – wprowadzając nową ankietę powodujemy modyfikację składu klas odpowiedzi ankietowych, ale też modyfikację tych klas jako takich. Mogą np. powstać nowe klasy,
których nie było wcześniej, lub zniknąć takie które były wcześniej.
2. Odpowiedzi studentów - można się spodziewać, że nawet gdyby ankieta była ustalona to z czasem odpowiedzi studentów należących do poszczególnych klas mogą się zmieniać. To oznacza
że wiedza zdobyta na wcześniejszym roczniku nie będzie się stosowała w pełni do kolejnych
roczników.
O ile pierwszy z przypadków został omówiony i można powiedzieć, że mamy go pod kontrolą, o tyle
z drugim przypadkiem mamy pewien problem. Z faktu, że odpowiedzi studentów mogą się zmieniać
z rocznika na rocznik wynika niemożność skutecznych predykcji. Jak wykazały nasze wcześniejsze prace
efekt taki jeśli istnieje, to jednak nie jest zbyt silny i dlatego w krótkiej skali czasowej (kilka lat) możemy
go zaniedbać [Jaszuk 2015]. Jest to jednak ciekawy temat do badań na przyszłość. Wyciągnięcie miarodajnych wniosków wymagałoby przeprowadzenia badań w skali przynajmniej dziesięcioletniej, co ze
względu na ramy czasowe wykracza poza zakres raportowanych badań. Innym aspektem, który również można byłoby wziąć pod uwagę jest kwestia różnic zachodzących pomiędzy różnymi środowiskami, z których pochodzą studenci. To wymagałoby przeprowadzenia badań np. na różnych uczelniach, czego tutaj również nie zrealizujemy.
3. Wyniki iteracyjnej optymalizacji ankiet
3.1 Pierwsza iteracja
Przyjrzyjmy się teraz wynikom analiz, które wykonaliśmy. Zgromadzone dane pochodzą z trzech kolejnych roczników studiów. Pierwszy rocznik pozwala już na wykonanie pierwszej iteracji procesu. Oznacza to, że w ciągu pierwszego roku badań wykonaliśmy następujące operacje:
1. Budowa ankiety prototypowej,
2. Zbieranie danych ankietowych, a później danych o wynikach studentów,
3. Budowa modelu semantycznego (ontologii) w zakresie klas odpowiedzi i dokonanie analizy
rozkładu odpowiedzi w klasach,
4. Selekcja odpowiedzi i modyfikacja ankiety przez usunięcie mało wartościowych pytań/odpowiedzi i zastąpienie ich takimi, które mogłyby wnieść nową wartość informacyjną.
5. Nowa ankieta jest gotowa do przeprowadzenia na kolejnym roczniku
Najbardziej newralgicznym momentem całego procesu jest modyfikacja ankiet, gdyż wymaga zaangażowania ekspertów dziedzinowych. W naszym przypadku ekspertami dziedzinowymi były osoby zajmujące się badaniami w zakresie nauk społecznych.
Ankieta prototypowa
Ankieta prototypowa składała się z ponad 400 odpowiedzi. To wydaje się dość dużo, ale należy mieć
świadomość, że część pytań polegała na wybraniu odpowiedzi z pewnego zakresu wartości, np. wartości z zakresu 1-10, co bardzo szybko generuje dużą liczbę odpowiedzi. Liczba pytań, do których te odpowiedzi były udzielane wynosiła 21. Późniejsze analizy wykazały, że założyliśmy zbyt drobny podział
odpowiedzi, który przy względnie niewielkiej liczbie studentów nie pozwala uzyskać wystarczająco wiarygodnych rozkładów statystycznych [Jaszuk 2015]. Na szczęście wymiarowość przeprowadzonej ankiety można w przypadku takich pytań łatwo zredukować poprzez zgrupowanie odpowiedzi. Dlatego
można było eksperymentować na wersjach o różnych wymiarach bez potrzeby przeprowadzania ankiet. Jak się okazało, takie zredukowane ankiety dawały znacznie bardziej wiarygodne rezultaty. Najbardziej zredukowana wersja ankiety miała około 200 odpowiedzi.
Zbieranie danych
Ankiety zostały wypełnione przez około 200 studentów, na których prowadzone było badanie. 90%
tych studentów uzyskało oceny na koniec semestru, co pozwoliło na przeprowadzenie klasteryzacji
i wyróżnienie kategorii sukcesu edukacyjnego. Analizowane były różne warianty podziału na grupy sukcesu edukacyjnego. Przyjęliśmy do dalszych analiz podział na 3 kategorie studentów, którzy uzyskali
oceny. Około 10% studentów nie uzyskało ocen, gdyż wcześniej przerwali studia. Ci studenci stanowili
dodatkową kategorię sukcesu.
Budowa modelu semantycznego i analiza rozkładu odpowiedzi w klasach
Mając dane o studentach proces budowy modelu semantycznego przeprowadza się w pełni automatycznie. Wykorzystaliśmy metodologię przedstawioną w pracy [Jaszuk 2016a] do zbudowania hierarchii
klas odpowiedzi ankietowych. Jak już wcześniej wyjaśniono, hierarchia składa się z szeregu poziomów.
Istotna jest nie tyle przynależność odpowiedzi do określonej klasy, ale umiejscowienie na określonym
poziomie hierarchii. Najistotniejszy jest najwyższy poziom hierarchii i najniższy. Odpowiedzi umiejscowione na najwyższym poziomie są do usunięcia, natomiast odpowiedzi z najniższego poziomu są sugestią do tego, które zagadnienia należałoby w ankiecie rozwinąć. Jak wykazały obliczenia, najwięcej odpowiedzi znalazło się na najwyższych poziomach hierarchii. Z kolei najmniej odpowiedzi było na najniższych poziomach. Szczegóły zawiera Tab. 1. 1 to najniższy poziom, a 4 to najwyższy (najbardziej ogólny).
Wyniki, które widzimy wskazują, że ankieta wymaga istotnych modyfikacji.
Tabela 1 Rozkład odpowiedzi na poziomy hierarchii – pierwsza iteracja
Poziom
Procent odpowiedzi
1
8%
2
18%
3
31%
4
43%
Selekcja pytań/odpowiedzi i modyfikacja ankiety
Po przeanalizowaniu treści pytań podjęto decyzję o usunięciu części z tych pytań lub przynajmniej modyfikacji tych pytań. W niektórych pytaniach zmodyfikowano część dostępnych wariantów odpowiedzi.
Skala zmian obejmowała 43% procent odpowiedzi umiejscowionych na najwyższym poziomie ontologii. Odpowiedzi z poziomu znajdującego się bezpośrednio poniżej najwyższego nie były modyfikowane.
Wprawdzie nie mają one bardzo dużej wartości informacyjnej (wskazują na 3 możliwe klasy wynikowe),
to jednak zawsze istnieje ryzyko zastąpienia ich jeszcze gorszymi odpowiedziami. W efekcie dostalibyśmy gorszą ankietę, a tego chcemy uniknąć. W przypadku najwyższego poziomu nie ma takiego zagrożenia, bo już gorzej być nie może. Dlatego nie mamy nic do stracenia zmieniając te odpowiedzi. W
najgorszym przypadku uzyskamy wyniki na tym samym poziomie.
Ponieważ najniższy poziom hierarchii zawierał jedynie 8% odpowiedzi, co jest dość niewielkim odsetkiem, jako sugestię do modyfikacji zawartości ankiety wykorzystano zawartość dwóch najniższych poziomów, czyli łącznie 26% odpowiedzi z pierwotnej ankiety. Pozwoliło to zastąpić lub zmodyfikować
43% odpowiedzi z najwyższego poziomu. W wyniku wprowadzonych zmian uzyskaliśmy ankietę o porównywalnym rozmiarze do wersji prototypowej.
3.2 Kolejne iteracje
Kolejne iteracje procesu przeprowadzane były wg opisanej poprzednio procedury na kolejnych rocznikach studiów. Ze względu na ramy czasowe całkowita liczba iteracji ograniczona została do 3 (3 kolejne
roczniki studiów). Za każdym razem identyfikowane były odpowiedzi, które nie wprowadzały istotnej
informacji i modyfikowane w celu uzyskania bardziej wartościowej informacji. Tab. 2 ilustruje rozkład
odpowiedzi w warstwach ontologii w kolejnych iteracjach.
Tabela 2 Rozkład odpowiedzi na poziomy hierarchii w kolejnych iteracjach
Poziom
Iteracja 2
Iteracja 3
1
15%
17%
2
24%
26%
3
27%
30%
4
34%
27%
Obserwując wyniki z Tab. 1 i 2 możemy stwierdzić, że rozkład odpowiedzi w warstwach stał się bardziej
równomierny. Nadal w najniższej warstwie jest najmniej odpowiedzi, niemniej jednak procentowo jest
ich ponad dwa razy więcej niż po pierwszej iteracji. Ponadto doszło do inwersji rozkładu, tzn. najwyższym poziomie jest więcej klas niż o jeden poziom niżej. Sumaryczną wizualizację rozkładów z wszystkich iteracji przedstawia Rys. 2. Podsumowując wyniki możemy stwierdzić, że wprawdzie nie uzyskano
całkowicie zakładanego celu polegającego na przesunięciu ciężaru odpowiedzi ankietowych na niższe
warstwy hierarchii, to jednak z każdą iteracją jest widoczna systematyczna poprawa wyników. Wynikiem całego procesu jest ankieta gotowa do przeprowadzenia na kolejnym roczniku studentów. Została
ona nieco zmniejszona w porównaniu w wersją prototypową, gdyż zawiera około 20% mniej odpowiedzi. Dlatego oczekujemy w kolejnej iteracji kolejnego spadku procentowego udziału odpowiedzi z najwyższego poziomu.
PROCENT ODPOWIEDZI
50
45
40
35
30
25
20
15
10
5
0
Iteracja 1
Iteracja 2
Iteracja 3
1
2
3
4
WARSTWA HIERARCHII
Rysunek 2 Wykresy rozkładu liczby odpowiedzi ankietowych w warstwach w kolejnych iteracjach
Aby uzupełnić wyniki przedstawimy dodatkowo wizualizację liczby poprawnie zakwalifikowanych studentów przez system po kolejnych iteracjach (Rys. 3). Obliczenia zostały przeprowadzone zgodnie
z metodologią opisaną w pracy [Jaszuk 2016b]. Dane dla zbioru uczącego zostały zaznaczone dla trzech
kolejnych lat, natomiast dane dla zbioru testowego tylko dla dwóch ostatnich, gdyż dane z pierwszego
rocznika nie były używane jako testowe. Można było oczekiwać, że wraz ze wzrostem jakości ankiety,
w kolejnych iteracjach rosły będą także zdolności predyktywne modelu, jak również zdolności odwzorowania zbioru uczącego. Co do zdolności predyktywnych to niestety musimy się opierać tylko na
dwóch punktach danych dla 2 i 3 iteracji. Faktycznie widoczny jest kilkuprocentowy wzrost mocy predyktywnej modelu. Jednocześnie mamy wzrost jakości odwzorowania zbioru uczącego. Dlatego możemy stwierdzić, że model w kolejnych iteracjach zachowuje się zgodnie z oczekiwaniami.
PROCENT POPRAWNYCH
100
95
90
85
Zbiór testowy
80
Zbiór uczący
75
70
1
2
3
ITERACJA
Rysunek 3 Procent poprawnie zakwalifikowanych studentów dla kolejnych iteracji
Podsumowanie
W raporcie przedstawiono wyniki prac nad procesem utrzymania i ewolucji modelu semantycznego
oraz aktualizacji i optymalizacji systemu ankietowego służącego do gromadzenia danych. Obliczenia
przeprowadzono w oparciu o dane uzyskane dla 3 kolejnych roczników studiów. Dla tych studentów
zebrano dane ankietowe oraz dane o ocenach, przy czym każdorazowo dokonywana była aktualizacja
ankiet. Podstawą do aktualizacji był rozkład odpowiedzi ankietowych w klasach tworzących model semantyczny. Metoda generowania tego modelu umożliwia precyzyjne wskazanie odpowiedzi wnoszących wartościowe informacje i takich informacji niewnoszących. Uzyskiwana jest gradacja wartości odpowiedzi zależna od liczby warstw hierarchii. Stopni jest tyle ile wynosi liczba warstw. Ponadto przedstawione zostały analizy dotyczące zdolności predyktywnych, które potwierdzają, że optymalizacja ankiet prowadzi do uzyskiwania coraz lepszych zdolności predyktywnych modelu.
Przedstawione tutaj podstawy metodologiczne maja charakter uniwersalny i nie są związane z określonym zastosowaniem. Niestety bardziej miarodajne badania empiryczne dotyczące ewolucji czasowej modelu wymagałyby przeprowadzenia badań w dłuższym horyzoncie czasowym. W ramach realizowanego projektu byliśmy w stanie zgromadzić jedynie niezbędne minimum danych, które pozwala
wykazać, że przedstawiona metodologia faktycznie działa i pozwala uzyskiwać wartościowe wyniki.
Dlatego warto w przyszłości kontynuować te badania zgodnie ze zdefiniowanymi tutaj założeniami, aby
uzyskać szerszy ogląd możliwych do uzyskania wyników.
Literatura
[Atle 2008] J. Atle Gulla, V. Sugumaran, An Ontology Creation Methodology: A Phased Approach,
Proc. of the International Workshop on Ontology Dynamics at ISWC Karlsruhe, Germany
2008.
[Dividino 2008] R. Dividino, D. Sonntag, Controlled Ontology Evolution through Semiotic-based Ontology Evaluation. Karlsruhe, Germany, International Workshop on Ontology Dynamicsat
ISWC, 2008.
[Flouris 2007] F. Flouris, D. Manakanatas, H. Kondylakis, D. Plexousakis, G. Antoniou, Ontology
Change: Classification & Survey, The Knowledge Engineering Review, 1–29, Cambridge University Press, 2007.
[Hodgson 2003] R. Hodgson, The Potential of Semantic Technologies for e-government presentation of eGov, Open Source Conference, Washington, DC, March 18th, 2003
[Jaszuk 2015] M. Jaszuk, T. Mroczek, B. Fryc, Data Integration through Clustering and Finding Statistical Relations - Validation of Approach, Proc. of the international workshop Concurrency
Specification and Programming CS&P 2015.
[Jaszuk 2016a] M. Jaszuk, B. Fryc, T. Mroczek, Techniki sztucznej inteligencji w przewidywaniu wyników procesu edukacyjnego, Współczesne Oblicza Informatyki, Jarosław, 2016.
[Jaszuk 2016b] M. Jaszuk, B. Fryc, T. Mroczek, Wnioskowanie w automatycznie zbudowanej hierarchii pojęć, publikacja on-line https://www.wsiz.rzeszow.pl/pl/Uczelnia/kadra/mjaszuk/Documents/publikacja5.pdf
[Novacek 2007] V. Novacek, L. Laera, S. Handschuh, Semiautomatic Integration of Learned Ontologies into a Collaborative Framework, Proceedings of IWOD/ESWC 2007, in conjunction with
ESWC 2007, 2007.
[Noy 2004] N.F. Noy, M. Klein, Ontology Evolution: Not the Same as Schema Evolution -Stanford
Medical Informatics, Stanford University, Stanford, CA, USA Vrije University Amsterdam, Amsterdam, The Netherlands, 2004.
[Pittet 2011] P. Pittet, C. Cruz, C. Nicolle, Guidelines for a Dynamic Ontology - Integrating Tools of
Evolution and Versioning in Ontology, KMIS 2011, pp. 173-179.
[Tovar 2008] E. Tovar, M.E. Vidal, REACTIVE: A Rule-based Framework to Process Reactivity - Proceedings of the International Workshop on Ontology Dynamics at ESWC 2008, Karlsruhe, Germany. 2008.
[Zablith 2008] Zablith, F., et al. - Using Background Knowledge for Ontology Evolution, Int. Work.
on Ontology Dynamics, Karlsruhe, Germany 2008.

Ewolucja czasowa modelu semantycznego i optymalizacja aparatu

Transkrypt

Podobne dokumenty

System klasyfikacji i opisu publikacji naukowych z

Fundusze europejskie dla przedsiębiorców Lokalny Punkt

Kryteria oceny edytorów ontologii

pobierz plik referatu

Metodologia konceptualizacji przedmiotów dla systemów z bazą

Krzysztof GOCZYŁA, Teresa ZAWADZKA

Pobierz plik PDF - Filo

wybrane metodologie i metody budowania ontologii