Ewolucja czasowa modelu semantycznego i optymalizacja aparatu
Transkrypt
Ewolucja czasowa modelu semantycznego i optymalizacja aparatu
Ewolucja czasowa modelu semantycznego i optymalizacja aparatu gromadzenia informacji o studentach Marek Jaszuk, Teresa Mroczek, Barbara Fryc Wyższa Szkoła Informatyki i Zarządzania z siedzibą w Rzeszowie (Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia) 1. Wstęp Wiedza o dowolnym zagadnieniu nie jest rzeczą stałą, ale podlega ciągłym zmianom. Ontologia jako reprezentacja wiedzy dziedzinowej powinna podlegać takim samym zasadom [Pittet 2011]. Zgodnie z [Hodgson 2003] cykl życia ontologii jest podzielony na siedem etapów: określenie potrzeb, zarządzanie koncepcją i planowanie, ewolucja, dyfuzja, użycie, ewaluacja. Faza określenia potrzeb rozpoczyna się od szczegółowej inwentaryzacji dziedziny i celów. Faza koncepcji podobnie jak faza ewolucji wymaga zgromadzenia wiedzy, zbudowania współdzielonej konceptualizacji, formalizacji i integracji istniejących zasobów (inne ontologie, zastosowania). Faza zarządzania i planowania podkreśla istotność posiadania stałej kontroli i globalnej strategii, aby określić lub zainicjalizować, przygotować lub ocenić iteracje cyklu życiowego. Etap zarządzania wymaga narzędzi nie tylko do przygotowania ontologii do zaadaptowania zmian domenowych, ale także do ale także do śledzenia poprzednich wersji ontologii. Te cele mogą zostać osiągnięte przy pomocy systemu wersjonowania [Flouris 2007]. Faza dyfuzji zajmuje się rozmieszczeniem udostępnianiem ontologii. Faza użycia zamyka wszystkie aktywności związane z dostępem do ontologii. Ostatecznie faza ewaluacji ma na celu ocenę stanu ontologii. Ponadto, podobnie jak faza określenia potrzeb, ta faza zbiera wiedzę domenową i może także opierać się na uprzednich analizach i informacjach od użytkowników. Poza fazą ewolucji i zarządzania, wszystkie opisane kroki mogą być uważane za obszary dojrzałe. Ponadto, ten opis cyklu życiowego pokazuje, że ewolucja i zarządzanie pozostają najbardziej złożonymi fazami. Ewolucja jest szkieletem iteracji cyklu życia. Dlatego proces zarządzania zmianą jest całkowicie na niej oparty. Zgodnie z [Flouris 2007] ewolucja ontologii ma na celu reakcję na zmiany w dziedzinie lub konceptualizacji poprzez zastosowanie ich do źródłowej ontologii. Ta krótka definicja wymaga doprecyzowania i odpowiedzi na pytanie: do jakiego zmian stosuje się ta ewolucja? Jak ewolucja jest do nich stosowana? Jakich kryteriów należy przestrzegać? W jaki sposób możemy dobrze zarządzać ewolucją? Zmiany ewolucyjne zostały zdefiniowane w literaturze jako sekwencja prostych lub złożonych operacji, które użytkownik chce zastosować do struktury ontologii lub do danych (sieci semantycznej) [Noy Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. 2004]. Ewolucja ma na celu zaadaptowanie ontologii do zmienionej domeny. Zastosowanie i rozpropagowanie zmiany są zazwyczaj zadaniami manualnymi, ale mogą zostać wykonane automatycznie przez synchronizację z domeną. Zgodnie z [Tovar 2008] te zadania zazwyczaj pojawiają się podczas fazy użycia ontologii. Dynamika ontologii jasno definiuje kryteria ewolucji. Prace [Atle 2008, Dividino 2008] kwalifikują utrzymanie ontologii jako najistotniejsze kryterium. Ewolucja musi utrzymać wszystko to co opiera się na ontologii. Utrzymanie ontologii w stanie spójności i adekwatności jest nieuniknionym aspektem ewolucji [Zablith 2008]. Stosowanie zmian do ontologii może spowodować niespójności w konceptualizacji. Dlatego ewolucja nie powinna być ewaluowana przez tym jak użytkownik ma przegląd wpływu zmian na ontologię. Ten wpływ może być oszacowany jeśli operacje ewolucji są semantycznie jasno zdefiniowane. W celu zapewnienia, że ten proces jest całkowicie respektowany, niektóre prace proponują podejście w 6 fazach: 1. Faza detekcji zmiany polegająca na określeniu zmian jakie pojawiły się w dziedzinie, które muszą zostać przeniesione do konceptualizacji. Dużo prac w dziedzinie dynamiki ontologii zajmuje się tą fazą i proponuje metody i narzędzia takie jak zintegrowana obsługa zdarzeń [Tovar 2008], ontology learning [Novacek 2007]. 2. Faza reprezentacji mająca na celu reprezentowanie wybranych zmian przez operacje ontologiczne. [Noy 2004] klasyfikuje operacje ewolucji jako elementarne (atomowe) i złożone (kompleksowe). Wg tego podziału elementarne operacje modyfikują tylko jeden element, np. dodanie/usunięcie klasy. Operacje złożone składają się ze zbioru operacji elementarnych. Wybór operacji złożonych zależy od granularności potrzeb ewolucji. 3. Faza semantyczna zabezpiecza użytkownika przed ryzykiem niespójności, przez określenie znaczenia reprezentowanych zmian. Dla przykładu, jeśli złożone operacje zostały wybrane, to ta faza umożliwi postrzeganie ich rozbicia na elementarne operacje. 4. Implementacja zmian informuje użytkownika o wpływie na dane w kategoriach zysku, lub strat tych danych. 5. Faza propagacji ma na celu informowanie wszystkich elementów zależnych (inne ontologie, zastosowania) o wprowadzonych zmianach. 6. Ostatni krok to walidacja wprowadzonych zmian. Wszystkie wskazane tutaj fazy będziemy chcieli zaimplementować w pewien sposób w opracowanej przez nas metodologii. Należy mieć jednak na uwadze, że nasze podejście będzie się różniło w detalach. Wynika to z faktu, że u nas całość procesu jest przeprowadzana automatycznie. Nie będziemy się także skupiali na typowych aspektach wdrożeniowych, gdyż nie jest to naszym celem na tym etapie prac. Bardziej skupimy się na tym w jaki sposób wprowadzane będą zmiany w modelu i w jaki sposób będzie wyglądał proces utrzymania (konserwacji) ontologii. Praca jest zorganizowana w sposób następujący. W sekcji 2 jest opisany w sposób ogólny iteracyjny proces jakiemu podlegają wraz z czasem budowana automatycznie ontologia i ankiety jako narzędzie gromadzenia informacji o studentach. W sekcji 3 opisane zostały kolejne iteracje procesu optymalizacji ankiet i aktualizacji modelu semantycznego. W szczególności została wyróżniona pierwsza iteracja i kolejne. Przedstawiona została także jakość predykcji generowanych przez model po kolejnych iteracjach. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. 2. Czasowa ewoulcja modelu semantycznego Jak wielokrotnie podkreślaliśmy, podejście które tutaj stosujemy ma charakter automatyczny, tzn. chcemy uniknąć jakichkolwiek manualnych modyfikacji modelu. W większości przypadków, które można znaleźć w literaturze, ewolucja ontologii odbywa się w sposób całkowicie manualny lub w najlepszym przypadku w sposób półautomatyczny. Ewolucja manualna wymaga wykonania zadań opisanych we wstępie przy bezpośrednim udziale ekspertów ludzkich. W drugim przypadku, czyli półautomatycznej ewolucji modelu przeprowadzany jest pewien proces obliczeniowy, który jedynie przygotowuje dane, które następnie będą musiały zostać przetworzone przez eksperta ludzkiego. Czyli w tym przypadku rola narzędzi automatycznych jest jedynie pomocnicza. Nasze podejście całkowicie eliminuje potrzebę wprowadzania jakichkolwiek zmian manualnych w modelu. Można powiedzieć więcej – są one niedopuszczalne, gdyż zaburzałyby w sposób niekontrolowany uzyskany model. Danymi wejściowymi, na podstawie których budowany był model (ontologia), były dane ankietowe, oraz dane o sukcesie edukacyjnym studentów. W fazie użycia ontologii posługiwaliśmy się jedynie danymi ankietowymi. Ewolucja ontologii będzie opierała się na dokładnie takich samych danych. Kolejnym aspektem, który będzie odróżniał nasze podejście od typowych podejść literaturowych będzie fakt, że dane gromadzone do naszych eksperymentów są rejestrowane w z grubsza rzecz biorąc stałych odstępach czasowych – zakładamy, że dane o studentach gromadzone są raz do roku. Można to robić częściej, ale chcemy uniknąć efektu zniechęcenia studentów do wypełniania zbyt wielu ankiet. Wiąże się to z kolejnym aspektem, który ma kluczowe znaczenie dla budowy ontologii dziedzinowej. Ważna jest nie tylko reprezentacja wiedzy jako taka, ale także optymalizacja tej reprezentacji. Powód, dla którego jest to tak istotne wynika nie z potrzeb skutecznego przewidywania wyników procesu edukacyjnego, ale z potrzeb skutecznego gromadzenia danych. Musimy mieć na względzie, że pracujemy z czynnikiem ludzkim, gdzie istotne jest odpowiednie podejście psychologiczne. Jest to niezbędne, aby uniknąć efektu niechęci do wypełniania ankiet. Dlatego chcemy, aby przy minimalnym nakładzie pracy ze strony wypełniającego ankietę uzyskać maksimum informacji. Mamy świadomość, że na etapie początkowym ankieta zbudowana przy współpracy ekspertów dziedzinowych, nie będzie doskonała. Wynika to z faktu, że poruszamy się w zagadnieniach, które nie były wcześniej badane takimi metodami i w związku z tym nie mamy żadnej informacji zwrotnej na temat możliwych do uzyskania wyników i skuteczności ankiety. Dlatego nawet zakładając dużą wiedzę i doświadczenie ekspertów dziedzinowych nie możemy wymagać optymalnie dobranej ankiety. Taką ankietę będzie można skonstruować dopiero w wyniku przeprowadzenia kilku iteracji przeprowadzania ankiet i na tej podstawie aktualizacji ontologii. Na szczęście sam mechanizm budowy ontologii jest tak skonstruowany, że pozwala automatycznie wychwycić odpowiedzi, które są bardziej lub mniej istotne dla badanego zagadnienia. Bardziej istotne to takie, które bardziej precyzyjnie wskazują klasy wynikowe modelu semantycznego (klasami wynikowymi są u nas klasy sukcesu edukacyjnego). Mniej istotne to takie, które nie wskazują zbyt precyzyjnie klas wynikowych. Skrajnym przypadkiem będą odpowiedzi, które wskazują tylko jedną klasę wynikową. Ich wartość jest największa, gdyż z faktu, że student wybrał tę odpowiedź można precyzyjnie wywnioskować, jaki sukces edukacyjny odniesie. Drugą skrajnością są odpowiedzi, które tak samo wskazują Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. wszystkie klasy sukcesu edukacyjnego. Ich wartość jest znikoma, bo gdyby ankieta składała się wyłącznie z takich pytań, to ontologia nie pozwoliłaby wyciągnąć żadnych wniosków co do potencjalnych wyników studentów. Po pierwszym etapie zbierania danych ankietowych jesteśmy w stanie stworzyć pewien model hierarchiczny. Szczegóły tworzenia tego modelu zostały opisane w pracy [Jaszuk 2016a]. Specyfika tego modelu hierarchicznego polega na tym, że na wyższych poziomach hierarchii mieszczą się klasy, które w niespecyficznie wskazują klasy wynikowe. W szczególności najwyższy poziom hierarchii mieści właśnie takie odpowiedzi, które nie dostarczają żadnej istotnej informacji. Nie można powiedzieć, że są one ogólnie nieistotne, gdyż nie możemy wykluczyć, że przy inaczej zdefiniowanych klasach wynikowych okazałoby się, że pozwalają one na zróżnicowanie pomiędzy grupami studentów. Ponieważ jednak mamy ściśle określone zadanie stawiane przed modelem, to musimy w tym miejscu stwierdzić, że odpowiedzi mieszczące się na najwyższych poziomach hierarchii są bezużyteczne. Dlatego automatycznie są to odpowiedzi będące kandydatami do wyeliminowania z ankiety. Z drugiej strony odpowiedzi, znajdujące się na najniższych poziomach hierarchii, dają wskazówki jakich zagadnień powinna dotyczyć ankieta, gdyż one wnoszą najwięcej wartościowej informacji. Cykl życiowy ontologii i systemu ankietyzacji będzie się składał z następujących kroków: 1. Budowa pierwszej wersji ankiety. Tutaj eksperci dziedzinowi budują ankietę, która ich zdaniem będzie najlepiej służyła zadanym celom. 2. Mając ankietę zbieramy dane od studentów. 3. Po zakończeniu semestru zbieramy oceny i budujemy strukturę hierarchiczną wg metodologii opisanej w pracy [Jaszuk 2016a] . 4. Dokonujemy ewaluacji odpowiedzi na podstawie ich przynależności do klas hierarchii. 5. Analizujemy ankietę pod kątem możliwych zmian pytań. Ten etap wymaga zaangażowania ekspertów dziedzinowych. 6. Aktualizujemy ankietę 7. Wracamy do kroku 2 i powtarzamy iteracyjnie przez kolejne lata, aż do uzyskania satysfakcjonującego poziomu jakości ankiety. Wskazany wyżej proces powinien doprowadzić do uzyskania ankiety, składających się z pytań dostarczających wiedzy użytecznej dla założonych celów. Jednocześnie chcemy, aby była to ankieta o optymalnym rozmiarze, aby nie wywoływać znużenia studentów przy jej wypełnianiu. W samej ontologii będzie się to przejawiało przeniesieniem odpowiedzi z górnych poziomów , do niższych poziomów. Schematycznie proces optymalizacji ankiety przedstawiono na Rys. 1. Jest to proces, który można powtarzać dowolną liczbę razy, tak długo jak długo nie jesteśmy usatysfakcjonowani uzyskiwanymi rezultatami. Ponadto mamy możliwość bezkonfliktowego wprowadzania pytań dotyczących nowych zagadnień, które w międzyczasie moglibyśmy uznać za istotne. Jest to bardzo istotna zaleta naszego podejścia, w porównaniu do typowo spotykanych rozwiązań opartych na manualnie modyfikowanych ontologiach. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Modyfikacja ankiety przez eksperta dziedzinowego Ankieta prototypowa Gromadzenie danych od studentów Budowa ontologii i analiza rozkładu odpowiedzi w klasach Ankieta zoptymalizowana Rysunek 1 Schematyczna reprezentacja procesu gromadzenia danych, aktualizacji ontologii i optymalizacji ankiety Aktualizacja ontologii odbywa się współbieżnie z optymalizacją ankiet. Należy jednak pamiętać, że istnieją różne czynniki wpływające na zmiany struktury modelu semantycznego w czasie. W szczególności wyróżnijmy 2 z nich: 1. Struktura ankiety – wprowadzając nową ankietę powodujemy modyfikację składu klas odpowiedzi ankietowych, ale też modyfikację tych klas jako takich. Mogą np. powstać nowe klasy, których nie było wcześniej, lub zniknąć takie które były wcześniej. 2. Odpowiedzi studentów - można się spodziewać, że nawet gdyby ankieta była ustalona to z czasem odpowiedzi studentów należących do poszczególnych klas mogą się zmieniać. To oznacza że wiedza zdobyta na wcześniejszym roczniku nie będzie się stosowała w pełni do kolejnych roczników. O ile pierwszy z przypadków został omówiony i można powiedzieć, że mamy go pod kontrolą, o tyle z drugim przypadkiem mamy pewien problem. Z faktu, że odpowiedzi studentów mogą się zmieniać z rocznika na rocznik wynika niemożność skutecznych predykcji. Jak wykazały nasze wcześniejsze prace efekt taki jeśli istnieje, to jednak nie jest zbyt silny i dlatego w krótkiej skali czasowej (kilka lat) możemy go zaniedbać [Jaszuk 2015]. Jest to jednak ciekawy temat do badań na przyszłość. Wyciągnięcie miarodajnych wniosków wymagałoby przeprowadzenia badań w skali przynajmniej dziesięcioletniej, co ze względu na ramy czasowe wykracza poza zakres raportowanych badań. Innym aspektem, który również można byłoby wziąć pod uwagę jest kwestia różnic zachodzących pomiędzy różnymi środowiskami, z których pochodzą studenci. To wymagałoby przeprowadzenia badań np. na różnych uczelniach, czego tutaj również nie zrealizujemy. 3. Wyniki iteracyjnej optymalizacji ankiet 3.1 Pierwsza iteracja Przyjrzyjmy się teraz wynikom analiz, które wykonaliśmy. Zgromadzone dane pochodzą z trzech kolejnych roczników studiów. Pierwszy rocznik pozwala już na wykonanie pierwszej iteracji procesu. Oznacza to, że w ciągu pierwszego roku badań wykonaliśmy następujące operacje: 1. Budowa ankiety prototypowej, 2. Zbieranie danych ankietowych, a później danych o wynikach studentów, Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. 3. Budowa modelu semantycznego (ontologii) w zakresie klas odpowiedzi i dokonanie analizy rozkładu odpowiedzi w klasach, 4. Selekcja odpowiedzi i modyfikacja ankiety przez usunięcie mało wartościowych pytań/odpowiedzi i zastąpienie ich takimi, które mogłyby wnieść nową wartość informacyjną. 5. Nowa ankieta jest gotowa do przeprowadzenia na kolejnym roczniku Najbardziej newralgicznym momentem całego procesu jest modyfikacja ankiet, gdyż wymaga zaangażowania ekspertów dziedzinowych. W naszym przypadku ekspertami dziedzinowymi były osoby zajmujące się badaniami w zakresie nauk społecznych. Ankieta prototypowa Ankieta prototypowa składała się z ponad 400 odpowiedzi. To wydaje się dość dużo, ale należy mieć świadomość, że część pytań polegała na wybraniu odpowiedzi z pewnego zakresu wartości, np. wartości z zakresu 1-10, co bardzo szybko generuje dużą liczbę odpowiedzi. Liczba pytań, do których te odpowiedzi były udzielane wynosiła 21. Późniejsze analizy wykazały, że założyliśmy zbyt drobny podział odpowiedzi, który przy względnie niewielkiej liczbie studentów nie pozwala uzyskać wystarczająco wiarygodnych rozkładów statystycznych [Jaszuk 2015]. Na szczęście wymiarowość przeprowadzonej ankiety można w przypadku takich pytań łatwo zredukować poprzez zgrupowanie odpowiedzi. Dlatego można było eksperymentować na wersjach o różnych wymiarach bez potrzeby przeprowadzania ankiet. Jak się okazało, takie zredukowane ankiety dawały znacznie bardziej wiarygodne rezultaty. Najbardziej zredukowana wersja ankiety miała około 200 odpowiedzi. Zbieranie danych Ankiety zostały wypełnione przez około 200 studentów, na których prowadzone było badanie. 90% tych studentów uzyskało oceny na koniec semestru, co pozwoliło na przeprowadzenie klasteryzacji i wyróżnienie kategorii sukcesu edukacyjnego. Analizowane były różne warianty podziału na grupy sukcesu edukacyjnego. Przyjęliśmy do dalszych analiz podział na 3 kategorie studentów, którzy uzyskali oceny. Około 10% studentów nie uzyskało ocen, gdyż wcześniej przerwali studia. Ci studenci stanowili dodatkową kategorię sukcesu. Budowa modelu semantycznego i analiza rozkładu odpowiedzi w klasach Mając dane o studentach proces budowy modelu semantycznego przeprowadza się w pełni automatycznie. Wykorzystaliśmy metodologię przedstawioną w pracy [Jaszuk 2016a] do zbudowania hierarchii klas odpowiedzi ankietowych. Jak już wcześniej wyjaśniono, hierarchia składa się z szeregu poziomów. Istotna jest nie tyle przynależność odpowiedzi do określonej klasy, ale umiejscowienie na określonym poziomie hierarchii. Najistotniejszy jest najwyższy poziom hierarchii i najniższy. Odpowiedzi umiejscowione na najwyższym poziomie są do usunięcia, natomiast odpowiedzi z najniższego poziomu są sugestią do tego, które zagadnienia należałoby w ankiecie rozwinąć. Jak wykazały obliczenia, najwięcej odpowiedzi znalazło się na najwyższych poziomach hierarchii. Z kolei najmniej odpowiedzi było na najniższych poziomach. Szczegóły zawiera Tab. 1. 1 to najniższy poziom, a 4 to najwyższy (najbardziej ogólny). Wyniki, które widzimy wskazują, że ankieta wymaga istotnych modyfikacji. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Tabela 1 Rozkład odpowiedzi na poziomy hierarchii – pierwsza iteracja Poziom Procent odpowiedzi 1 8% 2 18% 3 31% 4 43% Selekcja pytań/odpowiedzi i modyfikacja ankiety Po przeanalizowaniu treści pytań podjęto decyzję o usunięciu części z tych pytań lub przynajmniej modyfikacji tych pytań. W niektórych pytaniach zmodyfikowano część dostępnych wariantów odpowiedzi. Skala zmian obejmowała 43% procent odpowiedzi umiejscowionych na najwyższym poziomie ontologii. Odpowiedzi z poziomu znajdującego się bezpośrednio poniżej najwyższego nie były modyfikowane. Wprawdzie nie mają one bardzo dużej wartości informacyjnej (wskazują na 3 możliwe klasy wynikowe), to jednak zawsze istnieje ryzyko zastąpienia ich jeszcze gorszymi odpowiedziami. W efekcie dostalibyśmy gorszą ankietę, a tego chcemy uniknąć. W przypadku najwyższego poziomu nie ma takiego zagrożenia, bo już gorzej być nie może. Dlatego nie mamy nic do stracenia zmieniając te odpowiedzi. W najgorszym przypadku uzyskamy wyniki na tym samym poziomie. Ponieważ najniższy poziom hierarchii zawierał jedynie 8% odpowiedzi, co jest dość niewielkim odsetkiem, jako sugestię do modyfikacji zawartości ankiety wykorzystano zawartość dwóch najniższych poziomów, czyli łącznie 26% odpowiedzi z pierwotnej ankiety. Pozwoliło to zastąpić lub zmodyfikować 43% odpowiedzi z najwyższego poziomu. W wyniku wprowadzonych zmian uzyskaliśmy ankietę o porównywalnym rozmiarze do wersji prototypowej. 3.2 Kolejne iteracje Kolejne iteracje procesu przeprowadzane były wg opisanej poprzednio procedury na kolejnych rocznikach studiów. Ze względu na ramy czasowe całkowita liczba iteracji ograniczona została do 3 (3 kolejne roczniki studiów). Za każdym razem identyfikowane były odpowiedzi, które nie wprowadzały istotnej informacji i modyfikowane w celu uzyskania bardziej wartościowej informacji. Tab. 2 ilustruje rozkład odpowiedzi w warstwach ontologii w kolejnych iteracjach. Tabela 2 Rozkład odpowiedzi na poziomy hierarchii w kolejnych iteracjach Poziom Iteracja 2 Iteracja 3 1 15% 17% 2 24% 26% 3 27% 30% 4 34% 27% Obserwując wyniki z Tab. 1 i 2 możemy stwierdzić, że rozkład odpowiedzi w warstwach stał się bardziej równomierny. Nadal w najniższej warstwie jest najmniej odpowiedzi, niemniej jednak procentowo jest ich ponad dwa razy więcej niż po pierwszej iteracji. Ponadto doszło do inwersji rozkładu, tzn. najwyższym poziomie jest więcej klas niż o jeden poziom niżej. Sumaryczną wizualizację rozkładów z wszystkich iteracji przedstawia Rys. 2. Podsumowując wyniki możemy stwierdzić, że wprawdzie nie uzyskano całkowicie zakładanego celu polegającego na przesunięciu ciężaru odpowiedzi ankietowych na niższe warstwy hierarchii, to jednak z każdą iteracją jest widoczna systematyczna poprawa wyników. Wynikiem całego procesu jest ankieta gotowa do przeprowadzenia na kolejnym roczniku studentów. Została ona nieco zmniejszona w porównaniu w wersją prototypową, gdyż zawiera około 20% mniej odpowiedzi. Dlatego oczekujemy w kolejnej iteracji kolejnego spadku procentowego udziału odpowiedzi z najwyższego poziomu. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. PROCENT ODPOWIEDZI 50 45 40 35 30 25 20 15 10 5 0 Iteracja 1 Iteracja 2 Iteracja 3 1 2 3 4 WARSTWA HIERARCHII Rysunek 2 Wykresy rozkładu liczby odpowiedzi ankietowych w warstwach w kolejnych iteracjach Aby uzupełnić wyniki przedstawimy dodatkowo wizualizację liczby poprawnie zakwalifikowanych studentów przez system po kolejnych iteracjach (Rys. 3). Obliczenia zostały przeprowadzone zgodnie z metodologią opisaną w pracy [Jaszuk 2016b]. Dane dla zbioru uczącego zostały zaznaczone dla trzech kolejnych lat, natomiast dane dla zbioru testowego tylko dla dwóch ostatnich, gdyż dane z pierwszego rocznika nie były używane jako testowe. Można było oczekiwać, że wraz ze wzrostem jakości ankiety, w kolejnych iteracjach rosły będą także zdolności predyktywne modelu, jak również zdolności odwzorowania zbioru uczącego. Co do zdolności predyktywnych to niestety musimy się opierać tylko na dwóch punktach danych dla 2 i 3 iteracji. Faktycznie widoczny jest kilkuprocentowy wzrost mocy predyktywnej modelu. Jednocześnie mamy wzrost jakości odwzorowania zbioru uczącego. Dlatego możemy stwierdzić, że model w kolejnych iteracjach zachowuje się zgodnie z oczekiwaniami. PROCENT POPRAWNYCH 100 95 90 85 Zbiór testowy 80 Zbiór uczący 75 70 1 2 3 ITERACJA Rysunek 3 Procent poprawnie zakwalifikowanych studentów dla kolejnych iteracji Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. Podsumowanie W raporcie przedstawiono wyniki prac nad procesem utrzymania i ewolucji modelu semantycznego oraz aktualizacji i optymalizacji systemu ankietowego służącego do gromadzenia danych. Obliczenia przeprowadzono w oparciu o dane uzyskane dla 3 kolejnych roczników studiów. Dla tych studentów zebrano dane ankietowe oraz dane o ocenach, przy czym każdorazowo dokonywana była aktualizacja ankiet. Podstawą do aktualizacji był rozkład odpowiedzi ankietowych w klasach tworzących model semantyczny. Metoda generowania tego modelu umożliwia precyzyjne wskazanie odpowiedzi wnoszących wartościowe informacje i takich informacji niewnoszących. Uzyskiwana jest gradacja wartości odpowiedzi zależna od liczby warstw hierarchii. Stopni jest tyle ile wynosi liczba warstw. Ponadto przedstawione zostały analizy dotyczące zdolności predyktywnych, które potwierdzają, że optymalizacja ankiet prowadzi do uzyskiwania coraz lepszych zdolności predyktywnych modelu. Przedstawione tutaj podstawy metodologiczne maja charakter uniwersalny i nie są związane z określonym zastosowaniem. Niestety bardziej miarodajne badania empiryczne dotyczące ewolucji czasowej modelu wymagałyby przeprowadzenia badań w dłuższym horyzoncie czasowym. W ramach realizowanego projektu byliśmy w stanie zgromadzić jedynie niezbędne minimum danych, które pozwala wykazać, że przedstawiona metodologia faktycznie działa i pozwala uzyskiwać wartościowe wyniki. Dlatego warto w przyszłości kontynuować te badania zgodnie ze zdefiniowanymi tutaj założeniami, aby uzyskać szerszy ogląd możliwych do uzyskania wyników. Literatura [Atle 2008] J. Atle Gulla, V. Sugumaran, An Ontology Creation Methodology: A Phased Approach, Proc. of the International Workshop on Ontology Dynamics at ISWC Karlsruhe, Germany 2008. [Dividino 2008] R. Dividino, D. Sonntag, Controlled Ontology Evolution through Semiotic-based Ontology Evaluation. Karlsruhe, Germany, International Workshop on Ontology Dynamicsat ISWC, 2008. [Flouris 2007] F. Flouris, D. Manakanatas, H. Kondylakis, D. Plexousakis, G. Antoniou, Ontology Change: Classification & Survey, The Knowledge Engineering Review, 1–29, Cambridge University Press, 2007. [Hodgson 2003] R. Hodgson, The Potential of Semantic Technologies for e-government presentation of eGov, Open Source Conference, Washington, DC, March 18th, 2003 [Jaszuk 2015] M. Jaszuk, T. Mroczek, B. Fryc, Data Integration through Clustering and Finding Statistical Relations - Validation of Approach, Proc. of the international workshop Concurrency Specification and Programming CS&P 2015. [Jaszuk 2016a] M. Jaszuk, B. Fryc, T. Mroczek, Techniki sztucznej inteligencji w przewidywaniu wyników procesu edukacyjnego, Współczesne Oblicza Informatyki, Jarosław, 2016. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego. [Jaszuk 2016b] M. Jaszuk, B. Fryc, T. Mroczek, Wnioskowanie w automatycznie zbudowanej hierarchii pojęć, publikacja on-line https://www.wsiz.rzeszow.pl/pl/Uczelnia/kadra/mjaszuk/Documents/publikacja5.pdf [Novacek 2007] V. Novacek, L. Laera, S. Handschuh, Semiautomatic Integration of Learned Ontologies into a Collaborative Framework, Proceedings of IWOD/ESWC 2007, in conjunction with ESWC 2007, 2007. [Noy 2004] N.F. Noy, M. Klein, Ontology Evolution: Not the Same as Schema Evolution -Stanford Medical Informatics, Stanford University, Stanford, CA, USA Vrije University Amsterdam, Amsterdam, The Netherlands, 2004. [Pittet 2011] P. Pittet, C. Cruz, C. Nicolle, Guidelines for a Dynamic Ontology - Integrating Tools of Evolution and Versioning in Ontology, KMIS 2011, pp. 173-179. [Tovar 2008] E. Tovar, M.E. Vidal, REACTIVE: A Rule-based Framework to Process Reactivity - Proceedings of the International Workshop on Ontology Dynamics at ESWC 2008, Karlsruhe, Germany. 2008. [Zablith 2008] Zablith, F., et al. - Using Background Knowledge for Ontology Evolution, Int. Work. on Ontology Dynamics, Karlsruhe, Germany 2008. Projekt współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Rozwoju Regionalnego oraz z budżetu Państwa w ramach Regionalnego Programu Operacyjnego Województwa Podkarpackiego na lata 2007 – 2013. Inwestujemy w rozwój województwa podkarpackiego.