recenzja 1 - Politechnika Poznańska, Wydział Informatyki

Transkrypt

recenzja 1 - Politechnika Poznańska, Wydział Informatyki
Gdańsk, 25.06.2013
prof. dr hab. inż. Krzysztof Goczyła
Wydział Elektroniki, Telekomunikacji i Informatyki
Politechnika Gdańska
ul. G. Narutowicza 11/12
80-233 Gdańsk
[email protected]
RECENZJA
rozprawy doktorskiej mgr. inż. Jarosława Ksawerego Bąka
pt. „Rule-based query answering method for a knowledge base od economic crimes”,
przygotowanej pod kierunkiem prof. dr. hab. inż. Czesława Jędrzejka
(Politechnika poznańska, Instytut Automatyki i Inżynierii Informatycznej)
1. Problem naukowy
Recenzowana rozprawa doktorska dotyczy bardzo istotnego i aktualnego dla współczesnej
informatyki problemu, jakim jest wykorzystanie metod sztucznej inteligencji do badania
różnego rodzaju zjawisk zachodzących we współczesnym społeczeństwie. Aktualny stan
praktyki w tym zakresie jest wysoce niezadowalający. Bez wątpienia, potencjał metod
sztucznej inteligencji jest na tyle duży, że może służyć w takich obszarach, które do tej pory
są tradycyjnie zastrzeżone wyłącznie dla człowieka. Jednym z takich obszarów jest prawo.
Zagadnienia, jakie się tu pojawiają, mają często charakter nieprecyzyjny (na przekład w
kwestii formułowania przepisów prawa) i subiektywny (w kwestii oceny czynów, ferowania
wyroków i argumentacji za nimi stojących), a więc niepoddający się algorytmizacji i
analizom komputerowym. Są jednak i inne obszary prawa, takie jak na przykład problemy
ścigania przestępczości, w tym problemy wykrywania przestępstw o charakterze
gospodarczym, popełnianych często w sposób bardzo wyrafinowany i zawikłany, a tym
samym trudny w śledzeniu przez człowieka. W tego typu zagadnieniach ważna jest analiza
faktów, często bardzo licznych, zgodnie z pewnymi regułami, czy też zasadami, które można
dość precyzyjnie zdefiniować.
W tym kontekście wydaje się, że Autor bardzo celowo dobrał obszar tematyczny, w
którym prowadzi swoje badania o przecież czysto informatycznym charakterze. Zajął się on
bowiem nowym sposobem realizacji zapytań do bazy danych, zawierającej fakty mające mieć
znaczenie dla śledztw prowadzonych dla wybranych rodzajów przestępstw gospodarczych.
Sposób ten bazuje na odwzorowaniu zapisu ontologiczno-regułowego na zapis relacyjny, a
także zapytań formułowanych w języku logiki w zapytania w języku SQL. A zatem intencją
Autora jest powiązanie rozwiniętych i powszechnie stosowanych technik bazodanowych z
wciąż dość egzotycznymi dla typowych użytkowników aplikacji komputerowych metodami
wnioskowania logicznego.
Podjęcie prac w tym zakresie przez Autora rozprawy uważam za bardzo celowe i zarazem
niełatwe zadanie badawcze z uwagi na złożoność i wieloaspektowość tego zagadnienia,
szczególnie w kontekście przykładowych problemów, za pomocą których dokonuje walidacji
swoich koncepcji.
1
2. Tezy i cele rozprawy
We wprowadzeniu do rozprawy Autor jasno motywuje podjęcie swoich badań,
przedstawiając ich cele na tle aktualnego stanu wiedzy i technologii. Cel główny rozprawy
formułuje w sposób następujący:
Zaprojektowanie metody regułowej realizacji zapytań z wykorzystaniem
relacyjnej bazy danych oraz formalnie zdefiniowanej semantyki.
Zazwyczaj od autorów rozpraw doktorskich oczekuje się sformułowania nie tylko celów
rozprawy, ale przede wszystkim jawnie sformułowanej tezy (lub kilku tez). Rozprawa
doktorska powinna być logicznym wywodem prowadzącym do dowiedzenia słuszności
przyjętej tezy. Takiej tezy w rozprawie nie znalazłem, co nie znaczy, że przedstawiona mi do
recenzji rozprawa nie jest takim wywodem. Przeciwnie, rozprawa jest napisana w sposób
strukturalnie poprawny, logiczny i konkretny. Sformułowanie tezy na podstawie wytyczonego
celu głównego rozprawy też nie byłoby trudne i zapewne zawierałoby określenie pożądanych
(i zapewne uzyskanych w toku tworzenia rozprawy) cech opracowanych przez Autora metod
regułowej realizacji zapytań. Sądzę, że podczas publicznej obrony Autor bez trudu sformułuje
stosowną tezę i uzasadni, ze w swojej rozprawie wykazał jej prawdziwość.
3. Omówienie rozprawy i oryginalnego dorobku Autora
Rozprawa napisana jest w języku angielskim. Czytanie rozprawy nie sprawia trudności,
gdyż Autor włada w piśmie tym językiem bardzo dobrze. Rozprawa składa się z
wprowadzenia, pięciu zasadniczych rozdziałów, podsumowania oraz obszernej bibliografii
obejmującej ok. 160 pozycji. Na uznanie zasługuje zamieszczenie w bibliografii odsyłaczy do
stron, na których cytowane są poszczególne pozycje, co nieczęsto zdarza się w rozprawach
doktorskich, a jednocześnie dowodzi, że Autor istotnie zapoznał się z treściami zawartymi w
tych pozycjach. Rozprawa zawiera wykaz oznaczeń, który mógłby być nieco obszerniejszy
(na przykład mógłby obejmować akronimy używane w tekście). Godne podkreślenia jest też
zamieszczenie obszernego streszczenia w języku polskim.
We wprowadzeniu Autor dość szczegółowo motywuje podjęcie badań będących
przedmiotem rozprawy, zwracając szczególnie uwagę na to, że relacyjne bazy danych ze swej
natury mają bardzo ograniczoną semantykę. Stąd też pojawia się potrzeba stworzenia warstw
semantycznych obudowujących dane relacyjne, na przykład poprzez reguły lub aksjomaty
ontologiczne. W tym rozdziale Autor prezentuje główny cel rozprawy (który skomentowałem
w punkcie 2. recenzji) oraz stawia związane z tym celem szczegółowe zadania badawcze.
Bardzo przydatnym elementem wprowadzenia jest jawne wyszczególnienie dotychczasowych
publikacji Autora związanych z tematyką rozprawy.
Rozdział 2. poświęcony został podstawom teoretycznym zagadnień poruszanych w
rozprawie. Omówiono tu systemy regułowe, podejście ontologiczne oparte na logice opisowej
(deskrypcyjnej) oraz paradygmaty „mieszane”, łączące reguły z ontologiami o nietrywialnej
ekspresywności. Jest to o tyle ważne, że w dalszej części rozprawy Autor stosuje takie
mieszane podejście, które aktualnie – poprzez stosunkowo niedawne pojawienie się języka
SWRL jako jednego ze standardów Semantic Web – zdobywa popularność. W tym rozdziale
Autor prezentuje też opis dwóch rodzajów przestępstw gospodarczych: sprzeniewierzenia
pieniędzy i tzw. prania pieniędzy. Wydaje się, że ten opis (czyli podrozdział 2.2) bardziej
pasuje do rozdziału 3., gdyż w tym rozdziale prezentowana jest baza wiedzy o przestępstwach
2
gospodarczych. Baza ta, zawierająca elementy ontologiczne wsparte regułami, została
stworzona przez Autora na potrzeby pracy. Jest to dość istotny element rozprawy. Autor nie
zadowala się podaniem aksjomatów i reguł składających się na tę bazę wiedzy, ale wskazuje
również na metodykę tworzenia ontologii, odwołując się do źródeł literaturowych. Wskazuje
to nie tylko na dobrą znajomość tychże źródeł, ale także na dojrzałość naukową Autora,
nieograniczającego się do chęci uzyskania wyniku, ale dbającego także o aspekty
metodologiczne. Zapewne warto było w tym miejscu poświęcić nieco więcej uwagi
uzasadnieniu zastosowania logiki Horn-SHIQ (czyli połączeniu reguł Horna z wariantem
logiki opisowej odpowiadającym podzbiorowi OWL 1.1). Czy na przykład zastosowanie
logiki SROIQ (czyli jakiegoś wariantu języka OWL 2) z regułami Horna byłoby tu celowe?
Wydaje się, że operatory języka OWL 2 działające na rolach mogłyby w sposób wydatny
polepszyć ekspresywność części ontologicznej opracowanej bazy wiedzy. (Gwoli
sprawiedliwości: Autor podaje ten problem jako jeden z kierunków dalszych prac).
W następnym rozdziale rozprawy, tj. w rozdziale 4., Autor przedstawia dwie metody
regułowej realizacji zapytań, które wykorzystują opracowaną i przedstawioną w poprzednim
rozdziale bazę wiedzy, relacyjną bazę danych i silniki wnioskujące. Oczywiście, metody te są
uniwersalne i mogą być stosowane także w innych bazach wiedzy. Warto podkreślić, że
Autor dostrzega ograniczenia swoich metod, słusznie konstatując, że przyjmuje założenie o
zamkniętości świata (Closed World Assumption, CWA), co wynika m.in. z zastosowania
relacyjnych baz danych. Do argumentacji Autora w tym fragmencie odniosę się w dalszej
części recenzji.
Kolejne dwa rozdziały rozprawy poświęcone są części implementacyjnej prac
prowadzonych przez Autora. W rozdziale 5. Autor prezentuje opracowane przez siebie
narzędzie o nazwie Semantic Data Library (SDL), które zostało użyte w eksperymentach
przedstawionych w rozdziale 6.
Za oryginalny dorobek naukowy Autora, przedstawiony w rozdziałach 3., 4, 5. i 6
rozprawy, uważam:
 Opracowanie nowych metod regułowej realizacji zapytań, wiążących cechy baz
wiedzy opisanych środkami ontologiczno-regułowymi z cechami klasycznych
relacyjnych baz danych, wprowadzając tym samym do tych ostatnich warstwę
semantyczną.
 Skonstruowanie bazy wiedzy o wybranych typach przestępstw gospodarczych z
użyciem zaproponowanych metod odwzorowań pomiędzy warstwą semantyczną a
warstwą SQL.
 Opracowanie nowej metody formułowania zapytań do tak skonstruowanej bazy
wiedzy, opartej na koncepcji koniunkcji predykatów ontologicznych.
 Zweryfikowanie i zwalidowanie zaproponowanych metod i opracowanych narzędzi
drogą eksperymentów.
Dorobek ten uważam za nowatorski i wartościowy dla rozwoju metod reprezentacji wiedzy
i technik jej przetwarzania, w szczególności w obszarze tzw. dedukcyjnych baz danych.
Uważam, że ten dorobek po pewnych rozwinięciach, również tych nakreślonych przez
Autora w podsumowaniu rozprawy, może znaleźć praktyczne zastosowanie w określonych
obszarach instytucjonalnych, szczególnie w takich, w których występuje dużo powiązanych
ze sobą w skomplikowane relacje danych.
3
4. Uwagi krytyczne
Niektóre ważniejsze uwagi polemiczne i krytyczne sformułowałem już w punktach 2. i 3.
recenzji. Poniżej zamieszczam inne istotne według mnie uwagi i komentarze.
1) Autor w rozdziale 4. dość pobieżnie dyskutuje przyjęte przezeń założenie o
zamkniętości świata, pisząc, że w dochodzeniach śledczych bazuje się przecież na
„twardych” faktach, czyli zapisanych, sprawdzonych informacjach. Jest to daleko idące
uproszczenie. Natura dochodzeń śledczych polega na tym, że prowadzący śledztwo
wprawdzie bazują na stwierdzonych, udokumentowanych faktach, jednak poprzez
rozumowanie logiczne dochodzą do prawdziwości innych faktów, niezapisanych
bezpośrednio w dokumentacji sprawy. Wydaje się, że charakterystyczne dla dochodzeń
śledczych jest właśnie rozumowanie w świecie otwartym (Open World Assumption
OWA), a nie zamkniętym.
2) Autor w kilku miejscach podnosi problem skalowalności, jednak nigdzie nie dyskutuje
tej kwestii w sposób wyczerpujący. Znajduje to swoje odzwierciedlenie w sposobie
komentowania wyników eksperymentów przedstawionych w rozdziale 6. I tak na
przykład, z tabeli 6.2 wynika wprawdzie jednoznacznie wyższość metody
rozszerzonych reguł nad metodą hybrydową, to jednak warto by skomentować,
dlaczego czas realizacji zapytań nr 4 i 5 wynosi aż ok. 6 minut. Niewystarczający
moim zdaniem jest też komentarz dotyczący tabel 6.3 i 6.4. Dla zapytań nr 4 i 5 czas
wykonania metodą rozszerzonych reguł jest dłuższy niż prostych metod forward i
backward. Wyniki nie są więc tak jednoznaczne, jak to Autor sugeruje w
podsumowaniu i wnioskach.
3) Szkoda, że Autor nie zaprezentował choćby szkicu modelu biznesowego zastosowania
swojego podejścia w praktyce. Kto miałby definiować ontologię i na podstawie czego?
Kto miałby ją weryfikować? Kto miałby definiować zapytania? Kto w końcu miałby
interpretować wyniki?
4) Należało podać, jakiego narzędzia użyto do stworzenia rysunku 3.2 wizualizującego
ontologię.
5. Podsumowanie
W treści swojej rozprawy Autor wykazał się dobrym rozeznaniem w stosunkowo nowej
gałęzi badawczej i inżynierskiej jaką jest tworzenie ontologiczno-regułowych baz wiedzy
oraz połączenie technik bazodanowych z metodami sztucznej inteligencji, w szczególności z
technikami wnioskowania. W interesujący i oryginalny sposób wykorzystał istniejący stan
wiedzy do opracowania własnego podejścia do problemów z tym związanych. Wykazał się
przy tym bardzo dobrą znajomością współczesnej literatury z zagadnień związanych z
tematyką rozprawy. Rozprawa jako całość świadczy o bardzo dobrym przygotowaniu Autora
do dalszej pracy naukowej na polu informatyki w szeroko rozumianym zakresie sztucznej
inteligencji, w szczególności inżynierii wiedzy.
Konkludując, stwierdzam, że rozprawa jako całość spełnia wymagania stawiane
rozprawom doktorskim przez stosowne przepisy, a w szczególności przez „Ustawę o
stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki” z dnia
14 marca 2003 r. (Dz.U. nr 65, poz. 595, z późn. zm.). W konsekwencji wnoszę o
dopuszczenie rozprawy doktorskiej mgr. inż. Jarosława Bąka do publicznej obrony.
4