Zastosowanie teorii zbiorów przybliżonych z relacją dominacji

Transkrypt

Zastosowanie teorii zbiorów przybliżonych z relacją dominacji
Marcin Szeląg
Politechnika Poznańska
Stypendysta projektu pt. „Wsparcie stypendialne dla doktorantów na kierunkach uznanych
za strategiczne z punktu widzenia rozwoju Wielkopolski”, Poddziałanie 8.2.2 Programu
Operacyjnego Kapitał Ludzki
Zastosowanie teorii zbiorów przybliżonych z relacją dominacji do
problemów porządkowania i klasyfikacji na podstawie
podobieństwa
W pracy przedstawione zostały metody inteligentnego wspomagania decyzji dla dwóch
problemów decyzyjnych o dużym znaczeniu praktycznym – problemu porządkowania
(tworzenia rankingu) i problemu klasyfikacji w oparciu o podobieństwo (ang. Case-Based
Reasoning, CBR). W pierwszym z tych problemów, przedmiotem wspomagania decyzji jest
utworzenie rankingu rozpatrywanych wariantów decyzyjnych (obiektów). W drugim
problemie,
przedmiotem
wspomagania
decyzji
jest
określenie
przydziału
każdego
z rozpatrywanych obiektów do jednej z zadanych klas decyzyjnych. Obiekty opisane są za
pomocą atrybutów (cech, zmiennych) nominalnych, porządkowych i numerycznych. Wśród
atrybutów wyróżnia się atrybuty ze skalą preferencji, zwane kryteriami. Ze względu na
typową
dla
problemów
wielokryterialnych
globalną
nieporównywalność
obiektów
(przejawiającą się w przewadze obiektów względem części kryteriów przy jednoczesnej ich
słabości względem pozostałych kryteriów), klasyfikacja lub porządkowanie tych obiektów od
najlepszego do najgorszego wymaga wcześniejszego utworzenia modelu agregacji ocen
obiektów na poszczególnych atrybutach uwzględniającego system wartości decydenta
(użytkownika). Jest to tzw. model preferencji decydenta. Tradycyjne modele preferencji
stosowane we wspomaganiu decyzji, mające postać funkcji użyteczności lub relacji
przewyższania, są mało zrozumiałe dla użytkownika w procesie wspomagania decyzji,
a ponadto wymagają od niego wielu trudnych informacji preferencyjnych i są oparte na
stosunkowo silnych założeniach (rzadko spełnionych w praktyce). W celu uniknięcia
powyższych niedogodności, w pracy wykorzystano model preferencji w postaci zbioru reguł
decyzyjnych. Reguły te tworzone są przez indukcję (uogólnianie) z przykładów decyzji
podjętych przez użytkownika (dane uczące). Reguły decyzyjne opisują zależności logiczne
występujące w danych uczących. Do konstrukcji regułowego modelu preferencji stosowana
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
jest w pierwszej kolejności teoria zbiorów przybliżonych oparta na dominacji (ang.
Dominance-based Rough Set Approach, DRSA), umożliwiająca uwzględnienie wiedzy
dziedzinowej w postaci skal preferencji atrybutów i zależności monotonicznych w danych
oraz strukturalizację zbioru obiektów polegającą na identyfikacji obiektów (dostatecznie)
spójnych. W drugiej kolejności, stosuje się algorytmy indukcji (dostatecznie spójnych) reguł
decyzyjnych z wcześniej ustrukturalizowanego zbioru obiektów. Model regułowy jest
najogólniejszym znanym modelem preferencji, gdyż jest zdolny do reprezentowania
ogólniejszych interakcji między atrybutami, niż modele funkcyjne i relacyjne. Dodatkową
zaletą tego modelu jest jego czytelność, interpretowalność oraz możliwość wyjaśniania
przykładów decyzji i przewidywania (predykcji) decyzji przyszłych.
Podstawą pracy jest hipoteza, iż problemy porządkowania i klasyfikacji w oparciu
o podobieństwo wymagają specyficznego podejścia wykorzystującego wiedzę dziedzinową
o skalach preferencji atrybutów i zależnościach monotonicznych; tworzenie zbioru reguł
decyzyjnych przez indukcję z przykładów decyzji pozwala na uzyskanie ogólnego
i zrozumiałego modelu preferencji, z zachowaniem spójności z wiedzą decydenta.
W zakresie problematyki porządkowania obiektów, w pracy zaprezentowano analizę
teoretyczną pożądanych własności szeregu tzw. procedur rangujących, tj. procedur
eksploatacji relacji wynikającej z zastosowania reguł decyzyjnych na zbiorze obiektów,
których wynikiem jest ranking zupełny lub częściowy w tym zbiorze. W efekcie analizy
dokonano identyfikacji procedury rangującej o najlepszych własnościach.
W zakresie problematyki klasyfikacji w oparciu o podobieństwo, konieczna jest
konstrukcja modelu podobieństwa. Tradycyjnie, za model podobieństwa przyjmowana jest
funkcja rzeczywista (np. norma euklidesowa) lub relacja binarna (np. relacja rozmyta).
W pracy zastosowany został nowy model podobieństwa w postaci zbioru reguł decyzyjnych
opartych na relacji dominacji. Jest to model najmniej obciążony arbitralnymi założeniami
odnośnie do agregacji podobieństw na poszczególnych atrybutach.
Metodyka będąca przedmiotem pracy doktorskiej ma szerokie zastosowania ze
względu na powszechny charakter problematyki rankingu i klasyfikacji. Wobec tego,
zaproponowane w pracy metody wspomagania decyzji w oparciu o modele preferencji
wyindukowane z przykładów decyzji mogą znaleźć liczne praktyczne zastosowania, w tym
także w województwie wielkopolskim. Przykładowe obszary zastosowań zaproponowanych
metod to: systemy wspomagania decyzji medycznych (diagnostyka, wybór wariantu terapii),
ranking wariantów inwestycyjnych, analiza danych marketingowych i kredytowych, ranking
jednostek naukowych, rozstrzyganie przetargów. Wstępne zastosowania badanych metod
wspomagania
decyzji
przeprowadzono
na
danych
medycznych
oraz
na
danych
pochodzących z linii produkcyjnej zakładu przemysłowego. W pierwszym z tych zastosowań,
odkrywano reguły decyzyjne z danych dotyczących urazów wielonarządowych zebranych
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
w bazie danych Wielkopolskiego Centrum Telemedycyny (projekt Poznańskiego Centrum
Superkomputerowo-Sieciowego, Kliniki Chirurgii Urazowej Uniwersytetu Medycznego
i Instytutu Informatyki Politechniki Poznańskiej). W drugim zastosowaniu, analizowano dane
z linii produkcyjnej Philips Lighting Poland w Pile. Oba zastosowania mają szanse dalszego
rozwoju.
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego