Algorytmy ewolucyjne w globalnej indukcji drzew modelowych

Transkrypt

Algorytmy ewolucyjne w globalnej indukcji drzew modelowych
Streszczenie rozprawy doktorskiej
Algorytmy ewolucyjne w globalnej
indukcji drzew modelowych
Marcin Czajkowski
Wydział Informatyki
Politechnika Białostocka
Rozprawa doktorska przygotowana pod kierunkiem:
dr hab. inż. Marka Krȩtowskiego, prof. nzw.
Białystok 2014
Badania w ramach rozprawy doktorskiej były prowadzone przy wsparciu finansowym:
• Narodowego Centrum Badań w ramach projektu PRELUDIUM - decyzja numer:
2013/09/N/ST6/04083;
• Wydziału Informatyki Politechniki Białostockiej: grant badawczy W/WI/1/2012 oraz
stypendium naukowe;
• Unii
Europejskiej
w
ramach
Europejskiego
Funduszu
Społecznego:
"Stypendia dla doktorantów kluczem rozwoju woj. podlaskiego" (nr. projektu
WND-POKL.08.02.01-20-070/11).
1
Wprowadzenie
Kontekst i motywacja pracy
Technologie komputerowe dotycza˛ niemal każdego aspektu życia ludzkiego: edukacji,
medycyny, transportu, biznesu, badań naukowych i wielu innych. W rezultacie, ogromne
ilości danych sa˛ wytwarzane i magazynowane w różnych bazach i hurtowniach danych, a
także w innych repozytoriach. Jednym z wcia˛ż aktualnych problemów, z którym boryka si˛e
wiele przedsi˛ebiorstw i instytucji, jest ogromna asymetria pomi˛edzy ilościa˛ przechowywanych
danych, a zdolnościa˛ ich analizy i efektywnego wykorzystania. Nad rozwiazaniem
˛
tego
problemu zastanawiano si˛e już na poczatku
˛
lat 90-tych ubiegłego wieku. Zaproponowano
wówczas nowa˛ dziedzin˛e nauki - pozyskiwanie wiedzy z baz danych (ang. knowledge
discovery in databases) [12]. Kluczowym elementem procesu pozyskiwania wiedzy jest
etap eksploracji danych (ang. data mining) [6], który odpowiada za poszukiwanie nowych,
nieznanych i cz˛esto ukrytych powiazań,
˛
wzorców, trendów i potencjalnie użytecznych
informacji w danych.
Drzewa decyzyjne należa˛ do najbardziej rozpowszechnionych form reprezentacji wiedzy,
wydobywanej ze zbiorów danych [17]. Sa˛ one też jedna˛ z najcz˛eściej stosowanych technik
prognozowania w eksploracji danych. Swoja˛ popularność zawdzi˛eczaja˛ wysokiej jakości
predykcji, a także prostej ich interpretacji i możliwości zastosowania mimo różnych ograniczeń
[24]. Drzewa decyzyjne sa˛ najcz˛eściej spotykane w zagadnieniach klasyfikacyjnych,
nosza˛ wówczas nazw˛e drzew klasyfikacyjnych. W analizie zagadnień regresyjnych cz˛esto
wykorzystywane sa˛ drzewa regresyjne i modelowe, jako interesujace
˛ alternatywy typowych
metod statystycznych, takich jak regresja logistyczna, czy klasyczna regresja liniowa [15].
Różnice pomi˛edzy drzewami regresyjnymi, a modelowymi dotycza˛ przede wszystkim sposobu
wyznaczenia wartości przewidywanej w liściach drzewa. W drzewach modelowych zwykle
dopuszcza si˛e stosowanie lokalnych modeli (np. liniowych), które sa˛ dopasowywane w liściach.
Najbardziej popularnym rodzajem drzew sa˛ drzewa jednowymiarowe, czyli takie, których testy
w w˛ezłach wewn˛etrznych wykorzystuja˛ tylko jeden atrybut. W przypadku, gdy wi˛ecej niż
jedna cecha testowana jest w pojedynczym w˛eźle, mamy wówczas do czynienia z drzewami
wielowymiarowymi. Najbardziej popularne z wielowymiarowych drzew sa˛ drzewa skośne
(liniowe), bazujace
˛ na hiperpłaszczyznach rozdzielajacych
˛
dane w w˛ezłach wewn˛etrznych.
Skonstruowanie optymalnego drzewa decyzyjnego na podstawie zbioru uczacego
˛
jest
problemem NP-zupełnym [21]. Dlatego też, drzewa decyzyjne sa˛ najcz˛eściej konstruowane za
pomoca˛ algorytmu zst˛epujacego,
˛
b˛edacego
˛
realizacja˛ zasady "dziel i zwyci˛eżaj". Popularność
2
Rysunek 1: Połaczenie
˛
zagadnień badawczych w rozprawie doktorskiej.
tej metody wynika z szybkiego działania oraz stosunkowo dobrych wyników. Najwi˛ekszym
minusem tej zachłannej strategii jest podejmowanie tylko lokalnie optymalnych decyzji w
poszczególnych w˛ezłach drzewa, które nie gwarantuja˛ optymalności całej struktury. Moga˛ wi˛ec
powodować wykrycie nieistniejacych
˛
zależności i skomplikowanych reguł decyzyjnych.
Rozprawa doktorska dotyczy globalnej indukcji drzew modelowych (Rysunek 1). Autor
skoncentrował si˛e na wykorzystaniu algorytmów ewolucyjnych w globalnej indukcji drzew.
Algorytmy ewolucyjne (AE) należa˛ do rodziny metod meta-heurystycznych i wykorzystywane
sa˛ do rozwiazywania
˛
różnego rodzaju problemów optymalizacyjnych. Schemat działania AE
inspirowany jest biologicznym procesem ewolucji. Algorytm przetwarza populacje osobników,
które podlegaja˛ różnicowaniu (mutacji i krzyżowaniu) i rywalizuja˛ ze soba,˛ gdyż tylko najlepiej
dopasowane osobniki maja˛ szans˛e na przetrwanie. Popularność AE sprawiła, że obecnie [2]
pojawiaja˛ si˛e w literaturze rozwiazania,
˛
wykorzystujace
˛ mechanizm EA przy budowie drzew
decyzyjnych.
Główna˛ motywacja˛ rozprawy doktorskiej jest zaproponowanie alternatywy do zst˛epujacej
˛
indukcji drzew modelowych. Zastosowanie specjalizowanego algorytmu ewolucyjnego,
wykorzystujacego
˛
wiedz˛e o generowaniu drzew modelowych, powinno umożliwić bardziej
globalna˛ indukcj˛e drzew. Głównym celem rozprawy doktorskiej jest stworzenie zbioru metod,
umożliwiajacych
˛
globalna˛ indukcj˛e drzew w problemach regresyjnych. Algorytmy powinny
3
generować rozwiazania,
˛
charakteryzujace
˛ si˛e wysoka˛ dokładnościa˛ predykcji, niewielkim
rozmiarem, a także możliwościa˛ zastosowania do różnych problemów.
Teza i zadania
Rozprawa doktorska zawiera przeglad
˛ oraz zaproponowane przez autora rozwiazania,
˛
zwiazane
˛
z wykorzystaniem AE w globalnej indukcji drzew. Główna teza rozprawy doktorskiej
brzmi:
Wykorzystanie algorytmów ewolucyjnych do indukcji drzew regresyjnych pozwala na
otrzymanie drzew o mniejszym rozmiarze, niż uzyskiwane przez systemy bazujace
˛ na
algorytmach zst˛epujacych,
˛
przy przynajmniej porównywalnej jakości predykcji.
Zaproponowane zadania, zrealizowane przez autora rozprawy to:
— zaproponowanie rodziny algorytmów globalnej indukcji drzew regresyjnych i modelowych
różnego typu (jednowymiarowych, skośnych i mieszanych);
— zaprojektowanie specjalizowanego algorytmu ewolucyjnego oraz wykorzystanie lokalnego
poszukiwania (algorytm memetyczny);
— stworzenie rozwiazań,
˛
uwzgl˛edniajacych
˛
różne koszty niedoszacowania i przeszacowania
modelu predykcyjnego.
Struktura pracy
Rozprawa doktorska składa si˛e z pi˛eciu cz˛eści. Rozdziały 1 i 2 zawieraja˛ cz˛eść
teoretyczna˛ i dotycza˛ eksploracji danych oraz algorytmów ewolucyjnych. W rozdziale 3 została
przedstawiona ogólna koncepcja zaproponowanego systemu do globalnej indukcji drzew
modelowych. W kolejnym rozdziale autor rozszerzył opracowane metody o indukcj˛e drzew
skośnych, mieszanych oraz czułych na koszt. Eksperymentalna walidacja zaproponowanych
rozwiazań
˛
oraz porównanie z innymi metodami znajduje si˛e w rozdziale 5. Całość rozprawy
zamyka podsumowanie, wnioski oraz możliwe kierunki przyszłych badań.
1. Drzewa decyzyjne w problemach regresyjnych
Pozyskiwanie wiedzy z baz danych [12] to nowa dziedzina nauki z pogranicza sztucznej
inteligencji, technologi bazodanowych i statystyki. Proces pozyskiwania wiedzy składa si˛e z
kilku faz (Rysunek 2):
— wyboru danych do analizy (atrybutów i obiektów), integracji i zdefiniowania zbiorów
danych. Zbiory powinny być wystarczajaco
˛ duże, aby móc odkryć wzorce do analizy, a
jednocześnie na tyle zwi˛ezłe, aby pozyskać wiedz˛e w akceptowalnym czasie;
4
Ewaluacja
i interpretacja
Eksploracja danych
Wiedza
Transformacja
Wzorce
i modele
Wstępne przetwarzanie
Dane po
transformacji
Dane przetworzone
Wybór danych
Zbiór danych
Dziedzina
problemu
Baza danych
Rysunek 2: Etapy procesu pozyskiwania wiedzy z baz danych.
— czyszczenia danych i wst˛epnego przetwarzania: usuni˛ecie szumów i wartości odstajacych,
˛
eliminacja lub uzupełnianie wartości brakujacych,
˛
usuni˛ecie niespójnych danych;
— transformacji danych do postaci odpowiedniej do eksploracji danych. W ramach tego
etapu wykonywana może być również operacja normalizacji i standaryzacji. W celu
zredukowania wymiaru wektora danych stosowana jest również selekcja i ekstrakcja cech;
— eksploracji danych - najistotniejsza cz˛eść tego procesu - zwiazana
˛
jest z analiza˛
przygotowanych zbiorów danych, pozyskiwaniem zależności i wzorców. Głównymi
zadaniami eksploracji danych jest predykcja i opis;
— interpretacji - identyfikacja i ocena zależności oraz odkrytych struktur.
1.1. Regresja
W rozprawie doktorskiej autor koncentruje si˛e na analizie regresji, która to, obok
klasyfikacji, jest najcz˛eściej stosowana˛ technika,˛ wykorzystywana˛ w analizie predykcyjnej.
Model regresyjny budowany jest na danych treningowych w taki sposób, aby jak najlepiej
estymować wartość zmiennej zależnej y, na podstawie wektora zmiennych niezależnych x.
Znaleziony w ten sposób model może być później wykorzystany do oszacowania zmiennej
zależnej dla nowych danych, w których wartość y jest nieznana. Zakłada si˛e wówczas, że
wartość zmiennej zależnej jest równa:
y = f (x) + ,
5
(1)
gdzie f jest nieznana˛ funkcja,˛ zaś jest miara˛ bł˛edu losowego. Istnieje wiele miar, które
oceniaja˛ dopasowanie modelu predykcyjnego. Najcz˛estsze miary bł˛edu, pomi˛edzy wartościa˛
estymowana,˛ a wartościa˛ zmiennej zależnej opieraja˛ si˛e albo na metodzie najmniejszych
kwadratów (yi − ŷi )2 , albo na wartościach bezwzgl˛ednej różnicy |yi − ŷi |, gdzie ŷ jest to wartość
estymowana i-tej zmiennej zależnej.
Najpopularniejsza˛ metoda˛ modelowania relacji pomi˛edzy zmienna˛ zależna,˛ a zmiennymi
niezależnymi jest regresja liniowa, która ma postać:
f (x) =
P
X
βi ∗ xi + β0 ,
(2)
i=1
gdzie β
=
[β0 , β1 , ..., βP ] to wektor współczynników modelu regresyjnego. W
celu wyznaczenia parametrów regresji liniowej najcz˛eściej wykorzystywana jest metoda
najmniejszych kwadratów lub bezwzgl˛ednej różnicy.
Problem estymacji parametrów w modelu regresyjnym może być sformułowany jako
minimalizacja funkcji straty L(yi , f (xi )), która określa, jak mocno estymowana wartość różni
si˛e od zmiennej zależnej. Za symetryczna˛ funkcj˛e straty uznajemy taka˛ funkcj˛e, która dla
każdego yi i k spełnia warunek:
L(yi + k, f (xi )) = L(yi − k, f (xi )).
(3)
Symetryczne funkcje straty dominuja˛ zarówno w statystyce, jak i w eksploracji danych.
Jednakże problemy, które pojawiaja˛ si˛e w rzeczywistych danych sa˛ cz˛esto niesymetryczne
[13]. Przykładem może być problem prognozy zabezpieczenia pożyczek przez banki, w
których koszty niedoszacowania zabezpieczeń sa˛ znacznie wyższe niż ich przeszacowanie.
Wymagane sa˛ wówczas funkcje, posiadajace
˛ niesymetryczna˛ funkcj˛e strat. Przykładem jest
LinEx, zaproponowana przez Variana [27], która po jednej stronie jest liniowa (Lin), zaś po
drugiej wykładnicza (Ex). W późniejszych pracach [5] można znaleźć inne niesymetryczne
funkcje, takie jak LinLin i QuadQuad.
1.2. Drzewa decyzyjne
Drzewa decyzyjne [17] należa˛ do najbardziej rozpowszechnionych form reprezentacji,
wiedzy wydobywanej ze zbiorów danych. W analizie zagadnień regresyjnych cz˛esto
wykorzystywane sa˛ drzewa regresyjne i modelowe, jako interesujace
˛ alternatywy typowych
metod statystycznych, takich jak regresja logistyczna, czy klasyczna regresja liniowa [15].
Różnice pomi˛edzy drzewami regresyjnymi, a modelowymi dotycza˛ przede wszystkim sposobu
6
wyznaczenia wartości przewidywanej w liściach drzewa. W drzewach modelowych zwykle
dopuszcza si˛e wykorzystanie lokalnych modeli (np. liniowych), które sa˛ dopasowywane do
danych zawartych w liściach.
Różnorodność systemów indukujacych
˛
drzewa regresyjne i modelowe na podstawie
zbiorów uczacych
˛
jest w pewnym sensie pozorna. Zdecydowana wi˛ekszość metod
konstruowania drzew decyzyjnych opiera si˛e na algorytmie indukcji zst˛epujacej
˛
(ang.
top-down induction) [23]. Algorytm rozpoczyna si˛e od utworzenia korzenia drzewa, w którym
umieszczony jest cały zbiór uczacy.
˛ Sprawdzany jest warunek stopu, i jeśli nie jest on spełniony,
to poszukiwany jest test, który w sposób optymalny, z punktu widzenia przyj˛etego kryterium,
dzieli obiekty. Jeśli efektywny test nie zostanie znaleziony, bieżacy,
˛
przetwarzany w˛ezeł
oznaczany jest jako liść i wyznaczana jest zwiazana
˛
z nim prognoza (w przypadku drzew
regresyjnych) lub lokalny model regresyjny (w przypadku drzew modelowych). W przeciwnym
wypadku nast˛epuje podział w˛ezła i tworzone sa˛ w˛ezły potomne, do których kierowane
sa˛ obiekty na podstawie wyników testu. Proces sprawdzenia warunku stopu, poszukiwania
testów i ew. podziału w˛ezła jest nast˛epnie rekurencyjnie powtarzany we wszystkich w˛ezłach
potomnych. Należy podkreślić, że jest to strategia zachłanna (ang. greedy), i jak każda metoda
heurystyczna, nie gwarantuje otrzymania optymalnego rozwiazania.
˛
Tym niemniej jest ona
koncepcyjnie prosta i szybka, a ponadto generowane przy jej użyciu drzewa charakteryzuja˛
si˛e w wi˛ekszości przypadków dobra˛ jakościa˛ predykcji.
Istnieje wiele systemów indukcji drzew regresyjnych i modelowych. Jedno z pierwszych
tego typu rozwiazań
˛
zostało zaprezentowane w znanej ksia˛żce, opisujacej
˛
system CART
(Classification and Regression Tree) [3]. Kolejnym ważnym krokiem było stworzenie
drzew modelowych, które rozszerzaja˛ standardowe drzewa regresyjne, dzi˛eki zastapieniu
˛
pojedynczych wartości przypisanych do liści przez bardziej zaawansowane, lokalne modele
(np. liniowe). Reprezentatywnymi przykładami tego typu rozwiazań
˛
sa˛ systemy: M5 [26],
zaproponowany przez Quinlana, czy RT [25], stworzony przez Torgo.
2. Algorytmy ewolucyjne w indukcji drzew modelowych
Algorytmy ewolucyjne (AE) należa˛ do rodziny metod meta-heurystycznych i sa˛
wykorzystywane w zróżnicowanych problemach optymalizacyjnych. Istotna˛ zaleta˛ AE jest
wysoka efektywność w unikaniu minimów lokalnych. Mechanizmy zawarte w algorytmach
ewolucyjnych, takie jak: mutacja, krzyżowanie i selekcja naturalna inspirowane sa˛ naturalnym
procesem ewolucji.
7
Inicjalizacja
populacji
Ewolucja
Zastosowanie
operatorów
różnicowania
Ocena
rozwi za
w populacji
Spe niony
warunek
stopu?
Selekcja
osobników
z populacji
[nie]
[tak]
Rysunek 3: Ogólny schemat algorytmów ewolucyjnych.
2.1. Ogólny schemat algorytmów ewolucyjnych
Ogólny schemat AE przedstawiony jest na Rysunku 3. Proces rozpoczyna utworzenie
populacji poczatkowej,
˛
najcz˛eściej w sposób losowy, przy zachowaniu, w miar˛e możliwości,
jej zróżnicowania. Pojedynczy osobnik w populacji jest najcz˛eściej zakodowany w konkretnej
strukturze danych [20]. W przypadku, gdy reprezentacja osobnika jest ciagiem
˛
binarnym o
stałej długości, najprawdopodobniej mamy do czynienia z algorytmem genetycznym [16].
U?ycie reprezentacji, opartej o struktury drzewiaste implikuje wykorzystanie programowania
genetycznego [18]. Granica pomi˛edzy tymi dwoma typami AE jest jednak dość umowna i
cz˛esto ci˛eżko jednoznacznie przypisać konkretny algorytm do danej grupy.
Właściwa p˛etla algorytmu ewolucyjnego rozpoczyna si˛e po inicjalizacji populacji
poczatkowej.
˛
Złożona jest ona z różnicowania osobników w populacji, ich oceny oraz selekcji,
przy czym kolejność poszczególnych kroków może si˛e różnić w zależności od rodzaju AE.
Do oceny rozwiazań
˛
w populacji służy funkcja dopasowania, która jest miara˛ jakości
dowolnego osobnika w populacji i pozwala na promowanie najlepszych osobników. Zwykle
najłatwiej jest optymalizować tylko jedno kryterium np. bład
˛ w przypadku klasyfikacji. W
rzeczywistych problemach mamy jednak wiele miar, cz˛esto rozbieżnych, które musza˛ być
optymalizowane. Wówczas mamy do czynienia z wielokryterialna˛ funkcja˛ dopasowania.
Operatory genetyczne odpowiadaja˛ za różnicowanie osobników w populacji i inspirowane
sa˛ biologiczna˛ ewolucja.˛ Możemy wyróżnić dwa podstawowe operatory, które sa˛ najcz˛eściej
wykorzystywane: mutacj˛e i krzyżowanie. Operator krzyżowania powstaje w wyniku
reprodukcji - nowy osobnik utworzony jest z cech pochodzacych
˛
z różnych osobników
8
populacji. Operator mutacji działa tylko w obr˛ebie jednego osobnika, w którym wprowadza
losowe zmiany.
Selekcja wykorzystuje informacj˛e z funkcji dopasowania i przypisuje każdemu osobnikowi
prawdopodobieństwo selekcji. Im osobnik jest bardziej przystosowany, tym bardziej
prawdopodobne jest wybranie go do kolejnej generacji. Z najcz˛estszych sposobów selekcji
osobników możemy wymienić metod˛e ruletki, turniejowa˛ oraz rankingowa˛ [14].
Warunkiem zatrzymania algorytmu ewolucyjnego jest np. brak poprawy średniej
osobników w populacji przez zadana˛ liczb˛e kolejnych iteracji AE, osiagni˛
˛ ecie maksymalnej
liczby iteracji itp.
2.2. Globalna vs lokalna indukcja
Wykorzystanie strategii zachłannej do generowania drzew prowadzić może do
nieoptymalnych decyzji. Wielu autorów zaproponowało różne rozwiazania
˛
w algorytmie
konstrukcji drzew regresyjnych i modelowych, tak aby ograniczyć negatywne efekty strategii
zachłannej. Jedna˛ z alternatyw jest zastosowanie wielu drzew dla danego zbioru danych, czego
przykładem sa˛ lasy losowe (Random Forest) [4], które wspólnie podejmuja˛ decyzj˛e dotyczac
˛ a˛
predykcji. Zaleta˛ tego rozwiazania
˛
jest zmniejszenie bł˛edu predykcji, jednak istotnym minusem
jest utracenie możliwości łatwej interpretacji rozwiazania.
˛
Inne podejście zostało zastosowane
w algorytmie typu ”look-ahead” (LLRT ) [28], który poszukuje w drzewie modelowym
takiego podziału, dla którego modele w wyznaczonych liściach b˛eda˛ miały najwi˛eksza˛
dokładność. Ograniczenie negatywnych efektów strategii zachłannej zostało pokazane również
w publikacji SM OT I [19], w której autor rozszerza reprezentacje drzewa przez wprowadzenie
dodatkowych modeli regresyjnych w wyższych partiach (nie tylko w liściach), które maja˛
globalny efekt na decyzje drzewa.
Rysunek 4 ukazuje prosty przykład, w którym technika zachłanna zawodzi. Po lewej
stronie ukazany jest sztucznie wygenerowany zbiór danych, opisany funkcja˛ y(x1 , x2 ). Zbiór
danych może być idealnie opisany przez drzewo z dwoma liniowymi modelami regresji pod
warunkiem, iż pierwszy podział (w w˛eźle) b˛edzie dla x1 = −2. Zdecydowana wi˛ekszość
popularnych metod wykorzystujacych
˛
algorytmy zachłanne do budowy drzewa nie b˛edzie
w stanie znaleźć takiego rozwiazania.
˛
Metoda M 5, która liczy odchylenie standardowe,
zbuduje test w korzeniu dla x1 = −1.18, zaś metoda CART, która wykorzystuje sum˛e
odchyleń kwadratów dla x1 = −0.44. Nieoptymalny podział w korzeniu powoduje nie tylko
znaczne zwi˛ekszenie rozmiaru drzewa, lecz również cz˛esto zwi˛eksza bład
˛ predykcji. Drzewo
generowane technika˛ globalna˛ (oznaczone jako GM T ) bez problemu znajduje odpowiedni
9
Rysunek 4: Przykłady drzew (po prawej) generowanych indukcja˛ zst˛epujac
˛ a˛ (na przykładzie
algorytmu M5) i indukcja˛ globalna˛ na sztucznym wygenerowanym zbiorze danym (po lewej).
podział drzewa, dzi˛eki czemu rozmiar drzewa i ilość modeli jest zdecydowanie mniejsza. Po
prawej stronie Rysunku 4 zaprezentowane sa˛ wygenerowane drzewa przez algorytm GM T i
M 5. Jak widać, nawet na tak prostym zbiorze danych, globalnie konstruowane drzewa maja˛
zdecydowana˛ przewag˛e nad ich zachłannymi odpowiednikami.
2.3. Przeglad
˛ literatury
Wykorzystanie algorytmów ewolucyjnych w indukcji drzew decyzyjnych stało si˛e ostatnimi
czasy bardzo popularne. W najnowszym przegladzie
˛
literatury z zakresu zastosowania
podejścia ewolucyjnego w indukcji drzew decyzyjnych [2], zaprezentowano duża˛ ilość nowych
rozwiazań,
˛
co pokazuje, jak aktualne i popularne sa˛ to badania. Zdecydowana wi˛ekszość
rozwiazań
˛
dotyczy jednak problemów klasyfikacyjnych, gdyż jest bardzo niewiele metod,
które maja˛ zastosowanie w regresji. Jednymi z nielicznych przykładów wykorzystania AE w
indukcji drzew regresyjnych i modelowych sa˛ systemy T ARGET [11] i E − M otion [1].
Zaproponowane w nich rozwiazania
˛
w podstawowy i prostolinijny sposób stosuja˛ ewolucje
do budowy drzew. Niestety, brak specjalizowanych operatorów, a także nie uwzgl˛ednienie
charakterystyki struktur drzewiastych spowodował, że obie metody osiagn˛
˛ eły przeci˛etne
wyniki.
3. Globalna indukcja drzew modelowych
W rozprawie doktorskiej autor zaproponował specjalizowany algorytm ewolucyjny do
globalnej indukcji drzew modelowych. Zaprojektowany algorytm o nazwie Global Model Tree
10
Inicjalizacja pseudo-losow strategi
zach ann populacji z o onej z P osobników
Ocena rozwi za w populacji
[ spe niony warunek stopu ]
Wyg ad najlepszego osobnika
[ w przeciwnym wypadku ]
Selekcja rankingowa
ze strategi elitarn
Ró nicowanie populacji
i stworzenie nowych osobników
Rysunek 5: Ogólny schemat algorytmu GM T .
(GM T ) wpisuje si˛e w schemat AE i wykorzystuje oparte na populacji losowe różnicowanie i
selekcj˛e. Rysunek 5 przedstawia diagram czynności algorytmu GM T . W poszczególnych jego
krokach autor rozprawy starał si˛e właczyć
˛
specyfik˛e drzew modelowych w schemat AE.
3.1. Reprezentacja i inicjalizacja
Reprezentacja osobników w populacji algorytmu GM T nie jest zakodowana. Autor
wykorzystuje reprezentacj˛e drzewiasta,˛ dzi˛eki czemu wszystkie osobniki przechowywane sa˛
w ich rzeczywistej postaci, która˛ jest klasyczne drzewo modelowe. W˛ezły wewn˛etrzne drzewa
moga˛ posiadać jednowymiarowe testy bazujace
˛ na:
— atrybutach nominalnych, gdzie z każda˛ gał˛ezia˛ wychodzac
˛ a˛ z w˛ezła zwiazana
˛
jest
przynajmniej jedna wartość nominalna (wewn˛etrzna dysjunkcja);
— atrybutach ciagłych
˛
- wykorzystywane sa˛ typowe testy nierównościowe z 2 wyjściami.
Liście drzewa modelowego moga˛ natomiast zawierać:
— wartość średnia˛ zmiennej zależnej z obiektów, które dotarły do tego liścia - mamy wówczas
do czynienia z drzewem regresyjnym;
— regresj˛e liniowa,˛ która estymuje wartość zmiennej zależnej y na podstawie maksymalnie P
zmiennych niezależnych x. Ma ona postać:
y = β0 + β1 ∗ x1 + β2 ∗ x2 + . . . + βP ∗ xP ,
11
gdzie β to współczynniki modelu regresji liniowej.
W celu inicializacji populacji poczatkowej
˛
autor rozprawy wykorzystuje algorytm
zst˛epujacy,
˛
wyst˛epujacy
˛
w systemie CART [3] oraz M 5 [26]. Aby zróżnicować i
cz˛eściowo zoptymalizować populacj˛e poczatkow
˛
a,˛ drzewa budowane sa˛ na losowo wybranych
podzbiorach obiektów, zaś poszukiwanie testów w w˛ezłach wewn˛etrznych odbywa si˛e z losowo
wybranych podzbiorów atrybutów. Autor zaproponował 3 strategie poszukiwania testów w
w˛ezłach wewn˛etrznych, które bazuja˛ na:
— minimalizacji odchylenia standardowego;
— minimalizacji sumy kwadratów odchyleń;
— przeci˛eciu tzw. "długiego dipola". Metod˛e rozpoczyna losowe wybranie pierwszego
obiektu. Nast˛epnie drugi obiekt losowany jest w taki sposób, aby wartość jego zmiennej
zależnej była możliwie jak najbardziej różna. Po wybraniu 2 obiektów, budowany jest test
na losowym atrybucie tak, aby rozdzielił wylosowane obiekty.
3.2. Operatory różnicowania
Istniejace
˛ systemu, które stosuja˛ AE w indukcji drzew, wykorzystuja˛ tylko podstawowe
operacje różnicowania i mutacji. Autor rozprawy, poprzez wykorzystanie specyfiki oraz
charakterystyki drzew modelowych, zaproponował kilkanaście specjalizowanych wariantów
operatorów genetycznych.
W krzyżowaniu, wymiana informacji genetycznej pomi˛edzy dwoma osobnikami odbywa
si˛e nast˛epujaco.
˛
Na wst˛epie, dwa osobniki wybierane sa˛ w sposób losowy. Nast˛epnie, w
każdym osobniku wybierany jest, w zależności od wariantu krzyżowania, jeden badź
˛ dwa
w˛ezły (moga˛ być to zarówno w˛ezły wewn˛etrzne, jak i liście). Zmiana kontekstu w krzyżowaniu
skutecznie różnicuje osobniki. Należy jednak pami˛etać, że może mieć też destrukcyjny
charakter, dlatego też nie należy stosować jej zbyt cz˛esto.
W rozprawie, 5 różnych wariantów krzyżowania, zaprezentowanych na Rysunku 7 zostało
zastosowanych:
— wymiana poddrzew: poddrzewa rozpoczynajace
˛ si˛e w losowo wybranych w˛ezłach
wewn˛etrznych sa˛ wymieniane pomi˛edzy dwoma osobnikami;
— wymiana gał˛ezi: wszystkie gał˛ezie rozpoczynajace
˛ si˛e w losowo wybranym w˛eźle
wewn˛etrznym sa˛ wymieniane w sposób losowy, mi˛edzy dwoma osobnikami (liczba gał˛ezi
w obu w˛ezłach musi być identyczna);
— wymiana testów: testy zwiazane
˛
z losowo wybranymi w˛ezłami wewn˛etrznymi sa˛
wymieniane (liczba wyników testów w obu w˛ezłach jest identyczna);
12
R
o
d
z
i
c
e
Osobnik 1
Osobnik 2
A
X
B
LM1
C
Y
LM6
D
R
o
d
z
i
c
e
LM7 LM8
Wymiana
poddrzew
Osobnik 1
Osobnik 2
A
X
B
LM1
C
a)
Y
LM6
D
LM7 LM8
Losowa wymiana ga zi
LM2 LM3 LM4 LM5
Osobnik 2
Osobnik 1
A
X
Wymiana testów
B
LM1
C
Y
LM6
D
LM7 LM8
LM2 LM3 LM4 LM5
LM2 LM3 LM4 LM5
Krzy owanie
P
o
t
o
m
s
t
w
o
R
o
d
z
i
c
e
Osobnik 2
A
X
LM1
Y
P
o
t
o
m
s
t
w
o
B
LM6
C
LM7 LM8
D
b)
LM2 LM3 LM4 LM5
R
o
d
z
i
c
e
Krzy owanie
Krzy owanie
Osobnik 1
X
B
LM1
Y
LM6
D
C
LM4 LM5
LM2 LM3
Losowa wymiana ga zi
LM7 LM8
c)
Osobnik 2
Osobnik 1
A
X
Y
LM1
C
LM6
D
B
LM7 LM8
LM2 LM3 LM4 LM5
X
Krzy owanie niesymetryczne
biorca
B
LM1
A
P
o
t
o
m
s
t
w
o
Osobnik 2
Osobnik 1
A
Osobnik 2
Osobnik 1
Y
LM6
biorca
skopiowanie poddrzewa
C
D
dawca
dawca
LM7 LM8
LM2 LM3 LM4 LM5
skopiowanie poddrzewa
Krzy owanie
d)
P
o
t
o
m
s
t
w
o
Osobnik 2
Osobnik 1
A
Y
LM7 LM8
X
B
C
D
D
Y
LM4 LM5
LM7 LM8
LM2 LM3 LM4 LM5
e)
Rysunek 6: Przykłady różnych wariantów krzyżowania w GM T : a) wymiana całych poddrzew;
b) losowa wymiana gał˛ezi; c) wymiana testów; d) krzyżowanie niesymetryczne; e) krzyżowanie
z najlepszym osobnikiem.
— asymetryczne: każdy z osobników wybiera po 2 w˛ezły: biorc˛e i dawc˛e. W˛ezeł biorcy
pierwszego osobnika zostanie zastapiony
˛
przez w˛ezeł dawcy drugiego osobnika i odwrotnie
(w˛ezeł dawcy pierwszego osobnika zastapi
˛ w˛ezeł biorcy drugiego). Ponieważ w˛ezeł dawcy
jest dublowany, powinien mieć on relatywnie mniejszy średni bład
˛ predykcji. Natomiast
w˛ezeł biorcy, który jest zast˛epowany, powinien mieć wysoka˛ wartość bł˛edu. Przy wyborze
w˛ezłów, autor wykorzystał mechanizm analogiczny do selekcji rankingowej;
— z najlepszym osobnikiem: krzyżowanie modyfikuje tylko jednego osobnika, który
zast˛epuje, z wyższym prawdopodobieństwem, swoje słabsze poddrzewo przez losowo
wybrane poddrzewo, najlepszego znalezionego do tej pory osobnika w populacji.
Mutacja osobnika w populacji polega na modyfikacji tylko jednego w˛ezła w drzewie.
Wybierajac
˛ w˛ezeł do mutacji, należy jednak uwzgl˛ednić fakt, iż zmiana w˛ezła w górnej
cz˛eści drzewa ma globalny wpływ na całe drzewo, zaś modyfikacja liścia lub w˛ezła w dolnej
partii drzewa powoduje tylko lokalne zmiany w predyktorze. Dlatego też, autor zastosował
selekcj˛e rankingowa˛ do wyboru w˛ezła, który zostanie zmutowany. Obejmuje ona dwa czynniki:
lokalizacj˛e w˛ezła w drzewie (w˛ezły z wyższych poziomów mutowane sa˛ rzadziej) oraz średni
bład
˛ (gorsze w˛ezły mutowane sa˛ cz˛eściej).
13
R
o
d
z
i
c
e
Osobnik 1
Osobnik 2
A
X
B
LM1
C
Y
LM6
D
R
o
d
z
i
c
e
LM7 LM8
Wymiana
poddrzew
Osobnik 1
Osobnik 2
A
X
B
LM1
C
D
a)
R
o
d
z
i
c
e
LM7 LM8
Losowa wymiana ga zi
LM2 LM3 LM4 LM5
LM2 LM3 LM4 LM5
Krzy owanie
P
o
t
o
m
s
t
w
o
Y
LM6
Krzy owanie
Osobnik 1
Osobnik 2
A
X
Y
LM1
B
LM6
C
LM7 LM8
D
b)
LM2 LM3 LM4 LM5
Osobnik 1
Osobnik 2
A
X
R
o
d
z
i
c
e
Wymiana testów
B
LM1
C
Y
LM6
D
P
o
t
o
m
s
t
w
o
LM7 LM8
LM2 LM3 LM4 LM5
Osobnik 1
Osobnik 2
A
X
D
C
LM4 LM5
LM2 LM3
B
LM1
Y
LM6
Losowa wymiana ga zi
LM7 LM8
Osobnik 2
Osobnik 1
A
biorca
B
LM1
X
Krzy owanie niesymetryczne
Y
LM6
biorca
skopiowanie poddrzewa
C
D
dawca
dawca
LM7 LM8
LM2 LM3 LM4 LM5
skopiowanie poddrzewa
Krzy owanie
c)
P
o
t
o
m
s
t
w
o
Krzy owanie
Osobnik 1
Osobnik 2
A
X
Y
LM1
C
LM6
D
B
LM7 LM8
LM2 LM3 LM4 LM5
d)
P
o
t
o
m
s
t
w
o
Osobnik 1
Osobnik 2
A
X
B
Y
LM7 LM8
C
D
D
Y
LM4 LM5
LM7 LM8
LM2 LM3 LM4 LM5
e)
Rysunek 7: Przykłady różnych wariantów krzyżowania w GM T : a) wymiana całych poddrzew;
b) losowa wymiana gał˛ezi; c) wymiana testów; d) krzyżowanie niesymetryczne; e) krzyżowanie
z najlepszym osobnikiem.
14
Autor zaproponował zaawansowane warianty mutacji, a także uwzgl˛ednił w nich
metody lokalnego przeszukiwania (algorytmy memetyczne). Warianty mutacji zależa˛ od typu
wybranego w˛ezła (w˛ezeł wewn˛etrzny lub liść) i dotycza:
˛
— zmiany struktury drzewa: przycinanie w˛ezła w liść, rozbudowa liścia, przycinanie
wewn˛etrzne;
— zmiany testu w w˛eźle wewn˛etrznym: przesuni˛ecie progu testu ciagłego;
˛
przegrupowanie
wartości atrybutów nominalnych; zmiana testu na losowy, wybrany strategia˛ dipolowa˛ lub
zachłanna;
˛
— zmiany modeli w liściach: dodanie, usuni˛ecie i losowa wymiana atrybutów;
— wykorzystanie metod lokalnego przeszukiwania: lokalna optymalizacja testów w w˛ezłach
wewn˛etrznych; optymalizacja modeli w liściach.
3.3. Funkcja dopasowania i selekcja
Funkcja dopasowania steruje procesem symulowanej ewolucji i jest jednym z najbardziej
istotnych i czułych elementów AE. W systemie GM T autor zaproponował wykorzystanie w
ramach funkcji dopasowania metody optymalizacji wielokryterialnej. Podczas poszukiwania
optymalnego drzewa modelowego, dwa elementy powinny być wzi˛ete pod uwag˛e. Pierwszy,
to bład
˛ średniokwadratowy drzewa, liczony na danych treningowych. Drugi, to złożoność
predyktora, w skład której wchodzi wielkość drzewa, a także rozmiar modelów liniowych
w liściach. Dwie popularne techniki optymalizacji wielokryterialnej zostały zaadaptowane,
mianowicie: metoda ważonej sumy, oparta na Bayesowskim kryterium informacyjnym [22],
a także technika leksykograficzna.
W procesie reprodukcji osobników, którzy utworza˛ nowa˛ populacj˛e wykorzystano algorytm
selekcji, oparty o liniowa˛ selekcj˛e rankingowa.˛ Autor zastosował również strategi˛e elitarna,˛
która każdorazowo dołacza
˛
do tworzonej, nowej populacji najlepszego, jak dotad
˛ osobnika.
Ewolucyjna indukcja kończy si˛e, gdy wartość dopasowania najlepszego osobnika nie zmienia
si˛e przez zadana˛ liczb˛e iteracji, badź
˛ osiagni˛
˛ eto jej maksymalna˛ liczb˛e.
3.4. Metody wygładzania (smoothing)
Po zakończeniu ewolucji, najlepszy znaleziony osobnik jest wygładzany. Proces ten
zaproponowany został w algorytmie zachłannym M 5 [26]. Wymaga on wygenerowania
modelów liniowych dla każdego w˛ezła wewn˛etrznego w drzewie. Wygładzanie pozwala
na modyfikacj˛e predykcji, podj˛etej w liściu przez nowo wygenerowane modele, znajdujace
˛
si˛e na ścieżce pomi˛edzy liściem, a korzeniem. Rysunek 8 przedstawia proces wygładzania
15
Rysunek 8: Przykład wygładzania drzewa dla testowanego obiektu, który dotarł do liścia
zawierajacego
˛
model LM 4.
wyznaczonej wartości predykcji przez model LM 4 dla testowanego obiektu. Z rysunku widać,
iż nowo utworzony model LM 5 w w˛eźle wewn˛etrznym, a nast˛epnie model LM 6 w korzeniu,
ma wpływ na ostateczna˛ wartość predykcji.
4. Rozszerzenia globalnej indukcji drzew modelowych
Reprezentacja osobników w populacji algorytmu GM T oparta na jednowymiarowych
drzewach modelowych ma pewne ograniczenia. Dlatego też, autor zaproponował system
oblique Global Model Tree (oGM T ), w którym rozszerzył istniejac
˛ a˛ reprezentacj˛e
drzewa poprzez zastosowanie testów skośnych w w˛ezłach wewn˛etrznych. Poszukiwanie
hiperpłaszczyzny, wykorzystywanej przy podziale w˛ezła zostało właczone
˛
w algorytm
ewolucyjny. Zaproponowane przez autora nowe warianty operatora mutacji maja˛ za zadanie
modyfikacj˛e współczynników (wag) hiperpłaszczyzny tak, aby jak najlepiej podzieliła dane.
Zmiana reprezentacji wymagała również zmiany funkcji dopasowania. Jako, że testy skośne
sa˛ bardziej skomplikowane, niż testy jednowymiarowe, zostały one właczone
˛
w złożoność
predyktora, który jest optymalizowany przez funkcj˛e dopasowania.
Kolejne rozszerzenie algorytmu GM T jest również zwiazane
˛
z reprezentacja.˛ Autor
zaproponował uelastycznienie dotychczasowej reprezentacji drzew poprzez zintegrowanie
algorytmów poszukiwania drzew jednowymiarowych, wielowymiarowych, regresyjnych i
modelowych. Stworzone w ten sposób drzewo mieszane, samodzielnie dopasuje reprezentacj˛e
drzewa (w˛ezłów wewn˛etrznych i liści) do specyfiki aktualnie analizowanego zbioru danych.
System, nazwany mixed Global Model Tree (mGM T ), może generować drzewa zawierajace
˛
16
test skośny
x1-2*x2 > 1
y=4
x1>3
test jednowymiarowy
liść regresyjny
y = 2*x1 + 3
y = 8.2
liść modelowy
Rysunek 9: Przykład drzewa z mieszana˛ reprezentacja˛ wygenerowanego przez system mGM T .
w˛ezły z testami jednowymiarowymi i skośnymi oraz liście regresyjne i modelowe. Przykładowa˛
reprezentacj˛e drzewa mieszanego przedstawia Rysunek 9.
Trzecie i zarazem ostatnie rozszerzenie algorytmu GM T umożliwia uwzgl˛ednienie
kosztów bł˛ednej predykcji przy indukcji drzewa. Autor zaimplementował różne funkcje
kosztów tj. LinLin, QuadQuad, które umożliwiaja˛ poszukiwanie rozwiazań,
˛
gdy koszty
niedoszacowania i przeszacowania sa˛ różne. Zaproponowane zostały nowe warianty
operatorów mutacji, które minimalizuja˛ koszta, m.in.: poprzez przesuwanie i modyfikowanie
modeli liniowych w liściach. Również funkcja dopasowania została zmodyfikowana tak, aby
uwzgl˛edniać koszta i promować te osobniki, u których sa˛ one najmniejsze.
5. Eksperymentalna walidacja zaproponowanych rozwiaza
˛ ń
Wszystkie zaproponowane przez autora rozwiazania
˛
zostały zaimplementowane w j˛ezyku
C++ w środowisku wielo-platformowym. Eksperymentalna walidacja i analiza porównawcza
algorytmów przeprowadzona została na sztucznych i rzeczywistych zbiorach danych. Lista
przeprowadzonych eksperymentów przedstawiona jest w Tabeli 1.
5.1. Tuning i ewaluacja
W ramach ewaluacji proponowanych rozwiazań,
˛
autor rozprawy zbadał wszystkie elementy
składowe systemu GM T . Przetestowano wpływ reprezentacji na jakość predykcji i złożoność
drzew. Zweryfikowano strategi˛e wyboru testów przy tworzeniu populacji poczatkowej.
˛
Przetestowane zostały dwie funkcje dopasowania, a także zasadność stosowania wygładzania
po ewolucji. Wpływ poszczególnych operatorów genetycznych został również zbadany pod
katem
˛
ich ważności (wpływu na wynik) oraz szybkości działania.
Tuning parametrów systemu GM T obejmował ustawienie cz˛estości wykonania mutacji
i krzyżowania. Opracowano również, jak cz˛esto poszczególne warianty operatorów
17
Eksperymenty
Ilość
zbiorów danych
Ilość
algorytmów
Testowane elementy
Tuning
i ewaluacja
2
1
wszystkie elementy składowe
algorytmu ewolucyjnego
GMT vs Top Down
26
9
error, czas, rozmiar drzewa
i modeli w liściach
GMT vs drzewa
generowane przez AE
8
6
2 rodzaje bł˛edów,
rozmiar drzewa
Drzewa skośne i mix
24
5
bład,
˛ rozmiar drzewa,
ilość atrybutów w w˛ezłach
GMT z uwzgl˛ednieniem
kosztów
26
6
bład
˛ (koszt), rozmiar drzewa
i modeli w liściach
Tablica 1: Lista przeprowadzonych eksperymentów w ramach rozprawy doktorskiej.
genetycznych powinny być uruchamiane. Dodatkowo, eksperymentalnie określono parametry
i wagi w funkcjach dopasowania.
5.2. Global Model Tree vs algorytmy zst˛epujace
˛
Zaproponowane rozwiazania
˛
zostały porównane do konkurencyjnych systemów,
generowanych technika˛ zachłanna˛ na 26 rzeczywistych zbiorach danych (zbiory od 1 000 do
180 000 obiektów i od 5 do 40 atrybutów). Przetestowano algorytmy:
— analogiczne do GM T systemy z indukcja˛ zst˛epujac
˛ a:
˛ M 5 i RepT ree (REP );
— metody uczenia zespołowego: Random Model Trees (RM T ), Bagging (BO) i Boosting
(BO) z algorytmem M 5;
— inne popularne metody wykorzystywane w regresji: Linear Regression (LR), Optimised
Gaussian Process Regression (GP R), Bagged Additive Groves of Trees (AG).
Pomi˛edzy GM T , a testowanymi algorytmami wystapiły
˛
istotne różnie. W analizie
statystycznej użyto test Friedmana i Dunna do porównania wielu zbiorów. Tabela 2 przedstawia
statystycznie istotne różnice pomi˛edzy algorytmami. Analizujac
˛ wyniki w tabeli widać, że
zaproponowane rozwiazanie
˛
generuje drzewa, które sa˛ nie tylko dokładniejsze i mniejsze,
niż drzewa generowane metoda˛ zachłanna,˛ ale i stanowia˛ konkurencj˛e dla bardziej złożonych
metod tj. Boosting, czy Bagging [8, 10]. Niewatpliw
˛
a˛ wada˛ zaproponowanych rozwiazań
˛
jest
czas indukcji drzewa, który jest wi˛ekszy, niż we wszystkich testowanych systemach.
18
Algorytm RM AE
GM T vs
RM T
GP R
AG
BG
BO
REP
M5
LR
Czas
Rozmiar drzewa
Rozmiar liścia
-
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
·
+
·
+
·
+
+
+
Tablica 2: Różnice statystyczne pomi˛edzy algorytmami. GM T jest statystycznie lepsze gdy
jest znak "+", statystycznie gorsze gdy jest znak "−", brak istotnych różnic gdy "·".
5.3. Global Model Tree vs drzewa ewolucyjne
Eksperymenty porównawcze przeprowadzono na 8 zbiorach danych. Autor porównał
wyniki z konkurencyjnym algorytmem E − M otion, który również wykorzystuje AE przy
indukcji drzew. Dokonano tak?e porównania z algorytmem bGM T , który jest podstawowa˛
(niespecjalizowana)
˛ wersja˛ algorytmu GM T . Przetestowano działanie 2 funkcji dopasowania,
opartych na technice ważonej (GM T ) i leksykograficznej (GM T Lex).
Z przetestowanych algorytmów najlepiej poradził sobie system GM T , który na cz˛eści
zbiorów był statystycznie lepszy, niż pozostałe metody pod wzgl˛edem dokładności predykcji.
Dodatkowo, zaproponowane rozwiazanie
˛
nigdy nie było gorsze od innych algorytmów.
Z przeprowadzonych eksperymentów zaobserwować można zdecydowanie pozytywny
wpływ zastosowania specjalizowanych operatorów genetycznych, a także innych elementów
wykorzystujacych
˛
specyfik˛e indukcji drzew modelowych i właczonych
˛
w proces ewolucji [10].
5.4. Drzewa skośne i mieszane
Walidacja wpływu reprezentacji drzewa na jego dokładność predykcji oraz rozmiar (ilość
liści, rozmiar w˛ezłów wewn˛etrznych oraz modeli w liściach), została przeprowadzona na 16
sztucznie wygenerowanych i 8 rzeczywistych zbiorach danych. Autor rozprawy porównał
działanie 5 algorytmów:
— univariate Global Regression Tree (uGRT );
— univariate Global Model Tree (oGRT );
— oblique Global Regression Tree (oGRT );
— oblique Global Model Tree (oGM T );
19
— mix Global Regression Tree (mGM T ).
Analiza porównawcza algorytmów wykazała, że reprezentacja mieszana pozwala na
uzyskiwanie najlepiej dopasowanych do danych drzew. Wykorzystanie testów skośnych w
w˛ezłach wewn˛etrznych zbiorach cz˛esto poprawia wyniki. Minusem tego rozwiazania
˛
jest
znacznie dłuższy czas poszukiwania drzewa, co jest szczególnie widoczne w algorytmach
oGRT i oGM T [9]. Zastosowanie wyłacznie
˛
prostej reprezentacji tak jak w przypadku
algorytmu uGRT jest zdecydowanie szybsze, jednak może powodować słabe dopasowanie si˛e
drzewa do danych i w konsekwencji powstanie zbyt dużych drzew. Wykorzystanie reprezentacji
mieszanej, która sama dopasowuje si˛e do analizowanego zbioru danych, pozwala uniknać
˛ tych
problemów. Algorytm mGM T jest nie tylko szybki, ale i pozwala na generacj˛e niewielkich i
dokładnych drzew decyzyjnych z mieszana˛ reprezentacja.˛
5.5. Uwzgl˛ednienie kosztów predykcji
W ramach przeprowadzonych eksperymentów autor dokonał kompleksowej analizy
problemu prognozy zabezpieczenia pożyczek przez banki. Problem ten nie jest symetryczny,
to znaczy koszty niedoszacowania zabezpieczeń sa˛ znacznie wyższe, niż ich przeszacowania.
26 zbiorów danych, zawierajacych
˛
informacj˛e o instytucjach finansowych w USA w latach
2004-2010 zostało przebadanych. Każdy zbiór zawierał około 8 000 instytucji opisanych 14
atrybutami.
Analiza porównawcza została przeprowadzona z popularnymi algorytmami, które
zostały stuningowane tak, aby mogły działać przy niesymetrycznych kosztach. Przebadano
wpływ różnych ustawień kosztów, a także 2 funkcje straty: LinLin oraz QuadQuad.
Algorytm CGM T zdołał zmniejszyć od 44.6% do 99.9% koszty (bład),
˛
w porównaniu
do konkurencyjnych rozwiazań.
˛
Dodatkowo, zaproponowane rozwiazanie
˛
pozwala na
generowanie prostych modeli mogacych
˛
mieć bezpośrednie zastosowanie [7].
6. Wnioski końcowe i kierunki przyszłych badań
Teza postawiona na poczatku
˛
rozprawy doktorskiej została dowiedziona. Wykorzystanie
specyfiki drzew w projektowaniu algorytmu ewolucyjnego ma istotny (pozytywny) wpływ na
uzyskiwane wyniki, zarówno pod wzgl˛edem jakości predykcji, jak i otrzymania zdecydowanie
mniejszych (prostszych) drzew.
Zaproponowana rodzina rozwiazań
˛
dużo skuteczniej potrafi wykryć struktur˛e i zależności
w danych. Dzi˛eki zastosowaniu mieszanej reprezentacji, algorytm ewolucyjny jest w
stanie automatycznie dobrać optymalna˛ reprezentacj˛e testów w w˛ezłach wewn˛etrznych
20
(jednowymiarowe, skośne) oraz reprezentacj˛e w liściach (regresyjna, modelowa) w
poszczególnych cz˛eściach drzewa do analizowanego problemu. Możliwość uwzgl˛ednienia
kosztów podczas indukcji drzewa pozwala z kolei na otrzymanie dokładniejszego i mniejszego
predyktora, w porównaniu do konkurencyjnych rozwiazań.
˛
Istnieje wiele dalszych możliwości badawczych, zwiazanych
˛
z globalna˛ indukcja˛ drzew
modelowych. Zaproponowanie wykorzystania obliczeń równoległych pozwoliłoby skrócić
czas indukcji drzewa. Adaptacyjna aktywacja wariantów operatorów różnicowania, a także
wygładzanie drzew w trakcie ewolucji pozwoliłoby poprawić odkrywanie zależności i
przyspieszyć zbieżność AE. Rozważyć można by również opracowanie wielokryterialnej
optymalizacji opartej na Parego.
Literatura
[1] Barros, R.C., Ruiz, D.D., Basgalupp, M.: Evolutionary model trees for handling continuous classes
in machine learning. Information Sciences 181 (2011) 954–971.
[2] Barros, R.C., Basgalupp, M.P., Carvalho, A.C., Freitas, A.A.: A survey of evolutionary algorithms
for decision-tree induction. IEEE Transactions on Systems Man and Cybernetics Part C
Applications and Reviews 42(3) (2012) 291–312.
[3] Breiman, L., Friedman, J., Olshen, R., Stone C.: Classification and regression trees, Wadsworth
Int. Group (1984).
[4] Breiman, L.: Random forests. Machine Learning 45(1) (2001) 5–32.
[5] Cain, M., Janssen,C.: Real estate price prediction under asymmetric loss. Annals of the Institute of
Statistical Mathematics 47(3) (1995) 401–414.
[6] Cios, K., Pedrycz, W., Swiniarski R., Kurgan L.: Data mining. A knowledge discovery Aapproach.
Springer (2007)
[7] Czajkowski, M., Czerwonka, M., Kretowski, M.: Cost-sensitive extensions for global model trees.
Application in loan charge-off forecasting, In Proc. of ICSS, Advances in Intelligent Systems and
Computing 400 (2014) 315–324.
[8] Czajkowski, M., Kretowski, M.: An evolutionary algorithm for global induction of regression
and model trees. International Journal of Data Mining, Modelling and Management 5(3) (2013)
261–276.
[9] Czajkowski, M., Kretowski, M.: Global induction of oblique model trees: an evolutionary
approach, In Proc. of ICAISC’13. Lecture Notes in Artificial Intelligence 7895 (2013) 1–11.
[10] Czajkowski, M., Kretowski, M., Evolutionary induction of global model trees with specialized
operators and memetic extensions, Information Sciences 288 (2014) 153–173.
21
[11] Fan, G., Gray, J.B.: Regression tree analysis using target. Journal of Computational and Graphical
Statistics 14(1) (2005) 206–218.
[12] Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., Uthurusamy R., (Eds.): Advances in knowledge
discovery and data mining. AAAI Press, (1996).
[13] Granger, C.W.J.: Forecasting in business and economics, 2nd ed. Academic Press, New York
(1989).
[14] Hancock, P.J.B.: An empirical comparison of selection methods in evolutionary algorithms.
Lecture Notes in Computer Science 865 (1994) 80–94.
[15] Hastie,T., Tibshirani, R., Friedman, J.: The elements of statistical learning. Data mining, inference,
and prediction. 2nd edn. Springer (2009).
[16] Holland J.: Genetic algorithms, Scientific American (1992) 44–50.
[17] Kotsiantis, S.B.: Decision trees: a recent overview. Artificial Intelligence Review, Springer
Netherlands 39 (2013) 261–283.
[18] Koza, J.R.: Genetic programming: on the programming of computers by means of natural
selection. MIT Press (1992).
[19] Malerba, D., Esposito, F., Ceci, M., Appice, A.: Top-down induction of model trees with regression
and splitting nodes. IEEE Transaction on Pattern Analysis and Machine Intelligence 26(5) (2004)
612–625.
[20] Michalewicz, Z.: Genetic algorithms + data structures = evolution programs. 3rd edn. Springer
(1996).
[21] Murthy, S.: Automatic construction of decision trees from data: A multi-disciplinary survey. Data
Mining and Knowledge Discovery 2 (1998) 345–389.
[22] Schwarz, G.: Estimating the dimension of a model. The Annals of Statistics 6 (1978) 461–464.
[23] Rokach, L., Maimon, O.Z.: Top-down induction of decision trees classifiers - a survey. IEEE
Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 35(4) (2005)
476–487.
[24] Rokach, L., Maimon, O.Z.: Data mining with decision trees: theory and application. Machine
Perception Arfitical Intelligence 69 (2008).
[25] Torgo, L., Ribeiro, R.: Precision and recall for regression. In Proc. of Discovery Science, Berlin,
Heidelberg (2009) 332–346.
[26] Quinlan, J.R.: Learning with continuous classes. In Proc. of AI’92, World Scientific, (1992)
343–348.
[27] Varian, H.R.: A bayesian approach to real estate assessment, Studies in Bayesian Econometrics
and Statistics: In honor of L.J. Savage (North-Holland), Amsterdam (1974) 195–208.
[28] Vogel, D., Asparouhov, O., Scheffer, T.: Scalable look-ahead linear regression trees. In Proc. of
ACM SIGKDD’13 ACM Press New York (2007) 757–764.
22

Podobne dokumenty