Algorytmy ewolucyjne w globalnej indukcji drzew modelowych
Transkrypt
Algorytmy ewolucyjne w globalnej indukcji drzew modelowych
Streszczenie rozprawy doktorskiej Algorytmy ewolucyjne w globalnej indukcji drzew modelowych Marcin Czajkowski Wydział Informatyki Politechnika Białostocka Rozprawa doktorska przygotowana pod kierunkiem: dr hab. inż. Marka Krȩtowskiego, prof. nzw. Białystok 2014 Badania w ramach rozprawy doktorskiej były prowadzone przy wsparciu finansowym: • Narodowego Centrum Badań w ramach projektu PRELUDIUM - decyzja numer: 2013/09/N/ST6/04083; • Wydziału Informatyki Politechniki Białostockiej: grant badawczy W/WI/1/2012 oraz stypendium naukowe; • Unii Europejskiej w ramach Europejskiego Funduszu Społecznego: "Stypendia dla doktorantów kluczem rozwoju woj. podlaskiego" (nr. projektu WND-POKL.08.02.01-20-070/11). 1 Wprowadzenie Kontekst i motywacja pracy Technologie komputerowe dotycza˛ niemal każdego aspektu życia ludzkiego: edukacji, medycyny, transportu, biznesu, badań naukowych i wielu innych. W rezultacie, ogromne ilości danych sa˛ wytwarzane i magazynowane w różnych bazach i hurtowniach danych, a także w innych repozytoriach. Jednym z wcia˛ż aktualnych problemów, z którym boryka si˛e wiele przedsi˛ebiorstw i instytucji, jest ogromna asymetria pomi˛edzy ilościa˛ przechowywanych danych, a zdolnościa˛ ich analizy i efektywnego wykorzystania. Nad rozwiazaniem ˛ tego problemu zastanawiano si˛e już na poczatku ˛ lat 90-tych ubiegłego wieku. Zaproponowano wówczas nowa˛ dziedzin˛e nauki - pozyskiwanie wiedzy z baz danych (ang. knowledge discovery in databases) [12]. Kluczowym elementem procesu pozyskiwania wiedzy jest etap eksploracji danych (ang. data mining) [6], który odpowiada za poszukiwanie nowych, nieznanych i cz˛esto ukrytych powiazań, ˛ wzorców, trendów i potencjalnie użytecznych informacji w danych. Drzewa decyzyjne należa˛ do najbardziej rozpowszechnionych form reprezentacji wiedzy, wydobywanej ze zbiorów danych [17]. Sa˛ one też jedna˛ z najcz˛eściej stosowanych technik prognozowania w eksploracji danych. Swoja˛ popularność zawdzi˛eczaja˛ wysokiej jakości predykcji, a także prostej ich interpretacji i możliwości zastosowania mimo różnych ograniczeń [24]. Drzewa decyzyjne sa˛ najcz˛eściej spotykane w zagadnieniach klasyfikacyjnych, nosza˛ wówczas nazw˛e drzew klasyfikacyjnych. W analizie zagadnień regresyjnych cz˛esto wykorzystywane sa˛ drzewa regresyjne i modelowe, jako interesujace ˛ alternatywy typowych metod statystycznych, takich jak regresja logistyczna, czy klasyczna regresja liniowa [15]. Różnice pomi˛edzy drzewami regresyjnymi, a modelowymi dotycza˛ przede wszystkim sposobu wyznaczenia wartości przewidywanej w liściach drzewa. W drzewach modelowych zwykle dopuszcza si˛e stosowanie lokalnych modeli (np. liniowych), które sa˛ dopasowywane w liściach. Najbardziej popularnym rodzajem drzew sa˛ drzewa jednowymiarowe, czyli takie, których testy w w˛ezłach wewn˛etrznych wykorzystuja˛ tylko jeden atrybut. W przypadku, gdy wi˛ecej niż jedna cecha testowana jest w pojedynczym w˛eźle, mamy wówczas do czynienia z drzewami wielowymiarowymi. Najbardziej popularne z wielowymiarowych drzew sa˛ drzewa skośne (liniowe), bazujace ˛ na hiperpłaszczyznach rozdzielajacych ˛ dane w w˛ezłach wewn˛etrznych. Skonstruowanie optymalnego drzewa decyzyjnego na podstawie zbioru uczacego ˛ jest problemem NP-zupełnym [21]. Dlatego też, drzewa decyzyjne sa˛ najcz˛eściej konstruowane za pomoca˛ algorytmu zst˛epujacego, ˛ b˛edacego ˛ realizacja˛ zasady "dziel i zwyci˛eżaj". Popularność 2 Rysunek 1: Połaczenie ˛ zagadnień badawczych w rozprawie doktorskiej. tej metody wynika z szybkiego działania oraz stosunkowo dobrych wyników. Najwi˛ekszym minusem tej zachłannej strategii jest podejmowanie tylko lokalnie optymalnych decyzji w poszczególnych w˛ezłach drzewa, które nie gwarantuja˛ optymalności całej struktury. Moga˛ wi˛ec powodować wykrycie nieistniejacych ˛ zależności i skomplikowanych reguł decyzyjnych. Rozprawa doktorska dotyczy globalnej indukcji drzew modelowych (Rysunek 1). Autor skoncentrował si˛e na wykorzystaniu algorytmów ewolucyjnych w globalnej indukcji drzew. Algorytmy ewolucyjne (AE) należa˛ do rodziny metod meta-heurystycznych i wykorzystywane sa˛ do rozwiazywania ˛ różnego rodzaju problemów optymalizacyjnych. Schemat działania AE inspirowany jest biologicznym procesem ewolucji. Algorytm przetwarza populacje osobników, które podlegaja˛ różnicowaniu (mutacji i krzyżowaniu) i rywalizuja˛ ze soba,˛ gdyż tylko najlepiej dopasowane osobniki maja˛ szans˛e na przetrwanie. Popularność AE sprawiła, że obecnie [2] pojawiaja˛ si˛e w literaturze rozwiazania, ˛ wykorzystujace ˛ mechanizm EA przy budowie drzew decyzyjnych. Główna˛ motywacja˛ rozprawy doktorskiej jest zaproponowanie alternatywy do zst˛epujacej ˛ indukcji drzew modelowych. Zastosowanie specjalizowanego algorytmu ewolucyjnego, wykorzystujacego ˛ wiedz˛e o generowaniu drzew modelowych, powinno umożliwić bardziej globalna˛ indukcj˛e drzew. Głównym celem rozprawy doktorskiej jest stworzenie zbioru metod, umożliwiajacych ˛ globalna˛ indukcj˛e drzew w problemach regresyjnych. Algorytmy powinny 3 generować rozwiazania, ˛ charakteryzujace ˛ si˛e wysoka˛ dokładnościa˛ predykcji, niewielkim rozmiarem, a także możliwościa˛ zastosowania do różnych problemów. Teza i zadania Rozprawa doktorska zawiera przeglad ˛ oraz zaproponowane przez autora rozwiazania, ˛ zwiazane ˛ z wykorzystaniem AE w globalnej indukcji drzew. Główna teza rozprawy doktorskiej brzmi: Wykorzystanie algorytmów ewolucyjnych do indukcji drzew regresyjnych pozwala na otrzymanie drzew o mniejszym rozmiarze, niż uzyskiwane przez systemy bazujace ˛ na algorytmach zst˛epujacych, ˛ przy przynajmniej porównywalnej jakości predykcji. Zaproponowane zadania, zrealizowane przez autora rozprawy to: — zaproponowanie rodziny algorytmów globalnej indukcji drzew regresyjnych i modelowych różnego typu (jednowymiarowych, skośnych i mieszanych); — zaprojektowanie specjalizowanego algorytmu ewolucyjnego oraz wykorzystanie lokalnego poszukiwania (algorytm memetyczny); — stworzenie rozwiazań, ˛ uwzgl˛edniajacych ˛ różne koszty niedoszacowania i przeszacowania modelu predykcyjnego. Struktura pracy Rozprawa doktorska składa si˛e z pi˛eciu cz˛eści. Rozdziały 1 i 2 zawieraja˛ cz˛eść teoretyczna˛ i dotycza˛ eksploracji danych oraz algorytmów ewolucyjnych. W rozdziale 3 została przedstawiona ogólna koncepcja zaproponowanego systemu do globalnej indukcji drzew modelowych. W kolejnym rozdziale autor rozszerzył opracowane metody o indukcj˛e drzew skośnych, mieszanych oraz czułych na koszt. Eksperymentalna walidacja zaproponowanych rozwiazań ˛ oraz porównanie z innymi metodami znajduje si˛e w rozdziale 5. Całość rozprawy zamyka podsumowanie, wnioski oraz możliwe kierunki przyszłych badań. 1. Drzewa decyzyjne w problemach regresyjnych Pozyskiwanie wiedzy z baz danych [12] to nowa dziedzina nauki z pogranicza sztucznej inteligencji, technologi bazodanowych i statystyki. Proces pozyskiwania wiedzy składa si˛e z kilku faz (Rysunek 2): — wyboru danych do analizy (atrybutów i obiektów), integracji i zdefiniowania zbiorów danych. Zbiory powinny być wystarczajaco ˛ duże, aby móc odkryć wzorce do analizy, a jednocześnie na tyle zwi˛ezłe, aby pozyskać wiedz˛e w akceptowalnym czasie; 4 Ewaluacja i interpretacja Eksploracja danych Wiedza Transformacja Wzorce i modele Wstępne przetwarzanie Dane po transformacji Dane przetworzone Wybór danych Zbiór danych Dziedzina problemu Baza danych Rysunek 2: Etapy procesu pozyskiwania wiedzy z baz danych. — czyszczenia danych i wst˛epnego przetwarzania: usuni˛ecie szumów i wartości odstajacych, ˛ eliminacja lub uzupełnianie wartości brakujacych, ˛ usuni˛ecie niespójnych danych; — transformacji danych do postaci odpowiedniej do eksploracji danych. W ramach tego etapu wykonywana może być również operacja normalizacji i standaryzacji. W celu zredukowania wymiaru wektora danych stosowana jest również selekcja i ekstrakcja cech; — eksploracji danych - najistotniejsza cz˛eść tego procesu - zwiazana ˛ jest z analiza˛ przygotowanych zbiorów danych, pozyskiwaniem zależności i wzorców. Głównymi zadaniami eksploracji danych jest predykcja i opis; — interpretacji - identyfikacja i ocena zależności oraz odkrytych struktur. 1.1. Regresja W rozprawie doktorskiej autor koncentruje si˛e na analizie regresji, która to, obok klasyfikacji, jest najcz˛eściej stosowana˛ technika,˛ wykorzystywana˛ w analizie predykcyjnej. Model regresyjny budowany jest na danych treningowych w taki sposób, aby jak najlepiej estymować wartość zmiennej zależnej y, na podstawie wektora zmiennych niezależnych x. Znaleziony w ten sposób model może być później wykorzystany do oszacowania zmiennej zależnej dla nowych danych, w których wartość y jest nieznana. Zakłada si˛e wówczas, że wartość zmiennej zależnej jest równa: y = f (x) + , 5 (1) gdzie f jest nieznana˛ funkcja,˛ zaś jest miara˛ bł˛edu losowego. Istnieje wiele miar, które oceniaja˛ dopasowanie modelu predykcyjnego. Najcz˛estsze miary bł˛edu, pomi˛edzy wartościa˛ estymowana,˛ a wartościa˛ zmiennej zależnej opieraja˛ si˛e albo na metodzie najmniejszych kwadratów (yi − ŷi )2 , albo na wartościach bezwzgl˛ednej różnicy |yi − ŷi |, gdzie ŷ jest to wartość estymowana i-tej zmiennej zależnej. Najpopularniejsza˛ metoda˛ modelowania relacji pomi˛edzy zmienna˛ zależna,˛ a zmiennymi niezależnymi jest regresja liniowa, która ma postać: f (x) = P X βi ∗ xi + β0 , (2) i=1 gdzie β = [β0 , β1 , ..., βP ] to wektor współczynników modelu regresyjnego. W celu wyznaczenia parametrów regresji liniowej najcz˛eściej wykorzystywana jest metoda najmniejszych kwadratów lub bezwzgl˛ednej różnicy. Problem estymacji parametrów w modelu regresyjnym może być sformułowany jako minimalizacja funkcji straty L(yi , f (xi )), która określa, jak mocno estymowana wartość różni si˛e od zmiennej zależnej. Za symetryczna˛ funkcj˛e straty uznajemy taka˛ funkcj˛e, która dla każdego yi i k spełnia warunek: L(yi + k, f (xi )) = L(yi − k, f (xi )). (3) Symetryczne funkcje straty dominuja˛ zarówno w statystyce, jak i w eksploracji danych. Jednakże problemy, które pojawiaja˛ si˛e w rzeczywistych danych sa˛ cz˛esto niesymetryczne [13]. Przykładem może być problem prognozy zabezpieczenia pożyczek przez banki, w których koszty niedoszacowania zabezpieczeń sa˛ znacznie wyższe niż ich przeszacowanie. Wymagane sa˛ wówczas funkcje, posiadajace ˛ niesymetryczna˛ funkcj˛e strat. Przykładem jest LinEx, zaproponowana przez Variana [27], która po jednej stronie jest liniowa (Lin), zaś po drugiej wykładnicza (Ex). W późniejszych pracach [5] można znaleźć inne niesymetryczne funkcje, takie jak LinLin i QuadQuad. 1.2. Drzewa decyzyjne Drzewa decyzyjne [17] należa˛ do najbardziej rozpowszechnionych form reprezentacji, wiedzy wydobywanej ze zbiorów danych. W analizie zagadnień regresyjnych cz˛esto wykorzystywane sa˛ drzewa regresyjne i modelowe, jako interesujace ˛ alternatywy typowych metod statystycznych, takich jak regresja logistyczna, czy klasyczna regresja liniowa [15]. Różnice pomi˛edzy drzewami regresyjnymi, a modelowymi dotycza˛ przede wszystkim sposobu 6 wyznaczenia wartości przewidywanej w liściach drzewa. W drzewach modelowych zwykle dopuszcza si˛e wykorzystanie lokalnych modeli (np. liniowych), które sa˛ dopasowywane do danych zawartych w liściach. Różnorodność systemów indukujacych ˛ drzewa regresyjne i modelowe na podstawie zbiorów uczacych ˛ jest w pewnym sensie pozorna. Zdecydowana wi˛ekszość metod konstruowania drzew decyzyjnych opiera si˛e na algorytmie indukcji zst˛epujacej ˛ (ang. top-down induction) [23]. Algorytm rozpoczyna si˛e od utworzenia korzenia drzewa, w którym umieszczony jest cały zbiór uczacy. ˛ Sprawdzany jest warunek stopu, i jeśli nie jest on spełniony, to poszukiwany jest test, który w sposób optymalny, z punktu widzenia przyj˛etego kryterium, dzieli obiekty. Jeśli efektywny test nie zostanie znaleziony, bieżacy, ˛ przetwarzany w˛ezeł oznaczany jest jako liść i wyznaczana jest zwiazana ˛ z nim prognoza (w przypadku drzew regresyjnych) lub lokalny model regresyjny (w przypadku drzew modelowych). W przeciwnym wypadku nast˛epuje podział w˛ezła i tworzone sa˛ w˛ezły potomne, do których kierowane sa˛ obiekty na podstawie wyników testu. Proces sprawdzenia warunku stopu, poszukiwania testów i ew. podziału w˛ezła jest nast˛epnie rekurencyjnie powtarzany we wszystkich w˛ezłach potomnych. Należy podkreślić, że jest to strategia zachłanna (ang. greedy), i jak każda metoda heurystyczna, nie gwarantuje otrzymania optymalnego rozwiazania. ˛ Tym niemniej jest ona koncepcyjnie prosta i szybka, a ponadto generowane przy jej użyciu drzewa charakteryzuja˛ si˛e w wi˛ekszości przypadków dobra˛ jakościa˛ predykcji. Istnieje wiele systemów indukcji drzew regresyjnych i modelowych. Jedno z pierwszych tego typu rozwiazań ˛ zostało zaprezentowane w znanej ksia˛żce, opisujacej ˛ system CART (Classification and Regression Tree) [3]. Kolejnym ważnym krokiem było stworzenie drzew modelowych, które rozszerzaja˛ standardowe drzewa regresyjne, dzi˛eki zastapieniu ˛ pojedynczych wartości przypisanych do liści przez bardziej zaawansowane, lokalne modele (np. liniowe). Reprezentatywnymi przykładami tego typu rozwiazań ˛ sa˛ systemy: M5 [26], zaproponowany przez Quinlana, czy RT [25], stworzony przez Torgo. 2. Algorytmy ewolucyjne w indukcji drzew modelowych Algorytmy ewolucyjne (AE) należa˛ do rodziny metod meta-heurystycznych i sa˛ wykorzystywane w zróżnicowanych problemach optymalizacyjnych. Istotna˛ zaleta˛ AE jest wysoka efektywność w unikaniu minimów lokalnych. Mechanizmy zawarte w algorytmach ewolucyjnych, takie jak: mutacja, krzyżowanie i selekcja naturalna inspirowane sa˛ naturalnym procesem ewolucji. 7 Inicjalizacja populacji Ewolucja Zastosowanie operatorów różnicowania Ocena rozwi za w populacji Spe niony warunek stopu? Selekcja osobników z populacji [nie] [tak] Rysunek 3: Ogólny schemat algorytmów ewolucyjnych. 2.1. Ogólny schemat algorytmów ewolucyjnych Ogólny schemat AE przedstawiony jest na Rysunku 3. Proces rozpoczyna utworzenie populacji poczatkowej, ˛ najcz˛eściej w sposób losowy, przy zachowaniu, w miar˛e możliwości, jej zróżnicowania. Pojedynczy osobnik w populacji jest najcz˛eściej zakodowany w konkretnej strukturze danych [20]. W przypadku, gdy reprezentacja osobnika jest ciagiem ˛ binarnym o stałej długości, najprawdopodobniej mamy do czynienia z algorytmem genetycznym [16]. U?ycie reprezentacji, opartej o struktury drzewiaste implikuje wykorzystanie programowania genetycznego [18]. Granica pomi˛edzy tymi dwoma typami AE jest jednak dość umowna i cz˛esto ci˛eżko jednoznacznie przypisać konkretny algorytm do danej grupy. Właściwa p˛etla algorytmu ewolucyjnego rozpoczyna si˛e po inicjalizacji populacji poczatkowej. ˛ Złożona jest ona z różnicowania osobników w populacji, ich oceny oraz selekcji, przy czym kolejność poszczególnych kroków może si˛e różnić w zależności od rodzaju AE. Do oceny rozwiazań ˛ w populacji służy funkcja dopasowania, która jest miara˛ jakości dowolnego osobnika w populacji i pozwala na promowanie najlepszych osobników. Zwykle najłatwiej jest optymalizować tylko jedno kryterium np. bład ˛ w przypadku klasyfikacji. W rzeczywistych problemach mamy jednak wiele miar, cz˛esto rozbieżnych, które musza˛ być optymalizowane. Wówczas mamy do czynienia z wielokryterialna˛ funkcja˛ dopasowania. Operatory genetyczne odpowiadaja˛ za różnicowanie osobników w populacji i inspirowane sa˛ biologiczna˛ ewolucja.˛ Możemy wyróżnić dwa podstawowe operatory, które sa˛ najcz˛eściej wykorzystywane: mutacj˛e i krzyżowanie. Operator krzyżowania powstaje w wyniku reprodukcji - nowy osobnik utworzony jest z cech pochodzacych ˛ z różnych osobników 8 populacji. Operator mutacji działa tylko w obr˛ebie jednego osobnika, w którym wprowadza losowe zmiany. Selekcja wykorzystuje informacj˛e z funkcji dopasowania i przypisuje każdemu osobnikowi prawdopodobieństwo selekcji. Im osobnik jest bardziej przystosowany, tym bardziej prawdopodobne jest wybranie go do kolejnej generacji. Z najcz˛estszych sposobów selekcji osobników możemy wymienić metod˛e ruletki, turniejowa˛ oraz rankingowa˛ [14]. Warunkiem zatrzymania algorytmu ewolucyjnego jest np. brak poprawy średniej osobników w populacji przez zadana˛ liczb˛e kolejnych iteracji AE, osiagni˛ ˛ ecie maksymalnej liczby iteracji itp. 2.2. Globalna vs lokalna indukcja Wykorzystanie strategii zachłannej do generowania drzew prowadzić może do nieoptymalnych decyzji. Wielu autorów zaproponowało różne rozwiazania ˛ w algorytmie konstrukcji drzew regresyjnych i modelowych, tak aby ograniczyć negatywne efekty strategii zachłannej. Jedna˛ z alternatyw jest zastosowanie wielu drzew dla danego zbioru danych, czego przykładem sa˛ lasy losowe (Random Forest) [4], które wspólnie podejmuja˛ decyzj˛e dotyczac ˛ a˛ predykcji. Zaleta˛ tego rozwiazania ˛ jest zmniejszenie bł˛edu predykcji, jednak istotnym minusem jest utracenie możliwości łatwej interpretacji rozwiazania. ˛ Inne podejście zostało zastosowane w algorytmie typu ”look-ahead” (LLRT ) [28], który poszukuje w drzewie modelowym takiego podziału, dla którego modele w wyznaczonych liściach b˛eda˛ miały najwi˛eksza˛ dokładność. Ograniczenie negatywnych efektów strategii zachłannej zostało pokazane również w publikacji SM OT I [19], w której autor rozszerza reprezentacje drzewa przez wprowadzenie dodatkowych modeli regresyjnych w wyższych partiach (nie tylko w liściach), które maja˛ globalny efekt na decyzje drzewa. Rysunek 4 ukazuje prosty przykład, w którym technika zachłanna zawodzi. Po lewej stronie ukazany jest sztucznie wygenerowany zbiór danych, opisany funkcja˛ y(x1 , x2 ). Zbiór danych może być idealnie opisany przez drzewo z dwoma liniowymi modelami regresji pod warunkiem, iż pierwszy podział (w w˛eźle) b˛edzie dla x1 = −2. Zdecydowana wi˛ekszość popularnych metod wykorzystujacych ˛ algorytmy zachłanne do budowy drzewa nie b˛edzie w stanie znaleźć takiego rozwiazania. ˛ Metoda M 5, która liczy odchylenie standardowe, zbuduje test w korzeniu dla x1 = −1.18, zaś metoda CART, która wykorzystuje sum˛e odchyleń kwadratów dla x1 = −0.44. Nieoptymalny podział w korzeniu powoduje nie tylko znaczne zwi˛ekszenie rozmiaru drzewa, lecz również cz˛esto zwi˛eksza bład ˛ predykcji. Drzewo generowane technika˛ globalna˛ (oznaczone jako GM T ) bez problemu znajduje odpowiedni 9 Rysunek 4: Przykłady drzew (po prawej) generowanych indukcja˛ zst˛epujac ˛ a˛ (na przykładzie algorytmu M5) i indukcja˛ globalna˛ na sztucznym wygenerowanym zbiorze danym (po lewej). podział drzewa, dzi˛eki czemu rozmiar drzewa i ilość modeli jest zdecydowanie mniejsza. Po prawej stronie Rysunku 4 zaprezentowane sa˛ wygenerowane drzewa przez algorytm GM T i M 5. Jak widać, nawet na tak prostym zbiorze danych, globalnie konstruowane drzewa maja˛ zdecydowana˛ przewag˛e nad ich zachłannymi odpowiednikami. 2.3. Przeglad ˛ literatury Wykorzystanie algorytmów ewolucyjnych w indukcji drzew decyzyjnych stało si˛e ostatnimi czasy bardzo popularne. W najnowszym przegladzie ˛ literatury z zakresu zastosowania podejścia ewolucyjnego w indukcji drzew decyzyjnych [2], zaprezentowano duża˛ ilość nowych rozwiazań, ˛ co pokazuje, jak aktualne i popularne sa˛ to badania. Zdecydowana wi˛ekszość rozwiazań ˛ dotyczy jednak problemów klasyfikacyjnych, gdyż jest bardzo niewiele metod, które maja˛ zastosowanie w regresji. Jednymi z nielicznych przykładów wykorzystania AE w indukcji drzew regresyjnych i modelowych sa˛ systemy T ARGET [11] i E − M otion [1]. Zaproponowane w nich rozwiazania ˛ w podstawowy i prostolinijny sposób stosuja˛ ewolucje do budowy drzew. Niestety, brak specjalizowanych operatorów, a także nie uwzgl˛ednienie charakterystyki struktur drzewiastych spowodował, że obie metody osiagn˛ ˛ eły przeci˛etne wyniki. 3. Globalna indukcja drzew modelowych W rozprawie doktorskiej autor zaproponował specjalizowany algorytm ewolucyjny do globalnej indukcji drzew modelowych. Zaprojektowany algorytm o nazwie Global Model Tree 10 Inicjalizacja pseudo-losow strategi zach ann populacji z o onej z P osobników Ocena rozwi za w populacji [ spe niony warunek stopu ] Wyg ad najlepszego osobnika [ w przeciwnym wypadku ] Selekcja rankingowa ze strategi elitarn Ró nicowanie populacji i stworzenie nowych osobników Rysunek 5: Ogólny schemat algorytmu GM T . (GM T ) wpisuje si˛e w schemat AE i wykorzystuje oparte na populacji losowe różnicowanie i selekcj˛e. Rysunek 5 przedstawia diagram czynności algorytmu GM T . W poszczególnych jego krokach autor rozprawy starał si˛e właczyć ˛ specyfik˛e drzew modelowych w schemat AE. 3.1. Reprezentacja i inicjalizacja Reprezentacja osobników w populacji algorytmu GM T nie jest zakodowana. Autor wykorzystuje reprezentacj˛e drzewiasta,˛ dzi˛eki czemu wszystkie osobniki przechowywane sa˛ w ich rzeczywistej postaci, która˛ jest klasyczne drzewo modelowe. W˛ezły wewn˛etrzne drzewa moga˛ posiadać jednowymiarowe testy bazujace ˛ na: — atrybutach nominalnych, gdzie z każda˛ gał˛ezia˛ wychodzac ˛ a˛ z w˛ezła zwiazana ˛ jest przynajmniej jedna wartość nominalna (wewn˛etrzna dysjunkcja); — atrybutach ciagłych ˛ - wykorzystywane sa˛ typowe testy nierównościowe z 2 wyjściami. Liście drzewa modelowego moga˛ natomiast zawierać: — wartość średnia˛ zmiennej zależnej z obiektów, które dotarły do tego liścia - mamy wówczas do czynienia z drzewem regresyjnym; — regresj˛e liniowa,˛ która estymuje wartość zmiennej zależnej y na podstawie maksymalnie P zmiennych niezależnych x. Ma ona postać: y = β0 + β1 ∗ x1 + β2 ∗ x2 + . . . + βP ∗ xP , 11 gdzie β to współczynniki modelu regresji liniowej. W celu inicializacji populacji poczatkowej ˛ autor rozprawy wykorzystuje algorytm zst˛epujacy, ˛ wyst˛epujacy ˛ w systemie CART [3] oraz M 5 [26]. Aby zróżnicować i cz˛eściowo zoptymalizować populacj˛e poczatkow ˛ a,˛ drzewa budowane sa˛ na losowo wybranych podzbiorach obiektów, zaś poszukiwanie testów w w˛ezłach wewn˛etrznych odbywa si˛e z losowo wybranych podzbiorów atrybutów. Autor zaproponował 3 strategie poszukiwania testów w w˛ezłach wewn˛etrznych, które bazuja˛ na: — minimalizacji odchylenia standardowego; — minimalizacji sumy kwadratów odchyleń; — przeci˛eciu tzw. "długiego dipola". Metod˛e rozpoczyna losowe wybranie pierwszego obiektu. Nast˛epnie drugi obiekt losowany jest w taki sposób, aby wartość jego zmiennej zależnej była możliwie jak najbardziej różna. Po wybraniu 2 obiektów, budowany jest test na losowym atrybucie tak, aby rozdzielił wylosowane obiekty. 3.2. Operatory różnicowania Istniejace ˛ systemu, które stosuja˛ AE w indukcji drzew, wykorzystuja˛ tylko podstawowe operacje różnicowania i mutacji. Autor rozprawy, poprzez wykorzystanie specyfiki oraz charakterystyki drzew modelowych, zaproponował kilkanaście specjalizowanych wariantów operatorów genetycznych. W krzyżowaniu, wymiana informacji genetycznej pomi˛edzy dwoma osobnikami odbywa si˛e nast˛epujaco. ˛ Na wst˛epie, dwa osobniki wybierane sa˛ w sposób losowy. Nast˛epnie, w każdym osobniku wybierany jest, w zależności od wariantu krzyżowania, jeden badź ˛ dwa w˛ezły (moga˛ być to zarówno w˛ezły wewn˛etrzne, jak i liście). Zmiana kontekstu w krzyżowaniu skutecznie różnicuje osobniki. Należy jednak pami˛etać, że może mieć też destrukcyjny charakter, dlatego też nie należy stosować jej zbyt cz˛esto. W rozprawie, 5 różnych wariantów krzyżowania, zaprezentowanych na Rysunku 7 zostało zastosowanych: — wymiana poddrzew: poddrzewa rozpoczynajace ˛ si˛e w losowo wybranych w˛ezłach wewn˛etrznych sa˛ wymieniane pomi˛edzy dwoma osobnikami; — wymiana gał˛ezi: wszystkie gał˛ezie rozpoczynajace ˛ si˛e w losowo wybranym w˛eźle wewn˛etrznym sa˛ wymieniane w sposób losowy, mi˛edzy dwoma osobnikami (liczba gał˛ezi w obu w˛ezłach musi być identyczna); — wymiana testów: testy zwiazane ˛ z losowo wybranymi w˛ezłami wewn˛etrznymi sa˛ wymieniane (liczba wyników testów w obu w˛ezłach jest identyczna); 12 R o d z i c e Osobnik 1 Osobnik 2 A X B LM1 C Y LM6 D R o d z i c e LM7 LM8 Wymiana poddrzew Osobnik 1 Osobnik 2 A X B LM1 C a) Y LM6 D LM7 LM8 Losowa wymiana ga zi LM2 LM3 LM4 LM5 Osobnik 2 Osobnik 1 A X Wymiana testów B LM1 C Y LM6 D LM7 LM8 LM2 LM3 LM4 LM5 LM2 LM3 LM4 LM5 Krzy owanie P o t o m s t w o R o d z i c e Osobnik 2 A X LM1 Y P o t o m s t w o B LM6 C LM7 LM8 D b) LM2 LM3 LM4 LM5 R o d z i c e Krzy owanie Krzy owanie Osobnik 1 X B LM1 Y LM6 D C LM4 LM5 LM2 LM3 Losowa wymiana ga zi LM7 LM8 c) Osobnik 2 Osobnik 1 A X Y LM1 C LM6 D B LM7 LM8 LM2 LM3 LM4 LM5 X Krzy owanie niesymetryczne biorca B LM1 A P o t o m s t w o Osobnik 2 Osobnik 1 A Osobnik 2 Osobnik 1 Y LM6 biorca skopiowanie poddrzewa C D dawca dawca LM7 LM8 LM2 LM3 LM4 LM5 skopiowanie poddrzewa Krzy owanie d) P o t o m s t w o Osobnik 2 Osobnik 1 A Y LM7 LM8 X B C D D Y LM4 LM5 LM7 LM8 LM2 LM3 LM4 LM5 e) Rysunek 6: Przykłady różnych wariantów krzyżowania w GM T : a) wymiana całych poddrzew; b) losowa wymiana gał˛ezi; c) wymiana testów; d) krzyżowanie niesymetryczne; e) krzyżowanie z najlepszym osobnikiem. — asymetryczne: każdy z osobników wybiera po 2 w˛ezły: biorc˛e i dawc˛e. W˛ezeł biorcy pierwszego osobnika zostanie zastapiony ˛ przez w˛ezeł dawcy drugiego osobnika i odwrotnie (w˛ezeł dawcy pierwszego osobnika zastapi ˛ w˛ezeł biorcy drugiego). Ponieważ w˛ezeł dawcy jest dublowany, powinien mieć on relatywnie mniejszy średni bład ˛ predykcji. Natomiast w˛ezeł biorcy, który jest zast˛epowany, powinien mieć wysoka˛ wartość bł˛edu. Przy wyborze w˛ezłów, autor wykorzystał mechanizm analogiczny do selekcji rankingowej; — z najlepszym osobnikiem: krzyżowanie modyfikuje tylko jednego osobnika, który zast˛epuje, z wyższym prawdopodobieństwem, swoje słabsze poddrzewo przez losowo wybrane poddrzewo, najlepszego znalezionego do tej pory osobnika w populacji. Mutacja osobnika w populacji polega na modyfikacji tylko jednego w˛ezła w drzewie. Wybierajac ˛ w˛ezeł do mutacji, należy jednak uwzgl˛ednić fakt, iż zmiana w˛ezła w górnej cz˛eści drzewa ma globalny wpływ na całe drzewo, zaś modyfikacja liścia lub w˛ezła w dolnej partii drzewa powoduje tylko lokalne zmiany w predyktorze. Dlatego też, autor zastosował selekcj˛e rankingowa˛ do wyboru w˛ezła, który zostanie zmutowany. Obejmuje ona dwa czynniki: lokalizacj˛e w˛ezła w drzewie (w˛ezły z wyższych poziomów mutowane sa˛ rzadziej) oraz średni bład ˛ (gorsze w˛ezły mutowane sa˛ cz˛eściej). 13 R o d z i c e Osobnik 1 Osobnik 2 A X B LM1 C Y LM6 D R o d z i c e LM7 LM8 Wymiana poddrzew Osobnik 1 Osobnik 2 A X B LM1 C D a) R o d z i c e LM7 LM8 Losowa wymiana ga zi LM2 LM3 LM4 LM5 LM2 LM3 LM4 LM5 Krzy owanie P o t o m s t w o Y LM6 Krzy owanie Osobnik 1 Osobnik 2 A X Y LM1 B LM6 C LM7 LM8 D b) LM2 LM3 LM4 LM5 Osobnik 1 Osobnik 2 A X R o d z i c e Wymiana testów B LM1 C Y LM6 D P o t o m s t w o LM7 LM8 LM2 LM3 LM4 LM5 Osobnik 1 Osobnik 2 A X D C LM4 LM5 LM2 LM3 B LM1 Y LM6 Losowa wymiana ga zi LM7 LM8 Osobnik 2 Osobnik 1 A biorca B LM1 X Krzy owanie niesymetryczne Y LM6 biorca skopiowanie poddrzewa C D dawca dawca LM7 LM8 LM2 LM3 LM4 LM5 skopiowanie poddrzewa Krzy owanie c) P o t o m s t w o Krzy owanie Osobnik 1 Osobnik 2 A X Y LM1 C LM6 D B LM7 LM8 LM2 LM3 LM4 LM5 d) P o t o m s t w o Osobnik 1 Osobnik 2 A X B Y LM7 LM8 C D D Y LM4 LM5 LM7 LM8 LM2 LM3 LM4 LM5 e) Rysunek 7: Przykłady różnych wariantów krzyżowania w GM T : a) wymiana całych poddrzew; b) losowa wymiana gał˛ezi; c) wymiana testów; d) krzyżowanie niesymetryczne; e) krzyżowanie z najlepszym osobnikiem. 14 Autor zaproponował zaawansowane warianty mutacji, a także uwzgl˛ednił w nich metody lokalnego przeszukiwania (algorytmy memetyczne). Warianty mutacji zależa˛ od typu wybranego w˛ezła (w˛ezeł wewn˛etrzny lub liść) i dotycza: ˛ — zmiany struktury drzewa: przycinanie w˛ezła w liść, rozbudowa liścia, przycinanie wewn˛etrzne; — zmiany testu w w˛eźle wewn˛etrznym: przesuni˛ecie progu testu ciagłego; ˛ przegrupowanie wartości atrybutów nominalnych; zmiana testu na losowy, wybrany strategia˛ dipolowa˛ lub zachłanna; ˛ — zmiany modeli w liściach: dodanie, usuni˛ecie i losowa wymiana atrybutów; — wykorzystanie metod lokalnego przeszukiwania: lokalna optymalizacja testów w w˛ezłach wewn˛etrznych; optymalizacja modeli w liściach. 3.3. Funkcja dopasowania i selekcja Funkcja dopasowania steruje procesem symulowanej ewolucji i jest jednym z najbardziej istotnych i czułych elementów AE. W systemie GM T autor zaproponował wykorzystanie w ramach funkcji dopasowania metody optymalizacji wielokryterialnej. Podczas poszukiwania optymalnego drzewa modelowego, dwa elementy powinny być wzi˛ete pod uwag˛e. Pierwszy, to bład ˛ średniokwadratowy drzewa, liczony na danych treningowych. Drugi, to złożoność predyktora, w skład której wchodzi wielkość drzewa, a także rozmiar modelów liniowych w liściach. Dwie popularne techniki optymalizacji wielokryterialnej zostały zaadaptowane, mianowicie: metoda ważonej sumy, oparta na Bayesowskim kryterium informacyjnym [22], a także technika leksykograficzna. W procesie reprodukcji osobników, którzy utworza˛ nowa˛ populacj˛e wykorzystano algorytm selekcji, oparty o liniowa˛ selekcj˛e rankingowa.˛ Autor zastosował również strategi˛e elitarna,˛ która każdorazowo dołacza ˛ do tworzonej, nowej populacji najlepszego, jak dotad ˛ osobnika. Ewolucyjna indukcja kończy si˛e, gdy wartość dopasowania najlepszego osobnika nie zmienia si˛e przez zadana˛ liczb˛e iteracji, badź ˛ osiagni˛ ˛ eto jej maksymalna˛ liczb˛e. 3.4. Metody wygładzania (smoothing) Po zakończeniu ewolucji, najlepszy znaleziony osobnik jest wygładzany. Proces ten zaproponowany został w algorytmie zachłannym M 5 [26]. Wymaga on wygenerowania modelów liniowych dla każdego w˛ezła wewn˛etrznego w drzewie. Wygładzanie pozwala na modyfikacj˛e predykcji, podj˛etej w liściu przez nowo wygenerowane modele, znajdujace ˛ si˛e na ścieżce pomi˛edzy liściem, a korzeniem. Rysunek 8 przedstawia proces wygładzania 15 Rysunek 8: Przykład wygładzania drzewa dla testowanego obiektu, który dotarł do liścia zawierajacego ˛ model LM 4. wyznaczonej wartości predykcji przez model LM 4 dla testowanego obiektu. Z rysunku widać, iż nowo utworzony model LM 5 w w˛eźle wewn˛etrznym, a nast˛epnie model LM 6 w korzeniu, ma wpływ na ostateczna˛ wartość predykcji. 4. Rozszerzenia globalnej indukcji drzew modelowych Reprezentacja osobników w populacji algorytmu GM T oparta na jednowymiarowych drzewach modelowych ma pewne ograniczenia. Dlatego też, autor zaproponował system oblique Global Model Tree (oGM T ), w którym rozszerzył istniejac ˛ a˛ reprezentacj˛e drzewa poprzez zastosowanie testów skośnych w w˛ezłach wewn˛etrznych. Poszukiwanie hiperpłaszczyzny, wykorzystywanej przy podziale w˛ezła zostało właczone ˛ w algorytm ewolucyjny. Zaproponowane przez autora nowe warianty operatora mutacji maja˛ za zadanie modyfikacj˛e współczynników (wag) hiperpłaszczyzny tak, aby jak najlepiej podzieliła dane. Zmiana reprezentacji wymagała również zmiany funkcji dopasowania. Jako, że testy skośne sa˛ bardziej skomplikowane, niż testy jednowymiarowe, zostały one właczone ˛ w złożoność predyktora, który jest optymalizowany przez funkcj˛e dopasowania. Kolejne rozszerzenie algorytmu GM T jest również zwiazane ˛ z reprezentacja.˛ Autor zaproponował uelastycznienie dotychczasowej reprezentacji drzew poprzez zintegrowanie algorytmów poszukiwania drzew jednowymiarowych, wielowymiarowych, regresyjnych i modelowych. Stworzone w ten sposób drzewo mieszane, samodzielnie dopasuje reprezentacj˛e drzewa (w˛ezłów wewn˛etrznych i liści) do specyfiki aktualnie analizowanego zbioru danych. System, nazwany mixed Global Model Tree (mGM T ), może generować drzewa zawierajace ˛ 16 test skośny x1-2*x2 > 1 y=4 x1>3 test jednowymiarowy liść regresyjny y = 2*x1 + 3 y = 8.2 liść modelowy Rysunek 9: Przykład drzewa z mieszana˛ reprezentacja˛ wygenerowanego przez system mGM T . w˛ezły z testami jednowymiarowymi i skośnymi oraz liście regresyjne i modelowe. Przykładowa˛ reprezentacj˛e drzewa mieszanego przedstawia Rysunek 9. Trzecie i zarazem ostatnie rozszerzenie algorytmu GM T umożliwia uwzgl˛ednienie kosztów bł˛ednej predykcji przy indukcji drzewa. Autor zaimplementował różne funkcje kosztów tj. LinLin, QuadQuad, które umożliwiaja˛ poszukiwanie rozwiazań, ˛ gdy koszty niedoszacowania i przeszacowania sa˛ różne. Zaproponowane zostały nowe warianty operatorów mutacji, które minimalizuja˛ koszta, m.in.: poprzez przesuwanie i modyfikowanie modeli liniowych w liściach. Również funkcja dopasowania została zmodyfikowana tak, aby uwzgl˛edniać koszta i promować te osobniki, u których sa˛ one najmniejsze. 5. Eksperymentalna walidacja zaproponowanych rozwiaza ˛ ń Wszystkie zaproponowane przez autora rozwiazania ˛ zostały zaimplementowane w j˛ezyku C++ w środowisku wielo-platformowym. Eksperymentalna walidacja i analiza porównawcza algorytmów przeprowadzona została na sztucznych i rzeczywistych zbiorach danych. Lista przeprowadzonych eksperymentów przedstawiona jest w Tabeli 1. 5.1. Tuning i ewaluacja W ramach ewaluacji proponowanych rozwiazań, ˛ autor rozprawy zbadał wszystkie elementy składowe systemu GM T . Przetestowano wpływ reprezentacji na jakość predykcji i złożoność drzew. Zweryfikowano strategi˛e wyboru testów przy tworzeniu populacji poczatkowej. ˛ Przetestowane zostały dwie funkcje dopasowania, a także zasadność stosowania wygładzania po ewolucji. Wpływ poszczególnych operatorów genetycznych został również zbadany pod katem ˛ ich ważności (wpływu na wynik) oraz szybkości działania. Tuning parametrów systemu GM T obejmował ustawienie cz˛estości wykonania mutacji i krzyżowania. Opracowano również, jak cz˛esto poszczególne warianty operatorów 17 Eksperymenty Ilość zbiorów danych Ilość algorytmów Testowane elementy Tuning i ewaluacja 2 1 wszystkie elementy składowe algorytmu ewolucyjnego GMT vs Top Down 26 9 error, czas, rozmiar drzewa i modeli w liściach GMT vs drzewa generowane przez AE 8 6 2 rodzaje bł˛edów, rozmiar drzewa Drzewa skośne i mix 24 5 bład, ˛ rozmiar drzewa, ilość atrybutów w w˛ezłach GMT z uwzgl˛ednieniem kosztów 26 6 bład ˛ (koszt), rozmiar drzewa i modeli w liściach Tablica 1: Lista przeprowadzonych eksperymentów w ramach rozprawy doktorskiej. genetycznych powinny być uruchamiane. Dodatkowo, eksperymentalnie określono parametry i wagi w funkcjach dopasowania. 5.2. Global Model Tree vs algorytmy zst˛epujace ˛ Zaproponowane rozwiazania ˛ zostały porównane do konkurencyjnych systemów, generowanych technika˛ zachłanna˛ na 26 rzeczywistych zbiorach danych (zbiory od 1 000 do 180 000 obiektów i od 5 do 40 atrybutów). Przetestowano algorytmy: — analogiczne do GM T systemy z indukcja˛ zst˛epujac ˛ a: ˛ M 5 i RepT ree (REP ); — metody uczenia zespołowego: Random Model Trees (RM T ), Bagging (BO) i Boosting (BO) z algorytmem M 5; — inne popularne metody wykorzystywane w regresji: Linear Regression (LR), Optimised Gaussian Process Regression (GP R), Bagged Additive Groves of Trees (AG). Pomi˛edzy GM T , a testowanymi algorytmami wystapiły ˛ istotne różnie. W analizie statystycznej użyto test Friedmana i Dunna do porównania wielu zbiorów. Tabela 2 przedstawia statystycznie istotne różnice pomi˛edzy algorytmami. Analizujac ˛ wyniki w tabeli widać, że zaproponowane rozwiazanie ˛ generuje drzewa, które sa˛ nie tylko dokładniejsze i mniejsze, niż drzewa generowane metoda˛ zachłanna,˛ ale i stanowia˛ konkurencj˛e dla bardziej złożonych metod tj. Boosting, czy Bagging [8, 10]. Niewatpliw ˛ a˛ wada˛ zaproponowanych rozwiazań ˛ jest czas indukcji drzewa, który jest wi˛ekszy, niż we wszystkich testowanych systemach. 18 Algorytm RM AE GM T vs RM T GP R AG BG BO REP M5 LR Czas Rozmiar drzewa Rozmiar liścia - + + + + + + + - + + + + + + + · + · + · + + + Tablica 2: Różnice statystyczne pomi˛edzy algorytmami. GM T jest statystycznie lepsze gdy jest znak "+", statystycznie gorsze gdy jest znak "−", brak istotnych różnic gdy "·". 5.3. Global Model Tree vs drzewa ewolucyjne Eksperymenty porównawcze przeprowadzono na 8 zbiorach danych. Autor porównał wyniki z konkurencyjnym algorytmem E − M otion, który również wykorzystuje AE przy indukcji drzew. Dokonano tak?e porównania z algorytmem bGM T , który jest podstawowa˛ (niespecjalizowana) ˛ wersja˛ algorytmu GM T . Przetestowano działanie 2 funkcji dopasowania, opartych na technice ważonej (GM T ) i leksykograficznej (GM T Lex). Z przetestowanych algorytmów najlepiej poradził sobie system GM T , który na cz˛eści zbiorów był statystycznie lepszy, niż pozostałe metody pod wzgl˛edem dokładności predykcji. Dodatkowo, zaproponowane rozwiazanie ˛ nigdy nie było gorsze od innych algorytmów. Z przeprowadzonych eksperymentów zaobserwować można zdecydowanie pozytywny wpływ zastosowania specjalizowanych operatorów genetycznych, a także innych elementów wykorzystujacych ˛ specyfik˛e indukcji drzew modelowych i właczonych ˛ w proces ewolucji [10]. 5.4. Drzewa skośne i mieszane Walidacja wpływu reprezentacji drzewa na jego dokładność predykcji oraz rozmiar (ilość liści, rozmiar w˛ezłów wewn˛etrznych oraz modeli w liściach), została przeprowadzona na 16 sztucznie wygenerowanych i 8 rzeczywistych zbiorach danych. Autor rozprawy porównał działanie 5 algorytmów: — univariate Global Regression Tree (uGRT ); — univariate Global Model Tree (oGRT ); — oblique Global Regression Tree (oGRT ); — oblique Global Model Tree (oGM T ); 19 — mix Global Regression Tree (mGM T ). Analiza porównawcza algorytmów wykazała, że reprezentacja mieszana pozwala na uzyskiwanie najlepiej dopasowanych do danych drzew. Wykorzystanie testów skośnych w w˛ezłach wewn˛etrznych zbiorach cz˛esto poprawia wyniki. Minusem tego rozwiazania ˛ jest znacznie dłuższy czas poszukiwania drzewa, co jest szczególnie widoczne w algorytmach oGRT i oGM T [9]. Zastosowanie wyłacznie ˛ prostej reprezentacji tak jak w przypadku algorytmu uGRT jest zdecydowanie szybsze, jednak może powodować słabe dopasowanie si˛e drzewa do danych i w konsekwencji powstanie zbyt dużych drzew. Wykorzystanie reprezentacji mieszanej, która sama dopasowuje si˛e do analizowanego zbioru danych, pozwala uniknać ˛ tych problemów. Algorytm mGM T jest nie tylko szybki, ale i pozwala na generacj˛e niewielkich i dokładnych drzew decyzyjnych z mieszana˛ reprezentacja.˛ 5.5. Uwzgl˛ednienie kosztów predykcji W ramach przeprowadzonych eksperymentów autor dokonał kompleksowej analizy problemu prognozy zabezpieczenia pożyczek przez banki. Problem ten nie jest symetryczny, to znaczy koszty niedoszacowania zabezpieczeń sa˛ znacznie wyższe, niż ich przeszacowania. 26 zbiorów danych, zawierajacych ˛ informacj˛e o instytucjach finansowych w USA w latach 2004-2010 zostało przebadanych. Każdy zbiór zawierał około 8 000 instytucji opisanych 14 atrybutami. Analiza porównawcza została przeprowadzona z popularnymi algorytmami, które zostały stuningowane tak, aby mogły działać przy niesymetrycznych kosztach. Przebadano wpływ różnych ustawień kosztów, a także 2 funkcje straty: LinLin oraz QuadQuad. Algorytm CGM T zdołał zmniejszyć od 44.6% do 99.9% koszty (bład), ˛ w porównaniu do konkurencyjnych rozwiazań. ˛ Dodatkowo, zaproponowane rozwiazanie ˛ pozwala na generowanie prostych modeli mogacych ˛ mieć bezpośrednie zastosowanie [7]. 6. Wnioski końcowe i kierunki przyszłych badań Teza postawiona na poczatku ˛ rozprawy doktorskiej została dowiedziona. Wykorzystanie specyfiki drzew w projektowaniu algorytmu ewolucyjnego ma istotny (pozytywny) wpływ na uzyskiwane wyniki, zarówno pod wzgl˛edem jakości predykcji, jak i otrzymania zdecydowanie mniejszych (prostszych) drzew. Zaproponowana rodzina rozwiazań ˛ dużo skuteczniej potrafi wykryć struktur˛e i zależności w danych. Dzi˛eki zastosowaniu mieszanej reprezentacji, algorytm ewolucyjny jest w stanie automatycznie dobrać optymalna˛ reprezentacj˛e testów w w˛ezłach wewn˛etrznych 20 (jednowymiarowe, skośne) oraz reprezentacj˛e w liściach (regresyjna, modelowa) w poszczególnych cz˛eściach drzewa do analizowanego problemu. Możliwość uwzgl˛ednienia kosztów podczas indukcji drzewa pozwala z kolei na otrzymanie dokładniejszego i mniejszego predyktora, w porównaniu do konkurencyjnych rozwiazań. ˛ Istnieje wiele dalszych możliwości badawczych, zwiazanych ˛ z globalna˛ indukcja˛ drzew modelowych. Zaproponowanie wykorzystania obliczeń równoległych pozwoliłoby skrócić czas indukcji drzewa. Adaptacyjna aktywacja wariantów operatorów różnicowania, a także wygładzanie drzew w trakcie ewolucji pozwoliłoby poprawić odkrywanie zależności i przyspieszyć zbieżność AE. Rozważyć można by również opracowanie wielokryterialnej optymalizacji opartej na Parego. Literatura [1] Barros, R.C., Ruiz, D.D., Basgalupp, M.: Evolutionary model trees for handling continuous classes in machine learning. Information Sciences 181 (2011) 954–971. [2] Barros, R.C., Basgalupp, M.P., Carvalho, A.C., Freitas, A.A.: A survey of evolutionary algorithms for decision-tree induction. IEEE Transactions on Systems Man and Cybernetics Part C Applications and Reviews 42(3) (2012) 291–312. [3] Breiman, L., Friedman, J., Olshen, R., Stone C.: Classification and regression trees, Wadsworth Int. Group (1984). [4] Breiman, L.: Random forests. Machine Learning 45(1) (2001) 5–32. [5] Cain, M., Janssen,C.: Real estate price prediction under asymmetric loss. Annals of the Institute of Statistical Mathematics 47(3) (1995) 401–414. [6] Cios, K., Pedrycz, W., Swiniarski R., Kurgan L.: Data mining. A knowledge discovery Aapproach. Springer (2007) [7] Czajkowski, M., Czerwonka, M., Kretowski, M.: Cost-sensitive extensions for global model trees. Application in loan charge-off forecasting, In Proc. of ICSS, Advances in Intelligent Systems and Computing 400 (2014) 315–324. [8] Czajkowski, M., Kretowski, M.: An evolutionary algorithm for global induction of regression and model trees. International Journal of Data Mining, Modelling and Management 5(3) (2013) 261–276. [9] Czajkowski, M., Kretowski, M.: Global induction of oblique model trees: an evolutionary approach, In Proc. of ICAISC’13. Lecture Notes in Artificial Intelligence 7895 (2013) 1–11. [10] Czajkowski, M., Kretowski, M., Evolutionary induction of global model trees with specialized operators and memetic extensions, Information Sciences 288 (2014) 153–173. 21 [11] Fan, G., Gray, J.B.: Regression tree analysis using target. Journal of Computational and Graphical Statistics 14(1) (2005) 206–218. [12] Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., Uthurusamy R., (Eds.): Advances in knowledge discovery and data mining. AAAI Press, (1996). [13] Granger, C.W.J.: Forecasting in business and economics, 2nd ed. Academic Press, New York (1989). [14] Hancock, P.J.B.: An empirical comparison of selection methods in evolutionary algorithms. Lecture Notes in Computer Science 865 (1994) 80–94. [15] Hastie,T., Tibshirani, R., Friedman, J.: The elements of statistical learning. Data mining, inference, and prediction. 2nd edn. Springer (2009). [16] Holland J.: Genetic algorithms, Scientific American (1992) 44–50. [17] Kotsiantis, S.B.: Decision trees: a recent overview. Artificial Intelligence Review, Springer Netherlands 39 (2013) 261–283. [18] Koza, J.R.: Genetic programming: on the programming of computers by means of natural selection. MIT Press (1992). [19] Malerba, D., Esposito, F., Ceci, M., Appice, A.: Top-down induction of model trees with regression and splitting nodes. IEEE Transaction on Pattern Analysis and Machine Intelligence 26(5) (2004) 612–625. [20] Michalewicz, Z.: Genetic algorithms + data structures = evolution programs. 3rd edn. Springer (1996). [21] Murthy, S.: Automatic construction of decision trees from data: A multi-disciplinary survey. Data Mining and Knowledge Discovery 2 (1998) 345–389. [22] Schwarz, G.: Estimating the dimension of a model. The Annals of Statistics 6 (1978) 461–464. [23] Rokach, L., Maimon, O.Z.: Top-down induction of decision trees classifiers - a survey. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 35(4) (2005) 476–487. [24] Rokach, L., Maimon, O.Z.: Data mining with decision trees: theory and application. Machine Perception Arfitical Intelligence 69 (2008). [25] Torgo, L., Ribeiro, R.: Precision and recall for regression. In Proc. of Discovery Science, Berlin, Heidelberg (2009) 332–346. [26] Quinlan, J.R.: Learning with continuous classes. In Proc. of AI’92, World Scientific, (1992) 343–348. [27] Varian, H.R.: A bayesian approach to real estate assessment, Studies in Bayesian Econometrics and Statistics: In honor of L.J. Savage (North-Holland), Amsterdam (1974) 195–208. [28] Vogel, D., Asparouhov, O., Scheffer, T.: Scalable look-ahead linear regression trees. In Proc. of ACM SIGKDD’13 ACM Press New York (2007) 757–764. 22