Training algorithm

Transkrypt

Training algorithm
Zespół uczenia maszynowego
Katedra Systemów i Sieci
Komputerowych
http://www.kssk.pwr.edu.pl/zespoluczenia-maszynowego
Co robimy
•
•
•
•
•
•
•
•
•
•
•
uczenie maszyn i eksploracja danych
metody poprawy jakości i stabilizacja klasyfikatorów słabych
złożone i hybrydowe metody rozpoznawania obiektów
fuzja informacji i klasyfikatory kombinowane
klasyfikacja danych strumieniowych oraz detekcja zmian
parametrów modelu klasyfikacji
analiza dużych zbiorów danych
klasyfikacja jednoklasowa
analiza danych niezbalansowanych
uczenie aktywne
rozproszone i równoległe systemy obliczeniowe na potrzeby
eksploracji danych
aplikacje metod inteligentnych dla problemów praktycznych
Pracownicy
• dr hab. inż. Michał Woźniak, prof. PWr – uczenie maszynowe, klasyfikacja
kombinowana, analiza dużych zbiorów danych i strumieni danych
• dr hab. inż. Robert Burduk – klasyfikacja, systemy hybrydowe
• dr inż. Konrad Jackowski – klasyfikacja danych strumieniowych, klasyfikacja
kombinowana, selekcja klasyfikatorów (AdaSS), metody regresji
• mgr inż. Dariusz Jankowski – ewolucyjne metody uczenia drzew decyzyjnych
• mgr inż. Mariusz Kozioł – rozproszone i równoległe systemy obliczeniowe na
potrzeby uczenia drzew wielowymiarowych
Doktoranci
mgr inż. Bartosz Kurlej – uczeni aktywne, klasyfikacja danych strumieniowych
mgr inż. Bartosz Krawczyk – uczenie jednoklasowe, analiza danych
niezbilansowanych, klasyfikacja kombinowana
mgr inż. Paweł Ksieniewicz – analiza, wizualizacja i sonifikacja danych
wielowymiarowych, analiza obrazów nadwidmowych
mgr inż. Piotr Sobolewski – klasyfikacja danych strumieniowych, detekcja zamian
parametrów modelu klasyfikacji
Obszary badawcze











uczenie maszyn i eksploracja danych
metody stabilizacji i poprawy jakości klasyfikatorów słabych
złożone i hybrydowe metody rozpoznawania obiektów
fuzja informacji i klasyfikatory kombinowane
klasyfikacja danych strumieniowych oraz detekcja zmian parametrów modelu
klasyfikacji
analiza dużych zbiorów danych
klasyfikacja jednoklasowa
analiza danych niezbalansowanych
uczenie aktywne
rozproszone i równoległe systemy obliczeniowe na potrzeby eksploracji
danych
aplikacje metod inteligentnych dla problemów praktycznych
dr inż. Konrad Jackowski
[email protected]
http://www.kssk.pwr.wroc.pl/jackowski
Adaptacyjne algorytmy uczenia maszynowego
•
Obszary pracy badawczej
–
Złożone systemy rozpoznawania obrazów i podejmowania decyzji w warunkach wystąpienia
zmienności charakterystyk danych (concept drift)
• Algorytmy detekcji Concept driftu
• Algorytmy adaptacji do zmiennych warunków charakterystyk danych
–
•
Przetwarzanie danych strumieniowych
Złożone systemy rozpoznawania
–
Eksploracja lokalnej kompetencji klasyfikatorów elementarnych
–
Przechowywanie wiedzy o występujących stanach (concept) w puli klasyfikatorów
elementarnych
–
Uzależnienie wkładu klasyfikatora elementarnego w podejmowaniu decyzji od:
• Poziomu lokalnej kompetencji
• Aktualności wiedzy
–
Podział przestrzeni cech na obszary kompetencyjne
–
Ważona fuzja funkcji dyskryminujących
Adaptacyjne algorytmy uczenia maszynowego
•
Detekcja dryftu
– Detekcja oparta na monitorowaniu efektywności klasyfikacji
– Metody statystyczne
– Metody oparte o algorytmy grupowania
•
Adaptacja do zmiennych warunków pracy – ewolucyjna adaptacja modelu systemu
– Korekta pozycji i rozmiaru obszarów kompetencyjnych
– Selekcja grupy klasyfikatorów z puli
– Korekta wag związanych z klasyfikatorami
– Trenowanie nowych klasyfikatorów
Adaptacyjne algorytmy uczenia maszynowego
•
Algorytmy uczenia
– Traktowanie procesu uczenia jako złożonego problemu optymalizacyjnego
– Kryterium optymalizacji – minimalizacja błędu klasyfikacji systemu
– Zmienne:
• Skład komitetu głosującego
• Obszary kompetencyjne
• Wagi klasyfikatorów
– Wykorzystanie algorytmów ewolucyjnych
– Alternatywne algorytmy optymalizacyjne
mgr inż. Piotr Sobolewski
[email protected]
http://www.kssk.pwr.wroc.pl/sobolewski
Zmiana parametrów modelu klasyfikacji
• Zmiana parametrów modelu klasyfikacji – zmiana ukrytej cechy obiektów
powodująca zmianę zasad przyporządkowywania klas do próbek, a w
efekcie spadek skuteczności niezabezpieczonego systemu klasyfikującego
Zabezpieczanie systemu klasyfikującego
• Wczesne wykrywanie zmian parametrów modelu klasyfikacji
• Detektor – element niezależny lub będący częścią systemu klasyfikacji,
algorytm odpowiedzialny za wykrywanie zmian parametrów modelu
klasyfikacji
Metody wykrywania zamian parametrów modelu klasyfikacji
• Wykorzystujące wiedzę eksperta - zakładają dostęp do etykietowanych
danych po klasyfikacji:
– Analiza skuteczności systemu klasyfikującego
– Porównywanie rozkładów klas w przestrzeni cech
• Niezależne od wiedzy eksperta - ograniczają się do analizy danych
nieetykietowanych:
– Statystyczne porównywanie wektorów cech kolejnych próbek lub
okien danych
– Okresowość zmian oraz momenty wystąpienia próbek w strumieniu
danych
– Poziomy wsparcia klasyfikatorów
Metody wykrywania zamian parametrów modelu klasyfikacji
• Algorytmy oparte o założenie mozliwości powtarzania poprzednich stanów
modelu klasyfikacji:
– Większe możliwości dzięki wykorzystaniu klasyfikatorów
wytrenowanych na poprzednich stanach modelu
– Wsparcie klasyfikatorów odpowiadających danym stanom modelu
– Ograniczenie: przeznaczone dla niewielkiej grupy problemów
Badania
• Uniwersalizacja algorytmów klasyfikacji danych strumieniowych
przeznaczonych dla problemów z powtarzaniem stanów modelu poprzez
sztuczne symulowanie zmian parametrów modelu klasyfikacji
• Symulowane stany modelu traktowane jak stany, które wystąpiły w
przeszłości
• Symulowanie stanów dla istniejących algorytmów klasyfikacji znacząco
zwiększyło ich skuteczność
• Wykorzystanie popularnych testów statystycznych (KS, WW, T2, CNF, WCX)
w celu wykrywania zmian parametrów modelu klasyfikacji
Badania – cele pracy
• Stworzenie skutecznego algorytmu wykrywającego zmiany parametrów
modelu klasyfikacji bez potrzeby dostępu do kosztownej wiedzy eksperta
• Cel poboczny - opracowanie uniwersalnej metody porównywania i
oceniania skuteczności algorytmów detekcji zmian parametrów modelu
klasyfikacji
dr hab. inż. Robert Burduk
[email protected]
http://www.kssk.pwr.wroc.pl/burduk
Obszary zainteresowań badawczych
• Wykorzystanie nieprecyzyjnego opisu cech obiektu reprezentowanego
przez teorię zbiorów rozmytych oraz jej rozszerzenia w złożonych i prostych
zadaniach rozpoznawania
– Nurt ten związany jest z rozszerzeniem tematyki doktoratu, w którym
wykorzystany był model probabilistyczno-rozmyty do złożonego
problemu rozpoznawania
• Wykorzystanie pewnych miar różnorodności w celu przebudowy struktury
drzewa decyzyjnego, które w pewnych zadaniach rozpoznawania może być
podane przez ekspertów
– Nurt ten związany również z rozszerzeniem koncepcji złożonego
zadania rozpoznawania wykorzystanego w doktoracie
Obszary zainteresowań badawczych
• Wykorzystanie zbiorów przedziałowo rozmytych
w systemach
wieloklasyfikatorowych
– Definicja wag w algorytmach boostingowych, które mogą być
interpretowane w kontekście tej teorii
– Statyczna oraz dynamiczna selekcja klasyfikatorów, w której kryterium
selekcji wykorzystuje poprawność oraz niepoprawność klasyfikatora
składowego
– Dobór wag dla klasyfikatorów wchodzących w skład komitetu
klasyfikatorów, w którym zdefiniowana jest górna i dolna funkcja
odpowiedniej wagi klasyfikatora bazowego
mgr inż. Dariusz Jankowski
[email protected]
http://www.kssk.pwr.wroc.pl/jankowski
Drzewa decyzyjne
x+y<8
-
Drzewo decyzyjne dla problemu
„Golf” [Quinlan, 1993]
+
Przykładowa przestrzeń danych z granicami
decyzyjnymi dla drzew jednowymiarowych i
wielowymiarowych (skośnych)
[Brodley,Ugotoff, 1995]
Algorytmy ewolucyjne
Populacja
Zakończenie
Inicjalizacja
Sukcesja
Potomstwo
Rodzice
Reprodukcja
Ewolucyjne metody uczenia drzew
decyzyjnych w zmiennym
środowisku
?
?
?
mgr inż. Bartosz Krawczyk
[email protected]
http://www.kssk.pwr.wroc.pl/krawczy
k
Klasyfikacja jednoklasowa
Metody budowy komitetów klasyfikatorów jednoklasowych:
• Nowe miary różnorodności i kompetencji dedykowane selekcji klasyfikatorów
jednoklasowych do komitetu.
• Modyfikacje metod baggingu, boostingu i podprzestrzeni losowych dedykowane
klasyfikacji jednoklasowej.
• Budowanie komitetów jednoklasowych na bazie klasteryzacji klasy celu, metody
automatycznego dostosowywania kształtów klastrów do dostępnej puli
klasyfikatorów.
• Zastosowanie klasyfikatorów jednoklasowych jako narzędzia do dekompozycji
problemów wieloklasowych.
• Tworzenie komitetów ważonych i rozmytych klasyfikatorów jednoklasowych.
• Zastosowanie komitetów jednoklasowych dla danych niezbalansowanych i
strumieniowych.
Komitety klasyfikatorów
• Budowa komitetów dedykowanych klasyfikacji niezbalansowanej, nie
wymagających wprowadzania sztucznych obiektów bądź kosztu błędnej
klasyfikacji.
• Uczone bloki fuzji bazujące na algorytmach ewolucyjnych i neuronowych,
dedykowane klasyfikacji niezbalansowanej.
• Binaryzacja problemów wieloklasowych.
• Komitety klasyfikatorów wrażliwe na koszt (związany z akwizycją cech bądź
błędem klasyfikacji).
• Klasyfikatory kombinowane bazujące na adaptacyjnej klasteryzacji i selekcji.
• Komitety dedykowane problemom wielowymiarowym z małoliczną próbką
uczącą.
Interdyscyplinarne aplikacje
• Analiza danych chemometrycznych, pochodzących z macierzy czujników zwanej
„sztucznym nosem”.
• Wczesne wykrywanie raka piersi:
– Nieinwazyjna detekcja asymetrii rozkładów temperatury w piersiach.
– Analiza wymazów z biopsji cienkoigłowej.
– Gradacja stopnia złośliwości raka piersi.
• Analiza fal mózgowych i ciśnienia wewnątrzczaszkowego u pacjentów na
intensywnej terapii.
• Zastosowania w bioinformatyce.
Konferencje
• CORES http://cores.pwr.wroc.pl/ May 25-27 (no
conference fee)
• IDEAL 2015 http://ideal2015.pwr.edu.pl/ October 1416, 2015, Wroclaw DL: May 15 (real May 31)
• ECML/PKDD 7-11 September, Porto
http://www.ecmlpkdd2015.org/program/workshoplist#collapse-WK12 (no conference fee)
Konferencje
• Big data meets Machine
Learning
• http://bdml.pl/
• May 21-24, 2015 Wroclaw
• (no fee)
Big data meets Machine Learning
Thursday, 21.05
Friday, 22.05
Saturday, 23.05
Sunday, 24.05
8:00
Registration (lobby)
8:45
Opening ceremony (201)
09:00–10:30
Mobile Data Stream Mining
(MOHAMED GABER)
Link Predicition in Networks
(NITESH CHAWLA)
Subgroup discovery (MARIA
JOSE DEL JESUS)
Introduction into Big Data
(JOAO GAMA)
10:30–11:00
Coffee Break (ground floor)
Coffee Break (ground floor)
Coffee Break (ground floor)
Coffee Break (ground floor)
11:00–12:30
Mobile Data Stream Mining
(MOHAMED GABER)
Applications of Big Data in
Healthcare Analytics (NITESH
CHAWLA)
Imbalance classification
(ALBERTO FERNANDEZ)
Data Stream analysis (JOAO
GAMA)
12:30–13:30
Lunch (canteen)
Lunch (canteen)
Lunch (canteen)
Lunch (canteen)
13:30–15:00
Learning classification rules
from complex data (JERZY
STEFANOWSKI)
Data preprocessing
(FRANCISCO HERRERA)
Ensemble for data stream
(LEANDRO MINKU)
Multi-instance learning
(SEBASTIAN VENTURA)
15:00–15:30
Coffee Break (ground floor)
Coffee Break (ground floor)
Coffee Break (ground floor)
Coffee Break (ground floor)
15:30–17:00
Learning classification rules
from complex data (JERZY
STEFANOWSKI)
Experimental analysis and
statistical tests for data
mining (SALVADOR GARCIA)
Ensemble for data stream
(LEANDRO MINKU)
Konferencje
• The 1st IEEE International Workshop on
Classification Problems Embedded in the
Nature of Big Data
held in conjunction with IEEE BigDataSE-15,
August 20-22, 2015, Helsinki, Finland
https://research.comnet.aalto.fi/BDSE2015/cp
bd2015/ 30-04 (no conference fee)
AdaSS
• Konrad Jackowski
• Michał Woźniak
Classifier selection
Classifier selection
Misclassification rate
Classifier 1
19,2%
Classifier selection
Misclassification rate
Classifier 1
Classifier 2
19,2%
Classifier selection
Misclassification rate
Classifier 1
19,2%
Classifier 2
37,8%
Classifier selection
Misclassification rate
Classifier 1
19,2%
Classifier 2
37,8%
Classifier selection
Misclassification rate
Entire space
Classifier 1
19,2%
Classifier 2
37,8%
Area A
Area B
Area C
Classifier selection
Misclassification rate
Entire space
Area A
Area B
Area C
Classifier 1
19,2%
29,1%
16,4%
13,6%
Classifier 2
37,8%
Classifier selection
Misclassification rate
Entire space
Area A
Area B
Area C
Classifier 1
19,2%
29,1%
16,4%
13,6%
Classifier 2
37,8%
0,0%
82,2%
6,4%
Classifier selection
Misclassification rate
Entire space
Area A
Area B
Area C
Classifier 1
19,2%
29,1%
16,4%
13,6%
Classifier 2
37,8%
0,0%
82,2%
6,4%
Classifier model
• We have a pool of n individual classifiers Ψ (1) , … , Ψ (𝑛) which
assign object described by its features 𝑥 = [𝑥 1 , … , 𝑥 (𝑑) ]𝑇 ∈ 𝑋 to
the class drawn from a predefined set of classes M = {1, ...,M}.
• The l-th classifier makes the decision independently
Ψ 𝑙 𝑥 = 𝑖 ≡ 𝐹 𝑙 𝑖, 𝑥 = max 𝐹 𝑙 𝑘, 𝑥
𝑘∈𝑀
where 𝐹 𝑙 𝑘, 𝑥 denotes the discriminant function which supports
classification of the object x to the class k.
Classifier model
• To effectively exploit the local competencies of individual
classifiers, the feature space is partitioned into a set of disjoint
subspaces (constituents) called competence areas:
𝑋= 𝐻
∀𝑘, 𝑙 ∈ {1, … , 𝐻} , 𝑘 ≠ 𝑙, 𝑋𝑘 ∩ 𝑋𝑙 = ∅
ℎ=1 𝑋ℎ ,
• Each area is represented by an associated centroid
𝑇
1
𝑑
𝐶ℎ = [𝑐 , … , 𝑐 ] ∈ 𝐶 = {𝐶1 , … , 𝐶𝐻 }
ℎ
ℎ
𝑥 ∈ 𝑋ℎ ≡ d 𝑥, 𝐶ℎ = min d 𝑥, 𝐶𝑘
𝑘∈{1,…,𝐻}
• Let 𝑚𝑒𝑚𝑏𝑒𝑟 𝐶, 𝑥 = ℎ ≡ 𝑥 ∈ 𝑋ℎ
distance
metric
Classifier model
• Each competence area has assigned its own area classifier
Ψℎ which is devoted to classifying all objects which belong to 𝑋ℎ .
It makes the collective decision based on the weighted fusion of
the discriminant functions returned by elementary classifiers
drawn from the pool. Let Πℎ denotes the set of indices of
classifiers in the pool which join the committee of Ψℎ area
classifier:
Ψℎ 𝑥 = 𝑖 ≡ 𝐹ℎ 𝑙 (𝑖, 𝑥) = max 𝐹ℎ 𝑙 (𝑘, 𝑥)
𝑘∈𝑀
where
𝐹ℎ
𝑙
𝑤ℎ 𝑙 (𝑘)𝐹 𝑙 (𝑘, 𝑥)
𝑘, 𝑥 =
𝑙∈Πℎ
the weight assigned to the l-th
elementary classifier and class k in
the h-th area classifier
Classifier model
Ψ 𝑥 = 𝑖 ≡ Ψ𝑚𝑒𝑚𝑏𝑒𝑟
𝐶,𝑥
𝑥 =𝑖
Training algorithm
• Two main objectives are defined for the training algorithm:
– maximization of the accuracy of the classification,
– minimization of the cost of data acquisition required for
classification.
Training algorithm
maximization of the accuracy of the classification
• criterion
1
𝑄 Ψ =
𝐾
𝐾
Kronecker’
s delta
𝛿 Ψ𝑚𝑒𝑚𝑏𝑒𝑟
𝐶,𝑥𝑛
𝑛=1
is computed over a learning set:
𝐿𝑆 =
𝑥1 , 𝑗1 , … , (𝑥𝐾 , 𝑗𝐾 )
𝑥𝑛 , 𝑗𝑛
Training algorithm
minimization of the cost of data acquisition
• Let Ψℎ be represented by
if the q-th feature is used by the p-th individual classifier
used by Ψℎ
otherwise.
Training algorithm
minimization of the cost of data acquisition
cost of the lth feature
Training algorithm
Join criterion
parameter which control the weight of the cost criterion. It may
take values in range [0,1]. The mentioned above proposition is
similar to the split criterion used by Núñez in the cost-sensitive
decision tree induction algorithm EG2
Training algorithm
Optimization
• The process of searching for maximum value of criterion was
treated as a compound optimization problem solved by an
evolutionary algorithm.
Nonetheless, having in mind that the three
constituents of the chromosome have entirely
different meaning and nature, we ensure that no
data exchange can be done between them while
processing the population.
Training algorithm
Optimization
Experiments - goals
• examining the behavior of the proposed cost-sensitive
modifications of the AdaSS algorithm
• investigating the procedure of the cost-driven feature selection
Experiments – set-up
• Datasets
name
objects
features
classes
Heart disease
303
13
2
Hepatitis
155
19
2
Liver
345
5
2
Pima Indian
diabetes
768
8
2
• All experiments were carried out in the R environment.
Experiments – set-up
• A pool of individual classifiers consisted of three SVMs with
a polynomial kernel and slack variables, trained with the
Sequential Minimal Optimization procedure.
• Their diversity was ensured by the feature selection
process.
• To avoid a situation when optimization algorithm returns a
homogeneous ensemble a setting in which more than one
classifier is trained on identical feature subspace was
banned.
• For the training phase following parameters have been set:
• H = 5, Nc = 200, Np = 100, β = {0.7;0.3}, γ = { 0.3;0.7}, Δm
= 0.2 and V = 15.
• The ω parameter, responsible for weight of cost criterion,
was tested with values ω = {0.0; 0.3; 0.7; 1.0}.
Experiments – results
Experiments – results
• Experiments emphasized the effectiveness of the proposed
cost-sensitive modification of the AdaSS algorithm.
• When comparing the received results with the ones
presented in [Wojciech Penar and Michal Wozniak. Cost-sensitive methods of constructing hierarchical
classifiers. Expert Systems, 27(3):146–155, 2010]one can see the significant
improvement in overall accuracy with the respect to the
cost criterion.
• In all four cases the best results were returned for ω equal
to 0.3 or 0.7, but at the same time it is worth noticing
that for the most cost thresholds the differences between
the ω values were not so significant.
AdaSS – Adaptive Splitting and Selection
Jackowski K., Krawczyk B., and Woźniak M., Improved Adaptive Splitting and Selection: The Hybrid Training Method of a Classifier
Based on a Feature Space Partitioning, Int. J. Neur. Syst. Volume 24, Issue 03, May 2014.
Jackowski K., Krawczyk B., Wozniak M., Application of Adaptive Splitting and Selection Classifier to the SPAM Filtering Problem,
Cybernetics and Systems. Volume 44, Issue 6-7, 2013, 569-588.
OCClustC
• Bartek Krawczyk
• Michał Woźniak
• Boguś Cyganek (AGH)
One-class classification
 In one-class classification we have only data representing a single class
available. This is known as learning in the absence of counterexamples.
OCClustE - One-class Clustering-based Ensemble
Krawczyk B., Woźniak M., Cyganek B., Clustering-based ensembles for one-class classification, Information Sciences, Volume 264, 20 April 2014, Pages 182–195
OCClustE - One-class Clustering-based Ensemble
OCClustE - One-class Clustering-based Ensemble
One-class classification
 One of the most popular approaches for such a case is to establish a boundary
enclosing all the relevant objects within.
One-class classification
 It is assumed that during the exploitation of such a classifier new, unknown
during the learning process, objects may appear. They are labeled as outliers.
Challenges in one-class classification
 We need a pattern classification method
that will be at the same time robust to
outliers and have a good generalization of
the target concept.
 Many one-class datasets have complex
structure and present internal outliers
(label noise).
 These two factors may lead to creating an
one-class classifier with so-called „empty
regions” – areas within the decision
boundary, but not covered by training
samples. Classifier may be deemed as
incompetent in such areas.
 For complex data with underlying internal structures single-model approaches
may return complex boundaries or become overtrained.
 A proper model selection of one-class classifier for a given dataset can be
troublesome and time-consuming.
Proposed method
 Ensembles seems to be an interesting and promising concept for one-class
problems, as they can improve the accuracy and robustness of such a recognition
system.
 We developed a novel ensemble for forming locally specialised classifiers, named
One-Class Clustering-Based Ensemble (OCClustE).
 This allows us to create base one-class models that work on delegated
subspaces of the original decision problem, thus increasing their local
competence.
OCClustE
 OCClustE has two important components:
 method for decomposing the original decision problem into a set of
reduced, less complex sub-problems.
 usage of specific base one-class classifiers trained on detected areas of
competence, that will have increased robustness to possible internal outliers
and reduced empty areas within its boundary.
Detecting areas of competence
 To detect compact subgroups of target class, we employ a kernel fuzzy c-means
clustering.
 Due to the usage of a kernel, we are able to search for a more atomic and
efficient representation of the target concept in different spaces.
 However, the fuzzy c-means clustering relies on the user-defined number of
clusters c.
 To avoid time-consumig trial-and-error settings, we automatically establish the
number of clusters with the entropy criterion.
 We select number of clusters that introduces the lowest entropy.
 Of course, this criterion does not always return optimal solution, but is
automatic and can be used as a starting point for further tuning.
Base classifier
 As a base classifier for our ensemble, we have selected Weighted One-Class
Suport Vector Machine (WOCSVM).
 It assigns weights to each training object to control their influence on the shape
of the decision boundary and to filter outliers and irrelevant objects.
 WOCSVM outputs a more compact decision boundary, thus significantly
reducing the size of empty areas present within.
Establishing objects weights
 In standard WOCSVM weights assigned to objects are established on the basis of
the distance between the object and the hypersphere centre.
 This however requires additional computation and can be costly, especially for
big data.
 We propose to utilize membership functions, obtained from fuzzy c-means
clustering, as objects weights.
 Such an approach significantly reduces the computational time and improves an
individual accuracy of each base classifier in the ensemble.
Set-up
• WOCSVM: kernel = RBF; σ = 0:3; C = 8;
• Mean of estimated support functions used for classifier combination.
• 5x2 CV combined F-test used for training/testing and pairwise statistical
comparison.
• Friedman ranking test and Shaffer post-hoc test used for statistical comparison
over multiple datasets.
• Reference methods:
– single WOCSVM
– bagged WOCSVM
– boosted WOCSVM
– clustering-based ensemble with standard OCSVM
Datasets
• 10 binary datasets, transformed into one-class problems.
• Majority class as target concept, minority class as outliers.
• Training on objects from the target class, testing on both outliers and target class
representatives.
Results
Hyperpectral image
• Hyperspectral sensors contain hundreds of spectral channels,
each one covering a small portion of electromagnetic spectrum.
• This spectral highresolution is expected to allow making detailed
thematic maps of remote sensing data by means of spectral
classication of diferent materials expected in the sensed scene.
• We are focusing on the pixel-based representation.
Visible light
Hyperspectral image
Experiment
The aims of the experiments were to establish the
quality of the proposed OCClustE method in the task of
hyperspectral image segmentation, and to compare it
with several state-of-the-art classifiers
Dataset
#pixels
#bands
#classes
Salinas C
111104
224
16
Indian Pines
21025
224
16
Pavia University
372100
103
9
classifier
parameters
Random Forest
120 decision trees
SVM
RBF kernel, SMO procedure, DDAG for multi-class data
OVO
C4.5 as base classifier, pairwise coupling for fusion
OVA
C4.5 as base classifier, max confidence strategy for fusion
OCC
single WOCSVM delegated to each class
Experiment
• 5x2 combined CV F-test, Friedman ranking test

Podobne dokumenty