Training algorithm
Transkrypt
Training algorithm
Zespół uczenia maszynowego Katedra Systemów i Sieci Komputerowych http://www.kssk.pwr.edu.pl/zespoluczenia-maszynowego Co robimy • • • • • • • • • • • uczenie maszyn i eksploracja danych metody poprawy jakości i stabilizacja klasyfikatorów słabych złożone i hybrydowe metody rozpoznawania obiektów fuzja informacji i klasyfikatory kombinowane klasyfikacja danych strumieniowych oraz detekcja zmian parametrów modelu klasyfikacji analiza dużych zbiorów danych klasyfikacja jednoklasowa analiza danych niezbalansowanych uczenie aktywne rozproszone i równoległe systemy obliczeniowe na potrzeby eksploracji danych aplikacje metod inteligentnych dla problemów praktycznych Pracownicy • dr hab. inż. Michał Woźniak, prof. PWr – uczenie maszynowe, klasyfikacja kombinowana, analiza dużych zbiorów danych i strumieni danych • dr hab. inż. Robert Burduk – klasyfikacja, systemy hybrydowe • dr inż. Konrad Jackowski – klasyfikacja danych strumieniowych, klasyfikacja kombinowana, selekcja klasyfikatorów (AdaSS), metody regresji • mgr inż. Dariusz Jankowski – ewolucyjne metody uczenia drzew decyzyjnych • mgr inż. Mariusz Kozioł – rozproszone i równoległe systemy obliczeniowe na potrzeby uczenia drzew wielowymiarowych Doktoranci mgr inż. Bartosz Kurlej – uczeni aktywne, klasyfikacja danych strumieniowych mgr inż. Bartosz Krawczyk – uczenie jednoklasowe, analiza danych niezbilansowanych, klasyfikacja kombinowana mgr inż. Paweł Ksieniewicz – analiza, wizualizacja i sonifikacja danych wielowymiarowych, analiza obrazów nadwidmowych mgr inż. Piotr Sobolewski – klasyfikacja danych strumieniowych, detekcja zamian parametrów modelu klasyfikacji Obszary badawcze uczenie maszyn i eksploracja danych metody stabilizacji i poprawy jakości klasyfikatorów słabych złożone i hybrydowe metody rozpoznawania obiektów fuzja informacji i klasyfikatory kombinowane klasyfikacja danych strumieniowych oraz detekcja zmian parametrów modelu klasyfikacji analiza dużych zbiorów danych klasyfikacja jednoklasowa analiza danych niezbalansowanych uczenie aktywne rozproszone i równoległe systemy obliczeniowe na potrzeby eksploracji danych aplikacje metod inteligentnych dla problemów praktycznych dr inż. Konrad Jackowski [email protected] http://www.kssk.pwr.wroc.pl/jackowski Adaptacyjne algorytmy uczenia maszynowego • Obszary pracy badawczej – Złożone systemy rozpoznawania obrazów i podejmowania decyzji w warunkach wystąpienia zmienności charakterystyk danych (concept drift) • Algorytmy detekcji Concept driftu • Algorytmy adaptacji do zmiennych warunków charakterystyk danych – • Przetwarzanie danych strumieniowych Złożone systemy rozpoznawania – Eksploracja lokalnej kompetencji klasyfikatorów elementarnych – Przechowywanie wiedzy o występujących stanach (concept) w puli klasyfikatorów elementarnych – Uzależnienie wkładu klasyfikatora elementarnego w podejmowaniu decyzji od: • Poziomu lokalnej kompetencji • Aktualności wiedzy – Podział przestrzeni cech na obszary kompetencyjne – Ważona fuzja funkcji dyskryminujących Adaptacyjne algorytmy uczenia maszynowego • Detekcja dryftu – Detekcja oparta na monitorowaniu efektywności klasyfikacji – Metody statystyczne – Metody oparte o algorytmy grupowania • Adaptacja do zmiennych warunków pracy – ewolucyjna adaptacja modelu systemu – Korekta pozycji i rozmiaru obszarów kompetencyjnych – Selekcja grupy klasyfikatorów z puli – Korekta wag związanych z klasyfikatorami – Trenowanie nowych klasyfikatorów Adaptacyjne algorytmy uczenia maszynowego • Algorytmy uczenia – Traktowanie procesu uczenia jako złożonego problemu optymalizacyjnego – Kryterium optymalizacji – minimalizacja błędu klasyfikacji systemu – Zmienne: • Skład komitetu głosującego • Obszary kompetencyjne • Wagi klasyfikatorów – Wykorzystanie algorytmów ewolucyjnych – Alternatywne algorytmy optymalizacyjne mgr inż. Piotr Sobolewski [email protected] http://www.kssk.pwr.wroc.pl/sobolewski Zmiana parametrów modelu klasyfikacji • Zmiana parametrów modelu klasyfikacji – zmiana ukrytej cechy obiektów powodująca zmianę zasad przyporządkowywania klas do próbek, a w efekcie spadek skuteczności niezabezpieczonego systemu klasyfikującego Zabezpieczanie systemu klasyfikującego • Wczesne wykrywanie zmian parametrów modelu klasyfikacji • Detektor – element niezależny lub będący częścią systemu klasyfikacji, algorytm odpowiedzialny za wykrywanie zmian parametrów modelu klasyfikacji Metody wykrywania zamian parametrów modelu klasyfikacji • Wykorzystujące wiedzę eksperta - zakładają dostęp do etykietowanych danych po klasyfikacji: – Analiza skuteczności systemu klasyfikującego – Porównywanie rozkładów klas w przestrzeni cech • Niezależne od wiedzy eksperta - ograniczają się do analizy danych nieetykietowanych: – Statystyczne porównywanie wektorów cech kolejnych próbek lub okien danych – Okresowość zmian oraz momenty wystąpienia próbek w strumieniu danych – Poziomy wsparcia klasyfikatorów Metody wykrywania zamian parametrów modelu klasyfikacji • Algorytmy oparte o założenie mozliwości powtarzania poprzednich stanów modelu klasyfikacji: – Większe możliwości dzięki wykorzystaniu klasyfikatorów wytrenowanych na poprzednich stanach modelu – Wsparcie klasyfikatorów odpowiadających danym stanom modelu – Ograniczenie: przeznaczone dla niewielkiej grupy problemów Badania • Uniwersalizacja algorytmów klasyfikacji danych strumieniowych przeznaczonych dla problemów z powtarzaniem stanów modelu poprzez sztuczne symulowanie zmian parametrów modelu klasyfikacji • Symulowane stany modelu traktowane jak stany, które wystąpiły w przeszłości • Symulowanie stanów dla istniejących algorytmów klasyfikacji znacząco zwiększyło ich skuteczność • Wykorzystanie popularnych testów statystycznych (KS, WW, T2, CNF, WCX) w celu wykrywania zmian parametrów modelu klasyfikacji Badania – cele pracy • Stworzenie skutecznego algorytmu wykrywającego zmiany parametrów modelu klasyfikacji bez potrzeby dostępu do kosztownej wiedzy eksperta • Cel poboczny - opracowanie uniwersalnej metody porównywania i oceniania skuteczności algorytmów detekcji zmian parametrów modelu klasyfikacji dr hab. inż. Robert Burduk [email protected] http://www.kssk.pwr.wroc.pl/burduk Obszary zainteresowań badawczych • Wykorzystanie nieprecyzyjnego opisu cech obiektu reprezentowanego przez teorię zbiorów rozmytych oraz jej rozszerzenia w złożonych i prostych zadaniach rozpoznawania – Nurt ten związany jest z rozszerzeniem tematyki doktoratu, w którym wykorzystany był model probabilistyczno-rozmyty do złożonego problemu rozpoznawania • Wykorzystanie pewnych miar różnorodności w celu przebudowy struktury drzewa decyzyjnego, które w pewnych zadaniach rozpoznawania może być podane przez ekspertów – Nurt ten związany również z rozszerzeniem koncepcji złożonego zadania rozpoznawania wykorzystanego w doktoracie Obszary zainteresowań badawczych • Wykorzystanie zbiorów przedziałowo rozmytych w systemach wieloklasyfikatorowych – Definicja wag w algorytmach boostingowych, które mogą być interpretowane w kontekście tej teorii – Statyczna oraz dynamiczna selekcja klasyfikatorów, w której kryterium selekcji wykorzystuje poprawność oraz niepoprawność klasyfikatora składowego – Dobór wag dla klasyfikatorów wchodzących w skład komitetu klasyfikatorów, w którym zdefiniowana jest górna i dolna funkcja odpowiedniej wagi klasyfikatora bazowego mgr inż. Dariusz Jankowski [email protected] http://www.kssk.pwr.wroc.pl/jankowski Drzewa decyzyjne x+y<8 - Drzewo decyzyjne dla problemu „Golf” [Quinlan, 1993] + Przykładowa przestrzeń danych z granicami decyzyjnymi dla drzew jednowymiarowych i wielowymiarowych (skośnych) [Brodley,Ugotoff, 1995] Algorytmy ewolucyjne Populacja Zakończenie Inicjalizacja Sukcesja Potomstwo Rodzice Reprodukcja Ewolucyjne metody uczenia drzew decyzyjnych w zmiennym środowisku ? ? ? mgr inż. Bartosz Krawczyk [email protected] http://www.kssk.pwr.wroc.pl/krawczy k Klasyfikacja jednoklasowa Metody budowy komitetów klasyfikatorów jednoklasowych: • Nowe miary różnorodności i kompetencji dedykowane selekcji klasyfikatorów jednoklasowych do komitetu. • Modyfikacje metod baggingu, boostingu i podprzestrzeni losowych dedykowane klasyfikacji jednoklasowej. • Budowanie komitetów jednoklasowych na bazie klasteryzacji klasy celu, metody automatycznego dostosowywania kształtów klastrów do dostępnej puli klasyfikatorów. • Zastosowanie klasyfikatorów jednoklasowych jako narzędzia do dekompozycji problemów wieloklasowych. • Tworzenie komitetów ważonych i rozmytych klasyfikatorów jednoklasowych. • Zastosowanie komitetów jednoklasowych dla danych niezbalansowanych i strumieniowych. Komitety klasyfikatorów • Budowa komitetów dedykowanych klasyfikacji niezbalansowanej, nie wymagających wprowadzania sztucznych obiektów bądź kosztu błędnej klasyfikacji. • Uczone bloki fuzji bazujące na algorytmach ewolucyjnych i neuronowych, dedykowane klasyfikacji niezbalansowanej. • Binaryzacja problemów wieloklasowych. • Komitety klasyfikatorów wrażliwe na koszt (związany z akwizycją cech bądź błędem klasyfikacji). • Klasyfikatory kombinowane bazujące na adaptacyjnej klasteryzacji i selekcji. • Komitety dedykowane problemom wielowymiarowym z małoliczną próbką uczącą. Interdyscyplinarne aplikacje • Analiza danych chemometrycznych, pochodzących z macierzy czujników zwanej „sztucznym nosem”. • Wczesne wykrywanie raka piersi: – Nieinwazyjna detekcja asymetrii rozkładów temperatury w piersiach. – Analiza wymazów z biopsji cienkoigłowej. – Gradacja stopnia złośliwości raka piersi. • Analiza fal mózgowych i ciśnienia wewnątrzczaszkowego u pacjentów na intensywnej terapii. • Zastosowania w bioinformatyce. Konferencje • CORES http://cores.pwr.wroc.pl/ May 25-27 (no conference fee) • IDEAL 2015 http://ideal2015.pwr.edu.pl/ October 1416, 2015, Wroclaw DL: May 15 (real May 31) • ECML/PKDD 7-11 September, Porto http://www.ecmlpkdd2015.org/program/workshoplist#collapse-WK12 (no conference fee) Konferencje • Big data meets Machine Learning • http://bdml.pl/ • May 21-24, 2015 Wroclaw • (no fee) Big data meets Machine Learning Thursday, 21.05 Friday, 22.05 Saturday, 23.05 Sunday, 24.05 8:00 Registration (lobby) 8:45 Opening ceremony (201) 09:00–10:30 Mobile Data Stream Mining (MOHAMED GABER) Link Predicition in Networks (NITESH CHAWLA) Subgroup discovery (MARIA JOSE DEL JESUS) Introduction into Big Data (JOAO GAMA) 10:30–11:00 Coffee Break (ground floor) Coffee Break (ground floor) Coffee Break (ground floor) Coffee Break (ground floor) 11:00–12:30 Mobile Data Stream Mining (MOHAMED GABER) Applications of Big Data in Healthcare Analytics (NITESH CHAWLA) Imbalance classification (ALBERTO FERNANDEZ) Data Stream analysis (JOAO GAMA) 12:30–13:30 Lunch (canteen) Lunch (canteen) Lunch (canteen) Lunch (canteen) 13:30–15:00 Learning classification rules from complex data (JERZY STEFANOWSKI) Data preprocessing (FRANCISCO HERRERA) Ensemble for data stream (LEANDRO MINKU) Multi-instance learning (SEBASTIAN VENTURA) 15:00–15:30 Coffee Break (ground floor) Coffee Break (ground floor) Coffee Break (ground floor) Coffee Break (ground floor) 15:30–17:00 Learning classification rules from complex data (JERZY STEFANOWSKI) Experimental analysis and statistical tests for data mining (SALVADOR GARCIA) Ensemble for data stream (LEANDRO MINKU) Konferencje • The 1st IEEE International Workshop on Classification Problems Embedded in the Nature of Big Data held in conjunction with IEEE BigDataSE-15, August 20-22, 2015, Helsinki, Finland https://research.comnet.aalto.fi/BDSE2015/cp bd2015/ 30-04 (no conference fee) AdaSS • Konrad Jackowski • Michał Woźniak Classifier selection Classifier selection Misclassification rate Classifier 1 19,2% Classifier selection Misclassification rate Classifier 1 Classifier 2 19,2% Classifier selection Misclassification rate Classifier 1 19,2% Classifier 2 37,8% Classifier selection Misclassification rate Classifier 1 19,2% Classifier 2 37,8% Classifier selection Misclassification rate Entire space Classifier 1 19,2% Classifier 2 37,8% Area A Area B Area C Classifier selection Misclassification rate Entire space Area A Area B Area C Classifier 1 19,2% 29,1% 16,4% 13,6% Classifier 2 37,8% Classifier selection Misclassification rate Entire space Area A Area B Area C Classifier 1 19,2% 29,1% 16,4% 13,6% Classifier 2 37,8% 0,0% 82,2% 6,4% Classifier selection Misclassification rate Entire space Area A Area B Area C Classifier 1 19,2% 29,1% 16,4% 13,6% Classifier 2 37,8% 0,0% 82,2% 6,4% Classifier model • We have a pool of n individual classifiers Ψ (1) , … , Ψ (𝑛) which assign object described by its features 𝑥 = [𝑥 1 , … , 𝑥 (𝑑) ]𝑇 ∈ 𝑋 to the class drawn from a predefined set of classes M = {1, ...,M}. • The l-th classifier makes the decision independently Ψ 𝑙 𝑥 = 𝑖 ≡ 𝐹 𝑙 𝑖, 𝑥 = max 𝐹 𝑙 𝑘, 𝑥 𝑘∈𝑀 where 𝐹 𝑙 𝑘, 𝑥 denotes the discriminant function which supports classification of the object x to the class k. Classifier model • To effectively exploit the local competencies of individual classifiers, the feature space is partitioned into a set of disjoint subspaces (constituents) called competence areas: 𝑋= 𝐻 ∀𝑘, 𝑙 ∈ {1, … , 𝐻} , 𝑘 ≠ 𝑙, 𝑋𝑘 ∩ 𝑋𝑙 = ∅ ℎ=1 𝑋ℎ , • Each area is represented by an associated centroid 𝑇 1 𝑑 𝐶ℎ = [𝑐 , … , 𝑐 ] ∈ 𝐶 = {𝐶1 , … , 𝐶𝐻 } ℎ ℎ 𝑥 ∈ 𝑋ℎ ≡ d 𝑥, 𝐶ℎ = min d 𝑥, 𝐶𝑘 𝑘∈{1,…,𝐻} • Let 𝑚𝑒𝑚𝑏𝑒𝑟 𝐶, 𝑥 = ℎ ≡ 𝑥 ∈ 𝑋ℎ distance metric Classifier model • Each competence area has assigned its own area classifier Ψℎ which is devoted to classifying all objects which belong to 𝑋ℎ . It makes the collective decision based on the weighted fusion of the discriminant functions returned by elementary classifiers drawn from the pool. Let Πℎ denotes the set of indices of classifiers in the pool which join the committee of Ψℎ area classifier: Ψℎ 𝑥 = 𝑖 ≡ 𝐹ℎ 𝑙 (𝑖, 𝑥) = max 𝐹ℎ 𝑙 (𝑘, 𝑥) 𝑘∈𝑀 where 𝐹ℎ 𝑙 𝑤ℎ 𝑙 (𝑘)𝐹 𝑙 (𝑘, 𝑥) 𝑘, 𝑥 = 𝑙∈Πℎ the weight assigned to the l-th elementary classifier and class k in the h-th area classifier Classifier model Ψ 𝑥 = 𝑖 ≡ Ψ𝑚𝑒𝑚𝑏𝑒𝑟 𝐶,𝑥 𝑥 =𝑖 Training algorithm • Two main objectives are defined for the training algorithm: – maximization of the accuracy of the classification, – minimization of the cost of data acquisition required for classification. Training algorithm maximization of the accuracy of the classification • criterion 1 𝑄 Ψ = 𝐾 𝐾 Kronecker’ s delta 𝛿 Ψ𝑚𝑒𝑚𝑏𝑒𝑟 𝐶,𝑥𝑛 𝑛=1 is computed over a learning set: 𝐿𝑆 = 𝑥1 , 𝑗1 , … , (𝑥𝐾 , 𝑗𝐾 ) 𝑥𝑛 , 𝑗𝑛 Training algorithm minimization of the cost of data acquisition • Let Ψℎ be represented by if the q-th feature is used by the p-th individual classifier used by Ψℎ otherwise. Training algorithm minimization of the cost of data acquisition cost of the lth feature Training algorithm Join criterion parameter which control the weight of the cost criterion. It may take values in range [0,1]. The mentioned above proposition is similar to the split criterion used by Núñez in the cost-sensitive decision tree induction algorithm EG2 Training algorithm Optimization • The process of searching for maximum value of criterion was treated as a compound optimization problem solved by an evolutionary algorithm. Nonetheless, having in mind that the three constituents of the chromosome have entirely different meaning and nature, we ensure that no data exchange can be done between them while processing the population. Training algorithm Optimization Experiments - goals • examining the behavior of the proposed cost-sensitive modifications of the AdaSS algorithm • investigating the procedure of the cost-driven feature selection Experiments – set-up • Datasets name objects features classes Heart disease 303 13 2 Hepatitis 155 19 2 Liver 345 5 2 Pima Indian diabetes 768 8 2 • All experiments were carried out in the R environment. Experiments – set-up • A pool of individual classifiers consisted of three SVMs with a polynomial kernel and slack variables, trained with the Sequential Minimal Optimization procedure. • Their diversity was ensured by the feature selection process. • To avoid a situation when optimization algorithm returns a homogeneous ensemble a setting in which more than one classifier is trained on identical feature subspace was banned. • For the training phase following parameters have been set: • H = 5, Nc = 200, Np = 100, β = {0.7;0.3}, γ = { 0.3;0.7}, Δm = 0.2 and V = 15. • The ω parameter, responsible for weight of cost criterion, was tested with values ω = {0.0; 0.3; 0.7; 1.0}. Experiments – results Experiments – results • Experiments emphasized the effectiveness of the proposed cost-sensitive modification of the AdaSS algorithm. • When comparing the received results with the ones presented in [Wojciech Penar and Michal Wozniak. Cost-sensitive methods of constructing hierarchical classifiers. Expert Systems, 27(3):146–155, 2010]one can see the significant improvement in overall accuracy with the respect to the cost criterion. • In all four cases the best results were returned for ω equal to 0.3 or 0.7, but at the same time it is worth noticing that for the most cost thresholds the differences between the ω values were not so significant. AdaSS – Adaptive Splitting and Selection Jackowski K., Krawczyk B., and Woźniak M., Improved Adaptive Splitting and Selection: The Hybrid Training Method of a Classifier Based on a Feature Space Partitioning, Int. J. Neur. Syst. Volume 24, Issue 03, May 2014. Jackowski K., Krawczyk B., Wozniak M., Application of Adaptive Splitting and Selection Classifier to the SPAM Filtering Problem, Cybernetics and Systems. Volume 44, Issue 6-7, 2013, 569-588. OCClustC • Bartek Krawczyk • Michał Woźniak • Boguś Cyganek (AGH) One-class classification In one-class classification we have only data representing a single class available. This is known as learning in the absence of counterexamples. OCClustE - One-class Clustering-based Ensemble Krawczyk B., Woźniak M., Cyganek B., Clustering-based ensembles for one-class classification, Information Sciences, Volume 264, 20 April 2014, Pages 182–195 OCClustE - One-class Clustering-based Ensemble OCClustE - One-class Clustering-based Ensemble One-class classification One of the most popular approaches for such a case is to establish a boundary enclosing all the relevant objects within. One-class classification It is assumed that during the exploitation of such a classifier new, unknown during the learning process, objects may appear. They are labeled as outliers. Challenges in one-class classification We need a pattern classification method that will be at the same time robust to outliers and have a good generalization of the target concept. Many one-class datasets have complex structure and present internal outliers (label noise). These two factors may lead to creating an one-class classifier with so-called „empty regions” – areas within the decision boundary, but not covered by training samples. Classifier may be deemed as incompetent in such areas. For complex data with underlying internal structures single-model approaches may return complex boundaries or become overtrained. A proper model selection of one-class classifier for a given dataset can be troublesome and time-consuming. Proposed method Ensembles seems to be an interesting and promising concept for one-class problems, as they can improve the accuracy and robustness of such a recognition system. We developed a novel ensemble for forming locally specialised classifiers, named One-Class Clustering-Based Ensemble (OCClustE). This allows us to create base one-class models that work on delegated subspaces of the original decision problem, thus increasing their local competence. OCClustE OCClustE has two important components: method for decomposing the original decision problem into a set of reduced, less complex sub-problems. usage of specific base one-class classifiers trained on detected areas of competence, that will have increased robustness to possible internal outliers and reduced empty areas within its boundary. Detecting areas of competence To detect compact subgroups of target class, we employ a kernel fuzzy c-means clustering. Due to the usage of a kernel, we are able to search for a more atomic and efficient representation of the target concept in different spaces. However, the fuzzy c-means clustering relies on the user-defined number of clusters c. To avoid time-consumig trial-and-error settings, we automatically establish the number of clusters with the entropy criterion. We select number of clusters that introduces the lowest entropy. Of course, this criterion does not always return optimal solution, but is automatic and can be used as a starting point for further tuning. Base classifier As a base classifier for our ensemble, we have selected Weighted One-Class Suport Vector Machine (WOCSVM). It assigns weights to each training object to control their influence on the shape of the decision boundary and to filter outliers and irrelevant objects. WOCSVM outputs a more compact decision boundary, thus significantly reducing the size of empty areas present within. Establishing objects weights In standard WOCSVM weights assigned to objects are established on the basis of the distance between the object and the hypersphere centre. This however requires additional computation and can be costly, especially for big data. We propose to utilize membership functions, obtained from fuzzy c-means clustering, as objects weights. Such an approach significantly reduces the computational time and improves an individual accuracy of each base classifier in the ensemble. Set-up • WOCSVM: kernel = RBF; σ = 0:3; C = 8; • Mean of estimated support functions used for classifier combination. • 5x2 CV combined F-test used for training/testing and pairwise statistical comparison. • Friedman ranking test and Shaffer post-hoc test used for statistical comparison over multiple datasets. • Reference methods: – single WOCSVM – bagged WOCSVM – boosted WOCSVM – clustering-based ensemble with standard OCSVM Datasets • 10 binary datasets, transformed into one-class problems. • Majority class as target concept, minority class as outliers. • Training on objects from the target class, testing on both outliers and target class representatives. Results Hyperpectral image • Hyperspectral sensors contain hundreds of spectral channels, each one covering a small portion of electromagnetic spectrum. • This spectral highresolution is expected to allow making detailed thematic maps of remote sensing data by means of spectral classication of diferent materials expected in the sensed scene. • We are focusing on the pixel-based representation. Visible light Hyperspectral image Experiment The aims of the experiments were to establish the quality of the proposed OCClustE method in the task of hyperspectral image segmentation, and to compare it with several state-of-the-art classifiers Dataset #pixels #bands #classes Salinas C 111104 224 16 Indian Pines 21025 224 16 Pavia University 372100 103 9 classifier parameters Random Forest 120 decision trees SVM RBF kernel, SMO procedure, DDAG for multi-class data OVO C4.5 as base classifier, pairwise coupling for fusion OVA C4.5 as base classifier, max confidence strategy for fusion OCC single WOCSVM delegated to each class Experiment • 5x2 combined CV F-test, Friedman ranking test