Estymacja przedzialu uogólnionej decyzji w podejsciu DRSA
Transkrypt
Estymacja przedzialu uogólnionej decyzji w podejsciu DRSA
Estymacja przedziału uogólnionej decyzji w podejściu DRSA Wojciech Kotłowski 21.11.2006 1 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 2 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 3 / 39 Notacja • zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego Y = {1, . . . , m}. • qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość decyzji dla j-tego obiektu; bedziemy ˛ też używać skrótu x = (q1 (x), . . . qn (x)) • każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛ niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o jednakowym rozkładzie p(Q, Y). • zakładamy, że na każdym atrybucie skala przynajmniej porzadkowa; ˛ implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z)) 4 / 39 Notacja • zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego Y = {1, . . . , m}. • qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość decyzji dla j-tego obiektu; bedziemy ˛ też używać skrótu x = (q1 (x), . . . qn (x)) • każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛ niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o jednakowym rozkładzie p(Q, Y). • zakładamy, że na każdym atrybucie skala przynajmniej porzadkowa; ˛ implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z)) 4 / 39 Notacja • zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego Y = {1, . . . , m}. • qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość decyzji dla j-tego obiektu; bedziemy ˛ też używać skrótu x = (q1 (x), . . . qn (x)) • każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛ niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o jednakowym rozkładzie p(Q, Y). • zakładamy, że na każdym atrybucie skala przynajmniej porzadkowa; ˛ implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z)) 4 / 39 Zwiazki ˛ monotoniczne Stochastyczna dominacja • Zwiazki ˛ monotoniczne definiowane poprzez stochastyczna˛ dominacje: ˛ p(y > i|x) jest funkcja˛ monotoniczna˛ ze wzgledu ˛ na q1 (x), . . . , qn (x). • Wszystkie atrybuty sa˛ kryteriami typu zysk, stad ˛ p(y > i|x) jest rosnaca ˛ ze wzgledu ˛ na każde qi (x). • W przypadku dwuklasowym Y = {0, 1}, p(y = 1|x) jest rosnaca, ˛ zaś p(y = 0|x) — malejaca ˛ ze wzgledu ˛ na każde qi (x). 5 / 39 Przykład (prawdopodobieństwa klas) 0.6 0.4 0.2 0.0 p(y|x) 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x) −2 −1 0 1 2 x 6 / 39 Przykład (prawdopodobieństwa kumulacji) 0.6 0.4 0.2 0.0 p(y|x) 0.8 1.0 p(y ≥ 1|x) p(y ≥ 2|x) p(y ≥ 3|x) −2 −1 0 1 2 x 7 / 39 Przykład („twarda” dominacja) 0.6 0.4 0.2 0.0 p(y|x) 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x) −2 −1 0 1 2 x 8 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 9 / 39 Model probabilistyczny — przypadek dwuklasowy • Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x), ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x). • Problem jest deterministyczny, jeśli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0. • Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio popełnia najmniejszy bład: ˛ Gopt = arg minG E[Y 6= G]? • Klasyfikator Bayesowski: GBayes (x) = 1 p1 (x) > p0 (x) ≡ p1 (x) > 0 p0 (x) > p1 (x) ≡ p1 (x) < 1 2 1 2 • Zachodzi: GBayes = Gopt . • Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest monotoniczna ze wzgledu ˛ na q1 (x), . . . , qn (x). 10 / 39 Model probabilistyczny — przypadek dwuklasowy • Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x), ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x). • Problem jest deterministyczny, jeśli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0. • Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio popełnia najmniejszy bład: ˛ Gopt = arg minG E[Y 6= G]? • Klasyfikator Bayesowski: GBayes (x) = 1 p1 (x) > p0 (x) ≡ p1 (x) > 0 p0 (x) > p1 (x) ≡ p1 (x) < 1 2 1 2 • Zachodzi: GBayes = Gopt . • Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest monotoniczna ze wzgledu ˛ na q1 (x), . . . , qn (x). 10 / 39 Model probabilistyczny — przypadek dwuklasowy • Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x), ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x). • Problem jest deterministyczny, jeśli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0. • Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio popełnia najmniejszy bład: ˛ Gopt = arg minG E[Y 6= G]? • Klasyfikator Bayesowski: GBayes (x) = 1 p1 (x) > p0 (x) ≡ p1 (x) > 0 p0 (x) > p1 (x) ≡ p1 (x) < 1 2 1 2 • Zachodzi: GBayes = Gopt . • Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest monotoniczna ze wzgledu ˛ na q1 (x), . . . , qn (x). 10 / 39 Model probabilistyczny — przypadek dwuklasowy • Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x), ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x). • Problem jest deterministyczny, jeśli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0. • Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio popełnia najmniejszy bład: ˛ Gopt = arg minG E[Y 6= G]? • Klasyfikator Bayesowski: GBayes (x) = 1 p1 (x) > p0 (x) ≡ p1 (x) > 0 p0 (x) > p1 (x) ≡ p1 (x) < 1 2 1 2 • Zachodzi: GBayes = Gopt . • Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest monotoniczna ze wzgledu ˛ na q1 (x), . . . , qn (x). 10 / 39 Model probabilistyczny — przypadek dwuklasowy • Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako: T(X, Y) = 1 GBayes (X) = Y 0 GBayes (X) 6= Y T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bład. ˛ • T ma dla danego x rozkład prawdopodobieństwa p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest prawdopodobieństwem popełnienia błedu ˛ przez klasyfikator Bayesowski. • Możemy problem potraktować jako deterministyczny z funkcja˛ GBayes (x) wyznaczajac ˛ a˛ zależność miedzy ˛ y a x, z dodatkowym przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobieństwem p(x). 11 / 39 Model probabilistyczny — przypadek dwuklasowy • Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako: T(X, Y) = 1 GBayes (X) = Y 0 GBayes (X) 6= Y T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bład. ˛ • T ma dla danego x rozkład prawdopodobieństwa p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest prawdopodobieństwem popełnienia błedu ˛ przez klasyfikator Bayesowski. • Możemy problem potraktować jako deterministyczny z funkcja˛ GBayes (x) wyznaczajac ˛ a˛ zależność miedzy ˛ y a x, z dodatkowym przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobieństwem p(x). 11 / 39 Model probabilistyczny — przypadek dwuklasowy • Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako: T(X, Y) = 1 GBayes (X) = Y 0 GBayes (X) 6= Y T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bład. ˛ • T ma dla danego x rozkład prawdopodobieństwa p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest prawdopodobieństwem popełnienia błedu ˛ przez klasyfikator Bayesowski. • Możemy problem potraktować jako deterministyczny z funkcja˛ GBayes (x) wyznaczajac ˛ a˛ zależność miedzy ˛ y a x, z dodatkowym przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobieństwem p(x). 11 / 39 Estymator najwiekszej ˛ wiarygodności • Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego ˛ X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli wiemy, że dane sa˛ monotoniczne? • Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa przekłamania p(xi ) i wiemy, że problem jest monotoniczny. Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez wyznaczenie wartości GBayes (xi ), traktujac ˛ je jako parametry i stosujac ˛ metode˛ najwiekszej ˛ wiarygodności. Estymacja metoda˛ najwiekszej ˛ wiarygodności Szukamy takich wartości parametrów θ dla danych D, dla których funkcja wiarygodności L(θ; D) = p(D|θ) osiaga ˛ wartość maksymalna; ˛ inaczej: szukamy takich wartości parametrów, dla których dane D, które mamy, sa˛ najbardziej prawdopodobne. 12 / 39 Estymator najwiekszej ˛ wiarygodności • Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego ˛ X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli wiemy, że dane sa˛ monotoniczne? • Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa przekłamania p(xi ) i wiemy, że problem jest monotoniczny. Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez wyznaczenie wartości GBayes (xi ), traktujac ˛ je jako parametry i stosujac ˛ metode˛ najwiekszej ˛ wiarygodności. Estymacja metoda˛ najwiekszej ˛ wiarygodności Szukamy takich wartości parametrów θ dla danych D, dla których funkcja wiarygodności L(θ; D) = p(D|θ) osiaga ˛ wartość maksymalna; ˛ inaczej: szukamy takich wartości parametrów, dla których dane D, które mamy, sa˛ najbardziej prawdopodobne. 12 / 39 Estymator najwiekszej ˛ wiarygodności • Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego ˛ X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli wiemy, że dane sa˛ monotoniczne? • Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa przekłamania p(xi ) i wiemy, że problem jest monotoniczny. Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez wyznaczenie wartości GBayes (xi ), traktujac ˛ je jako parametry i stosujac ˛ metode˛ najwiekszej ˛ wiarygodności. Estymacja metoda˛ najwiekszej ˛ wiarygodności Szukamy takich wartości parametrów θ dla danych D, dla których funkcja wiarygodności L(θ; D) = p(D|θ) osiaga ˛ wartość maksymalna; ˛ inaczej: szukamy takich wartości parametrów, dla których dane D, które mamy, sa˛ najbardziej prawdopodobne. 12 / 39 Estymacja przekłamanych etykiet • Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` }, y = {y1 , . . . , y` }. • Ponieważ wszystkie obiekty ze realizacjami niezależnych zmiennych losowych, stad: ˛ L(GBayes ; y, X ) = p(y|GBayes , X ) = ` Y p(yi |GBayes (xi ), xi ) i=1 • Zachodzi: p(yi |GBayes (xi ), xi ) = p(xi ) 1 − p(xi ) jeśli yi 6= GBayes (xi ) jeśli yi = GBayes (xi ) lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti • Problem sprowadza sie˛ do maksymalizacji wyrażenia Q L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności danych. 13 / 39 Estymacja przekłamanych etykiet • Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` }, y = {y1 , . . . , y` }. • Ponieważ wszystkie obiekty ze realizacjami niezależnych zmiennych losowych, stad: ˛ L(GBayes ; y, X ) = p(y|GBayes , X ) = ` Y p(yi |GBayes (xi ), xi ) i=1 • Zachodzi: p(yi |GBayes (xi ), xi ) = p(xi ) 1 − p(xi ) jeśli yi 6= GBayes (xi ) jeśli yi = GBayes (xi ) lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti • Problem sprowadza sie˛ do maksymalizacji wyrażenia Q L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności danych. 13 / 39 Estymacja przekłamanych etykiet • Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` }, y = {y1 , . . . , y` }. • Ponieważ wszystkie obiekty ze realizacjami niezależnych zmiennych losowych, stad: ˛ L(GBayes ; y, X ) = p(y|GBayes , X ) = ` Y p(yi |GBayes (xi ), xi ) i=1 • Zachodzi: p(yi |GBayes (xi ), xi ) = p(xi ) 1 − p(xi ) jeśli yi 6= GBayes (xi ) jeśli yi = GBayes (xi ) lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti • Problem sprowadza sie˛ do maksymalizacji wyrażenia Q L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności danych. 13 / 39 Estymacja przekłamanych etykiet • Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` }, y = {y1 , . . . , y` }. • Ponieważ wszystkie obiekty ze realizacjami niezależnych zmiennych losowych, stad: ˛ L(GBayes ; y, X ) = p(y|GBayes , X ) = ` Y p(yi |GBayes (xi ), xi ) i=1 • Zachodzi: p(yi |GBayes (xi ), xi ) = p(xi ) 1 − p(xi ) jeśli yi 6= GBayes (xi ) jeśli yi = GBayes (xi ) lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti • Problem sprowadza sie˛ do maksymalizacji wyrażenia Q L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności danych. 13 / 39 Estymacja przekłamanych etykiet • Ponieważ logarytm jest funkcja˛ monotoniczna, ˛ wiec ˛ L ma maksimum wtw gdy ln L ma maksimum, stad ˛ można maksymalizować funkcje˛ ln L lub minimalizować − ln L: ! n Y ti 1−ti p(xi ) (1 − p(xi )) − ln L = − ln i=1 =− n X ti ln p(xi ) + (1 − ti ) ln(1 − p(xi )) i=1 = n X ti (ln(1 − p(xi )) − ln p(xi )) − i=1 • Odrzucajac ˛ Pn i=1 ln(1 n X ln(1 − p(xi )) i=1 i) − p(xi )) i wprowadzajac ˛ wagi wi = ln 1−p(x p(xi ) otrzymujemy: − ln L = n X wi ti i=1 14 / 39 Estymacja przekłamanych etykiet • Ponieważ logarytm jest funkcja˛ monotoniczna, ˛ wiec ˛ L ma maksimum wtw gdy ln L ma maksimum, stad ˛ można maksymalizować funkcje˛ ln L lub minimalizować − ln L: ! n Y ti 1−ti p(xi ) (1 − p(xi )) − ln L = − ln i=1 =− n X ti ln p(xi ) + (1 − ti ) ln(1 − p(xi )) i=1 = n X ti (ln(1 − p(xi )) − ln p(xi )) − i=1 • Odrzucajac ˛ Pn i=1 ln(1 n X ln(1 − p(xi )) i=1 i) − p(xi )) i wprowadzajac ˛ wagi wi = ln 1−p(x p(xi ) otrzymujemy: − ln L = n X wi ti i=1 14 / 39 Estymacja przekłamanych etykiet • Ponieważ logarytm jest funkcja˛ monotoniczna, ˛ wiec ˛ L ma maksimum wtw gdy ln L ma maksimum, stad ˛ można maksymalizować funkcje˛ ln L lub minimalizować − ln L: ! n Y ti 1−ti p(xi ) (1 − p(xi )) − ln L = − ln i=1 =− n X ti ln p(xi ) + (1 − ti ) ln(1 − p(xi )) i=1 = n X ti (ln(1 − p(xi )) − ln p(xi )) − i=1 • Odrzucajac ˛ Pn i=1 ln(1 n X ln(1 − p(xi )) i=1 i) − p(xi )) i wprowadzajac ˛ wagi wi = ln 1−p(x p(xi ) otrzymujemy: − ln L = n X wi ti i=1 14 / 39 Estymacja przekłamanych etykiet W rzeczywistości nie znamy wartości wi , bo nie znamy Pn p(x). Przyjmujemy wiec ˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti . Sformułowanie problemu Aby znaleźć prawdziwe (nieprzekłamane) wartości etykiet, musimy P znaleźć najmniejsza˛ wartość ni=1 ti zakładajac, ˛ że dane sa˛ monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛ liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji) zbiór danych. Rozwiazanie ˛ dla dwóch klas Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierza˛ unimodalna. ˛ 15 / 39 Estymacja przekłamanych etykiet W rzeczywistości nie znamy wartości wi , bo nie znamy Pn p(x). Przyjmujemy wiec ˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti . Sformułowanie problemu Aby znaleźć prawdziwe (nieprzekłamane) wartości etykiet, musimy P znaleźć najmniejsza˛ wartość ni=1 ti zakładajac, ˛ że dane sa˛ monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛ liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji) zbiór danych. Rozwiazanie ˛ dla dwóch klas Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierza˛ unimodalna. ˛ 15 / 39 Estymacja przekłamanych etykiet W rzeczywistości nie znamy wartości wi , bo nie znamy Pn p(x). Przyjmujemy wiec ˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti . Sformułowanie problemu Aby znaleźć prawdziwe (nieprzekłamane) wartości etykiet, musimy P znaleźć najmniejsza˛ wartość ni=1 ti zakładajac, ˛ że dane sa˛ monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛ liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji) zbiór danych. Rozwiazanie ˛ dla dwóch klas Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierza˛ unimodalna. ˛ 15 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 16 / 39 Kodowanie klas (przykład 5 klas) Propozycja I Nowa etykieta obiektu xi ∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5} Problemy • Jak modelować błedy? ˛ • Przykład: jeśli oryginalna etykieta to yi to jak zamodelować bład ˛ równy 0 gdy yi = di , równy 1 gdy yi 6= di • Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij • Bład ˛ w postaci odległości miedzy ˛ klasami |yi − di | niszczy unimodularność ograniczeń 17 / 39 Kodowanie klas (przykład 5 klas) Propozycja I Nowa etykieta obiektu xi ∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5} Problemy • Jak modelować błedy? ˛ • Przykład: jeśli oryginalna etykieta to yi to jak zamodelować bład ˛ równy 0 gdy yi = di , równy 1 gdy yi 6= di • Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij • Bład ˛ w postaci odległości miedzy ˛ klasami |yi − di | niszczy unimodularność ograniczeń 17 / 39 Kodowanie klas (przykład 5 klas) Propozycja II Kodowanie m klas za pomoca˛ m − 1 zmiennych di,1 , . . . , di,5 : klasa di,1 1 2 3 4 5 0 1 1 1 1 di,2 di,3 di,4 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 • Modelowanie dowolnych funkcji błedów, ˛ np. (1 − di,yi −1 ) + di,yi • Warunki monotoniczności zmiennych: di,j > di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2} di,j > dk,j dla i, k ∈ {1, . . . , n}, xi xk , j ∈ {1, . . . , m − 1} P • Nowa klasa (etykieta) dla obiektu xi to 1 + m−1 j=1 di,j . 18 / 39 Kodowanie klas (przykład 5 klas) Propozycja II Kodowanie m klas za pomoca˛ m − 1 zmiennych di,1 , . . . , di,5 : klasa di,1 1 2 3 4 5 0 1 1 1 1 di,2 di,3 di,4 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 • Modelowanie dowolnych funkcji błedów, ˛ np. (1 − di,yi −1 ) + di,yi • Warunki monotoniczności zmiennych: di,j > di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2} di,j > dk,j dla i, k ∈ {1, . . . , n}, xi xk , j ∈ {1, . . . , m − 1} P • Nowa klasa (etykieta) dla obiektu xi to 1 + m−1 j=1 di,j . 18 / 39 Sformułowanie problemu • Problem programowania liniowego całkowitoliczbowego z unimodalna˛ macierza˛ ograniczeń. • Funkcja celu: L= n X (1 − di,yi −1 ) + di,yi i=1 • Ograniczenia: 16j6m−2 di,j > di,j+1 1 6 i 6 n, dij > dkj ∀i, k : xi xk dij ∈ {0, 1} 1 6 i 6 n, 16j6m−1 16j6m−1 • Poluźniamy ostatnie ograniczenie do dij ∈ [0, 1] i rozwiazujemy ˛ jako problem PL. 19 / 39 Formalizm uogólnionej decyzji Uogólniona decyzja Uogólnionym przedziałem decyzji dla obiektu x nazywamy przedział: δ(x) = [l(x), u(x)] gdzie l(x) = min{yi : xi x}, u(x) = max{yi : x xi }. Jest to przedział zawierajacy ˛ każda˛ klase, ˛ do której x może należeć; zachodzi oczywiście l(x) 6 y(x) 6 u(x). 20 / 39 1.0 Formalizm uogólnionej decyzji — przykład 3 1 0.8 2 3 0.6 1 1 q2 2 0.4 2 3 3 0.2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 21 / 39 1.0 Formalizm uogólnionej decyzji — przykład 3 1 0.8 2 3 0.6 1 1 q2 2 0.4 2 3 3 0.2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 21 / 39 1.0 Formalizm uogólnionej decyzji — przykład 3 1 0.8 2 3 0.6 1 q2 [1,3] 2 1 0.4 2 3 3 0.2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 21 / 39 1.0 Formalizm uogólnionej decyzji — przykład [1,2] 1 [1,2] 3 [3,3] 0.8 2 3 0.6 1 [1,1] [1,3] q2 2 1 [1,3] 0.4 2 3 0.2 1 [3,3] [2,3] [1,3] 3 [1,1] [1,1] 0.0 1 [3,3] 0.0 0.2 0.4 0.6 0.8 1.0 q1 21 / 39 Równoważność uogólnionej decyzji i przybliżeń zbioru Wyznaczanie dolnych i górnych przybliżeń z przedziału uogólnionej decyzji P(Clt> ) = {x ∈ U : l(x) > t}, P(Clt> ) = {x ∈ U : u(x) > t}, P(Clt6 ) = {x ∈ U : u(x) 6 t}, P(Clt6 ) = {x ∈ U : l(x) 6 t} Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybliżeń n o n o l(x) = max t : x ∈ P(Clt> ) = min t : x ∈ P(Clt6 ) o n o n u(x) = min t : x ∈ P(Clt6 ) = max t : x ∈ P(Clt> ) 22 / 39 Równoważność uogólnionej decyzji i przybliżeń zbioru Wyznaczanie dolnych i górnych przybliżeń z przedziału uogólnionej decyzji P(Clt> ) = {x ∈ U : l(x) > t}, P(Clt> ) = {x ∈ U : u(x) > t}, P(Clt6 ) = {x ∈ U : u(x) 6 t}, P(Clt6 ) = {x ∈ U : l(x) 6 t} Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybliżeń n o n o l(x) = max t : x ∈ P(Clt> ) = min t : x ∈ P(Clt6 ) o n o n u(x) = min t : x ∈ P(Clt6 ) = max t : x ∈ P(Clt> ) 22 / 39 Redukcja zmiennych poprzez uogólniona˛ decyzje˛ Twierdzenie Istnieje rozwiazanie ˛ optymalne problemu przeetykietowania obiektów z wartościami nowych etykiet d(xi ) spełniajacymi: ˛ l(xi ) 6 d(xi ) 6 u(xi ) W szczególności, jeśli obiekt xi jest spójny, zachodzi: l(xi ) = y(xi ) = d(xi ) = u(xi ) czyli etykiety obiektów spójnych nie zostaja˛ zmienione i obiekty takie można usunać ˛ z problemu optymalizacyjnego. 23 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 24 / 39 1.0 Niejednoznaczność rozwiazania ˛ 2 0.8 2 1 0.6 1 q2 2 0.4 2 2 1 0.2 2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 25 / 39 1.0 Niejednoznaczność rozwiazania ˛ 2 0.8 2 1 0.6 1 2 q2 2 1 ● 0.4 2 1 ● 1 0.2 2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 25 / 39 1.0 Niejednoznaczność rozwiazania ˛ 2 0.8 2 1 2 ● 0.6 1 2 ● q2 2 0.4 2 2 1 0.2 2 1 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 25 / 39 Porzadek ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi Definicja Niech F bedzie ˛ zbiorem rozwiaza ˛ ń optymalnych problemu przeetykietowania, F = {f1 , . . . , f|F| }. Każde z rozwiaza ˛ ń optymalnych możemy traktować jako wektor etykiet fr = (fr (x1 ), . . . , fr (x` )). Wprowadzamy relacje˛ cze˛ ściowego porzadku ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi w sposób nastepuj ˛ acy: ˛ fs fr ⇐⇒ ∀16i6` fs (xi ) > fr (xi ) Definicja Zdefiniujmy operatory min, max działajace ˛ w przestrzeni rozwiaza ˛ ń, w sposób nastepuj ˛ acy: ˛ min{fs , fr } = (min{fs (x1 ), fr (x1 )}, . . . , min{fs (x` ), fr (x` )}) max{fs , fr } = (max{fs (x1 ), fr (x1 )}, . . . , max{fs (x` ), fr (x` )}) 26 / 39 Porzadek ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi Definicja Niech F bedzie ˛ zbiorem rozwiaza ˛ ń optymalnych problemu przeetykietowania, F = {f1 , . . . , f|F| }. Każde z rozwiaza ˛ ń optymalnych możemy traktować jako wektor etykiet fr = (fr (x1 ), . . . , fr (x` )). Wprowadzamy relacje˛ cze˛ ściowego porzadku ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi w sposób nastepuj ˛ acy: ˛ fs fr ⇐⇒ ∀16i6` fs (xi ) > fr (xi ) Definicja Zdefiniujmy operatory min, max działajace ˛ w przestrzeni rozwiaza ˛ ń, w sposób nastepuj ˛ acy: ˛ min{fs , fr } = (min{fs (x1 ), fr (x1 )}, . . . , min{fs (x` ), fr (x` )}) max{fs , fr } = (max{fs (x1 ), fr (x1 )}, . . . , max{fs (x` ), fr (x` )}) 26 / 39 Porzadek ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi Lemat Jeśli f1 i f2 sa˛ rozwiazaniami ˛ optymalnymi, to rozwiazania ˛ f3 = max{f1 , f2 } i f4 = min{f1 , f2 } sa˛ również rozwiazaniami ˛ optymalnymi. Twierdzenie W zbiorze rozwiaza ˛ ń optymalnych F istnieja˛ elementy najmniejszy i najwiekszy. ˛ ∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f 27 / 39 Porzadek ˛ miedzy ˛ rozwiazaniami ˛ optymalnymi Lemat Jeśli f1 i f2 sa˛ rozwiazaniami ˛ optymalnymi, to rozwiazania ˛ f3 = max{f1 , f2 } i f4 = min{f1 , f2 } sa˛ również rozwiazaniami ˛ optymalnymi. Twierdzenie W zbiorze rozwiaza ˛ ń optymalnych F istnieja˛ elementy najmniejszy i najwiekszy. ˛ ∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f 27 / 39 Przykład - porzadek ˛ na kracie ● ● ● f5 f1 f2 ● ● f4 ● f6 ● f8 f3 ● f7 28 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 29 / 39 Optymalizowany przedział decyzji Jak wyznaczyć wartości fmin i fmax ? Rozwiazania ˛ fmin i fmax można znaleźć rozwiazuj ˛ ac ˛ problem przeetykietowania ze zmodyfikowana˛ funkcja˛ celu L = L0 ± M −1 L1 , gdzie: P • L0 = ni=1 (1 − di,yi −1 ) + di,yi jest przeetykietowań. P Pu(xi )−1 • L1 = `i=1 j=l(x di,j jest (z dokładnościa˛ do stałej) suma˛ i) nowych etykiet (klas) obiektów. • waga M −1 jest tak dobrana, aby uzyskać porzadek ˛ leksykograficzny kryteriów — zachodzi dla M > P` i=1 (u(xi ) − l(xi )). • znak ± dobierany jest aby uzyskać fmin lub fmax . 30 / 39 Optymalizowany przedział decyzji Jak wyznaczyć wartości fmin i fmax ? Rozwiazania ˛ fmin i fmax można znaleźć rozwiazuj ˛ ac ˛ problem przeetykietowania ze zmodyfikowana˛ funkcja˛ celu L = L0 ± M −1 L1 , gdzie: P • L0 = ni=1 (1 − di,yi −1 ) + di,yi jest przeetykietowań. P Pu(xi )−1 • L1 = `i=1 j=l(x di,j jest (z dokładnościa˛ do stałej) suma˛ i) nowych etykiet (klas) obiektów. • waga M −1 jest tak dobrana, aby uzyskać porzadek ˛ leksykograficzny kryteriów — zachodzi dla M > P` i=1 (u(xi ) − l(xi )). • znak ± dobierany jest aby uzyskać fmin lub fmax . 30 / 39 Optymalizowany przedział decyzji Definicja Zdefiniujmy optymalizowany przedział uogólnionej decyzji δ opt (xi ) jako [fmin (xi ), fmax (xi )], dla xi ∈ X . Na mocy równoważności, majac ˛ optymalizowany przedział uogólnionej decyzji, możemy wyznaczyć optymalizowane dolne i górne przybliżenia kumulacji klas. 31 / 39 1.0 Optymalizowany przedział decyzji — przykład 2 0.8 2 3 0.6 1 q2 3 1 0.4 2 0.2 1 3 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 32 / 39 1.0 Optymalizowany przedział decyzji — przykład 2 0.8 2 3 0.6 3 ● q2 3 1 0.4 1 ● 0.2 1 3 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 32 / 39 1.0 Optymalizowany przedział decyzji — przykład 2 0.8 2 3 0.6 3 ● 3 q2 2 ● 0.4 2 0.2 1 3 0.0 1 0.0 0.2 0.4 0.6 0.8 1.0 q1 32 / 39 1.0 Optymalizowany przedział decyzji — przykład 2 0.8 2 [2,2] [2,2] 3 [3,3] 0.6 3 3 [3,3] [3,3] q2 [1,2] 0.4 [1,2] [1,1] 0.2 1 3 [1,1] 0.0 1 [3,3] 0.0 0.2 0.4 0.6 0.8 1.0 q1 32 / 39 Zmienny poziom spójności Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛ przeetykietowanych obiektów, a L1 jest suma˛ etykiet. • Jeśli = −1, otrzymujemy optymalizowany przedział decyzji. • Jeśli = 1, porzadek ˛ leksykograficzny kryteriów zamienia sie˛ i otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy ˛ ilościa˛ przeetykietowań, a klasycznymi przybliżeniami DRSA. -optymalizowany przedział uogólnionej decyzji -optymalizowany przedział uogólnionej decyzji (na poziomie spójności ) powstaje poprzez rozwiazanie ˛ problemu optymalizacyjnego L = L0 ± M L1 , dla ∈ [−1, 1]. 33 / 39 Zmienny poziom spójności Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛ przeetykietowanych obiektów, a L1 jest suma˛ etykiet. • Jeśli = −1, otrzymujemy optymalizowany przedział decyzji. • Jeśli = 1, porzadek ˛ leksykograficzny kryteriów zamienia sie˛ i otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy ˛ ilościa˛ przeetykietowań, a klasycznymi przybliżeniami DRSA. -optymalizowany przedział uogólnionej decyzji -optymalizowany przedział uogólnionej decyzji (na poziomie spójności ) powstaje poprzez rozwiazanie ˛ problemu optymalizacyjnego L = L0 ± M L1 , dla ∈ [−1, 1]. 33 / 39 Zmienny poziom spójności Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛ przeetykietowanych obiektów, a L1 jest suma˛ etykiet. • Jeśli = −1, otrzymujemy optymalizowany przedział decyzji. • Jeśli = 1, porzadek ˛ leksykograficzny kryteriów zamienia sie˛ i otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy ˛ ilościa˛ przeetykietowań, a klasycznymi przybliżeniami DRSA. -optymalizowany przedział uogólnionej decyzji -optymalizowany przedział uogólnionej decyzji (na poziomie spójności ) powstaje poprzez rozwiazanie ˛ problemu optymalizacyjnego L = L0 ± M L1 , dla ∈ [−1, 1]. 33 / 39 Zmienny poziom spójności Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛ przeetykietowanych obiektów, a L1 jest suma˛ etykiet. • Jeśli = −1, otrzymujemy optymalizowany przedział decyzji. • Jeśli = 1, porzadek ˛ leksykograficzny kryteriów zamienia sie˛ i otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy ˛ ilościa˛ przeetykietowań, a klasycznymi przybliżeniami DRSA. -optymalizowany przedział uogólnionej decyzji -optymalizowany przedział uogólnionej decyzji (na poziomie spójności ) powstaje poprzez rozwiazanie ˛ problemu optymalizacyjnego L = L0 ± M L1 , dla ∈ [−1, 1]. 33 / 39 Zmienny poziom spójności Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛ przeetykietowanych obiektów, a L1 jest suma˛ etykiet. • Jeśli = −1, otrzymujemy optymalizowany przedział decyzji. • Jeśli = 1, porzadek ˛ leksykograficzny kryteriów zamienia sie˛ i otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy ˛ ilościa˛ przeetykietowań, a klasycznymi przybliżeniami DRSA. -optymalizowany przedział uogólnionej decyzji -optymalizowany przedział uogólnionej decyzji (na poziomie spójności ) powstaje poprzez rozwiazanie ˛ problemu optymalizacyjnego L = L0 ± M L1 , dla ∈ [−1, 1]. 33 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Procedura klasyfikacji 1 2 3 4 Wyznacz -optymalizowany przedział uogólnionej decyzji. Utwórz dwa zbiory danych, jeden zawierajacy ˛ zbiór obiektów wraz z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału. Naucz klasyfikator (najlepiej zachowujacy ˛ monotoniczność), osobno na obu zbiorach, otrzymujac ˛ dwa klasyfikatory Cl i Cu . Przy późniejszej klasyfikacji obiektu x: • Jeśli klasyfikator wskazuje pojedyncza˛ klase, ˛ oceń obiekt x za pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase, ˛ przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛ odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania konfliktów. • Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x)) oraz (pu (y = 1|x), . . . , pu (y = m|x)), podaj na wyjściu rozkład klas pl (y=1|x)+pu (y=1|x) pl (y=m|x)+pu (y=m|x) ,..., . 2 2 34 / 39 Spis treści 1 Wprowadzenie 2 Model probabilistyczny i estymacja parametrów 3 Problem przeetykietowywania obiektów 4 Własności rozwiaza ˛ ń optymalnych 5 Nowa definicja uogólnionej decyzji 6 Wyniki eksperymentalne 35 / 39 Eksperyment • Wybrano sześć zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sześć typów klasyfikatorów: • SVM liniowy (svm-lin), • SVM wielomianowy (stopień 3) (svm-poly), • drzewa decyzyjne (j48), • AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost), • rodziny reguł decyzyjnych (ensembles), • rodziny monotonicznych reguł decyzyjnych (dom-ensmbls) • Każdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja krzyżowa, dodatkowo powtórzona 10-krotnie. • Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa. ˛ 36 / 39 Eksperyment • Wybrano sześć zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sześć typów klasyfikatorów: • SVM liniowy (svm-lin), • SVM wielomianowy (stopień 3) (svm-poly), • drzewa decyzyjne (j48), • AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost), • rodziny reguł decyzyjnych (ensembles), • rodziny monotonicznych reguł decyzyjnych (dom-ensmbls) • Każdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja krzyżowa, dodatkowo powtórzona 10-krotnie. • Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa. ˛ 36 / 39 Eksperyment • Wybrano sześć zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sześć typów klasyfikatorów: • SVM liniowy (svm-lin), • SVM wielomianowy (stopień 3) (svm-poly), • drzewa decyzyjne (j48), • AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost), • rodziny reguł decyzyjnych (ensembles), • rodziny monotonicznych reguł decyzyjnych (dom-ensmbls) • Każdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja krzyżowa, dodatkowo powtórzona 10-krotnie. • Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa. ˛ 36 / 39 Eksperyment • Wybrano sześć zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sześć typów klasyfikatorów: • SVM liniowy (svm-lin), • SVM wielomianowy (stopień 3) (svm-poly), • drzewa decyzyjne (j48), • AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost), • rodziny reguł decyzyjnych (ensembles), • rodziny monotonicznych reguł decyzyjnych (dom-ensmbls) • Każdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja krzyżowa, dodatkowo powtórzona 10-krotnie. • Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa. ˛ 36 / 39 Eksperyment • Wybrano sześć zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sześć typów klasyfikatorów: • SVM liniowy (svm-lin), • SVM wielomianowy (stopień 3) (svm-poly), • drzewa decyzyjne (j48), • AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost), • rodziny reguł decyzyjnych (ensembles), • rodziny monotonicznych reguł decyzyjnych (dom-ensmbls) • Każdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja krzyżowa, dodatkowo powtórzona 10-krotnie. • Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa. ˛ 36 / 39 Wyniki klasyfikator svm-lin svm-poly j48 AdaBoost ensembles dom-ensmbls heart-c 84.1 83.0 77.8 78.4 76.3 76.8 82.3 82.4 80.0 80.3 80.7 81.2 heart-h 80.6 80.3 76.7 77.8 76.1 77.0 79.0 79.5 78.7 78.8 79.8 79.6 credit-g 75.0 75.5 71.3 74.0 71.3 73.6 70.9 72.5 74.3 75.6 74.4 75.8 credit-a 86.3 86.2 82.2 84.0 85.5 86.8 85.5 86.2 86.5 86.6 86.6 86.4 Legenda: niebieski — istotny statystycznie spadek trafności po użyciu optymalizowanych przedziałów decyzji; pomarańczowy — istotny statystycznie wzrost trafności po użyciu optymalizowanych przedziałów decyzji; czarny — różnica nieistotna statystycznie. 37 / 39 Wyniki klasyfikator svm-lin j48 ensembles dom-ensmbls breast-cancer 75.0 76.8 76.1 74.7 74.7 77.6 77.2 77.6 breast-w 97.0 97.2 96.3 95.6 97.0 97.3 97.0 97.6 Legenda: R — przyrost trafność predykcji przy użyciu optymalizowanych przedziałów decyzji, R 6 −0.5 −0.5 6 R 6 0.5 R > 0.5 R>1 38 / 39 Dziekuj ˛ e˛ za uwage... ˛ 39 / 39