Estymacja przedzialu uogólnionej decyzji w podejsciu DRSA

Transkrypt

Estymacja przedzialu uogólnionej decyzji w podejsciu DRSA
Estymacja przedziału uogólnionej decyzji
w podejściu DRSA
Wojciech Kotłowski
21.11.2006
1 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
2 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
3 / 39
Notacja
• zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n
atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego
Y = {1, . . . , m}.
• qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość
decyzji dla j-tego obiektu; bedziemy
˛
też używać skrótu
x = (q1 (x), . . . qn (x))
• każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛
niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o
jednakowym rozkładzie p(Q, Y).
• zakładamy, że na każdym atrybucie skala przynajmniej
porzadkowa;
˛
implikuje to istnienie relacji dominacji ,
definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z))
4 / 39
Notacja
• zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n
atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego
Y = {1, . . . , m}.
• qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość
decyzji dla j-tego obiektu; bedziemy
˛
też używać skrótu
x = (q1 (x), . . . qn (x))
• każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛
niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o
jednakowym rozkładzie p(Q, Y).
• zakładamy, że na każdym atrybucie skala przynajmniej
porzadkowa;
˛
implikuje to istnienie relacji dominacji ,
definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z))
4 / 39
Notacja
• zbiór ` obiektów X = {x1 , . . . , x` } opisanych za pomoca˛ n
atrybutów warunkowych Q = {Q1 , . . . , Qn } i atrybutu decyzyjnego
Y = {1, . . . , m}.
• qi (xj ) — wartość j-tego obiektu na i-tym atrybucie; yj — wartość
decyzji dla j-tego obiektu; bedziemy
˛
też używać skrótu
x = (q1 (x), . . . qn (x))
• każdy obiekt x ∈ X (a właściwie para (x, y) ∈ Q × Y) jest realizacja˛
niezależnej zmiennej losowej (Q1 , . . . , Qn , Y) = (Q, Y) o
jednakowym rozkładzie p(Q, Y).
• zakładamy, że na każdym atrybucie skala przynajmniej
porzadkowa;
˛
implikuje to istnienie relacji dominacji ,
definiowanej jako: x z ⇐⇒ ∀i (qi (x) > qi (z))
4 / 39
Zwiazki
˛ monotoniczne
Stochastyczna dominacja
• Zwiazki
˛ monotoniczne definiowane poprzez stochastyczna˛
dominacje:
˛ p(y > i|x) jest funkcja˛ monotoniczna˛ ze wzgledu
˛
na
q1 (x), . . . , qn (x).
• Wszystkie atrybuty sa˛ kryteriami typu zysk, stad
˛ p(y > i|x) jest
rosnaca
˛ ze wzgledu
˛
na każde qi (x).
• W przypadku dwuklasowym Y = {0, 1}, p(y = 1|x) jest rosnaca,
˛
zaś p(y = 0|x) — malejaca
˛ ze wzgledu
˛
na każde qi (x).
5 / 39
Przykład (prawdopodobieństwa klas)
0.6
0.4
0.2
0.0
p(y|x)
0.8
1.0
p(y=1|x)
p(y=2|x)
p(y=3|x)
−2
−1
0
1
2
x
6 / 39
Przykład (prawdopodobieństwa kumulacji)
0.6
0.4
0.2
0.0
p(y|x)
0.8
1.0
p(y ≥ 1|x)
p(y ≥ 2|x)
p(y ≥ 3|x)
−2
−1
0
1
2
x
7 / 39
Przykład („twarda” dominacja)
0.6
0.4
0.2
0.0
p(y|x)
0.8
1.0
p(y=1|x)
p(y=2|x)
p(y=3|x)
−2
−1
0
1
2
x
8 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
9 / 39
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x),
ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x).
• Problem jest deterministyczny, jeśli
∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio
popełnia najmniejszy bład:
˛ Gopt = arg minG E[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes (x) =
1 p1 (x) > p0 (x) ≡ p1 (x) >
0 p0 (x) > p1 (x) ≡ p1 (x) <
1
2
1
2
• Zachodzi: GBayes = Gopt .
• Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest
monotoniczna ze wzgledu
˛
na q1 (x), . . . , qn (x).
10 / 39
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x),
ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x).
• Problem jest deterministyczny, jeśli
∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio
popełnia najmniejszy bład:
˛ Gopt = arg minG E[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes (x) =
1 p1 (x) > p0 (x) ≡ p1 (x) >
0 p0 (x) > p1 (x) ≡ p1 (x) <
1
2
1
2
• Zachodzi: GBayes = Gopt .
• Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest
monotoniczna ze wzgledu
˛
na q1 (x), . . . , qn (x).
10 / 39
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x),
ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x).
• Problem jest deterministyczny, jeśli
∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio
popełnia najmniejszy bład:
˛ Gopt = arg minG E[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes (x) =
1 p1 (x) > p0 (x) ≡ p1 (x) >
0 p0 (x) > p1 (x) ≡ p1 (x) <
1
2
1
2
• Zachodzi: GBayes = Gopt .
• Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest
monotoniczna ze wzgledu
˛
na q1 (x), . . . , qn (x).
10 / 39
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoca˛ jednej funkcji p(y = 1|x) ≡ p1 (x),
ponieważ p(y = 0|x) ≡ p0 (x) = 1 − p1 (x).
• Problem jest deterministyczny, jeśli
∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt , tj. klasyfikator, który średnio
popełnia najmniejszy bład:
˛ Gopt = arg minG E[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes (x) =
1 p1 (x) > p0 (x) ≡ p1 (x) >
0 p0 (x) > p1 (x) ≡ p1 (x) <
1
2
1
2
• Zachodzi: GBayes = Gopt .
• Jeśli dane sa˛ monotoniczne, to funkcja GBayes (x) jest
monotoniczna ze wzgledu
˛
na q1 (x), . . . , qn (x).
10 / 39
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako:
T(X, Y) =
1 GBayes (X) = Y
0 GBayes (X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia
bład.
˛
• T ma dla danego x rozkład prawdopodobieństwa
p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest
prawdopodobieństwem popełnienia błedu
˛
przez klasyfikator
Bayesowski.
• Możemy problem potraktować jako deterministyczny z funkcja˛
GBayes (x) wyznaczajac
˛ a˛ zależność miedzy
˛
y a x, z dodatkowym
przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z
prawdopodobieństwem p(x).
11 / 39
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako:
T(X, Y) =
1 GBayes (X) = Y
0 GBayes (X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia
bład.
˛
• T ma dla danego x rozkład prawdopodobieństwa
p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest
prawdopodobieństwem popełnienia błedu
˛
przez klasyfikator
Bayesowski.
• Możemy problem potraktować jako deterministyczny z funkcja˛
GBayes (x) wyznaczajac
˛ a˛ zależność miedzy
˛
y a x, z dodatkowym
przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z
prawdopodobieństwem p(x).
11 / 39
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienna˛ losowa˛ T = T(X, Y) jako:
T(X, Y) =
1 GBayes (X) = Y
0 GBayes (X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia
bład.
˛
• T ma dla danego x rozkład prawdopodobieństwa
p(t = 1|x) ≡ p(x) = min{p1 (x), p0 (x)}; p(x) jest
prawdopodobieństwem popełnienia błedu
˛
przez klasyfikator
Bayesowski.
• Możemy problem potraktować jako deterministyczny z funkcja˛
GBayes (x) wyznaczajac
˛ a˛ zależność miedzy
˛
y a x, z dodatkowym
przekłamaniem wartości y (zamiana y = 1 na y = 0 i odwrotnie) z
prawdopodobieństwem p(x).
11 / 39
Estymator najwiekszej
˛
wiarygodności
• Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego
˛
X
zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli
wiemy, że dane sa˛ monotoniczne?
• Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa
przekłamania p(xi ) i wiemy, że problem jest monotoniczny.
Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez
wyznaczenie wartości GBayes (xi ), traktujac
˛ je jako parametry i
stosujac
˛ metode˛ najwiekszej
˛
wiarygodności.
Estymacja metoda˛ najwiekszej
˛
wiarygodności
Szukamy takich wartości parametrów θ dla danych D, dla których
funkcja wiarygodności L(θ; D) = p(D|θ) osiaga
˛ wartość maksymalna;
˛
inaczej: szukamy takich wartości parametrów, dla których dane D,
które mamy, sa˛ najbardziej prawdopodobne.
12 / 39
Estymator najwiekszej
˛
wiarygodności
• Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego
˛
X
zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli
wiemy, że dane sa˛ monotoniczne?
• Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa
przekłamania p(xi ) i wiemy, że problem jest monotoniczny.
Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez
wyznaczenie wartości GBayes (xi ), traktujac
˛ je jako parametry i
stosujac
˛ metode˛ najwiekszej
˛
wiarygodności.
Estymacja metoda˛ najwiekszej
˛
wiarygodności
Szukamy takich wartości parametrów θ dla danych D, dla których
funkcja wiarygodności L(θ; D) = p(D|θ) osiaga
˛ wartość maksymalna;
˛
inaczej: szukamy takich wartości parametrów, dla których dane D,
które mamy, sa˛ najbardziej prawdopodobne.
12 / 39
Estymator najwiekszej
˛
wiarygodności
• Jak wyznaczyć, które z etykiet obiektów ze zbioru uczacego
˛
X
zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, jeśli
wiemy, że dane sa˛ monotoniczne?
• Przyjmijmy, że znamy dla każdego xi ∈ X prawdopodobieństwa
przekłamania p(xi ) i wiemy, że problem jest monotoniczny.
Chcemy wyznaczyć wartości t(xi ), co można zrobić poprzez
wyznaczenie wartości GBayes (xi ), traktujac
˛ je jako parametry i
stosujac
˛ metode˛ najwiekszej
˛
wiarygodności.
Estymacja metoda˛ najwiekszej
˛
wiarygodności
Szukamy takich wartości parametrów θ dla danych D, dla których
funkcja wiarygodności L(θ; D) = p(D|θ) osiaga
˛ wartość maksymalna;
˛
inaczej: szukamy takich wartości parametrów, dla których dane D,
które mamy, sa˛ najbardziej prawdopodobne.
12 / 39
Estymacja przekłamanych etykiet
• Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` },
y = {y1 , . . . , y` }.
• Ponieważ wszystkie obiekty ze realizacjami niezależnych
zmiennych losowych, stad:
˛
L(GBayes ; y, X ) = p(y|GBayes , X ) =
`
Y
p(yi |GBayes (xi ), xi )
i=1
• Zachodzi:
p(yi |GBayes (xi ), xi ) =
p(xi )
1 − p(xi )
jeśli yi 6= GBayes (xi )
jeśli yi = GBayes (xi )
lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti
• Problem sprowadza sie˛ do maksymalizacji wyrażenia
Q
L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności
danych.
13 / 39
Estymacja przekłamanych etykiet
• Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` },
y = {y1 , . . . , y` }.
• Ponieważ wszystkie obiekty ze realizacjami niezależnych
zmiennych losowych, stad:
˛
L(GBayes ; y, X ) = p(y|GBayes , X ) =
`
Y
p(yi |GBayes (xi ), xi )
i=1
• Zachodzi:
p(yi |GBayes (xi ), xi ) =
p(xi )
1 − p(xi )
jeśli yi 6= GBayes (xi )
jeśli yi = GBayes (xi )
lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti
• Problem sprowadza sie˛ do maksymalizacji wyrażenia
Q
L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności
danych.
13 / 39
Estymacja przekłamanych etykiet
• Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` },
y = {y1 , . . . , y` }.
• Ponieważ wszystkie obiekty ze realizacjami niezależnych
zmiennych losowych, stad:
˛
L(GBayes ; y, X ) = p(y|GBayes , X ) =
`
Y
p(yi |GBayes (xi ), xi )
i=1
• Zachodzi:
p(yi |GBayes (xi ), xi ) =
p(xi )
1 − p(xi )
jeśli yi 6= GBayes (xi )
jeśli yi = GBayes (xi )
lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti
• Problem sprowadza sie˛ do maksymalizacji wyrażenia
Q
L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności
danych.
13 / 39
Estymacja przekłamanych etykiet
• Załóżmy, że xi ∈ X sa˛ ustalone; użyjemy skrótów t = {t1 , . . . , t` },
y = {y1 , . . . , y` }.
• Ponieważ wszystkie obiekty ze realizacjami niezależnych
zmiennych losowych, stad:
˛
L(GBayes ; y, X ) = p(y|GBayes , X ) =
`
Y
p(yi |GBayes (xi ), xi )
i=1
• Zachodzi:
p(yi |GBayes (xi ), xi ) =
p(xi )
1 − p(xi )
jeśli yi 6= GBayes (xi )
jeśli yi = GBayes (xi )
lub równoważnie p(yi |GBayes (xi ), xi ) = p(xi )ti (1 − p(xi ))1−ti
• Problem sprowadza sie˛ do maksymalizacji wyrażenia
Q
L = `i=1 p(xi )ti (1 − p(xi ))1−ti , pod warunkiem monotoniczności
danych.
13 / 39
Estymacja przekłamanych etykiet
• Ponieważ logarytm jest funkcja˛ monotoniczna,
˛ wiec
˛ L ma
maksimum wtw gdy ln L ma maksimum, stad
˛ można
maksymalizować funkcje˛ ln L lub minimalizować − ln L:
!
n
Y
ti
1−ti
p(xi ) (1 − p(xi ))
− ln L = − ln
i=1
=−
n
X
ti ln p(xi ) + (1 − ti ) ln(1 − p(xi ))
i=1
=
n
X
ti (ln(1 − p(xi )) − ln p(xi )) −
i=1
• Odrzucajac
˛
Pn
i=1 ln(1
n
X
ln(1 − p(xi ))
i=1
i)
− p(xi )) i wprowadzajac
˛ wagi wi = ln 1−p(x
p(xi )
otrzymujemy:
− ln L =
n
X
wi ti
i=1
14 / 39
Estymacja przekłamanych etykiet
• Ponieważ logarytm jest funkcja˛ monotoniczna,
˛ wiec
˛ L ma
maksimum wtw gdy ln L ma maksimum, stad
˛ można
maksymalizować funkcje˛ ln L lub minimalizować − ln L:
!
n
Y
ti
1−ti
p(xi ) (1 − p(xi ))
− ln L = − ln
i=1
=−
n
X
ti ln p(xi ) + (1 − ti ) ln(1 − p(xi ))
i=1
=
n
X
ti (ln(1 − p(xi )) − ln p(xi )) −
i=1
• Odrzucajac
˛
Pn
i=1 ln(1
n
X
ln(1 − p(xi ))
i=1
i)
− p(xi )) i wprowadzajac
˛ wagi wi = ln 1−p(x
p(xi )
otrzymujemy:
− ln L =
n
X
wi ti
i=1
14 / 39
Estymacja przekłamanych etykiet
• Ponieważ logarytm jest funkcja˛ monotoniczna,
˛ wiec
˛ L ma
maksimum wtw gdy ln L ma maksimum, stad
˛ można
maksymalizować funkcje˛ ln L lub minimalizować − ln L:
!
n
Y
ti
1−ti
p(xi ) (1 − p(xi ))
− ln L = − ln
i=1
=−
n
X
ti ln p(xi ) + (1 − ti ) ln(1 − p(xi ))
i=1
=
n
X
ti (ln(1 − p(xi )) − ln p(xi )) −
i=1
• Odrzucajac
˛
Pn
i=1 ln(1
n
X
ln(1 − p(xi ))
i=1
i)
− p(xi )) i wprowadzajac
˛ wagi wi = ln 1−p(x
p(xi )
otrzymujemy:
− ln L =
n
X
wi ti
i=1
14 / 39
Estymacja przekłamanych etykiet
W rzeczywistości nie znamy wartości wi , bo nie znamy
Pn p(x).
Przyjmujemy wiec
˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti .
Sformułowanie problemu
Aby znaleźć prawdziwe (nieprzekłamane)
wartości etykiet, musimy
P
znaleźć najmniejsza˛ wartość ni=1 ti zakładajac,
˛ że dane sa˛
monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛
liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji)
zbiór danych.
Rozwiazanie
˛
dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem
programowania całkowitoliczbowego z macierza˛ unimodalna.
˛
15 / 39
Estymacja przekłamanych etykiet
W rzeczywistości nie znamy wartości wi , bo nie znamy
Pn p(x).
Przyjmujemy wiec
˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti .
Sformułowanie problemu
Aby znaleźć prawdziwe (nieprzekłamane)
wartości etykiet, musimy
P
znaleźć najmniejsza˛ wartość ni=1 ti zakładajac,
˛ że dane sa˛
monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛
liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji)
zbiór danych.
Rozwiazanie
˛
dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem
programowania całkowitoliczbowego z macierza˛ unimodalna.
˛
15 / 39
Estymacja przekłamanych etykiet
W rzeczywistości nie znamy wartości wi , bo nie znamy
Pn p(x).
Przyjmujemy wiec
˛ wi ≡ w i otrzymujemy − ln L = w i=1 ti .
Sformułowanie problemu
Aby znaleźć prawdziwe (nieprzekłamane)
wartości etykiet, musimy
P
znaleźć najmniejsza˛ wartość ni=1 ti zakładajac,
˛ że dane sa˛
monotoniczne. Innymi słowy, musimy przeetykietować jak najmniejsza˛
liczbe˛ obiektów, aby otrzymać spójny (zgodny z zasada˛ dominacji)
zbiór danych.
Rozwiazanie
˛
dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem
programowania całkowitoliczbowego z macierza˛ unimodalna.
˛
15 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
16 / 39
Kodowanie klas (przykład 5 klas)
Propozycja I
Nowa etykieta obiektu xi ∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}
Problemy
• Jak modelować błedy?
˛
• Przykład: jeśli oryginalna etykieta to yi to jak zamodelować bład
˛
równy 0 gdy yi = di , równy 1 gdy yi 6= di
• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt
Lij
• Bład
˛ w postaci odległości miedzy
˛
klasami |yi − di | niszczy
unimodularność ograniczeń
17 / 39
Kodowanie klas (przykład 5 klas)
Propozycja I
Nowa etykieta obiektu xi ∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}
Problemy
• Jak modelować błedy?
˛
• Przykład: jeśli oryginalna etykieta to yi to jak zamodelować bład
˛
równy 0 gdy yi = di , równy 1 gdy yi 6= di
• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt
Lij
• Bład
˛ w postaci odległości miedzy
˛
klasami |yi − di | niszczy
unimodularność ograniczeń
17 / 39
Kodowanie klas (przykład 5 klas)
Propozycja II
Kodowanie m klas za pomoca˛ m − 1 zmiennych di,1 , . . . , di,5 :
klasa di,1
1
2
3
4
5
0
1
1
1
1
di,2
di,3
di,4
0
0
1
1
1
0
0
0
1
1
0
0
0
0
1
• Modelowanie dowolnych funkcji błedów,
˛
np. (1 − di,yi −1 ) + di,yi
• Warunki monotoniczności zmiennych:
di,j > di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}
di,j > dk,j dla i, k ∈ {1, . . . , n}, xi xk , j ∈ {1, . . . , m − 1}
P
• Nowa klasa (etykieta) dla obiektu xi to 1 + m−1
j=1 di,j .
18 / 39
Kodowanie klas (przykład 5 klas)
Propozycja II
Kodowanie m klas za pomoca˛ m − 1 zmiennych di,1 , . . . , di,5 :
klasa di,1
1
2
3
4
5
0
1
1
1
1
di,2
di,3
di,4
0
0
1
1
1
0
0
0
1
1
0
0
0
0
1
• Modelowanie dowolnych funkcji błedów,
˛
np. (1 − di,yi −1 ) + di,yi
• Warunki monotoniczności zmiennych:
di,j > di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}
di,j > dk,j dla i, k ∈ {1, . . . , n}, xi xk , j ∈ {1, . . . , m − 1}
P
• Nowa klasa (etykieta) dla obiektu xi to 1 + m−1
j=1 di,j .
18 / 39
Sformułowanie problemu
• Problem programowania liniowego całkowitoliczbowego z
unimodalna˛ macierza˛ ograniczeń.
• Funkcja celu:
L=
n
X
(1 − di,yi −1 ) + di,yi
i=1
• Ograniczenia:
16j6m−2
di,j > di,j+1
1 6 i 6 n,
dij > dkj
∀i, k : xi xk
dij ∈ {0, 1}
1 6 i 6 n,
16j6m−1
16j6m−1
• Poluźniamy ostatnie ograniczenie do dij ∈ [0, 1] i rozwiazujemy
˛
jako problem PL.
19 / 39
Formalizm uogólnionej decyzji
Uogólniona decyzja
Uogólnionym przedziałem decyzji dla obiektu x nazywamy przedział:
δ(x) = [l(x), u(x)]
gdzie l(x) = min{yi : xi x}, u(x) = max{yi : x xi }.
Jest to przedział zawierajacy
˛ każda˛ klase,
˛ do której x może należeć;
zachodzi oczywiście l(x) 6 y(x) 6 u(x).
20 / 39
1.0
Formalizm uogólnionej decyzji — przykład
3
1
0.8
2
3
0.6
1
1
q2
2
0.4
2
3
3
0.2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
21 / 39
1.0
Formalizm uogólnionej decyzji — przykład
3
1
0.8
2
3
0.6
1
1
q2
2
0.4
2
3
3
0.2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
21 / 39
1.0
Formalizm uogólnionej decyzji — przykład
3
1
0.8
2
3
0.6
1
q2
[1,3]
2
1
0.4
2
3
3
0.2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
21 / 39
1.0
Formalizm uogólnionej decyzji — przykład
[1,2]
1
[1,2]
3
[3,3]
0.8
2
3
0.6
1
[1,1]
[1,3]
q2
2
1
[1,3]
0.4
2
3
0.2
1
[3,3]
[2,3]
[1,3]
3
[1,1]
[1,1]
0.0
1
[3,3]
0.0
0.2
0.4
0.6
0.8
1.0
q1
21 / 39
Równoważność uogólnionej decyzji i przybliżeń zbioru
Wyznaczanie dolnych i górnych przybliżeń z przedziału
uogólnionej decyzji
P(Clt> ) = {x ∈ U : l(x) > t},
P(Clt> ) = {x ∈ U : u(x) > t},
P(Clt6 ) = {x ∈ U : u(x) 6 t},
P(Clt6 ) = {x ∈ U : l(x) 6 t}
Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych
przybliżeń
n
o
n
o
l(x) = max t : x ∈ P(Clt> ) = min t : x ∈ P(Clt6 )
o
n
o
n
u(x) = min t : x ∈ P(Clt6 ) = max t : x ∈ P(Clt> )
22 / 39
Równoważność uogólnionej decyzji i przybliżeń zbioru
Wyznaczanie dolnych i górnych przybliżeń z przedziału
uogólnionej decyzji
P(Clt> ) = {x ∈ U : l(x) > t},
P(Clt> ) = {x ∈ U : u(x) > t},
P(Clt6 ) = {x ∈ U : u(x) 6 t},
P(Clt6 ) = {x ∈ U : l(x) 6 t}
Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych
przybliżeń
n
o
n
o
l(x) = max t : x ∈ P(Clt> ) = min t : x ∈ P(Clt6 )
o
n
o
n
u(x) = min t : x ∈ P(Clt6 ) = max t : x ∈ P(Clt> )
22 / 39
Redukcja zmiennych poprzez uogólniona˛ decyzje˛
Twierdzenie
Istnieje rozwiazanie
˛
optymalne problemu przeetykietowania obiektów z
wartościami nowych etykiet d(xi ) spełniajacymi:
˛
l(xi ) 6 d(xi ) 6 u(xi )
W szczególności, jeśli obiekt xi jest spójny, zachodzi:
l(xi ) = y(xi ) = d(xi ) = u(xi )
czyli etykiety obiektów spójnych nie zostaja˛ zmienione i obiekty takie
można usunać
˛ z problemu optymalizacyjnego.
23 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
24 / 39
1.0
Niejednoznaczność rozwiazania
˛
2
0.8
2
1
0.6
1
q2
2
0.4
2
2
1
0.2
2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
25 / 39
1.0
Niejednoznaczność rozwiazania
˛
2
0.8
2
1
0.6
1
2
q2
2
1
●
0.4
2
1
●
1
0.2
2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
25 / 39
1.0
Niejednoznaczność rozwiazania
˛
2
0.8
2
1
2
●
0.6
1
2
●
q2
2
0.4
2
2
1
0.2
2
1
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
25 / 39
Porzadek
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi
Definicja
Niech F bedzie
˛
zbiorem rozwiaza
˛ ń optymalnych problemu
przeetykietowania, F = {f1 , . . . , f|F| }. Każde z rozwiaza
˛ ń optymalnych
możemy traktować jako wektor etykiet fr = (fr (x1 ), . . . , fr (x` )).
Wprowadzamy relacje˛ cze˛ ściowego porzadku
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi w sposób nastepuj
˛ acy:
˛
fs fr ⇐⇒ ∀16i6`
fs (xi ) > fr (xi )
Definicja
Zdefiniujmy operatory min, max działajace
˛ w przestrzeni rozwiaza
˛ ń, w
sposób nastepuj
˛ acy:
˛
min{fs , fr } = (min{fs (x1 ), fr (x1 )}, . . . , min{fs (x` ), fr (x` )})
max{fs , fr } = (max{fs (x1 ), fr (x1 )}, . . . , max{fs (x` ), fr (x` )})
26 / 39
Porzadek
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi
Definicja
Niech F bedzie
˛
zbiorem rozwiaza
˛ ń optymalnych problemu
przeetykietowania, F = {f1 , . . . , f|F| }. Każde z rozwiaza
˛ ń optymalnych
możemy traktować jako wektor etykiet fr = (fr (x1 ), . . . , fr (x` )).
Wprowadzamy relacje˛ cze˛ ściowego porzadku
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi w sposób nastepuj
˛ acy:
˛
fs fr ⇐⇒ ∀16i6`
fs (xi ) > fr (xi )
Definicja
Zdefiniujmy operatory min, max działajace
˛ w przestrzeni rozwiaza
˛ ń, w
sposób nastepuj
˛ acy:
˛
min{fs , fr } = (min{fs (x1 ), fr (x1 )}, . . . , min{fs (x` ), fr (x` )})
max{fs , fr } = (max{fs (x1 ), fr (x1 )}, . . . , max{fs (x` ), fr (x` )})
26 / 39
Porzadek
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi
Lemat
Jeśli f1 i f2 sa˛ rozwiazaniami
˛
optymalnymi, to rozwiazania
˛
f3 = max{f1 , f2 } i f4 = min{f1 , f2 } sa˛ również rozwiazaniami
˛
optymalnymi.
Twierdzenie
W zbiorze rozwiaza
˛ ń optymalnych F istnieja˛ elementy najmniejszy i
najwiekszy.
˛
∃fmin : ∀f ∈ F
fmin f
∃fmax : ∀f ∈ F
fmax f
27 / 39
Porzadek
˛
miedzy
˛
rozwiazaniami
˛
optymalnymi
Lemat
Jeśli f1 i f2 sa˛ rozwiazaniami
˛
optymalnymi, to rozwiazania
˛
f3 = max{f1 , f2 } i f4 = min{f1 , f2 } sa˛ również rozwiazaniami
˛
optymalnymi.
Twierdzenie
W zbiorze rozwiaza
˛ ń optymalnych F istnieja˛ elementy najmniejszy i
najwiekszy.
˛
∃fmin : ∀f ∈ F
fmin f
∃fmax : ∀f ∈ F
fmax f
27 / 39
Przykład - porzadek
˛
na kracie
●
●
●
f5
f1
f2
●
●
f4
●
f6
●
f8
f3
●
f7
28 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
29 / 39
Optymalizowany przedział decyzji
Jak wyznaczyć wartości fmin i fmax ?
Rozwiazania
˛
fmin i fmax można znaleźć rozwiazuj
˛ ac
˛ problem
przeetykietowania ze zmodyfikowana˛ funkcja˛ celu L = L0 ± M −1 L1 ,
gdzie:
P
• L0 = ni=1 (1 − di,yi −1 ) + di,yi jest przeetykietowań.
P Pu(xi )−1
• L1 = `i=1 j=l(x
di,j jest (z dokładnościa˛ do stałej) suma˛
i)
nowych etykiet (klas) obiektów.
• waga M −1 jest tak dobrana, aby uzyskać porzadek
˛
leksykograficzny kryteriów — zachodzi dla M >
P`
i=1 (u(xi ) − l(xi )).
• znak ± dobierany jest aby uzyskać fmin lub fmax .
30 / 39
Optymalizowany przedział decyzji
Jak wyznaczyć wartości fmin i fmax ?
Rozwiazania
˛
fmin i fmax można znaleźć rozwiazuj
˛ ac
˛ problem
przeetykietowania ze zmodyfikowana˛ funkcja˛ celu L = L0 ± M −1 L1 ,
gdzie:
P
• L0 = ni=1 (1 − di,yi −1 ) + di,yi jest przeetykietowań.
P Pu(xi )−1
• L1 = `i=1 j=l(x
di,j jest (z dokładnościa˛ do stałej) suma˛
i)
nowych etykiet (klas) obiektów.
• waga M −1 jest tak dobrana, aby uzyskać porzadek
˛
leksykograficzny kryteriów — zachodzi dla M >
P`
i=1 (u(xi ) − l(xi )).
• znak ± dobierany jest aby uzyskać fmin lub fmax .
30 / 39
Optymalizowany przedział decyzji
Definicja
Zdefiniujmy optymalizowany przedział uogólnionej decyzji δ opt (xi )
jako [fmin (xi ), fmax (xi )], dla xi ∈ X .
Na mocy równoważności, majac
˛ optymalizowany przedział uogólnionej
decyzji, możemy wyznaczyć optymalizowane dolne i górne
przybliżenia kumulacji klas.
31 / 39
1.0
Optymalizowany przedział decyzji — przykład
2
0.8
2
3
0.6
1
q2
3
1
0.4
2
0.2
1
3
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
32 / 39
1.0
Optymalizowany przedział decyzji — przykład
2
0.8
2
3
0.6
3
●
q2
3
1
0.4
1
●
0.2
1
3
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
32 / 39
1.0
Optymalizowany przedział decyzji — przykład
2
0.8
2
3
0.6
3
●
3
q2
2
●
0.4
2
0.2
1
3
0.0
1
0.0
0.2
0.4
0.6
0.8
1.0
q1
32 / 39
1.0
Optymalizowany przedział decyzji — przykład
2
0.8
2
[2,2]
[2,2]
3
[3,3]
0.6
3
3
[3,3]
[3,3]
q2
[1,2]
0.4
[1,2]
[1,1]
0.2
1
3
[1,1]
0.0
1
[3,3]
0.0
0.2
0.4
0.6
0.8
1.0
q1
32 / 39
Zmienny poziom spójności
Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛
przeetykietowanych obiektów, a L1 jest suma˛ etykiet.
• Jeśli = −1, otrzymujemy optymalizowany przedział decyzji.
• Jeśli = 1, porzadek
˛
leksykograficzny kryteriów zamienia sie˛ i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA).
• Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy
˛
ilościa˛
przeetykietowań, a klasycznymi przybliżeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójności
) powstaje poprzez rozwiazanie
˛
problemu optymalizacyjnego
L = L0 ± M L1 , dla ∈ [−1, 1].
33 / 39
Zmienny poziom spójności
Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛
przeetykietowanych obiektów, a L1 jest suma˛ etykiet.
• Jeśli = −1, otrzymujemy optymalizowany przedział decyzji.
• Jeśli = 1, porzadek
˛
leksykograficzny kryteriów zamienia sie˛ i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA).
• Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy
˛
ilościa˛
przeetykietowań, a klasycznymi przybliżeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójności
) powstaje poprzez rozwiazanie
˛
problemu optymalizacyjnego
L = L0 ± M L1 , dla ∈ [−1, 1].
33 / 39
Zmienny poziom spójności
Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛
przeetykietowanych obiektów, a L1 jest suma˛ etykiet.
• Jeśli = −1, otrzymujemy optymalizowany przedział decyzji.
• Jeśli = 1, porzadek
˛
leksykograficzny kryteriów zamienia sie˛ i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA).
• Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy
˛
ilościa˛
przeetykietowań, a klasycznymi przybliżeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójności
) powstaje poprzez rozwiazanie
˛
problemu optymalizacyjnego
L = L0 ± M L1 , dla ∈ [−1, 1].
33 / 39
Zmienny poziom spójności
Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛
przeetykietowanych obiektów, a L1 jest suma˛ etykiet.
• Jeśli = −1, otrzymujemy optymalizowany przedział decyzji.
• Jeśli = 1, porzadek
˛
leksykograficzny kryteriów zamienia sie˛ i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA).
• Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy
˛
ilościa˛
przeetykietowań, a klasycznymi przybliżeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójności
) powstaje poprzez rozwiazanie
˛
problemu optymalizacyjnego
L = L0 ± M L1 , dla ∈ [−1, 1].
33 / 39
Zmienny poziom spójności
Rozważmy problem optymalizacji L = L0 ± M L1 , gdzie L0 jest ilościa˛
przeetykietowanych obiektów, a L1 jest suma˛ etykiet.
• Jeśli = −1, otrzymujemy optymalizowany przedział decyzji.
• Jeśli = 1, porzadek
˛
leksykograficzny kryteriów zamienia sie˛ i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA).
• Jeśli ∈ (−1, 1), pojawia sie˛ przetarg miedzy
˛
ilościa˛
przeetykietowań, a klasycznymi przybliżeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójności
) powstaje poprzez rozwiazanie
˛
problemu optymalizacyjnego
L = L0 ± M L1 , dla ∈ [−1, 1].
33 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Procedura klasyfikacji
1
2
3
4
Wyznacz -optymalizowany przedział uogólnionej decyzji.
Utwórz dwa zbiory danych, jeden zawierajacy
˛ zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego
przedziału, drugi — górnej granicy przedziału.
Naucz klasyfikator (najlepiej zachowujacy
˛ monotoniczność),
osobno na obu zbiorach, otrzymujac
˛ dwa klasyfikatory Cl i Cu .
Przy późniejszej klasyfikacji obiektu x:
• Jeśli klasyfikator wskazuje pojedyncza˛ klase,
˛ oceń obiekt x za
pomoca˛ Cl i Cu . Jeśli oba klasyfikatory wskazuja˛ ta˛ sama˛ klase,
˛
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl , Cu ] lub (jeśli trzeba udzielić dokładna˛
odpowiedź) użyj jakiegokolwiek innego sposobu rozstrzygania
konfliktów.
• Jeśli klasyfikatory podaja˛ rozkład prawdopodobieństwa
przynależności do klas, tzn. wektory (pl (y = 1|x), . . . , pl (y = m|x))
oraz
(pu (y = 1|x), . . . , pu (y = m|x)), podaj
na wyjściu rozkład klas
pl (y=1|x)+pu (y=1|x)
pl (y=m|x)+pu (y=m|x)
,...,
.
2
2
34 / 39
Spis treści
1
Wprowadzenie
2
Model probabilistyczny i estymacja parametrów
3
Problem przeetykietowywania obiektów
4
Własności rozwiaza
˛ ń optymalnych
5
Nowa definicja uogólnionej decyzji
6
Wyniki eksperymentalne
35 / 39
Eksperyment
• Wybrano sześć zbiorów danych z repozytorium UCI: heart-c,
heart-h, credit-g, credit-a, breast-cancer, breast-w.
• Wybrano sześć typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopień 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Każdy algorytm w dwóch wersjach: uczony na oryginalnych
danych oraz uczony na optymalizowanych przedziałach decyzji
• Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja
krzyżowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja
parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa.
˛
36 / 39
Eksperyment
• Wybrano sześć zbiorów danych z repozytorium UCI: heart-c,
heart-h, credit-g, credit-a, breast-cancer, breast-w.
• Wybrano sześć typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopień 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Każdy algorytm w dwóch wersjach: uczony na oryginalnych
danych oraz uczony na optymalizowanych przedziałach decyzji
• Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja
krzyżowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja
parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa.
˛
36 / 39
Eksperyment
• Wybrano sześć zbiorów danych z repozytorium UCI: heart-c,
heart-h, credit-g, credit-a, breast-cancer, breast-w.
• Wybrano sześć typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopień 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Każdy algorytm w dwóch wersjach: uczony na oryginalnych
danych oraz uczony na optymalizowanych przedziałach decyzji
• Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja
krzyżowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja
parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa.
˛
36 / 39
Eksperyment
• Wybrano sześć zbiorów danych z repozytorium UCI: heart-c,
heart-h, credit-g, credit-a, breast-cancer, breast-w.
• Wybrano sześć typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopień 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Każdy algorytm w dwóch wersjach: uczony na oryginalnych
danych oraz uczony na optymalizowanych przedziałach decyzji
• Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja
krzyżowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja
parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa.
˛
36 / 39
Eksperyment
• Wybrano sześć zbiorów danych z repozytorium UCI: heart-c,
heart-h, credit-g, credit-a, breast-cancer, breast-w.
• Wybrano sześć typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopień 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Każdy algorytm w dwóch wersjach: uczony na oryginalnych
danych oraz uczony na optymalizowanych przedziałach decyzji
• Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domyślnymi parametrami, 10-krotna walidacja
krzyżowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja
parametrów poprzez 10-krotna˛ walidacje˛ krzyżowa.
˛
36 / 39
Wyniki
klasyfikator
svm-lin
svm-poly
j48
AdaBoost
ensembles
dom-ensmbls
heart-c
84.1
83.0
77.8
78.4
76.3
76.8
82.3
82.4
80.0
80.3
80.7
81.2
heart-h
80.6
80.3
76.7
77.8
76.1
77.0
79.0
79.5
78.7
78.8
79.8
79.6
credit-g
75.0
75.5
71.3
74.0
71.3
73.6
70.9
72.5
74.3
75.6
74.4
75.8
credit-a
86.3
86.2
82.2
84.0
85.5
86.8
85.5
86.2
86.5
86.6
86.6
86.4
Legenda: niebieski — istotny statystycznie spadek trafności po użyciu optymalizowanych
przedziałów decyzji; pomarańczowy — istotny statystycznie wzrost trafności po użyciu
optymalizowanych przedziałów decyzji; czarny — różnica nieistotna statystycznie.
37 / 39
Wyniki
klasyfikator
svm-lin
j48
ensembles
dom-ensmbls
breast-cancer
75.0
76.8
76.1
74.7
74.7
77.6
77.2
77.6
breast-w
97.0
97.2
96.3
95.6
97.0
97.3
97.0
97.6
Legenda: R — przyrost trafność predykcji przy użyciu optymalizowanych przedziałów decyzji,
R 6 −0.5
−0.5 6 R 6 0.5
R > 0.5
R>1
38 / 39
Dziekuj
˛ e˛ za uwage...
˛
39 / 39

Podobne dokumenty