Klasyfikacja - Krzysztof Slot

Transkrypt

Klasyfikacja - Krzysztof Slot
Klasyfikacja
Krzysztof Ślot,
Instytut Elektroniki PŁ
Wprowadzenie
•
Klasyfikacja danych
– Obiekty są reprezentowane w przestrzeni cech przez próbki:
– wektory cech
– struktury, zawierające wektory cech (np. sekwencje)
– Klasyfikacja to określenie, do jakiej klasy (kategorii) naleŜy sprawdzana
próbka
– Kategorie rozwaŜane w klasyfikacji mogą być uprzednio znane lub
mogą być określane dopiero w konfrontacji z obiektami o nieznanych
wcześniej właściwościach
•
Podstawa klasyfikacji
– Stwierdzenie podobieństwa próbki badanej do wzorca klasy (wzorzec:
‘idealny’ reprezentant klasy)
– Stwierdzenie posiadania przez badaną próbkę właściwości uznanych za
charakterystyczne dla danej klasy
Klasyfikacja
2
Wprowadzenie
•
Strategie klasyfikacji
– Klasyfikacja minimalnoodległościowa:
– Podstawa: podobieństwo = odległość między wzorcem a badaną
próbką w odpowiednio dobranej przestrzeni cech
– Klasyfikacja przez podział przestrzeni cech
– Podstawa: posiadanie określonych cech = zawieranie się w
odpowiednio określonym obszarze przestrzeni cech
– Klasyfikacja probabilistyczna
– Podstawa: prawdopodobieństwo przynaleŜności do wcześniej
zdefiniowanego modelu klasy
– Inne
Cechy i przestrzenie cech
3
Wprowadzenie
•
Uwarunkowania procesu klasyfikacji
– Podobieństwo, spełnianie właściwości klasy < > identyczność
– Niepewność odnośnie reguł przypisywania do klas
– Wiedza o problemie zawarta w przykładach
•
Metodologia klasyfikacji
– Podział dostępnego zbioru przykładów na część treningową i testową
– Dwie fazy algorytmu:
– Budowanie wiedzy o właściwościach klas: trening klasyfikatora
– Wykorzystanie wiedzy do przeprowadzenia klasyfikacji: testowanie
klasyfikatora
•
Trening klasyfikatora
– Wykorzystanie informacji zawartej w danych ze zbioru treningowego do
zbudowania modeli klas i estymacji parametrów algorytmu klasyfikacji
•
Testowanie klasyfikatora
– Sprawdzenie poprawności działania na próbkach zbioru testowego
(symulacja działania dla nieznanych wcześniej danych)
Klasyfikacja
4
Wprowadzenie
•
Tworzenie klasyfikatora (algorytmu klasyfikacji)
– Zdefiniowanie modeli
– Estymacja parametrów modeli na podstawie danych treningowych
Model: y = Ax2 + By2 + Cxy + Dx + Ey + F
B
A
B
B
A
B
B
A
B
Waga
Waga
liczba przykładów ~
liczba parametrów
liczba przykładów <<
liczba parametrów
B
A
Waga
liczba przykładów >>
liczba parametrów
B
Model powinien mieć
najprostszą moŜliwą
postać
Model: y = Ax4 + By4 +Cx3y + …
Waga
Klasyfikacja
5
Klasyfikacja minimalnoodległościowa
•
Model klasy
– Reprezentatywne próbki (próbki wzorcowe) w przestrzeni cech
– Parametry modelu: liczba i połoŜenie wzorców
•
Istota klasyfikacji
– Ocena podobieństwa badanych próbek do wzorców
•
Miara podobieństwa
– Odległość między próbką a klasą
(
)
k = arg min{d ( p, Ci )}
•
i
Ci – ‘i’-ta klasa;
d - odległość
p – sprawdzana próbka
Miary odległości
– Metryka: symetria, nierówność trójkąta, zerowość
Klasyfikacja
6
Klasyfikacja minimalnoodległościowa
•
Miary odległości stosowane w klasyfikacji
– Odległość między punktami w przestrzeni cech: L-normy
Lk (p1 , p 2 ) =  ∑ |
D
 i =1
1/ k
p1i
−
p i2 | k


– Odległość między punktem a rozkładem próbek opisanym paramterami
statystycznymi: odległość Machalobobisa
RM =
|x−µ|
σ
[
RM = ( x − µ ) T Σ −1 ( x − µ )
]
1/ 2
– Odległość między rozkładami prawdopodobieństw: dywergencja
Kullbacka-Leiblera
N −1
N −1
i =0
i =0
KL( p( x ) || q( x )) = ∑ p( xi )(log p( xi ) − log q( xi )) = ∑ p( xi ) log
p( xi )
q( xi )
Klasyfikacja
7
Metoda najbliŜszego sąsiada (klasyfikacja NN)
•
Model klasy
– Wzorzec: wszystkie próbki zbioru treningowego
– Parametry modelu: brak
•
Trening klasyfikatora
– Brak (brak parametrów)
•
Klasyfikacja
– Wybór klasy, zawierającej próbkę najbliŜszą próbce badanej
(
)
k = arg min{d (p, Ci )} ,
CA
i
j
d ( p , Ci ) = min d (p, Ci )
j
d(p,CB)
CB
d(p,CA)
p
d(p,CB ) <
d(p,CB )
p ∈ CB
Klasyfikacja
8
Metoda najbliŜszego sąsiada (klasyfikacja NN)
•
Właściwości
– DuŜa złoŜoność obliczeniowa procesu klasyfikacji
– Wymagane duŜe zasoby do przechowywania wzorca
– Dowolny kształt powierzchni decyzyjnej
– WraŜliwość na błędne próbki klas zbioru treningowego (bardzo
prawdopodobna sytuacja)
CA
d(p,CB)
CB
p
d(p,CA)
d (p , C B ) > d (p , C A ) ⇒ p ∈ C A
Klasyfikacja
9
Metoda najbliŜszej średniej (klasyfikacja NM)
CA
d(p,MB )
CB
MA
p
MB
d(p,MA)
d (p , M B ) < d ( p , M A ) ⇒ p ∈ C B
•
Model klasy
– Wzorzec: punkt przestrzeni cech uznany za najbardziej ‘typowy’ dla
zbioru próbek treningowych kaŜdej klasy (najbardziej ‘typowy’ – zwykle:
wartość średnia rozkładu przykładów tej klasy)
– Parametry modelu: parametry statystyczne rozkładów próbek
treningowych wszystkich klas (wartości średnie = wzorce, a często
równieŜ wariancje (macierze kowariancji))
•
Trening klasyfikatora
– Wyznaczenie parametrów statystycznych charakteryzujących klasy
Klasyfikacja
10
Metoda najbliŜszej średniej (klasyfikacja NM)
•
Klasyfikacja
– Wybór klasy, której wzorzec jest najbliŜszy badanej próbce
(
)
k = arg min{d (p, M i )} ,
i
N
1 i j
M i = N ∑ Ci
i j =1
•
Właściwości: zalety
– Prostota obliczeniowa
– Małe zasoby niezbędne do przechowywania wzorców
– NiewraŜliwość na błędne przykłady
•
Właściwości: wady
– Niejawne załoŜenie unimodalności rozkładów klas
– Liniowe powierzchnie decyzyjne
•
Określanie odległości próbki od klasy
– Zdecydowanie preferowana odległość Machalonobisa
Klasyfikacja
11
Klasyfikacja NM
•
Wybór odległości próbki od klasy
– Typowi kandydaci: odległość Euklidesowa – odległość Machalonobisa
JeŜe
(J)
d Jx = 9.6 ⋅ σ J
dJx=125
p
p
śyrafy
(ś)
0
50
d śx = 4 ⋅ σ ś
dśx=250
400
x = 150
x = 150
Wzrost [cm]
p∈J
d E = ∑ ( x − µ )2
i
i
p∈ś
dM =
|x−µ|
σ
Klasyfikacja
12
Klasyfikacja NM
•
Unimodalność rozkładów
– Typowa sytuacja: klasy składają się z wielu modów (klasyfikacja NM
prowadzi do błędnych wyników)
CA
MA
CA
p
MB
CB
d (p , M B ) > d ( p , M A ) ⇒ p ∈ C A
Klasyfikacja
13
Klasyfikacja k-NN
•
Klasyfikacja
– Wybór klasy, której
reprezentanci dominują
wśród k-najbliŜszych
punktów
rβ
rα
p
CA
CA
p
CB
rα : k = 1
→
p ∈ CA
•
Model klasy
– Wzorzec: wszystkie próbki zbioru treningowego
– Parametry modelu: liczba k
•
Trening klasyfikatora
– Określenie optymalnej wartości parametru k
CB
rβ : k = 3
→
p ∈ CB
Klasyfikacja
14
Klasyfikacja k-NN
•
Właściwości: zalety
– Dowolny kształt powierzchni decyzyjnych (moŜliwość rozwiązania
dowolnie złoŜonego problemu klasyfikacji)
– NiewraŜliwość na błędne przykłady (przy odpowiednio duŜym k)
– Przejrzysta metodologia postępowania – łatwe wdroŜenie metody
•
Właściwości: wady
– DuŜa złoŜoność obliczeniowa procesu klasyfikacji
– DuŜe zasoby wymagane dla przechowywania wzorców
•
Metodologia wyboru parametru k
– Iteracyjne powtarzanie procedury klasyfikacji dla monotonicznie
rosnącego k – wybór k dającego najlepsze wyniki klasyfikacji
•
Metody zmniejszania złoŜoności obliczeniowej metody
– Indeksowanie próbek (przypisywanie próbkom zgrubnych lokalizacji w
przestrzeni) i wstępna selekcja grup próbek rozwaŜanych w klasyfikacji
Klasyfikacja
15
Klasyfikacja k-NN - indeksowanie
•
Kwantyzacja przestrzeni cech (‘bucketing”)
– Przestrzeń cech dzielona równomiernie na hipersześciany
– Próbkom przypisywane są indeksy zawierających je hipersześcianów
– Dla badanej próbki określany jest indeks zawierającego ją regionu
– W obliczeniach odległości uwzględniane są tylko próbki wzorców
połoŜone w sąsiednich regionach
0
1
2
0
1
2
0
1
2
0
1
2
Klasyfikacja
16
Klasyfikacja k-NN - indeksowanie
•
Drzewa n-wymiariowe (‘n-dimensional trees”)
– Przestrzeń cech dzielona na obszary zawierające takie same liczby
próbek
– Próbkom przypisywane są indeksy zawierających je obszarów
LUL
LUP
RUL
RUR
LUL
L
L
LDL
•
LDR
RDL
RDR
U
D
U
R L
LUP
RUL
RUR
R
R
L
D
R L
R
LDL
LDR
RDL
RDR
Zaleta podejścia
– Nie ma obszarów ‘pustych’
– Szybsze obliczenia (jednakowe liczby próbek/region)
Klasyfikacja
17
Klasyfikacja k-NM
•
Metodologia
– Wybór klasy, której wzorzec jest najbliŜszy badanej próbce
– Wzorzec klasy jest zbiorem próbek, odpowiadających połoŜeniom
modów klasy
Środki skupień
odpowiadających modom:
wzorzec klasy
{
}
j
k = arg  min d ( p, M ) ,
i 
 i
N
1 i j
M = N ∑ Ci , j = 1...m
i
i j =1
j
j – ‘j’-ty mod klasy;
mi – liczba modów klasy ‘i’
Klasyfikacja
18
Klasyfikacja k-NM
•
Trening: budowanie wzorca klasy
– Procedura określania połoŜeń wektorów, odpowiadających skupieniom
(modom) zbioru próbek treningowych danej klasy
– Typowe uwarunkowania treningu: brak wiedzy odnośnie liczby modów
klasy
•
Algorytm k-średnich
– Systematyczna procedura wyboru optymalnych połoŜeń wektorów,
stanowiących wieloelementową reprezentację klasy
– Istota algorytmu: naprzemienne powtarzanie dwóch operacji
– Określania przyporządkowania próbek do bieŜących lokalizacji
modów (kryterium przyporządkowania: odległość)
– Uaktualniania połoŜeń modów (kryterium: najbardziej
reprezentatywny punkt – wartość średnia)
•
Przykład
– Zakładane dwa mody; początkowe hipotezy m1=(0,1) m2 = (1,0)
– Próbki klasy: (0,2), (1,1), (2,0),(3,5),(4,4),(5,3)
Cechy i przestrzenie cech
19
Grupowanie – algorytm k-średnich
•
Problem
– Automatyzacja procesu wyznaczania liczby skupień
– Rozwiązanie: detekcja załamania krzywej wariancji
k=3
k=4
k=5
Łączna wariancja
k=6
k=7
Liczba skupień
Klasyfikacja
20
Reprezentacja rozkładów wielomodalnych
•
Mieszaniny rozkładów Gaussa (GMM)
– Modelowanie klas za pomocą zbioru funkcji Gaussa, o parametrach
dopasowanych do właściwości skupień (wartości średnie i wariancje)
– Lepsza reprezentacja klasy niŜ metod NM: uwzględnienie rozrzutów w
obrębie klasy
•
Estymacja parametrów mieszaniny
– Metodologia EM (Expectation Maximization)
– Idea postępowania: iteracyjne powtarzanie dwóch etapów
– Estymacja przynaleŜności do kaŜdego ze skupień (kryterium:
odległość Machalobonisa od rozwaŜanego centrum)
– Wyznaczenie nowych parametrów centrów (wartości średnie /
macierze kowariancji)
Cechy i przestrzenie cech
21
Klasyfikacja przez podział przestrzeni cech
•
Wprowadzenie
– Modele klas = „powierzchnie decyzyjne”
– Klasyfikacja: określanie lokalizacji próbki względem połoŜenia
powierzchni decyzyjnej
☺
x1
wx + c = 0
xB
xA
wxB + c > 0
wxA + c < 0
v p+c=0
T
T
x w = 0,
gdzie
x0
v
p 
w =  , x =  
c 
1 
Cechy i przestrzenie cech
22
Klasyfikacja przez podział przestrzeni cech
•
Podstawy teoretyczne klasyfikacji
– Cel: wybrać powierzchnię zapewniającą spełnienie odpowiedniego
kryterium ilościowego
– Najprostszy przypadek: powierzchnia pierwszego stopnia =
hiperpłaszczyzna
•
Kryteria doboru parametrów powierzchni
– Maksymalizacja liczby poprawnie klasyfikowanych próbek
– wada: brak rozsądnego rozwiązania dla próbek nieseparowalnych
liniowo
– Minimalizacja łącznego błędu klasyfikacji
n −1
e = ∑ ( x w − bi )
iT
2
i =0
Cechy i przestrzenie cech
23
Klasyfikacja przez podział przestrzeni cech
•
Wybór powierzchni minimalizującej błąd klasyfikacji
– standardowa metoda
 ( x 0 ) T   x 0 ... x 0 
d

  0
X= : =
:
: 
,


( x n−1 ) T   x0n−1 ... xdn−1  n×( d +1)


n −1
e=
 b0 
b= : 
b 
 n−1 
iT
2
(
x
w
−
b
)
=( Xw − b ) ( Xw − b ) → min
∑
i
T
i =0
T
T
T
X ( Xw − b) + ( Xw − b ) X = 0 → 2 X ( Xw − b ) = 0
(
T
w= X X
)
−1
T
X b
Cechy i przestrzenie cech
24