Dodatek A3. Klasyfikator minimalnej odległości.

Transkrypt

Dodatek A3. Klasyfikator minimalnej odległości.
Dodatek A3. Klasyfikator minimalnej odległości.
Tą metodę klasyfikacji stosuje się gdy wektory cech leżące wewnątrz klas są dobrze
skupione a poszczególne klasy są dobrze odseparowane od siebie. W takim przypadku
możemy dokonać klasyfikacji bazującej na mierze bliskości pomiędzy klasyfikowanym
wektorem a i każdą z grup tworzącą poszczególne klasy. Wektor cech a jest przypisywany do
najbliższej grupy. Wspomnianą miarę bliskości będziemy określać jako „dystans” (odległość)
a proces klasyfikacji jako „klasyfikację minimalnej odległości”.
Odległością elementów x,y ∈ Rn nazywamy funkcję d(x,y) spełniającą następujące
warunki:
dla każdego x,y ∈ Rn
1. d(x,y) = d(y,x)
2. d(x,y) ≥ 0 dla każdego x,y ∈ Rn, d(x,y) = 0 ⇔ x = y
3. d(x,z) ≤ d(x,y) + d(y,z) dla każdego x,y,z ∈ Rn
Rozważmy przypadek M klas, z których każda reprezentowana jest przez „wzorzec”
(prototyp) mi, którym może być np. średnia dla poszczególnych klas zbioru treningowego.
Jedną z prostszych miar odległości jest odległość Euklidesa :
Di = a − mi
2
= ( a − mi ) T ( a − mi )
(4.1)
Klasyfikacja polega na obliczeniu odległości pomiędzy badanym wektorem cech a i
„wzorcami” mi dla każdej z M klas, a następnie przypisaniu wektora a do najbliższej klasy:
2
2
D j = min( Di ) ⇒ a ∈ C (i )
i =1... M
przekształcając równanie 4.1 otrzymujemy:
(4.2)
1 T
2
Di = (a − mi ) T (a − mi ) = a T a − 2(a T mi − mi mi )
2
Pierwszy człon równania 4.3 jest niezależny i może być
(4.3)
zignorowany w procesie
minimalizacji. Minimalizacja równania 4.3 jest równoważna z maksymalizacją drugiego
członu równana 4.3, stąd funkcja decyzyjna przyjmuje postać:
1 T
d i ( a ) = a T mi − mi mi
2
i = 1...M
(4.4)
Na rys. A4.1 przedstawiony jest prosty przykład klasyfikacji minimalnoodległościowej w przestrzeni dwuwymiarowej. Płaszczyzną decyzyjną, w tym wypadku, jest
prosta d(a) = 0 prostopadła do linii łączącej „wzorce” i znajdująca się w równej odległości od
nich.
Rys. A4.1 Zasada działania klasyfikatora minimalnej odległości
Wykorzystując klasyfikator Euklidesa zakładamy równą wagę, każdego z elementów
przestrzeni cech. Jeśli posiadamy jakąś wiedzę a priori na temat własności statystycznych
wektorów cech w klasach, możemy każdej z cech przypisać wagę. Jeśli np. wiemy a priori, że
niektóre z cech mają dużą wariancję ich „małą godność zaufania” przy wyznaczaniu miary
bliskości. Prowadzi to do miary odległości gdzie wagi są odwrotnie proporcjonalne do
macierzy kowariancji cech:
2
−1
Di = (a − mi ) T ∑ i (a − mi )
jest to odległość Mahalanobisa (omówiona w dodatku A1 2.16).