Dodatek A3. Klasyfikator minimalnej odległości.
Transkrypt
Dodatek A3. Klasyfikator minimalnej odległości.
Dodatek A3. Klasyfikator minimalnej odległości. Tą metodę klasyfikacji stosuje się gdy wektory cech leżące wewnątrz klas są dobrze skupione a poszczególne klasy są dobrze odseparowane od siebie. W takim przypadku możemy dokonać klasyfikacji bazującej na mierze bliskości pomiędzy klasyfikowanym wektorem a i każdą z grup tworzącą poszczególne klasy. Wektor cech a jest przypisywany do najbliższej grupy. Wspomnianą miarę bliskości będziemy określać jako „dystans” (odległość) a proces klasyfikacji jako „klasyfikację minimalnej odległości”. Odległością elementów x,y ∈ Rn nazywamy funkcję d(x,y) spełniającą następujące warunki: dla każdego x,y ∈ Rn 1. d(x,y) = d(y,x) 2. d(x,y) ≥ 0 dla każdego x,y ∈ Rn, d(x,y) = 0 ⇔ x = y 3. d(x,z) ≤ d(x,y) + d(y,z) dla każdego x,y,z ∈ Rn Rozważmy przypadek M klas, z których każda reprezentowana jest przez „wzorzec” (prototyp) mi, którym może być np. średnia dla poszczególnych klas zbioru treningowego. Jedną z prostszych miar odległości jest odległość Euklidesa : Di = a − mi 2 = ( a − mi ) T ( a − mi ) (4.1) Klasyfikacja polega na obliczeniu odległości pomiędzy badanym wektorem cech a i „wzorcami” mi dla każdej z M klas, a następnie przypisaniu wektora a do najbliższej klasy: 2 2 D j = min( Di ) ⇒ a ∈ C (i ) i =1... M przekształcając równanie 4.1 otrzymujemy: (4.2) 1 T 2 Di = (a − mi ) T (a − mi ) = a T a − 2(a T mi − mi mi ) 2 Pierwszy człon równania 4.3 jest niezależny i może być (4.3) zignorowany w procesie minimalizacji. Minimalizacja równania 4.3 jest równoważna z maksymalizacją drugiego członu równana 4.3, stąd funkcja decyzyjna przyjmuje postać: 1 T d i ( a ) = a T mi − mi mi 2 i = 1...M (4.4) Na rys. A4.1 przedstawiony jest prosty przykład klasyfikacji minimalnoodległościowej w przestrzeni dwuwymiarowej. Płaszczyzną decyzyjną, w tym wypadku, jest prosta d(a) = 0 prostopadła do linii łączącej „wzorce” i znajdująca się w równej odległości od nich. Rys. A4.1 Zasada działania klasyfikatora minimalnej odległości Wykorzystując klasyfikator Euklidesa zakładamy równą wagę, każdego z elementów przestrzeni cech. Jeśli posiadamy jakąś wiedzę a priori na temat własności statystycznych wektorów cech w klasach, możemy każdej z cech przypisać wagę. Jeśli np. wiemy a priori, że niektóre z cech mają dużą wariancję ich „małą godność zaufania” przy wyznaczaniu miary bliskości. Prowadzi to do miary odległości gdzie wagi są odwrotnie proporcjonalne do macierzy kowariancji cech: 2 −1 Di = (a − mi ) T ∑ i (a − mi ) jest to odległość Mahalanobisa (omówiona w dodatku A1 2.16).