Dodatek A4. Liniowa dyskryminacja Fisher`a.

Transkrypt

Dodatek A4. Liniowa dyskryminacja Fisher`a.
Dodatek A4. Liniowa dyskryminacja Fisher’a.
Funkcja liniowej dyskryminacji Fisher’a jest transformacją redukującą wymiar
wektora cech z m do K-1 (gdzie K jest liczbą klas). Redukcję uzyskujemy poprzez rzutowanie
n – wymiarowych wektorów cech na powierzchnię o mniejszej wymiarowości. Powierzchnia
ta jest tak dobrana aby separacja klas po zrzutowaniu była jak największa.
Rozważmy problem dwu-klasowy. Dysponujemy N próbkami a o znanej
przynależności do klas, N1 spośród tych próbek należy do klasy C(1) a N2 próbek należy do
klasy C(2). Przez yi oznaczmy liniową kombinację cech ai:
yi = ρ T ai
(5.1)
Występujący w powyższym równaniu n – wymiarowy wektor ρ możemy traktować jako linię
w n – wymiarowej przestrzeni cech, natomiast yi jako projekcję wektora a na tą prostą.
Wektor wartości średnich cech µ̂ i w poszczególnych klasach C(i) dany jest zależnością:
µˆ i =
1
Ni
∑a
a∈ C
(5.2)
i
(i)
natomiast średnia µ~i wektorów cech zrzutowanych na prostą ρ, jest rzutem wartości µ̂ i :
µ~i =
1
Ni
∑
yi ∈C
(i )
yi =
1
Ni
∑ρ
ai ∈C
T
µˆ i
(5.3)
(i)
Wówczas odległość pomiędzy wartościami średnimi w obu klasach, po zrzutowaniu na prostą
ρ wynosi:
µ~1 − µ~2 = ρ T ( µˆ 1 − µˆ 2 )
(5.4)
Wielkość ta w zależności od położenia prostej ρ może być tak duża jak chcemy, jednak to
oczywiście nie wystarczy, ponieważ aby uzyskać dobrą separację klas, musimy uwzględnić
jeszcze wariancję próbek. W tym celu, dla każdej z klas, definiujemy macierz rozproszenia
Wi o rozmiarach m x m (gdzie m jest rozmiarem wektora cech):
∑ (a − µˆ )(a − µˆ )
Wi =
i
a∈C
T
i = 1, 2
i
(5.5)
(i )
Wi jest estymatorem kowariancji i-tej klasy, i reprezentuje miarę rozproszenia sygnału
należącego do tej klasy. Macierz rozproszenia wewnątrz – klasowego, W, jest zdefiniowana
jako:
W = W1 + W2
(5.6)
Jednowymiarowa „macierz” rozproszenia dla wektorów zrzutowanych na prostą ρ dana jest
wzorem:
σˆ i 2 =
∑ ( y − µ~ )
i
y∈C ( i )
=
2
=
∑ (ρ
T
a − ρ T µˆ i
)
2
a∈C ( i )
∑ ρ (a − µˆ i )(a − µˆ i )T ρ = ρ T Wi ρ
(5.7)
T
a∈C ( i )
stąd, suma rozproszeń dla obu klas:
σˆ 1 2 + σˆ 2 2 = ρ T Wρ
(5.8)
Zdefiniujmy teraz macierz rozproszenia pomiędzy klasami. W oryginalnej m – wymiarowej
przestrzeni macierz ta będzie określona w następujący sposób:
B = ( µˆ 1 − µˆ 2 )( µˆ 1 − µˆ 2 ) T
(5.9)
Macierz ta reprezentuje rozproszenie pomiędzy wartościami średnimi w różnych klasach.
Rozproszenie pomiędzy klasami w jednowymiarowej przestrzeni (po zrzutowaniu na
prostą ρ) dane jest wzorem:
(µ~1 − µ~2 ) = (ρ T µˆ 1 − ρ T µˆ 2 )2 = ρ T (µˆ 1 − µˆ 2 )(µˆ 1 − µˆ 2 )T ρ = ρ T Bρ
(5.10)
Aby uzyskać dobrą separację pomiędzy klasami, wariacja dla każdej z klas powinna
być mała. Miarą jakości separacji klas jest w tym wypadku iloraz Rayleighta:
J (ρ ) =
ρ T Bρ
ρ T Wρ
(5.11)
który osiąga maksimum dla:
ρ = W −1 ( µˆ 1 − µˆ 2 )
(5.12)
Rys. A5.1 Zasada działania klasyfikatora liniowej dyskryminacji Fisher’a
Mając dany wektor ρ możemy dokonać klasyfikacji (rys. A5.1): rzutujemy (wzór 5.1),
klasyfikowany wektor a, oraz wektory wartości średnich w obu klasach, na prostą
wyznaczoną przez wektor ρ, a następnie obliczamy odległości Euklidesa pomiędzy
„obrazem” wektora a na prostej wyznaczonej przez ρ i „obrazami” wartość średnich dla obu
klas. Wektor a przypisujemy do klasy, dla której obliczona odległość będzie mniejsza.