miary odległości stosowane w algorytmach grupujących

Transkrypt

miary odległości stosowane w algorytmach grupujących
MIARY ODLEGŁOŚCI STOSOWANE W
ALGORYTMACH GRUPUJĄCYCH
Obie, opisane powyżej, metody klasteryzacji (k-średnich oraz hierarchiczna) używają
różnych miar odległości aby określić podobieństwo między dwoma wektorami cech. Istnieje
wiele algorytmów obliczania odległości (podobieństwa). Poniżej przedstawione są miary
odległości, które zostały wykorzystane w niniejszej pracy.
1. Odległość Euklidesa
d ( x, y ) =
∑ (x
i
− yi )
2
(3.1)
i
2. Odległość Canberra
d ( x, y ) = ∑
i
xi − y i
xi + y i
(3.2)
3. Odległość Czybyszewa
d ( x, y ) = max( xi − y i
)
(3.3)
4. Odległość city-block (Manhattan)
d ( x, y ) = ∑ ( x i − y i )
(3.4)
i
5. Współczynnik korelacji Pearsona
Służy do pomiaru współzależności dwóch zmiennych. Zdefiniowany jest w
następujący sposób:
r=
1 n  xi − x  y i −

∑
n i =1  σ x  σ y
y 


(3.5)
gdzie:
x, y
- wartości średnie
σ x , σ y - odchylenia standardowe
Wartość współczynnika korelacji zawiera się w przedziale od -1 do 1, przy czym:
a) jeśli korelacja jest mniejsza od 0, to zmienne są odwrotnie proporcjonalnie,
b) jeśli korelacja jest zbliżona do 0, to zmienne nie są powiązane ze sobą,
c) jeśli korelacja jest większa od 0, to zmienne zmieniają sie proporcjonalnie,
d) jeśli korelacja jest zbliżona do 1 lub do -1, to związek korelacyjny jest silny.
Biorąc pod uwagę powyższe warunki, możemy zdefiniować „odległość”
Pearsona jako:
d P ( x, y ) ≡ 1 − r
(3.6)
Odległość Pearsona będzie przyjmować wartości z przedziału od 0 do 2.
6. Wartość bezwzględna współczynnika korelacji Pearson’a.
d A ( x, y ) ≡ 1 − r
(3.7)
7. Uncentered Pearson correlation
rU =
1 n  xi
∑
n i =1  σ x ( 0)
 y i

 σ ( 0 )
 y




(3.8)
gdzie:
σ x (0) =
1 n 2
∑ xi
n i =1
σ y (0) =
1 n 2
∑ yi
n i =1
Jest to ten sam współczynnik korelacji co przedstawiony w p. 5 z tą różnicą, że w tym
wypadku przyjmujemy wartości średnie x , y równe zero.
Miara odległości, odpowiadająca tak zdefiniowanemu współczynnikowi korelacji,
wyraża się wzorem:
d U ( x, y ) ≡ 1 − rU
(3.9)
Uncentered correlation jest równa kosinusowi kąta między dwoma wektorami w n –
wymiarowej przestrzeni.
8. Absolute Uncentered Pearson correlation
d AU ( x, y ) ≡ 1 − rU
(3.10)

Podobne dokumenty