analiza skupień (klasyfikacja, grupowanie)

Transkrypt

analiza skupień (klasyfikacja, grupowanie)
ANALIZA SKUPIEŃ (KLASYFIKACJA, GRUPOWANIE)
1.1. ZASTOSOWANIE ANALIZY SKUPIEŃ
Analizę
skupień
stosujemy
gdy
chcemy
wyróżnić
w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę.
grupy
obiektów
podobnych,
Analiza skupień ma zastosowanie np. w wyszukiwarkach internetowych – pomaga ona tworzyć sensowne grupy
tematycznie powiązanych dokumentów, oraz opisać te grupy w sposób zrozumiały dla człowieka.
1.2. PODSTAWOWE POJĘCIA
skupienie (grupa, klasa) - taki zbiór obiektów, w którym podobieństwo pomiędzy dowolną parą obiektów jest
większe niż podobieństwo pomiędzy jakimkolwiek obiektem należącym do klasy, a dowolnym obiektem do niej
1
nie należącym ; skupienia są rozłączne, czyli żaden obiekt nie może być częścią dwóch klas;
Ilustracja 1.
Przykład tworzenia skupień
Źródło: opracowanie własne
Jak widać na prawym rysunku, czasami nie możemy stanowczo stwierdzić ile klas powinno powstać. O
metodzie wyboru optymalnej liczby klas dowiemy się w głębi kursu.
1
GATNAR Eugeniusz, WALESIAK Marek Metody statystycznej analizy wielowymiarowej w badaniach
marketingowych. Wrocław : Wydawnictwo Akademii Ekonomicznej, 2004, s. 317
Odległość (między dwoma skupieniami) - może być definiowana w różny sposób, przykłady metod przedstawia
2
ilustracja 2 :
Ilustracja 2. Przykład definiowania odległości między skupieniami
2
GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988
środek ciężkości skupienia – punkt o współrzędnych będących średnimi wartościami cech dla obiektów
będących w skupieniu.
Dla 2 i 3 cech (wymiarów) łatwo ten punkt zobaczyć (dla uproszczenia przyjęto iż skupienie ma 3 obiekty):
Ilustracja 3. Środek ciężkości w przestrzeni dwu- i trójwymiarowej
Źródło: opracowanie własne
Dla więcej niż trzech cech musimy już uruchomić wyobraźnię – wzór ogólny na środek ciężkości ma postać:
[
x = x1 , x2 ,...x p
gdzie:
xj =
]
(2)
1 r
∑ xij , r to ilość obiektów w danym skupieniu, a p to ilość cech opisujących obiekty.
r i =1
1.3. METODY GRUPOWANIA – OGÓLNA CHARAKTERYSTYKA
Ogólnie metody grupowania dzielimy na:
METODY HIERARCHICZNE
Metody te polegają na iteracyjnym łączeniu
obiektów w coraz to większe lub coraz to
mniejsze skupienia (budowanie hierarchii
skupień w zależności od odległości między
nimi)
METODY NIEHIERARCHICZNE
Metody te polegają na przenoszeniu obiektów z
jednego skupienia do innego, w poszukiwaniu
najlepszego zestawu skupień wg zadanego
kryterium
(np.
najmniejszej
wariancji
międzygrupowej)
Każda z tych grup metod jest bardzo rozbudowana i ma wiele wariantów. W tej pracy przedstawiono
najczęściej z nich stosowane: procedurę aglomeracyjną (jako przykład metody hierarchicznej) oraz metodę kśrednich (jako przykład metody niehierarchicznej).
1.4. PROCEDURA AGLOMERACYJNA
1.
Dysponując macierzą n obiektów i p zmiennych konstruujemy macierz odległości między poszczególnymi
obiektami:
D = [d ik ] , gdzie i,k=1,..n
gdzie
(3)
d ik - odległość pomiędzy i-tym a k-tym obiektem, wyrażona wzorem (1);
2.
Znajdujemy parę obiektów najbardziej podobnych – w sensie najmniejszej odległości - łącząc je w
skupienie (wybieramy przy tym dowolną metodę odległości między skupieniami omówioną w rozdziale
1.3) Obiekty te zastąpimy od tej pory jednym, o współrzędnych punktu ciężkości skupienia.
3.
Redukujemy wymiar macierzy D o jeden (dwa obiekty zostały zastąpione jednym) i przeliczamy odległości
di pomiędzy nowym skupieniem a pozostałymi obiektami (skupieniami).
4.
Powtarzamy kroki 2-3 aż do uzyskania jednego skupienia zawierającego wszystkie obiekty.
Schemat ten dla przykładu 4 obiektów: A,B,C i D przedstawia wykres (zastosowano odległość między punktami
skupień):
Ilustracja 4. Schemat procedury aglomeracyjnej
Źródło: opracowanie własne
Procedurę aglomeracyjną zrealizowano w kilku krokach:
KROK 1: Wyznaczamy macierz odległości D.
KROK 2: Wyznaczamy elementy, których odległość od siebie jest najmniejsza, a następnie tworzymy z nich
skupienie.
KROK 3: Czynność powtarzamy aż do momentu, gdy uzyskamy jedno skupienie.
KROK 4: Tworzymy dendrogram.
Źródło: opracowanie własne

Podobne dokumenty