analiza skupień (klasyfikacja, grupowanie)
Transkrypt
analiza skupień (klasyfikacja, grupowanie)
ANALIZA SKUPIEŃ (KLASYFIKACJA, GRUPOWANIE) 1.1. ZASTOSOWANIE ANALIZY SKUPIEŃ Analizę skupień stosujemy gdy chcemy wyróżnić w przypadku gdy obiekty te są opisane przez więcej niż jedną cechę. grupy obiektów podobnych, Analiza skupień ma zastosowanie np. w wyszukiwarkach internetowych – pomaga ona tworzyć sensowne grupy tematycznie powiązanych dokumentów, oraz opisać te grupy w sposób zrozumiały dla człowieka. 1.2. PODSTAWOWE POJĘCIA skupienie (grupa, klasa) - taki zbiór obiektów, w którym podobieństwo pomiędzy dowolną parą obiektów jest większe niż podobieństwo pomiędzy jakimkolwiek obiektem należącym do klasy, a dowolnym obiektem do niej 1 nie należącym ; skupienia są rozłączne, czyli żaden obiekt nie może być częścią dwóch klas; Ilustracja 1. Przykład tworzenia skupień Źródło: opracowanie własne Jak widać na prawym rysunku, czasami nie możemy stanowczo stwierdzić ile klas powinno powstać. O metodzie wyboru optymalnej liczby klas dowiemy się w głębi kursu. 1 GATNAR Eugeniusz, WALESIAK Marek Metody statystycznej analizy wielowymiarowej w badaniach marketingowych. Wrocław : Wydawnictwo Akademii Ekonomicznej, 2004, s. 317 Odległość (między dwoma skupieniami) - może być definiowana w różny sposób, przykłady metod przedstawia 2 ilustracja 2 : Ilustracja 2. Przykład definiowania odległości między skupieniami 2 GRABIŃSKI Tadeusz Metody taksonometrii. Kraków: Wyd. AE 1988 środek ciężkości skupienia – punkt o współrzędnych będących średnimi wartościami cech dla obiektów będących w skupieniu. Dla 2 i 3 cech (wymiarów) łatwo ten punkt zobaczyć (dla uproszczenia przyjęto iż skupienie ma 3 obiekty): Ilustracja 3. Środek ciężkości w przestrzeni dwu- i trójwymiarowej Źródło: opracowanie własne Dla więcej niż trzech cech musimy już uruchomić wyobraźnię – wzór ogólny na środek ciężkości ma postać: [ x = x1 , x2 ,...x p gdzie: xj = ] (2) 1 r ∑ xij , r to ilość obiektów w danym skupieniu, a p to ilość cech opisujących obiekty. r i =1 1.3. METODY GRUPOWANIA – OGÓLNA CHARAKTERYSTYKA Ogólnie metody grupowania dzielimy na: METODY HIERARCHICZNE Metody te polegają na iteracyjnym łączeniu obiektów w coraz to większe lub coraz to mniejsze skupienia (budowanie hierarchii skupień w zależności od odległości między nimi) METODY NIEHIERARCHICZNE Metody te polegają na przenoszeniu obiektów z jednego skupienia do innego, w poszukiwaniu najlepszego zestawu skupień wg zadanego kryterium (np. najmniejszej wariancji międzygrupowej) Każda z tych grup metod jest bardzo rozbudowana i ma wiele wariantów. W tej pracy przedstawiono najczęściej z nich stosowane: procedurę aglomeracyjną (jako przykład metody hierarchicznej) oraz metodę kśrednich (jako przykład metody niehierarchicznej). 1.4. PROCEDURA AGLOMERACYJNA 1. Dysponując macierzą n obiektów i p zmiennych konstruujemy macierz odległości między poszczególnymi obiektami: D = [d ik ] , gdzie i,k=1,..n gdzie (3) d ik - odległość pomiędzy i-tym a k-tym obiektem, wyrażona wzorem (1); 2. Znajdujemy parę obiektów najbardziej podobnych – w sensie najmniejszej odległości - łącząc je w skupienie (wybieramy przy tym dowolną metodę odległości między skupieniami omówioną w rozdziale 1.3) Obiekty te zastąpimy od tej pory jednym, o współrzędnych punktu ciężkości skupienia. 3. Redukujemy wymiar macierzy D o jeden (dwa obiekty zostały zastąpione jednym) i przeliczamy odległości di pomiędzy nowym skupieniem a pozostałymi obiektami (skupieniami). 4. Powtarzamy kroki 2-3 aż do uzyskania jednego skupienia zawierającego wszystkie obiekty. Schemat ten dla przykładu 4 obiektów: A,B,C i D przedstawia wykres (zastosowano odległość między punktami skupień): Ilustracja 4. Schemat procedury aglomeracyjnej Źródło: opracowanie własne Procedurę aglomeracyjną zrealizowano w kilku krokach: KROK 1: Wyznaczamy macierz odległości D. KROK 2: Wyznaczamy elementy, których odległość od siebie jest najmniejsza, a następnie tworzymy z nich skupienie. KROK 3: Czynność powtarzamy aż do momentu, gdy uzyskamy jedno skupienie. KROK 4: Tworzymy dendrogram. Źródło: opracowanie własne