Czym jest analiza skupień? Definicja - XP
Transkrypt
Czym jest analiza skupień? Definicja - XP
Statystyczna analiza danych z pakietem SAS Analiza skupień – metody hierarchiczne mgr Piotr Wójcik mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS Czym jest analiza skupień? WNE UW 2006/2007 wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana z zagadnieniami klasyfikowania i porządkowania otaczającej rzeczywistości; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Definicja “ANALIZA SKUPIEŃ to grupa metod służących do utworzenia (oby) sensownej i interpretowalnej klasyfikacji początkowo niesklasyfikowanego zbioru danych z wykorzystaniem wartości zmiennych obserwowanych na poziomie każdego indywidualnego obiektu.” B. S. Everitt (1998), “The Cambridge Dictionary of Statistics” 1 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Jak działa analiza skupień? nie zakładamy a priori żadnej informacji o właściwościach grup ani o ich liczbie; podział w oparciu o informację zawartą w samych obiektach; dzielimy obiekty tak, aby podobne do się siebie znalazły się w tej samej grupie, a znacznie różniące się znalazły się w innych grupach; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Cele analizy skupień eksploracja danych grupowanie obiektów lub ustalenie określonej struktury hierarchicznej z zbiorze obiektów w postaci drzewa binarnego; porównanie istniejącej typologii obiektów (opartej na podstawach teoretycznych) z wynikami grupowania empirycznego; dokonanie agregacji danych w jednorodne grupy również do dalszej analizy (zastąpienie obiektów przez obiekty uśrednione dla poszczególnych grup); mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Podstawowy podział metody hierarchiczne; metody niehierarchiczne (dzielące); 2 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS Rodzaje metod hierarchicznych Iteracja WNE UW 2006/2007 Aglomeracyjne Podziałowe 1 2 3 4 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Grupowanie hierarchiczne w praktyce metody hierarchiczne są „kręgosłupem” analizy skupień – najpowszechniej stosowane; niedoskonałości: trudno wskazać jednoznacznie najlepszą metodę hierarchiczną; przenoszenie / nawarstwianie błędów; Czaso- i zasobochłonne przy dużych zbiorach danych; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Alternatywa = metody dzielące Metody dzielące (nazywane również grupowaniem optymalizacyjnym) dzielą zbiór obserwacji na określoną liczbę skupień minimalizując pewne kryterium (funkcję celu); Dwa popularne kryteria to: • podobieństwo wewnątrz skupień; • oddzielenie/separacja skupień; 3 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Problemy z metodami dzielącymi • narzucają pewne założenia dotyczące kształtu skupień; • wymagają założenia liczby skupień przed rozpoczęciem analizy; • wyniki mogą być uzależnione od: – wyboru początkowych środków ciężkości, – obecności obserwacji nietypowych; – kolejności obserwacji w zbiorze; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Wsadowe struktury danych przykłady Macierz danych Macierz odległości (niepodobieństwa) lub macierz korelacji mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS Własności dobrej miary podobieństwa Symetria: d(x,y) = d(y,x) 2. Nierówność trójkątna: d(x,y) ≤ d(x,z) + d(y,z) 3. Rozróżnialność innych: jeśli d(x,y) ≠ 0 to x ≠ y 4. Nierozróżnialność identycznych: jeśli x = y, to d(x,y) = 0. Czasem najprostsze stosowane miary podobieństwa, (np. współczynnik korelacji liniowej Pearsona) nie spełniają jednego lub więcej z powyższych kryteriów. WNE UW 2006/2007 1. 4 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS Odległość euklidesowa Przypomnijmy twierdzenie Pitagorasa: WNE UW 2006/2007 (x1, x2) h2 = x12 + x22 x2 ∴ h= 2 ∑x i=1 (0, 0) i 2 = 2 ∑(x i=1 i 2 −0) x1 Odległość euklidesowa między punktami x i w w przestrzeni p-wymiarowej dana jest wzorem: p d E = ∑ (x k − w k )2 k =1 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Miary oparte na odległości euklidesowej kwadrat odległości euklidesowej; standaryzowana odległość euklidesowa; d SE = ( p x − wp 2 x1 − w1 2 x − wk 2 ) + ... + ( p ) = ∑( k ) s1 sp sk k =1 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Odległość miejska (x1,x2) p dM = ∑| x k − w k | k =1 (w1,w2) Odległość miejska (Manhattan) między dwoma punktami jest mierzona wzdłuż prostopadłych osi. 5 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Miary podobieństwa dla zmiennych nominalnych Pary obserwacji mogą być porównywane przez występowanie lub brak pewnych charakterystyk. Wtedy podobne elementy będą miały więcej wspólnych charakterystyk niż elementy niepodobne. Przykłady miar dla zmiennych nominalnych: Odległość Hamminga; Odległość Levenshteina (tzw. odległość edycyjna); mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Efekt kolejności W niektórych przypadkach kolejność obserwacji może mieć wpływ na wyniki; Ta sama analiza zastosowana na tym samym zbiorze danych jedynie o zmienionej kolejności obserwacji może dać całkowicie różne skupienia!; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Aglomeracyjna metoda hierarchiczna 1. Zacznij od liczby skupień równej liczbie obserwacji (N) oraz symetrycznej macierzy odległości (albo podobieństw) - N × N. 2. Znajdź w macierzy odległości parę skupień będących najbliżej siebie. 3. Połącz skupienia z punktu (2.) w jedno nowe skupienie. Uaktualnij macierz odległości dla liczby skupień zmniejszonej o 1. 4. Powtórz kroki (2.) i (3.) N-1 razy. 6 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Dendrogram grupowania hierarchicznego WNE UW 2006/2007 Cel praktyczny W praktyce większość badaczy stosujących analizę skupień jest zainteresowanych podziałem analizowanej grupy obserwacji na określoną jako optymalną liczbę grup. Sprowadza się to do „obcięcia” dendrogramu na jakimś określonym poziomie. mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Rodzaje analizy hierarchicznej Wielość technik hierarchicznej analizy skupień bierze się z wielu istniejących metod mierzenia odległości między skupieniem jednoelementowym (pojedynczą obserwacją) a skupieniem zawierającym kilka obserwacji, lub między dwoma grupami wieloelementowymi. 7 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda najbliższego sąsiedztwa (single linkage) Odległość między skupieniami to odległość między dwoma najbliższymi obiektami. Cluster K DKL = min i ∈ CK min j ∈ CL d ( xi , x j ) DKL (METHOD=SINGLE) Cluster L mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda najbliższego sąsiedztwa Ma wiele teoretycznie pożądanych własności, ale wypada słabo w symulacjach Monte Carlo; Nie narzucając żadnych ograniczeń na kształt skupień jest w stanie odkryć zwarte grupy o kształcie rozciągniętym i nieregularnym; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda najdalszego sąsiedztwa (complete linkage) Odległość między skupieniami to odległość między dwoma najdalszymi obiektami. (METHOD=COMPLETE) Cluster K DKL DKL = maxi ∈CKmax j ∈CL d(xi , x j ) Cluster L 8 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda najdalszego sąsiedztwa Mocno obciążona w stronę uzyskiwania zwartych grup o w przybliżeniu równych średnicach; Nawet nieskrajne obserwacje odstające mogą w dużym stopniu zaburzać wynik; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda średniej grupowej (average linkage) Odległość między skupieniami to średnia arytmetyczna odległości między wszystkimi parami obiektów należącymi do różnych skupień. d(xi,xj) Cluster K (METHOD=AVERAGE) DKL = 1 ∑ nK nL i ∈CK ∑d (x , x ) j ∈CL i j Cluster L mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda średniej grupowej Ma tendencję do łączenia grup z małą wariancją i jest nieznacznie obciążona w kierunku uzyskiwania skupień o równej wariancji; Ponieważ bierze ona pod uwagę wszystkie elementy skupienia, a nie pojedyncze obserwacje, jest bardziej od innych metod odporna na występowanie obserwacji nietypowych; 9 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda środka ciężkości (centroid linkage) Odległość między skupieniami jest zdefiniowana jako kwadrat odległości euklidesowej między środkami ciężkości obu skupień ( x K i x L ) . (METHOD=CENTROID) Cluster K X DKL DKL = xK − xL Cluster L mgr Piotr Wójcik 2 X Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda środka ciężkości Ponieważ porównuje środki ciężkości jest również dość odporna na występowanie obserwacji nietypowych; W innych aspektach może nie dawać tak dobrych wyników jak metoda Warda lub średniej grupowej; Przy łączeniu dwóch grup nierównej wielkości mniejsza z nich staje się w znacznym stopniu zdominowana przez większą; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda mediany (median method) Odległość między skupieniami to odległość środkowa (w sensie mediany) między obiektami z różnych skupień. Cluster K DKL DJK Cluster J DJL (METHOD=MEDIAN) Cluster L Cluster M DJM = DJK + DJL DKL − 2 4 10 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda mediany Wypada słabo w symulacjach Monte Carlo; Ma mało (jeśli w ogóle) zalet w porównaniu z pozostałymi metodami; Grupa powstała z połączenia dwóch innych może być interpretowana jako pośrednia pozycja między połączonymi skupieniami; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda Warda (minimalnej wariancji) Znajdowane są środki ciężkości skupień i odległości od nich, które następnie są sumowane (jako miarę należy w tej metodzie wybrać kwadrat odległości euklidesowej – wtedy interpretacją metody Warda jest minimalizacja wewnątrzgrupowej wariancji) (METHOD=WARD) ANOVA ANOVA mgr Piotr Wójcik D KL = xK − xL 1 1 + nL nK 2 Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Metoda Warda ma tendencję do łączenia grup o małej liczbie obserwacji i jest mocno obciążona w kierunku uzyskiwania skupień o zbliżonym kształcie i mniej więcej równej liczbie obserwacji; Jest również bardzo wrażliwa na obserwacje nietypowe; 11 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Problemy z metodami hierarchicznymi Nie ma metody zawsze dającej lepsze rezultaty niż inne metody Symulacje: najlepsze Warda, średniej grupowej, najdalszego sąsiedztwa; Efektywność i czytelność metod hierarchicznych maleje wraz ze wzrostem liczby obserwacji; Nie umożliwiają korekty już utworzonych skupień, w związku z tym błędne przypisanie do skupienia nie może zostać skorygowane w kolejnym kroku; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Określenie liczby skupień Odpowiedzi na pytanie “Ile mamy segmentów?” można szukać stosując różne kryteria: • dendrogram; • cubic clustering criterium Sarle’a; • statystyka pseudo-F; • test pseudo-T2 ; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Interpretowanie dendrogramu 12 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Cubic Clustering Criterion Sarla Cubic clustering criterion Sarla (CCC) testuje następującą hipotezę: H0 = dane pochodzą z rozkładu jednostajnego; H1 = dane pochodzą z mieszanych wielowymiarowych rozkładów normalnych o równych wariancjach i prawdopodobieństwie wylosowania. Dodatnie wartości CCC oznaczają, że uzyskana wartość R2 jest większa niż oczekiwana w przypadku rozkładu jednostajnego (wtedy odrzucamy H0). mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Graficzna interpretacja CCC Sarla mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Statystyka Pseudo-F Statystyka pseudo-F statistic (lub PSF) mierzy rozdzielenie między grupami na bieżącym poziomie hierarchii; Wysokie wartości wskazują, że średnie wartości rozpatrywanych zmiennych różnią istotnie się między grupami; Nie ma rozkładu F Snedecora; 13 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Kryterium Pseudo-F Potencjalne rozwiązania mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Statystyka Pseudo-T2 Statystyka pseudo-T2 jest wariantem testu T2 Hotellinga. jeśli wartość statystyki pseudo-T2 jest duża, rozpatrywane w danym kroku dwa skupienia nie powinny być połączone, ponieważ średnie wartości rozpatrywanych zmiennych różnią się istotnie między nimi; jeśli wartość statystyki jest mała, rozpatrywane w danym kroku dwa skupienia mogą być bezpiecznie połączone; mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Kryterium Pseudo-T2 Potencjalne rozwiązania 14 mgr Piotr Wójcik Statystyczna analiza danych z pakietem SAS WNE UW 2006/2007 Dziękuję za uwagę ☺ 15