Czym jest analiza skupień? Definicja - XP

Transkrypt

Statystyczna analiza danych
z pakietem SAS
Analiza skupień – metody hierarchiczne
mgr Piotr Wójcik
mgr Piotr Wójcik
Statystyczna analiza danych z pakietem SAS
Czym jest analiza skupień?
WNE UW 2006/2007
wielowymiarowa technika pozwalająca
wykrywać współzależności między
obiektami;
ściśle związana z zagadnieniami
klasyfikowania i porządkowania
otaczającej rzeczywistości;
mgr Piotr Wójcik
WNE UW 2006/2007
Definicja
“ANALIZA SKUPIEŃ to grupa metod
służących do utworzenia (oby) sensownej i
interpretowalnej klasyfikacji początkowo
niesklasyfikowanego zbioru danych z
wykorzystaniem wartości zmiennych
obserwowanych na poziomie każdego
indywidualnego obiektu.”
B. S. Everitt (1998), “The Cambridge Dictionary of
Statistics”
1
mgr Piotr Wójcik
WNE UW 2006/2007
Jak działa analiza skupień?
nie zakładamy a priori żadnej informacji o
właściwościach grup ani o ich liczbie;
podział w oparciu o informację zawartą w
samych obiektach;
dzielimy obiekty tak, aby podobne do się
siebie znalazły się w tej samej grupie, a
znacznie różniące się znalazły się w
innych grupach;
mgr Piotr Wójcik
WNE UW 2006/2007
Cele analizy skupień
eksploracja danych
grupowanie obiektów lub ustalenie określonej struktury
hierarchicznej z zbiorze obiektów w postaci drzewa binarnego;
porównanie istniejącej typologii obiektów
(opartej na podstawach teoretycznych) z wynikami
grupowania empirycznego;
dokonanie agregacji danych w jednorodne grupy
również do dalszej analizy (zastąpienie obiektów przez
obiekty uśrednione dla poszczególnych grup);
mgr Piotr Wójcik
WNE UW 2006/2007
Podstawowy podział
metody hierarchiczne;
metody niehierarchiczne
(dzielące);
2
mgr Piotr Wójcik
Rodzaje metod hierarchicznych
Iteracja
WNE UW 2006/2007
Aglomeracyjne
Podziałowe
1
2
3
4
mgr Piotr Wójcik
WNE UW 2006/2007
Grupowanie hierarchiczne
w praktyce metody hierarchiczne są
„kręgosłupem” analizy skupień –
najpowszechniej stosowane;
niedoskonałości:
trudno wskazać jednoznacznie najlepszą
metodę hierarchiczną;
przenoszenie / nawarstwianie błędów;
Czaso- i zasobochłonne przy dużych
zbiorach danych;
mgr Piotr Wójcik
WNE UW 2006/2007
Alternatywa = metody dzielące
Metody dzielące (nazywane również
grupowaniem optymalizacyjnym) dzielą zbiór
obserwacji na określoną liczbę skupień
minimalizując pewne kryterium (funkcję
celu);
Dwa popularne kryteria to:
• podobieństwo wewnątrz skupień;
• oddzielenie/separacja skupień;
3
mgr Piotr Wójcik
WNE UW 2006/2007
Problemy z metodami dzielącymi
• narzucają pewne założenia dotyczące kształtu
skupień;
• wymagają założenia liczby skupień przed
rozpoczęciem analizy;
• wyniki mogą być uzależnione od:
– wyboru początkowych środków ciężkości,
– obecności obserwacji nietypowych;
– kolejności obserwacji w zbiorze;
mgr Piotr Wójcik
WNE UW 2006/2007
Wsadowe struktury danych przykłady
Macierz danych
Macierz odległości
(niepodobieństwa)
lub macierz korelacji
mgr Piotr Wójcik
Własności dobrej miary podobieństwa
Symetria:
d(x,y) = d(y,x)
2. Nierówność trójkątna:
d(x,y) ≤ d(x,z) + d(y,z)
3. Rozróżnialność innych:
jeśli d(x,y) ≠ 0 to x ≠ y
4. Nierozróżnialność identycznych:
jeśli x = y, to d(x,y) = 0.
Czasem najprostsze stosowane miary podobieństwa,
(np. współczynnik korelacji liniowej Pearsona) nie
spełniają jednego lub więcej z powyższych kryteriów.
WNE UW 2006/2007
1.
4
mgr Piotr Wójcik
Odległość euklidesowa
Przypomnijmy twierdzenie Pitagorasa:
WNE UW 2006/2007
(x1, x2)
h2 = x12 + x22
x2
∴ h=
2
∑x
i=1
(0, 0)
i
2
=
2
∑(x
i=1
i
2
−0)
x1
Odległość euklidesowa między punktami x i w
w przestrzeni p-wymiarowej dana jest wzorem:
p
d E = ∑ (x k − w k )2
k =1
mgr Piotr Wójcik
WNE UW 2006/2007
Miary oparte na odległości euklidesowej
kwadrat odległości euklidesowej;
standaryzowana odległość euklidesowa;
d SE = (
p
x − wp 2
x1 − w1 2
x − wk 2
) + ... + ( p
) = ∑( k
)
s1
sp
sk
k =1
mgr Piotr Wójcik
WNE UW 2006/2007
Odległość miejska
(x1,x2)
p
dM = ∑| x k − w k |
k =1
(w1,w2)
Odległość miejska (Manhattan) między
dwoma punktami jest mierzona wzdłuż
prostopadłych osi.
5
mgr Piotr Wójcik
WNE UW 2006/2007
Miary podobieństwa dla zmiennych
nominalnych
Pary obserwacji mogą być porównywane przez
występowanie lub brak pewnych charakterystyk.
Wtedy podobne elementy będą miały więcej wspólnych
charakterystyk niż elementy niepodobne.
Przykłady miar dla zmiennych nominalnych:
Odległość Hamminga;
Odległość Levenshteina (tzw. odległość edycyjna);
mgr Piotr Wójcik
WNE UW 2006/2007
Efekt kolejności
W niektórych przypadkach kolejność
obserwacji może mieć wpływ na wyniki;
Ta sama analiza zastosowana na tym
samym zbiorze danych jedynie o zmienionej
kolejności obserwacji może dać całkowicie
różne skupienia!;
mgr Piotr Wójcik
WNE UW 2006/2007
Aglomeracyjna metoda hierarchiczna
1. Zacznij od liczby skupień równej liczbie
obserwacji (N) oraz symetrycznej macierzy
odległości (albo podobieństw) - N × N.
2. Znajdź w macierzy odległości parę skupień
będących najbliżej siebie.
3. Połącz skupienia z punktu (2.) w jedno nowe
skupienie. Uaktualnij macierz odległości dla
liczby skupień zmniejszonej o 1.
4. Powtórz kroki (2.) i (3.) N-1 razy.
6
mgr Piotr Wójcik
mgr Piotr Wójcik
WNE UW 2006/2007
Dendrogram grupowania hierarchicznego
WNE UW 2006/2007
Cel praktyczny
W praktyce większość badaczy stosujących
analizę skupień jest zainteresowanych
podziałem analizowanej grupy obserwacji na
określoną jako optymalną liczbę grup.
Sprowadza się to do „obcięcia” dendrogramu
na jakimś określonym poziomie.
mgr Piotr Wójcik
WNE UW 2006/2007
Rodzaje analizy hierarchicznej
Wielość technik hierarchicznej analizy skupień
bierze się z wielu istniejących metod
mierzenia odległości między skupieniem
jednoelementowym (pojedynczą obserwacją)
a skupieniem zawierającym kilka obserwacji,
lub między dwoma grupami
wieloelementowymi.
7
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda najbliższego sąsiedztwa
(single linkage)
Odległość między skupieniami to odległość między
dwoma najbliższymi obiektami.
Cluster K
DKL = min i ∈ CK min j ∈ CL d ( xi , x j )
DKL
(METHOD=SINGLE)
Cluster L
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda najbliższego sąsiedztwa
Ma wiele teoretycznie pożądanych własności,
ale wypada słabo w symulacjach Monte Carlo;
Nie narzucając żadnych ograniczeń na kształt
skupień jest w stanie odkryć zwarte grupy o
kształcie rozciągniętym i nieregularnym;
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda najdalszego sąsiedztwa
(complete linkage)
Odległość między skupieniami to odległość między
dwoma najdalszymi obiektami.
(METHOD=COMPLETE)
Cluster K
DKL
DKL = maxi ∈CKmax j ∈CL d(xi , x j )
Cluster L
8
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda najdalszego sąsiedztwa
Mocno obciążona w stronę uzyskiwania
zwartych grup o w przybliżeniu równych
średnicach;
Nawet nieskrajne obserwacje odstające
mogą w dużym stopniu zaburzać wynik;
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda średniej grupowej
(average linkage)
Odległość między skupieniami to średnia
arytmetyczna odległości między wszystkimi parami
obiektów należącymi do różnych skupień.
d(xi,xj)
Cluster K
(METHOD=AVERAGE)
DKL =
1
∑
nK nL i ∈CK
∑d (x , x )
j ∈CL
i
j
Cluster L
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda średniej grupowej
Ma tendencję do łączenia grup z małą
wariancją i jest nieznacznie obciążona w
kierunku uzyskiwania skupień o równej
wariancji;
Ponieważ bierze ona pod uwagę wszystkie
elementy skupienia, a nie pojedyncze
obserwacje, jest bardziej od innych metod
odporna na występowanie obserwacji
nietypowych;
9
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda środka ciężkości
(centroid linkage)
Odległość między skupieniami jest zdefiniowana jako
kwadrat odległości euklidesowej między środkami
ciężkości obu skupień ( x K i x L ) .
(METHOD=CENTROID)
Cluster K
X
DKL
DKL = xK − xL
Cluster L
mgr Piotr Wójcik
2
X
WNE UW 2006/2007
Metoda środka ciężkości
Ponieważ porównuje środki ciężkości jest
również dość odporna na występowanie
obserwacji nietypowych;
W innych aspektach może nie dawać tak
dobrych wyników jak metoda Warda lub
średniej grupowej;
Przy łączeniu dwóch grup nierównej wielkości
mniejsza z nich staje się w znacznym stopniu
zdominowana przez większą;
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda mediany (median method)
Odległość między skupieniami to odległość środkowa
(w sensie mediany) między obiektami z różnych skupień.
Cluster K
DKL
DJK
Cluster J
DJL
(METHOD=MEDIAN)
Cluster L
Cluster M
DJM =
DJK + DJL DKL
−
2
4
10
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda mediany
Wypada słabo w symulacjach Monte Carlo;
Ma mało (jeśli w ogóle) zalet w porównaniu
z pozostałymi metodami;
Grupa powstała z połączenia dwóch innych
może być interpretowana jako pośrednia
pozycja między połączonymi skupieniami;
mgr Piotr Wójcik
WNE UW 2006/2007
Metoda Warda (minimalnej
wariancji)
Znajdowane są środki ciężkości skupień i odległości od nich, które następnie
są sumowane (jako miarę należy w tej metodzie wybrać kwadrat odległości
euklidesowej – wtedy interpretacją metody Warda jest minimalizacja
wewnątrzgrupowej wariancji)
(METHOD=WARD)
ANOVA
ANOVA
mgr Piotr Wójcik
D KL =
xK − xL
 1
1

+
nL
 nK
2



WNE UW 2006/2007
Metoda Warda
ma tendencję do łączenia grup o małej
liczbie obserwacji i jest mocno obciążona
w kierunku uzyskiwania skupień o
zbliżonym kształcie i mniej więcej równej
liczbie obserwacji;
Jest również bardzo wrażliwa na
obserwacje nietypowe;
11
mgr Piotr Wójcik
WNE UW 2006/2007
Problemy z metodami hierarchicznymi
Nie ma metody zawsze dającej lepsze rezultaty niż
inne metody
Symulacje: najlepsze Warda, średniej grupowej,
najdalszego sąsiedztwa;
Efektywność i czytelność metod hierarchicznych
maleje wraz ze wzrostem liczby obserwacji;
Nie umożliwiają korekty już utworzonych skupień, w
związku z tym błędne przypisanie do skupienia nie
może zostać skorygowane w kolejnym kroku;
mgr Piotr Wójcik
WNE UW 2006/2007
Określenie liczby skupień
Odpowiedzi na pytanie “Ile mamy
segmentów?” można szukać stosując
różne kryteria:
• dendrogram;
• cubic clustering criterium Sarle’a;
• statystyka pseudo-F;
• test pseudo-T2 ;
mgr Piotr Wójcik
WNE UW 2006/2007
Interpretowanie dendrogramu
12
mgr Piotr Wójcik
WNE UW 2006/2007
Cubic Clustering Criterion Sarla
Cubic clustering criterion Sarla (CCC) testuje
następującą hipotezę:
H0 = dane pochodzą z rozkładu jednostajnego;
H1 = dane pochodzą z mieszanych wielowymiarowych
rozkładów normalnych o równych wariancjach i
prawdopodobieństwie wylosowania.
Dodatnie wartości CCC oznaczają, że uzyskana
wartość R2 jest większa niż oczekiwana w
przypadku rozkładu jednostajnego (wtedy
odrzucamy H0).
mgr Piotr Wójcik
WNE UW 2006/2007
Graficzna interpretacja CCC Sarla
mgr Piotr Wójcik
WNE UW 2006/2007
Statystyka Pseudo-F
Statystyka pseudo-F statistic (lub PSF)
mierzy rozdzielenie między grupami na
bieżącym poziomie hierarchii;
Wysokie wartości wskazują, że średnie
wartości rozpatrywanych zmiennych różnią
istotnie się między grupami;
Nie ma rozkładu F Snedecora;
13
mgr Piotr Wójcik
WNE UW 2006/2007
Kryterium Pseudo-F
Potencjalne rozwiązania
mgr Piotr Wójcik
WNE UW 2006/2007
Statystyka Pseudo-T2
Statystyka pseudo-T2 jest wariantem testu T2
Hotellinga.
jeśli wartość statystyki pseudo-T2 jest duża,
rozpatrywane w danym kroku dwa skupienia
nie powinny być połączone, ponieważ średnie
wartości rozpatrywanych zmiennych różnią się
istotnie między nimi;
jeśli wartość statystyki jest mała,
rozpatrywane w danym kroku dwa skupienia
mogą być bezpiecznie połączone;
mgr Piotr Wójcik
WNE UW 2006/2007
Kryterium Pseudo-T2
Potencjalne rozwiązania
14
mgr Piotr Wójcik
WNE UW 2006/2007
Dziękuję za uwagę
☺
15

Czym jest analiza skupień? Definicja - XP

Transkrypt

Podobne dokumenty

ADRESAT: Antoni WÓJCIK NADAWCA: Agnieszka i Julia Wójcik

Firmy Leśne - 20 lat francuskiego Ponsse

Dane jednostki - Wydział Nauk Ekonomicznych

I Konferencja Studentów WNE UW

zastosowania. Program Akademicki SAS

nowa oferta sas

Jeleń-Osiecka Monika

Konkurs SAS Student Ambassador Program

Konikiewicz Kamil