Analiza Skupień

Transkrypt

Analiza Skupień
2013-06-12
W sztucznej inteligencji istotną rolę
ogrywają algorytmy grupowania
Analiza skupień
Analiza Skupień
Elementy składowe procesu grupowania
obiekt
Ekstrakcja cech
Reprezentacja obiektu
Sprzężenie zwrotne
Grupowanie
klastry
Podobieństwo
obiektów
Istnieje wiele technik grupowania danych
• metody deterministyczne i probabilistyczne (podział ze
względu na metodę przeszukiwania przestrzeni stanów
wszystkich możliwych partycji zbioru grupowanych
obiektów);
• metody hierarchiczne i podziałowe (podział ze względu
na metodę konstrukcji klastrów);
• metody generujące klastry rozłączne i metody
generujące klastry przecinające się (podział ze względu
na charakter znajdowania klastrów);
• metody monoatrybutowe i poliatrybutowe (podział ze
względu na metodę wykorzystania cech obiektów w
procesie grupowania);
• metody grupowania danych liczbowych, kategorycznych,
sekwencji, struktur grafowych (podział ze względu na typ
grupowanych danych).
1
2013-06-12
Wyznaczanie odległości
Skupienia
danych
wyodrębnione
automatycznie
Przykład dystansu Manhattan
Ilustracja sposobu pomiaru
odległości Euklidesowej
X1 – wymiar 1
X2 – wymiar 2
Klasteryzacja polega na tym,
Kryteria grupowania
Niski
- Wysoki
Otyły
Przykład danych dla których można
przeprowadzić klasteryzację
Szczupły -
Klasteryzacja
by w wielowymiarowej przestrzeni
gromadzącej określone obiekty
reprezentowane przez wektory opisujące ich
mierzalne i opisowe cechy
dokonać grupowania, w wyniku którego
poszczególne obiekty zostają zaliczone do
pewnych klas na podstawie ich wzajemnego
podobieństwa
2
2013-06-12
Przykład danych dla przeprowadzono
klasteryzację
Grubasy
W przypadku danych dwuwymiarowych
grupowania można dokonać „ręcznie”
Dobrze
zbudowani
Chudzi
Drobni
Podobieństwo obiektów zwykle wyznaczane
jest na podstawie obliczania ich odległości
Podany przykład pokazuje wzajemne
„odległości” różnych muzyków
(indywidualnych oraz zespołów)
Trudności pojawiają się wtedy, gdy
przestrzeń cech jest wielowymiarowa
Na podstawie takich map można
potem wyciągać określone wnioski,
na przykład grupując muzyków
według kryterium ich komputerowo
zdefiniowanej „bliskości”
3
2013-06-12
Wpływ skalowania na wybór skupień
Wykres rozrzutu obiektów
i odpowiadający mu dendrogram
Najbardziej popularną metodą
klasteryzacji jest algorytm k-średnich
Punktem wyjścia do algorytmu
k średnich jest zbiór danych,
o których sądzimy, że tworzą
k skupisk.
Na rysunku k = 3.
W losowy sposób wybieramy
k punktów (rozrzuconych)
i nazywamy te punkty
prowizorycznymi centrami
budowanych skupisk.
Na podstawie odległości od wybranych
centrów skupisk z przypisanymi im
nazwami klas zalicza się wszystkie
punkty do odpowiednich klas
Na rysunku punkty wybrane
jako centra są oznaczone
znakiem X, a skupiska są
nazwane red, green oraz blue
4
2013-06-12
Dla każdej z klas wyznacza się nowe
centrum na podstawie średniej
współrzędnych wszystkich punktów
przypisanych do danej klasy
Dokonuje się ponownego
przypisania punktów do
poszczególnych klas
i ponownie wyznacza się
w poszczególnych klasach
średnie.
Czynności powyższe
powtarza się tak długo, jak
długo chociaż jeden punkt
zmieni swoją przynależność
do klasy.
Po przerwaniu algorytmu
ostatnio użyte średnie
wskazują centra klas.
Algorytm metody k-średnich w
działaniu
Moment, w którym należy przerwać dalszą aglomerację klas
najłatwiej jest wyznaczyć na podstawie wykresu
pokazującego zmiany odległości wiązania
Dosyć istotne znaczenie w metodach grupowania
mają algorytmy łączenia skupień.
Wynik grupowania nie zawsze jest dobry!
5
2013-06-12
Wynik grupowania zbioru obserwacji
przy użyciu algorytmu k-średnich
Przy klasteryzacji jest istotne,
żeby nie wprowadzić nadmiernie
dużej liczby klas
Klasteryzacja aglomeracyjna
Zadania segmentacji mogą się cechować
różnym stopniem złożoności
Postęp procesu klasteryzacji
6
2013-06-12
Dane przed i po klasteryzacji
Narzędzie do klasteryzacji
Rezultat klasteryzacji 27-wymiarowego zbioru wektorów cech,
reprezentujących podejrzane obszary zdjęć mammograficznych
Mapa wzorców ekspresji
przykładowego zestawu genów
Skupienia i wszystkie powiązania między nimi
Ilustracja liczebności zbiorów w poszczególnych
skupieniach
7
2013-06-12
Skupienia i najważniejsze powiązania między nimi
8