Analiza Skupień
Transkrypt
Analiza Skupień
2013-06-12 W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Reprezentacja obiektu Sprzężenie zwrotne Grupowanie klastry Podobieństwo obiektów Istnieje wiele technik grupowania danych • metody deterministyczne i probabilistyczne (podział ze względu na metodę przeszukiwania przestrzeni stanów wszystkich możliwych partycji zbioru grupowanych obiektów); • metody hierarchiczne i podziałowe (podział ze względu na metodę konstrukcji klastrów); • metody generujące klastry rozłączne i metody generujące klastry przecinające się (podział ze względu na charakter znajdowania klastrów); • metody monoatrybutowe i poliatrybutowe (podział ze względu na metodę wykorzystania cech obiektów w procesie grupowania); • metody grupowania danych liczbowych, kategorycznych, sekwencji, struktur grafowych (podział ze względu na typ grupowanych danych). 1 2013-06-12 Wyznaczanie odległości Skupienia danych wyodrębnione automatycznie Przykład dystansu Manhattan Ilustracja sposobu pomiaru odległości Euklidesowej X1 – wymiar 1 X2 – wymiar 2 Klasteryzacja polega na tym, Kryteria grupowania Niski - Wysoki Otyły Przykład danych dla których można przeprowadzić klasteryzację Szczupły - Klasteryzacja by w wielowymiarowej przestrzeni gromadzącej określone obiekty reprezentowane przez wektory opisujące ich mierzalne i opisowe cechy dokonać grupowania, w wyniku którego poszczególne obiekty zostają zaliczone do pewnych klas na podstawie ich wzajemnego podobieństwa 2 2013-06-12 Przykład danych dla przeprowadzono klasteryzację Grubasy W przypadku danych dwuwymiarowych grupowania można dokonać „ręcznie” Dobrze zbudowani Chudzi Drobni Podobieństwo obiektów zwykle wyznaczane jest na podstawie obliczania ich odległości Podany przykład pokazuje wzajemne „odległości” różnych muzyków (indywidualnych oraz zespołów) Trudności pojawiają się wtedy, gdy przestrzeń cech jest wielowymiarowa Na podstawie takich map można potem wyciągać określone wnioski, na przykład grupując muzyków według kryterium ich komputerowo zdefiniowanej „bliskości” 3 2013-06-12 Wpływ skalowania na wybór skupień Wykres rozrzutu obiektów i odpowiadający mu dendrogram Najbardziej popularną metodą klasteryzacji jest algorytm k-średnich Punktem wyjścia do algorytmu k średnich jest zbiór danych, o których sądzimy, że tworzą k skupisk. Na rysunku k = 3. W losowy sposób wybieramy k punktów (rozrzuconych) i nazywamy te punkty prowizorycznymi centrami budowanych skupisk. Na podstawie odległości od wybranych centrów skupisk z przypisanymi im nazwami klas zalicza się wszystkie punkty do odpowiednich klas Na rysunku punkty wybrane jako centra są oznaczone znakiem X, a skupiska są nazwane red, green oraz blue 4 2013-06-12 Dla każdej z klas wyznacza się nowe centrum na podstawie średniej współrzędnych wszystkich punktów przypisanych do danej klasy Dokonuje się ponownego przypisania punktów do poszczególnych klas i ponownie wyznacza się w poszczególnych klasach średnie. Czynności powyższe powtarza się tak długo, jak długo chociaż jeden punkt zmieni swoją przynależność do klasy. Po przerwaniu algorytmu ostatnio użyte średnie wskazują centra klas. Algorytm metody k-średnich w działaniu Moment, w którym należy przerwać dalszą aglomerację klas najłatwiej jest wyznaczyć na podstawie wykresu pokazującego zmiany odległości wiązania Dosyć istotne znaczenie w metodach grupowania mają algorytmy łączenia skupień. Wynik grupowania nie zawsze jest dobry! 5 2013-06-12 Wynik grupowania zbioru obserwacji przy użyciu algorytmu k-średnich Przy klasteryzacji jest istotne, żeby nie wprowadzić nadmiernie dużej liczby klas Klasteryzacja aglomeracyjna Zadania segmentacji mogą się cechować różnym stopniem złożoności Postęp procesu klasteryzacji 6 2013-06-12 Dane przed i po klasteryzacji Narzędzie do klasteryzacji Rezultat klasteryzacji 27-wymiarowego zbioru wektorów cech, reprezentujących podejrzane obszary zdjęć mammograficznych Mapa wzorców ekspresji przykładowego zestawu genów Skupienia i wszystkie powiązania między nimi Ilustracja liczebności zbiorów w poszczególnych skupieniach 7 2013-06-12 Skupienia i najważniejsze powiązania między nimi 8