Klasyfikacja - Krzysztof Slot
Transkrypt
Klasyfikacja - Krzysztof Slot
Klasyfikacja Krzysztof Ślot, Instytut Elektroniki PŁ Wprowadzenie • Klasyfikacja danych – Obiekty są reprezentowane w przestrzeni cech przez próbki: – wektory cech – struktury, zawierające wektory cech (np. sekwencje) – Klasyfikacja to określenie, do jakiej klasy (kategorii) naleŜy sprawdzana próbka – Kategorie rozwaŜane w klasyfikacji mogą być uprzednio znane lub mogą być określane dopiero w konfrontacji z obiektami o nieznanych wcześniej właściwościach • Podstawa klasyfikacji – Stwierdzenie podobieństwa próbki badanej do wzorca klasy (wzorzec: ‘idealny’ reprezentant klasy) – Stwierdzenie posiadania przez badaną próbkę właściwości uznanych za charakterystyczne dla danej klasy Klasyfikacja 2 Wprowadzenie • Strategie klasyfikacji – Klasyfikacja minimalnoodległościowa: – Podstawa: podobieństwo = odległość między wzorcem a badaną próbką w odpowiednio dobranej przestrzeni cech – Klasyfikacja przez podział przestrzeni cech – Podstawa: posiadanie określonych cech = zawieranie się w odpowiednio określonym obszarze przestrzeni cech – Klasyfikacja probabilistyczna – Podstawa: prawdopodobieństwo przynaleŜności do wcześniej zdefiniowanego modelu klasy – Inne Cechy i przestrzenie cech 3 Wprowadzenie • Uwarunkowania procesu klasyfikacji – Podobieństwo, spełnianie właściwości klasy < > identyczność – Niepewność odnośnie reguł przypisywania do klas – Wiedza o problemie zawarta w przykładach • Metodologia klasyfikacji – Podział dostępnego zbioru przykładów na część treningową i testową – Dwie fazy algorytmu: – Budowanie wiedzy o właściwościach klas: trening klasyfikatora – Wykorzystanie wiedzy do przeprowadzenia klasyfikacji: testowanie klasyfikatora • Trening klasyfikatora – Wykorzystanie informacji zawartej w danych ze zbioru treningowego do zbudowania modeli klas i estymacji parametrów algorytmu klasyfikacji • Testowanie klasyfikatora – Sprawdzenie poprawności działania na próbkach zbioru testowego (symulacja działania dla nieznanych wcześniej danych) Klasyfikacja 4 Wprowadzenie • Tworzenie klasyfikatora (algorytmu klasyfikacji) – Zdefiniowanie modeli – Estymacja parametrów modeli na podstawie danych treningowych Model: y = Ax2 + By2 + Cxy + Dx + Ey + F B A B B A B B A B Waga Waga liczba przykładów ~ liczba parametrów liczba przykładów << liczba parametrów B A Waga liczba przykładów >> liczba parametrów B Model powinien mieć najprostszą moŜliwą postać Model: y = Ax4 + By4 +Cx3y + … Waga Klasyfikacja 5 Klasyfikacja minimalnoodległościowa • Model klasy – Reprezentatywne próbki (próbki wzorcowe) w przestrzeni cech – Parametry modelu: liczba i połoŜenie wzorców • Istota klasyfikacji – Ocena podobieństwa badanych próbek do wzorców • Miara podobieństwa – Odległość między próbką a klasą ( ) k = arg min{d ( p, Ci )} • i Ci – ‘i’-ta klasa; d - odległość p – sprawdzana próbka Miary odległości – Metryka: symetria, nierówność trójkąta, zerowość Klasyfikacja 6 Klasyfikacja minimalnoodległościowa • Miary odległości stosowane w klasyfikacji – Odległość między punktami w przestrzeni cech: L-normy Lk (p1 , p 2 ) = ∑ | D i =1 1/ k p1i − p i2 | k – Odległość między punktem a rozkładem próbek opisanym paramterami statystycznymi: odległość Machalobobisa RM = |x−µ| σ [ RM = ( x − µ ) T Σ −1 ( x − µ ) ] 1/ 2 – Odległość między rozkładami prawdopodobieństw: dywergencja Kullbacka-Leiblera N −1 N −1 i =0 i =0 KL( p( x ) || q( x )) = ∑ p( xi )(log p( xi ) − log q( xi )) = ∑ p( xi ) log p( xi ) q( xi ) Klasyfikacja 7 Metoda najbliŜszego sąsiada (klasyfikacja NN) • Model klasy – Wzorzec: wszystkie próbki zbioru treningowego – Parametry modelu: brak • Trening klasyfikatora – Brak (brak parametrów) • Klasyfikacja – Wybór klasy, zawierającej próbkę najbliŜszą próbce badanej ( ) k = arg min{d (p, Ci )} , CA i j d ( p , Ci ) = min d (p, Ci ) j d(p,CB) CB d(p,CA) p d(p,CB ) < d(p,CB ) p ∈ CB Klasyfikacja 8 Metoda najbliŜszego sąsiada (klasyfikacja NN) • Właściwości – DuŜa złoŜoność obliczeniowa procesu klasyfikacji – Wymagane duŜe zasoby do przechowywania wzorca – Dowolny kształt powierzchni decyzyjnej – WraŜliwość na błędne próbki klas zbioru treningowego (bardzo prawdopodobna sytuacja) CA d(p,CB) CB p d(p,CA) d (p , C B ) > d (p , C A ) ⇒ p ∈ C A Klasyfikacja 9 Metoda najbliŜszej średniej (klasyfikacja NM) CA d(p,MB ) CB MA p MB d(p,MA) d (p , M B ) < d ( p , M A ) ⇒ p ∈ C B • Model klasy – Wzorzec: punkt przestrzeni cech uznany za najbardziej ‘typowy’ dla zbioru próbek treningowych kaŜdej klasy (najbardziej ‘typowy’ – zwykle: wartość średnia rozkładu przykładów tej klasy) – Parametry modelu: parametry statystyczne rozkładów próbek treningowych wszystkich klas (wartości średnie = wzorce, a często równieŜ wariancje (macierze kowariancji)) • Trening klasyfikatora – Wyznaczenie parametrów statystycznych charakteryzujących klasy Klasyfikacja 10 Metoda najbliŜszej średniej (klasyfikacja NM) • Klasyfikacja – Wybór klasy, której wzorzec jest najbliŜszy badanej próbce ( ) k = arg min{d (p, M i )} , i N 1 i j M i = N ∑ Ci i j =1 • Właściwości: zalety – Prostota obliczeniowa – Małe zasoby niezbędne do przechowywania wzorców – NiewraŜliwość na błędne przykłady • Właściwości: wady – Niejawne załoŜenie unimodalności rozkładów klas – Liniowe powierzchnie decyzyjne • Określanie odległości próbki od klasy – Zdecydowanie preferowana odległość Machalonobisa Klasyfikacja 11 Klasyfikacja NM • Wybór odległości próbki od klasy – Typowi kandydaci: odległość Euklidesowa – odległość Machalonobisa JeŜe (J) d Jx = 9.6 ⋅ σ J dJx=125 p p śyrafy (ś) 0 50 d śx = 4 ⋅ σ ś dśx=250 400 x = 150 x = 150 Wzrost [cm] p∈J d E = ∑ ( x − µ )2 i i p∈ś dM = |x−µ| σ Klasyfikacja 12 Klasyfikacja NM • Unimodalność rozkładów – Typowa sytuacja: klasy składają się z wielu modów (klasyfikacja NM prowadzi do błędnych wyników) CA MA CA p MB CB d (p , M B ) > d ( p , M A ) ⇒ p ∈ C A Klasyfikacja 13 Klasyfikacja k-NN • Klasyfikacja – Wybór klasy, której reprezentanci dominują wśród k-najbliŜszych punktów rβ rα p CA CA p CB rα : k = 1 → p ∈ CA • Model klasy – Wzorzec: wszystkie próbki zbioru treningowego – Parametry modelu: liczba k • Trening klasyfikatora – Określenie optymalnej wartości parametru k CB rβ : k = 3 → p ∈ CB Klasyfikacja 14 Klasyfikacja k-NN • Właściwości: zalety – Dowolny kształt powierzchni decyzyjnych (moŜliwość rozwiązania dowolnie złoŜonego problemu klasyfikacji) – NiewraŜliwość na błędne przykłady (przy odpowiednio duŜym k) – Przejrzysta metodologia postępowania – łatwe wdroŜenie metody • Właściwości: wady – DuŜa złoŜoność obliczeniowa procesu klasyfikacji – DuŜe zasoby wymagane dla przechowywania wzorców • Metodologia wyboru parametru k – Iteracyjne powtarzanie procedury klasyfikacji dla monotonicznie rosnącego k – wybór k dającego najlepsze wyniki klasyfikacji • Metody zmniejszania złoŜoności obliczeniowej metody – Indeksowanie próbek (przypisywanie próbkom zgrubnych lokalizacji w przestrzeni) i wstępna selekcja grup próbek rozwaŜanych w klasyfikacji Klasyfikacja 15 Klasyfikacja k-NN - indeksowanie • Kwantyzacja przestrzeni cech (‘bucketing”) – Przestrzeń cech dzielona równomiernie na hipersześciany – Próbkom przypisywane są indeksy zawierających je hipersześcianów – Dla badanej próbki określany jest indeks zawierającego ją regionu – W obliczeniach odległości uwzględniane są tylko próbki wzorców połoŜone w sąsiednich regionach 0 1 2 0 1 2 0 1 2 0 1 2 Klasyfikacja 16 Klasyfikacja k-NN - indeksowanie • Drzewa n-wymiariowe (‘n-dimensional trees”) – Przestrzeń cech dzielona na obszary zawierające takie same liczby próbek – Próbkom przypisywane są indeksy zawierających je obszarów LUL LUP RUL RUR LUL L L LDL • LDR RDL RDR U D U R L LUP RUL RUR R R L D R L R LDL LDR RDL RDR Zaleta podejścia – Nie ma obszarów ‘pustych’ – Szybsze obliczenia (jednakowe liczby próbek/region) Klasyfikacja 17 Klasyfikacja k-NM • Metodologia – Wybór klasy, której wzorzec jest najbliŜszy badanej próbce – Wzorzec klasy jest zbiorem próbek, odpowiadających połoŜeniom modów klasy Środki skupień odpowiadających modom: wzorzec klasy { } j k = arg min d ( p, M ) , i i N 1 i j M = N ∑ Ci , j = 1...m i i j =1 j j – ‘j’-ty mod klasy; mi – liczba modów klasy ‘i’ Klasyfikacja 18 Klasyfikacja k-NM • Trening: budowanie wzorca klasy – Procedura określania połoŜeń wektorów, odpowiadających skupieniom (modom) zbioru próbek treningowych danej klasy – Typowe uwarunkowania treningu: brak wiedzy odnośnie liczby modów klasy • Algorytm k-średnich – Systematyczna procedura wyboru optymalnych połoŜeń wektorów, stanowiących wieloelementową reprezentację klasy – Istota algorytmu: naprzemienne powtarzanie dwóch operacji – Określania przyporządkowania próbek do bieŜących lokalizacji modów (kryterium przyporządkowania: odległość) – Uaktualniania połoŜeń modów (kryterium: najbardziej reprezentatywny punkt – wartość średnia) • Przykład – Zakładane dwa mody; początkowe hipotezy m1=(0,1) m2 = (1,0) – Próbki klasy: (0,2), (1,1), (2,0),(3,5),(4,4),(5,3) Cechy i przestrzenie cech 19 Grupowanie – algorytm k-średnich • Problem – Automatyzacja procesu wyznaczania liczby skupień – Rozwiązanie: detekcja załamania krzywej wariancji k=3 k=4 k=5 Łączna wariancja k=6 k=7 Liczba skupień Klasyfikacja 20 Reprezentacja rozkładów wielomodalnych • Mieszaniny rozkładów Gaussa (GMM) – Modelowanie klas za pomocą zbioru funkcji Gaussa, o parametrach dopasowanych do właściwości skupień (wartości średnie i wariancje) – Lepsza reprezentacja klasy niŜ metod NM: uwzględnienie rozrzutów w obrębie klasy • Estymacja parametrów mieszaniny – Metodologia EM (Expectation Maximization) – Idea postępowania: iteracyjne powtarzanie dwóch etapów – Estymacja przynaleŜności do kaŜdego ze skupień (kryterium: odległość Machalobonisa od rozwaŜanego centrum) – Wyznaczenie nowych parametrów centrów (wartości średnie / macierze kowariancji) Cechy i przestrzenie cech 21 Klasyfikacja przez podział przestrzeni cech • Wprowadzenie – Modele klas = „powierzchnie decyzyjne” – Klasyfikacja: określanie lokalizacji próbki względem połoŜenia powierzchni decyzyjnej ☺ x1 wx + c = 0 xB xA wxB + c > 0 wxA + c < 0 v p+c=0 T T x w = 0, gdzie x0 v p w = , x = c 1 Cechy i przestrzenie cech 22 Klasyfikacja przez podział przestrzeni cech • Podstawy teoretyczne klasyfikacji – Cel: wybrać powierzchnię zapewniającą spełnienie odpowiedniego kryterium ilościowego – Najprostszy przypadek: powierzchnia pierwszego stopnia = hiperpłaszczyzna • Kryteria doboru parametrów powierzchni – Maksymalizacja liczby poprawnie klasyfikowanych próbek – wada: brak rozsądnego rozwiązania dla próbek nieseparowalnych liniowo – Minimalizacja łącznego błędu klasyfikacji n −1 e = ∑ ( x w − bi ) iT 2 i =0 Cechy i przestrzenie cech 23 Klasyfikacja przez podział przestrzeni cech • Wybór powierzchni minimalizującej błąd klasyfikacji – standardowa metoda ( x 0 ) T x 0 ... x 0 d 0 X= : = : : , ( x n−1 ) T x0n−1 ... xdn−1 n×( d +1) n −1 e= b0 b= : b n−1 iT 2 ( x w − b ) =( Xw − b ) ( Xw − b ) → min ∑ i T i =0 T T T X ( Xw − b) + ( Xw − b ) X = 0 → 2 X ( Xw − b ) = 0 ( T w= X X ) −1 T X b Cechy i przestrzenie cech 24