μ - Krzysztof Slot
Transkrypt
μ - Krzysztof Slot
Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Statystyczne metody przetwarzania danych Cechy i przestrzenie cech Krzysztof Ślot Instytut Informatyki Stosowanej Politechnika Łódzka 1 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Wprowadzenie • Etapy procedury rozpoznawania – Przetwarzanie wstępne, obejmuje ekstrakcję obiektu z tla – Projektowanie systemu rozpoznawania – Klasyfikacja, wykorzystująca wybrane cechy i zbudowane modele klas Przygotowanie danych Zebranie i etykietowanie przykładów Określenie zbiorów: treningowego i testowego Projektowanie systemu Określ reprezentację ilościową obiektów Określ sposób modelowania klas Przedmiot Określenie strategii klasyfikacji wykładu Oblicz cechy Trenuj klasyfikator Klasyfikuj Implementacja 2 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Wprowadzenie • Unifikacja różnych typów zadań – Analiza przynależności do klasy przeprowadzana w przestrzeniach cech Akwizycja i przetwarzanie wstępne Cechy: ilościowa reprezentacja obiektów f f F1 f 0 , f1 ... f n1 F2 F EEG 0 0 , f1 ... f n1 , f1 ... f n1 F f 0 , f1 ... f m1 Reprezentacja w przestrzeni cech T1 Chory Ok Mowa F f 0 , f1 ... fo1 ‘a’ ‘e’ ‘o’ 3 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Cechy i przestrzenie cech y AL / R x 3 BL / R x 2 CL / R x DL / R d LP • Definicje – Cecha: charakterystyka ilościowa – Przestrzeń cech: przestrzeń metryczna wyznaczona przez cechy d3 d4 • Przestrzenie cech dla rozpoznawania • • Powinny być ‘najlepsze’ (‘dyskryminatywne’) Typowo brak wskazówek wyboru cech (które, ile) Wektor cech h w , A , BLL, CLL, DLL, ARR, BRR, CRR, DRR,]w, h,]d1, d 2 , dOBL , dOBP ] [[ddLP LP] LL Staje się coraz dłuższy … np. kilkaset tysięcy elementów (Eigenfaces) • Wymiar wektora – wymiar przestrzeni cech • Wielowymiarowe przestrzenie cech 4 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Opis obiektów = przestrzeń wielkowymiarowa? • Hipoteza • Użyć wszystkich możliwych do wyznaczenia cech (ponieważ nie wiadomo, które są ważne) d : 12.35 12.2 12.4 Wzorzec AL : 2.3 1.9 4.3 Obiekt 1 : w : 6 8.6 8.1 : − Brak zgodności obiektów z wzorcem dla różnych cech Podobieństwo D (d w d x )2 ( ALw ALx )2 − „Zła” cecha to ‘szum’ obliczania podobieństwa: losowe wartości miary podobieństwa (D) Obiekt 2 99% fiasko 5 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Opis obiektów = przestrzeń wielkowymiarowa? • Hipoteza • Użyć wszystkich dobrych cech (np. 100) d / dN d / d K _ LP d / d N : 1.35 1.29 1.34 d / d K _ LP : 3.2 3.4 3.7 : − Wyniki obliczania podobieństwa jest wiarygodny, ale … Kolor oczu (różne oświetlenie) X Oczy 3D : : 0.1pr./komórkę 4D : : 0.01pr./komórkę Hue Y Złe modele Hue Skóra ‘Modele’ biometryczne 1D osób (100 próbek/klasę, 10 przedz. -> 10p/p) ‘Modele’ 2D (100 p/k,10 prz.: 1p/p) Klątwa wymiarowości 6 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Redukcja wymiarowości problemu rozpoznawania • Wymiar przestrzeni cech powinien być jak najmniejszy – Dostępny zbiór cech będzie typowo nadmiarowy, będzie zawierał cechy dobre, złe i średnie – Konieczne będzie dokonanie redukcji tego zbioru w oparciu o odpowiednio sformułowane kryteria • Redukcja wymiarowości – Poszukiwanie niskowymiarowej reprezentacji obiektów D d , d D F f 0 , f1... f D1 ξ 0 , 1...d 1 • Strategie redukcji wymiarowości – Selekcja cech – Ekstrakcja cech Selekcja liniowa Ekstrakcja liniowa Ekstrakcja nieliniowa Weryfikacja wiarygodności 7 Statystyczne metody przetwarzania danych Krzysztof Ślot, 2014 Selekcja cech • Sformułowanie problemu – Znajdź podzbiór oryginalnego, nadmiarowego zbioru cech, zapewniający największą skuteczność rozpoznawania (cechy najlepsze) • Zagadnienia cząstkowe 1. Ocena jakości zbioru cech 2. Sposób generacji podzbiorów do sprawdzenia 1. Kryteria oceny jakości podzbioru – Ocena skuteczności klasyfikacji – Prognozowanie skuteczności (miary statystyczne) • Ocena skuteczności klasyfikacji – Narzucające się kryterium – Ocena pośrednia: wikła ocenę jakości cech i jakości przyjętej metody klasyfikacji, jest złożona obliczeniowo (dla każdego zbioru konieczne tworzenie osobnego systemu klasyfikacji i ocena wyników jego działania) 8 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Statystyczne kryteria selekcji cech • Właściwości – Zalety: prostota koncepcyjna i efektywność obliczeniowa – Wady: używanie założeń ograniczających ogólność rozważań • Wskazówki wyboru przestrzeni cech – Dobra przestrzeń zapewnia dobrą separację klas (próbek klas) – Dobra separacja: ‘chmury’ próbek danej klasy znajdują się w odrębnych (możliwych do (łatwego) rozdzielenia) regionach przestrzeni cech • Podstawowe statystyki rozkładów 1D – Średnia (arytmetyczna, geometryczna) – Wariancja – Inne momenty zwykłe – Inne momenty centralne – ... n 1 E ( X ) p( xi )xi i 0 1 n 1 xi n i 0 1 n 1 G xi n i 0 2 E ( X )2 E ( X )2 2 s E( X ) 3 Przykład: oblicz podstawowe statystyki zbioru A 1,2,3,4,5 9 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Selekcja cech w przestrzeni 1D • Założenia – Obiekty są opisane za pomocą jednej cechy, rozważamy 2 klasy – Celem jest ocena ‘separowalności’ (możliwości separacji) klas • Kryterium statystyczne – Dobra separacja: wartości średnie klas leżą daleko od siebie, wariancje w obrębie klas są jak najmniejsze Współczynnik dyskryminacji liniowej Fishera:: 1D, 2 klasy Sb – rozrzut między-klasowy, Sw rozrzut wewnątrz-klasowy F = 2.5 p(x) 0 2 1 Przykład Sw | m A mB | A B F = 1.6 p(x) 5 2 1 F Sb 0 5 2 2.5 2 2.5 xA = { (-1, 0}, (1, 1), {0, 0)}, xB = { (2, -1}, (0, 0), {-2, -2)} 10 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Selekcja cech w przestrzeniach n-wymiarowych • Statystyczna reprezentacja danych w n-wymiarach – Wartość średnia: wektor – Zmienność: macierz kowariancji Przykłady klasy A E ( x0 ) Średnia μ E ( X ) : E ( xn 1 ) x00 x01 x0m X A : , : ,... : x 0 x1 x m n 1 n 1 n 1 n 1 Kowariancja Cov( X ) E[(X μ)( X μ) ] p(xi )(xi μ)( xi μ)T Macierz kowariancji T i 0 002 c00 c01 ... Cov( X ) c10 112 c11 ... ... ... ... 11 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Współczynnik Fishera dla n-D • Założenia: 2 klasy, 2D – Jak określić odległość między klasami (dla 1D: moduł różnicy średnich)? – Jak opisać zmienność w obrębie klasy(1D: suma odchyleń)? • Rozrzut międzyklasowy dla 2 klas w przestrzeni 2D Sb || μ A μB || – Odległość między wartościami średnimi (długość wektora) • Rozrzut wewnątrzklasowy dla 2 klas, 2D a0 b0 a0b1 b0 a1 a b ab sin(a, b) a b 1 1 02 ... c0n c S det( C ) det : : w cn 0 ... n2 Wyznacznik macierzy kowariancji det xA = { (-1, 0, -1}, (1, 1, 1), {0, 0, 0)} Objętość równoległościanu wyznaczonego przez wektory (kolumny) macierzy kowariancji 12 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Współczynnik Fishera dla n-D • Przypadek 2D, 2 klasy – Kryterium separowalności (Fishera) – analogiczna zasada: relacja między rozrzutami: międzyklasowym i wewnątrzklasowym Macierz rozrzutu Macierz kowariancji c c C E[ x μ c x c μ ] c T c N S i 1 c Xi μ c c Xi μ c T • Alternatywne formy współczynnika Fishera Dokładna estymacja rozrzutu F Sm Sw A B || μ μ || A B det(S S ) Zgrubna estymacja F Sm Sw A B || μ μ || A B Tr (S S ) • Wyrażenia są ogólne i dotyczą zmiennych n-wymiarowych 13 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Współczynnik Fishera dla n-D • Przypadek najogólniejszy: wiele klas, n-wymiarów – Idea kryterium bez zmian: relacja rozrzutu międzyklasowego do wewnątrzklasowego • Rozrzut wewnątrzklasowy – Miara identyczna jak poprzednio – suma wyznaczników lub śladów indywidualnych macierzy rozrzutu C S w det (S ) i 1 i C lub S w Tr (S ) i i 1 • Rozrzut międzyklasowy – Konieczna redefinicja (mamy do czynienia z wieloma wartościami średnimi) 14 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Współczynnik Fishera • Rozrzut międzyklasowy dla wielu klas i przestrzeni n-D – Idea: potraktowanie wartości średnich klas jako próbek nowego, hipotetycznego rozkładu i określenie rozrzutu wewnątrzklasowego tego rozkładu μB B μ μA A C μC Współczynnik Fishera C-klas, n-wymiarów Rozrzut międzyklasowy E μE C ~ i i SB μ μ μ μ i 1 μD D μi F Sm Sw Średnia klasy ‘i’ ~ det( S B ) C det (S ) i 1 i , μ F T Średnia rozkładu Sm Sw ~ Tr ( S B ) C i Tr (S ) i 1 15 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Selekcja cech z użyciem wsp. Fishera • Właściwości – Prosta i szybka procedura – Zakłada, że rozkłady próbek klas mają charakter Gaussowski Klasy separowalne nieliniowo Wartość współczynnika Fishera sugeruje brak możliwości separacji klas 16 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Selekcja cech • Zasadnicze zagadnienia problematyki selekcji cech – Wybór optymalnej przestrzeni cech (omówiony) – Określenie systematycznej metody tworzenia podzbiorów cech • Generacja podzbiorów zbioru cech – Selekcja wymaga sprawdzenia każdego podzbioru – Generacja wszystkich podzbiorów: zadanie o wykładniczej złożoności obliczeniowej • Przykład – Liczność zbioru cech: 100 – Cel: wybór optymalnej przestrzeni cech, co najwyżej 10-cio wymiarowej – Liczba wszystkich podzbiorów: 100 100 100 ... 1 2 10 100 100 99 98 ...91 17 1012 1 2 ... 10 10 17 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Algorytmy generacji podzbiorów • Metoda B-B – Budowa drzewa poszukiwań – „Przycinanie” drzewa – usuwanie węzłów z pewnością prowadzących do gorszych podzbiorów Podzbiór cech 112 Ocena podzbioru 1. Sprawdzenie dowolnego podzbioru o założonej liczności Sk 2. ‘Wspięcie się’ do wierzchołka z rejestracją kosztu dla kolejnych warstw 3. Ekspansja w dół: jeżeli koszt dla podzbioru większy niż dowolny dotąd zarejestrowany, usuń dalsze poddrzewo, 18 Statystyczne metody przetwarzania danych Krzysztof Ślot, 2014 Metoda B-B generacji podzbiorów • Przykład 1. Jakość podzbioru startowego o docelowej liczności = 50 2. Ekspansja korzenia do poziomu, w którym znaleziono gorszy podzbiór (48), usunięcie poddrzewa (o ile nie przekroczono ustalonej głębokości 3. Wybór innego podzbioru o docelowej liczebności 4. Iteracyjne powtarzanie procedury Cechy i przestrzenie cech 19 Krzysztof Ślot, 2014 Statystyczne metody przetwarzania danych Metoda selekcji przyrostowej • Założenie – Monotoniczność funkcji celu (liczniejszy podzbiór ma lepsze właściwości) • Selekcja przyrostowa (Sequential forward selection - SFS) – Iteracyjne powiększanie najlepszego podzbioru o liczności n o kolejny element, dający najlepszy podzbiór n+1 - elementowy t 0 : F0 {} i D : F' Ft , fi t 1 t 1 F t 1 t 1 F fi , i : FLD(F fi ) max t t Koniec ? STOP t t 1 • Selekcja redukcyjna (Sequential Backwards selection - SBS) – Iteracyjna redukcja zbioru o liczności n o kolejny element, dający najlepszy podzbiór n-1 - elementowy • Złożoność obliczeniowa n (n 1) ...(n k 1) k n n! (n k )! k! 20