μ - Krzysztof Slot

Transkrypt

μ - Krzysztof Slot
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Statystyczne metody
przetwarzania danych
Cechy i przestrzenie cech
Krzysztof Ślot
Instytut Informatyki Stosowanej
Politechnika Łódzka
1
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Wprowadzenie
• Etapy procedury rozpoznawania
– Przetwarzanie wstępne, obejmuje ekstrakcję obiektu z tla
– Projektowanie systemu rozpoznawania
– Klasyfikacja, wykorzystująca wybrane cechy i zbudowane modele klas
Przygotowanie
danych
Zebranie i etykietowanie przykładów
Określenie zbiorów: treningowego i testowego
Projektowanie
systemu
Określ reprezentację ilościową
obiektów
Określ sposób modelowania klas
Przedmiot
Określenie strategii klasyfikacji
wykładu
Oblicz cechy
Trenuj klasyfikator
Klasyfikuj
Implementacja
2
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Wprowadzenie
• Unifikacja różnych typów zadań
– Analiza przynależności do klasy przeprowadzana w przestrzeniach cech
Akwizycja i przetwarzanie
wstępne
Cechy: ilościowa
reprezentacja obiektów

 f
 f
F1  f 0 , f1 ... f n1
F2
F
EEG




0

0
, f1 ... f n1
, f1 ... f n1





F  f 0 , f1 ... f m1

Reprezentacja w
przestrzeni cech
T1
Chory
Ok
Mowa





F  f 0 , f1 ... fo1

‘a’
‘e’
‘o’
3
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Cechy i przestrzenie cech
y  AL / R x 3  BL / R x 2  CL / R x  DL / R
d LP
• Definicje
– Cecha: charakterystyka ilościowa
– Przestrzeń cech: przestrzeń metryczna
wyznaczona przez cechy
d3
d4
• Przestrzenie cech dla rozpoznawania
•
•
Powinny być ‘najlepsze’
(‘dyskryminatywne’)
Typowo brak wskazówek wyboru cech
(które, ile)
Wektor cech
h
w
, A , BLL, CLL, DLL, ARR, BRR, CRR, DRR,]w, h,]d1, d 2 , dOBL , dOBP ]
[[ddLP
LP] LL
Staje się coraz dłuższy …
np. kilkaset tysięcy elementów (Eigenfaces)
• Wymiar wektora – wymiar przestrzeni cech
•
Wielowymiarowe przestrzenie cech
4
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Opis obiektów = przestrzeń wielkowymiarowa?
• Hipoteza
•
Użyć wszystkich możliwych do wyznaczenia cech (ponieważ nie
wiadomo, które są ważne)
d : 12.35  12.2  12.4  
Wzorzec
AL : 2.3  1.9  4.3
Obiekt 1
:
w : 6  8.6  8.1
:
− Brak zgodności obiektów z wzorcem dla różnych cech
Podobieństwo
D  (d w  d x )2  ( ALw  ALx )2  
− „Zła” cecha to ‘szum’ obliczania podobieństwa:
losowe wartości miary podobieństwa (D)
Obiekt 2
99% fiasko
5
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Opis obiektów = przestrzeń wielkowymiarowa?
• Hipoteza
•
Użyć wszystkich dobrych cech (np. 100)
 d / dN 
d / d

K
_
LP









d / d N : 1.35  1.29  1.34  
d / d K _ LP : 3.2  3.4  3.7  
:
− Wyniki obliczania podobieństwa jest wiarygodny, ale …
Kolor oczu (różne oświetlenie)
X
Oczy
3D : : 0.1pr./komórkę
4D : : 0.01pr./komórkę
Hue
Y
Złe modele
Hue
Skóra
‘Modele’ biometryczne 1D osób
(100 próbek/klasę, 10 przedz. -> 10p/p)
‘Modele’ 2D (100 p/k,10 prz.: 1p/p)
Klątwa
wymiarowości
6
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Redukcja wymiarowości problemu rozpoznawania
• Wymiar przestrzeni cech powinien być jak najmniejszy
– Dostępny zbiór cech będzie typowo nadmiarowy, będzie zawierał cechy
dobre, złe i średnie
– Konieczne będzie dokonanie redukcji tego zbioru w oparciu o odpowiednio
sformułowane kryteria
• Redukcja wymiarowości
– Poszukiwanie niskowymiarowej reprezentacji obiektów

D
d
 ,
d  D
F   f 0 , f1... f D1   ξ  0 , 1...d 1 
• Strategie redukcji
wymiarowości
– Selekcja cech
– Ekstrakcja cech
Selekcja liniowa
Ekstrakcja liniowa
Ekstrakcja nieliniowa
Weryfikacja wiarygodności
7
Statystyczne metody przetwarzania danych
Krzysztof Ślot, 2014
Selekcja cech
• Sformułowanie problemu
– Znajdź podzbiór oryginalnego, nadmiarowego zbioru cech, zapewniający
największą skuteczność rozpoznawania (cechy najlepsze)
• Zagadnienia cząstkowe
1. Ocena jakości zbioru cech
2. Sposób generacji podzbiorów do sprawdzenia
1. Kryteria oceny jakości podzbioru
– Ocena skuteczności klasyfikacji
– Prognozowanie skuteczności (miary statystyczne)
• Ocena skuteczności klasyfikacji
– Narzucające się kryterium
– Ocena pośrednia: wikła ocenę jakości cech i jakości przyjętej metody
klasyfikacji, jest złożona obliczeniowo (dla każdego zbioru konieczne
tworzenie osobnego systemu klasyfikacji i ocena wyników jego działania)
8
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Statystyczne kryteria selekcji cech
• Właściwości
– Zalety: prostota koncepcyjna i efektywność obliczeniowa
– Wady: używanie założeń ograniczających ogólność rozważań
• Wskazówki wyboru przestrzeni cech
– Dobra przestrzeń zapewnia dobrą separację klas (próbek klas)
– Dobra separacja: ‘chmury’ próbek danej klasy znajdują się w odrębnych
(możliwych do (łatwego) rozdzielenia) regionach przestrzeni cech
• Podstawowe statystyki
rozkładów 1D
– Średnia (arytmetyczna,
geometryczna)
– Wariancja
– Inne momenty zwykłe
– Inne momenty centralne
– ...
n 1
E ( X )   p( xi )xi
i 0
1 n 1
   xi
n i 0
1 n 1
G   xi
n i 0
 2  E ( X   )2  E ( X )2   2
s  E( X  )
3
Przykład:
oblicz
podstawowe
statystyki
zbioru
A  1,2,3,4,5
9
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech w przestrzeni 1D
• Założenia
– Obiekty są opisane za pomocą jednej cechy, rozważamy 2 klasy
– Celem jest ocena ‘separowalności’ (możliwości separacji) klas
• Kryterium statystyczne
– Dobra separacja: wartości średnie klas leżą daleko od siebie, wariancje w
obrębie klas są jak najmniejsze
Współczynnik dyskryminacji liniowej Fishera:: 1D, 2 klasy
Sb – rozrzut między-klasowy, Sw rozrzut wewnątrz-klasowy
F = 2.5
p(x)
 0
 2 1
Przykład
Sw

| m A  mB |
 A  B
F = 1.6
p(x)
 5
 2 1
F
Sb
 0
 5
 2  2.5
 2  2.5
xA = { (-1, 0}, (1, 1), {0, 0)}, xB = { (2, -1}, (0, 0), {-2, -2)}
10
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech w przestrzeniach n-wymiarowych
• Statystyczna reprezentacja danych w n-wymiarach
– Wartość średnia: wektor
– Zmienność: macierz kowariancji
Przykłady
klasy A
 E ( x0 ) 


Średnia μ  E ( X )   : 
 E ( xn 1 )
  x00   x01   x0m  


 

X A    : ,  : ,... :  
  x 0   x1   x m  
  n 1   n 1   n 1  
n 1
Kowariancja
Cov( X )  E[(X  μ)( X  μ) ]   p(xi )(xi  μ)( xi  μ)T
Macierz kowariancji
T
i 0
 002  c00
c01
...


Cov( X )   c10
 112  c11 ...
 ...
...
...

11
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Założenia: 2 klasy, 2D
– Jak określić odległość między klasami (dla 1D: moduł różnicy średnich)?
– Jak opisać zmienność w obrębie klasy(1D: suma odchyleń)?
• Rozrzut międzyklasowy dla 2 klas w
przestrzeni 2D
Sb || μ A  μB ||
– Odległość między wartościami średnimi
(długość wektora)
• Rozrzut wewnątrzklasowy
dla 2 klas, 2D
 a0 b0 
  a0b1  b0 a1  a  b  ab sin(a, b)
a
b
 1 1
  02 ... c0n 


c
S  det( C )  det  :
: 
w
 cn 0 ...  n2 


Wyznacznik macierzy kowariancji
det 
xA = { (-1, 0, -1}, (1, 1, 1), {0, 0, 0)}
Objętość równoległościanu wyznaczonego
przez wektory (kolumny) macierzy
kowariancji
12
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Przypadek 2D, 2 klasy
– Kryterium separowalności (Fishera) – analogiczna zasada: relacja między
rozrzutami: międzyklasowym i wewnątrzklasowym
Macierz rozrzutu
Macierz kowariancji
c

c
C  E[ x  μ
c
x
c
μ
]
c T
c
N
S 
i 1

c
Xi
μ
c

c
Xi
μ

c T
• Alternatywne formy współczynnika Fishera
Dokładna
estymacja
rozrzutu
F
Sm
Sw

A
B
|| μ  μ ||
A
B
det(S  S )
Zgrubna
estymacja
F
Sm
Sw

A
B
|| μ  μ ||
A
B
Tr (S  S )
• Wyrażenia są ogólne i dotyczą zmiennych n-wymiarowych
13
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Przypadek najogólniejszy: wiele klas, n-wymiarów
– Idea kryterium bez zmian: relacja rozrzutu międzyklasowego do wewnątrzklasowego
• Rozrzut wewnątrzklasowy
– Miara identyczna jak poprzednio – suma wyznaczników lub śladów
indywidualnych macierzy rozrzutu
C
S w   det (S )
i 1
i
C
lub
S w   Tr (S )
i
i 1
• Rozrzut międzyklasowy
– Konieczna redefinicja (mamy do czynienia z wieloma wartościami
średnimi)
14
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera
• Rozrzut międzyklasowy dla wielu klas i przestrzeni n-D
– Idea: potraktowanie wartości średnich klas jako próbek nowego,
hipotetycznego rozkładu i określenie rozrzutu wewnątrzklasowego tego
rozkładu
μB
B
μ
μA
A
C
μC
Współczynnik Fishera
C-klas, n-wymiarów
Rozrzut międzyklasowy
E
μE


C
~
i
i
SB   μ  μ μ  μ
i 1
μD
D
μi
F
Sm
Sw
Średnia klasy ‘i’

~
det( S B )
C
 det (S )
i 1
i
,
μ
F

T
Średnia
rozkładu
Sm
Sw

~
Tr ( S B )
C
i
 Tr (S )
i 1
15
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech z użyciem wsp. Fishera
• Właściwości
– Prosta i szybka procedura
– Zakłada, że rozkłady próbek klas mają charakter Gaussowski
Klasy separowalne nieliniowo
Wartość współczynnika Fishera
sugeruje brak możliwości separacji klas
16
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech
• Zasadnicze zagadnienia problematyki selekcji cech
– Wybór optymalnej przestrzeni cech (omówiony)
– Określenie systematycznej metody tworzenia podzbiorów cech
• Generacja podzbiorów zbioru cech
– Selekcja wymaga sprawdzenia każdego podzbioru
– Generacja wszystkich podzbiorów: zadanie o wykładniczej złożoności
obliczeniowej
• Przykład
– Liczność zbioru cech: 100
– Cel: wybór optymalnej przestrzeni cech, co najwyżej 10-cio wymiarowej
– Liczba wszystkich podzbiorów:
100  100 
100 

  
  ...  

 1   2 
 10 
100  100  99  98  ...91
 17  1012

 
1  2  ...  10
 10 
17
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Algorytmy generacji podzbiorów
• Metoda B-B
– Budowa drzewa poszukiwań
– „Przycinanie” drzewa – usuwanie węzłów z pewnością prowadzących do
gorszych podzbiorów
Podzbiór cech
112
Ocena podzbioru
1. Sprawdzenie dowolnego podzbioru o założonej liczności Sk
2. ‘Wspięcie się’ do wierzchołka z rejestracją kosztu dla kolejnych warstw
3. Ekspansja w dół: jeżeli koszt dla podzbioru większy niż dowolny dotąd
zarejestrowany, usuń dalsze poddrzewo,
18
Statystyczne metody przetwarzania danych
Krzysztof Ślot, 2014
Metoda B-B generacji podzbiorów
•
Przykład
1. Jakość podzbioru startowego
o docelowej liczności = 50
2. Ekspansja korzenia do
poziomu, w którym znaleziono
gorszy podzbiór (48), usunięcie
poddrzewa (o ile nie przekroczono
ustalonej głębokości
3. Wybór innego podzbioru o
docelowej liczebności
4. Iteracyjne powtarzanie
procedury
Cechy i przestrzenie cech
19
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Metoda selekcji przyrostowej
• Założenie
– Monotoniczność funkcji celu (liczniejszy podzbiór ma lepsze właściwości)
• Selekcja przyrostowa (Sequential forward selection - SFS)
– Iteracyjne powiększanie najlepszego podzbioru o liczności n o kolejny
element, dający najlepszy podzbiór n+1 - elementowy
t  0 : F0  {}
i  D : F'  Ft , fi t 1
t 1
F
t 1
t 1
 F  fi , i : FLD(F  fi )  max
t
t
Koniec
?
STOP
t  t 1
• Selekcja redukcyjna (Sequential Backwards selection - SBS)
– Iteracyjna redukcja zbioru o liczności n o kolejny element, dający najlepszy
podzbiór n-1 - elementowy
• Złożoność obliczeniowa
n  (n  1)  ...(n  k  1)  k  n

n!
(n  k )! k!
20