Metody Rozpoznawania Obrazów Laboratorium nr 3 Metody selekcji

Transkrypt

Metody Rozpoznawania Obrazów Laboratorium nr 3 Metody selekcji
Metody Rozpoznawania Obrazów
Laboratorium nr 3
Metody selekcji cech
1. Format sprawozdania
W trakcie zajęć naleŜy wykonać wszystkie doświadczenia opisane w rozdziale „Opis
doświadczeń podstawowych”. Uzyskane wyniki naleŜy umieścić w sprawozdaniu z ćwiczeń,
łącznie z ich analizą i dyskusją, zachowując numerację paragrafów zgodną z instrukcją. W
szczególności, naleŜy umieścić wyniki oznaczone symbolem (SPR). Sprawozdanie powinno
być zwięzłe, i nie powinno zawierać wprowadzenia do rozwaŜanych zagadnień ani opisu
przeprowadzonych doświadczeń, o ile nie dokonano w trakcie ich przeprowadzania Ŝadnych
modyfikacji w stosunku do poniŜszej instrukcji.
NaleŜy przygotować jedno sprawozdanie na grupę dwuosobową. Sprawozdanie naleŜy
umieścić w katalogu o nazwie składającej się z 4 członów: nr ćwiczenia, nr grupy
ćwiczeniowej, nazwisko1, imię1, nazwisko2, imię2 (np. 1_7_Nowak_Janina_Kowalski_Jan).
Katalog wraz z jego zawartością naleŜy skompresować w formacie RAR do pliku o nazwie
takiej jak nazwa katalogu (np.
1_7_Nowak_Janina_Kowalski_Jan.rar), tak aby po
rozpakowaniu katalog odtworzył się. Następnie plik skompresowany naleŜy przesłać na adres:
[email protected]
Sprawozdania końcowe naleŜy przesłać na powyŜszy adres nie później niŜ w 2 tygodnie od
dnia zajęć. PowyŜsze ćwiczenie wykonywane jest na 1 zajęciach.
Katalog powinien zawierać, oprócz samego sprawozdania w formacie PDF, równieŜ
podkatalog o nazwie „kod”, w którym umieszczone są wszystkie pliki źródłowe procedur i
skryptów napisanych w trakcie ćwiczeń.
2. Wprowadzenie
2.1.
Cele laboratorium
-
2.2.
Literatura
-
2.3.
Zapoznanie się z metodami selekcji cech na potrzeby klasyfikacji, w tym
metodami filtracji cech na bazie rankingu cech
metodami typu „wrapper”, konstruującymi podzbiory wykorzystując
wybrany klasyfikator
Algorytmy:
Wykład
http://www.icsr.agh.edu.pl/~mro/FeatSel/papers.rar
Zbiory danych
Zbiory danych wykorzystywane w tym ćwiczeniu:
- uci-spambase-normalized.mat (oraz opis spambase.DOCUMENTATION i
spambase.names)
- correlated.mat
- overlapping.mat
znajdują się pod adresem: http://www.icsr.agh.edu.pl/~mro/FeatSel/datasets.rar
3. Opis doświadczeń podstawowych
Poprawne wykonanie i przeanalizowanie wyników z tej części umoŜliwia uzyskanie oceny
maksymalnie 4.0.
3.1.
Wybór cech bazujący na ich rankingu
Wczytaj zbiór danych uci-spambase-normalized.mat. Zbiór ten zawiera jako przykłady
(wiersze w macierzach features*) e-maile opisane przez 57 cech, np. częstotliwość pewnych
słów lub występowanie pewnych symboli (dokładny opis cech znajduje się w plikach
spambase.DOCUMENTATION i spambase.names). Zbiór słuŜy do budowy klasyfikatorów
decydujących czy e-mail jest spamem.
Dokonaj rankingu cech przy pomocy metody obliczającej na zbiorze treningowym dla kaŜdej
cechy wartość pola pod krzywą ROC, i stosującej wartość ROC oraz niską korelację jako
kryterium uszeregowania cech (rozdziały 5.4 i 5.6.1 w załączonych plikach .ps). Zbadaj błąd
klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla 1 cechy, o najwyŜszej
wartości kryterium rankingowego, dla 2 cech najwyŜej w rankingu, i tak kolejno dla zbiorów f
cech, aŜ do wykorzystania wszystkich 57 cech, włącznie z tymi z końca rankingu. Wykreśl
zaleŜność błędu od liczby wykorzystanych cech f i przedyskutuj (SPR).
3.2.
Czy zawsze usuwać cechy silnie skorelowane z
innymi?
Wczytaj zbiór danych o 2 cechach correlated.mat. Sprawdź współczynnik korelacji pomiędzy
tymi dwoma cechami (SPR). Skoro cechy są silnie skorelowane, zastanów się czy wystarczy
wykorzystać tylko jedną z nich do klasyfikacji. Zbadaj błąd testowy klasyfikacji klasyfikatora
3-NN dla oryginalnego zbioru (z 2 cechami), dla zbioru z którego wykorzystana jest tylko
cecha 1 (tzn. cecha 2 została odrzucona jako silnie skorelowana z cechą 1) oraz dla zbioru z
którego wykorzystana jest tylko cecha 2, przedyskutuj uzyskane wyniki (SPR).
3.3.
Czy zawsze usuwać cechy nie niosące
samodzielnie informacji rozdzielającej klasy?
Wczytaj zbiór danych o 2 cechach overlapping.mat. Oblicz wartości pola pod krzywą ROC
dla kaŜdej z cech (SPR). Posortuj wartości pierwszej cechy dla punktów z klasy 0, i osobno
dla punktów z klasy 1, po czym porównaj wartości cech dla kolejnych przykładów z klasy 0 z
tymi z klasy 1. Obserwacje zapisz w sprawozdaniu (SPR). PoniewaŜ dla cechy 1, przykłady z
obydwu klas nakładają się, a takŜe biorąc pod uwagę wartość pola pod krzywą ROC,
zastanów się czy moŜe ona nieść jakąś informację przydatną dla klasyfikacji, czy teŜ moŜna ją
wyrzucić. Zbadaj błąd testowy klasyfikacji klasyfikatora 3-NN dla oryginalnego zbioru (z 2
cechami), dla zbioru z którego wykorzystana jest tylko cecha 2 (tzn. cecha 1 została
odrzucona) (SPR). Sprawdź wynik takŜe dla zbioru z którego wykorzystana jest tylko cecha
1, przedyskutuj uzyskane wyniki (SPR).
3.4.
Metody typu „wrapper” – SFS
Wczytaj zbiór danych o 57 cechach uci-spambase-normalized.mat. Zaimplementuj metodę
Sequential Forward Selection (rozdział 5.6.2 w załączonych plikach .ps) wykorzystującą
klasyfikator 3-NN.
Następnie, dokonaj wyboru cech metodą SFS wykorzystującą klasyfikator 3-NN. Błąd
klasyfikatora wyuczonego na zbiorze treningowym w metodzie SFS oceniaj na zbiorze
walidacyjnym (featuresValidate, classesValidate), tak by nie wykorzystywać zbioru
testowego w trakcie oceny cech, i zachować go do ostatecznych testów. Obliczone wartości
błędu na zbiorze walidacyjnym dla kolejnych, coraz większych najlepszych podzbiorów cech
zachowaj, by porównać je później z błędem dla tych podzbiorów na zbiorze testowym. Zbadaj
błąd klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla 1 cechy, wybranej
jako pierwsza, następnie dla wybranego podzbioru 2 cech, i tak kolejno dla coraz większych
podzbiorów f cech, aŜ do wykorzystania wszystkich 57 cech, włącznie z tą włączoną w
metodzie SFS na końcu. Wykreśl zaleŜność błędu testowego i walidacyjnego od liczby
wykorzystanych cech f i przedyskutuj (SPR). Porównaj wyniki dotyczące krzywej błędu na
zbiorze testowym z tymi z punktu 3.1 (SPR). Przeanalizuj, czy cechy uznane za
najwaŜniejsze i najmniej waŜne przez metodę SFS pokrywają się z tymi wybranymi w
punkcie 3.1 (SPR).
4. Opis doświadczeń dodatkowych
Poprawne wykonanie i przeanalizowanie wyników z tej części umoŜliwia podwyŜszenie
oceny do 5.0.
4.1.
Metoda SBS
Wczytaj zbiór danych o 57 cechach uci-spambase-normalized.mat. Zaimplementuj metodę
Sequential Backward Selection (rozdział 5.6.2 w załączonych plikach .ps) wykorzystującą
klasyfikator 3-NN.
Następnie dokonaj wyboru cech metodą SBS wykorzystującą klasyfikator 3-NN i zbadaj błąd
klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla wszystkich 57 cech, dla
podzbioru 56 cech, bez cechy odrzuconej przez SBS jako pierwsza, i kolejno dla coraz
mniejszych podzbiorów f cech, aŜ do pojedynczej cechy która została po ostatnim kroku
metody SBS. Wykreśl zaleŜność błędu testowego (oraz, dla porównania, błędu
walidacyjnego) od liczby wykorzystanych cech f i przedyskutuj (SPR). Porównaj czas
działania metody SFS (punkt 3.4) i SBS oraz uzyskane krzywe błędu w zaleŜności od liczby
wybranych cech (SPR). Porównaj wyniki dotyczące krzywej błędu na zbiorze testowym z
tymi z punktu 3.1 (SPR).