Metody Rozpoznawania Obrazów Laboratorium nr 3 Metody selekcji
Transkrypt
Metody Rozpoznawania Obrazów Laboratorium nr 3 Metody selekcji
Metody Rozpoznawania Obrazów Laboratorium nr 3 Metody selekcji cech 1. Format sprawozdania W trakcie zajęć naleŜy wykonać wszystkie doświadczenia opisane w rozdziale „Opis doświadczeń podstawowych”. Uzyskane wyniki naleŜy umieścić w sprawozdaniu z ćwiczeń, łącznie z ich analizą i dyskusją, zachowując numerację paragrafów zgodną z instrukcją. W szczególności, naleŜy umieścić wyniki oznaczone symbolem (SPR). Sprawozdanie powinno być zwięzłe, i nie powinno zawierać wprowadzenia do rozwaŜanych zagadnień ani opisu przeprowadzonych doświadczeń, o ile nie dokonano w trakcie ich przeprowadzania Ŝadnych modyfikacji w stosunku do poniŜszej instrukcji. NaleŜy przygotować jedno sprawozdanie na grupę dwuosobową. Sprawozdanie naleŜy umieścić w katalogu o nazwie składającej się z 4 członów: nr ćwiczenia, nr grupy ćwiczeniowej, nazwisko1, imię1, nazwisko2, imię2 (np. 1_7_Nowak_Janina_Kowalski_Jan). Katalog wraz z jego zawartością naleŜy skompresować w formacie RAR do pliku o nazwie takiej jak nazwa katalogu (np. 1_7_Nowak_Janina_Kowalski_Jan.rar), tak aby po rozpakowaniu katalog odtworzył się. Następnie plik skompresowany naleŜy przesłać na adres: [email protected] Sprawozdania końcowe naleŜy przesłać na powyŜszy adres nie później niŜ w 2 tygodnie od dnia zajęć. PowyŜsze ćwiczenie wykonywane jest na 1 zajęciach. Katalog powinien zawierać, oprócz samego sprawozdania w formacie PDF, równieŜ podkatalog o nazwie „kod”, w którym umieszczone są wszystkie pliki źródłowe procedur i skryptów napisanych w trakcie ćwiczeń. 2. Wprowadzenie 2.1. Cele laboratorium - 2.2. Literatura - 2.3. Zapoznanie się z metodami selekcji cech na potrzeby klasyfikacji, w tym metodami filtracji cech na bazie rankingu cech metodami typu „wrapper”, konstruującymi podzbiory wykorzystując wybrany klasyfikator Algorytmy: Wykład http://www.icsr.agh.edu.pl/~mro/FeatSel/papers.rar Zbiory danych Zbiory danych wykorzystywane w tym ćwiczeniu: - uci-spambase-normalized.mat (oraz opis spambase.DOCUMENTATION i spambase.names) - correlated.mat - overlapping.mat znajdują się pod adresem: http://www.icsr.agh.edu.pl/~mro/FeatSel/datasets.rar 3. Opis doświadczeń podstawowych Poprawne wykonanie i przeanalizowanie wyników z tej części umoŜliwia uzyskanie oceny maksymalnie 4.0. 3.1. Wybór cech bazujący na ich rankingu Wczytaj zbiór danych uci-spambase-normalized.mat. Zbiór ten zawiera jako przykłady (wiersze w macierzach features*) e-maile opisane przez 57 cech, np. częstotliwość pewnych słów lub występowanie pewnych symboli (dokładny opis cech znajduje się w plikach spambase.DOCUMENTATION i spambase.names). Zbiór słuŜy do budowy klasyfikatorów decydujących czy e-mail jest spamem. Dokonaj rankingu cech przy pomocy metody obliczającej na zbiorze treningowym dla kaŜdej cechy wartość pola pod krzywą ROC, i stosującej wartość ROC oraz niską korelację jako kryterium uszeregowania cech (rozdziały 5.4 i 5.6.1 w załączonych plikach .ps). Zbadaj błąd klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla 1 cechy, o najwyŜszej wartości kryterium rankingowego, dla 2 cech najwyŜej w rankingu, i tak kolejno dla zbiorów f cech, aŜ do wykorzystania wszystkich 57 cech, włącznie z tymi z końca rankingu. Wykreśl zaleŜność błędu od liczby wykorzystanych cech f i przedyskutuj (SPR). 3.2. Czy zawsze usuwać cechy silnie skorelowane z innymi? Wczytaj zbiór danych o 2 cechach correlated.mat. Sprawdź współczynnik korelacji pomiędzy tymi dwoma cechami (SPR). Skoro cechy są silnie skorelowane, zastanów się czy wystarczy wykorzystać tylko jedną z nich do klasyfikacji. Zbadaj błąd testowy klasyfikacji klasyfikatora 3-NN dla oryginalnego zbioru (z 2 cechami), dla zbioru z którego wykorzystana jest tylko cecha 1 (tzn. cecha 2 została odrzucona jako silnie skorelowana z cechą 1) oraz dla zbioru z którego wykorzystana jest tylko cecha 2, przedyskutuj uzyskane wyniki (SPR). 3.3. Czy zawsze usuwać cechy nie niosące samodzielnie informacji rozdzielającej klasy? Wczytaj zbiór danych o 2 cechach overlapping.mat. Oblicz wartości pola pod krzywą ROC dla kaŜdej z cech (SPR). Posortuj wartości pierwszej cechy dla punktów z klasy 0, i osobno dla punktów z klasy 1, po czym porównaj wartości cech dla kolejnych przykładów z klasy 0 z tymi z klasy 1. Obserwacje zapisz w sprawozdaniu (SPR). PoniewaŜ dla cechy 1, przykłady z obydwu klas nakładają się, a takŜe biorąc pod uwagę wartość pola pod krzywą ROC, zastanów się czy moŜe ona nieść jakąś informację przydatną dla klasyfikacji, czy teŜ moŜna ją wyrzucić. Zbadaj błąd testowy klasyfikacji klasyfikatora 3-NN dla oryginalnego zbioru (z 2 cechami), dla zbioru z którego wykorzystana jest tylko cecha 2 (tzn. cecha 1 została odrzucona) (SPR). Sprawdź wynik takŜe dla zbioru z którego wykorzystana jest tylko cecha 1, przedyskutuj uzyskane wyniki (SPR). 3.4. Metody typu „wrapper” – SFS Wczytaj zbiór danych o 57 cechach uci-spambase-normalized.mat. Zaimplementuj metodę Sequential Forward Selection (rozdział 5.6.2 w załączonych plikach .ps) wykorzystującą klasyfikator 3-NN. Następnie, dokonaj wyboru cech metodą SFS wykorzystującą klasyfikator 3-NN. Błąd klasyfikatora wyuczonego na zbiorze treningowym w metodzie SFS oceniaj na zbiorze walidacyjnym (featuresValidate, classesValidate), tak by nie wykorzystywać zbioru testowego w trakcie oceny cech, i zachować go do ostatecznych testów. Obliczone wartości błędu na zbiorze walidacyjnym dla kolejnych, coraz większych najlepszych podzbiorów cech zachowaj, by porównać je później z błędem dla tych podzbiorów na zbiorze testowym. Zbadaj błąd klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla 1 cechy, wybranej jako pierwsza, następnie dla wybranego podzbioru 2 cech, i tak kolejno dla coraz większych podzbiorów f cech, aŜ do wykorzystania wszystkich 57 cech, włącznie z tą włączoną w metodzie SFS na końcu. Wykreśl zaleŜność błędu testowego i walidacyjnego od liczby wykorzystanych cech f i przedyskutuj (SPR). Porównaj wyniki dotyczące krzywej błędu na zbiorze testowym z tymi z punktu 3.1 (SPR). Przeanalizuj, czy cechy uznane za najwaŜniejsze i najmniej waŜne przez metodę SFS pokrywają się z tymi wybranymi w punkcie 3.1 (SPR). 4. Opis doświadczeń dodatkowych Poprawne wykonanie i przeanalizowanie wyników z tej części umoŜliwia podwyŜszenie oceny do 5.0. 4.1. Metoda SBS Wczytaj zbiór danych o 57 cechach uci-spambase-normalized.mat. Zaimplementuj metodę Sequential Backward Selection (rozdział 5.6.2 w załączonych plikach .ps) wykorzystującą klasyfikator 3-NN. Następnie dokonaj wyboru cech metodą SBS wykorzystującą klasyfikator 3-NN i zbadaj błąd klasyfikacji na zbiorze testowym dla klasyfikatora 3-NN kolejno dla wszystkich 57 cech, dla podzbioru 56 cech, bez cechy odrzuconej przez SBS jako pierwsza, i kolejno dla coraz mniejszych podzbiorów f cech, aŜ do pojedynczej cechy która została po ostatnim kroku metody SBS. Wykreśl zaleŜność błędu testowego (oraz, dla porównania, błędu walidacyjnego) od liczby wykorzystanych cech f i przedyskutuj (SPR). Porównaj czas działania metody SFS (punkt 3.4) i SBS oraz uzyskane krzywe błędu w zaleŜności od liczby wybranych cech (SPR). Porównaj wyniki dotyczące krzywej błędu na zbiorze testowym z tymi z punktu 3.1 (SPR).