LABORATORIUM Z ROZPOZNAWANIA OBRAZÓW Rok 2009/2010

Transkrypt

LABORATORIUM Z ROZPOZNAWANIA OBRAZÓW Rok 2009/2010
LABORATORIUM Z ROZPOZNAWANIA OBRAZÓW
Rok 2009/2010, studia zaoczne, Łódź
Zasady: Ocena równa się liczbie zdobytych punktów, jeśli nie przekracza 5.
Zadanie 1 (bez standaryzacji: 1/2 punktu, ze standaryzacją 1 punkt)
Napisz program realizujący klasyfikator minimalno-odległościowy. Oblicz liczbę błędów dla zbioru
testującego zakładając, Ŝe zbiór uczący stanowi pierwsze 25 obiektów, wybranych z kaŜdej klasy z
podanego zbioru IRIS.TEA (3 klasy, 4 cechy, 150 obiektów). Pozostałe obiekty tworzą zbiór testujący.
Zadanie 2 (1 punkt)
Dla zbioru IRIS.TEA skonstruuj klasyfikator minimalno-odległościowy w postaci maszyny liniowej (z
funkcjami liniowymi g(X)). Oblicz procentowy błąd klasyfikacji uŜywając tego samego zbioru danych
IRIS.TEA tak w roli zbioru uczącego jak i w roli zbioru testującego. Wagi funkcji decyzyjnych powinny
zawierać standaryzację cech, celem uniknięcia standaryzacji kaŜdego z punktów klasyfikowanych.
W przypadku jednakowych wartości funkcji decyzyjnych przypisuj klasę z mniejszym numerem.
Zadanie 3 (1 punkt)
Napisz program do wyznaczania obszarów klas. Oblicz ile obiektów zawiera się w obszarze
pokrywania się klas dla zbioru IRIS.TEA. Program powinien zapytać ile i które z dostępnych cech mają
być uŜyte. Liczebność obszaru pokrywania się klas wyprowadź na ekran. Natomiast plik wynikowy
powinien zawierać informacje, w obszarach jakich klas znajduje się kaŜdy z obiektów zbioru IRIS.TEA.
Funkcja odległości dowolna i bez standaryzacji.
Zadanie 4 (2 punkty)
Tak jak w zadaniu 1 dokonaj podziału zbioru IRIS.TEA na zbiór uczący i zbiór testujący. Następnie
stosując metodę minus jednego elementu (leave one out) dobierz wartość parametru k dla reguły k-NS. Na
koniec, stosując metodę zbioru testującego oszacuj prawdopodobieństwo mylnej klasyfikacji. Program
powinien zapytać czy wykonać standaryzację czy teŜ nie, o zbiór uczący i o zbiór testujący. Metryka
miejska. W wyniku podaj błąd klasyfikacji i macierze przekłamań R, P i Q,
r[i,j]-liczba obiektów z klasy i zaliczonych do klasy j, p[i,j]-prawdopodobieństwo, ze obiekt z klasy i
zostanie zaliczony do klasy j, q[i,j]-prawdopodobieństwo, ze obiekt zaklasyfikowany do klasy i pochodzi
faktycznie z klasy j.
Zadanie 5 (po 1 punkcie za kaŜdy algorytm)
Napisz program generowania zbiorów zredukowanych kaŜdym z trzech algorytmów: Harta, GowdyKrishny i Tomeka. Odległość euklidesowa. Wejściem jest plik ze zbiorem uczącym, a wyjściem plik ze
zbiorem zredukowanym zapisanym w tym samym formacie jak plik ze zbiorem uczącym. Obliczenia
wykonaj dla zbioru IRIS.TEA (bez standaryzacji).
Zadanie 6 (1 punkt)
Przekształć zbiór IRIS.TEA w IRIS7.TEA zawierający całkowite wartości cech, mnoŜąc wszystkie
wartości cech przez 10 (wystarczy usunąć kropki dziesiętne). Następnie połącz klasy 2 i 3 w jedną klasę.
Stosując algorytm korekcji błędów znajdź hiperpłaszczyznę rozdzielającą. Oszacuj wartość błędu
uŜywając ten sam zbiór IRIS7.TEA tak w roli zbioru uczącego jak i testującego.
Zadanie 7 (2 punkty)
Przekształć zbiór IRIS.TEA w IRIS8.TEA zawierający całkowite wartości cech, mnoŜąc wszystkie
wartości cech przez 10 (wystarczy usunąć kropki dziesiętne). Zbuduj klasyfikator równoległy złoŜony z
trzech dwu-decyzyjnych klasyfikatorów liniowych stosując algorytm korekcji błędów. Spośród
wszystkich generowanych hiperpłaszczyzn dla kaŜdego klasyfikatora składowego wybieraj tą, która
oferuje najmniej pomyłek. Oszacuj wartość błędu uŜywając ten sam zbiór IRIS.TEA tak w roli zbioru
uczącego jak i testującego.
Zadanie 8 (3/2 punktu)
Startując z dwóch najbardziej od siebie odległych (wg m. euklidesowej) punktów startowych dokonaj
klasteryzacji zbioru IRIS.TEA na dwa klastry metodą k średnich. Plik wynikowy powinien zawierać trzy
kolumny: nr obiektu, nr klasy oraz nr klastra. Nie stosuj standaryzacji.