Data Mining z wykorzystaniem programu Rapid Miner Laboratorium 2

Transkrypt

Data Mining z wykorzystaniem programu Rapid Miner Laboratorium 2
Data Mining z wykorzystaniem programu Rapid Miner
Laboratorium 2
Michał Bereta
www.michalbereta.pl
Zadanie 1. Ocena jakości operatora klasyfikacji/regresji za pomocą kroswalidacji.
Przygotuj następujący eksperyment:
Wczytaj dane „polynomial.aml”:
„Building block” pozwoli skrócid czas projektowania. Od razu dostajemy:
Parametry kroswalidacji zachowaj bez zmian – defaultowym ustawieniem jest 10-ciokrotna
kroswalidacja, tzn. dane są dzielone na 10 części i proces uczenia powtarzany jest 10-cio krotnie dla
każdej części wykorzystanej jako dane testowe (nie biorące udział w procesie tworzenia modelu).
Wyniki z dziesięciu prób są uśredniane i wykorzystane jako ocena jakości modelu.
W naszym problemie wykorzystamy regresję liniową bez wyboru atrybutów (będzie to temat
następnego dwiczenia).
W wyniku otrzymamy oszacowanie błędu modelu:
Zadanie do wykonania 1:
Porównaj ze sobą drzewo klasyfikacyjne oraz metodę najbliższego sąsiada w problemie klasyfikacji
irysów. Wykorzystaj kroswalidację do problemów klasyfikacyjnych.
Wykorzystaj kros walidację dwukrotnie:
W wyniku powinieneś otrzymad dwie oceny:
Porównaj je i oceo, który model był najlepszy.
Dla jakiego parametru k w metodzie najbliższego sąsiada dostajemy najlepszy wynik?
Zadanie do wykonania 2: Samodzielnie przygotuj eksperyment, który pozwoli porównad dwa
przypadki:
Jakośd działania drzewa decyzyjnego jest oceniana za pomocą tych samych danych, które
były wykorzystane w trakcie jego tworzenia (patrz: pierwsze laboratorium).
Jakośd drzewa oceniana jest za pomocą 10-krotnej kroswalidacji.
Porównaj oba wyniki. Który jest bardziej optymistyczny i z czego to wynika? Czy jest to zjawisko bez
znaczenia, czy też może byd niebezpieczne? Dlaczego?
Zadanie 2. Wybór atrybutów (ang. feature selection).
Często jest tak, że nie wszystkie dostępne atrybuty, które opisują problem/obiekt, są konieczne by
rozwiązad problem klasyfikacji, grupowania bądź aproksymacji. Czasami wręcz niektóre z dostępnych
atrybutów są nadmiarowe (np. atrybut „cena akcji” może by nadmiarowy jeśli dysponujemy
atrybutem „stosunek ceny akcji do ceny dolara”; inny przykład: „liczba dzieci” w stosunku do „liczba
osób w rodzinie”), mogą utrudniad rozwiązywane zadania analizy danych. Im więcej atrybutów, tym
większa przestrzeo, w której poszukuje się rozwiązania i tym samym trudniejsze się staje jego
znalezienie. Stąd, spośród wielu dostępnych atrybutów, trzeba wybrad te najkorzystniejsze.
Uwaga: Nie należy mylid redukcji wymiarowości z wyborem atrybutów!
Przygotuj następujący operator:
Wybór atrybutów odbędzie się z wykorzystaniem kroswalidacji:
Zastąp drzewo decyzyjne…
…metodą najbliższego sąsiada:
Zmieo parametry:
Ustaw break pointa:
Wykonaj.
Dostępnych jest pięd atrybutów:
Wybrane zostały najlepsze (oczywiście jest to ocena subiektywna i zależy od użytego algorytmu):
W tym algorytmie każdy atrybut jest akceptowany lub nie (patrz kolumna weight):
W innych podejściach każdemu atrybutowi może byd przyporządkowana waga pośrednia oceniająca
jego użytecznośd.