Data Mining z wykorzystaniem programu Rapid Miner Laboratorium 2
Transkrypt
Data Mining z wykorzystaniem programu Rapid Miner Laboratorium 2
Data Mining z wykorzystaniem programu Rapid Miner Laboratorium 2 Michał Bereta www.michalbereta.pl Zadanie 1. Ocena jakości operatora klasyfikacji/regresji za pomocą kroswalidacji. Przygotuj następujący eksperyment: Wczytaj dane „polynomial.aml”: „Building block” pozwoli skrócid czas projektowania. Od razu dostajemy: Parametry kroswalidacji zachowaj bez zmian – defaultowym ustawieniem jest 10-ciokrotna kroswalidacja, tzn. dane są dzielone na 10 części i proces uczenia powtarzany jest 10-cio krotnie dla każdej części wykorzystanej jako dane testowe (nie biorące udział w procesie tworzenia modelu). Wyniki z dziesięciu prób są uśredniane i wykorzystane jako ocena jakości modelu. W naszym problemie wykorzystamy regresję liniową bez wyboru atrybutów (będzie to temat następnego dwiczenia). W wyniku otrzymamy oszacowanie błędu modelu: Zadanie do wykonania 1: Porównaj ze sobą drzewo klasyfikacyjne oraz metodę najbliższego sąsiada w problemie klasyfikacji irysów. Wykorzystaj kroswalidację do problemów klasyfikacyjnych. Wykorzystaj kros walidację dwukrotnie: W wyniku powinieneś otrzymad dwie oceny: Porównaj je i oceo, który model był najlepszy. Dla jakiego parametru k w metodzie najbliższego sąsiada dostajemy najlepszy wynik? Zadanie do wykonania 2: Samodzielnie przygotuj eksperyment, który pozwoli porównad dwa przypadki: Jakośd działania drzewa decyzyjnego jest oceniana za pomocą tych samych danych, które były wykorzystane w trakcie jego tworzenia (patrz: pierwsze laboratorium). Jakośd drzewa oceniana jest za pomocą 10-krotnej kroswalidacji. Porównaj oba wyniki. Który jest bardziej optymistyczny i z czego to wynika? Czy jest to zjawisko bez znaczenia, czy też może byd niebezpieczne? Dlaczego? Zadanie 2. Wybór atrybutów (ang. feature selection). Często jest tak, że nie wszystkie dostępne atrybuty, które opisują problem/obiekt, są konieczne by rozwiązad problem klasyfikacji, grupowania bądź aproksymacji. Czasami wręcz niektóre z dostępnych atrybutów są nadmiarowe (np. atrybut „cena akcji” może by nadmiarowy jeśli dysponujemy atrybutem „stosunek ceny akcji do ceny dolara”; inny przykład: „liczba dzieci” w stosunku do „liczba osób w rodzinie”), mogą utrudniad rozwiązywane zadania analizy danych. Im więcej atrybutów, tym większa przestrzeo, w której poszukuje się rozwiązania i tym samym trudniejsze się staje jego znalezienie. Stąd, spośród wielu dostępnych atrybutów, trzeba wybrad te najkorzystniejsze. Uwaga: Nie należy mylid redukcji wymiarowości z wyborem atrybutów! Przygotuj następujący operator: Wybór atrybutów odbędzie się z wykorzystaniem kroswalidacji: Zastąp drzewo decyzyjne… …metodą najbliższego sąsiada: Zmieo parametry: Ustaw break pointa: Wykonaj. Dostępnych jest pięd atrybutów: Wybrane zostały najlepsze (oczywiście jest to ocena subiektywna i zależy od użytego algorytmu): W tym algorytmie każdy atrybut jest akceptowany lub nie (patrz kolumna weight): W innych podejściach każdemu atrybutowi może byd przyporządkowana waga pośrednia oceniająca jego użytecznośd.