Laboratorium 2 Indukcja drzew decyzyjnych Zadanie
Transkrypt
Laboratorium 2 Indukcja drzew decyzyjnych Zadanie
Laboratorium 2 Indukcja drzew decyzyjnych Zadanie - Przewidywanie wartości atrybutu decyzyjnego AFINITY_CARD 1. Przeanalizuj model danych MINING_DATA_BUILD_V i określ role atrybutu AFINITY_CARD. 2. Wykorzystując element Classification oraz tabelę MINING_DATA_BUILD_V jako źródło danych do eksploracji, zbuduj klasyfikator oparty o algorytm drzew decyzyjnych do przewidywania wartości atrybutu decyzyjnego AFINITY_CARD celem identyfikacja klientów, którzy prawdopodobnie skorzystają z oferowanej im karty lojalnościowej. a. Utwórz nowy projekt pod nazwa: „Classifications” w którym umieścisz nowy workflow pod nazwa „Decision Trees” b. Z listy komponentów wybierz element: Data Source i wskaż MINING_DATA_BUILD_V jako źródło danych do eksploracji. Ustaw atrybut CUST_ID jako klucz podstawowy. 1 c. Z listy komponentów wybierz element „Classification” i połącz go z data source. d. Ustaw atrybut CUST_ID jako klucz podstawowy. Jako atrybut decyzyjny zaznacz atrybut AFFINITY_CARD (pole radiowe w kolumnie Target). Upewnij się, że atrybuty CUST_ID i PRINTER_SUPPLIES są wyłączone z eksploracji (są bezwartościowe i nie niosą żadnej informacji). Z listy modeli klasyfikacyjnych usuń wszystkie poza algorytmem Decision Tree. e. Dwa razy kliknij na ikone w kolumnie Data Usage. Kliknij na zakładkę Algorithm Settings wybierz metodę podziału węzła (w Homogeneity Metric wybierz metodę oparta na mierze zysku informacyjnego wykorzystującego entropie - Entropy). Pozostałe pola pozostaw bez zmian. Klikając na „Pomoc” zapoznaj się z ustawieniami i ich znaczeniem dla algorytmu Decission Trees. 2 f. Wybierz zakładke “Class Build Properties”I rozwiń podgrupę „Test”. W zadaniu podziel zbiór danych na zbiór uczący i zbiór walidacyjny, w proporcjach 70/30. g. Przeprowadź proces uczenia algorytmu. h. Przeanalizuj otrzymany model pod względem rozkładu wartości atrybutu decyzyjnego w liściach. i. Korzystając z Test Metrics, przeanalizuj parametry zbudowanego modelu. 3. Wykorzystując tabelę MINING_DATA_TEST_V jako źródło danych do testowania klasyfikatora, tak zmodyfikuj otrzymany model aby można było przeprowadzić test algorytmu na nowym zbiorze danych. a. Przeanalizuj wartość Predictive Confidence klasyfikatora liczoną względem naiwnego klasyfikatora 0-R, który zawsze przewiduje najczęstszą wartość atrybutu decyzyjnego. b. Znajdź i przeanalizuj uzyskaną macierz pomyłek. c. Obejrzyj uzyskana krzywa Receiver-Operator-Characteristic (ROC) przedstawiającą stosunek liczby poprawnie sklasyfikowanych instancji (przykładów z wartości atrybutu decyzyjnego 1) do liczby pomyłek (instancji sklasyfikowanych jako należące do klasy 1 podczas gdy w rzeczywistości należą do klasy 0). W dolnej części okna wpisz koszt pomyłki polegającej na niepoprawnym sklasyfikowaniu instancji jako należącej do klasy 1 (False Positive Cost) o wartości 1. Podaj koszt niepoprawnej klasyfikacji instancji jako należącej do klasy 0 (False Negative Cost) o wartości 2 (czyli dwukrotnie większy). Kliknij przycisk Compute Cost. Zobacz, jaka cześć zbioru testowego należałoby wziąć pod uwagę, aby przy tak zdefiniowanych kosztach pomyłek ogólny koszt błędu klasyfikatora był najmniejszy. 4. Wykorzystując tabelę MINING_DATA_APPLY_V jako źródło danych do zastosowania klasyfikatora tak zmodyfikuj otrzymany model aby można było zastosować do predykcji wartości atrybutu decyzyjnego. Wskaż atrybuty, które powinny się znaleźć w tabeli wynikowej po zastosowaniu klasyfikatora do danych. Upewnij się, że zaznaczony jest klucz podstawowy CUST_ID. Uruchom algorytm na zbiorze danych. Obejrzyj wynik zastosowania klasyfikatora do danych wejściowych. Dla każdej instancji wyświetlone powinny zostać: a. przewidywana wartość atrybutu decyzyjnego, b. prawdopodobieństwo predykcji c. koszt związany z predykcja. 3