Laboratorium 2 Indukcja drzew decyzyjnych Zadanie

Transkrypt

Laboratorium 2 Indukcja drzew decyzyjnych Zadanie
Laboratorium 2
Indukcja drzew decyzyjnych
Zadanie - Przewidywanie wartości atrybutu decyzyjnego AFINITY_CARD
1. Przeanalizuj model danych MINING_DATA_BUILD_V i określ role atrybutu AFINITY_CARD.
2. Wykorzystując element Classification oraz tabelę MINING_DATA_BUILD_V jako źródło
danych do eksploracji, zbuduj klasyfikator oparty o algorytm drzew decyzyjnych do
przewidywania wartości atrybutu decyzyjnego AFINITY_CARD celem identyfikacja klientów,
którzy prawdopodobnie skorzystają z oferowanej im karty lojalnościowej.
a. Utwórz nowy projekt pod nazwa: „Classifications” w którym umieścisz nowy workflow
pod nazwa „Decision Trees”
b. Z listy komponentów wybierz element: Data Source i wskaż
MINING_DATA_BUILD_V jako źródło danych do eksploracji. Ustaw atrybut CUST_ID
jako klucz podstawowy.
1
c. Z listy komponentów wybierz element „Classification” i połącz go z data source.
d. Ustaw atrybut CUST_ID jako klucz podstawowy. Jako atrybut decyzyjny zaznacz
atrybut AFFINITY_CARD (pole radiowe w kolumnie Target). Upewnij się, że atrybuty
CUST_ID i PRINTER_SUPPLIES są wyłączone z eksploracji (są bezwartościowe i nie
niosą żadnej informacji). Z listy modeli klasyfikacyjnych usuń wszystkie poza
algorytmem Decision Tree.
e. Dwa razy kliknij na ikone w kolumnie Data Usage. Kliknij na zakładkę Algorithm
Settings wybierz metodę podziału węzła (w Homogeneity Metric wybierz metodę
oparta na mierze zysku informacyjnego wykorzystującego entropie - Entropy).
Pozostałe pola pozostaw bez zmian. Klikając na „Pomoc” zapoznaj się z ustawieniami
i ich znaczeniem dla algorytmu Decission Trees.
2
f.
Wybierz zakładke “Class Build Properties”I rozwiń podgrupę „Test”. W zadaniu
podziel zbiór danych na zbiór uczący i zbiór walidacyjny, w proporcjach 70/30.
g. Przeprowadź proces uczenia algorytmu.
h. Przeanalizuj otrzymany model pod względem rozkładu wartości atrybutu decyzyjnego
w liściach.
i.
Korzystając z Test Metrics, przeanalizuj parametry zbudowanego modelu.
3. Wykorzystując tabelę MINING_DATA_TEST_V jako źródło danych do testowania
klasyfikatora, tak zmodyfikuj otrzymany model aby można było przeprowadzić test algorytmu
na nowym zbiorze danych.
a. Przeanalizuj wartość Predictive Confidence klasyfikatora liczoną względem naiwnego
klasyfikatora 0-R, który zawsze przewiduje najczęstszą wartość atrybutu decyzyjnego.
b. Znajdź i przeanalizuj uzyskaną macierz pomyłek.
c. Obejrzyj uzyskana krzywa Receiver-Operator-Characteristic (ROC) przedstawiającą
stosunek liczby poprawnie sklasyfikowanych instancji (przykładów z wartości atrybutu
decyzyjnego 1) do liczby pomyłek (instancji sklasyfikowanych jako należące do klasy
1 podczas gdy w rzeczywistości należą do klasy 0). W dolnej części okna wpisz koszt
pomyłki polegającej na niepoprawnym sklasyfikowaniu instancji jako należącej do
klasy 1 (False Positive Cost) o wartości 1. Podaj koszt niepoprawnej klasyfikacji
instancji jako należącej do klasy 0 (False Negative Cost) o wartości 2 (czyli
dwukrotnie większy). Kliknij przycisk Compute Cost. Zobacz, jaka cześć zbioru
testowego należałoby wziąć pod uwagę, aby przy tak zdefiniowanych kosztach
pomyłek ogólny koszt błędu klasyfikatora był najmniejszy.
4. Wykorzystując tabelę MINING_DATA_APPLY_V jako źródło danych do zastosowania
klasyfikatora tak zmodyfikuj otrzymany model aby można było zastosować do predykcji
wartości atrybutu decyzyjnego. Wskaż atrybuty, które powinny się znaleźć w tabeli wynikowej
po zastosowaniu klasyfikatora do danych. Upewnij się, że zaznaczony jest klucz podstawowy
CUST_ID. Uruchom algorytm na zbiorze danych. Obejrzyj wynik zastosowania klasyfikatora
do danych wejściowych. Dla każdej instancji wyświetlone powinny zostać:
a. przewidywana wartość atrybutu decyzyjnego,
b. prawdopodobieństwo predykcji
c. koszt związany z predykcja.
3

Podobne dokumenty