1 Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Transkrypt

1 Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4
Michał Bereta
www.michalbereta.pl
1. Wybór atrybutów (ang. attribute selection, feature selection).
Jedną z podstawowych metod analizy współoddziaływania / zależności atrybutów jest analiza korelacji.
Możemy sprawdzid czy atrybuty nie niosą w pewnym sensie podobnej informacji.
Współczynnik korelacji między atrybutem x oraz y można wyliczyd ze wzoru
gdzie sx oraz sy to odchylenia standardowe, n to liczba przykładów.
Powyższy współczynnik to współczynnik Pearsona i przyjmuje wartości z przedziału *-1, 1+. Duże
bezwzględne wartości tego współczynnika wskazują na dużą korelację (dodatnią lub ujemną) x i y. Takie
atrybuty często są nadmiarowe.
Wykorzystaj operator „Correlation Matrix” i bazę danych Indian Pima.
W wyniku otrzymamy macierz korelacji, gdzie możemy sprawdzid korelację pomiędzy dowolną parą
atrybutów.
1
Wartości te mogą służyd do określenia wartości wag atrybutów (większa wartośd wagi oznacza większe
znaczenie atrybutu).
Sprawdź, że jeśli w opcjach operatora „CorrelationMatrix” nie jest zaznaczone „normalize weights” to
wagi te nie są tak wyraźnie oceniające atrybuty.
Wagi atrybutów mogą posłużyd do decyzji, które z nich odrzucid, np. wykorzystując operator „Select by
Weights” by wybrad tylko te atrybuty, które mają wagę większą niż np. 0.5.
2
Wynik: z oryginalnego zestawu ośmiu atrybutów
pozostały jedynie trzy atrybuty (att9 jest tu etykietą klasy):
3
Zadanie:
Jak sprawdzid korelację każdego z atrybutów z etykietą klasy?
a.) W przypadku dwóch klas należy zakodowad etykiety klas numerycznie, np. jako 0 i 1
b.) W przypadku liczby klas większej niż dwa, procedura ta nie jest wskazana (dlaczego?).
c.) Czy atrybuty, które są w tym przykładzie najbardziej skorelowane z etykietą klasy (att9) są tymi
samymi, które zostały najlepiej ocenione (otrzymały najwyższe wagi) w poprzednim przykładzie?
(Dlaczego?)
Wynik (pamiętaj, że istotna jest bezwzględna wartośd):
Uwaga: operator „Weight by Correlation” umożliwia oszacowanie wag dla atrybutów na podstawie ich
korelacji z etykietą klasy. Wypróbuj go i porównaj z wynikami z powyższej tabli.
Z dokumentacji:
This operator calculates the relevance of the attributes by computing the value of correlation for each
attribute of the input ExampleSet with respect to the label attribute. This weighting scheme is based
upon correlation and it returns the absolute or squared value of correlation as attribute weight.
4
Zadanie:
Porównaj działanie „Select by Weights” z „Correlation Matrix” z poprzedniego przykładu z operatorem
„Remove Correlated Attributes”:
Zwród uwagę na znaczenie wartości „0.5” oraz „0.3” w poniższych ustawieniach:
5
Przykładowy wynik:
“Select by Weights” z „Correlation Matrix”:
„Remove Correlated Attributes”:
Powyższą tabelkę porównaj z „Correlation Matrix”:
6
Zadanie:
Zbadaj korzyści płynące z wykorzystania powyższych metod analizy istotności atrybutów a problemie
klasyfikacji szkła. Dodatkowo zastosuj operator „Weight by Relief” oraz jeden dodatkowy z zestawu
dostępnego w RM. Zwród uwagę, że nie wszystkie nadają się do problemów klasyfikacji z wieloma
klasami.
7
2. Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Przy ocenie wartości atrybutu kierowad można się empiryczną oceną jakości działania konkretnego
klasyfikatora, który wykorzystuje dany atrybut, a raczej cały zestaw atrybutów.
Istnieją dwa główne podejścia:
a.) Forward selection - dodawaj kolejne atrybuty jeśli ich dodanie poprawia działanie klasyfikatora
danego typu
b.) Backward elimination - usuwaj po kolei kolejne atrybuty, i akceptuj usunięcie, jeśli wytrenowany
na pozostających atrybutach klasyfikator danego typu poprawia się / nie pogarsza swojego
działania
Porównaj działanie tych dwóch operatorów – czy jest duża różnica w ostatecznym wyborze? :
Dla „ForwardSelection”:
8
Dla „Backward Elimination”:
Przykładowe wybrane atrybuty:
Dla „ForwardSelection”:
9
Dla „Backward Elimination”:
10