Drzewa decyzji

Transkrypt

Drzewa decyzji
Drzewa decyzyjne
Przykład
Czy Tomek zagra w tenisa? - oszacuj
Dzień
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14
Pogoda
Słonecznie
Słonecznie
Pochmurnie
Deszcz
Deszcz
Deszcz
Pochmurnie
Słonecznie
Słonecznie
Deszcz
Słonecznie
Pochmurnie
Pochmurnie
Deszcz
Nowy obiekt:
D15
Deszcz
Temperatura
Gorąco
Gorąco
Gorąco
Przyjemnie
Zimno
Zimno
Zimno
Przyjemnie
Zimno
Przyjemnie
Przyjemnie
Przyjemnie
Gorąco
Przyjemnie
Wilgotność
Wysoka
Wysoka
Wysoka
Wysoka
Normalna
Normalna
Normalna
Wysoka
Normalna
Normalna
Normalna
Wysoka
Normalna
Wysoka
Wiatr
Słaby
Silny
Słaby
Słaby
Słaby
Silny
Silny
Słaby
Słaby
Słaby
Silny
Silny
Słaby
Silny
Zimno
Wysoka
Słaby
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Nie
Nie
Tak
Tak
Tak
Nie
Tak
Nie
Tak
Tak
Tak
Tak
Tak
Nie
????
2
Budowa drzew decyzyjnych
Dzień
D3
D7
D12
D13
Pogoda
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
Temperatura
Gorąco
Zimno
Przyjemnie
Gorąco
Wilgotność
Wysoka
Normalna
Wysoka
Normalna
Wiatr
Słaby
Silny
Silny
Słaby
Dzień
D3
D13
D1
D2
Pogoda
Pochmurnie
Pochmurnie
Słonecznie
Słonecznie
Temperatura
Gorąco
Gorąco
Gorąco
Gorąco
Wilgotność
Wysoka
Normalna
Wysoka
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Tak
Tak
Tak
Tak
Tenis
Tak
Tak
Nie
Nie
Tenis
Tak
Tak
Nie
Nie
Nie
3
Budowa drzew decyzyjnych
Dzień
D3
D4
D12
D1
D2
D8
D14
Pogoda
Pochmurnie
Deszcz
Pochmurnie
Słonecznie
Słonecznie
Słonecznie
Deszcz
Temperatura
Gorąco
Przyjemnie
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Przyjemnie
Wilgotność
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
Wiatr
Słaby
Słaby
Silny
Słaby
Silny
Słaby
Silny
Dzień
D7
D11
D12
D2
D6
D14
Pogoda
Pochmurnie
Słonecznie
Pochmurnie
Słonecznie
Deszcz
Deszcz
Temperatura
Zimno
Przyjemnie
Przyjemnie
Gorąco
Zimno
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Normalna
Wysoka
Wiatr
Silny
Silny
Silny
Silny
Silny
Silny
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Tak
Tak
Tak
Nie
Nie
Nie
Nie
Tenis
Tak
Tak
Tak
Nie
Nie
Nie
4
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Tak
Tak
Nie
Nie
Nie
5
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Dzień
D3
D7
D12
D13
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Tenis
Tak
Tak
Nie
Nie
Nie
Pogoda
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Temperatura
Gorąco
Zimno
Przyjemnie
Gorąco
Wilgotność
Wysoka
Normalna
Wysoka
Normalna
Wiatr
Słaby
Silny
Silny
Słaby
Tenis
Tak
Tak
Tak
Tak
6
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Dzień
D3
D7
D12
D13
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Tenis
Tak
Tak
Nie
Nie
Nie
Pogoda
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Temperatura
Gorąco
Zimno
Przyjemnie
Gorąco
Dzień
D4
D5
D10
D6
D14
Wilgotność
Wysoka
Normalna
Wysoka
Normalna
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
Wiatr
Słaby
Silny
Silny
Słaby
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tenis
Tak
Tak
Tak
Nie
Nie
Tenis
Tak
Tak
Tak
Tak
7
Budowa drzew decyzyjnych
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
8
Budowa drzew decyzyjnych
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
9
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Tak
Tak
Nie
Nie
Nie
10
Budowa drzew decyzyjnych
Dzień
Pogoda
D1
Słonecznie
D2
Słonecznie
D8
Słonecznie
Wilgotność: wysoka
Temperatura Wilgotność
Gorąco
Wysoka
Gorąco
Wysoka
Przyjemnie
Wysoka
Wiatr Tenis
Słaby Nie
Silny Nie
Słaby Nie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wilgotność: normalna
Dzień
Pogoda
Temperatura Wilgotność Wiatr Tenis
D9
Słonecznie
Zimno
Normalna Słaby Tak
D11 Słonecznie
Przyjemnie
Normalna Silny Tak
11
Budowa drzew decyzyjnych
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
12
Budowa drzew decyzyjnych
Dzień
D4
D5
D10
D6
D14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tenis
Tak
Tak
Tak
Nie
Nie
13
Budowa drzew decyzyjnych
Dzień
Pogoda
D4
Deszcz
D5
Deszcz
D10 Deszcz
Wiatr: słaby
Temperatura Wilgotność
Przyjemnie
Wysoka
Zimno
Normalna
Przyjemnie
Normalna
Wiatr Tenis
Słaby Tak
Słaby Tak
Słaby Tak
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Dzień
Pogoda
D6
Deszcz
D14 Deszcz
Wiatr: silny
Temperatura Wilgotność Wiatr Tenis
Zimno
Normalna Silny Nie
Przyjemnie
Wysoka
Silny Nie
14
Budowa drzew decyzyjnych
Wracamy do pytania – jak zostanie sklasyfikowany nowy obiekt
D15
Deszcz
Zimno
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wysoka
Słaby
????
15
Entropia
Entropia w ramach teorii informacji jest definiowana jako średnia
ilość informacji (liczba bitów), przypadająca na znak symbolizujący
zajście zdarzenia z pewnego zbioru.
n
E S    pi log 2  pi 
i 1
E – entropia zbioru danych
S – zbiór danych
P – proporcja danej kategorii w zbiorze względem reszty kategorii
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
16
Przyrost informacji (information gain)
Przyrost informacji może być rozumiany jako oczekiwane
zmniejszenie entropii spowodowane znajomością wartości jednego z
atrybutów. Jest on zdefiniowany następująco:
G S , A  E S  
 
vValues A
Sv
E Sv 
S
G – przytost informacji
E – entropia zbioru danych
A – atrubut o znanej wartości
S – zbiór danych
Sv – zbiór pomniejszony o wektory z inną wartością atrybutu A
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
17
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Dzień
D3
D7
D12
D13
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Tenis
Tak
Tak
Nie
Nie
Nie
Pogoda
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Temperatura
Gorąco
Zimno
Przyjemnie
Gorąco
Dzień
D4
D5
D10
D6
D14
Wilgotność
Wysoka
Normalna
Wysoka
Normalna
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
Wiatr
Słaby
Silny
Silny
Słaby
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tenis
Tak
Tak
Tak
Nie
Nie
Tenis
Tak
Tak
Tak
Tak
18
Przykład tworzenia drzewa decyzyjnego – algorytm ID3
Decyzja (kategoria)
Liczba wystąpień
Tak
9
Nie
5
n
E S    pi log 2  pi    ptak log 2  ptak   pnie log 2  pnie 
i 1
ptak
9

 0.64
14
5
pnie 
 0.36
14
E S   0.64 log 2 0.64  0.36 log 2 0.36
E S   0.94
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
19
Algorytm ID3 - przyrost informacji atrybutu pogody
Dzień
D4
D5
D10
D6
D14
Liczba
D3
D7
D12
D13
Liczba
D9
D11
D1
D2
D8
Liczba
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
5
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
4
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
5
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tak
Tak
Tak
Nie
Nie
Gorąco
Zimno
Przyjemnie
Gorąco
Wysoka
Normalna
Wysoka
Normalna
Słaby
Silny
Silny
Słaby
Tak
Tak
Tak
Tak
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Słaby
Silny
Słaby
Silny
Słaby
Tak
Tak
Nie
Nie
Nie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
20
Algorytm ID3 - przyrost informacji atrybutu pogody
Pogoda
Liczba wystąpień
Tak Nie
Deszcz
5
3
2
Słonecznie
5
2
3
Pochmurnie
4
4
0
E S deszcz   0.6 log 2 0.6   0.4 log 2 0.4   0.97
E S slonecznie  0.4 log 2 0.4   0.6 log 2 0.6   0.97
E S pochmurnie  1.0 log 2 1.0  0 log 2 0  0
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
21
Algorytm ID3 - przyrost informacji atrybutu pogody
G S , Pogoda  E S  

vValues Pogoda
Sv
E Sv  
S
S pochmurnie
S deszcz
S slonecznie
E S  
E S deszcz  
E S slonecznie 
E S pochmurnie
S
S
S
5
5
4
G S , Pogoda   0.94  0.97  0.97  0  0.25
14
14
14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
22
Algorytm ID3 - przyrost informacji atrybutu temperatury
Dzień
D3
D13
D1
D2
D4
D10
D12
D11
D14
D8
D5
D7
D9
D6
Pogoda
Pochmurnie
Pochmurnie
Słonecznie
Słonecznie
Liczba
Deszcz
Deszcz
Pochmurnie
Słonecznie
Deszcz
Słonecznie
Liczba
Deszcz
Pochmurnie
Słonecznie
Deszcz
Liczba
Temperatura
Gorąco
Gorąco
Gorąco
Gorąco
4
Przyjemnie
Przyjemnie
Przyjemnie
Przyjemnie
Przyjemnie
Przyjemnie
6
Zimno
Zimno
Zimno
Zimno
4
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wilgotność
Wysoka
Normalna
Wysoka
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Tenis
Tak
Tak
Nie
Nie
Wysoka
Normalna
Wysoka
Normalna
Wysoka
Wysoka
Słaby
Słaby
Silny
Silny
Silny
Słaby
Tak
Tak
Tak
Tak
Nie
Nie
Normalna
Normalna
Normalna
Normalna
Słaby
Silny
Słaby
Silny
Tak
Tak
Tak
Nie
23
Algorytm ID3 - przyrost informacji atrybutu temperatury
Temperatura
Liczba wystąpień
Tak Nie
Gorąco
4
2
2
Przyjemnie
6
4
2
Zimno
4
3
1
E Sgoraco   0.5 log 2 0.5  0.5 log 2 0.5  1
E S przyjemnie  0.67 log 2 0.67  0.33log 2 0.33  0.91
E S zimno  0.75 log 2 0.75   0.25 log 2 0.25   0.81
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
24
Algorytm ID3 - przyrost informacji atrybutu temperatury
G S , Temperatura   E S  
E S  
S goraco
S
E S goraco 
vValues S ,Temperatura 
S przyjemnie
S


Sv
E Sv  
S
S zimno
E S przyjemnie 
E S zimno
S
4
6
4
G S , Temperatur a   0.94  1  0.91  0.81  0.033
14 14
14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
25
Algorytm ID3 - przyrost informacji atrybutu wilgotności
Dzień
D13
D10
D11
D5
D7
D9
D6
D3
D4
D12
D1
D2
D14
D8
Pogoda
Pochmurnie
Deszcz
Słonecznie
Deszcz
Pochmurnie
Słonecznie
Deszcz
Temperatura
Gorąco
Przyjemnie
Przyjemnie
Zimno
Zimno
Zimno
Zimno
Liczba
Pochmurnie Gorąco
Deszcz
Przyjemnie
Pochmurnie Przyjemnie
Słonecznie
Gorąco
Słonecznie
Gorąco
Deszcz
Przyjemnie
Słonecznie
Przyjemnie
Liczba
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wilgotność
Normalna
Normalna
Normalna
Normalna
Normalna
Normalna
Normalna
7
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
Wysoka
7
Wiatr
Słaby
Słaby
Silny
Słaby
Silny
Słaby
Silny
Tenis
Tak
Tak
Tak
Tak
Tak
Tak
Nie
Słaby
Słaby
Silny
Słaby
Silny
Silny
Słaby
Tak
Tak
Tak
Nie
Nie
Nie
Nie
26
Algorytm ID3 - przyrost informacji atrybutu wilgotności
Wilgotność
Liczba wystąpień
Tak Nie
Normalna
7
6
1
Wysoka
7
3
4
E S normalna   0.86 log 2 0.86   0.14 log 2 0.14   0.58
E Swysoka   0.43log 2 0.43  0.57 log 2 0.57  0.98
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
27
Algorytm ID3 - przyrost informacji atrybutu wilgotności
Sv
G S , Wilgotnosc   E S  
E Sv  

vValues S ,Wilgotnosc S
S wysoka
S normalna
E S  
E S normalna  
E S wysoka
S
S
7
7
G S , Wilgotnosc   0.94  0.58  0.98  0.16
14
14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
28
Algorytm ID3 - przyrost informacji atrybutu wiatru
Dzień
D13
D10
D5
D9
D3
D4
D1
D8
D11
D7
D12
D6
D2
D14
Pogoda
Pochmurnie
Deszcz
Deszcz
Słonecznie
Pochmurnie
Deszcz
Słonecznie
Słonecznie
Słonecznie
Pochmurnie
Pochmurnie
Deszcz
Słonecznie
Deszcz
Temperatura
Gorąco
Przyjemnie
Zimno
Zimno
Gorąco
Przyjemnie
Gorąco
Przyjemnie
Przyjemnie
Zimno
Przyjemnie
Zimno
Gorąco
Przyjemnie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wilgotność
Normalna
Normalna
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Wysoka
Słaby Licznik
Normalna
Normalna
Wysoka
Normalna
Wysoka
Wysoka
Silny Licznik
Wiatr
Słaby
Słaby
Słaby
Słaby
Słaby
Słaby
Słaby
Słaby
Tenis
Tak
Tak
Tak
Tak
Tak
Tak
Nie
Nie
8
Silny
Silny
Silny
Silny
Silny
Silny
Tak
Tak
Tak
Nie
Nie
Nie
6
29
Algorytm ID3 - przyrost informacji atrybutu wiatru
Wiatr
Liczba wystąpień
Tak Nie
Słaby
8
6
2
Silny
6
3
3
E Sslaby   0.75log 2 0.75  0.25log 2 0.25  0.81
E Ssilny  0.5 log 2 0.5  0.5 log 2 0.5  1
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
30
Algorytm ID3 - przyrost informacji atrybutu wiatru
G S , Wiatr   E S  
E S  
Sslaby
S

vValues S ,Wiatr
E Sslaby  
Ssilny
S
Sv
E Sv  
S
E Ssilny
8
6
G S ,Wiatr   0.94  0.75  1  0.08
14
14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
31
Algorytm ID3 - przyrost informacji
G S , Pogoda  0.25
G S , Temperatura   0.033
G S , Wilgotnosc   0.16
GS ,Wiatr  0.08
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
32
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Dzień
D3
D7
D12
D13
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Tenis
Tak
Tak
Nie
Nie
Nie
Pogoda
Pochmurnie
Pochmurnie
Pochmurnie
Pochmurnie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Temperatura
Gorąco
Zimno
Przyjemnie
Gorąco
Dzień
D4
D5
D10
D6
D14
Wilgotność
Wysoka
Normalna
Wysoka
Normalna
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
Wiatr
Słaby
Silny
Silny
Słaby
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tenis
Tak
Tak
Tak
Nie
Nie
Tenis
Tak
Tak
Tak
Tak
33
Budowa drzew decyzyjnych
Dzień
D9
D11
D1
D2
D8
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Zimno
Przyjemnie
Gorąco
Gorąco
Przyjemnie
Wilgotność
Normalna
Normalna
Wysoka
Wysoka
Wysoka
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Tenis
Tak
Tak
Nie
Nie
Nie
34
Budowa drzew decyzyjnych
Dzień
D1
D2
D8
D11
D9
Pogoda
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Słonecznie
Temperatura
Gorąco
Gorąco
Przyjemnie
Przyjemnie
Zimno
Wilgotność
Wysoka
Wysoka
Wysoka
Normalna
Normalna
Wiatr
Słaby
Silny
Słaby
Silny
Słaby
Tenis
Nie
Nie
Nie
Tak
Tak
= Sslonecznie
Decyzja (kategoria)
Liczba wystąpień
Tak
2
Nie
3
E Sslonecznie  0.4 log 2 0.4   0.6 log 2 0.6   0.97
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
35
Algorytm ID3 - przyrost informacji atrybutu temperatury
Temperatura
Liczba wystąpień
Tak
Nie
Gorąco
2
0
2
Przyjemnie
2
1
1
Zimno
1
1
0
E Sgoraco   log 2 1  0 log 2 0  0
E S przyjemnie  0.5 log 2 0.5  0.5 log 2 0.5  1
E S zimno  1log 2 1  0 log 2 0   0
2
2 1
G Sslonecznie, Temperatur a   0.97  0  1  0  0.57
5
5 5
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
36
Algorytm ID3 - przyrost informacji atrybutu wilgotności
Wilgotność
Liczba wystąpień Tak Nie
Normalna
2
2
0
Wysoka
3
0
3
E S normalna   log 2 1  0 log 2 0   0
E Swysoka  0 log 2 0  1log 2 1  0
2
3
G Sslonecznie, Wilgotnosc   0.97  0  0  0.97
5
5
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
37
Algorytm ID3 - przyrost informacji atrybutu wiatru
Wiatr
Liczba wystąpień
Tak Nie
Słaby
3
1
2
Silny
2
1
1
E Sslaby   0.33log 2 0.33  0.67 log 2 0.67  0.91
E Ssilny  0.5 log 2 0.5  0.5 log 2 0.5  1
3
2
G Sslonecznie, Wiatr   0.97  0.91  1  0.024
5
5
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
38
Tytuł slajdu
2
2 1
G Sslonecznie, Temperatur a   0.97  0  1  0  0.57
5
5 5
2
3
G Sslonecznie, Wilgotnosc   0.97  0  0  0.97
5
5
3
2
G Sslonecznie, Wiatr   0.97  0.91  1  0.024
5
5
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
39
Budowa drzew decyzyjnych
Dzień
Pogoda
D1
Słonecznie
D2
Słonecznie
D8
Słonecznie
Wilgotność: wysoka
Temperatura Wilgotność
Gorąco
Wysoka
Gorąco
Wysoka
Przyjemnie
Wysoka
Wiatr Tenis
Słaby Nie
Silny Nie
Słaby Nie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Wilgotność: normalna
Dzień
Pogoda
Temperatura Wilgotność Wiatr Tenis
D9
Słonecznie
Zimno
Normalna Słaby Tak
D11 Słonecznie
Przyjemnie
Normalna Silny Tak
40
Budowa drzew decyzyjnych
Dzień
D4
D5
D10
D6
D14
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
Pogoda
Deszcz
Deszcz
Deszcz
Deszcz
Deszcz
Temperatura
Przyjemnie
Zimno
Przyjemnie
Zimno
Przyjemnie
Wilgotność
Wysoka
Normalna
Normalna
Normalna
Wysoka
Wiatr
Słaby
Słaby
Słaby
Silny
Silny
Tenis
Tak
Tak
Tak
Nie
Nie
41
Budowa drzew decyzyjnych
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
42
Współczynnik przyrostu informacji - Gain ratio
G S , A  E S  
 
vValues A
I S , A  
 
vValues A
Sv
E Sv 
S
 Sv 
Sv

log 2 

S
S


G S , A
GRS , A 
I S , A
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
43
Information Gain i Gain Ratio - porównanie
G S , Pogoda  0.25
GRS , Pogoda  0.16
G S , Temperatura   0.033
GRS , Temperatura   0.02
G S , Wilgotnosc   0.16
GRS , Wilgotnosc   0.15
GS ,Wiatr  0.08
GRS ,Wiatr  0.05
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
44
Gini gain
n
Gini S   1   pi2
i 1
n
Gini S , A  
i 1
Si
Gini Si 
S
Gdzie:
Gini(S) – gini index, miara nieczystości (zamiast entropii)
Gini(S,A) – gini gain
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
45
Kryterium Twoing
Maksymalizujemy:
p L pR 

Twoing ( S ) 
  pi | S L   pi | S R  
4  i

Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
2
46
Porównanie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
47
Overfitting
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
48
Algorytm C4.5
C4.5 jest algorytmem będącym rozwinięciem
algorytmu ID3, tworzącym drzewa klasyfikujące.
Usprawnienia względem algorytmu ID3:
• Przycinanie drzew
• Wsparcie atrybutów zarówno o wartościach
ciągłych jak i dyskretnych
• Wsparcie wektorów uczących z nieznanymi
wartościami
• Możliwość przypisania wag do poszczególnych
atrybutów
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
49
Metody przycinania drzew
• Reduced error pruning
• Cost-complexity pruning – minimalizujemy
funkcję:
err  pruneT   err T 
leavesT   leaves pruneT 
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
50
Metody przycinania drzew – rule post-pruning
• Rule post-pruning
Pogoda-Słonecznie & Wilgotność-Wysoka → Nie
Pogoda-Słonecznie & Wilgotność-Normalna → Tak
Pogoda-Pochmurnie → Tak
Pogoda-Deszcz & Wiatr-Słaby → Tak
Pogoda-Deszcz & Wiatr-Silny → Nie
Uczenie Maszynowe i Datamining – Drzewa Decyzyjne
51