Drzewa decyzji
Transkrypt
Drzewa decyzji
Drzewa decyzyjne Przykład Czy Tomek zagra w tenisa? - oszacuj Dzień D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Pogoda Słonecznie Słonecznie Pochmurnie Deszcz Deszcz Deszcz Pochmurnie Słonecznie Słonecznie Deszcz Słonecznie Pochmurnie Pochmurnie Deszcz Nowy obiekt: D15 Deszcz Temperatura Gorąco Gorąco Gorąco Przyjemnie Zimno Zimno Zimno Przyjemnie Zimno Przyjemnie Przyjemnie Przyjemnie Gorąco Przyjemnie Wilgotność Wysoka Wysoka Wysoka Wysoka Normalna Normalna Normalna Wysoka Normalna Normalna Normalna Wysoka Normalna Wysoka Wiatr Słaby Silny Słaby Słaby Słaby Silny Silny Słaby Słaby Słaby Silny Silny Słaby Silny Zimno Wysoka Słaby Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Nie Nie Tak Tak Tak Nie Tak Nie Tak Tak Tak Tak Tak Nie ???? 2 Budowa drzew decyzyjnych Dzień D3 D7 D12 D13 Pogoda Pochmurnie Pochmurnie Pochmurnie Pochmurnie Temperatura Gorąco Zimno Przyjemnie Gorąco Wilgotność Wysoka Normalna Wysoka Normalna Wiatr Słaby Silny Silny Słaby Dzień D3 D13 D1 D2 Pogoda Pochmurnie Pochmurnie Słonecznie Słonecznie Temperatura Gorąco Gorąco Gorąco Gorąco Wilgotność Wysoka Normalna Wysoka Wysoka Wiatr Słaby Słaby Słaby Silny Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Wiatr Słaby Silny Słaby Silny Słaby Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Tak Tak Tak Tak Tenis Tak Tak Nie Nie Tenis Tak Tak Nie Nie Nie 3 Budowa drzew decyzyjnych Dzień D3 D4 D12 D1 D2 D8 D14 Pogoda Pochmurnie Deszcz Pochmurnie Słonecznie Słonecznie Słonecznie Deszcz Temperatura Gorąco Przyjemnie Przyjemnie Gorąco Gorąco Przyjemnie Przyjemnie Wilgotność Wysoka Wysoka Wysoka Wysoka Wysoka Wysoka Wysoka Wiatr Słaby Słaby Silny Słaby Silny Słaby Silny Dzień D7 D11 D12 D2 D6 D14 Pogoda Pochmurnie Słonecznie Pochmurnie Słonecznie Deszcz Deszcz Temperatura Zimno Przyjemnie Przyjemnie Gorąco Zimno Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Normalna Wysoka Wiatr Silny Silny Silny Silny Silny Silny Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Tak Tak Tak Nie Nie Nie Nie Tenis Tak Tak Tak Nie Nie Nie 4 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Wiatr Słaby Silny Słaby Silny Słaby Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Tak Tak Nie Nie Nie 5 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Dzień D3 D7 D12 D13 Wiatr Słaby Silny Słaby Silny Słaby Tenis Tak Tak Nie Nie Nie Pogoda Pochmurnie Pochmurnie Pochmurnie Pochmurnie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Temperatura Gorąco Zimno Przyjemnie Gorąco Wilgotność Wysoka Normalna Wysoka Normalna Wiatr Słaby Silny Silny Słaby Tenis Tak Tak Tak Tak 6 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Dzień D3 D7 D12 D13 Wiatr Słaby Silny Słaby Silny Słaby Tenis Tak Tak Nie Nie Nie Pogoda Pochmurnie Pochmurnie Pochmurnie Pochmurnie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Temperatura Gorąco Zimno Przyjemnie Gorąco Dzień D4 D5 D10 D6 D14 Wilgotność Wysoka Normalna Wysoka Normalna Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz Wiatr Słaby Silny Silny Słaby Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tenis Tak Tak Tak Nie Nie Tenis Tak Tak Tak Tak 7 Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 8 Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 9 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Wiatr Słaby Silny Słaby Silny Słaby Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Tak Tak Nie Nie Nie 10 Budowa drzew decyzyjnych Dzień Pogoda D1 Słonecznie D2 Słonecznie D8 Słonecznie Wilgotność: wysoka Temperatura Wilgotność Gorąco Wysoka Gorąco Wysoka Przyjemnie Wysoka Wiatr Tenis Słaby Nie Silny Nie Słaby Nie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wilgotność: normalna Dzień Pogoda Temperatura Wilgotność Wiatr Tenis D9 Słonecznie Zimno Normalna Słaby Tak D11 Słonecznie Przyjemnie Normalna Silny Tak 11 Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 12 Budowa drzew decyzyjnych Dzień D4 D5 D10 D6 D14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tenis Tak Tak Tak Nie Nie 13 Budowa drzew decyzyjnych Dzień Pogoda D4 Deszcz D5 Deszcz D10 Deszcz Wiatr: słaby Temperatura Wilgotność Przyjemnie Wysoka Zimno Normalna Przyjemnie Normalna Wiatr Tenis Słaby Tak Słaby Tak Słaby Tak Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Dzień Pogoda D6 Deszcz D14 Deszcz Wiatr: silny Temperatura Wilgotność Wiatr Tenis Zimno Normalna Silny Nie Przyjemnie Wysoka Silny Nie 14 Budowa drzew decyzyjnych Wracamy do pytania – jak zostanie sklasyfikowany nowy obiekt D15 Deszcz Zimno Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wysoka Słaby ???? 15 Entropia Entropia w ramach teorii informacji jest definiowana jako średnia ilość informacji (liczba bitów), przypadająca na znak symbolizujący zajście zdarzenia z pewnego zbioru. n E S pi log 2 pi i 1 E – entropia zbioru danych S – zbiór danych P – proporcja danej kategorii w zbiorze względem reszty kategorii Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 16 Przyrost informacji (information gain) Przyrost informacji może być rozumiany jako oczekiwane zmniejszenie entropii spowodowane znajomością wartości jednego z atrybutów. Jest on zdefiniowany następująco: G S , A E S vValues A Sv E Sv S G – przytost informacji E – entropia zbioru danych A – atrubut o znanej wartości S – zbiór danych Sv – zbiór pomniejszony o wektory z inną wartością atrybutu A Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 17 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Dzień D3 D7 D12 D13 Wiatr Słaby Silny Słaby Silny Słaby Tenis Tak Tak Nie Nie Nie Pogoda Pochmurnie Pochmurnie Pochmurnie Pochmurnie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Temperatura Gorąco Zimno Przyjemnie Gorąco Dzień D4 D5 D10 D6 D14 Wilgotność Wysoka Normalna Wysoka Normalna Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz Wiatr Słaby Silny Silny Słaby Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tenis Tak Tak Tak Nie Nie Tenis Tak Tak Tak Tak 18 Przykład tworzenia drzewa decyzyjnego – algorytm ID3 Decyzja (kategoria) Liczba wystąpień Tak 9 Nie 5 n E S pi log 2 pi ptak log 2 ptak pnie log 2 pnie i 1 ptak 9 0.64 14 5 pnie 0.36 14 E S 0.64 log 2 0.64 0.36 log 2 0.36 E S 0.94 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 19 Algorytm ID3 - przyrost informacji atrybutu pogody Dzień D4 D5 D10 D6 D14 Liczba D3 D7 D12 D13 Liczba D9 D11 D1 D2 D8 Liczba Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz 5 Pochmurnie Pochmurnie Pochmurnie Pochmurnie 4 Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie 5 Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tak Tak Tak Nie Nie Gorąco Zimno Przyjemnie Gorąco Wysoka Normalna Wysoka Normalna Słaby Silny Silny Słaby Tak Tak Tak Tak Zimno Przyjemnie Gorąco Gorąco Przyjemnie Normalna Normalna Wysoka Wysoka Wysoka Słaby Silny Słaby Silny Słaby Tak Tak Nie Nie Nie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis 20 Algorytm ID3 - przyrost informacji atrybutu pogody Pogoda Liczba wystąpień Tak Nie Deszcz 5 3 2 Słonecznie 5 2 3 Pochmurnie 4 4 0 E S deszcz 0.6 log 2 0.6 0.4 log 2 0.4 0.97 E S slonecznie 0.4 log 2 0.4 0.6 log 2 0.6 0.97 E S pochmurnie 1.0 log 2 1.0 0 log 2 0 0 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 21 Algorytm ID3 - przyrost informacji atrybutu pogody G S , Pogoda E S vValues Pogoda Sv E Sv S S pochmurnie S deszcz S slonecznie E S E S deszcz E S slonecznie E S pochmurnie S S S 5 5 4 G S , Pogoda 0.94 0.97 0.97 0 0.25 14 14 14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 22 Algorytm ID3 - przyrost informacji atrybutu temperatury Dzień D3 D13 D1 D2 D4 D10 D12 D11 D14 D8 D5 D7 D9 D6 Pogoda Pochmurnie Pochmurnie Słonecznie Słonecznie Liczba Deszcz Deszcz Pochmurnie Słonecznie Deszcz Słonecznie Liczba Deszcz Pochmurnie Słonecznie Deszcz Liczba Temperatura Gorąco Gorąco Gorąco Gorąco 4 Przyjemnie Przyjemnie Przyjemnie Przyjemnie Przyjemnie Przyjemnie 6 Zimno Zimno Zimno Zimno 4 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wilgotność Wysoka Normalna Wysoka Wysoka Wiatr Słaby Słaby Słaby Silny Tenis Tak Tak Nie Nie Wysoka Normalna Wysoka Normalna Wysoka Wysoka Słaby Słaby Silny Silny Silny Słaby Tak Tak Tak Tak Nie Nie Normalna Normalna Normalna Normalna Słaby Silny Słaby Silny Tak Tak Tak Nie 23 Algorytm ID3 - przyrost informacji atrybutu temperatury Temperatura Liczba wystąpień Tak Nie Gorąco 4 2 2 Przyjemnie 6 4 2 Zimno 4 3 1 E Sgoraco 0.5 log 2 0.5 0.5 log 2 0.5 1 E S przyjemnie 0.67 log 2 0.67 0.33log 2 0.33 0.91 E S zimno 0.75 log 2 0.75 0.25 log 2 0.25 0.81 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 24 Algorytm ID3 - przyrost informacji atrybutu temperatury G S , Temperatura E S E S S goraco S E S goraco vValues S ,Temperatura S przyjemnie S Sv E Sv S S zimno E S przyjemnie E S zimno S 4 6 4 G S , Temperatur a 0.94 1 0.91 0.81 0.033 14 14 14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 25 Algorytm ID3 - przyrost informacji atrybutu wilgotności Dzień D13 D10 D11 D5 D7 D9 D6 D3 D4 D12 D1 D2 D14 D8 Pogoda Pochmurnie Deszcz Słonecznie Deszcz Pochmurnie Słonecznie Deszcz Temperatura Gorąco Przyjemnie Przyjemnie Zimno Zimno Zimno Zimno Liczba Pochmurnie Gorąco Deszcz Przyjemnie Pochmurnie Przyjemnie Słonecznie Gorąco Słonecznie Gorąco Deszcz Przyjemnie Słonecznie Przyjemnie Liczba Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wilgotność Normalna Normalna Normalna Normalna Normalna Normalna Normalna 7 Wysoka Wysoka Wysoka Wysoka Wysoka Wysoka Wysoka 7 Wiatr Słaby Słaby Silny Słaby Silny Słaby Silny Tenis Tak Tak Tak Tak Tak Tak Nie Słaby Słaby Silny Słaby Silny Silny Słaby Tak Tak Tak Nie Nie Nie Nie 26 Algorytm ID3 - przyrost informacji atrybutu wilgotności Wilgotność Liczba wystąpień Tak Nie Normalna 7 6 1 Wysoka 7 3 4 E S normalna 0.86 log 2 0.86 0.14 log 2 0.14 0.58 E Swysoka 0.43log 2 0.43 0.57 log 2 0.57 0.98 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 27 Algorytm ID3 - przyrost informacji atrybutu wilgotności Sv G S , Wilgotnosc E S E Sv vValues S ,Wilgotnosc S S wysoka S normalna E S E S normalna E S wysoka S S 7 7 G S , Wilgotnosc 0.94 0.58 0.98 0.16 14 14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 28 Algorytm ID3 - przyrost informacji atrybutu wiatru Dzień D13 D10 D5 D9 D3 D4 D1 D8 D11 D7 D12 D6 D2 D14 Pogoda Pochmurnie Deszcz Deszcz Słonecznie Pochmurnie Deszcz Słonecznie Słonecznie Słonecznie Pochmurnie Pochmurnie Deszcz Słonecznie Deszcz Temperatura Gorąco Przyjemnie Zimno Zimno Gorąco Przyjemnie Gorąco Przyjemnie Przyjemnie Zimno Przyjemnie Zimno Gorąco Przyjemnie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wilgotność Normalna Normalna Normalna Normalna Wysoka Wysoka Wysoka Wysoka Słaby Licznik Normalna Normalna Wysoka Normalna Wysoka Wysoka Silny Licznik Wiatr Słaby Słaby Słaby Słaby Słaby Słaby Słaby Słaby Tenis Tak Tak Tak Tak Tak Tak Nie Nie 8 Silny Silny Silny Silny Silny Silny Tak Tak Tak Nie Nie Nie 6 29 Algorytm ID3 - przyrost informacji atrybutu wiatru Wiatr Liczba wystąpień Tak Nie Słaby 8 6 2 Silny 6 3 3 E Sslaby 0.75log 2 0.75 0.25log 2 0.25 0.81 E Ssilny 0.5 log 2 0.5 0.5 log 2 0.5 1 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 30 Algorytm ID3 - przyrost informacji atrybutu wiatru G S , Wiatr E S E S Sslaby S vValues S ,Wiatr E Sslaby Ssilny S Sv E Sv S E Ssilny 8 6 G S ,Wiatr 0.94 0.75 1 0.08 14 14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 31 Algorytm ID3 - przyrost informacji G S , Pogoda 0.25 G S , Temperatura 0.033 G S , Wilgotnosc 0.16 GS ,Wiatr 0.08 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 32 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Dzień D3 D7 D12 D13 Wiatr Słaby Silny Słaby Silny Słaby Tenis Tak Tak Nie Nie Nie Pogoda Pochmurnie Pochmurnie Pochmurnie Pochmurnie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Temperatura Gorąco Zimno Przyjemnie Gorąco Dzień D4 D5 D10 D6 D14 Wilgotność Wysoka Normalna Wysoka Normalna Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz Wiatr Słaby Silny Silny Słaby Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tenis Tak Tak Tak Nie Nie Tenis Tak Tak Tak Tak 33 Budowa drzew decyzyjnych Dzień D9 D11 D1 D2 D8 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Zimno Przyjemnie Gorąco Gorąco Przyjemnie Wilgotność Normalna Normalna Wysoka Wysoka Wysoka Wiatr Słaby Silny Słaby Silny Słaby Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Tenis Tak Tak Nie Nie Nie 34 Budowa drzew decyzyjnych Dzień D1 D2 D8 D11 D9 Pogoda Słonecznie Słonecznie Słonecznie Słonecznie Słonecznie Temperatura Gorąco Gorąco Przyjemnie Przyjemnie Zimno Wilgotność Wysoka Wysoka Wysoka Normalna Normalna Wiatr Słaby Silny Słaby Silny Słaby Tenis Nie Nie Nie Tak Tak = Sslonecznie Decyzja (kategoria) Liczba wystąpień Tak 2 Nie 3 E Sslonecznie 0.4 log 2 0.4 0.6 log 2 0.6 0.97 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 35 Algorytm ID3 - przyrost informacji atrybutu temperatury Temperatura Liczba wystąpień Tak Nie Gorąco 2 0 2 Przyjemnie 2 1 1 Zimno 1 1 0 E Sgoraco log 2 1 0 log 2 0 0 E S przyjemnie 0.5 log 2 0.5 0.5 log 2 0.5 1 E S zimno 1log 2 1 0 log 2 0 0 2 2 1 G Sslonecznie, Temperatur a 0.97 0 1 0 0.57 5 5 5 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 36 Algorytm ID3 - przyrost informacji atrybutu wilgotności Wilgotność Liczba wystąpień Tak Nie Normalna 2 2 0 Wysoka 3 0 3 E S normalna log 2 1 0 log 2 0 0 E Swysoka 0 log 2 0 1log 2 1 0 2 3 G Sslonecznie, Wilgotnosc 0.97 0 0 0.97 5 5 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 37 Algorytm ID3 - przyrost informacji atrybutu wiatru Wiatr Liczba wystąpień Tak Nie Słaby 3 1 2 Silny 2 1 1 E Sslaby 0.33log 2 0.33 0.67 log 2 0.67 0.91 E Ssilny 0.5 log 2 0.5 0.5 log 2 0.5 1 3 2 G Sslonecznie, Wiatr 0.97 0.91 1 0.024 5 5 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 38 Tytuł slajdu 2 2 1 G Sslonecznie, Temperatur a 0.97 0 1 0 0.57 5 5 5 2 3 G Sslonecznie, Wilgotnosc 0.97 0 0 0.97 5 5 3 2 G Sslonecznie, Wiatr 0.97 0.91 1 0.024 5 5 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 39 Budowa drzew decyzyjnych Dzień Pogoda D1 Słonecznie D2 Słonecznie D8 Słonecznie Wilgotność: wysoka Temperatura Wilgotność Gorąco Wysoka Gorąco Wysoka Przyjemnie Wysoka Wiatr Tenis Słaby Nie Silny Nie Słaby Nie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Wilgotność: normalna Dzień Pogoda Temperatura Wilgotność Wiatr Tenis D9 Słonecznie Zimno Normalna Słaby Tak D11 Słonecznie Przyjemnie Normalna Silny Tak 40 Budowa drzew decyzyjnych Dzień D4 D5 D10 D6 D14 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne Pogoda Deszcz Deszcz Deszcz Deszcz Deszcz Temperatura Przyjemnie Zimno Przyjemnie Zimno Przyjemnie Wilgotność Wysoka Normalna Normalna Normalna Wysoka Wiatr Słaby Słaby Słaby Silny Silny Tenis Tak Tak Tak Nie Nie 41 Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 42 Współczynnik przyrostu informacji - Gain ratio G S , A E S vValues A I S , A vValues A Sv E Sv S Sv Sv log 2 S S G S , A GRS , A I S , A Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 43 Information Gain i Gain Ratio - porównanie G S , Pogoda 0.25 GRS , Pogoda 0.16 G S , Temperatura 0.033 GRS , Temperatura 0.02 G S , Wilgotnosc 0.16 GRS , Wilgotnosc 0.15 GS ,Wiatr 0.08 GRS ,Wiatr 0.05 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 44 Gini gain n Gini S 1 pi2 i 1 n Gini S , A i 1 Si Gini Si S Gdzie: Gini(S) – gini index, miara nieczystości (zamiast entropii) Gini(S,A) – gini gain Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 45 Kryterium Twoing Maksymalizujemy: p L pR Twoing ( S ) pi | S L pi | S R 4 i Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 2 46 Porównanie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 47 Overfitting Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 48 Algorytm C4.5 C4.5 jest algorytmem będącym rozwinięciem algorytmu ID3, tworzącym drzewa klasyfikujące. Usprawnienia względem algorytmu ID3: • Przycinanie drzew • Wsparcie atrybutów zarówno o wartościach ciągłych jak i dyskretnych • Wsparcie wektorów uczących z nieznanymi wartościami • Możliwość przypisania wag do poszczególnych atrybutów Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 49 Metody przycinania drzew • Reduced error pruning • Cost-complexity pruning – minimalizujemy funkcję: err pruneT err T leavesT leaves pruneT Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 50 Metody przycinania drzew – rule post-pruning • Rule post-pruning Pogoda-Słonecznie & Wilgotność-Wysoka → Nie Pogoda-Słonecznie & Wilgotność-Normalna → Tak Pogoda-Pochmurnie → Tak Pogoda-Deszcz & Wiatr-Słaby → Tak Pogoda-Deszcz & Wiatr-Silny → Nie Uczenie Maszynowe i Datamining – Drzewa Decyzyjne 51