Drzewa decyzyjne
Transkrypt
Drzewa decyzyjne
Inżynieria Wiedzy i Systemy Ekspertowe Drzewa decyzyjne dr inż. Michał Bereta Politechnika Krakowska http://torus.uck.pk.edu.pl/~beretam/ [email protected] 1 Drzewa decyzyjne ● ● W teorii grafów drzewa definiuje się jako nieskierowane grafy acykliczne i spójne Drzewa klasyfikacyjne (decyzyjne) wygodnie jest przedstawić jako drzewa skierowane, mające wyróżniony wierzchołek (korzeń) – wierzchołek początkowy drzewa 2 Drzewa decyzyjne ● ● ● ● Drzewa decyzyjne dobrze jest sobie wyobrazić jako obiekty, w których korzeniach jest skupiona cała próba ucząca i następnie kolejne elementy tej próby są przesuwane wzdłuż gałęzi, z góry w dół, przez węzły. W każdym węźle jest podejmowana decyzja o wyborze gałęzi dla danego przykładu (elementu próby). Zatem w każdym węźle jest dokonywany podział na podgrupy przykładów docierających do tego węzła. Przykłady są przesuwane aż do węzła końcowego (liścia), który ma przypisaną pewną kategorię. 3 Drzewa decyzyjne ● Rozważać będziemy jedynie drzewa binarne, tzn. takie, których węzły (poza liśćmi) mają jedynie po dwoje dzieci. 4 Drzewa decyzyjne Klasyfikacja kwiatów Irysa DeTreex 4.5 Pakiet Sphinx Aitech 5 Drzewa decyzyjne ● ● ● ● Podział (test) w każdym węźle powinien być tak dobrany by jak najlepiej rozdzielał dochodzące do tego węzła przykłady na dwie części. Co oznacza „najlepsze rozdzielenie” ? Podpróba, która znalazła się w węźle charakteryzuje się pewną różnorodnością klas (kategorii) Podział powinien być taki, aby różnorodność otrzymanych części, docierających do węzłów-dzieci, była możliwie najmniejsza. 6 Drzewa decyzyjne Przeprowadzenie podziału wymaga zatem: ● ● ● Podania stosownej miary różnorodności klas w węźle Podania miary różnicy między różnorodnością klas w danym węźle i różnorodnością klas w węzłachdzieciach Podania algorytmu maksymalizacji ww. różnicy Postępowanie takie jest w gruncie rzeczy poszukiwaniem lokalnie optymalnego podziału – powstałe drzewo wcale nie musi być optymalne globalnie. 7 Drzewa decyzyjne Dany jest problem dyskryminacji o g klasach 1,2,...,g. Próba ucząca Rozważamy ustalony węzeł m. Liczność podpróby uczącej, która trafiła do węzła m wynosi i niech będzie ułamkiem obserwacji z klasy k w węźle m. równa się 1 jeśli warunek zachodzi, i równa się 0 w przeciwnym wypadku. 8 Drzewa decyzyjne Obserwacje w węźle m klasyfikujemy do klasy najliczniej reprezentowanej w tym węźle: 9 Drzewa decyzyjne Rozsądna miara różnorodności klas w węźle to taka miara, która przyjmuje wartość zerowąm gdy wszystkie obserwacje w węźle należą do tej samej klasy, oraz przyjmuje wartość maksymalną, gdyż rozkład przynależności do klas w węźle jest jednostajny 10 Drzewa decyzyjne Najbardziej popularne miary różnorodności klas w węźle m drzewa T: ułamek (proporcja) błędnych klasyfikacji wskaźnik Giniego (indeks Giniego) entropia 11 Drzewa decyzyjne Oznaczmy dzieci węzła m jako oraz . to ułamek elementów próby uczącej, które z węzła m przeszły do węzlą mL to liczba obserwacji w mL to ułamek elementów próby uczącej, które z węzła m przeszły do węzlą mR 12 Drzewa decyzyjne Za łączną miarę różnorodności klas w dzieciach węzła m przyjmujemy wielkość Miara różnicy między różnorodnością klas w węźlerodzicu i węzłach-dzieciach: Powyższa wartość powinna być maksymalizowana podczas dobierania podziału w danym węźle. 13 Drzewa decyzyjne Powyższa wartość powinna być maksymalizowana podczas dobierania podziału w danym węźle. W praktyce ogranicza się dostępne podziały do podziałów opartych jedynie na jednym atrybucie. Dla ustalonego atrybutu, przyjmującego w całej próbie uczącej L różnych wartości mamy możliwych podziałów zbioru wartości tego atrybutuna dwa rozłączne zbiory. 14 Drzewa decyzyjne W praktyce jest to często niewykonalne. Dlatego dla atrybutów liczbowych (ciągłych lub dyskretnych), ograniczamy klasę możliwych podziałów do podziałów tzw. monotonicznych: gdzie c jest którąś z zaobserwowanych wartości atrybutu. Liczba możliwych podziałów spada zatem do L-1. 15 Drzewa decyzyjne Jeśli g=2 i atrybut a jest jakościowy o L wartościach oraz wartości te zostały uporządkowane według rosnących wartości prawdopodobieństwa Wówczas jeden z L-1 podziałów typu maksymalizuje 16 Drzewa decyzyjne Zalety: ● prostota ● intuicyjność i zrozumiała konstrukcja ● ● możliwość interpretacji drzewa jako reguł szybkość konstrukcji 17 Drzewa decyzyjne Wady: ● ● ● Duża czułość na zmiany w zbiorze danych uczących – niestabilność Przeuczenie – zbytnie dostosowanie się do danych uczących oraz słaba generalizacja Konieczność przycinania drzewa w celu wyeliminowania powyższej wady 18 Komitety klasyfikatorów Czy mając bardzo wiele słabych klasyfikatorów można uzyskać poprzez ich połączenie jedendobry klasyfikator? Np. posiadamy niezależne klasyfikatory, z których każdy klasyfikuje z poprawnością 0.55. Oczekiwana liczba poprawnych decyzji wśród wszystkich C klasyfikatorów wynosi 0.55*C (proste doświadczenie dwumianowe). Jeśli liczba klasyfikatorów wynosi np. 1000 możemy być prawie pewni poprawnej odpowiedzi. 19 Komitety klasyfikatorów Problem: Na podstawie tego samego zbioru trenującego nie uzyskamy niezależnych klasyfikatorów. 20 Komitety klasyfikatorów Bagging Każdy klasyfikator powstaje na podstawie pseudo-próby generowanej poprzez losowy wybór ze zwracaniem przykładów z oryginalnego zbioru trenującego. W wyniku powstaje nowy zbiór uczący. Każdy przykład ma takie same prawdopodobieństwo wyboru. Przy takim postępowaniu nie zaleca się przycinania drzew. 21 Komitety klasyfikatorów Lasy losowe 1. Jak w algorytmie bagging wylosuj ze zwracaniem z oryginalnej n-elementowej próby uczącej n wektorów obserwacji do pseudopróby uczącej, na podstawie której zostanie zbudowane drzewo. 22 Komitety klasyfikatorów Lasy losowe 2. W każdym węźle budowanego drzewa podział podpróby, która dotarła do tego węzła odbywa się następująco: ● ● ● niezależnie od innych losowań wylosuj m spośród p atrybutów wektora obserwacji znajdź najlepszy podział jedynie wśród tych wylosowanych m atrybutów m << p 23 Komitety klasyfikatorów Lasy losowe 3. Drzewo jest budowane bez przycinania, jeśli to możliwe aż do otrzymania liści o elementach pseudopróby uczącej z tylko jednej klasy. 24 Komitety klasyfikatorów Lasy losowe Klasyfikacja odbywa się podobnie jak w przypadku metody bagging za pomocą głosowania zwykłą większością głosów. 25 Rozmyte drzewa decyzyjne W rozmytych drzewach decyzyjnych w każdym węźle przeprowadzany test nie jest testem „ostrym”, tzn. dany przykład ze zbioru trenującego nie jest przypisany do jednego z węzłów potomków, a do każdego z nich w pewnym stopniu. próg podziału ostrego L R x zostaje przypisany do lewego węzła potomnego x 26 Rozmyte drzewa decyzyjne W rozmytych drzewach decyzyjnych w każdym węźle przeprowadzany test nie jest testem „ostrym”, tzn. dany przykład ze zbioru trenującego nie jest przypisany do jednego z węzłów potomków, a do każdego z nich w pewnym stopniu. L R x podział rozmyty realizowany za pomocą funkcji przynależności pewnego zbioru rozmytego x zostaje przydzielone w pewnym stopniu zarówno do lewego jak i prawego węzła potomnego 27