Drzewa decyzyjne

Transkrypt

Drzewa decyzyjne
Inżynieria Wiedzy i Systemy Ekspertowe
Drzewa decyzyjne
dr inż. Michał Bereta
Politechnika Krakowska
http://torus.uck.pk.edu.pl/~beretam/
[email protected]
1
Drzewa decyzyjne
●
●
W teorii grafów drzewa definiuje się jako
nieskierowane grafy acykliczne i
spójne
Drzewa klasyfikacyjne (decyzyjne)
wygodnie jest przedstawić jako drzewa
skierowane, mające wyróżniony
wierzchołek (korzeń) – wierzchołek
początkowy drzewa
2
Drzewa decyzyjne
●
●
●
●
Drzewa decyzyjne dobrze jest sobie wyobrazić jako
obiekty, w których korzeniach jest skupiona cała próba
ucząca i następnie kolejne elementy tej próby są
przesuwane wzdłuż gałęzi, z góry w dół, przez węzły.
W każdym węźle jest podejmowana decyzja o wyborze
gałęzi dla danego przykładu (elementu próby).
Zatem w każdym węźle jest dokonywany podział na
podgrupy przykładów docierających do tego węzła.
Przykłady są przesuwane aż do węzła końcowego
(liścia), który ma przypisaną pewną kategorię.
3
Drzewa decyzyjne
●
Rozważać będziemy jedynie drzewa binarne, tzn. takie,
których węzły (poza liśćmi) mają jedynie po dwoje
dzieci.
4
Drzewa decyzyjne
Klasyfikacja
kwiatów Irysa
DeTreex 4.5
Pakiet Sphinx
Aitech
5
Drzewa decyzyjne
●
●
●
●
Podział (test) w każdym węźle powinien być tak
dobrany by jak najlepiej rozdzielał dochodzące do
tego węzła przykłady na dwie części.
Co oznacza „najlepsze rozdzielenie” ?
Podpróba, która znalazła się w węźle charakteryzuje
się pewną różnorodnością klas (kategorii)
Podział powinien być taki, aby różnorodność
otrzymanych części, docierających do węzłów-dzieci,
była możliwie najmniejsza.
6
Drzewa decyzyjne
Przeprowadzenie podziału wymaga zatem:
●
●
●
Podania stosownej miary różnorodności klas w węźle
Podania miary różnicy między różnorodnością klas
w danym węźle i różnorodnością klas w węzłachdzieciach
Podania algorytmu maksymalizacji ww. różnicy
Postępowanie takie jest w gruncie rzeczy poszukiwaniem
lokalnie optymalnego podziału – powstałe drzewo
wcale nie musi być optymalne globalnie.
7
Drzewa decyzyjne
Dany jest problem dyskryminacji o g klasach 1,2,...,g.
Próba ucząca
Rozważamy ustalony węzeł m.
Liczność podpróby uczącej, która trafiła do węzła m
wynosi
i niech
będzie ułamkiem obserwacji z klasy k w węźle m.
równa się 1 jeśli warunek zachodzi, i równa
się 0 w przeciwnym wypadku.
8
Drzewa decyzyjne
Obserwacje w węźle m klasyfikujemy do klasy najliczniej
reprezentowanej w tym węźle:
9
Drzewa decyzyjne
Rozsądna miara różnorodności klas w węźle to taka
miara, która przyjmuje wartość zerowąm gdy wszystkie
obserwacje w węźle należą do tej samej klasy, oraz
przyjmuje wartość maksymalną, gdyż rozkład
przynależności do klas w węźle jest jednostajny
10
Drzewa decyzyjne
Najbardziej popularne miary różnorodności klas w węźle
m drzewa T:
ułamek (proporcja) błędnych klasyfikacji
wskaźnik Giniego (indeks Giniego)
entropia
11
Drzewa decyzyjne
Oznaczmy dzieci węzła m jako
oraz
.
to ułamek elementów próby uczącej, które z
węzła m przeszły do węzlą mL
to liczba obserwacji w mL
to ułamek elementów próby uczącej, które z
węzła m przeszły do węzlą mR
12
Drzewa decyzyjne
Za łączną miarę różnorodności klas w dzieciach węzła m
przyjmujemy wielkość
Miara różnicy między różnorodnością klas w węźlerodzicu i węzłach-dzieciach:
Powyższa wartość powinna być maksymalizowana
podczas dobierania podziału w danym węźle.
13
Drzewa decyzyjne
Powyższa wartość powinna być maksymalizowana
podczas dobierania podziału w danym węźle.
W praktyce ogranicza się dostępne podziały do podziałów
opartych jedynie na jednym atrybucie.
Dla ustalonego atrybutu, przyjmującego w całej próbie
uczącej L różnych wartości mamy
możliwych podziałów zbioru wartości tego atrybutuna
dwa rozłączne zbiory.
14
Drzewa decyzyjne
W praktyce jest to często niewykonalne.
Dlatego dla atrybutów liczbowych
(ciągłych lub dyskretnych), ograniczamy
klasę możliwych podziałów do podziałów
tzw. monotonicznych:
gdzie c jest którąś z zaobserwowanych
wartości atrybutu.
Liczba możliwych podziałów spada zatem
do L-1.
15
Drzewa decyzyjne
Jeśli g=2 i atrybut a jest jakościowy o L
wartościach oraz wartości te zostały
uporządkowane według rosnących
wartości prawdopodobieństwa
Wówczas jeden z L-1 podziałów typu
maksymalizuje
16
Drzewa decyzyjne
Zalety:
●
prostota
●
intuicyjność i zrozumiała konstrukcja
●
●
możliwość interpretacji drzewa jako
reguł
szybkość konstrukcji
17
Drzewa decyzyjne
Wady:
●
●
●
Duża czułość na zmiany w zbiorze
danych uczących – niestabilność
Przeuczenie – zbytnie dostosowanie się
do danych uczących oraz słaba
generalizacja
Konieczność przycinania drzewa w celu
wyeliminowania powyższej wady
18
Komitety klasyfikatorów
Czy mając bardzo wiele słabych
klasyfikatorów można uzyskać
poprzez ich połączenie jedendobry
klasyfikator?
Np. posiadamy niezależne klasyfikatory, z których każdy
klasyfikuje z poprawnością 0.55.
Oczekiwana liczba poprawnych decyzji wśród wszystkich
C klasyfikatorów wynosi 0.55*C (proste doświadczenie
dwumianowe).
Jeśli liczba klasyfikatorów wynosi np. 1000 możemy być
prawie pewni poprawnej odpowiedzi.
19
Komitety klasyfikatorów
Problem: Na podstawie tego samego zbioru
trenującego nie uzyskamy niezależnych
klasyfikatorów.
20
Komitety klasyfikatorów
Bagging
Każdy klasyfikator powstaje na podstawie pseudo-próby
generowanej poprzez losowy wybór ze zwracaniem
przykładów z oryginalnego zbioru trenującego. W
wyniku powstaje nowy zbiór uczący.
Każdy przykład ma takie same prawdopodobieństwo
wyboru.
Przy takim postępowaniu nie zaleca się przycinania
drzew.
21
Komitety klasyfikatorów
Lasy losowe
1. Jak w algorytmie bagging wylosuj ze zwracaniem z
oryginalnej n-elementowej próby uczącej n wektorów
obserwacji do pseudopróby uczącej, na podstawie
której zostanie zbudowane drzewo.
22
Komitety klasyfikatorów
Lasy losowe
2. W każdym węźle budowanego drzewa podział
podpróby, która dotarła do tego węzła odbywa się
następująco:
●
●
●
niezależnie od innych losowań wylosuj m spośród p
atrybutów wektora obserwacji
znajdź najlepszy podział jedynie wśród tych
wylosowanych m atrybutów
m << p
23
Komitety klasyfikatorów
Lasy losowe
3. Drzewo jest budowane bez przycinania, jeśli to
możliwe aż do otrzymania liści o elementach
pseudopróby uczącej z tylko jednej klasy.
24
Komitety klasyfikatorów
Lasy losowe
Klasyfikacja odbywa się podobnie jak w przypadku
metody bagging za pomocą głosowania zwykłą
większością głosów.
25
Rozmyte drzewa decyzyjne
W rozmytych drzewach decyzyjnych w każdym węźle
przeprowadzany test nie jest testem „ostrym”, tzn.
dany przykład ze zbioru trenującego nie jest przypisany
do jednego z węzłów potomków, a do każdego z nich
w pewnym stopniu.
próg podziału ostrego
L
R
x zostaje przypisany do
lewego węzła potomnego
x
26
Rozmyte drzewa decyzyjne
W rozmytych drzewach decyzyjnych w każdym węźle
przeprowadzany test nie jest testem „ostrym”, tzn.
dany przykład ze zbioru trenującego nie jest przypisany
do jednego z węzłów potomków, a do każdego z nich
w pewnym stopniu.
L
R
x
podział rozmyty realizowany za pomocą
funkcji przynależności pewnego zbioru
rozmytego
x zostaje przydzielone w
pewnym stopniu zarówno do lewego jak
i prawego węzła potomnego
27

Podobne dokumenty