Dywergencja

Transkrypt

Dywergencja

Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dywergencja
Marek Śmieja
Teoria informacji
1 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Kodowanie przy nieznanym rozkładzie
Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej
długości h(p) bitów na symbol.
A co jeśli nie znamy rozkładu p?
Jeśli przyjmiemy, że rozkładem na X jest q, to możemy
skonstruować kod o długościach (− log2 qi ).
P
Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład.
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
P
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
P
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
P
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Entropia krzyżowa
Definicja
Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p
względem q wynosi
X
h× (pkq) =
pi · (− log2 qi )
i
Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu
elementów X o rozkładzie p.
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Entropia krzyżowa
Definicja
względem q wynosi
X
h× (pkq) =
i
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Entropia krzyżowa
Definicja
względem q wynosi
X
h× (pkq) =
i
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja
Dane x1 , . . . , xn na X
Znaleźć optymalny q z określonej rodziny rozkładów Q (np.
dwupunktowe, normalne, itp) opisujący dane
MLE (metoda największej wiarygodności): znajdź q ∈ Q
maksymalizujący:
max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn )
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja
maksymalizujący:
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja
maksymalizujący:
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja c.d.
Niektóre xi mogą się powtarzać więc dostajemy coś w stylu:
max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk )
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
∼ max p1 log q(x1 ) + . . . + pk log q(xk )
q∈Q
gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi .
Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą
dane X :
∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq)
q∈Q
q∈Q
To jest entropia krzyżowa p względem q
Zatem metoda największej wiarygodności da się wyrazić w języku
teorii informacji (entropii krzyżowej)!
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja c.d.
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
q∈Q
dane X :
q∈Q
q∈Q
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Dygresja c.d.
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
q∈Q
dane X :
q∈Q
q∈Q
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Redundancja kodu - dywergencja
Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując
optymalnego kodowania.
Obliczmy różnicę:
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
pi · (− log2 pi )
=: D(pkq)
Definicja
Niech p, q będą rozkładami na X . Wówczas dywergencja
Kullbacka-Leiblera pomiędzy p i q wynosi
X
pi
D(pkq) =
pi · log2
qi
i
Zakładamy, że 0 log
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
=: D(pkq)
Definicja
X
pi
D(pkq) =
pi · log2
qi
i
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
=: D(pkq)
Definicja
X
pi
D(pkq) =
pi · log2
qi
i
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
=: D(pkq)
Definicja
X
pi
D(pkq) =
pi · log2
qi
i
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Odległość rozkładów
Dywergencja jest również traktowana jako odległość pomiędzy
rozkładami.
Zachodzi
D(pkq) 0 oraz D(pkq) = 0 ⇐⇒ p = q
Czy zachodzi symetria i przechodniość? - ćwiczenie.
Mamy
h× (pkq) = h(p) + D(pkq)
zatem niefektywność kodowania zależy od odległości pomiędzy p i q
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
rozkładami.
Zachodzi
Mamy
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
rozkładami.
Zachodzi
Mamy
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związek z informacją
Pamiętamy, że wzajemna informacja X i Y , to
I (X ; Y ) =
X
x,y
p(x, y ) log
p(x, y )
.
p(x)p(y )
Zatem
I (X , Y ) = D(p(x, y )kp(x)p(y ))
8 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związek z informacją
Pamiętamy, że wzajemna informacja X i Y , to
I (X ; Y ) =
X
x,y
p(x, y ) log
p(x, y )
.
p(x)p(y )
Zatem
I (X , Y ) = D(p(x, y )kp(x)p(y ))
8 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Interpretacja
Wzajemna informacja mierzy odległość pomiędzy rozkładem
łącznym (X , Y ), a brzegowymi
Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów
brzegowych od łącznego wynosi zero (brak wspólnej informacji X i
Y)
Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość
rozkładów brzegowych od łącznego jest równa entropii X .
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Interpretacja
Y)
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Interpretacja
Y)
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ilustracja
10 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Klasyfikacja
Cel rozsądny
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Klasyfikacja
Cel rozsądny
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Klasyfikacja
Cel rozsądny
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Klasyfikacja
Cel rozsądny
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ocena klasyfikatora
Accuracy =
True(0)
True(1)
TP + TN
TP + TN + FP + FN
Predicted(0)
TN
FP
Predicted(1)
FN
TP
Można rozszerzyć na problemy wieloklasowe
Zła miara dla problemów niezbalansowanych
Istnieje wersja ważona
13 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
pod uwagę
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
pod uwagę
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
pod uwagę
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
pod uwagę
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Reguły
pod uwagę
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Drzewo
16 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Wybór cech
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Wybór cech
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Wybór cech
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Wybór cech
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Istotność cech
użyta
przykładów
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Istotność cech
użyta
przykładów
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Istotność cech
użyta
przykładów
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Istotność cech
użyta
przykładów
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Miara istotności
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
dwupunktowego)
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Miara istotności
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
dwupunktowego)
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Miara istotności
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
dwupunktowego)
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Miara istotności
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
dwupunktowego)
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Potomkowie
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Potomkowie
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Potomkowie
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Potomkowie
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
#Z1i
#X1
=
#X2
#Z2i
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
#Z1i
#X1
=
#X2
#Z2i
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
#Z1i
#X1
=
#X2
#Z2i
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
#Z1i
#X1
=
#X2
#Z2i
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Co dostalismy?
Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest
klasy 1, a 0 gdy jest klasy 0
Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1
gdy element jest w lewym poddrzewie a 0 gdy w prawym
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
= h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2)
Czyli bierzemy ten atrybut który maksymalizuje informację
wzajemną z etykietą (zawężoną do danego węzła)
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Co dostalismy?
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Co dostalismy?
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Co dostalismy?
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związki
Najważniejsze cechy są u góry drzewa
Jest to selekcja cech (nadzorowana)
Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć
cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y )
Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związki
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związki
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Związki
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rozszerzenia
dwa
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rozszerzenia
dwa
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rozszerzenia
dwa
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rozszerzenia
dwa
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Podział
C = {C1 , . . . , Ck }.
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Podział
C = {C1 , . . . , Ck }.
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Podział
C = {C1 , . . . , Ck }.
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Rand index
Ilość poprawnie przyporządkowanych par:
RI =
a+b
a+b+c +d
gdzie
a - ilość par (x, y ), będących w jednej grupie zarówno w C jak i R
b - ilość par (x, y ), będących w różnych grupach zarówno w C jak i
R
c - ilość par (x, y ), będących w tej samej grupie w C ale w różnych
grupach w R
c - ilość par (x, y ), będących w tej samej grupie w R ale w różnych
grupach w C
Maksimum równe 1 dla pełnej zgodności, ale dla losowego podziału
zwykle przyjmuje wartość znacząco większą niż 0 (rozszerzenia Adjusted
Rand Intex)
26 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Podejście entropijne
Zmierzmy informację wspólną podziałów.
Wspólna informacja to wzajemna informacja podziałów:
I (C; R) =
X
i,j
P(Ci ∩ Rj )(− log2
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
Wzajemna informacja jest nieznormalizowana:
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
I (C; R) =
X
i,j
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
I (C; R) =
X
i,j
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
28 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
28 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Porównanie
30 / 30

Dywergencja

Transkrypt

Podobne dokumenty

Przygoda zimowa 01-06.02.2016

Ogłoszenia duszpasterskie - 22.02.2015 r.

drzewa decyzyjne, cz. 1 - Katedra Systemów Multimedialnych

Dyrektora Międzynarodowego Domu Spotkań Młodzieży (MDSM

Songs of Generations - Kanon Konsultacji Społecznych

Praca dyplomowa.txt

Dywergencje