Dywergencja

Transkrypt

Dywergencja
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dywergencja
Marek Śmieja
Teoria informacji
1 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Kodowanie przy nieznanym rozkładzie
Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej
długości h(p) bitów na symbol.
A co jeśli nie znamy rozkładu p?
Jeśli przyjmiemy, że rozkładem na X jest q, to możemy
skonstruować kod o długościach (− log2 qi ).
P
Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład.
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Kodowanie przy nieznanym rozkładzie
Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej
długości h(p) bitów na symbol.
A co jeśli nie znamy rozkładu p?
Jeśli przyjmiemy, że rozkładem na X jest q, to możemy
skonstruować kod o długościach (− log2 qi ).
P
Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład.
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Kodowanie przy nieznanym rozkładzie
Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej
długości h(p) bitów na symbol.
A co jeśli nie znamy rozkładu p?
Jeśli przyjmiemy, że rozkładem na X jest q, to możemy
skonstruować kod o długościach (− log2 qi ).
P
Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład.
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Kodowanie przy nieznanym rozkładzie
Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej
długości h(p) bitów na symbol.
A co jeśli nie znamy rozkładu p?
Jeśli przyjmiemy, że rozkładem na X jest q, to możemy
skonstruować kod o długościach (− log2 qi ).
P
Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład.
2 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Entropia krzyżowa
Definicja
Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p
względem q wynosi
X
h× (pkq) =
pi · (− log2 qi )
i
Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu
elementów X o rozkładzie p.
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Entropia krzyżowa
Definicja
Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p
względem q wynosi
X
h× (pkq) =
pi · (− log2 qi )
i
Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu
elementów X o rozkładzie p.
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Entropia krzyżowa
Definicja
Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p
względem q wynosi
X
h× (pkq) =
pi · (− log2 qi )
i
Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu
elementów X o rozkładzie p.
Wprost z definicji
h(p) ¬ h× (pkq)
3 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja
Dane x1 , . . . , xn na X
Znaleźć optymalny q z określonej rodziny rozkładów Q (np.
dwupunktowe, normalne, itp) opisujący dane
MLE (metoda największej wiarygodności): znajdź q ∈ Q
maksymalizujący:
max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn )
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja
Dane x1 , . . . , xn na X
Znaleźć optymalny q z określonej rodziny rozkładów Q (np.
dwupunktowe, normalne, itp) opisujący dane
MLE (metoda największej wiarygodności): znajdź q ∈ Q
maksymalizujący:
max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn )
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja
Dane x1 , . . . , xn na X
Znaleźć optymalny q z określonej rodziny rozkładów Q (np.
dwupunktowe, normalne, itp) opisujący dane
MLE (metoda największej wiarygodności): znajdź q ∈ Q
maksymalizujący:
max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn )
q∈Q
q∈Q
4 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja c.d.
Niektóre xi mogą się powtarzać więc dostajemy coś w stylu:
max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk )
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
∼ max p1 log q(x1 ) + . . . + pk log q(xk )
q∈Q
gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi .
Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą
dane X :
∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq)
q∈Q
q∈Q
To jest entropia krzyżowa p względem q
Zatem metoda największej wiarygodności da się wyrazić w języku
teorii informacji (entropii krzyżowej)!
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja c.d.
Niektóre xi mogą się powtarzać więc dostajemy coś w stylu:
max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk )
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
∼ max p1 log q(x1 ) + . . . + pk log q(xk )
q∈Q
gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi .
Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą
dane X :
∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq)
q∈Q
q∈Q
To jest entropia krzyżowa p względem q
Zatem metoda największej wiarygodności da się wyrazić w języku
teorii informacji (entropii krzyżowej)!
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Dygresja c.d.
Niektóre xi mogą się powtarzać więc dostajemy coś w stylu:
max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk )
q∈Q
q∈Q
∼ max
q∈Q
n1
nk
log q(x1 ) + . . . +
log q(xk )
n1 + . . . nk
n1 + . . . nk
∼ max p1 log q(x1 ) + . . . + pk log q(xk )
q∈Q
gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi .
Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą
dane X :
∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq)
q∈Q
q∈Q
To jest entropia krzyżowa p względem q
Zatem metoda największej wiarygodności da się wyrazić w języku
teorii informacji (entropii krzyżowej)!
5 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Redundancja kodu - dywergencja
Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując
optymalnego kodowania.
Obliczmy różnicę:
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
pi · (− log2 pi )
=: D(pkq)
Definicja
Niech p, q będą rozkładami na X . Wówczas dywergencja
Kullbacka-Leiblera pomiędzy p i q wynosi
X
pi
D(pkq) =
pi · log2
qi
i
Zakładamy, że 0 log
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Redundancja kodu - dywergencja
Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując
optymalnego kodowania.
Obliczmy różnicę:
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
pi · (− log2 pi )
=: D(pkq)
Definicja
Niech p, q będą rozkładami na X . Wówczas dywergencja
Kullbacka-Leiblera pomiędzy p i q wynosi
X
pi
D(pkq) =
pi · log2
qi
i
Zakładamy, że 0 log
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Redundancja kodu - dywergencja
Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując
optymalnego kodowania.
Obliczmy różnicę:
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
pi · (− log2 pi )
=: D(pkq)
Definicja
Niech p, q będą rozkładami na X . Wówczas dywergencja
Kullbacka-Leiblera pomiędzy p i q wynosi
X
pi
D(pkq) =
pi · log2
qi
i
Zakładamy, że 0 log
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Redundancja kodu - dywergencja
Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując
optymalnego kodowania.
Obliczmy różnicę:
h× (pkq) − h(p)
=
P
=
P
i
i
pi · (− log2 qi ) −
pi ·
log2 pqii
P
i
pi · (− log2 pi )
=: D(pkq)
Definicja
Niech p, q będą rozkładami na X . Wówczas dywergencja
Kullbacka-Leiblera pomiędzy p i q wynosi
X
pi
D(pkq) =
pi · log2
qi
i
Zakładamy, że 0 log
0
0
= 0, 0 log
0
q
= 0, p log
p
0
=∞
6 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Odległość rozkładów
Dywergencja jest również traktowana jako odległość pomiędzy
rozkładami.
Zachodzi
D(pkq) ­ 0 oraz D(pkq) = 0 ⇐⇒ p = q
Czy zachodzi symetria i przechodniość? - ćwiczenie.
Mamy
h× (pkq) = h(p) + D(pkq)
zatem niefektywność kodowania zależy od odległości pomiędzy p i q
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Odległość rozkładów
Dywergencja jest również traktowana jako odległość pomiędzy
rozkładami.
Zachodzi
D(pkq) ­ 0 oraz D(pkq) = 0 ⇐⇒ p = q
Czy zachodzi symetria i przechodniość? - ćwiczenie.
Mamy
h× (pkq) = h(p) + D(pkq)
zatem niefektywność kodowania zależy od odległości pomiędzy p i q
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Odległość rozkładów
Dywergencja jest również traktowana jako odległość pomiędzy
rozkładami.
Zachodzi
D(pkq) ­ 0 oraz D(pkq) = 0 ⇐⇒ p = q
Czy zachodzi symetria i przechodniość? - ćwiczenie.
Mamy
h× (pkq) = h(p) + D(pkq)
zatem niefektywność kodowania zależy od odległości pomiędzy p i q
7 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związek z informacją
Pamiętamy, że wzajemna informacja X i Y , to
I (X ; Y ) =
X
x,y
p(x, y ) log
p(x, y )
.
p(x)p(y )
Zatem
I (X , Y ) = D(p(x, y )kp(x)p(y ))
8 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związek z informacją
Pamiętamy, że wzajemna informacja X i Y , to
I (X ; Y ) =
X
x,y
p(x, y ) log
p(x, y )
.
p(x)p(y )
Zatem
I (X , Y ) = D(p(x, y )kp(x)p(y ))
8 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Interpretacja
Wzajemna informacja mierzy odległość pomiędzy rozkładem
łącznym (X , Y ), a brzegowymi
Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów
brzegowych od łącznego wynosi zero (brak wspólnej informacji X i
Y)
Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość
rozkładów brzegowych od łącznego jest równa entropii X .
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Interpretacja
Wzajemna informacja mierzy odległość pomiędzy rozkładem
łącznym (X , Y ), a brzegowymi
Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów
brzegowych od łącznego wynosi zero (brak wspólnej informacji X i
Y)
Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość
rozkładów brzegowych od łącznego jest równa entropii X .
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Interpretacja
Wzajemna informacja mierzy odległość pomiędzy rozkładem
łącznym (X , Y ), a brzegowymi
Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów
brzegowych od łącznego wynosi zero (brak wspólnej informacji X i
Y)
Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość
rozkładów brzegowych od łącznego jest równa entropii X .
9 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Ilustracja
10 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Klasyfikacja
Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą.
Etykieta: zdrowy/chory; kategoria tekstu itp.
Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi
Jeśli tylko dane nie są sprzeczne, to można zadać reguły
Cel rozsądny
Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych
przykładów danych da poprawne odpowiedzi
Na statystyce była regresja liniowa
11 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Proces doboru funkcji
Klasyfikator powinien być możliwie prostą funkcją - zawężamy się
zwykle do określonej klasy (np. liniowa)
Skąd wziąć nowe dane?
Trening: wydzielmy z X około 80% danych, aby dopasować
klasyfikator (możemy mieć wiele dopasować)
Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji
Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy
podział (różne kryteria ”dobroci”)
Dopuszczamy błąd na zbiorze treningowym
12 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Ocena klasyfikatora
Accuracy =
True(0)
True(1)
TP + TN
TP + TN + FP + FN
Predicted(0)
TN
FP
Predicted(1)
FN
TP
Można rozszerzyć na problemy wieloklasowe
Zła miara dla problemów niezbalansowanych
Istnieje wersja ważona
13 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne)
Na przykład reprezentacja: bag-of-words: xi występowanie i-tego
słowa alfabetu w tekscie
Pytamy: jak wartości atrybutów przekładają się na etykietę?
Szukamy prostych reguł.
Przykład: klasyfikacja tekstów pod względem kategorii: sport,
polityka
Reguła: jesli mecz = 1 oraz faul = 1, to sport
Reguła: jeli korupcja = 1 oraz faul = 1 to polityka
14 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Reguły
Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym)
Niektóre reguły to szum, tylko te najważniejsze powinny być brane
pod uwagę
Używamy drzewa do zapisu reguł
Reguła to ścieżka od korzenia do liścia
Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych
15 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Drzewo
16 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Wybór cech
Reguła złożona ze wszystkich cech
Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja
Tylko kluczowe cechy
Dopuszczamy błąd, usuwamy szum oraz nieistotne dane
Jak wybrać kluczowe cechy?
17 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Istotność cech
Będziemy ograniczać się do etykiet i atrybutów binarnych
Regułę będziemy budować w oparciu o jeden atrybut
Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być
użyta
Istotna cecha to ta, która pozwala na klasyfikację dużej liczby
przykładów
Istotność: informacja wspólna pomiędzy etykietą a cechą
18 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Miara istotności
Załóżmy, że w węźle mamy porcję danych X zbioru treningowego
Etykieta Y dzieli te dane na X1 , X2 zbiorów
Niech P(Xi ) =
|Xi |
|X1 |+|X2 |
Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł
dwupunktowego)
h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 )
to niepewność klasyfikacji
Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej
19 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Potomkowie
Reguła postaci xi = 0 lub xi = 1
Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2
W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i
Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 )
Patrzymy na otrzymaną redukcję niepewności:
gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 )
Bierzemy atrybut który zapewnia najwyższą redukcję niepewności
20 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Analiza
0 ¬ gain(X , xi ) ¬ h(X1 , X2 ).
Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie)
Wtedy, Z1i = ∅ lub Z2i = ∅
W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja
Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn.
#Z1i
#X1
=
#X2
#Z2i
Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji
21 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Co dostalismy?
Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest
klasy 1, a 0 gdy jest klasy 0
Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1
gdy element jest w lewym poddrzewie a 0 gdy w prawym
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
= h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2)
Czyli bierzemy ten atrybut który maksymalizuje informację
wzajemną z etykietą (zawężoną do danego węzła)
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Co dostalismy?
Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest
klasy 1, a 0 gdy jest klasy 0
Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1
gdy element jest w lewym poddrzewie a 0 gdy w prawym
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
= h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2)
Czyli bierzemy ten atrybut który maksymalizuje informację
wzajemną z etykietą (zawężoną do danego węzła)
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Co dostalismy?
Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest
klasy 1, a 0 gdy jest klasy 0
Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1
gdy element jest w lewym poddrzewie a 0 gdy w prawym
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
= h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2)
Czyli bierzemy ten atrybut który maksymalizuje informację
wzajemną z etykietą (zawężoną do danego węzła)
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Co dostalismy?
Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest
klasy 1, a 0 gdy jest klasy 0
Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1
gdy element jest w lewym poddrzewie a 0 gdy w prawym
Wtedy
I (X , Y ) = h(Y ) − h(Y |X )
= h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2)
Czyli bierzemy ten atrybut który maksymalizuje informację
wzajemną z etykietą (zawężoną do danego węzła)
22 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związki
Najważniejsze cechy są u góry drzewa
Jest to selekcja cech (nadzorowana)
Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć
cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y )
Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związki
Najważniejsze cechy są u góry drzewa
Jest to selekcja cech (nadzorowana)
Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć
cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y )
Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związki
Najważniejsze cechy są u góry drzewa
Jest to selekcja cech (nadzorowana)
Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć
cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y )
Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Związki
Najważniejsze cechy są u góry drzewa
Jest to selekcja cech (nadzorowana)
Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć
cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y )
Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca
selekcja
23 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rozszerzenia
Jedna reguła angażuje więcej niż jeden atrybut
Niebinarne cechy - podział binarny bądź niebinarny w węźle?
Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na
dwa
Inne miary information gain – Gini index
24 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
25 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Rand index
Ilość poprawnie przyporządkowanych par:
RI =
a+b
a+b+c +d
gdzie
a - ilość par (x, y ), będących w jednej grupie zarówno w C jak i R
b - ilość par (x, y ), będących w różnych grupach zarówno w C jak i
R
c - ilość par (x, y ), będących w tej samej grupie w C ale w różnych
grupach w R
c - ilość par (x, y ), będących w tej samej grupie w R ale w różnych
grupach w C
Maksimum równe 1 dla pełnej zgodności, ale dla losowego podziału
zwykle przyjmuje wartość znacząco większą niż 0 (rozszerzenia Adjusted
Rand Intex)
26 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podejście entropijne
Zmierzmy informację wspólną podziałów.
Wspólna informacja to wzajemna informacja podziałów:
I (C; R) =
X
i,j
P(Ci ∩ Rj )(− log2
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
Wzajemna informacja jest nieznormalizowana:
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podejście entropijne
Zmierzmy informację wspólną podziałów.
Wspólna informacja to wzajemna informacja podziałów:
I (C; R) =
X
i,j
P(Ci ∩ Rj )(− log2
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
Wzajemna informacja jest nieznormalizowana:
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Podejście entropijne
Zmierzmy informację wspólną podziałów.
Wspólna informacja to wzajemna informacja podziałów:
I (C; R) =
X
i,j
P(Ci ∩ Rj )(− log2
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
Wzajemna informacja jest nieznormalizowana:
0 ¬ I (C; R) ¬ min{h(R), h(C)}
27 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
28 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
28 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ­ ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ­ ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ­ ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ­ ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ­ ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
29 / 30
Entropia krzyżowa
Dywergencja
Drzewa decyzyjne
Ewaluacja klastrowania
Porównanie
30 / 30

Podobne dokumenty