Dywergencja
Transkrypt
Dywergencja
Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dywergencja Marek Śmieja Teoria informacji 1 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Kodowanie przy nieznanym rozkładzie Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej długości h(p) bitów na symbol. A co jeśli nie znamy rozkładu p? Jeśli przyjmiemy, że rozkładem na X jest q, to możemy skonstruować kod o długościach (− log2 qi ). P Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład. 2 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Kodowanie przy nieznanym rozkładzie Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej długości h(p) bitów na symbol. A co jeśli nie znamy rozkładu p? Jeśli przyjmiemy, że rozkładem na X jest q, to możemy skonstruować kod o długościach (− log2 qi ). P Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład. 2 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Kodowanie przy nieznanym rozkładzie Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej długości h(p) bitów na symbol. A co jeśli nie znamy rozkładu p? Jeśli przyjmiemy, że rozkładem na X jest q, to możemy skonstruować kod o długościach (− log2 qi ). P Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład. 2 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Kodowanie przy nieznanym rozkładzie Jeśli znamy rozkład p na X , to możemy skonstruować kod o średniej długości h(p) bitów na symbol. A co jeśli nie znamy rozkładu p? Jeśli przyjmiemy, że rozkładem na X jest q, to możemy skonstruować kod o długościach (− log2 qi ). P Średnia długość, to i pi · (− log2 qi ), gdzie p to prawdziwy rozkład. 2 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Entropia krzyżowa Definicja Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p względem q wynosi X h× (pkq) = pi · (− log2 qi ) i Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu elementów X o rozkładzie p. Wprost z definicji h(p) ¬ h× (pkq) 3 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Entropia krzyżowa Definicja Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p względem q wynosi X h× (pkq) = pi · (− log2 qi ) i Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu elementów X o rozkładzie p. Wprost z definicji h(p) ¬ h× (pkq) 3 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Entropia krzyżowa Definicja Niech p, q będą rozkładami na X . Wówczas entropia krzyowa p względem q wynosi X h× (pkq) = pi · (− log2 qi ) i Oznacza średnią długość kodu gdy q zostało użyte do kodowaniu elementów X o rozkładzie p. Wprost z definicji h(p) ¬ h× (pkq) 3 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja Dane x1 , . . . , xn na X Znaleźć optymalny q z określonej rodziny rozkładów Q (np. dwupunktowe, normalne, itp) opisujący dane MLE (metoda największej wiarygodności): znajdź q ∈ Q maksymalizujący: max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn ) q∈Q q∈Q 4 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja Dane x1 , . . . , xn na X Znaleźć optymalny q z określonej rodziny rozkładów Q (np. dwupunktowe, normalne, itp) opisujący dane MLE (metoda największej wiarygodności): znajdź q ∈ Q maksymalizujący: max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn ) q∈Q q∈Q 4 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja Dane x1 , . . . , xn na X Znaleźć optymalny q z określonej rodziny rozkładów Q (np. dwupunktowe, normalne, itp) opisujący dane MLE (metoda największej wiarygodności): znajdź q ∈ Q maksymalizujący: max q(x1 ) · . . . · q(xn ) ∼ max log q(x1 ) + . . . + log2 q(xn ) q∈Q q∈Q 4 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja c.d. Niektóre xi mogą się powtarzać więc dostajemy coś w stylu: max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk ) q∈Q q∈Q ∼ max q∈Q n1 nk log q(x1 ) + . . . + log q(xk ) n1 + . . . nk n1 + . . . nk ∼ max p1 log q(x1 ) + . . . + pk log q(xk ) q∈Q gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi . Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą dane X : ∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq) q∈Q q∈Q To jest entropia krzyżowa p względem q Zatem metoda największej wiarygodności da się wyrazić w języku teorii informacji (entropii krzyżowej)! 5 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja c.d. Niektóre xi mogą się powtarzać więc dostajemy coś w stylu: max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk ) q∈Q q∈Q ∼ max q∈Q n1 nk log q(x1 ) + . . . + log q(xk ) n1 + . . . nk n1 + . . . nk ∼ max p1 log q(x1 ) + . . . + pk log q(xk ) q∈Q gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi . Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą dane X : ∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq) q∈Q q∈Q To jest entropia krzyżowa p względem q Zatem metoda największej wiarygodności da się wyrazić w języku teorii informacji (entropii krzyżowej)! 5 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Dygresja c.d. Niektóre xi mogą się powtarzać więc dostajemy coś w stylu: max q(x1 )n1 · . . . · q(xk )nk ∼ max n1 log q(x1 ) + . . . + nk log q(xk ) q∈Q q∈Q ∼ max q∈Q n1 nk log q(x1 ) + . . . + log q(xk ) n1 + . . . nk n1 + . . . nk ∼ max p1 log q(x1 ) + . . . + pk log q(xk ) q∈Q gdzie pi oznaczają relatywne prawdopodobieństwo wystąpienia xi . Ogólnie, pi mogą opisywać rzeczywisty rozkład z którego pochodzą dane X : ∼ min p1 (− log q(x1 )) + . . . + pk (− log q(xk )) = min h× (pkq) q∈Q q∈Q To jest entropia krzyżowa p względem q Zatem metoda największej wiarygodności da się wyrazić w języku teorii informacji (entropii krzyżowej)! 5 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Redundancja kodu - dywergencja Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując optymalnego kodowania. Obliczmy różnicę: h× (pkq) − h(p) = P = P i i pi · (− log2 qi ) − pi · log2 pqii P i pi · (− log2 pi ) =: D(pkq) Definicja Niech p, q będą rozkładami na X . Wówczas dywergencja Kullbacka-Leiblera pomiędzy p i q wynosi X pi D(pkq) = pi · log2 qi i Zakładamy, że 0 log 0 0 = 0, 0 log 0 q = 0, p log p 0 =∞ 6 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Redundancja kodu - dywergencja Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując optymalnego kodowania. Obliczmy różnicę: h× (pkq) − h(p) = P = P i i pi · (− log2 qi ) − pi · log2 pqii P i pi · (− log2 pi ) =: D(pkq) Definicja Niech p, q będą rozkładami na X . Wówczas dywergencja Kullbacka-Leiblera pomiędzy p i q wynosi X pi D(pkq) = pi · log2 qi i Zakładamy, że 0 log 0 0 = 0, 0 log 0 q = 0, p log p 0 =∞ 6 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Redundancja kodu - dywergencja Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując optymalnego kodowania. Obliczmy różnicę: h× (pkq) − h(p) = P = P i i pi · (− log2 qi ) − pi · log2 pqii P i pi · (− log2 pi ) =: D(pkq) Definicja Niech p, q będą rozkładami na X . Wówczas dywergencja Kullbacka-Leiblera pomiędzy p i q wynosi X pi D(pkq) = pi · log2 qi i Zakładamy, że 0 log 0 0 = 0, 0 log 0 q = 0, p log p 0 =∞ 6 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Redundancja kodu - dywergencja Może nas interesować ile nadmiarowych bitów użyliśmy nie stosując optymalnego kodowania. Obliczmy różnicę: h× (pkq) − h(p) = P = P i i pi · (− log2 qi ) − pi · log2 pqii P i pi · (− log2 pi ) =: D(pkq) Definicja Niech p, q będą rozkładami na X . Wówczas dywergencja Kullbacka-Leiblera pomiędzy p i q wynosi X pi D(pkq) = pi · log2 qi i Zakładamy, że 0 log 0 0 = 0, 0 log 0 q = 0, p log p 0 =∞ 6 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Odległość rozkładów Dywergencja jest również traktowana jako odległość pomiędzy rozkładami. Zachodzi D(pkq) 0 oraz D(pkq) = 0 ⇐⇒ p = q Czy zachodzi symetria i przechodniość? - ćwiczenie. Mamy h× (pkq) = h(p) + D(pkq) zatem niefektywność kodowania zależy od odległości pomiędzy p i q 7 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Odległość rozkładów Dywergencja jest również traktowana jako odległość pomiędzy rozkładami. Zachodzi D(pkq) 0 oraz D(pkq) = 0 ⇐⇒ p = q Czy zachodzi symetria i przechodniość? - ćwiczenie. Mamy h× (pkq) = h(p) + D(pkq) zatem niefektywność kodowania zależy od odległości pomiędzy p i q 7 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Odległość rozkładów Dywergencja jest również traktowana jako odległość pomiędzy rozkładami. Zachodzi D(pkq) 0 oraz D(pkq) = 0 ⇐⇒ p = q Czy zachodzi symetria i przechodniość? - ćwiczenie. Mamy h× (pkq) = h(p) + D(pkq) zatem niefektywność kodowania zależy od odległości pomiędzy p i q 7 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związek z informacją Pamiętamy, że wzajemna informacja X i Y , to I (X ; Y ) = X x,y p(x, y ) log p(x, y ) . p(x)p(y ) Zatem I (X , Y ) = D(p(x, y )kp(x)p(y )) 8 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związek z informacją Pamiętamy, że wzajemna informacja X i Y , to I (X ; Y ) = X x,y p(x, y ) log p(x, y ) . p(x)p(y ) Zatem I (X , Y ) = D(p(x, y )kp(x)p(y )) 8 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Interpretacja Wzajemna informacja mierzy odległość pomiędzy rozkładem łącznym (X , Y ), a brzegowymi Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów brzegowych od łącznego wynosi zero (brak wspólnej informacji X i Y) Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość rozkładów brzegowych od łącznego jest równa entropii X . 9 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Interpretacja Wzajemna informacja mierzy odległość pomiędzy rozkładem łącznym (X , Y ), a brzegowymi Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów brzegowych od łącznego wynosi zero (brak wspólnej informacji X i Y) Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość rozkładów brzegowych od łącznego jest równa entropii X . 9 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Interpretacja Wzajemna informacja mierzy odległość pomiędzy rozkładem łącznym (X , Y ), a brzegowymi Jeśli X , Y są niezależne to p(x, y ) = p(x)p(y ). Odległość rozkładów brzegowych od łącznego wynosi zero (brak wspólnej informacji X i Y) Mamy I (X , X ) = h(X ) - maksymalna wspólna informacja. Odległość rozkładów brzegowych od łącznego jest równa entropii X . 9 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Ilustracja 10 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Klasyfikacja Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą. Etykieta: zdrowy/chory; kategoria tekstu itp. Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi Jeśli tylko dane nie są sprzeczne, to można zadać reguły Cel rozsądny Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych przykładów danych da poprawne odpowiedzi Na statystyce była regresja liniowa 11 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Klasyfikacja Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą. Etykieta: zdrowy/chory; kategoria tekstu itp. Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi Jeśli tylko dane nie są sprzeczne, to można zadać reguły Cel rozsądny Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych przykładów danych da poprawne odpowiedzi Na statystyce była regresja liniowa 11 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Klasyfikacja Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą. Etykieta: zdrowy/chory; kategoria tekstu itp. Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi Jeśli tylko dane nie są sprzeczne, to można zadać reguły Cel rozsądny Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych przykładów danych da poprawne odpowiedzi Na statystyce była regresja liniowa 11 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Klasyfikacja Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą. Etykieta: zdrowy/chory; kategoria tekstu itp. Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi Jeśli tylko dane nie są sprzeczne, to można zadać reguły Cel rozsądny Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych przykładów danych da poprawne odpowiedzi Na statystyce była regresja liniowa 11 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Klasyfikacja Niech X ⊂ RN będzie zbiorem danych, Y ⊂ {1, . . . , K } - etykietą. Etykieta: zdrowy/chory; kategoria tekstu itp. Cel naiwny: utworzyć funkcję f : X → Y , która jest zgodna z danymi Jeśli tylko dane nie są sprzeczne, to można zadać reguły Cel rozsądny Utworzyć funkcję (klasyfikator) f : RN → Y , która dla nowych przykładów danych da poprawne odpowiedzi Na statystyce była regresja liniowa 11 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Proces doboru funkcji Klasyfikator powinien być możliwie prostą funkcją - zawężamy się zwykle do określonej klasy (np. liniowa) Skąd wziąć nowe dane? Trening: wydzielmy z X około 80% danych, aby dopasować klasyfikator (możemy mieć wiele dopasować) Test: resztę zbioru X użyjmy jako nowych danych do ewaluacji Ten klasyfikator jest lepszy, który na zbiorze testowym daje lepszy podział (różne kryteria ”dobroci”) Dopuszczamy błąd na zbiorze treningowym 12 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Ocena klasyfikatora Accuracy = True(0) True(1) TP + TN TP + TN + FP + FN Predicted(0) TN FP Predicted(1) FN TP Można rozszerzyć na problemy wieloklasowe Zła miara dla problemów niezbalansowanych Istnieje wersja ważona 13 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Dane x = (x1 , . . . , xN ) posiadają atrybuty (cechy/współrzędne) Na przykład reprezentacja: bag-of-words: xi występowanie i-tego słowa alfabetu w tekscie Pytamy: jak wartości atrybutów przekładają się na etykietę? Szukamy prostych reguł. Przykład: klasyfikacja tekstów pod względem kategorii: sport, polityka Reguła: jesli mecz = 1 oraz faul = 1, to sport Reguła: jeli korupcja = 1 oraz faul = 1 to polityka 14 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Reguły Im większy zbiór reguł tym lepsze pokrycie (na zbiorze treningowym) Niektóre reguły to szum, tylko te najważniejsze powinny być brane pod uwagę Używamy drzewa do zapisu reguł Reguła to ścieżka od korzenia do liścia Hierarchia reguł: pierwsze poziomy używają reguł najważniejszych 15 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Drzewo 16 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Wybór cech Reguła złożona ze wszystkich cech Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja Tylko kluczowe cechy Dopuszczamy błąd, usuwamy szum oraz nieistotne dane Jak wybrać kluczowe cechy? 17 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Wybór cech Reguła złożona ze wszystkich cech Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja Tylko kluczowe cechy Dopuszczamy błąd, usuwamy szum oraz nieistotne dane Jak wybrać kluczowe cechy? 17 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Wybór cech Reguła złożona ze wszystkich cech Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja Tylko kluczowe cechy Dopuszczamy błąd, usuwamy szum oraz nieistotne dane Jak wybrać kluczowe cechy? 17 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Wybór cech Reguła złożona ze wszystkich cech Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja Tylko kluczowe cechy Dopuszczamy błąd, usuwamy szum oraz nieistotne dane Jak wybrać kluczowe cechy? 17 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Wybór cech Reguła złożona ze wszystkich cech Idealne dopasowanie na zbiorze treningowym, ale słaba generalizacja Tylko kluczowe cechy Dopuszczamy błąd, usuwamy szum oraz nieistotne dane Jak wybrać kluczowe cechy? 17 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Istotność cech Będziemy ograniczać się do etykiet i atrybutów binarnych Regułę będziemy budować w oparciu o jeden atrybut Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być użyta Istotna cecha to ta, która pozwala na klasyfikację dużej liczby przykładów Istotność: informacja wspólna pomiędzy etykietą a cechą 18 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Istotność cech Będziemy ograniczać się do etykiet i atrybutów binarnych Regułę będziemy budować w oparciu o jeden atrybut Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być użyta Istotna cecha to ta, która pozwala na klasyfikację dużej liczby przykładów Istotność: informacja wspólna pomiędzy etykietą a cechą 18 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Istotność cech Będziemy ograniczać się do etykiet i atrybutów binarnych Regułę będziemy budować w oparciu o jeden atrybut Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być użyta Istotna cecha to ta, która pozwala na klasyfikację dużej liczby przykładów Istotność: informacja wspólna pomiędzy etykietą a cechą 18 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Istotność cech Będziemy ograniczać się do etykiet i atrybutów binarnych Regułę będziemy budować w oparciu o jeden atrybut Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być użyta Istotna cecha to ta, która pozwala na klasyfikację dużej liczby przykładów Istotność: informacja wspólna pomiędzy etykietą a cechą 18 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Istotność cech Będziemy ograniczać się do etykiet i atrybutów binarnych Regułę będziemy budować w oparciu o jeden atrybut Jeśli cecha (atrybut) jest niezależna od etykiety to nie powinna być użyta Istotna cecha to ta, która pozwala na klasyfikację dużej liczby przykładów Istotność: informacja wspólna pomiędzy etykietą a cechą 18 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Miara istotności Załóżmy, że w węźle mamy porcję danych X zbioru treningowego Etykieta Y dzieli te dane na X1 , X2 zbiorów Niech P(Xi ) = |Xi | |X1 |+|X2 | Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł dwupunktowego) h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 ) to niepewność klasyfikacji Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej 19 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Miara istotności Załóżmy, że w węźle mamy porcję danych X zbioru treningowego Etykieta Y dzieli te dane na X1 , X2 zbiorów Niech P(Xi ) = |Xi | |X1 |+|X2 | Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł dwupunktowego) h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 ) to niepewność klasyfikacji Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej 19 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Miara istotności Załóżmy, że w węźle mamy porcję danych X zbioru treningowego Etykieta Y dzieli te dane na X1 , X2 zbiorów Niech P(Xi ) = |Xi | |X1 |+|X2 | Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł dwupunktowego) h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 ) to niepewność klasyfikacji Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej 19 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Miara istotności Załóżmy, że w węźle mamy porcję danych X zbioru treningowego Etykieta Y dzieli te dane na X1 , X2 zbiorów Niech P(Xi ) = |Xi | |X1 |+|X2 | Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł dwupunktowego) h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 ) to niepewność klasyfikacji Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej 19 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Miara istotności Załóżmy, że w węźle mamy porcję danych X zbioru treningowego Etykieta Y dzieli te dane na X1 , X2 zbiorów Niech P(Xi ) = |Xi | |X1 |+|X2 | Entropia w węźle (to nie entropia dwuwymiarowa ale entropia rozkł dwupunktowego) h(X1 , X2 ) = −P(X1 ) log P(X1 ) − P(X2 ) log P(X2 ) to niepewność klasyfikacji Chcemy dobrać regułę tak, aby niepewność zmalała jak najbardziej 19 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Potomkowie Reguła postaci xi = 0 lub xi = 1 Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2 W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 ) Patrzymy na otrzymaną redukcję niepewności: gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 ) Bierzemy atrybut który zapewnia najwyższą redukcję niepewności 20 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Potomkowie Reguła postaci xi = 0 lub xi = 1 Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2 W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 ) Patrzymy na otrzymaną redukcję niepewności: gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 ) Bierzemy atrybut który zapewnia najwyższą redukcję niepewności 20 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Potomkowie Reguła postaci xi = 0 lub xi = 1 Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2 W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 ) Patrzymy na otrzymaną redukcję niepewności: gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 ) Bierzemy atrybut który zapewnia najwyższą redukcję niepewności 20 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Potomkowie Reguła postaci xi = 0 lub xi = 1 Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2 W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 ) Patrzymy na otrzymaną redukcję niepewności: gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 ) Bierzemy atrybut który zapewnia najwyższą redukcję niepewności 20 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Potomkowie Reguła postaci xi = 0 lub xi = 1 Po podziale za pomocą atrybutu xi otrzymujemy dwie grupy Z1 , Z2 W każdej grupie Zi etykieta dzieli je na dwie podgrupy Z1i , Z2i Liczymy entropię tych podziałów h(Z11 , Z21 ) i h(Z12 , Z22 ) Patrzymy na otrzymaną redukcję niepewności: gain(X , xi ) = h(X1 , X2 ) − P(Z1 )h(Z11 , Z21 ) − P(Z2 )h(Z12 , Z22 ) Bierzemy atrybut który zapewnia najwyższą redukcję niepewności 20 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Analiza 0 ¬ gain(X , xi ) ¬ h(X1 , X2 ). Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie) Wtedy, Z1i = ∅ lub Z2i = ∅ W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn. #Z1i #X1 = #X2 #Z2i Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji 21 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Analiza 0 ¬ gain(X , xi ) ¬ h(X1 , X2 ). Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie) Wtedy, Z1i = ∅ lub Z2i = ∅ W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn. #Z1i #X1 = #X2 #Z2i Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji 21 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Analiza 0 ¬ gain(X , xi ) ¬ h(X1 , X2 ). Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie) Wtedy, Z1i = ∅ lub Z2i = ∅ W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn. #Z1i #X1 = #X2 #Z2i Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji 21 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Analiza 0 ¬ gain(X , xi ) ¬ h(X1 , X2 ). Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie) Wtedy, Z1i = ∅ lub Z2i = ∅ W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn. #Z1i #X1 = #X2 #Z2i Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji 21 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Analiza 0 ¬ gain(X , xi ) ¬ h(X1 , X2 ). Załóżmy, że Z1 = X1 oraz Z2 = X2 (optymalnie) Wtedy, Z1i = ∅ lub Z2i = ∅ W konsekwencji h(Z1i , Z2i ) = 0 – maksymalna redukcja Załóżmy, że uzyskane Z1i , Z2i odzwierciedlają proporcje X1 , X2 tzn. #Z1i #X1 = #X2 #Z2i Wtedy h(Z1i , Z2i ) = h(X1 , X2 ) zatem gain(x, xi ) = 0 – brak redukcji 21 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Co dostalismy? Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest klasy 1, a 0 gdy jest klasy 0 Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1 gdy element jest w lewym poddrzewie a 0 gdy w prawym Wtedy I (X , Y ) = h(Y ) − h(Y |X ) = h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2) Czyli bierzemy ten atrybut który maksymalizuje informację wzajemną z etykietą (zawężoną do danego węzła) 22 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Co dostalismy? Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest klasy 1, a 0 gdy jest klasy 0 Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1 gdy element jest w lewym poddrzewie a 0 gdy w prawym Wtedy I (X , Y ) = h(Y ) − h(Y |X ) = h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2) Czyli bierzemy ten atrybut który maksymalizuje informację wzajemną z etykietą (zawężoną do danego węzła) 22 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Co dostalismy? Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest klasy 1, a 0 gdy jest klasy 0 Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1 gdy element jest w lewym poddrzewie a 0 gdy w prawym Wtedy I (X , Y ) = h(Y ) − h(Y |X ) = h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2) Czyli bierzemy ten atrybut który maksymalizuje informację wzajemną z etykietą (zawężoną do danego węzła) 22 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Co dostalismy? Niech Y zmienna losowa etykietująca tzn. dająca 1 gdy element jest klasy 1, a 0 gdy jest klasy 0 Niech X zmienna losowa dokonująca podziału w drzewie tzn. daje 1 gdy element jest w lewym poddrzewie a 0 gdy w prawym Wtedy I (X , Y ) = h(Y ) − h(Y |X ) = h(X1 , X2 ) − P(Z1 )h(Z1i , Z2i |i = 1) + P(Z2 )h(Z1i , Z2i |i = 2) Czyli bierzemy ten atrybut który maksymalizuje informację wzajemną z etykietą (zawężoną do danego węzła) 22 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związki Najważniejsze cechy są u góry drzewa Jest to selekcja cech (nadzorowana) Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y ) Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca selekcja 23 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związki Najważniejsze cechy są u góry drzewa Jest to selekcja cech (nadzorowana) Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y ) Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca selekcja 23 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związki Najważniejsze cechy są u góry drzewa Jest to selekcja cech (nadzorowana) Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y ) Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca selekcja 23 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Związki Najważniejsze cechy są u góry drzewa Jest to selekcja cech (nadzorowana) Realizacja algorytmu zachłannego wyboru - badamy pełną zalżnosć cech tzn. w r-tym poziomie liczymy I (xi1 , . . . , xir ; y ) Na jednym poziomie każdy węzeł wybiera inną cechę - nie do końca selekcja 23 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rozszerzenia Jedna reguła angażuje więcej niż jeden atrybut Niebinarne cechy - podział binarny bądź niebinarny w węźle? Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na dwa Inne miary information gain – Gini index 24 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rozszerzenia Jedna reguła angażuje więcej niż jeden atrybut Niebinarne cechy - podział binarny bądź niebinarny w węźle? Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na dwa Inne miary information gain – Gini index 24 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rozszerzenia Jedna reguła angażuje więcej niż jeden atrybut Niebinarne cechy - podział binarny bądź niebinarny w węźle? Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na dwa Inne miary information gain – Gini index 24 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rozszerzenia Jedna reguła angażuje więcej niż jeden atrybut Niebinarne cechy - podział binarny bądź niebinarny w węźle? Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na dwa Inne miary information gain – Gini index 24 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rozszerzenia Jedna reguła angażuje więcej niż jeden atrybut Niebinarne cechy - podział binarny bądź niebinarny w węźle? Ciągłe cechy - binarny podział wybiera punkt dzielący przedział na dwa Inne miary information gain – Gini index 24 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 25 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 25 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 25 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 25 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Rand index Ilość poprawnie przyporządkowanych par: RI = a+b a+b+c +d gdzie a - ilość par (x, y ), będących w jednej grupie zarówno w C jak i R b - ilość par (x, y ), będących w różnych grupach zarówno w C jak i R c - ilość par (x, y ), będących w tej samej grupie w C ale w różnych grupach w R c - ilość par (x, y ), będących w tej samej grupie w R ale w różnych grupach w C Maksimum równe 1 dla pełnej zgodności, ale dla losowego podziału zwykle przyjmuje wartość znacząco większą niż 0 (rozszerzenia Adjusted Rand Intex) 26 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 27 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 27 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 27 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Znormalizowana wzajemna informacja Warianty znormalizowanej informacji wzajemnej podziałów C i R: I (C;R) min{h(R),h(C)} I (C;R) 1 2 (h(R)+h(C)) √ I (C;R) h(R)·h(C) Ale pełną informację daje klastrowanie referencyjne X h(R) = P(Ri )(− log2 P(Ri )) i Jej powinno się użyć do normalizacji 28 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Znormalizowana wzajemna informacja Warianty znormalizowanej informacji wzajemnej podziałów C i R: I (C;R) min{h(R),h(C)} I (C;R) 1 2 (h(R)+h(C)) √ I (C;R) h(R)·h(C) Ale pełną informację daje klastrowanie referencyjne X h(R) = P(Ri )(− log2 P(Ri )) i Jej powinno się użyć do normalizacji 28 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 29 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 29 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 29 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 29 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 29 / 30 Entropia krzyżowa Dywergencja Drzewa decyzyjne Ewaluacja klastrowania Porównanie 30 / 30