Informacja wzajemna
Transkrypt
Informacja wzajemna
Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Informacja wzajemna Marek Śmieja Teoria informacji 1 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia zmiennej losowej Dotychczas entropia była definiowana w oparciu o rozkład prawdopodobieństwa pi na zbiorze danych X . Interpretowaliśmy ją jako statystyczną długość kodu eleemntu X w optymalnym kodowaniu Wygodniej będzie teraz mówić o entropii zmiennej losowej X mającej rozkład pi : X h(X ) = h(p) = pi · (− log2 pi ). i Możemy o tym myśleć jako o informacji zawartej w zmiennej X - im mniejsza tym łatwiej przewidzieć wartość X 2 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia zmiennej losowej Dotychczas entropia była definiowana w oparciu o rozkład prawdopodobieństwa pi na zbiorze danych X . Interpretowaliśmy ją jako statystyczną długość kodu eleemntu X w optymalnym kodowaniu Wygodniej będzie teraz mówić o entropii zmiennej losowej X mającej rozkład pi : X h(X ) = h(p) = pi · (− log2 pi ). i Możemy o tym myśleć jako o informacji zawartej w zmiennej X - im mniejsza tym łatwiej przewidzieć wartość X 2 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia zmiennej losowej Dotychczas entropia była definiowana w oparciu o rozkład prawdopodobieństwa pi na zbiorze danych X . Interpretowaliśmy ją jako statystyczną długość kodu eleemntu X w optymalnym kodowaniu Wygodniej będzie teraz mówić o entropii zmiennej losowej X mającej rozkład pi : X h(X ) = h(p) = pi · (− log2 pi ). i Możemy o tym myśleć jako o informacji zawartej w zmiennej X - im mniejsza tym łatwiej przewidzieć wartość X 2 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia zmiennej losowej Dotychczas entropia była definiowana w oparciu o rozkład prawdopodobieństwa pi na zbiorze danych X . Interpretowaliśmy ją jako statystyczną długość kodu eleemntu X w optymalnym kodowaniu Wygodniej będzie teraz mówić o entropii zmiennej losowej X mającej rozkład pi : X h(X ) = h(p) = pi · (− log2 pi ). i Możemy o tym myśleć jako o informacji zawartej w zmiennej X - im mniejsza tym łatwiej przewidzieć wartość X 2 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia wielowymiarowa Definicja Entropia wspólna dyskretnego wektora losowego (X , Y ) o łącznym rozkładzie p(x, y ) to: XX h(X , Y ) = h(p) = p(x, y ) · (− log2 p(x, y )). x y Jest to długość kodu jeśli tworzymy jeden kod dla x i y Powinna być niższa niż suma osobnych kodów dla x i y , bo X , Y mogą być skorelowane co pomaga przy kodowaniu 3 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia wielowymiarowa Definicja Entropia wspólna dyskretnego wektora losowego (X , Y ) o łącznym rozkładzie p(x, y ) to: XX h(X , Y ) = h(p) = p(x, y ) · (− log2 p(x, y )). x y Jest to długość kodu jeśli tworzymy jeden kod dla x i y Powinna być niższa niż suma osobnych kodów dla x i y , bo X , Y mogą być skorelowane co pomaga przy kodowaniu 3 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Przykład Y/X 1 2 3 4 1 1/8 1/16 1/16 1/4 2 1/16 1/8 1/16 0 3 1/32 1/32 1/16 0 4 1/32 1/32 1/16 0 H(X ) + H(Y ) = 7/4 + 2 27/8 = H(X , Y ) 4 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia warunkowa Definicja Niech (X , Y ) będzie dyskretnym wektorem losowym o rokładzie p(x, y ). Entropia Y pod warunkiem X to: X H(Y |X ) = p(x)h(Y |X = x) x Oznacza informację jaką niesie Y zakładając, że X jest w pełni znana. Co jeśli X niezależne od Y , albo Y w pełni zależne od X ? 5 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia warunkowa Definicja Niech (X , Y ) będzie dyskretnym wektorem losowym o rokładzie p(x, y ). Entropia Y pod warunkiem X to: X H(Y |X ) = p(x)h(Y |X = x) x Oznacza informację jaką niesie Y zakładając, że X jest w pełni znana. Co jeśli X niezależne od Y , albo Y w pełni zależne od X ? 5 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Entropia warunkowa Definicja Niech (X , Y ) będzie dyskretnym wektorem losowym o rokładzie p(x, y ). Entropia Y pod warunkiem X to: X H(Y |X ) = p(x)h(Y |X = x) x Oznacza informację jaką niesie Y zakładając, że X jest w pełni znana. Co jeśli X niezależne od Y , albo Y w pełni zależne od X ? 5 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzór Obliczmy ładniejszą postać entropi warunkowej P H(Y |X ) = x p(x)h(Y |X = x) P P x p(x) y p(y |x) · (− log2 p(y |x)) P P x y p(x, y ) · (− log2 p(y |x)) P P p(x,y ) x y p(x, y ) · (− log2 p(y ) ) 6 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzór Obliczmy ładniejszą postać entropi warunkowej P H(Y |X ) = x p(x)h(Y |X = x) P P x p(x) y p(y |x) · (− log2 p(y |x)) P P x y p(x, y ) · (− log2 p(y |x)) P P p(x,y ) x y p(x, y ) · (− log2 p(y ) ) 6 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzór Obliczmy ładniejszą postać entropi warunkowej P H(Y |X ) = x p(x)h(Y |X = x) P P x p(x) y p(y |x) · (− log2 p(y |x)) P P x y p(x, y ) · (− log2 p(y |x)) P P p(x,y ) x y p(x, y ) · (− log2 p(y ) ) 6 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzór Obliczmy ładniejszą postać entropi warunkowej P H(Y |X ) = x p(x)h(Y |X = x) P P x p(x) y p(y |x) · (− log2 p(y |x)) P P x y p(x, y ) · (− log2 p(y |x)) P P p(x,y ) x y p(x, y ) · (− log2 p(y ) ) 6 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzór Obliczmy ładniejszą postać entropi warunkowej P H(Y |X ) = x p(x)h(Y |X = x) P P x p(x) y p(y |x) · (− log2 p(y |x)) P P x y p(x, y ) · (− log2 p(y |x)) P P p(x,y ) x y p(x, y ) · (− log2 p(y ) ) 6 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Przykład Y/X 1 2 3 4 1 1/8 1/16 1/16 1/4 2 1/16 1/8 1/16 0 3 1/32 1/32 1/16 0 4 1/32 1/32 1/16 0 H(Y |X ) = 13/8 czy jest jakaś zależność z poprzednimi obliczeniami? H(X ) = 7/4, H(Y ) = 2, H(X , Y ) = 27/8 7 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Chain rule Twierdzenie h(X , Y ) = h(X ) + h(Y |X ) H(X , Y ) =− P P =− P P x y p(x, y ) log p(x, y ) p(x, y ) log p(y )p(y |x) P P = − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x) P P P P = − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x) x y P P = h(X ) + h(Y |X ) Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn . 8 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski h(X , Y ) = h(X ) + h(Y |X ) h(X , Y ) = h(Y ) + h(X |Y ) Zatem h(X ) + h(Y |X ) = h(Y ) + h(X |Y ) Ale h(Y |X ) 6= h(X |Y ) - podać przykład 9 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski h(X , Y ) = h(X ) + h(Y |X ) h(X , Y ) = h(Y ) + h(X |Y ) Zatem h(X ) + h(Y |X ) = h(Y ) + h(X |Y ) Ale h(Y |X ) 6= h(X |Y ) - podać przykład 9 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski h(X , Y ) = h(X ) + h(Y |X ) h(X , Y ) = h(Y ) + h(X |Y ) Zatem h(X ) + h(Y |X ) = h(Y ) + h(X |Y ) Ale h(Y |X ) 6= h(X |Y ) - podać przykład 9 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski h(X , Y ) = h(X ) + h(Y |X ) h(X , Y ) = h(Y ) + h(X |Y ) Zatem h(X ) + h(Y |X ) = h(Y ) + h(X |Y ) Ale h(Y |X ) 6= h(X |Y ) - podać przykład 9 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Selekcja cech Niech X ⊂ RN zbiór danych. Pytanie: Które współrzędne są najważniejsze (niosą najwięcej informacji)? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi Zatem najważniejsza z cech, to ta która ma najwięcej informacji, czyli maksymalizująca h(Xi ) k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ). k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ). 10 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczenie Zadananie: wybrać k najważniejszych cech: Przglądnij wszystkie możliwe k-elementowe podzbiory zbioru n elementowego i wybierz ten aksymalizujący entropię Istnieje kn podzbiorów Obliczanie entropii wymaga w każdym przypadku znalezienia łącznego rozkładu Nie jest praktycznie możliwe przejrzenie wszystkich możliwości 11 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczenie Zadananie: wybrać k najważniejszych cech: Przglądnij wszystkie możliwe k-elementowe podzbiory zbioru n elementowego i wybierz ten aksymalizujący entropię Istnieje kn podzbiorów Obliczanie entropii wymaga w każdym przypadku znalezienia łącznego rozkładu Nie jest praktycznie możliwe przejrzenie wszystkich możliwości 11 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczenie Zadananie: wybrać k najważniejszych cech: Przglądnij wszystkie możliwe k-elementowe podzbiory zbioru n elementowego i wybierz ten aksymalizujący entropię Istnieje kn podzbiorów Obliczanie entropii wymaga w każdym przypadku znalezienia łącznego rozkładu Nie jest praktycznie możliwe przejrzenie wszystkich możliwości 11 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczenie Zadananie: wybrać k najważniejszych cech: Przglądnij wszystkie możliwe k-elementowe podzbiory zbioru n elementowego i wybierz ten aksymalizujący entropię Istnieje kn podzbiorów Obliczanie entropii wymaga w każdym przypadku znalezienia łącznego rozkładu Nie jest praktycznie możliwe przejrzenie wszystkich możliwości 11 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm zachłanny Weź Y1 := Xi maksymalizującą h(Xi ) Mając wybrane d-współrzędnych Y1 , . . . , Yd weź kolejną Yd+1 := Xj maksymalizując: d X h(Yi , Yd+1 ) i=1 Bierzemy pod uwagę zależność par zmiennych, można rozważać trójki itd. Nie daje to optimum, bo entropia jest addytywna tylko dla neizależnych cech (tu niekoniecznie) 12 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm zachłanny Weź Y1 := Xi maksymalizującą h(Xi ) Mając wybrane d-współrzędnych Y1 , . . . , Yd weź kolejną Yd+1 := Xj maksymalizując: d X h(Yi , Yd+1 ) i=1 Bierzemy pod uwagę zależność par zmiennych, można rozważać trójki itd. Nie daje to optimum, bo entropia jest addytywna tylko dla neizależnych cech (tu niekoniecznie) 12 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm zachłanny Weź Y1 := Xi maksymalizującą h(Xi ) Mając wybrane d-współrzędnych Y1 , . . . , Yd weź kolejną Yd+1 := Xj maksymalizując: d X h(Yi , Yd+1 ) i=1 Bierzemy pod uwagę zależność par zmiennych, można rozważać trójki itd. Nie daje to optimum, bo entropia jest addytywna tylko dla neizależnych cech (tu niekoniecznie) 12 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm klastrujący Podzielmy cechy na k-grup, takie że w obrębie grupy cechy są do siebie podobne Następnie zastosujmy zachłany wybór, wybierając po jednej cesze z każdej grupy Do klastrowania można użyć k-means z odległością euklidesową Mierzymy informację więc lepiej wykorzystać inne miary odległości i użyć np. k-medoids 13 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm klastrujący Podzielmy cechy na k-grup, takie że w obrębie grupy cechy są do siebie podobne Następnie zastosujmy zachłany wybór, wybierając po jednej cesze z każdej grupy Do klastrowania można użyć k-means z odległością euklidesową Mierzymy informację więc lepiej wykorzystać inne miary odległości i użyć np. k-medoids 13 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm klastrujący Podzielmy cechy na k-grup, takie że w obrębie grupy cechy są do siebie podobne Następnie zastosujmy zachłany wybór, wybierając po jednej cesze z każdej grupy Do klastrowania można użyć k-means z odległością euklidesową Mierzymy informację więc lepiej wykorzystać inne miary odległości i użyć np. k-medoids 13 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Algorytm klastrujący Podzielmy cechy na k-grup, takie że w obrębie grupy cechy są do siebie podobne Następnie zastosujmy zachłany wybór, wybierając po jednej cesze z każdej grupy Do klastrowania można użyć k-means z odległością euklidesową Mierzymy informację więc lepiej wykorzystać inne miary odległości i użyć np. k-medoids 13 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Odległość Pierwsza myśl d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y ) Nie ma symetrii... Bierzemy: d(X , Y ) = h(X |Y ) + h(Y |X ) = [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )] Czy wszystkie warunki metryki spełnione - ćwiczenie 14 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Odległość Pierwsza myśl d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y ) Nie ma symetrii... Bierzemy: d(X , Y ) = h(X |Y ) + h(Y |X ) = [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )] Czy wszystkie warunki metryki spełnione - ćwiczenie 14 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Odległość Pierwsza myśl d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y ) Nie ma symetrii... Bierzemy: d(X , Y ) = h(X |Y ) + h(Y |X ) = [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )] Czy wszystkie warunki metryki spełnione - ćwiczenie 14 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Informacja o czymś Dotychczas zajmowaliśmy informacją samą w sobie (informacja/entropia o zbiorze, o rozkładzie, o zmiennej losowej) Teraz zajmiemy się informację w ustalonym kontekście. Dokładniej, będziemy chcieli mierzyć informację jaka jedna zmienna losowa niesie na temat drugiej. Przykład: jakie wpływ ma picie kawy na szanse wypadku samochodowego:) 15 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Informacja o czymś Dotychczas zajmowaliśmy informacją samą w sobie (informacja/entropia o zbiorze, o rozkładzie, o zmiennej losowej) Teraz zajmiemy się informację w ustalonym kontekście. Dokładniej, będziemy chcieli mierzyć informację jaka jedna zmienna losowa niesie na temat drugiej. Przykład: jakie wpływ ma picie kawy na szanse wypadku samochodowego:) 15 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Informacja o czymś Dotychczas zajmowaliśmy informacją samą w sobie (informacja/entropia o zbiorze, o rozkładzie, o zmiennej losowej) Teraz zajmiemy się informację w ustalonym kontekście. Dokładniej, będziemy chcieli mierzyć informację jaka jedna zmienna losowa niesie na temat drugiej. Przykład: jakie wpływ ma picie kawy na szanse wypadku samochodowego:) 15 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Informacja o czymś Dotychczas zajmowaliśmy informacją samą w sobie (informacja/entropia o zbiorze, o rozkładzie, o zmiennej losowej) Teraz zajmiemy się informację w ustalonym kontekście. Dokładniej, będziemy chcieli mierzyć informację jaka jedna zmienna losowa niesie na temat drugiej. Przykład: jakie wpływ ma picie kawy na szanse wypadku samochodowego:) 15 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzajemna informacja Definicja Niech X , Y będą dwoma zmiennymi losowymi o łącznym rozkładzie p(x, y ) oraz brzegowych p(x), p(y ). Wzajemna informacja X , Y to: I (X ; Y ) = XX x p(x, y ) log2 y p(x, y ) . p(x)p(y ) Widać z definicji, że I (X , Y ) = I (Y , X ). Zatem, jest to raczej informacja wspólna zmiennych, niż wpływ jednej na drugą. Można pokazać: I (X , Y ) 0. 16 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzajemna informacja Definicja Niech X , Y będą dwoma zmiennymi losowymi o łącznym rozkładzie p(x, y ) oraz brzegowych p(x), p(y ). Wzajemna informacja X , Y to: I (X ; Y ) = XX x p(x, y ) log2 y p(x, y ) . p(x)p(y ) Widać z definicji, że I (X , Y ) = I (Y , X ). Zatem, jest to raczej informacja wspólna zmiennych, niż wpływ jednej na drugą. Można pokazać: I (X , Y ) 0. 16 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzajemna informacja Definicja Niech X , Y będą dwoma zmiennymi losowymi o łącznym rozkładzie p(x, y ) oraz brzegowych p(x), p(y ). Wzajemna informacja X , Y to: I (X ; Y ) = XX x p(x, y ) log2 y p(x, y ) . p(x)p(y ) Widać z definicji, że I (X , Y ) = I (Y , X ). Zatem, jest to raczej informacja wspólna zmiennych, niż wpływ jednej na drugą. Można pokazać: I (X , Y ) 0. 16 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wzajemna informacja Definicja Niech X , Y będą dwoma zmiennymi losowymi o łącznym rozkładzie p(x, y ) oraz brzegowych p(x), p(y ). Wzajemna informacja X , Y to: I (X ; Y ) = XX x p(x, y ) log2 y p(x, y ) . p(x)p(y ) Widać z definicji, że I (X , Y ) = I (Y , X ). Zatem, jest to raczej informacja wspólna zmiennych, niż wpływ jednej na drugą. Można pokazać: I (X , Y ) 0. 16 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Powiązania Jest to coś w rodzaju korelacji zmiennych losowych. Korelacja jest liniowa, a wzajemna informacja nieliniowa. Pozwala mierzyć bardziej złożone nieliniowe zależności. Jeśli X , Y są niezależne, to I (X , Y ) = 0 (w definicji wstaw p(x, y ) = p(x)p(y )) 17 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Powiązania Jest to coś w rodzaju korelacji zmiennych losowych. Korelacja jest liniowa, a wzajemna informacja nieliniowa. Pozwala mierzyć bardziej złożone nieliniowe zależności. Jeśli X , Y są niezależne, to I (X , Y ) = 0 (w definicji wstaw p(x, y ) = p(x)p(y )) 17 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Powiązania Jest to coś w rodzaju korelacji zmiennych losowych. Korelacja jest liniowa, a wzajemna informacja nieliniowa. Pozwala mierzyć bardziej złożone nieliniowe zależności. Jeśli X , Y są niezależne, to I (X , Y ) = 0 (w definicji wstaw p(x, y ) = p(x)p(y )) 17 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Powiązania Jest to coś w rodzaju korelacji zmiennych losowych. Korelacja jest liniowa, a wzajemna informacja nieliniowa. Pozwala mierzyć bardziej złożone nieliniowe zależności. Jeśli X , Y są niezależne, to I (X , Y ) = 0 (w definicji wstaw p(x, y ) = p(x)p(y )) 17 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Związek z entropią Twierdzenie Nich X , Y będą dyskretnymi zmiennymi losowymi. Wtedy I (X ; Y ) = H(X ) − H(X |Y ). Dowód na ćwiczeniach: 18 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Związek z entropią Twierdzenie Nich X , Y będą dyskretnymi zmiennymi losowymi. Wtedy I (X ; Y ) = H(X ) − H(X |Y ). Dowód na ćwiczeniach: 18 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wniosek Informacja to niepewność, więc wzajemna informacja to redukcja niepewności o X przy znajomości Y . Analogicznie I (X ; Y ) = H(Y ) − H(Y |X ) - symetria! Redukcja niepewności jest stała – ciekawa własność. 19 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wniosek Informacja to niepewność, więc wzajemna informacja to redukcja niepewności o X przy znajomości Y . Analogicznie I (X ; Y ) = H(Y ) − H(Y |X ) - symetria! Redukcja niepewności jest stała – ciekawa własność. 19 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania 20 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Własności c.d. Było: H(X , Y ) = H(X ) + H(Y |Y ). Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ). Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność sumy zbiorów to suma składowych pomniejszona o część wspólną. Informacja o sobie to entropia: I (X ; X ) = H(X ) − H(X |X ) = H(X ) 21 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Własności c.d. Było: H(X , Y ) = H(X ) + H(Y |Y ). Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ). Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność sumy zbiorów to suma składowych pomniejszona o część wspólną. Informacja o sobie to entropia: I (X ; X ) = H(X ) − H(X |X ) = H(X ) 21 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Własności c.d. Było: H(X , Y ) = H(X ) + H(Y |Y ). Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ). Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność sumy zbiorów to suma składowych pomniejszona o część wspólną. Informacja o sobie to entropia: I (X ; X ) = H(X ) − H(X |X ) = H(X ) 21 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Własności c.d. Było: H(X , Y ) = H(X ) + H(Y |Y ). Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ). Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność sumy zbiorów to suma składowych pomniejszona o część wspólną. Informacja o sobie to entropia: I (X ; X ) = H(X ) − H(X |X ) = H(X ) 21 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Własności c.d. Było: H(X , Y ) = H(X ) + H(Y |Y ). Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ). Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność sumy zbiorów to suma składowych pomniejszona o część wspólną. Informacja o sobie to entropia: I (X ; X ) = H(X ) − H(X |X ) = H(X ) 21 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podsumowanie Twierdzenie I (X , Y ) 0 Jeśli X , Y niezależne to I (X ; Y ) = 0. I (X ; Y ) = H(X ) − H(X |Y ) I (X ; Y ) = H(Y ) − H(Y |X ) I (X ; Y ) = H(X ) + H(Y ) − H(X , Y ) I (X ; Y ) = I (Y ; X ) I (X ; X ) = H(X ) 22 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski Twierdzenie: Information can’t hurt H(X |Y ) ¬ H(X ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y ) Twierdzenie H(X , Y ) ¬ H(X ) + H(Y ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) + H(Y ) − H(X , Y ) 23 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski Twierdzenie: Information can’t hurt H(X |Y ) ¬ H(X ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y ) Twierdzenie H(X , Y ) ¬ H(X ) + H(Y ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) + H(Y ) − H(X , Y ) 23 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski Twierdzenie: Information can’t hurt H(X |Y ) ¬ H(X ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y ) Twierdzenie H(X , Y ) ¬ H(X ) + H(Y ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) + H(Y ) − H(X , Y ) 23 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Wnioski Twierdzenie: Information can’t hurt H(X |Y ) ¬ H(X ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y ) Twierdzenie H(X , Y ) ¬ H(X ) + H(Y ) Równość dla X , Y niezależnych Dowód: 0 ¬ I (X ; Y ) = H(X ) + H(Y ) − H(X , Y ) 23 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Nadzorowana selekcja cech Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta (np. chory/zdrowy). Pytanie: Które współrzędne są najważniejsze względem Y ? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi , a etykieta jako zmienna Y Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y ) k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ). 24 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Nadzorowana selekcja cech Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta (np. chory/zdrowy). Pytanie: Które współrzędne są najważniejsze względem Y ? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi , a etykieta jako zmienna Y Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y ) k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ). 24 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Nadzorowana selekcja cech Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta (np. chory/zdrowy). Pytanie: Które współrzędne są najważniejsze względem Y ? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi , a etykieta jako zmienna Y Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y ) k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ). 24 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Nadzorowana selekcja cech Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta (np. chory/zdrowy). Pytanie: Które współrzędne są najważniejsze względem Y ? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi , a etykieta jako zmienna Y Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y ) k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ). 24 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Nadzorowana selekcja cech Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta (np. chory/zdrowy). Pytanie: Które współrzędne są najważniejsze względem Y ? Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej losowej Xi , a etykieta jako zmienna Y Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y ) k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ). 24 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczanie Pamiętamy, że nienadzorowany wybór k najlepszych cech był trudy. Nadzorowany wybór nie jest łatwiejszy... Można rozważyć podobną zachłanną strategię: Y1 = argmaxXi I (Xi ; Y ) Yd+1 = argmaxXj d X I (Yi , Xj ; Y ) i=1 Można rozważać większe zależności... 25 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczanie Pamiętamy, że nienadzorowany wybór k najlepszych cech był trudy. Nadzorowany wybór nie jest łatwiejszy... Można rozważyć podobną zachłanną strategię: Y1 = argmaxXi I (Xi ; Y ) Yd+1 = argmaxXj d X I (Yi , Xj ; Y ) i=1 Można rozważać większe zależności... 25 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczanie Pamiętamy, że nienadzorowany wybór k najlepszych cech był trudy. Nadzorowany wybór nie jest łatwiejszy... Można rozważyć podobną zachłanną strategię: Y1 = argmaxXi I (Xi ; Y ) Yd+1 = argmaxXj d X I (Yi , Xj ; Y ) i=1 Można rozważać większe zależności... 25 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Obliczanie Pamiętamy, że nienadzorowany wybór k najlepszych cech był trudy. Nadzorowany wybór nie jest łatwiejszy... Można rozważyć podobną zachłanną strategię: Y1 = argmaxXi I (Xi ; Y ) Yd+1 = argmaxXj d X I (Yi , Xj ; Y ) i=1 Można rozważać większe zależności... 25 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Alternatywa? Można również patrzeć na przyrost informacji w każdej iteracji: Yd+1 = argmaxXj Pd [I (Yi , Xj ; Y ) − I (Yi ; Y )] = argmaxXj Pd I (Xj ; Y |Yi ). i=1 i=1 Warunkowa wzajemna informacja! Ale, P maksymalizacja jest równoważna poprzedniej wielkości, bo i I (Yi ; Y ) = const (informacja tego co już wybraliśmy) - nie dostaliśmy nic nowego... Analogicznie można zrobić w nienadzorowanym wyborze 26 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Alternatywa? Można również patrzeć na przyrost informacji w każdej iteracji: Yd+1 = argmaxXj Pd [I (Yi , Xj ; Y ) − I (Yi ; Y )] = argmaxXj Pd I (Xj ; Y |Yi ). i=1 i=1 Warunkowa wzajemna informacja! Ale, P maksymalizacja jest równoważna poprzedniej wielkości, bo i I (Yi ; Y ) = const (informacja tego co już wybraliśmy) - nie dostaliśmy nic nowego... Analogicznie można zrobić w nienadzorowanym wyborze 26 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Alternatywa? Można również patrzeć na przyrost informacji w każdej iteracji: Yd+1 = argmaxXj Pd [I (Yi , Xj ; Y ) − I (Yi ; Y )] = argmaxXj Pd I (Xj ; Y |Yi ). i=1 i=1 Warunkowa wzajemna informacja! Ale, P maksymalizacja jest równoważna poprzedniej wielkości, bo i I (Yi ; Y ) = const (informacja tego co już wybraliśmy) - nie dostaliśmy nic nowego... Analogicznie można zrobić w nienadzorowanym wyborze 26 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 27 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 27 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 27 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podział Klastrowanie to podział danych X na parami rozłączne grupy C = {C1 , . . . , Ck }. Czy uzyskany podział jest poprawny? Trudne pytanie Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }. Porównajmy zgodność C z R 27 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Rand index Ilość poprawnie przyporządkowanych par: RI = a+b a+b+c +d gdzie a - ilość par (x, y ), będących w jednej grupie zarówno w C jak i R b - ilość par (x, y ), będących w różnych grupach zarówno w C jak i R c - ilość par (x, y ), będących w tej samej grupie w C ale w różnych grupach w R c - ilość par (x, y ), będących w tej samej grupie w R ale w różnych grupach w C Maksimum równe 1 dla pełnej zgodności, ale dla losowego podziału zwykle przyjmuje wartość znacząco większą niż 0 (rozszerzenia Adjusted Rand Intex) 28 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 29 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 29 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Podejście entropijne Zmierzmy informację wspólną podziałów. Wspólna informacja to wzajemna informacja podziałów: I (C; R) = X i,j P(Ci ∩ Rj )(− log2 P(Ci ∩ Rj ) ) P(Ci )P(Rj ) Wzajemna informacja jest nieznormalizowana: 0 ¬ I (C; R) ¬ min{h(R), h(C)} 29 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Znormalizowana wzajemna informacja Warianty znormalizowanej informacji wzajemnej podziałów C i R: I (C;R) min{h(R),h(C)} I (C;R) 1 2 (h(R)+h(C)) √ I (C;R) h(R)·h(C) Ale pełną informację daje klastrowanie referencyjne X h(R) = P(Ri )(− log2 P(Ri )) i Jej powinno się użyć do normalizacji 30 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Znormalizowana wzajemna informacja Warianty znormalizowanej informacji wzajemnej podziałów C i R: I (C;R) min{h(R),h(C)} I (C;R) 1 2 (h(R)+h(C)) √ I (C;R) h(R)·h(C) Ale pełną informację daje klastrowanie referencyjne X h(R) = P(Ri )(− log2 P(Ri )) i Jej powinno się użyć do normalizacji 30 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 31 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 31 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 31 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 31 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Asymetryczny indeks klastrowania Definicja Procent informacji jaką podział C niesie o R to ACIR (C) = I (C; R) h(R) Min := 0 ¬ ACIR (C) ¬ 1 =: Max Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 ) ACIR (C) 6= ACIC (R) Jednostronna zależność: informacja o R odzwierciedlana przez C 31 / 32 Entropia Selekcja cech I Wzajemna informacja Selekcja cech II Ewaluacja klastrowania Porównanie 32 / 32