Informacja wzajemna

Transkrypt

Informacja wzajemna

Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Ewaluacja klastrowania
Informacja wzajemna
Marek Śmieja
Teoria informacji
1 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia zmiennej losowej
Dotychczas entropia była definiowana w oparciu o rozkład
prawdopodobieństwa pi na zbiorze danych X .
Interpretowaliśmy ją jako statystyczną długość kodu eleemntu X w
optymalnym kodowaniu
Wygodniej będzie teraz mówić o entropii zmiennej losowej X
mającej rozkład pi :
X
h(X ) = h(p) =
pi · (− log2 pi ).
i
Możemy o tym myśleć jako o informacji zawartej w zmiennej X - im
mniejsza tym łatwiej przewidzieć wartość X
2 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
X
h(X ) = h(p) =
pi · (− log2 pi ).
i
2 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
X
h(X ) = h(p) =
pi · (− log2 pi ).
i
2 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
X
h(X ) = h(p) =
pi · (− log2 pi ).
i
2 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia wielowymiarowa
Definicja
Entropia wspólna dyskretnego wektora losowego (X , Y ) o łącznym
rozkładzie p(x, y ) to:
XX
h(X , Y ) = h(p) =
p(x, y ) · (− log2 p(x, y )).
x
y
Jest to długość kodu jeśli tworzymy jeden kod dla x i y
Powinna być niższa niż suma osobnych kodów dla x i y , bo X , Y mogą
być skorelowane co pomaga przy kodowaniu
3 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia wielowymiarowa
Definicja
Entropia wspólna dyskretnego wektora losowego (X , Y ) o łącznym
rozkładzie p(x, y ) to:
XX
h(X , Y ) = h(p) =
p(x, y ) · (− log2 p(x, y )).
x
y
Jest to długość kodu jeśli tworzymy jeden kod dla x i y
Powinna być niższa niż suma osobnych kodów dla x i y , bo X , Y mogą
być skorelowane co pomaga przy kodowaniu
3 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Przykład
Y/X
1
2
3
4
1
1/8
1/16
1/16
1/4
2
1/16
1/8
1/16
0
3
1/32
1/32
1/16
0
4
1/32
1/32
1/16
0
H(X ) + H(Y ) = 7/4 + 2 27/8 = H(X , Y )
4 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia warunkowa
Definicja
Niech (X , Y ) będzie dyskretnym wektorem losowym o rokładzie p(x, y ).
Entropia Y pod warunkiem X to:
X
H(Y |X ) =
p(x)h(Y |X = x)
x
Oznacza informację jaką niesie Y zakładając, że X jest w pełni znana.
Co jeśli X niezależne od Y , albo Y w pełni zależne od X ?
5 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia warunkowa
Definicja
X
H(Y |X ) =
p(x)h(Y |X = x)
x
5 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Entropia warunkowa
Definicja
X
H(Y |X ) =
p(x)h(Y |X = x)
x
5 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzór
Obliczmy ładniejszą postać entropi warunkowej
P
H(Y |X ) = x p(x)h(Y |X = x)
P
P
x p(x)
y p(y |x) · (− log2 p(y |x))
P P
x
y p(x, y ) · (− log2 p(y |x))
P P
p(x,y )
x
y p(x, y ) · (− log2 p(y ) )
6 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzór
P
H(Y |X ) = x p(x)h(Y |X = x)
P
P
x p(x)
y p(y |x) · (− log2 p(y |x))
P P
x
y p(x, y ) · (− log2 p(y |x))
P P
p(x,y )
x
y p(x, y ) · (− log2 p(y ) )
6 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzór
P
H(Y |X ) = x p(x)h(Y |X = x)
P
P
x p(x)
y p(y |x) · (− log2 p(y |x))
P P
x
y p(x, y ) · (− log2 p(y |x))
P P
p(x,y )
x
y p(x, y ) · (− log2 p(y ) )
6 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzór
P
H(Y |X ) = x p(x)h(Y |X = x)
P
P
x p(x)
y p(y |x) · (− log2 p(y |x))
P P
x
y p(x, y ) · (− log2 p(y |x))
P P
p(x,y )
x
y p(x, y ) · (− log2 p(y ) )
6 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzór
P
H(Y |X ) = x p(x)h(Y |X = x)
P
P
x p(x)
y p(y |x) · (− log2 p(y |x))
P P
x
y p(x, y ) · (− log2 p(y |x))
P P
p(x,y )
x
y p(x, y ) · (− log2 p(y ) )
6 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Przykład
Y/X
1
2
3
4
1
1/8
1/16
1/16
1/4
2
1/16
1/8
1/16
0
3
1/32
1/32
1/16
0
4
1/32
1/32
1/16
0
H(Y |X ) = 13/8
czy jest jakaś zależność z poprzednimi obliczeniami?
H(X ) = 7/4, H(Y ) = 2, H(X , Y ) = 27/8
7 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
p(x, y ) log p(x, y )
p(x, y ) log p(y )p(y |x)
P P
= − x y p(x, y ) log p(y ) − x y p(x, y ) log p(y |x)
P P
P P
= − x y p(y ) log p(y ) − x y p(x, y ) log p(y |x)
x
y
P P
= h(X ) + h(Y |X )
Ćwiczenie: rozszerzyć twierdzenie na n-elementowy ciąg X1 , . . . , Xn .
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
P P
P P
P P
x
y
P P
= h(X ) + h(Y |X )
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
P P
P P
P P
x
y
P P
= h(X ) + h(Y |X )
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
P P
P P
P P
x
y
P P
= h(X ) + h(Y |X )
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
P P
P P
P P
x
y
P P
= h(X ) + h(Y |X )
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Chain rule
Twierdzenie
h(X , Y ) = h(X ) + h(Y |X )
H(X , Y )
=−
P P
=−
P P
x
y
P P
P P
P P
x
y
P P
= h(X ) + h(Y |X )
8 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
h(X , Y ) = h(X ) + h(Y |X )
h(X , Y ) = h(Y ) + h(X |Y )
Zatem h(X ) + h(Y |X ) = h(Y ) + h(X |Y )
Ale h(Y |X ) 6= h(X |Y ) - podać przykład
9 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
h(X , Y ) = h(X ) + h(Y |X )
h(X , Y ) = h(Y ) + h(X |Y )
9 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
h(X , Y ) = h(X ) + h(Y |X )
h(X , Y ) = h(Y ) + h(X |Y )
9 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
h(X , Y ) = h(X ) + h(Y |X )
h(X , Y ) = h(Y ) + h(X |Y )
9 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
Niech X ⊂ RN zbiór danych.
Pytanie: Które współrzędne są najważniejsze (niosą najwięcej
informacji)?
Załóżmy, że i-ta współrzędna jest opisana za pomocą zmiennej
losowej Xi
Zatem najważniejsza z cech, to ta która ma najwięcej informacji,
czyli maksymalizująca h(Xi )
k-najważniejszych cech to te które maksymalizują h(Xi1 , . . . , Xik ).
k-cech Xi1 , . . . , Xik zawiera pełną informację o X jeśli
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
informacji)?
losowej Xi
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
informacji)?
losowej Xi
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
informacji)?
losowej Xi
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
informacji)?
losowej Xi
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Selekcja cech
informacji)?
losowej Xi
h(Xi1 , . . . , Xik ) = h(X1 , . . . , XN ).
10 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczenie
Zadananie: wybrać k najważniejszych cech:
Przglądnij wszystkie możliwe k-elementowe podzbiory zbioru n
elementowego i wybierz ten aksymalizujący entropię
Istnieje kn podzbiorów
Obliczanie entropii wymaga w każdym przypadku znalezienia
łącznego rozkładu
Nie jest praktycznie możliwe przejrzenie wszystkich możliwości
11 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczenie
11 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczenie
11 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczenie
11 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Algorytm zachłanny
Weź Y1 := Xi maksymalizującą h(Xi )
Mając wybrane d-współrzędnych Y1 , . . . , Yd weź kolejną Yd+1 := Xj
maksymalizując:
d
X
h(Yi , Yd+1 )
i=1
Bierzemy pod uwagę zależność par zmiennych, można rozważać
trójki itd.
Nie daje to optimum, bo entropia jest addytywna tylko dla
neizależnych cech (tu niekoniecznie)
12 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Algorytm zachłanny
maksymalizując:
d
X
h(Yi , Yd+1 )
i=1
trójki itd.
12 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Algorytm zachłanny
maksymalizując:
d
X
h(Yi , Yd+1 )
i=1
trójki itd.
12 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Algorytm klastrujący
Podzielmy cechy na k-grup, takie że w obrębie grupy cechy są do
siebie podobne
Następnie zastosujmy zachłany wybór, wybierając po jednej cesze z
każdej grupy
Do klastrowania można użyć k-means z odległością euklidesową
Mierzymy informację więc lepiej wykorzystać inne miary odległości i
użyć np. k-medoids
13 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
siebie podobne
każdej grupy
13 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
siebie podobne
każdej grupy
13 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
siebie podobne
każdej grupy
13 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Odległość
Pierwsza myśl
d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y )
Nie ma symetrii...
Bierzemy:
d(X , Y )
= h(X |Y ) + h(Y |X )
= [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )]
Czy wszystkie warunki metryki spełnione - ćwiczenie
14 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Odległość
Pierwsza myśl
d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y )
Nie ma symetrii...
Bierzemy:
d(X , Y )
= h(X |Y ) + h(Y |X )
= [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )]
14 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Odległość
Pierwsza myśl
d(X , Y ) = h(X , Y ) − h(Y ) = h(X |Y )
Nie ma symetrii...
Bierzemy:
d(X , Y )
= h(X |Y ) + h(Y |X )
= [h(X , Y ) − h(Y )] + [h(X , Y ) − h(X )]
14 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Informacja o czymś
Dotychczas zajmowaliśmy informacją samą w sobie
(informacja/entropia o zbiorze, o rozkładzie, o zmiennej losowej)
Teraz zajmiemy się informację w ustalonym kontekście.
Dokładniej, będziemy chcieli mierzyć informację jaka jedna zmienna
losowa niesie na temat drugiej.
Przykład: jakie wpływ ma picie kawy na szanse wypadku
samochodowego:)
15 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Informacja o czymś
samochodowego:)
15 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Informacja o czymś
samochodowego:)
15 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Informacja o czymś
samochodowego:)
15 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzajemna informacja
Definicja
Niech X , Y będą dwoma zmiennymi losowymi o łącznym rozkładzie
p(x, y ) oraz brzegowych p(x), p(y ). Wzajemna informacja X , Y to:
I (X ; Y ) =
XX
x
p(x, y ) log2
y
p(x, y )
.
p(x)p(y )
Widać z definicji, że I (X , Y ) = I (Y , X ).
Zatem, jest to raczej informacja wspólna zmiennych, niż wpływ
jednej na drugą.
Można pokazać: I (X , Y ) 0.
16 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzajemna informacja
Definicja
I (X ; Y ) =
XX
x
p(x, y ) log2
y
p(x, y )
.
p(x)p(y )
jednej na drugą.
16 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzajemna informacja
Definicja
I (X ; Y ) =
XX
x
p(x, y ) log2
y
p(x, y )
.
p(x)p(y )
jednej na drugą.
16 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wzajemna informacja
Definicja
I (X ; Y ) =
XX
x
p(x, y ) log2
y
p(x, y )
.
p(x)p(y )
jednej na drugą.
16 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Powiązania
Jest to coś w rodzaju korelacji zmiennych losowych.
Korelacja jest liniowa, a wzajemna informacja nieliniowa.
Pozwala mierzyć bardziej złożone nieliniowe zależności.
Jeśli X , Y są niezależne, to I (X , Y ) = 0 (w definicji wstaw
p(x, y ) = p(x)p(y ))
17 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Powiązania
p(x, y ) = p(x)p(y ))
17 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Powiązania
p(x, y ) = p(x)p(y ))
17 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Powiązania
p(x, y ) = p(x)p(y ))
17 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Związek z entropią
Twierdzenie
Nich X , Y będą dyskretnymi zmiennymi losowymi. Wtedy
I (X ; Y ) = H(X ) − H(X |Y ).
Dowód na ćwiczeniach:
18 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Związek z entropią
Twierdzenie
Nich X , Y będą dyskretnymi zmiennymi losowymi. Wtedy
I (X ; Y ) = H(X ) − H(X |Y ).
Dowód na ćwiczeniach:
18 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wniosek
Informacja to niepewność, więc wzajemna informacja to redukcja
niepewności o X przy znajomości Y .
Analogicznie I (X ; Y ) = H(Y ) − H(Y |X ) - symetria! Redukcja
niepewności jest stała – ciekawa własność.
19 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wniosek
Informacja to niepewność, więc wzajemna informacja to redukcja
niepewności o X przy znajomości Y .
Analogicznie I (X ; Y ) = H(Y ) − H(Y |X ) - symetria! Redukcja
niepewności jest stała – ciekawa własność.
19 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
20 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Własności c.d.
Było: H(X , Y ) = H(X ) + H(Y |Y ).
Jako, że I (X ; Y ) = H(Y ) − H(Y |X ), więc
H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ).
Czy pamiętają Państwo regułę włącz/wyłącz dla zbiorów? Liczność
sumy zbiorów to suma składowych pomniejszona o część wspólną.
Informacja o sobie to entropia:
I (X ; X ) = H(X ) − H(X |X ) = H(X )
21 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Własności c.d.
Było: H(X , Y ) = H(X ) + H(Y |Y ).
H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ).
I (X ; X ) = H(X ) − H(X |X ) = H(X )
21 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Własności c.d.
Było: H(X , Y ) = H(X ) + H(Y |Y ).
H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ).
I (X ; X ) = H(X ) − H(X |X ) = H(X )
21 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Własności c.d.
Było: H(X , Y ) = H(X ) + H(Y |Y ).
H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ).
I (X ; X ) = H(X ) − H(X |X ) = H(X )
21 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Własności c.d.
Było: H(X , Y ) = H(X ) + H(Y |Y ).
H(X , Y ) = H(X ) + H(Y ) − I (X ; Y ).
I (X ; X ) = H(X ) − H(X |X ) = H(X )
21 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podsumowanie
Twierdzenie
I (X , Y ) 0
Jeśli X , Y niezależne to I (X ; Y ) = 0.
I (X ; Y ) = H(X ) − H(X |Y )
I (X ; Y ) = H(Y ) − H(Y |X )
I (X ; Y ) = H(X ) + H(Y ) − H(X , Y )
I (X ; Y ) = I (Y ; X )
I (X ; X ) = H(X )
22 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
Twierdzenie: Information can’t hurt
H(X |Y ) ¬ H(X )
Równość dla X , Y niezależnych
Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y )
Twierdzenie
H(X , Y ) ¬ H(X ) + H(Y )
Dowód: 0 ¬ I (X ; Y ) = H(X ) + H(Y ) − H(X , Y )
23 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
H(X |Y ) ¬ H(X )
Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y )
Twierdzenie
H(X , Y ) ¬ H(X ) + H(Y )
23 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
H(X |Y ) ¬ H(X )
Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y )
Twierdzenie
H(X , Y ) ¬ H(X ) + H(Y )
23 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Wnioski
H(X |Y ) ¬ H(X )
Dowód: 0 ¬ I (X ; Y ) = H(X ) − H(X |Y )
Twierdzenie
H(X , Y ) ¬ H(X ) + H(Y )
23 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Nadzorowana selekcja cech
Niech X ⊂ RN zbiór danych (cechy), Y ⊂ {0, . . . , n} to etykieta
(np. chory/zdrowy).
Pytanie: Które współrzędne są najważniejsze względem Y ?
losowej Xi , a etykieta jako zmienna Y
Zatem najważniejsza z cech, to ta maksymalizująca I (Xi ; Y )
k-najważniejszych cech to te które maksymalizują I (Xi1 , . . . , Xik ; Y ).
24 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
(np. chory/zdrowy).
24 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
(np. chory/zdrowy).
24 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
(np. chory/zdrowy).
24 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
(np. chory/zdrowy).
24 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczanie
Pamiętamy, że nienadzorowany wybór k najlepszych cech był trudy.
Nadzorowany wybór nie jest łatwiejszy...
Można rozważyć podobną zachłanną strategię:
Y1 = argmaxXi I (Xi ; Y )
Yd+1 = argmaxXj
d
X
I (Yi , Xj ; Y )
i=1
Można rozważać większe zależności...
25 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczanie
Yd+1 = argmaxXj
d
X
I (Yi , Xj ; Y )
i=1
25 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczanie
Yd+1 = argmaxXj
d
X
I (Yi , Xj ; Y )
i=1
25 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Obliczanie
Yd+1 = argmaxXj
d
X
I (Yi , Xj ; Y )
i=1
25 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Alternatywa?
Można również patrzeć na przyrost informacji w każdej iteracji:
Yd+1
= argmaxXj
Pd
[I (Yi , Xj ; Y ) − I (Yi ; Y )]
= argmaxXj
Pd
I (Xj ; Y |Yi ).
i=1
i=1
Warunkowa wzajemna informacja!
Ale,
P maksymalizacja jest równoważna poprzedniej wielkości, bo
i I (Yi ; Y ) = const (informacja tego co już wybraliśmy) - nie
dostaliśmy nic nowego...
Analogicznie można zrobić w nienadzorowanym wyborze
26 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Alternatywa?
Yd+1
= argmaxXj
Pd
[I (Yi , Xj ; Y ) − I (Yi ; Y )]
= argmaxXj
Pd
I (Xj ; Y |Yi ).
i=1
i=1
Ale,
26 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Alternatywa?
Yd+1
= argmaxXj
Pd
[I (Yi , Xj ; Y ) − I (Yi ; Y )]
= argmaxXj
Pd
I (Xj ; Y |Yi ).
i=1
i=1
Ale,
26 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podział
Klastrowanie to podział danych X na parami rozłączne grupy
C = {C1 , . . . , Ck }.
Czy uzyskany podział jest poprawny? Trudne pytanie
Przypadek szczególny – podział referencyjny R = {R1 , . . . , Rk }.
Porównajmy zgodność C z R
27 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podział
C = {C1 , . . . , Ck }.
27 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podział
C = {C1 , . . . , Ck }.
27 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podział
C = {C1 , . . . , Ck }.
27 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Rand index
Ilość poprawnie przyporządkowanych par:
RI =
a+b
a+b+c +d
gdzie
a - ilość par (x, y ), będących w jednej grupie zarówno w C jak i R
b - ilość par (x, y ), będących w różnych grupach zarówno w C jak i
R
c - ilość par (x, y ), będących w tej samej grupie w C ale w różnych
grupach w R
c - ilość par (x, y ), będących w tej samej grupie w R ale w różnych
grupach w C
Maksimum równe 1 dla pełnej zgodności, ale dla losowego podziału
zwykle przyjmuje wartość znacząco większą niż 0 (rozszerzenia Adjusted
Rand Intex)
28 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Podejście entropijne
Zmierzmy informację wspólną podziałów.
Wspólna informacja to wzajemna informacja podziałów:
I (C; R) =
X
i,j
P(Ci ∩ Rj )(− log2
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
Wzajemna informacja jest nieznormalizowana:
0 ¬ I (C; R) ¬ min{h(R), h(C)}
29 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
I (C; R) =
X
i,j
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
0 ¬ I (C; R) ¬ min{h(R), h(C)}
29 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
I (C; R) =
X
i,j
P(Ci ∩ Rj )
)
P(Ci )P(Rj )
0 ¬ I (C; R) ¬ min{h(R), h(C)}
29 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
30 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Znormalizowana wzajemna informacja
Warianty znormalizowanej informacji wzajemnej podziałów C i R:
I (C;R)
min{h(R),h(C)}
I (C;R)
1
2 (h(R)+h(C))
√ I (C;R)
h(R)·h(C)
Ale pełną informację daje klastrowanie referencyjne
X
h(R) =
P(Ri )(− log2 P(Ri ))
i
Jej powinno się użyć do normalizacji
30 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Asymetryczny indeks klastrowania
Definicja
Procent informacji jaką podział C niesie o R to
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
Jeśli C1 jest drobniejszy niż C2 , to ACIR (C1 ) ACIR (C2 )
ACIR (C) 6= ACIC (R)
Jednostronna zależność: informacja o R odzwierciedlana przez C
31 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
31 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
31 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
31 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Definicja
ACIR (C) =
I (C; R)
h(R)
Min := 0 ¬ ACIR (C) ¬ 1 =: Max
31 / 32
Entropia
Selekcja cech I
Wzajemna informacja
Selekcja cech II
Porównanie
32 / 32

Informacja wzajemna

Transkrypt

Podobne dokumenty

Jak zatrudnić pracownika

Wygląda na to, że budujemy strukturę trendu

HARMONOGRAM

Selekcja USA 13 lipca 2014 Pojawiła się oznaka

Selekcja

Cocktail Party 135 PLN / os.

MENU - Pikado

SYLWESTROWY SOBOTEL