klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału

Transkrypt

klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału
Identyfikacja istotnych atrybutów
za pomocą Baysowskich miar
konfirmacji
Jacek Szcześniak
Jerzy Błaszczyński
Roman Słowiński
Poznań, 5.XI.2013r.
Konspekt






Wstęp
Wprowadzenie
Metody typu wrapper
Nowe metody wyznaczania wartości informacyjnej
Analiza uzyskanych wyników
Podsumowanie
Wstęp – opis problemu
Atrybuty
Problem
decyzyjny
Decyzja
(d)
Opisanie problemu
Analiza problemu
a0
a1
a2
a3
a4
a5
…
an
Wstęp
a0

atrybuty

analiza
Klasyfikator

decyzja
d
a1 a2 a3 a4 a5 …
an
Wstęp

atrybuty

analiza
a0
a1 a2 a3 a4 a5 …
an
Klasyfikator
Atrybuty posiadające
małą wartość informacyjną

decyzja
d
Wstęp

atrybuty

analiza
Klasyfikator

decyzja
d
a0
a1 a2 a3 a4 a5 …
an
Wstęp

Korzyści płynące z wiedzy o wartości informacyjnej
atrybutu:



pozwala lepiej zrozumieć proces podejmowania decyzji
pozwala przeprowadzić selekcję atrybutów (ang. feature
selection)
Zalety selekcji atrybutów:


nauka klasyfikatora przebiega szybciej (redukcja
złożoności obliczeniowej)
lepsza generalizacja problemu
Wprowadzenie

Jak zidentyfikować atrybuty, które posiadają małą
wartość informacyjną?
Selekcja
atrybutów
Filtry
Metody
embedded
Metody
wrapper
Wprowadzenie
Selekcja
atrybutów
Filtry
Metody
embedded

Filtry to metody statystyczne
(m.in. korelacja) pozwalające
określić podobieństwo pomiędzy atrybutami

Zalety



Metody
wrapper
działają bez użycia klasyfikatora
szybkie w działaniu
Wady
wykorzystują proste miary podobieństwa między atrybutami
bez uwzględnienia specyfiki klasyfikatora
Wprowadzenie

Metody embedded dokonują
selekcji atrybutów na etapie
uczenia klasyfikatora

Zalety
Selekcja
atrybutów
Filtry
Metody
embedded
Metody
wrapper
ocena wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora

Wady
metody te są ściśle związane z procesem uczenia
konkretnego typu klasyfikatora (nie są uniwersalne)
Wprowadzenie


Metody
Metody wrapper dokonują
Filtry
embedded
selekcji atrybutów wykorzystując
klasyfikator oraz traktując go jak czarną skrzynkę
(ang. black box)
Metody
wrapper
Zalety



Selekcja
atrybutów
metody z tej grupy można stosować z dowolnym typem
klasyfikatora (uniwersalność)
ocena wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby
testującej
Wady
zwykle metody z tej grupy są bardziej kosztowne obliczeniowo od
filtrów i metod embedded
Metody typu wrapper

Główna wada
koszt obliczeniowy!

Jak zmniejszyć ten koszt?



stosując filtr jako pierwszy etap
stosując podejścia zachłanne wyznaczające podzbiór
najbardziej wartościowych atrybutów
Popularne zachłanne podejścia:


backward elimination
forward selection
Backward elimination
1
2
3
4
• Model zawiera wszystkie atrybuty
• Ocena poszczególnych atrybutów w modelu (np. metodą typu
wrapper)
• Usunięcie z modelu najgorzej ocenionego atrybutu
• Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora
• osiągnięcie z góry określonej liczby atrybutów
Forward selection
1
2
3
4
• Model nie zawiera atrybutów
• Ocena poszczególnych atrybutów.
• Ocena odbywa się poprzez tymczasowe załączenie ocenianego
atrybutu do aktualnego modelu
• Dodanie do modelu najlepiej ocenionego atrybutu
• Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora
• osiągnięcie z góry określonej liczby atrybutów
Metody wrapper – koncepcja Breimana

Breiman opracował metodę analizy wartości informacyjnej dla Random Forest.

Metoda ta, była później stosowana również dla innych klasyfikatorów.

Działanie polega na zamianie wartości na analizowanym atrybucie poprzez
permutowanie wartości tego atrybutu w przykładach testowych

Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze
testowanym z permutowanymi wartościami na analizowanym atrybucie
do błędu na zbiorze testowym z oryginalnymi wartościami.

Im wyższy wskaźnik B, tym atrybut posiada większą wartość informacyjną
Metoda na obecność (PP)

Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i
jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna
H
¬H
E
¬E

klasa decyzyjna y (hipoteza poprawnej klasy)
klasa decyzyjna ¬y
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y
Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i
bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w
klasyfikacji
Pr 𝑦| 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥
=𝑦
Metoda na niezbędność (PN)
Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i
jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi,
w przeciwnym razie

H
¬H
klasa decyzyjna y (hipoteza poprawnej klasy)
klasa decyzyjna ¬y
E
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y
¬E
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y,
albo f(x) = ¬y, natomiast f(pi(x)) = y lub f(pi(x)) = ¬y,

Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna,
niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału
atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥
lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥
≥
i 𝑓 𝑥 = ¬𝑦
Nowe metody wyznaczania wartości
informacyjnej
Pr 𝑦| 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥

PP :

PN:

Porównanie tych prawdopodobieństw:

jest pytaniem o Bayesowską konfirmację:
=𝑦
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥
lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥
≥
i 𝑓 𝑥 = ¬𝑦
Nowe metody wyznaczania wartości
informacyjnej

Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S:

Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP):
jest równoważny
Nowe metody wyznaczania wartości
informacyjnej (metoda na obecność PP)

a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem
atrybutu i,

b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału
atrybutu i,

c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y z udziałem atrybutu i,

d to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y bez udziału atrybutu i.
* poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H)
Nowe metody wyznaczania wartości
informacyjnej (metoda na niezbędność PN)

a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem
atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału,

b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy
bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału,

c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych
bez jego udziału,

d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo
z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale
niepoprawnie bez udziału.
* poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H)
Nowe metody wyznaczania wartości
informacyjnej

Metoda Breimana daje taki sam porządek atrybutów jak PP

Miara c1 tak samo, ale wniosek nie jest tak oczywisty
Nowe metody wyznaczania wartości
informacyjnej
Analiza uzyskanych wyników


Proces CV: 100 razy
Procesu baggingu: 30 razy

Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z
wykorzystaniem biblioteki WEKA

Analizowane zbiory z UCI Machine Learning Repository










breast-w
diabetes
heart-statlog
ionosphere
lymph
mushroom
parkinsons
promoters
spectf
vote
Analiza uzyskanych wyników
Zbiór
l. atrybutów
l. klas
l. obiektów
breast-w
10
2
699
diabetes
8
2
768
heart-statlog
13
2
270
ionosphere
34
2
351
lymph
19
4
148
mushroom
22
2
8124
parkinsons
23
2
197
promoters
59
2
106
spectf
44
2
267
vote
16
2
435
Analiza uzyskanych wyników - metoda PP

Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów
regułowych.

Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic

Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
uzależniona od analizowanego klasyfikatora
Analiza uzyskanych wyników - metoda PN

Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych.

Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic

Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
uzależniona od analizowanego klasyfikatora

Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora,
niż w metodzie PP
Analiza uzyskanych wyników metodami PP
oraz PN

Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów
metodami PP oraz PN są podobne (~0.7)
Analiza uzyskanych wyników
Parkinsons – S(PN)

Ujemne wartości

Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną
Analiza uzyskanych wyników
Parkinsons – S(PP)

Dodatnie wartości

Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną
Analiza uzyskanych wyników
Vote
Analiza uzyskanych wyników
Mushroom
Analiza uzyskanych wyników
MC
Połowa atrybutów posiadających największą wartość
informacyjną
LC
Połowa atrybutów posiadających najmniejszą wartość
informacyjną
MC<ORG
W ilu przypadkach trafność klasyfikacji pogorszyła się po
usunięciu połowy atrybutów posiadających najmniejszą wartość
informacyjną w stosunku do trafności klasyfikatora
posiadającego wszystkie atrybuty
MC<LC
W ilu przypadkach trafność klasyfikatora wykorzystującego
tylko MC jest gorsza od trafności klasyfikatora
wykorzystującego LC
Analiza uzyskanych wyników
Analiza uzyskanych wyników

MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż
jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu
na wartość informacyjną
Analiza uzyskanych wyników

Kilka przypadków w których MC<LC
Analiza uzyskanych wyników
Analiza uzyskanych wyników
Podsumowanie

Zaproponowane metody są typu wrapper i z powodzeniem mogą być
stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu
„czarnej skrzynki”

Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji

Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości
informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę

Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze
udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji

Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna,
niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału
atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i
Podsumowanie

Poprawność działania została przetestowana z wykorzystaniem 5 różnych
klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository

Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od
trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z
kilkoma wyjątkami)

Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w
procesie szacowania wartości informacyjnej

Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są
podobne.
Dziękuję za uwagę

Podobne dokumenty