klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału

Transkrypt

Identyfikacja istotnych atrybutów
za pomocą Baysowskich miar
konfirmacji
Jacek Szcześniak
Jerzy Błaszczyński
Roman Słowiński
Poznań, 5.XI.2013r.
Konspekt






Wstęp
Wprowadzenie
Metody typu wrapper
Nowe metody wyznaczania wartości informacyjnej
Analiza uzyskanych wyników
Podsumowanie
Wstęp – opis problemu
Atrybuty
Problem
decyzyjny
Decyzja
(d)
Opisanie problemu
Analiza problemu
a0
a1
a2
a3
a4
a5
…
an
Wstęp
a0

atrybuty

analiza
Klasyfikator

decyzja
d
a1 a2 a3 a4 a5 …
an
Wstęp

atrybuty

analiza
a0
a1 a2 a3 a4 a5 …
an
Klasyfikator
Atrybuty posiadające
małą wartość informacyjną

decyzja
d
Wstęp

atrybuty

analiza
Klasyfikator

decyzja
d
a0
a1 a2 a3 a4 a5 …
an
Wstęp

Korzyści płynące z wiedzy o wartości informacyjnej
atrybutu:



pozwala lepiej zrozumieć proces podejmowania decyzji
pozwala przeprowadzić selekcję atrybutów (ang. feature
selection)
Zalety selekcji atrybutów:


nauka klasyfikatora przebiega szybciej (redukcja
złożoności obliczeniowej)
lepsza generalizacja problemu
Wprowadzenie

Jak zidentyfikować atrybuty, które posiadają małą
wartość informacyjną?
Selekcja
atrybutów
Filtry
Metody
embedded
Metody
wrapper
Wprowadzenie
Selekcja
atrybutów
Filtry
Metody
embedded

Filtry to metody statystyczne
(m.in. korelacja) pozwalające
określić podobieństwo pomiędzy atrybutami

Zalety



Metody
wrapper
działają bez użycia klasyfikatora
szybkie w działaniu
Wady
wykorzystują proste miary podobieństwa między atrybutami
bez uwzględnienia specyfiki klasyfikatora
Wprowadzenie

Metody embedded dokonują
selekcji atrybutów na etapie
uczenia klasyfikatora

Zalety
Selekcja
atrybutów
Filtry
Metody
embedded
Metody
wrapper
ocena wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora

Wady
metody te są ściśle związane z procesem uczenia
konkretnego typu klasyfikatora (nie są uniwersalne)
Wprowadzenie


Metody
Metody wrapper dokonują
Filtry
embedded
selekcji atrybutów wykorzystując
klasyfikator oraz traktując go jak czarną skrzynkę
(ang. black box)
Metody
wrapper
Zalety



Selekcja
atrybutów
metody z tej grupy można stosować z dowolnym typem
klasyfikatora (uniwersalność)
ocena wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby
testującej
Wady
zwykle metody z tej grupy są bardziej kosztowne obliczeniowo od
filtrów i metod embedded
Metody typu wrapper

Główna wada
koszt obliczeniowy!

Jak zmniejszyć ten koszt?



stosując filtr jako pierwszy etap
stosując podejścia zachłanne wyznaczające podzbiór
najbardziej wartościowych atrybutów
Popularne zachłanne podejścia:


backward elimination
forward selection
Backward elimination
1
2
3
4
• Model zawiera wszystkie atrybuty
• Ocena poszczególnych atrybutów w modelu (np. metodą typu
wrapper)
• Usunięcie z modelu najgorzej ocenionego atrybutu
• Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora
• osiągnięcie z góry określonej liczby atrybutów
Forward selection
1
2
3
4
• Model nie zawiera atrybutów
• Ocena poszczególnych atrybutów.
• Ocena odbywa się poprzez tymczasowe załączenie ocenianego
atrybutu do aktualnego modelu
• Dodanie do modelu najlepiej ocenionego atrybutu
• Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora
• osiągnięcie z góry określonej liczby atrybutów
Metody wrapper – koncepcja Breimana

Breiman opracował metodę analizy wartości informacyjnej dla Random Forest.

Metoda ta, była później stosowana również dla innych klasyfikatorów.

Działanie polega na zamianie wartości na analizowanym atrybucie poprzez
permutowanie wartości tego atrybutu w przykładach testowych

Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze
testowanym z permutowanymi wartościami na analizowanym atrybucie
do błędu na zbiorze testowym z oryginalnymi wartościami.

Im wyższy wskaźnik B, tym atrybut posiada większą wartość informacyjną
Metoda na obecność (PP)

Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i
jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna
H
¬H
E
¬E

klasa decyzyjna y (hipoteza poprawnej klasy)
klasa decyzyjna ¬y
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y
Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i
bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w
klasyfikacji
Pr 𝑦| 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥
=𝑦
Metoda na niezbędność (PN)
Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i
jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi,
w przeciwnym razie

H
¬H
klasa decyzyjna y (hipoteza poprawnej klasy)
klasa decyzyjna ¬y
E
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y
¬E
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y,
albo f(x) = ¬y, natomiast f(pi(x)) = y lub f(pi(x)) = ¬y,

Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna,
niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału
atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥
lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥
≥
i 𝑓 𝑥 = ¬𝑦
Nowe metody wyznaczania wartości
informacyjnej
Pr 𝑦| 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥

PP :

PN:

Porównanie tych prawdopodobieństw:

jest pytaniem o Bayesowską konfirmację:
=𝑦
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦
≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥
lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥
≥
i 𝑓 𝑥 = ¬𝑦
informacyjnej

Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S:

Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP):
jest równoważny
informacyjnej (metoda na obecność PP)

a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem
atrybutu i,

b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału
atrybutu i,

c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y z udziałem atrybutu i,

d to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y bez udziału atrybutu i.
* poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H)
informacyjnej (metoda na niezbędność PN)

a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem
atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału,

b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy
bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału,

c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych
bez jego udziału,

d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo
z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale
niepoprawnie bez udziału.
* poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H)
informacyjnej

Metoda Breimana daje taki sam porządek atrybutów jak PP

Miara c1 tak samo, ale wniosek nie jest tak oczywisty
informacyjnej


Proces CV: 100 razy
Procesu baggingu: 30 razy

Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z
wykorzystaniem biblioteki WEKA

Analizowane zbiory z UCI Machine Learning Repository










breast-w
diabetes
heart-statlog
ionosphere
lymph
mushroom
parkinsons
promoters
spectf
vote
Zbiór
l. atrybutów
l. klas
l. obiektów
breast-w
10
2
699
diabetes
8
2
768
heart-statlog
13
2
270
ionosphere
34
2
351
lymph
19
4
148
mushroom
22
2
8124
parkinsons
23
2
197
promoters
59
2
106
spectf
44
2
267
vote
16
2
435
Analiza uzyskanych wyników - metoda PP

Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów
regułowych.

Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic

Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
uzależniona od analizowanego klasyfikatora
Analiza uzyskanych wyników - metoda PN

Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych.

Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic

Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
uzależniona od analizowanego klasyfikatora

Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora,
niż w metodzie PP
Analiza uzyskanych wyników metodami PP
oraz PN

Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów
metodami PP oraz PN są podobne (~0.7)
Parkinsons – S(PN)

Ujemne wartości

Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną
Parkinsons – S(PP)

Dodatnie wartości

Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną
Vote
Mushroom
MC
Połowa atrybutów posiadających największą wartość
informacyjną
LC
Połowa atrybutów posiadających najmniejszą wartość
informacyjną
MC<ORG
W ilu przypadkach trafność klasyfikacji pogorszyła się po
usunięciu połowy atrybutów posiadających najmniejszą wartość
informacyjną w stosunku do trafności klasyfikatora
posiadającego wszystkie atrybuty
MC<LC
W ilu przypadkach trafność klasyfikatora wykorzystującego
tylko MC jest gorsza od trafności klasyfikatora
wykorzystującego LC

MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż
jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu
na wartość informacyjną

Kilka przypadków w których MC<LC
Podsumowanie

Zaproponowane metody są typu wrapper i z powodzeniem mogą być
stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu
„czarnej skrzynki”

Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji

Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości
informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę

Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze
udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji

Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna,
niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału
atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i
Podsumowanie

Poprawność działania została przetestowana z wykorzystaniem 5 różnych
klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository

Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od
trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z
kilkoma wyjątkami)

Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w
procesie szacowania wartości informacyjnej

Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są
podobne.
Dziękuję za uwagę

klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału

Transkrypt

Podobne dokumenty

Bazy danych - ćwiczenia 5

WEKA klasyfikacja z użyciem sztucznych sieci

WEKA - wstęp, ARFF, filtry.

Lista 3 - Przetwarzanie danych

1 Wstęp 2 Uruchomienie programu

Analiza danych - Jakub Wróblewski

Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+