klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału
Transkrypt
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody wyznaczania wartości informacyjnej Analiza uzyskanych wyników Podsumowanie Wstęp – opis problemu Atrybuty Problem decyzyjny Decyzja (d) Opisanie problemu Analiza problemu a0 a1 a2 a3 a4 a5 … an Wstęp a0 atrybuty analiza Klasyfikator decyzja d a1 a2 a3 a4 a5 … an Wstęp atrybuty analiza a0 a1 a2 a3 a4 a5 … an Klasyfikator Atrybuty posiadające małą wartość informacyjną decyzja d Wstęp atrybuty analiza Klasyfikator decyzja d a0 a1 a2 a3 a4 a5 … an Wstęp Korzyści płynące z wiedzy o wartości informacyjnej atrybutu: pozwala lepiej zrozumieć proces podejmowania decyzji pozwala przeprowadzić selekcję atrybutów (ang. feature selection) Zalety selekcji atrybutów: nauka klasyfikatora przebiega szybciej (redukcja złożoności obliczeniowej) lepsza generalizacja problemu Wprowadzenie Jak zidentyfikować atrybuty, które posiadają małą wartość informacyjną? Selekcja atrybutów Filtry Metody embedded Metody wrapper Wprowadzenie Selekcja atrybutów Filtry Metody embedded Filtry to metody statystyczne (m.in. korelacja) pozwalające określić podobieństwo pomiędzy atrybutami Zalety Metody wrapper działają bez użycia klasyfikatora szybkie w działaniu Wady wykorzystują proste miary podobieństwa między atrybutami bez uwzględnienia specyfiki klasyfikatora Wprowadzenie Metody embedded dokonują selekcji atrybutów na etapie uczenia klasyfikatora Zalety Selekcja atrybutów Filtry Metody embedded Metody wrapper ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora Wady metody te są ściśle związane z procesem uczenia konkretnego typu klasyfikatora (nie są uniwersalne) Wprowadzenie Metody Metody wrapper dokonują Filtry embedded selekcji atrybutów wykorzystując klasyfikator oraz traktując go jak czarną skrzynkę (ang. black box) Metody wrapper Zalety Selekcja atrybutów metody z tej grupy można stosować z dowolnym typem klasyfikatora (uniwersalność) ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby testującej Wady zwykle metody z tej grupy są bardziej kosztowne obliczeniowo od filtrów i metod embedded Metody typu wrapper Główna wada koszt obliczeniowy! Jak zmniejszyć ten koszt? stosując filtr jako pierwszy etap stosując podejścia zachłanne wyznaczające podzbiór najbardziej wartościowych atrybutów Popularne zachłanne podejścia: backward elimination forward selection Backward elimination 1 2 3 4 • Model zawiera wszystkie atrybuty • Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper) • Usunięcie z modelu najgorzej ocenionego atrybutu • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 • Warunki stopu: • osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów Forward selection 1 2 3 4 • Model nie zawiera atrybutów • Ocena poszczególnych atrybutów. • Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu • Dodanie do modelu najlepiej ocenionego atrybutu • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 • Warunki stopu: • osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów Metody wrapper – koncepcja Breimana Breiman opracował metodę analizy wartości informacyjnej dla Random Forest. Metoda ta, była później stosowana również dla innych klasyfikatorów. Działanie polega na zamianie wartości na analizowanym atrybucie poprzez permutowanie wartości tego atrybutu w przykładach testowych Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami. Im wyższy wskaźnik B, tym atrybut posiada większą wartość informacyjną Metoda na obecność (PP) Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna H ¬H E ¬E klasa decyzyjna y (hipoteza poprawnej klasy) klasa decyzyjna ¬y odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Pr 𝑦| 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥 =𝑦 Metoda na niezbędność (PN) Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie H ¬H klasa decyzyjna y (hipoteza poprawnej klasy) klasa decyzyjna ¬y E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y ¬E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y, albo f(x) = ¬y, natomiast f(pi(x)) = y lub f(pi(x)) = ¬y, Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥 lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 ≥ i 𝑓 𝑥 = ¬𝑦 Nowe metody wyznaczania wartości informacyjnej Pr 𝑦| 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥 PP : PN: Porównanie tych prawdopodobieństw: jest pytaniem o Bayesowską konfirmację: =𝑦 Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥 lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 ≥ i 𝑓 𝑥 = ¬𝑦 Nowe metody wyznaczania wartości informacyjnej Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S: Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP): jest równoważny Nowe metody wyznaczania wartości informacyjnej (metoda na obecność PP) a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem atrybutu i, b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału atrybutu i, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y z udziałem atrybutu i, d to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y bez udziału atrybutu i. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H) Nowe metody wyznaczania wartości informacyjnej (metoda na niezbędność PN) a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału, b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału, d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub ¬H) Nowe metody wyznaczania wartości informacyjnej Metoda Breimana daje taki sam porządek atrybutów jak PP Miara c1 tak samo, ale wniosek nie jest tak oczywisty Nowe metody wyznaczania wartości informacyjnej Analiza uzyskanych wyników Proces CV: 100 razy Procesu baggingu: 30 razy Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA Analizowane zbiory z UCI Machine Learning Repository breast-w diabetes heart-statlog ionosphere lymph mushroom parkinsons promoters spectf vote Analiza uzyskanych wyników Zbiór l. atrybutów l. klas l. obiektów breast-w 10 2 699 diabetes 8 2 768 heart-statlog 13 2 270 ionosphere 34 2 351 lymph 19 4 148 mushroom 22 2 8124 parkinsons 23 2 197 promoters 59 2 106 spectf 44 2 267 vote 16 2 435 Analiza uzyskanych wyników - metoda PP Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora Analiza uzyskanych wyników - metoda PN Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora, niż w metodzie PP Analiza uzyskanych wyników metodami PP oraz PN Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7) Analiza uzyskanych wyników Parkinsons – S(PN) Ujemne wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną Analiza uzyskanych wyników Parkinsons – S(PP) Dodatnie wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną Analiza uzyskanych wyników Vote Analiza uzyskanych wyników Mushroom Analiza uzyskanych wyników MC Połowa atrybutów posiadających największą wartość informacyjną LC Połowa atrybutów posiadających najmniejszą wartość informacyjną MC<ORG W ilu przypadkach trafność klasyfikacji pogorszyła się po usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora posiadającego wszystkie atrybuty MC<LC W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora wykorzystującego LC Analiza uzyskanych wyników Analiza uzyskanych wyników MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną Analiza uzyskanych wyników Kilka przypadków w których MC<LC Analiza uzyskanych wyników Analiza uzyskanych wyników Podsumowanie Zaproponowane metody są typu wrapper i z powodzeniem mogą być stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu „czarnej skrzynki” Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i Podsumowanie Poprawność działania została przetestowana z wykorzystaniem 5 różnych klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami) Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w procesie szacowania wartości informacyjnej Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są podobne. Dziękuję za uwagę