Krystyna Napierała
Transkrypt
Krystyna Napierała
„Konstruowanie klasyfikatorów regułowych z niezrównoważonych danych” Krystyna Napierała Stypendystka projektu pt. „Wsparcie stypendialne dla doktorantów na kierunkach uznanych za strategiczne z punktu widzenia rozwoju Wielkopolski”, Poddziałanie 8.2.2 Programu Operacyjnego Kapitał Ludzki Praca doktorska, realizowana na kierunku informatyka, dotyczy analizy danych i uczenia maszynowego. W czasach gdy gromadzenie danych jest tanie, firmy przechowują ogromne ilości potencjalnie użytecznych danych, problemem jest natomiast uzyskanie na ich podstawie użytecznej wiedzy. The Economist11 wskazuje, że tylko dostarczenie skutecznych narzędzi analizy danych pozwoli uwolnić zamknięty w danych gromadzonych przez większość instytucji ogromny potencjał wartości. Jednym z obiecujących kierunków badań jest zastosowanie do tego celu algorytmów uczenia maszynowego, które mają za zadanie nauczyć się przydzielać obiekty do odpowiedniej klasy, korzystając z wiedzy zawartej w danych historycznych. Przykładem może być problem wykrywania podejrzanych operacji wykonywanych za pomocą kart kredytowych. Na podstawie historycznych danych (tzw. danych uczących) reprezentujących dwie klasy operacji - typowe schematy korzystania z kart oraz reprezentujące nadużycia finansowe - algorytmy te uczą się rozpoznawać, czy wykonana właśnie operacja finansowa (lub szereg operacji) jest uprawnionym czy nieuprawnionym użyciem karty, i natychmiast powiadomić o tym odpowiedniego pracownika banku. Przy ilości operacji rejestrowanych przez banki, taka analiza bez użycia automatycznych narzędzi byłaby niemożliwa. Niniejsza praca doktorska zajmuje się problemem, gdy w danych uczących przykłady reprezentujące jedną klasę są dużo mniej liczne niż przykłady z pozostałych klas, a jednocześnie prawidłowe rozpoznanie przykładów z tej klasy jest kluczowe. Mówi się wtedy o danych niezrównoważonych, w których występuje klasa mniejszościowa i klasy większościowe. Taka sytuacja dotyczy m.in. opisanego wyżej problemu klasyfikacji operacji finansowych – w danych historycznych nadużycia będą stanowić niewielki procent 1 The Economist, „Big Data will flood the planet”, 17.11.2011 Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego wszystkich zarejestrowanych operacji, a jednocześnie prawidłowe rozpoznanie takich operacji jest priorytetem. Problem danych niezrównoważonych dotyczy także bezpieczeństwa (automatyczne wykrywanie przestępstw na zdjęciach z kamer), medycyny (diagnostyka rzadkich chorób), diagnostyki technicznej (wykrywanie awarii i błędów produkcyjnych) czy informatyki (wykrywanie spamu, klasyfikacja dokumentów). Uczenie z danych niezrównoważonych jest trudne dla większości algorytmów, które zakładają równy rozkład w klasach i przez to dyskryminują klasę mniejszościową, koncentrując się wyłącznie na poprawnym rozpoznawaniu klasy większościowej. Stworzenie metod które poprawią jakość uczenia z danych niezrównoważonych ma więc istotne znaczenie praktyczne i jest ważnym problemem badawczym. Podczas konferencji IEEE International Conference on Data Mining (Houston, USA) uznano uczenie z danych niezrównoważonych za jedno z 10 najważniejszych wyzwań analizy danych. W ramach pracy doktorskiej przeprowadzono systematyczną analizę czynników związanych z charakterystyką danych niezrównoważonych, powodujących trudności w uczeniu. Przebadano również, jakie mechanizmy wykorzystywane w samym procesie uczenia są niedostosowane do danych niezrównoważonych. Na podstawie tych badań zaproponowano nowy algorytm uczenia, który na wielu poziomach adresuje problem danych niezrównoważonych. Algorytm ten potrafi zwiększyć liczbę poprawnie rozpoznanych przykładów z klasy mniejszościowej nawet o kilkadziesiąt procent. Zaproponowano również algorytm, w którym wykorzystuje się interaktywne uczenie z udziałem eksperta. W tym algorytmie ekspert w danej dziedzinie może aktywnie uczestniczyć w procesie uczenia, aby wspomóc tworzenie definicji dla klasy mniejszościowej. Oba algorytmy zostały opublikowane w prestiżowych amerykańskich czasopismach naukowych. Prace te mogą znaleźć istotne zastosowanie w każdej branży, w której automatyczna interpretacja dostępnych danych wykonywana na bieżąco i wspomagająca decyzje człowieka może zwiększyć konkurencyjność firmy. Ze względu na to, że uczenie maszynowe nie wymaga budowy drogiej infrastruktury a algorytmy są uniwersalnie stosowane w różnych dziedzinach, na tych rozwiązaniach mogą skorzystać także małe i średnie przedsiębiorstwa z regionu. Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego