Krystyna Napierała

Transkrypt

Krystyna Napierała
„Konstruowanie klasyfikatorów regułowych z niezrównoważonych
danych”
Krystyna Napierała
Stypendystka projektu pt. „Wsparcie stypendialne dla doktorantów na kierunkach uznanych za
strategiczne z punktu widzenia rozwoju Wielkopolski”, Poddziałanie 8.2.2 Programu
Operacyjnego Kapitał Ludzki
Praca doktorska, realizowana na kierunku informatyka, dotyczy
analizy danych i uczenia maszynowego. W czasach gdy gromadzenie
danych jest tanie, firmy przechowują ogromne ilości potencjalnie
użytecznych danych, problemem jest natomiast uzyskanie na ich
podstawie użytecznej wiedzy. The Economist11 wskazuje, że tylko
dostarczenie skutecznych narzędzi analizy danych pozwoli uwolnić
zamknięty w danych gromadzonych przez większość instytucji ogromny potencjał wartości.
Jednym z obiecujących kierunków badań jest zastosowanie do tego celu algorytmów
uczenia maszynowego, które mają za zadanie nauczyć się przydzielać obiekty do
odpowiedniej klasy, korzystając z wiedzy zawartej w danych historycznych. Przykładem
może być problem wykrywania podejrzanych operacji wykonywanych za pomocą kart
kredytowych. Na podstawie historycznych danych (tzw. danych uczących) reprezentujących
dwie klasy operacji - typowe schematy korzystania z kart oraz reprezentujące nadużycia
finansowe - algorytmy te uczą się rozpoznawać, czy wykonana właśnie operacja finansowa
(lub szereg operacji) jest uprawnionym czy nieuprawnionym użyciem karty, i natychmiast
powiadomić o tym odpowiedniego pracownika banku. Przy ilości operacji rejestrowanych
przez banki, taka analiza bez użycia automatycznych narzędzi byłaby niemożliwa.
Niniejsza praca doktorska zajmuje się problemem, gdy w danych uczących przykłady
reprezentujące jedną klasę są dużo mniej liczne niż przykłady z pozostałych klas, a
jednocześnie prawidłowe rozpoznanie przykładów z tej klasy jest kluczowe. Mówi się wtedy o
danych
niezrównoważonych,
w
których
występuje
klasa
mniejszościowa
i
klasy
większościowe. Taka sytuacja dotyczy m.in. opisanego wyżej problemu klasyfikacji operacji
finansowych – w danych historycznych nadużycia będą stanowić niewielki procent
1
The Economist, „Big Data will flood the planet”, 17.11.2011
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
wszystkich zarejestrowanych operacji, a jednocześnie prawidłowe rozpoznanie takich
operacji
jest
priorytetem.
Problem
danych
niezrównoważonych
dotyczy
także
bezpieczeństwa (automatyczne wykrywanie przestępstw na zdjęciach z kamer), medycyny
(diagnostyka rzadkich chorób), diagnostyki technicznej (wykrywanie awarii i błędów
produkcyjnych) czy informatyki (wykrywanie spamu, klasyfikacja dokumentów).
Uczenie z danych niezrównoważonych jest trudne dla większości algorytmów, które
zakładają równy rozkład w klasach i przez to dyskryminują klasę mniejszościową,
koncentrując się wyłącznie na poprawnym rozpoznawaniu klasy większościowej. Stworzenie
metod które poprawią jakość uczenia z danych niezrównoważonych ma więc istotne
znaczenie praktyczne i jest ważnym problemem badawczym. Podczas konferencji IEEE
International Conference on Data Mining (Houston, USA) uznano uczenie z danych
niezrównoważonych za jedno z 10 najważniejszych wyzwań analizy danych.
W ramach pracy doktorskiej przeprowadzono systematyczną analizę czynników
związanych z charakterystyką danych niezrównoważonych, powodujących trudności
w
uczeniu. Przebadano również, jakie mechanizmy wykorzystywane w samym procesie
uczenia są niedostosowane do danych niezrównoważonych. Na podstawie tych badań
zaproponowano nowy algorytm uczenia, który na wielu poziomach adresuje problem danych
niezrównoważonych. Algorytm ten potrafi zwiększyć liczbę poprawnie rozpoznanych
przykładów z klasy mniejszościowej nawet o kilkadziesiąt procent. Zaproponowano również
algorytm, w którym wykorzystuje się interaktywne uczenie z udziałem eksperta. W tym
algorytmie ekspert w danej dziedzinie może aktywnie uczestniczyć w procesie uczenia, aby
wspomóc tworzenie definicji dla klasy mniejszościowej. Oba algorytmy zostały opublikowane
w prestiżowych amerykańskich czasopismach naukowych.
Prace te mogą znaleźć istotne zastosowanie w każdej branży, w której automatyczna
interpretacja dostępnych danych wykonywana na bieżąco i wspomagająca decyzje człowieka
może zwiększyć konkurencyjność firmy. Ze względu na to, że uczenie maszynowe nie
wymaga budowy drogiej infrastruktury a algorytmy są uniwersalnie stosowane w różnych
dziedzinach, na tych rozwiązaniach mogą skorzystać także małe i średnie przedsiębiorstwa z
regionu.
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego

Podobne dokumenty