Wykrywanie nietypowosci w danych rzeczywistych
Transkrypt
Wykrywanie nietypowosci w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS Nowak-Brzezińska, Turos SIO 2014 1 Agenda 1 Cel badań 2 Eksploracja odchyleń 3 Metody wykrywania odchyleń 4 Eksperymenty 5 Wnioski 6 Nowe badania Nowak-Brzezińska, Turos SIO 2014 2 Cel badań ODCHYLENIE! ODCHYLENIA? ODCHYLENIA! ODCHYLENIE! Nowak-Brzezińska, Turos SIO 2014 3 Odchylenia – błędy czy istotne informacje (I) Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje podejrzenie, iż wygenerował go odmienny mechanizm .[Hawkins] Nowak-Brzezińska, Turos SIO 2014 4 Odchylenia – błędy czy istotne informacje (II) Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane odchylenia muszą świadczyć o wykrytym błędzie! • • • • • • Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów, Metadane monitoringów IT, Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart kredytowych), Specyficzne zachowania grup konsumentów, Identyfikacja wadliwych serii produkcyjnych. Nowak-Brzezińska, Turos SIO 2014 5 Eksploracja odchyleń – podział metod • Oparte na rozkładzie danych (ang. distribution-based), • Oparte na odległości danych (ang. distance-based), • Oparte na gęstości (ang. density-based), • Oparte na grupowaniu (ang. clustering-based). Nowak-Brzezińska, Turos SIO 2014 6 Metody bazujące na rozkładzie danych Metoda ze średniej i odchylenia standardowego – elementem odstającym V jest każda obserwacja Vi oddalona o więcej niż p odchylenia od średniej: srednia A p A , srednia A p A gdzie: •srednia(A) – wartość średnia atrybutu, •σA – odchylenie standardowe atrybutu, •p – parametr mocy testu (najczęstsze wartości w literaturze [2,3]), •Vi – i-ta wartość atrybutu, •Vi’ – i-ta wartość atrybutu po standaryzacji. Metoda z rozstępu międzykwartylnego – elementem odstającym jest każda wartość, która jest położona przynajmniej o p razy IQR poniżej Q1 lub p razy IQR powyżej Q3 Q1 p IQR, Q3 p IQR gdzie: • Q1 – kwartyl pierwszy, • Q3 – kwartyl trzeci, • IQR= Q3-Q1, • p – parametr mocy testu (najczęstsze wartości w literaturze [1.5,3] . Nowak-Brzezińska, Turos SIO 2014 7 Algorytm k-średnich 1. Podziel zbiór na k wstępnych skupień, 2. Oblicz centroidy dla każdej z grup, 3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy, której centroid leży najbliżej, 4. Powtarzaj kroki 2 – 3 dopóki następują zmiany przyporządkowania. MIARA GOWERA ODLEGŁOŚĆ EUKLIDESOWA Dobrze sobie radzi ze zbiorami wielowymiarowymi Nie radzi sobie ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Brak wsparcia dla cech jakościowych (pomijanie w analizie cech jakościowych, bądź niemożliwość zastosowania algorytmu) Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych, dyskretnych Raczej do zastosowania przy analizie danych ciągłych Nowak-Brzezińska, Turos SIO 2014 8 Metody oparte na grupowaniu danych (I) Odchylenie – obiekt, który w przeciwieństwie do regularnych danych nie wchodzi w skład większego skupienia. • • • Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt odchylony o p od średniego podobieństwa/odległości w jego grupie. Skupienie wpływowe (ang. influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek liczby n obiektów w zbiorze (j), Skupienie odstające (ang. cluster outlier) definiowane jako skupienie, którego liczebność jest nie większa niż 2j , gdzie j – liczba dziesiątek z liczby oznaczającej liczbę n obiektów w k zbiorze zaś k oznacza liczbę skupień. Nowak-Brzezińska, Turos SIO 2014 9 Metody oparte na grupowaniu danych (II) Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3 minimalna liczność skupienia by nie uznać go za odstające wynosi 26 3 = 21,33 ≈ 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1 26 obiekt (bo 33 = 1,93), itd. • Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości sumy kwadratów różnic, TC). • Podejście niebinarne do zbioru danych. • Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla poszczególnych atrybutów z osobna. • Szukanie błędów w danych (podejście binarne), a wykrywanie danych nietypowych (podejście niebinarne). Nowak-Brzezińska, Turos SIO 2014 10 Implementacja w R Nazwa funkcji quanqual.check() quanqual.freqdiagram() missing.insert() missing.remove() detectoutlier.meanstd, medianstd, quartile() detectoutlier.kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type=’p’) lub słupkowy (type = ‘b’) uzupełnia braki w danych srednia lub modalna, badz dowolnym symbolem usuwa obiekty z brakujacymi wartosciami identyfikuje obserwacje nietypowe przy użyciu metod: średniej arytmetycznej bądź mediany i odchylenia standardowego lub rozstępu międzykwartylowego wykrywa obiekty nietypowe przy uzyciu metody opartej o algorytm k-srednich removeoutlier.meanstd, medianstd, quartile() usuwa odchylenia removeoutlier.kmeans, kmeans2() j.w. dla metody k-srednich summaryoutlier.meanstd,medianstd, quartile() podsumowanie elementów nietypowych w danych summaryoutlier.kmeans,kmeans2() j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane: InfluentialOutlier (odchylenie wewnątrz grupy), InfluentialCluster (obiekty odchylonej grupy od pozostałych skupień), ClusterOutlier (małoliczne skupienie). Nowak-Brzezińska, Turos SIO 2014 11 Plan eksperymentów • Przeanalizowano 36 przypadków na zbiorach danych o różnym rozkładzie, wielkości i typie atrybutów. • Cztery zbiory danych: Iris, Car Evaluation, Credit Approval, Movement Libras - dostępne w UCI Machine Learning Repository. • Cztery metody wykrywania odchyleń: „ze średniej i odchylenia standardowego”, „z rozstępu międzykwartylowego”, oparte na analizie skupień (metoda klasyczna oraz autorska). • Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień). Nowak-Brzezińska, Turos SIO 2014 12 Eksperymenty – metody oparte na rozkładzie danych Nazwa zbioru 1,5 Iris 2 3 1,5 Credit Approval 2 3 Car Evaluation Średnia arytmetyczna i odchylenie standardowe p 1 1,5 Movement 46 Rozstęp międzykwartylny 4 30,67% 11 2,67% 1 7,33% 1 0,67% 0 0,67% 207 0% 219 30% 111 31,7% 182 16% 52 26,3% 116 7,54% 0 16,81% 0 0% 283 0% 4 78,6% 119 1,11% 0 2 Libras 33,1% 3 Nowak-Brzezińska, Turos 2 0% 0 0,6% SIO 2014 0,6% 13 Eksperymenty – metody oparte na analizie skupień k-średnich Nazwa zbioru p 0,1 Autorska Klasyczna Najlepsza iteracja Najlepsza iteracja 50 101 33,31% 67,33% Iris 0,2 0 0 0% 39 Credit Approval 162 5,65% 0,1 0,2 0% 4 23,4% 8 0,58% 463 1,16% 615 26,79% 0,1 35,59% Car Evaluation 0,2 24 344 1,39% 4 19,91% 4 1,11% 0,1 1,11% Movement Libras 0,2 Nowak-Brzezińska, Turos 0 0 0% SIO 2014 0% 14 Eksperymenty - podsumowanie • Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba wykrytych odchyleń. • Metody statystyczne dały satysfakcjonujące wyniki dopiero dla największej mocy testu (p = 3). • Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation. • Zaproponowana metoda wykrywania odchyleń w oparciu o algorytm k-średnich zwróciła rozsądne wyniki. • Należy określić przeznaczenie wykonywanego testu, ponieważ ma to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny lub niebinarny. • Metody oparte na analizie skupień mogą być uważane za rozwiązanie kompleksowe. • Wartym przeanalizowania jest binaryzacja autorskiej metody wykrywania odchyleń opartej na analizie skupień. Nowak-Brzezińska, Turos SIO 2014 15 Nowe badania Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie danych doskonale nadają się do wykrywania odchyleń w metadanych monitoringów. Nowak-Brzezińska, Turos SIO 2014 16 Bibliografia • • • • • • • • • • • Larose D.: „Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych”, Wydawnictwo PWN, 2006. Jiawei Han, Micheline Kamber, Jian Pei: „Data Mining: Concepts and Techniques”, Elsevier, 2012. Nowak-Brzezińska A.: „Eksploracja odchyleń w regułowych bazach wiedzy”, Studia Informatica, 2012. Hawkins D.: „Identification of Outliers”, Chapman and Hall, 1980. Tomkowicz M.: „Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska”, Uniwersytet Śląski, 2013. Nowak-Brzezińska A.: „Wykrywanie reguł nietypowych – metody oparte na analizie skupień”, Studia Informatica, 2013. Turos A.: „Analiza metod wykrywania odchyleń w danych wielowymiarowych”, praca magisterska, Uniwersytet Śląski, 2013. MacQueen J.: „Some Methods for classification and Analysis of Multivariate Observations”, University of California, 1967. Tryon R.: „Cluster Analysis”, 1939. Xu R., Wunsch D.: „Clustering, Willey, 2008. Myatt G., Johnson W.: „Making sense of data”, Willey, 2009. Nowak-Brzezińska, Turos SIO 2014 17 Dane kontaktowe • dr Agnieszka NOWAK-BRZEZIŃSKA [email protected] Uniwersytet Śląski Instytut Informatyki Zakład Systemów Informatycznych ul. Będzińska 39 41-200 Sosnowiec • mgr Artur TUROS [email protected] Nowak-Brzezińska, Turos SIO 2014 18 Nowe podejście do wykrywania odchyleń z k-Means • Odchyleniem jest każde skupienie odstające Ks = {x1, x2,…,xi}, którego liczność 2j (i) jest nie większa niż , gdzie: Ks – to s-te skupienie, k j- liczba dziesiątek liczby n obiektów w zbiorze, i – liczba obiektów należących do skupienia, xi- i-ty obiekt należący do skupienia Ks, k –liczba skupień. • Odchyleniem jest każdy obiekt wpływowy xis, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia Ks: p( xis , K s ) (( p( K s ) ( p p( K,s ))) gdzie p( x is , K-s )podobieństwo i-tego obiektu do centrum jego s-tego skupienia,( p( K s )) - średnie podobieństwo w s-tym skupieniu, p – parametr. • Odchyleniem jest każde skupienie wpływowe Kj, którego średnie podobieństwo do pozostałych skupień jest p j razy mniejsze od średniego podobieństwa pomiędzy skupieniami K: p( K , K s ) (( p( K ) ( p ( j ) p( K ))) , gdzie: ( p( K )) - średnie podobieństwo skupienia Ks z osiąganych podobieństw do pozostałych skupień, p( K , K s ) - średnie podobieństwo pomiędzy skupieniami, p –parametr, j – liczba dziesiątek n liczby obiektów. Nowak-Brzezińska, Turos SIO 2014 19 Miara Gowera Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi. gdzie: Wijk – waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu obiektów oi oraz oj, natomiast 1 w przeciwnym przypadku Sijk – wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: Rk – rozstęp zmiennej k, xik, xjk – wartość k-tej zmiennej dla obiektów i, j. Dla danych jakościowych: gdy obiekty i, j maja taką samą k-tą zmienną, gdy obiekty i, j maja taką różną k-tą zmienną. Nowak-Brzezińska, Turos SIO 2014 20