Wykrywanie nietypowosci w danych rzeczywistych

Transkrypt

Wykrywanie nietypowosci w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych
dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS
Nowak-Brzezińska, Turos
SIO 2014
1
Agenda
1
Cel badań
2
Eksploracja odchyleń
3
Metody wykrywania odchyleń
4
Eksperymenty
5
Wnioski
6
Nowe badania
Nowak-Brzezińska, Turos
SIO 2014
2
Cel badań
ODCHYLENIE!
ODCHYLENIA?
ODCHYLENIA!
ODCHYLENIE!
Nowak-Brzezińska, Turos
SIO 2014
3
Odchylenia – błędy czy istotne
informacje (I)
Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje
podejrzenie, iż wygenerował go odmienny mechanizm .[Hawkins]
Nowak-Brzezińska, Turos
SIO 2014
4
Odchylenia – błędy czy istotne
informacje (II)
Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane
odchylenia muszą świadczyć o wykrytym błędzie!
•
•
•
•
•
•
Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych
pracowników,
Nieautoryzowane wejścia do systemów,
Metadane monitoringów IT,
Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart
kredytowych),
Specyficzne zachowania grup konsumentów,
Identyfikacja wadliwych serii produkcyjnych.
Nowak-Brzezińska, Turos
SIO 2014
5
Eksploracja odchyleń – podział
metod
• Oparte na rozkładzie danych (ang. distribution-based),
• Oparte na odległości danych (ang. distance-based),
• Oparte na gęstości (ang. density-based),
• Oparte na grupowaniu (ang. clustering-based).
Nowak-Brzezińska, Turos
SIO 2014
6
Metody bazujące na rozkładzie
danych
Metoda ze średniej i odchylenia standardowego – elementem odstającym V jest
każda obserwacja Vi oddalona o więcej niż p odchylenia od średniej:
srednia A  p  A , srednia A  p  A
gdzie:
•srednia(A) – wartość średnia atrybutu,
•σA – odchylenie standardowe atrybutu,
•p – parametr mocy testu (najczęstsze wartości w literaturze [2,3]),
•Vi – i-ta wartość atrybutu,
•Vi’ – i-ta wartość atrybutu po standaryzacji.
Metoda z rozstępu międzykwartylnego – elementem odstającym jest każda wartość,
która jest położona przynajmniej o p razy IQR poniżej Q1 lub p razy IQR
powyżej Q3
Q1  p  IQR, Q3  p  IQR
gdzie:
•
Q1 – kwartyl pierwszy,
•
Q3 – kwartyl trzeci,
•
IQR= Q3-Q1,
•
p – parametr mocy testu (najczęstsze wartości w literaturze [1.5,3] .
Nowak-Brzezińska, Turos
SIO 2014
7
Algorytm k-średnich
1. Podziel zbiór na k wstępnych skupień,
2. Oblicz centroidy dla każdej z grup,
3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy,
której centroid leży najbliżej,
4. Powtarzaj kroki 2 – 3 dopóki następują zmiany przyporządkowania.
MIARA GOWERA
ODLEGŁOŚĆ EUKLIDESOWA
Dobrze sobie radzi ze zbiorami
wielowymiarowymi
Nie radzi sobie ze zbiorami
wielowymiarowymi
Wspiera cechy jakościowe
Brak wsparcia dla cech jakościowych
(pomijanie w analizie cech jakościowych,
bądź niemożliwość zastosowania
algorytmu)
Elastyczność metody: łatwo dostosowuje
się do danych binarnych, ciągłych,
dyskretnych
Raczej do zastosowania przy analizie
danych ciągłych
Nowak-Brzezińska, Turos
SIO 2014
8
Metody oparte na grupowaniu
danych (I)
Odchylenie – obiekt, który w przeciwieństwie do regularnych danych nie
wchodzi w skład większego skupienia.
•
•
•
Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt
odchylony o p od średniego podobieństwa/odległości w jego grupie.
Skupienie wpływowe (ang. influential cluster) definiowane jako
skupienie odchylone od średniego podobieństwa/odległości pomiędzy
skupieniami o wartość wyrażaną jako p   j  dla parametru p i liczby
dziesiątek liczby n obiektów w zbiorze (j),
Skupienie odstające (ang. cluster outlier) definiowane jako skupienie,
którego
liczebność
jest
nie
większa
niż
2j 
  , gdzie j – liczba dziesiątek z liczby oznaczającej liczbę n obiektów w
k
zbiorze zaś k oznacza liczbę skupień.
Nowak-Brzezińska, Turos
SIO 2014
9
Metody oparte na grupowaniu
danych (II)
Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3
minimalna liczność skupienia by nie uznać go za odstające wynosi
26
3
= 21,33 ≈ 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1
26
obiekt (bo 33 = 1,93), itd.
• Wykrycie
odchyleń
możliwe
bazując
na
macierzy
podobieństwa/odległości między obiektami a środkami skupień
(centroidami) dla najlepszej iteracji (dostarczającej największej wartości
sumy kwadratów różnic, TC).
• Podejście niebinarne do zbioru danych.
• Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla
poszczególnych atrybutów z osobna.
• Szukanie błędów w danych (podejście binarne), a wykrywanie danych
nietypowych (podejście niebinarne).
Nowak-Brzezińska, Turos
SIO 2014
10
Implementacja w R
Nazwa funkcji
quanqual.check()
quanqual.freqdiagram()
missing.insert()
missing.remove()
detectoutlier.meanstd, medianstd,
quartile()
detectoutlier.kmeans, kmeans2()
opis funkcji
bada typy cech w zbiorze (jakosciowe i ilosciowe)
graficzna reprezentacja rozłozenia typów cech w zbiorze
danych (wykres kołowy (type=’p’) lub słupkowy (type = ‘b’)
uzupełnia braki w danych srednia lub modalna, badz
dowolnym symbolem
usuwa obiekty z brakujacymi wartosciami
identyfikuje obserwacje nietypowe przy użyciu metod:
średniej arytmetycznej bądź mediany i odchylenia
standardowego lub rozstępu międzykwartylowego
wykrywa obiekty nietypowe przy uzyciu metody opartej o
algorytm k-srednich
removeoutlier.meanstd, medianstd,
quartile()
usuwa odchylenia
removeoutlier.kmeans, kmeans2()
j.w. dla metody k-srednich
summaryoutlier.meanstd,medianstd,
quartile()
podsumowanie elementów nietypowych w danych
summaryoutlier.kmeans,kmeans2()
j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane:
InfluentialOutlier (odchylenie wewnątrz grupy),
InfluentialCluster (obiekty odchylonej grupy od pozostałych
skupień), ClusterOutlier (małoliczne skupienie).
Nowak-Brzezińska, Turos
SIO 2014
11
Plan eksperymentów
• Przeanalizowano 36 przypadków na zbiorach danych o różnym
rozkładzie, wielkości i typie atrybutów.
• Cztery zbiory danych: Iris, Car Evaluation, Credit Approval,
Movement Libras - dostępne w UCI Machine Learning
Repository.
• Cztery metody wykrywania odchyleń: „ze średniej i odchylenia
standardowego”, „z rozstępu międzykwartylowego”, oparte na
analizie skupień (metoda klasyczna oraz autorska).
• Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie
danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień).
Nowak-Brzezińska, Turos
SIO 2014
12
Eksperymenty – metody oparte na
rozkładzie danych
Nazwa
zbioru
1,5
Iris
2
3
1,5
Credit
Approval
2
3
Car
Evaluation
Średnia arytmetyczna i odchylenie standardowe
p
1
1,5
Movement
46
Rozstęp międzykwartylny
4
30,67%
11
2,67%
1
7,33%
1
0,67%
0
0,67%
207
0%
219
30%
111
31,7%
182
16%
52
26,3%
116
7,54%
0
16,81%
0
0%
283
0%
4
78,6%
119
1,11%
0
2
Libras
33,1%
3
Nowak-Brzezińska, Turos
2
0%
0
0,6%
SIO 2014
0,6%
13
Eksperymenty – metody oparte na
analizie skupień
k-średnich
Nazwa zbioru
p
0,1
Autorska
Klasyczna
Najlepsza
iteracja
Najlepsza
iteracja
50
101
33,31%
67,33%
Iris
0,2
0
0
0%
39
Credit Approval
162
5,65%
0,1
0,2
0%
4
23,4%
8
0,58%
463
1,16%
615
26,79%
0,1
35,59%
Car Evaluation
0,2
24
344
1,39%
4
19,91%
4
1,11%
0,1
1,11%
Movement Libras
0,2
Nowak-Brzezińska, Turos
0
0
0%
SIO 2014
0%
14
Eksperymenty - podsumowanie
• Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba
wykrytych odchyleń.
• Metody statystyczne dały satysfakcjonujące wyniki dopiero dla
największej mocy testu (p = 3).
• Metody statystyczne nie poradziły sobie z typowo jakościowym
zbiorem danych Car Evaluation.
• Zaproponowana metoda wykrywania odchyleń w oparciu o
algorytm k-średnich zwróciła rozsądne wyniki.
• Należy określić przeznaczenie wykonywanego testu, ponieważ ma
to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny
lub niebinarny.
• Metody oparte na analizie skupień mogą być uważane za
rozwiązanie kompleksowe.
• Wartym przeanalizowania jest binaryzacja autorskiej metody
wykrywania odchyleń opartej na analizie skupień.
Nowak-Brzezińska, Turos
SIO 2014
15
Nowe badania
Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie
danych doskonale nadają się do wykrywania odchyleń w metadanych
monitoringów.
Nowak-Brzezińska, Turos
SIO 2014
16
Bibliografia
•
•
•
•
•
•
•
•
•
•
•
Larose D.: „Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych”,
Wydawnictwo PWN, 2006.
Jiawei Han, Micheline Kamber, Jian Pei: „Data Mining: Concepts and Techniques”,
Elsevier, 2012.
Nowak-Brzezińska A.: „Eksploracja odchyleń w regułowych bazach wiedzy”, Studia
Informatica, 2012.
Hawkins D.: „Identification of Outliers”, Chapman and Hall, 1980.
Tomkowicz M.: „Wpływ odchyleń na jakość grupowania danych wielowymiarowych.
Praca magisterska”, Uniwersytet Śląski, 2013.
Nowak-Brzezińska A.: „Wykrywanie reguł nietypowych – metody oparte na analizie
skupień”, Studia Informatica, 2013.
Turos A.: „Analiza metod wykrywania odchyleń w danych wielowymiarowych”, praca
magisterska, Uniwersytet Śląski, 2013.
MacQueen J.: „Some Methods for classification and Analysis of Multivariate
Observations”, University of California, 1967.
Tryon R.: „Cluster Analysis”, 1939.
Xu R., Wunsch D.: „Clustering, Willey, 2008.
Myatt G., Johnson W.: „Making sense of data”, Willey, 2009.
Nowak-Brzezińska, Turos
SIO 2014
17
Dane kontaktowe
• dr Agnieszka NOWAK-BRZEZIŃSKA
[email protected]
Uniwersytet Śląski
Instytut Informatyki
Zakład Systemów Informatycznych
ul. Będzińska 39
41-200 Sosnowiec
• mgr Artur TUROS
[email protected]
Nowak-Brzezińska, Turos
SIO 2014
18
Nowe podejście do wykrywania
odchyleń z k-Means
•
Odchyleniem jest każde skupienie
odstające Ks = {x1, x2,…,xi}, którego liczność
2j 
(i) jest nie większa niż   , gdzie: Ks – to s-te skupienie,
k
j- liczba dziesiątek liczby n obiektów w zbiorze, i – liczba obiektów należących do
skupienia, xi- i-ty obiekt należący do skupienia Ks,
k –liczba skupień.
•
Odchyleniem jest każdy obiekt wpływowy xis, którego podobieństwo jest p razy
mniejsze od średniego podobieństwa jego skupienia Ks: p( xis , K s )  (( p( K s )  ( p  p( K,s )))
gdzie p( x is , K-s )podobieństwo i-tego obiektu do centrum jego s-tego skupienia,( p( K s ))
- średnie podobieństwo w s-tym skupieniu, p – parametr.
• Odchyleniem jest każde skupienie wpływowe Kj, którego średnie podobieństwo do
pozostałych skupień jest p  j razy mniejsze od średniego podobieństwa pomiędzy
skupieniami K: p( K , K s )  (( p( K )  ( p  ( j ) p( K ))) , gdzie: ( p( K )) - średnie
podobieństwo skupienia Ks z osiąganych podobieństw do pozostałych skupień,
p( K , K s ) - średnie podobieństwo pomiędzy skupieniami, p –parametr, j –
liczba dziesiątek n liczby obiektów.
Nowak-Brzezińska, Turos
SIO 2014
19
Miara Gowera
Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi.
gdzie:
Wijk – waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu
obiektów oi oraz oj, natomiast 1 w przeciwnym przypadku
Sijk – wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych:
Dla danych ilościowych:
gdzie:
Rk – rozstęp zmiennej k,
xik, xjk – wartość k-tej zmiennej dla obiektów i, j.
Dla danych jakościowych:
gdy obiekty i, j maja taką samą k-tą zmienną,
gdy obiekty i, j maja taką różną k-tą zmienną.
Nowak-Brzezińska, Turos
SIO 2014
20