Pobierz artykuł PDF

Transkrypt

Pobierz artykuł PDF

REDUKCJA WYMIAROWOĝCI SZEREGÓW CZASOWYCH
MACIEJ KRAWCZAK
GRA
YNA SZKATUŁA
Instytut Bada Systemowych PAN
Streszczenie
Wprowadzono dyskretne obwiednie szeregów czasowych, zaproponowano
sposób ich agregacji oraz metod wyznaczania wartoci cech istotnych,
reprezentujcych pierwotne szeregi czasowe. Rozwaania zilustrowano na
przykładzie zagadnienia klasyfikacji szeregów czasowych. Na podstawie cech
istotnych reprezentujcych szeregi czasowe wygenerowano reguły majce posta
wyrae logicznych „JE
ELI s spełnione okrelone warunki TO zachodzi
przynaleno do okrelonej klasy”, które zastosowano do klasyfikowania nowych
szeregów, dla których nie była znana przynaleno do okrelonej klasy.
Słowa kluczowe: szeregi czasowe, obwiednie szeregów czasowych, klasyfikacja, uczenie
maszynowe na podstawie przykładów, reguły decyzyjne.
1. Wprowadzenie
W cigu ostatnich kilku latach mona zaobserwowa wzrastajce zainteresowanie analiz
danych w postaci strumieni danych [17]. Zainteresowanie to jest wynikiem dostpnoci coraz
wikszej iloci rónych urzdze zbierajcych informacje, bardzo czsto w postaci szeregów
czasowych lub szeregów pseudo-czasowych, które s nastpnie przechowywane w bazach danych.
Typowymi przykładami s dane z rynków finansowych, medyczne, muzyczne, meteorologiczne
czy te zwizane z genomami organizmów [9, 12, 16].
Wikszo bada eksploracji danych w długich szeregach czasowych dotyczy nastpujcych
zagadnie [11]:
• indeksowania, tzn. dla okrelonego wzorcowego szeregu czasowego Q oraz okrelonej
miary podobiestwa szeregów czasowych D(Q, C) naley znale najbardziej podobne
szeregi C (do wzorcowego) w rozpatrywanej bazie danych BD,
• klasteringu, tzn. znalezienie naturalnych grup szeregów czasowych w bazie danych BD
zgodnie z przyjt miar podobiestwa szeregów D(Q, C),
• klasyfikacji, tzn. przyporzdkowanie szeregu czasowego Q do jednej z dwóch lub
wicej okrelonych klas,
• agregacji (summarization) tzn. duego zmniejszenia wymiarowoci szeregu przy
zachowaniu zasadniczych cech tego szeregu,
• wykrywanie anomalii, czyli wykrywanie sekcji szeregów czasowych zawierajcych
anomalie lub z pewnych wzgldów interesujce zmiany w szeregu.
Znane s podstawowe sposoby reprezentacji szeregów czasowych, m.in.:
• dyskretna transformata Fouriera,
• dyskretna transformata falkowa,
• aproksymacja odcinkami liniowa,
Maciej Krawczak, Grayna Szkatuła
Redukcja wymiarowoci szeregów czasowych
33
• aproksymacja odcinkami stała (schodkowa).
Kada z tych reprezentacji składa si z liniowych kombinacji odpowiednich funkcji
bazowych, co wyklucza wprowadzenie funkcji odległoci midzy szeregami, wymaganej przy
porównywaniu szeregów czasowych.
Z drugiej strony, metody stosowane do analizy ww. zagadnie analizy szeregów czasowych
oparte s włanie na okrelaniu i porównywaniu: odległoci midzy szeregami czasowymi, albo
odległoci midzy cechami istotnymi szeregów czasowych, przy czym odpowiednio zdefiniowane
odległoci oraz okrelona warto progu ε okrelaj podobiestwo szeregów.
W pracy, w celu redukcji wymiarowoci szeregów czasowych
• zaproponowano wprowadzenie dyskretnych obwiedni górnych i obwiedni dolnych
szeregów czasowych, polegajcych na aproksymacji tych szeregów funkcjami
odcinkami stałymi (schodkowymi) – idea obwiedni powoduje utrat pewnej iloci
informacji w stosunku do informacji zawartej w oryginalnym szeregu czasowym,
• zaproponowano sposób agregacji obwiedni górnej oraz obwiedni dolnej,
• okrelono sposób wyznaczania wartoci cech istotnych, reprezentujcych zagregowane
obwiednie górne i dolne, przy wykorzystaniu sieci neuronowej.
Nastpnie rozwaano zagadnienie klasyfikacji szeregów czasowych, przyjmujc jako dane
uczce szeregi cech istotnych jako reprezentacj szeregów oryginalnych,
• wyznaczono reguły decyzyjne majce posta wyrae logicznych „JE
ELI … TO …”.
Obliczenia wykonano na danych dostpnych poprzez Internet w bazie danych Universytetu
Irvine w Kalifornii, które s czsto stosowane przy testowaniu algorytmów do eksploracji danych.
Podjto prób klasyfikacji szeregów czasowych z zastosowaniem zbioru reguł decyzyjnych
wygenerowanych w oparciu o zagregowane cechy istotne obwiedni górnej i obwiedni dolnej.
2. Koncepcja obwiedni szeregów czasowych
Przyjmijmy, e dany jest zbiór N szeregów czasowych. Zakładamy, e rozpatrywany n-ty
szereg lub jego fragment opisany jest wektorem składajcym si z K elementów
{x k (n)}kk ==1K = [x1 (n), x 2 (n), ... , x K (n)]T
(1)
dla k = 1, 2, , K , n = 1, 2, , N .
Dla kadego szeregu czasowego postaci (1) tworzona jest m-krokowa obwiednia górna, dla
{
}
m << K , ozn. xk2 (n)
«K »
k =« » m
¬m¼
k =1
, w nastpujcy sposób:
x1 (n ) = max{x1 (n ), x 2 (n ),..., x m (n )}
2
x 22 (n ) = max{x1 (n ), x 2 (n ),..., x m (n )}
x m2 (n ) = max{x1 (n ), x 2 (n ),..., x m (n )}
x m2+1 (n ) = max{x m+1 (n ), x m+2 (n ),..., x 2 m (n )}
x m2+ 2 (n ) = max{x m+1 (n ), x m+2 (n ),..., x 2 m (n )}
x 22m (n ) = max{x m+1 (n ), x m +2 (n ),..., x 2 m (n )} .
2
x« K »
« » m − m +1
¬m¼
(n) = max{x
(n ), x
«K »
« » m − m +1
¬m¼
«K»
« » m −m + 2
¬m¼
(n ),..., x
(2)
«K»
« »m
¬m¼
(n )}
34
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 31, 2010
x «2K »
(n ) = max{x
x «2K »
(n) = max{x
(n ), x
«K»
« » m − m +1
¬m¼
« » m −m
¬m¼
(n ), x
«K»
« » m − m +1
¬m¼
« » m
¬m¼
«K»
« » m −m + 2
¬m¼
«K»
« » m−m+ 2
¬m¼
(n ),..., x
(n),..., x
(n )}
«K»
« » m
¬m¼
«K»
« » m
¬m¼
(n )}
{x (n)}
3
k
W analogiczny sposób tworzymy m-krokow obwiedni doln, ozn.
m << K , w sposób przedstawiony poniej:
«K »
k =« » m
¬m¼
k =1
, dla
x13 (n ) = min{x1 (n ), x 2 (n ),..., x m (n )}
x 32 (n ) = min{x1 (n ), x 2 (n ),..., x m (n )}
…
x 3m (n ) = min{x1 (n ), x 2 (n ),..., x m (n )}
x 3m+1 (n ) = min{x m+1 (n ), x m+2 (n ),..., x 2 m (n )}
x 3m+ 2 (n ) = min{x m+1 (n ), x m+ 2 (n ),..., x 2 m (n )}
…
x 32 m (n ) = min{x m +1 (n ), x m+ 2 (n ),..., x 2 m (n )}
(n) = min{x
3
x« K »
x 3« K »
(n ) = min{x
x 3« K »
(n) = min{x
(n), x
«K»
« » m − m +1
¬m¼
« » m−m
¬m¼
« » m
¬m¼
(n ), x
«K»
« » m − m +1
¬m¼
« » m − m +1
¬m¼
(n ), x
«K»
« » m − m +1
¬m¼
«K»
« » m −m + 2
¬m¼
«K »
« » m −m + 2
¬m¼
«K»
« » m−m +2
¬m¼
(3)
(n ),..., x
(n),..., x
(n ),..., x
«K»
« »m
¬m¼
«K »
« »m
¬m¼
«K »
« » m
¬m¼
(n )}
(n )}
(n )}
Sposób tworzenia m-krokowej obwiedni górnej i dolnej został zilustrowany graficznie dla
pierwszych 20 wartoci przykładu obliczeniowego na rysunku 1.
37,00
35,00
33,00
31,00
29,00
27,00
25,00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Rys. 1. Obwiednia 4-krokowa górna oraz obwiednia 4-krokowa dolna
35
3. Agregacja obwiedni szeregów czasowych
Dla
utworzonych
obwiedni
górnych,
zapisanych
w
postaci:
T
{x (n)}
2
k
m-krokowych
ª
º
= « x12 (n), x22 (n), ... , x«2K » (n)» , dla
«m» m
«¬
»¼
¬ ¼
«K »
k =« » m
¬m¼
k =1
n = 1, 2,, N , dokonywana jest agregacja
«K »
wartoci powtarzajcych si, w wyniku której otrzymywane s szeregi « » wymiarowe:
¬m¼
{x
G
k
( n)}
«K »
k=« »
¬m¼
k =1
ª
º
= « x1G (n), x2G ( n), ... , x G« K » ( n) »
«m»
¬ ¼
¬«
¼»
T
(4)
Agregacja polega na tym, e w miejsce kolejnych m powtarzajcych si wartoci m krokowych
obwiedni
{
górnych,
}
zagregowanego xkG ( n)
«K »
k=« »
¬m¼
k =1
ozn.
«K »
k =« » m
¬m¼
k =1
{x (n)}
2
k
,
tworzymy
jedn
warto
szeregu
, w sposób nastpujcy:
dla { x12 (n ) , x 22 (n ) , … x m2 (n ) } tworzymy jedn warto x1G (n ) = max{x1 (n ), x 2 (n ),..., x m (n )}
dla { x 2 (n ) , x m2 +2 (n ) , … x 22m (n ) } tworzymy warto x G2 (n ) = max{xm+1 (n ), x m+2 (n ),..., x 2 m (n )}
m +1
dla { x «2K »
(n ) ,
« » m − m +1
¬m¼
(n) , … x 2 (n ) } tworzymy
x 2« K »
« » m−m
¬m¼
«K»
« »m
¬m¼
x G« K » (n ) = {max{x
« »
¬m¼
«K»
« » m − m +1
¬m¼
(n ), ..., x
«K »
« » m
¬m¼
(n )} .
W analogiczny sposób tworzona jest zagregowana m-krokowa obwiednia dolna szeregu,
«K »
w postaci szeregów « » wymiarowych
¬m¼
{x
D
k
}
( n)
«K »
k=« »
¬m¼
k =1
ª
º
= « x1D (n), x2D (n), ... , x D« K » (n)»
«m»
¬ ¼
¬«
¼»
T
(5)
Sposób tworzenia zagregowanych m-krokowych obwiedni (z rysunku 1) został zilustrowany
graficznie na rysunku 2.
40.00
35.00
30.00
25.00
20.00
1
2
3
4
5
Rys. 2. Zagregowana obwiednia 4-krokowa górna i 4-krokowa dolna
36
4. Kompresja szeregów czasowych
Generowanie cech istotnych jest cile zwizane z problemem kompresji danych lub redukcj
wymiarowoci szeregów czasowych. Zadaniem kompresji danych jest takie zmniejszenie
informacji o szeregu czasowym, aby mona było odtworzy ten szereg. Jest to dekompresja
danych, przy moliwie małych stratach informacji w stosunku do informacji oryginalnej.
Zakłada si, e jeeli rozpatrywany szereg lub jego fragment opisany jest wektorem
i=K
T
składajcym si z K elementów, {xi }i =1 = [x1 , x2 , ... , xK ] , to po kompresji jest on reprezentowany
przez q cech istotnych, tzn.wektor
podstawie wektora y
{xˆi }ii==1K = [xˆ1 , xˆ2 , ... , xˆ K ]T .
mona
{yi }jj==1q = [y1 , y2 , ..., yq ]T ,
odtworzy
x
wektor
gdzie q<<K. Zakłada si, e na
z
pewn
dokładnoci
jako
Szereg czasowy jest teraz reprezentowany przez wektor y, którego elementy tworz cechy
istotne, inaczej składniki główne (principal components) [10].
Jednym ze sposobów generowania składników głównych (w naszym przypadku cech
istotnych) jest zastosowanie pamici asocjacyjnej, realizowanej np. przez sieci neuronowe.
Realizacja pamici asocjacyjnej jest moliwa jako liniowa pami heteroasocjacyjna, czyli
w postaci trzywarstwowej jednokierunkowej sieci neuronowej z jedn warstw ukryt, któr
stanowi q neuronów. Wyjcia neuronów warstwy ukrytej tworz włanie wektor cech istotnych.
5. Generowanie reguł decyzyjnych
Załómy, e dany jest zbiór przykładów U = { e n }, n = 1, 2, , N , bdcych szeregami
czasowymi. Przykłady te opisujemy za pomoc warunków zwizanych ze zbiorem cech istotnych
A = {a1 , ..., aq } o skoczonym zbiorze wartoci, odpowiednio Va j = {x j ,1 , x j , 2 , ..., x j , L j } , j = 1,..., q ,
a j ∈ A . Mona zdefiniowa funkcj
f :U × A→ V tak, e ∀e n ∈U , ∀a j∈A ,
f (e n , a j ) ∈Va j .
Kady przykład e n ∈ U mona opisa za pomoc koniunkcji q warunków elementarnych
q
e n = ∧ (a j = f (e n , a j ))
(6)
j =1
n
gdzie f (e n , a j ) = x j , t ( j , n ) oraz x j , t ( j , n ) ∈ Va j . Funkcja f (e , a j ) okrela, e cecha a j przyjmuje
warto x j , t ( j , n ) dla przykładu e n . Indeks t ( j , n ) dla j ∈ {1, 2, ..., q} i n ∈ {1, 2, ..., N } okrela, któr
warto przyjmuje j-ta cecha w n-tym przykładzie. Stosujc wymienione powyej cechy moemy
zgodnie ze wzorem (6) opisa kady przykład e n (tj. kady szereg czasowy) w postaci koniunkcji
warunków zwizanych z tymi cechami, oznaczanymi s j = (a j = x j , t ( j , n ) ) . Koniunkcj l warunków
elementarnych, l ≤ q , postaci ∧ s j = C I , dla I ⊆{1,..., K } , card ( I ) = l , nazywamy kompleksem.
j∈I
Mówimy, e kompleks C I opisuje przykład e n jeeli ∀ j ∈ I wszystkie warunki w kompleksie s
opisane przez odpowiednie warunki w przykładzie.
Ze wzgldu na wartoci, które przyjmuje dodatkowa cecha ad dokonujemy podziału zbioru
przykładów na rozłczne i w sumie tworzce cały zbiór podzbiory, które nazywamy klasami dla
klasyfikacji. Elementy zbioru A nazywamy cechami warunkowymi, a cech ad nazywamy cech
37
decyzyjn. Zakładamy, e liczba i rodzaj cech wystarczaj do poprawnego rozdzielenia
przykładów nalecych do rónych klas.
Bardziej formalnie moemy zapisa, e podziałem zbioru przykładów U ze wzgldu na cech
decyzyjn ad majc dziedzin Vad = {xd ,1 , xd , 2 , ..., xd , Ld } , nazywamy niepuste podzbiory
przykładów
{U xd ,l : l = 1,..., Ld } ,
∀xd ,l ∈ Vad ,
U xd ,l = {e ∈ U : f (e, a d ) = xd ,l } ,
U xd ,1 ∪... ∪ U xd , Ld = U , U xd ,i ∩ U xd , j = ∅ dla i ≠ j .
Zbiory tak okrelonych przykładów uczcych (ze znan przynalenoci do klasy) s punktem
wyjcia w procesie uczenia maszynowego, w wyniku którego uzyskuje si opisy rozpatrywanych
klas w postaci reguł elementarnych. Przyjto, e tworzone reguły powinny poprawnie opisywa
”wikszo” przykładów nalecych do rozpatrywanej klasy i nie opisywa ”prawie wszystkich”
przykładów do tej klasy nie nalecych, mie minimaln długo (np. w sensie liczby warunków
tworzcych reguł) itp. Reguły elementarne maj posta wyrae logicznych „JE
ELI spełnione
s okrelone warunki TO zachodzi przynaleno do danej klasy”; w których poprzednik reguły
zawiera koniunkcj warunków zwizanych z podzbiorem cech istotnych, a nastpnik reguły bdzie
okrelał przynaleno do okrelonej klasy. Implikacj o postaci
(7)
Rr : C I r ( ad = vd ,l )
dla l∈{1,..., Ld } nazywamy r-t reguł elementarn dla klasy U xd ,l , gdzie C I r = ∧ (a j = x j , t ( j , r ) ) ,
j∈I r
I r ⊆{1,..., K } . Indeks t ( j, r ) okrela, jaka warto j-tej cechy wystpuje w r-tej regule.
Tworzone reguły elementarne powinny spełnia warunek spójnoci, tzn. rozrónia przykłady
nalece od nienalecych do danej klasy oraz by minimalne, tzn. usunicie dowolnego warunku
w czci przesłankowej, spowodowałoby nie spełnienie warunku spójnoci.
Reguły, o których była mowa wyej, mona tworzy stosujc róne algorytmy uczenia
maszynowego. Reguły mog by uyte do klasyfikowania nowych szeregów, dla których nie jest
znana przynaleno do klasy. Korzystajc z własnych dowiadcze, do oblicze wybrano metod
IP wykorzystujc modyfikacj zadania pokrycia zbioru, opisan przez Szkatuł [13, 14],
a nastpnie rozwinit przez Kacprzyka i Szkatuł [3, 4].
6. Przykład obliczeniowy – zadanie klasyfikacji
6.1. Opis danych
Do oblicze wybrano zbiór danych dostpny poprzez Internet w bazie danych Uniwersytetu
Irvine w Kalifornii, który jest czsto stosowany przy testowaniu algorytmów do eksploracji
danych [1]:
http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data.html
Zawiera on sztucznie wygenerowane szeregi czasowe (złoone z 60 liczb) dla których
okrelona jest przynaleno do jednej z szeciu klas. Do oblicze wybrano dwie klasy:
• klasa 1: szeregi typu E (25 szeregów uczcych + 25 szeregów testowych)
• klasa 2: szeregi typu F (25 szeregów uczcych + 25 szeregów testowych)
Na rysunku 3 i 4 przedstawiono wszystkie szeregi uczce dla kadej rozpatrywanej klasy:
38
60.00
50.00
40.00
30.00
20.00
10.00
0.00
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
Rys. 3. Szeregi czasowe z klasy 1 ze zbioru uczcego
40.00
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
Rys. 4. Szeregi czasowe z klasy 2 ze zbioru uczcego
Rozpatrywano szeregi czasowe ze zbioru uczcego o postaci [x1 (n), x2 (n), ... , x60 (n)] dla n =
1,2,… ,50. Znana była równie przynaleno kadego szeregu do klasy 1 lub do klasy 2.
Celem naszym było midzy innymi sprawdzenie, na ile zaproponowana metoda agregacji
szeregów czasowych sprawdza si w praktyce. Dla wybranej klasyfikacji, dokonywano agregacji
szeregów ze zbioru uczcego, za pomoc cech istotnych. Nastpnie, na podstawie takich
zagregowanych szeregów generowano zbiór reguł decyzyjnych dla rozpatrywanych klas.
Dokładno klasyfikacji z zastosowaniem wygenerowanych reguł sprawdzano dla szeregów ze
zbioru uczcego oraz dla szeregów ze zbioru testowego, zawierajcego szeregi, które nie brały
udziału w procesie tworzenia reguł.
T
39
Rozpatrzono dwa zadania klasyfikacji szeregów czasowych do klasy E lub do klasy F, dla
których dane uczce przy generowaniu cech istotnych stanowiły odpowiednio:
Zadanie 1: zagregowane 4-krokowe obwiednie górne szeregów czasowych,
Zadanie 2: zagregowane 4-krokowe obwiednie dolne szeregów czasowych.
6.2. Zadanie 1
Dla kadego n-tego szeregu zawierajcego 60 wartoci liczbowych tworzona była 4-krokowa
obwiednia górna (wzór (2)). Obwiednie górne 4-krokowe były nastpnie agregowane do szeregów
[x
]
T
G
1
( n), x2G ( n), ... , x G15 ( n) , n = 1,2,… ,50 (wzór (4)).
Do wygenerowania 5 cech istotnych zastosowano pami asocjacyjn, realizowan poprzez
trzywarstwow jednokierunkow sie neuronow o 15 wejciach i 15 wyjciach, z jedn warstw
ukryt, któr stanowiło 5 neuronów. Zastosowano program Java Neural Networks Simulator
(JavaNNS). Do nauki sieci neuronowej posłuyły zagregowane 4-krokowe obwiednie górne
xkG (n) kk ==115 dla n = 1, 2, , N , wyznaczone dla 25 szeregów typu E (klasa 1) oraz 25 szeregów
typu F (klasa 2), błd uczenia wynosił 0.04, warto współczynnika uczenia η = 0.1, maksymalna
dopuszczalna rónica midzy wzorcem a wyjciem sieci d max = 0.05, 10000 cykli uczenia.
Po procesie uczenia sieci, otrzymane dla kadego szeregu wartoci w warstwie ukrytej
(przemnoone przez 1000) utworzyły skompresowany opis szeregu. Tak wic, z zastosowaniem
k = 60
wartoci cech istotnych zapisano kady szereg czasowy {xk (n)}k =1 = [x1 (n), x2 (n), ... , x60 (n)] T , dla
{
}
n = 1, 2, , 50 , w postaci zagregowanej [x1 (n), x2 (n), ..., x5 (n)] T , dla n = 1, 2, , 50 .
Na rysunkach 5 i 6 zamieszczono ilustracj graficzn wyej wymienionych szeregów.
0.60
0.50
0.40
0.30
0.20
0.10
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Rys. 5. Zagregowana 4-krokowa obwiednia górna szeregów z klasy 1 ze zbioru uczcego
40
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Rys. 6. Zagregowana 4-krokowa obwiednia górna szeregów z klasy 2 ze zbioru uczcego
800
700
600
500
400
300
200
100
0
1
2
3
4
5
Rys. 7. Zapis szeregów ze zbioru uczcego za pomoc cech istotnych dla klasy 1 i klasy 2
Nastpnie wartoci cech istotnych były nominalizowane, w sposób podany w Tabeli 1.
Tabela 1. Nominalizacja cech istotnych
Wartoci cech istotnych
> 0 and <= 100
> 100 and <= 200
> 200 and <= 300
> 300 and <= 400
> 400 and <= 500
> 500 and <= 600
> 600 and <= 700
Wartoci nominalne
1
2
3
4
5
6
7
Wartoci cech istotnych
> 700 and <= 800
> 800 and <= 900
> 900 and <= 1000
41
Wartoci nominalne
8
9
10
Poniej zamieszczono wygenerowny minimalny zbiór reguł decyzyjnych do rozpatrywanych
klas, w nawiasach podano liczb przykładów uczcych, które opisuje dana reguła:
(a4=3)
(a4=2)
(a4=6)
(a4=5)
=> (a6=1) (23 przykłady)
Utworzone reguły w 100% poprawnie klasyfikuj wszystkie przykłady uczce.
Dokładno klasyfikacji z zastosowaniem tak utworzonych reguł sprawdzana była równie dla
zbioru testowego, zawierajcego 50 nowych szeregów czasowych, które nie były stosowane
w procesie uczenia sieci i generowania reguł. Zbiór testowy zawierał 25 szeregów z klasy 1 i 25
szeregów z klasy 2. Uzyskano w 100% poprawn klasyfikacj wszystkich przykładów testowych.
6.3. Zadanie 2
Dla kadego n-tego szeregu zawierajcego 60 wartoci liczbowych tworzona była 4-krokowa
obwiednia dolna. Obwiednie dolne 4-krokowe były nastpnie agregowane.
Do wygenerowania 5 cech istotnych zastosowano pami asocjacyjn, realizowan w sposób
opisany w zadaniu 1. Do nauki sieci neuronowej posłuyły zagregowane 4-krokowe obwiednie
dolne
xkD (n) kk ==115 dla n = 1, 2,, N , błd uczenia wynosił 0.02, η = 0.1, maksymalna
{
}
dopuszczalna rónica midzy wzorcem a wyjciem sieci d max = 0.1, 10000 cykli uczenia.
Po procesie uczenia sieci, otrzymane dla kadego szeregu wartoci w warstwie ukrytej
(przemnoone przez 1000) utworzyły skompresowany opis szeregu. Tak wic z zastosowaniem
wartoci cech istotnych zapisano kady rozpatrywany szereg w postaci zagregowanej
[x1 (n), x2 (n), ..., x5 (n)] T , dla n = 1, 2,, 50 .
Poniej zamieszczono ilustracj graficzn dla wyej wymienionych szeregów.
0.60
0.50
0.40
0.30
0.20
0.10
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Rys. 8. Zagregowane 4-krokowe obwiednie dolne szeregów z klasy 1 ze zbioru uczcego
42
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Rys. 9. Zagregowane 4-krokowe obwiednie dolne szeregów z klasy 2 ze zbioru uczcego
800
700
600
500
400
300
200
100
0
1
2
3
4
5
Rys. 10. Zapis szeregów uczcych z klasy 1 i z klasy 2 za pomoc cech istotnych
Sposób nominalizacji cech istotnych podano w Tabeli 1.
Poniej zamieszczono wygenerowany minimalny zbiór reguł decyzyjnych dla rozpatrywanych
klas, w nawiasach podano liczb przykładów uczcych, które reguły opisuj:
a5=3 => a6=1 (23 przykłady)
a5=2 => a6=1 (2 przykłady)
a4=4 => a6=2 (19 przykładów)
a4=3 => a6=2 (1 przykład)
a5=4 => a6=2 (13 przykładów)
Utworzone reguły w 100% poprawnie klasyfikuj wszystkie przykłady uczce.
Dokładno klasyfikacji z zastosowaniem tak utworzonych reguł sprawdzana była równie dla
zbioru testowego, zawierajcego 50 nowych szeregów czasowych, które nie były stosowane
w procesie uczenia sieci heteroasocjacyjnej i generowania reguł. Zbiór testowy zawierał 25
szeregów z klasy 1 i 25 szeregów z klasy 2. Uzyskano w 100% poprawn klasyfikacj wszystkich
przykładów testowych.
43
7. ZakoĔczenie
W pracy przedstawiono nowy sposób reprezentacji szeregów czasowych, polegajcy na
stopniowej redukcji wymiarowoci tych szeregów.
W pierwszym kroku wprowadzono dyskretne obwiednie szeregów czasowych (górn i doln)
w postaci funkcji schodkowych, nastpnie zaproponowano sposób ich agregacji. W ten sposób
uzyskano krótsze reprezentacje szeregów czasowych z jednoczesn utrat czci informacji.
Otrzymane krótsze szeregi czasowe reprezentujce zagregowane obwiedne górne lub dolne
poddano nastpnie kompresji, w celu wyznaczenia cech istotnych reprezentujcych te obwiednie.
W tym celu wykorzystano trzywarstwow sie neuronow. Przyjto, e neurony warstwy ukrytej
stanowi cechy istotne zagregowanych obwiedni. W taki sposób uzyskano dalsz redukcj
wymiarowoci reprezentacji szeregów czasowych.
Uzyskane wartoci cech istotnych posłuyły do wygenerowania reguł decyzyjnych, które
mona stosowa do klasyfikacji nowych szeregów czasowych, dla których nie jest znana
przynaleno do klasy.
Zproponowany sposób redukcji wymiarowoci szeregów czasowych przetestowano na danych
dostpnych poprzez Internet w bazie danych Universytetu Irvine w Kalifornii, które s czsto
stosowane przy testowaniu algorytmów do eksploracji danych. Podjto prób dokonania
klasyfikacji szeregów czasowych z zastosowaniem zbioru reguł decyzyjnych wygenerowanych
w oparciu o cechy istotne obwiedni górnej i obwiedni dolnej. Pomimo duej redukcji
wymiarowoci szeregów czasowych, a tym samym bardzo duej utraty informacji uzyskano 100%
dokładno klasyfikacji zarówno szeregów czasowych ze zbioru uczcego, jak równie szeregów
ze zbioru testowego. Oznacza to, e nowa reprezentacja szeregów czasowych mimo duej redukcji
wymiarowoci zachowuje dostateczn ilo informacji do klasyfikacji szeregów czasowych.
%LEOLRJUDILD
[1] Alcock R. J., Manolopoulos Y.: Time-Series Similarity Queries Employing a Feature-Based
Approach. 7th Hellenic Conference on Informatics, Ioannina, Greece 1999.
[2] Benedikt L., Kajic V., Cosker D., Marshall D., Rosin P. L.: Facial Dynamics in Biometric
Identification. In: Proc. of British Machine Vision Conference, Leeds, 2008.
[3] Kacprzyk J., Szkatuła G.: An inductive learning algorithm with a preanalysis od data.
International Journal of Knowledge – Based Intelligent Engineering Systems, vol. 3, 1999,
pp. 135–146.
[4] Kacprzyk J., Szkatuła G.: An integer programming approach to inductive learning using
genetic and greedy algorithms. In: New learning paradigms in soft computing. Studies in
Fuzziness and Soft Computing (Jain L.C., Kacprzyk J., Eds.), Physica-Verlag Heidelberg,
2002, pp. 323–367.
[5] Krawczak M., Miklewski A., Jakubowski A., Konieczny P.: Investment Risk Management.
(in Polish). Polish Academy of Sciences, Systems Research Instytut, 2000.
[6] Krawczak M.: Multileyer Neural Systems and Generalized Nets Models. Academic Press
House EXIT, Warsaw 2003.
[7] Kumar N., Lolla N., Keogh E., Lonardi S., Ratanamahatana C., Wei L.: Time-Series
Bitmaps: A Practical Visualization Tool for Working with Large Time Series Databases.
In: Proceedings of SIAM International Conference on Data Mining (SDM '05), Newport
Beach, CA, April pp. 21–23, 2005.
44
[8] Lin J., Keogh E., Lonardi S., Chiu B.: A Symbolic Representation of Time Series, with
Implications for Streaming Algorithms. Proceedings Data Mining and Knowledge
Dicovering, San Diego 2003.
[9] Nanopoulos A., Alcock R., Manolopoulos Y.: Feature-based Classification of Time-series
Data. International Journal of Computer Research, 2001, pp. 49–61.
[10] Oja E.: Principal components, minor components and linear neural networks. Neural
Networks, vol.5, 1992, pp. 927–935.
[11] Roddick J. F., Hornsby K., Spilopoulos M.: An updated bibliography of temporal, spatial and
spatio-temporal data mining research. In: Proceedings of the International Workshop on
Temporal, Spatial and Spatio-Temporal data Mining, Berlin, Springer, Lecture Notes in
Artificial Intelligence, 2001, pp. 147–163.
[12] Rodríguez J.J. & Alonso C.J.: Interval and dynamic time warping-based decision trees. In:
Proceedings of the 2004 ACM symposium on Applied computing (SAC), 2004, pp. 548–552.
[13] Szkatuła G.: Machine learning from examples under errors in data, Ph.D. thesis, SRI PAS,
Warsaw 1995.
[14] Szkatuła G.: Zastosowanie zmodyfikowanego zadania pokrycia w uczeniu maszynowym.
W: Automatyka Sterowanie Zarzdzanie (Gutenbaum J., Eds.), SRI PAS, Warszawa 2002,
str. 431–445.
[15] Wei L., Keogh E.: Semi-Supervised Time Series Classification. In: Proc. of the 12th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006),
Philadelphia, PA, U.S.A., August 20–23, 2006, pp. 748–753.
[16] Wu Y., Chang E.Y.: Distance-function design and fusion for sequence data. CIKM ‘04,
2004, pp. 324–333.
[17] Xi X., Keogh E.J., Shelton C.R., Wei L., Ratanamahatana C.A.: Fast time series
classification using numerosity reduction. In: ICML, 2006.
45
REDUCTION OF DIMENSIONS OF THE TIME SERIES
Summary
In this paper we introduce a concept of upper and lower envelopes of time
series, and a way to compress them by neural networks. Obtained in such a way
essential attributes were used to generate decision rules of the form if … then …
for time series classification. A numerical example is performed showing 100%
accuracy.
Keywords: time series, time series envelopes, essential attributes, heteroassociation, machine
learning from examples, decision rules.
Maciej Krawczak
Grayna Szkatuła
Instytut Bada Systemowych PAN
e-mail: [email protected]
[email protected]

Pobierz artykuł PDF

Transkrypt

Podobne dokumenty

(a) ∑ 1 - Informacje dla uzytkowników serwera antenor.pol.lublin.pl

„ZA KAŻDY KAMIEŃ TWÓJ”

Finansowe szeregi czasowe – analiza i prognozowanie

Obchody 75-tej rocznicy powstania Szarych Szeregów

Szczegółowy opis

lekcja historii dla szkół – projekcja filmu dokumentalnego

www.ceicdata.com

60-462 Poznan, ul. Augusta Cieszkowskiego 71 Dojazd autobusem

Alicja Ganczarek-Gamrot METODY STOCHASTYCZNE W