pobierz plik referatu

Transkrypt

Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Rozdział 36
w
Automatyczne tworzenie baz wiedzy
z wykorzystaniem drzew decyzyjnych
w
1 Wstęp
da
.b
w
Streszczenie. Współcześnie prowadzone procesy wytapiania stali stały się na
tyle skomplikowane, że koniecznym staje się stosowanie systemów informatycznych zarządzających procesem. Praca dotyczy budowy bazy wiedzy dla
takiego systemu. Zebrano dane pomiarowe pochodzące z rzeczywistego procesu przemysłowego i wykorzystując algorytm C4.5 zbudowano drzewa decyzji. Na ich podstawie wygenerowano automatycznie reguły oraz wydobyto
reguły w postaci zrozumiałej dla ludzkiego eksperta. Przeprowadzono weryfikację uzyskanych reguł.
pl
s.
Wytwarzanie stali w procesie elektrycznym odbywa się zwykle w trzech etapach: topienie
w elektrycznym piecu łukowym (EAF), obróbka pozapiecowa w piecokadzi (zwykle też
ogrzewanej łukowo – LHF) i odlewanie stali (zwykle metodą ciągłą – COS).
Elektryczny piec łukowy (obecnie stosowane są piece o bardzo dużych mocach, tzw.
UHP) służy tylko jako urządzenie topiące, gdyż chodzi o doprowadzenie złomu do stanu
ciekłego w jak najkrótszym czasie. Piecokadź zapewnia dogrzewanie stali po zlaniu jej
z pieca łukowego i uzyskanie właściwego składu chemicznego stali. Po przeprowadzeniu
tych zabiegów następuje przewiezienie kadzi ze stalą urządzenie do ciągłego odlewania [3].
Zarówno sam proces elektrostalowniczy, jak i urządzenia go realizujące charakteryzują
się dużym stopniem komplikacji. Dlatego optymalne prowadzenie procesu wymaga dużej
wiedzy, nowoczesnej aparatury pomiarowej i sterującej oraz rozbudowanych systemów
komputerowych. Współcześnie prowadzone procesy wytapiania stali stały się na tyle skomplikowane, że konieczne staje się stosowanie systemów informatycznych wspomagających
prowadzenie nadzoru, a w sytuacji awaryjnej przejęcia sterowania lub też podania procedur
umożliwiających prawidłową reakcję operatora. Oprogramowanie takie, to bardzo
rozbudowany system zawierający pełną wiedzę o prowadzonym procesie, porównywalną
z wiedzą eksperta znającego i rozumiejącego przebieg procesu. Systemy takie nazywamy
inteligentnymi systemami ekspertowymi (ISE). Przedstawiona praca dotyczy bazy wiedzy,
jednego z elementów ISE budowanego w Zakładzie Informatyki w Procesach Technologicznych Politechniki Śląskiej.
Tadeusz Wieczorek, Krystian Mączka, Paweł Świtała
Politechnika Śląska, Zakład Informatyki w Procesach Technologicznych, ul. Krasińskiego 8,
40-019 Katowice, Polska
email:{pawel.switala, krystian.maczka, taduesz.wieczorek}@polsl.pl
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
T. Wieczorek, K. Mączka, P. Świtała
2 Bazy wiedzy inteligentnych systemów ekspertowych
w
Badany proces produkcji stali charakteryzuje się dużą złożonością i mnogością parametrów
wpływających na jego przebieg. Jest on jednak w pełni opomiarowany i przygotowany do
sterowania numerycznego. Zastosowane w zakładzie sterowniki mikroprocesorowe umożliwiają pełną integracje z systemem komputerowym oraz przekazywanie i odbieranie danych
w czasie rzeczywistym. Spełnione są więc wszystkie warunki do wprowadzenia zarządzania procesem z zastosowaniem systemu ekspertowego.
Systemy ekspertowe są programami komputerowymi przeznaczonymi do rozwiązywania
specjalistycznych problemów wymagających profesjonalnej ekspertyzy. Ich zastosowanie
umożliwia polepszenie jakości produkowanych wyrobów, osiągnięcie znacznych oszczędności, zwiększenie wydajności pracy. Mogą być one także wykorzystywane do sterowania,
w czasie rzeczywistym. Coraz częściej już nie wystarcza wiedza i doświadczenie jednego
człowieka oraz jego poziom percepcji, by prowadzić nowoczesny, skomplikowany proces
przemysłowy.
Ciągły postęp prac nad sztuczną inteligencją umożliwia zastosowanie w pracy tradycyjnego SE innych narzędzi tj. sztucznych sieci neuronowych, algorytmów genetycznych, czy
wnioskowania rozmytego (wykorzystującego tzw. fuzzy logic). Powstają wtedy systemy
zwane inteligentnymi, o prawie nieograniczonych możliwościach. W ten sposób przetwarzanie symboliczne charakterystyczne dla systemów ekspertowych staje się komplementarne do przetwarzania równoległego, charakteryzującego sztuczne sieci neuronowe, czy algorytmy genetyczne. Systemy te cechuje zwiększona sprawność intelektualna, gdyż korzystają one z pozytywnych właściwości każdego z wymienionych narzędzi. Dzięki współdziałaniu ze sztucznymi sieciami neuronowymi SE nabywa zdolności uczenia się i poszerzania
swoich baz wiedzy oraz predykcji zdarzeń [4].
Proces tworzenia systemu jest bardzo skomplikowany i pracochłonny. Podstawowym
problemem budowy systemów ekspertowych jest pozyskanie możliwie pełnej i pewnej wiedzy o przebiegu procesu. Systemy ekspertowe są używane głownie dlatego, że trudno jest
formalizować wiedzę ekspertów metodami programowania deterministycznego. Ekspert rozumuje i podejmuje decyzje, często w oparciu o niekompletne, niepewne dane, używając
algorytmów heurystycznych, opierając się na podobieństwie do znanych przez niego zdarzeń. Dlatego w trakcie realizowanego projektu wystąpiły trudności ze zbudowaniem Bazy
Wiedzy ISE, opierając się tylko na wiedzy eksperckiej i teorii procesów metalurgicznych.
Rozpoczęto więc badania nad automatycznym generowaniem reguł do Bazy Wiedzy ISE,
wydobywanych bezpośrednio z danych pomiarowych. Wykorzystano tu metodę drzew decyzyjnych, przedstawioną po raz pierwszy w pracy [5].
Sposób zapisywania wiedzy za pomocą drzew, jest bardzo stary i nie wywodzi się ani
z systemów ekspertowych, ani ze sztucznej inteligencji. Dzisiaj jednak drzewa decyzyjne
stanową podstawową metodę indukcyjnego uczenia się maszyn. Spowodowane jest to dużą
efektywnością, możliwością prostej programowej implementacji, jak i intuicyjną oczywistość dla człowieka. Ta metoda pozyskiwania wiedzy opiera się na analizie przykładów,
przy czym każdy przykład musi być opisany przez zestaw atrybutów.
Formalnie drzewem decyzyjnym jest graf, którego korzeń jest tworzony przez wybrany
atrybut, natomiast poszczególne gałęzie reprezentują wartości tego atrybutu. Węzły drzewa
w następnych poziomach będą przyporządkowane kolejnym atrybutom, natomiast na najniższym poziomie otrzymujemy węzły charakteryzujące poszczególne klasy. Drzewa decyzyjne mogą być tworzone na podstawie określonego zbioru danych jako wynik procesu klasyfikacji. Na tej bazie można stworzyć zbiór reguł opisujących zależności między atrybutami a klasami (predefiniowanymi lub odkrytymi z badanym zestawie danych).
da
.b
w
w
pl
s.
386
Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych
w
Spośród algorytmów klasyfikacyjnych szczególnie ważny jest indukcyjny algorytm
drzew decyzyjnych C4.5 opracowany przez Quinlana w 1993 r. Zapewnia on najlepszą
dokładność klasyfikacji i jest najszybszy. Głównym problemem w trakcie budowy drzewa
decyzyjnego jest określenie kryterium, umożliwiającego wybór atrybutu stosowanego do
rozbudowy tego drzewa. W przypadku C4.5 opierając się na tzw. entropii informacyjnej, w
celu wyboru atrybutu, który będzie przypisany do tworzonego węzła drzewa decyzyjnego
stosuje się kryterium maksymalnego przyrostu informacji spowodowanego zastosowaniem
danego atrybutu.
3 Wyniki badań
w
da
.b
w
Celem prowadzonych badań było automatyczne wygenerowanie reguł na podstawie rzeczywistych danych pomiarowych rejestrowanych podczas procesu elektrostalowniczego w jednej z hut krajowych. Dane te zapisywane były w czasie rzeczywistym ze sterowników
SIMATIC-5 bezpośrednio do bazy danych. Do analizy wybrane zostały dane opisujące parametry procesu wytwarzania tylko jednego gatunku stali – St3S. Do oceniania wygenerowanych reguł użyty został klasyfikator działający na bazie drzewa decyzji C4.5 zaimplementowany w systemie analizy danych – Weka1. Proces roztapiania był badany pod kątem
odkrycia dwóch typów zależności:
− wpływu składu wsadu i przebiegu procesu na zużycie energii (dokładnie badano entalpię), i tu jako najważniejsze czynniki determinujące zużycie energii przyjęto: masę
wsadu, ilości podawanych gazów i węgla, temperaturę spustu i czas procesu,
− analizy, które parametry wsadu i procesu wpływają na wydajność roztapiania, i tu
jako najważniejsze czynniki determinujące czas roztapiania przyjęto: ilość podawanych gazów i węgla, masę ładowanego złomu, temperaturę spustu i zużycie energii.
Do obliczeń przyjęto zdyskretyzowane wartości entalpii oraz zdyskretyzowane wartości
wydajności procesu. Zarówno w przypadku entalpii jak i wydajności dokonano podziału
na dwie klasy (tabele 1 i 2).
Tabela 1. Zakresy i liczba wektorów uczących dla klasy Entalpia
A
B
Zakresy
[kWh/Mg]
380 – 442
442 – 610
pl
s.
Etykieta klasy
Liczba wektorów
376
383
Tabela 2. Zakresy i liczba wektorów uczących dla klasy Wydajność
Etykieta klasy
A
B
1
Zakresy
[Mg/h]
55 – 77
77 – 90
Liczba wektorów
408
351
http://www.cs.waikato.ac.nz/ml/weka/
387
3.1 Analizowane dane
w
Dane do analizy pobierane były z przemysłowej bazy danych, a następnie poddawane obróbce wstępnej (odrzucenie wektorów odstających, błędnych wpisów). W następnej kolejności przeprowadzono normalizację danych wejściowych (1) niezbędną do poprawnego
działania algorytmów uczących. W tabeli 3 podano analizowane atrybuty i ich oznaczenia:
− sumaryczna masa wsadu złomowego [Mg] (Ws),
− temperatura spustu [°C] (T),
− sumaryczna ilość wdmuchiwanego do pieca tlenu [m3] (OL),
− sumaryczna ilość tlenu podawanego do palników [m3] (OP),
− sumaryczna ilość gazu poddawanego do palników [m3] (GP),
− sumaryczna waga wdmuchiwanego węgla [kg] (We),
− sumaryczny czas pracy elektrody [min] (C_EL),
− energię elektryczną zużytą podczas topienia wsadu [MWh] (EL).
w
w
x'i =
xi − min xi
max xi − min xi
(1)
Tabela 3. Wyniki analizy statystycznej wybranych atrybutów
[min]
min
46,0
max
66,9
średnia
52,9
odchylenie
4,0
da
.b
C_EL
EL
Ws
T
OL
OP
GP
We
3
3
3
[MWh]
[Mg]
[ºC]
[m ]
[m ]
[m ]
[kg]
26,4
68,3
4,0
457,0
294,0
227,0
51,0
38,7
84,0
66,9
2389,0
1457,0
1020,0
1714,0
29,9
78,6
37,1
1361,7
726,4
434,6
374,0
1,7
2,0
26,3
182,1
137,7
76,7
201,4
pl
s.
3.2 Budowa drzew decyzyjnych i weryfikacja wygenerowanych reguł
Zbudowane drzewa decyzyjne pokazano na rys. 1 i 2. Uzyskane parametry drzew decyzji
dla badanych klas zestawiono w tabeli 4.
Tabela 4. Zestawienie uzyskanych parametrów drzew decyzji dla badanych klas
Badana klasa
Entalpia
Wydajność
Rozmiar drzewa
29
23
Liczba liści
15
12
Zastosowana metoda i zbudowane w oparciu o algorytm C4.5 drzewa decyzyjne
pozwalają na odkrycie wiedzy o analizowanym procesie i zakodowanie jej w postaci reguł
logicznych, które stanowią najważniejszą część bazy wiedzy systemu ekspertowego. Na
podstawie drzew z rys.1 i 2 można zbudować wiele reguł, z których dwie, przekonwertowane do postaci zrozumiałej dla ludzkiego eksperta, przedstawiono poniżej (reguły generowane były przy założeniu ograniczającym do min. 5 przypadków na jeden liść):
388
Reguła 1. Wydajność jest duża (klasa B) JEŻELI 55,45 min. ≥Czas pracy elektrod ≥ 50,9
min. ORAZ Masa złomu ≤ 78,9 Mg ORAZ Ilość tlenu do palników ≤ 746 m3
Reguła 2. Entalpia jest duża (klasa B) JEŻELI Zużycie energii elektrycznej ≤ 29,005 MWh
ORAZ Ilość tlenu do palników ≤ 851 m3
w
da
.b
w
w
pl
s.
Rys. 1. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego
wydajnością
389
w
da
.b
w
w
pl
s.
Rys. 2. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego
entalpią
390
Niewątpliwą zaletą algorytmów drzew decyzji jest także możliwość automatycznego
uzyskania reguł w postaci tekstowej, które mogą być bezpośrednio wprowadzane do bazy
wiedzy. Przykładowa postać reguły uzyskanej dla analizy danych dotyczących entalpii określa zakres czasu pracy elektrod oraz wagę wsadu potrzebną do uzyskania wytopu o wartości entalpii z zakresu klasy „A”.
"A" if
w
// (105.0)
C_EL <= 55.45,
C_EL > 50.9,
Ws > 78.9,
C_EL <= 52.95;
Natomiast kolejny wydruk prezentuje regułę uzyskaną dla danych dotyczących wydajności pokazującą zakres wartości zużycia energii elektrycznej oraz zużycia gazu podawanego do palników, aby wartość wydajności należała do klasy „B”.
// (102.0)
EL > 29.0046,
GP <= 444,
EL <= 29.9047;
w
"B" if
da
.b
w
Poprawność wygenerowanych reguł została oceniona poprzez wykonanie testu ilości poprawnie zaklasyfikowanych rekordów (używając klasyfikatora C4.5). Klasyfikacja przeprowadzona została w procesie 10-krotnej walidacji krzyżowej. Proces ten polega na podziale
zbioru danych na 10 podzbiorów, a następnie 10-krotne uczenie na zbiorze pomniejszonym
o jeden podzbiór, a testowanie tym podzbiorem, który nie brał udziału w procesie uczenia.
Za ostateczny wynik przyjęto średnią wyników klasyfikacji z 10 różnych podzbiorów testujących. Wyniki dla poszczególnych klas prezentują tabela 5 i tabela 6.
Tabela 5. Wyniki dla klasy Entalpia
Etykieta klasy
Kompletność
[%]
Dokładność
[%]
A
B
83,5
65,0
70,1
80,1
Ważona
średnia
harmoniczna
[%]
76,2
71,8
Liczba poprawnie
zaklasyfikowanych
rekordów [%]
74,17
Tabela 6. Wyniki dla klasy Wydajność
Dokładność
[%]
A
B
69,9
72,9
75,0
67,5
pl
s.
Etykieta klasy
Kompletność
[%]
Ważona
średnia
harmoniczna
[%]
72,3
70,1
Liczba poprawnie
zaklasyfikowanych
rekordów [%]
71,27
Gdzie miara kompletności to liczba poprawnie sklasyfikowanych rekordów danej klasy
do wszystkich rekordów tej klasy, a miara dokładności to liczba poprawnie sklasyfikowanych rekordów danej klasy do wszystkich rekordów zaklasyfikowanych jako ta klasa (również błędnie).
Ważona średnia harmoniczna wyliczana jest z zależności:
Fα =
(1 − α ) ⋅ dokladnosc ⋅ kompletnosc
α ⋅ dokladnosc ⋅ kompletnosc
(2)
391
4 Podsumowanie
w
Wypełnianie baz wiedzy jest procesem bardzo kosztownym i czasochłonnym. Tworzenie
reguł wymaga zaangażowania grupy ekspertów z danej dziedziny, od których pozyskana
wiedza często może być niekompletna lub błędna. Dzięki automatycznemu generowaniu reguł przy użyciu drzew decyzji możliwe jest pozyskanie wiedzy w sposób automatyczny, na
podstawie rejestracji parametrów procesu.
Przeprowadzone badania pokazały możliwość automatycznego generowania reguł,
a przeprowadzona na podstawie tych reguł klasyfikacja pokazała ich poprawność dla rzeczywistych danych pochodzących z przemysłowego procesu metalurgicznego. Podjęte zostały próby podziału danych na większą liczbę klas, a następnie przeprowadzono testy klasyfikacji tak przygotowanego zbioru danych, jednak uzyskany niski odsetek poprawnie klasyfikowanych rekordów sugeruje zbyt małą liczbę przykładów uczących na jedną klasę.
W najbliższej przyszłości autorzy planują przeprowadzenie badań pozwalających generować reguły dla zbiorów z większą ilością klas, co wymaga jednak uzupełnienia posiadanych danych pomiarowych.
w
w
Praca częściowo finansowana przez Ministerstwo Nauki i Szkolnictwa Wyższego, grant Nr
6ZR9 2006 C/06742
1.
2.
3.
4.
5.
da
.b
Literatura
pl
s.
Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques.
Elsevier 2005 San Francisco.
Craig W. Kirkwood: Decision Tree Primer. Arizona State University 2002.
Wieczorek T., Pyka M.: Hybrid expert system for arc-electric steelmaking process monitoring.
Acta Metallurgica Slovaca, 10, 2004, 408–412.
Wieczorek T.: Wykorzystanie sieci neuronowych do planowania produkcji stali w piecu
łukowym. w: Kwiecień A., Wódz K. (red.) „Techniczne i społeczne problemy zastosowania
Internetu”. WKiŁ, 2005, 147–154.
Pyka M., Wieczorek T.: Zastosowanie algorytmu drzew decyzyjnych C4.5 do konstrukcji reguł
dla systemu ekspertowego stalowniczego pieca łukowego. W: Piela A., Lisok J., Grosman F.
(red.) „Informatyka w technologii metali”, Mat. XII Konf. KomPlasTech, Ustroń, 2005, 19–28.
392

pobierz plik referatu

Transkrypt

Podobne dokumenty