pobierz plik referatu
Transkrypt
pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Rozdział 36 w Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych w 1 Wstęp da .b w Streszczenie. Współcześnie prowadzone procesy wytapiania stali stały się na tyle skomplikowane, że koniecznym staje się stosowanie systemów informatycznych zarządzających procesem. Praca dotyczy budowy bazy wiedzy dla takiego systemu. Zebrano dane pomiarowe pochodzące z rzeczywistego procesu przemysłowego i wykorzystując algorytm C4.5 zbudowano drzewa decyzji. Na ich podstawie wygenerowano automatycznie reguły oraz wydobyto reguły w postaci zrozumiałej dla ludzkiego eksperta. Przeprowadzono weryfikację uzyskanych reguł. pl s. Wytwarzanie stali w procesie elektrycznym odbywa się zwykle w trzech etapach: topienie w elektrycznym piecu łukowym (EAF), obróbka pozapiecowa w piecokadzi (zwykle też ogrzewanej łukowo – LHF) i odlewanie stali (zwykle metodą ciągłą – COS). Elektryczny piec łukowy (obecnie stosowane są piece o bardzo dużych mocach, tzw. UHP) służy tylko jako urządzenie topiące, gdyż chodzi o doprowadzenie złomu do stanu ciekłego w jak najkrótszym czasie. Piecokadź zapewnia dogrzewanie stali po zlaniu jej z pieca łukowego i uzyskanie właściwego składu chemicznego stali. Po przeprowadzeniu tych zabiegów następuje przewiezienie kadzi ze stalą urządzenie do ciągłego odlewania [3]. Zarówno sam proces elektrostalowniczy, jak i urządzenia go realizujące charakteryzują się dużym stopniem komplikacji. Dlatego optymalne prowadzenie procesu wymaga dużej wiedzy, nowoczesnej aparatury pomiarowej i sterującej oraz rozbudowanych systemów komputerowych. Współcześnie prowadzone procesy wytapiania stali stały się na tyle skomplikowane, że konieczne staje się stosowanie systemów informatycznych wspomagających prowadzenie nadzoru, a w sytuacji awaryjnej przejęcia sterowania lub też podania procedur umożliwiających prawidłową reakcję operatora. Oprogramowanie takie, to bardzo rozbudowany system zawierający pełną wiedzę o prowadzonym procesie, porównywalną z wiedzą eksperta znającego i rozumiejącego przebieg procesu. Systemy takie nazywamy inteligentnymi systemami ekspertowymi (ISE). Przedstawiona praca dotyczy bazy wiedzy, jednego z elementów ISE budowanego w Zakładzie Informatyki w Procesach Technologicznych Politechniki Śląskiej. Tadeusz Wieczorek, Krystian Mączka, Paweł Świtała Politechnika Śląska, Zakład Informatyki w Procesach Technologicznych, ul. Krasińskiego 8, 40-019 Katowice, Polska email:{pawel.switala, krystian.maczka, taduesz.wieczorek}@polsl.pl (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 T. Wieczorek, K. Mączka, P. Świtała 2 Bazy wiedzy inteligentnych systemów ekspertowych w Badany proces produkcji stali charakteryzuje się dużą złożonością i mnogością parametrów wpływających na jego przebieg. Jest on jednak w pełni opomiarowany i przygotowany do sterowania numerycznego. Zastosowane w zakładzie sterowniki mikroprocesorowe umożliwiają pełną integracje z systemem komputerowym oraz przekazywanie i odbieranie danych w czasie rzeczywistym. Spełnione są więc wszystkie warunki do wprowadzenia zarządzania procesem z zastosowaniem systemu ekspertowego. Systemy ekspertowe są programami komputerowymi przeznaczonymi do rozwiązywania specjalistycznych problemów wymagających profesjonalnej ekspertyzy. Ich zastosowanie umożliwia polepszenie jakości produkowanych wyrobów, osiągnięcie znacznych oszczędności, zwiększenie wydajności pracy. Mogą być one także wykorzystywane do sterowania, w czasie rzeczywistym. Coraz częściej już nie wystarcza wiedza i doświadczenie jednego człowieka oraz jego poziom percepcji, by prowadzić nowoczesny, skomplikowany proces przemysłowy. Ciągły postęp prac nad sztuczną inteligencją umożliwia zastosowanie w pracy tradycyjnego SE innych narzędzi tj. sztucznych sieci neuronowych, algorytmów genetycznych, czy wnioskowania rozmytego (wykorzystującego tzw. fuzzy logic). Powstają wtedy systemy zwane inteligentnymi, o prawie nieograniczonych możliwościach. W ten sposób przetwarzanie symboliczne charakterystyczne dla systemów ekspertowych staje się komplementarne do przetwarzania równoległego, charakteryzującego sztuczne sieci neuronowe, czy algorytmy genetyczne. Systemy te cechuje zwiększona sprawność intelektualna, gdyż korzystają one z pozytywnych właściwości każdego z wymienionych narzędzi. Dzięki współdziałaniu ze sztucznymi sieciami neuronowymi SE nabywa zdolności uczenia się i poszerzania swoich baz wiedzy oraz predykcji zdarzeń [4]. Proces tworzenia systemu jest bardzo skomplikowany i pracochłonny. Podstawowym problemem budowy systemów ekspertowych jest pozyskanie możliwie pełnej i pewnej wiedzy o przebiegu procesu. Systemy ekspertowe są używane głownie dlatego, że trudno jest formalizować wiedzę ekspertów metodami programowania deterministycznego. Ekspert rozumuje i podejmuje decyzje, często w oparciu o niekompletne, niepewne dane, używając algorytmów heurystycznych, opierając się na podobieństwie do znanych przez niego zdarzeń. Dlatego w trakcie realizowanego projektu wystąpiły trudności ze zbudowaniem Bazy Wiedzy ISE, opierając się tylko na wiedzy eksperckiej i teorii procesów metalurgicznych. Rozpoczęto więc badania nad automatycznym generowaniem reguł do Bazy Wiedzy ISE, wydobywanych bezpośrednio z danych pomiarowych. Wykorzystano tu metodę drzew decyzyjnych, przedstawioną po raz pierwszy w pracy [5]. Sposób zapisywania wiedzy za pomocą drzew, jest bardzo stary i nie wywodzi się ani z systemów ekspertowych, ani ze sztucznej inteligencji. Dzisiaj jednak drzewa decyzyjne stanową podstawową metodę indukcyjnego uczenia się maszyn. Spowodowane jest to dużą efektywnością, możliwością prostej programowej implementacji, jak i intuicyjną oczywistość dla człowieka. Ta metoda pozyskiwania wiedzy opiera się na analizie przykładów, przy czym każdy przykład musi być opisany przez zestaw atrybutów. Formalnie drzewem decyzyjnym jest graf, którego korzeń jest tworzony przez wybrany atrybut, natomiast poszczególne gałęzie reprezentują wartości tego atrybutu. Węzły drzewa w następnych poziomach będą przyporządkowane kolejnym atrybutom, natomiast na najniższym poziomie otrzymujemy węzły charakteryzujące poszczególne klasy. Drzewa decyzyjne mogą być tworzone na podstawie określonego zbioru danych jako wynik procesu klasyfikacji. Na tej bazie można stworzyć zbiór reguł opisujących zależności między atrybutami a klasami (predefiniowanymi lub odkrytymi z badanym zestawie danych). da .b w w pl s. 386 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych w Spośród algorytmów klasyfikacyjnych szczególnie ważny jest indukcyjny algorytm drzew decyzyjnych C4.5 opracowany przez Quinlana w 1993 r. Zapewnia on najlepszą dokładność klasyfikacji i jest najszybszy. Głównym problemem w trakcie budowy drzewa decyzyjnego jest określenie kryterium, umożliwiającego wybór atrybutu stosowanego do rozbudowy tego drzewa. W przypadku C4.5 opierając się na tzw. entropii informacyjnej, w celu wyboru atrybutu, który będzie przypisany do tworzonego węzła drzewa decyzyjnego stosuje się kryterium maksymalnego przyrostu informacji spowodowanego zastosowaniem danego atrybutu. 3 Wyniki badań w da .b w Celem prowadzonych badań było automatyczne wygenerowanie reguł na podstawie rzeczywistych danych pomiarowych rejestrowanych podczas procesu elektrostalowniczego w jednej z hut krajowych. Dane te zapisywane były w czasie rzeczywistym ze sterowników SIMATIC-5 bezpośrednio do bazy danych. Do analizy wybrane zostały dane opisujące parametry procesu wytwarzania tylko jednego gatunku stali – St3S. Do oceniania wygenerowanych reguł użyty został klasyfikator działający na bazie drzewa decyzji C4.5 zaimplementowany w systemie analizy danych – Weka1. Proces roztapiania był badany pod kątem odkrycia dwóch typów zależności: − wpływu składu wsadu i przebiegu procesu na zużycie energii (dokładnie badano entalpię), i tu jako najważniejsze czynniki determinujące zużycie energii przyjęto: masę wsadu, ilości podawanych gazów i węgla, temperaturę spustu i czas procesu, − analizy, które parametry wsadu i procesu wpływają na wydajność roztapiania, i tu jako najważniejsze czynniki determinujące czas roztapiania przyjęto: ilość podawanych gazów i węgla, masę ładowanego złomu, temperaturę spustu i zużycie energii. Do obliczeń przyjęto zdyskretyzowane wartości entalpii oraz zdyskretyzowane wartości wydajności procesu. Zarówno w przypadku entalpii jak i wydajności dokonano podziału na dwie klasy (tabele 1 i 2). Tabela 1. Zakresy i liczba wektorów uczących dla klasy Entalpia A B Zakresy [kWh/Mg] 380 – 442 442 – 610 pl s. Etykieta klasy Liczba wektorów 376 383 Tabela 2. Zakresy i liczba wektorów uczących dla klasy Wydajność Etykieta klasy A B 1 Zakresy [Mg/h] 55 – 77 77 – 90 Liczba wektorów 408 351 http://www.cs.waikato.ac.nz/ml/weka/ 387 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 T. Wieczorek, K. Mączka, P. Świtała 3.1 Analizowane dane w Dane do analizy pobierane były z przemysłowej bazy danych, a następnie poddawane obróbce wstępnej (odrzucenie wektorów odstających, błędnych wpisów). W następnej kolejności przeprowadzono normalizację danych wejściowych (1) niezbędną do poprawnego działania algorytmów uczących. W tabeli 3 podano analizowane atrybuty i ich oznaczenia: − sumaryczna masa wsadu złomowego [Mg] (Ws), − temperatura spustu [°C] (T), − sumaryczna ilość wdmuchiwanego do pieca tlenu [m3] (OL), − sumaryczna ilość tlenu podawanego do palników [m3] (OP), − sumaryczna ilość gazu poddawanego do palników [m3] (GP), − sumaryczna waga wdmuchiwanego węgla [kg] (We), − sumaryczny czas pracy elektrody [min] (C_EL), − energię elektryczną zużytą podczas topienia wsadu [MWh] (EL). w w x'i = xi − min xi max xi − min xi (1) Tabela 3. Wyniki analizy statystycznej wybranych atrybutów [min] min 46,0 max 66,9 średnia 52,9 odchylenie 4,0 da .b C_EL EL Ws T OL OP GP We 3 3 3 [MWh] [Mg] [ºC] [m ] [m ] [m ] [kg] 26,4 68,3 4,0 457,0 294,0 227,0 51,0 38,7 84,0 66,9 2389,0 1457,0 1020,0 1714,0 29,9 78,6 37,1 1361,7 726,4 434,6 374,0 1,7 2,0 26,3 182,1 137,7 76,7 201,4 pl s. 3.2 Budowa drzew decyzyjnych i weryfikacja wygenerowanych reguł Zbudowane drzewa decyzyjne pokazano na rys. 1 i 2. Uzyskane parametry drzew decyzji dla badanych klas zestawiono w tabeli 4. Tabela 4. Zestawienie uzyskanych parametrów drzew decyzji dla badanych klas Badana klasa Entalpia Wydajność Rozmiar drzewa 29 23 Liczba liści 15 12 Zastosowana metoda i zbudowane w oparciu o algorytm C4.5 drzewa decyzyjne pozwalają na odkrycie wiedzy o analizowanym procesie i zakodowanie jej w postaci reguł logicznych, które stanowią najważniejszą część bazy wiedzy systemu ekspertowego. Na podstawie drzew z rys.1 i 2 można zbudować wiele reguł, z których dwie, przekonwertowane do postaci zrozumiałej dla ludzkiego eksperta, przedstawiono poniżej (reguły generowane były przy założeniu ograniczającym do min. 5 przypadków na jeden liść): 388 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Reguła 1. Wydajność jest duża (klasa B) JEŻELI 55,45 min. ≥Czas pracy elektrod ≥ 50,9 min. ORAZ Masa złomu ≤ 78,9 Mg ORAZ Ilość tlenu do palników ≤ 746 m3 Reguła 2. Entalpia jest duża (klasa B) JEŻELI Zużycie energii elektrycznej ≤ 29,005 MWh ORAZ Ilość tlenu do palników ≤ 851 m3 w da .b w w pl s. Rys. 1. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego wydajnością 389 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 T. Wieczorek, K. Mączka, P. Świtała w da .b w w pl s. Rys. 2. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego entalpią 390 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Niewątpliwą zaletą algorytmów drzew decyzji jest także możliwość automatycznego uzyskania reguł w postaci tekstowej, które mogą być bezpośrednio wprowadzane do bazy wiedzy. Przykładowa postać reguły uzyskanej dla analizy danych dotyczących entalpii określa zakres czasu pracy elektrod oraz wagę wsadu potrzebną do uzyskania wytopu o wartości entalpii z zakresu klasy „A”. "A" if w // (105.0) C_EL <= 55.45, C_EL > 50.9, Ws > 78.9, C_EL <= 52.95; Natomiast kolejny wydruk prezentuje regułę uzyskaną dla danych dotyczących wydajności pokazującą zakres wartości zużycia energii elektrycznej oraz zużycia gazu podawanego do palników, aby wartość wydajności należała do klasy „B”. // (102.0) EL > 29.0046, GP <= 444, EL <= 29.9047; w "B" if da .b w Poprawność wygenerowanych reguł została oceniona poprzez wykonanie testu ilości poprawnie zaklasyfikowanych rekordów (używając klasyfikatora C4.5). Klasyfikacja przeprowadzona została w procesie 10-krotnej walidacji krzyżowej. Proces ten polega na podziale zbioru danych na 10 podzbiorów, a następnie 10-krotne uczenie na zbiorze pomniejszonym o jeden podzbiór, a testowanie tym podzbiorem, który nie brał udziału w procesie uczenia. Za ostateczny wynik przyjęto średnią wyników klasyfikacji z 10 różnych podzbiorów testujących. Wyniki dla poszczególnych klas prezentują tabela 5 i tabela 6. Tabela 5. Wyniki dla klasy Entalpia Etykieta klasy Kompletność [%] Dokładność [%] A B 83,5 65,0 70,1 80,1 Ważona średnia harmoniczna [%] 76,2 71,8 Liczba poprawnie zaklasyfikowanych rekordów [%] 74,17 Tabela 6. Wyniki dla klasy Wydajność Dokładność [%] A B 69,9 72,9 75,0 67,5 pl s. Etykieta klasy Kompletność [%] Ważona średnia harmoniczna [%] 72,3 70,1 Liczba poprawnie zaklasyfikowanych rekordów [%] 71,27 Gdzie miara kompletności to liczba poprawnie sklasyfikowanych rekordów danej klasy do wszystkich rekordów tej klasy, a miara dokładności to liczba poprawnie sklasyfikowanych rekordów danej klasy do wszystkich rekordów zaklasyfikowanych jako ta klasa (również błędnie). Ważona średnia harmoniczna wyliczana jest z zależności: Fα = (1 − α ) ⋅ dokladnosc ⋅ kompletnosc α ⋅ dokladnosc ⋅ kompletnosc (2) 391 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 T. Wieczorek, K. Mączka, P. Świtała 4 Podsumowanie w Wypełnianie baz wiedzy jest procesem bardzo kosztownym i czasochłonnym. Tworzenie reguł wymaga zaangażowania grupy ekspertów z danej dziedziny, od których pozyskana wiedza często może być niekompletna lub błędna. Dzięki automatycznemu generowaniu reguł przy użyciu drzew decyzji możliwe jest pozyskanie wiedzy w sposób automatyczny, na podstawie rejestracji parametrów procesu. Przeprowadzone badania pokazały możliwość automatycznego generowania reguł, a przeprowadzona na podstawie tych reguł klasyfikacja pokazała ich poprawność dla rzeczywistych danych pochodzących z przemysłowego procesu metalurgicznego. Podjęte zostały próby podziału danych na większą liczbę klas, a następnie przeprowadzono testy klasyfikacji tak przygotowanego zbioru danych, jednak uzyskany niski odsetek poprawnie klasyfikowanych rekordów sugeruje zbyt małą liczbę przykładów uczących na jedną klasę. W najbliższej przyszłości autorzy planują przeprowadzenie badań pozwalających generować reguły dla zbiorów z większą ilością klas, co wymaga jednak uzupełnienia posiadanych danych pomiarowych. w w Praca częściowo finansowana przez Ministerstwo Nauki i Szkolnictwa Wyższego, grant Nr 6ZR9 2006 C/06742 1. 2. 3. 4. 5. da .b Literatura pl s. Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques. Elsevier 2005 San Francisco. Craig W. Kirkwood: Decision Tree Primer. Arizona State University 2002. Wieczorek T., Pyka M.: Hybrid expert system for arc-electric steelmaking process monitoring. Acta Metallurgica Slovaca, 10, 2004, 408–412. Wieczorek T.: Wykorzystanie sieci neuronowych do planowania produkcji stali w piecu łukowym. w: Kwiecień A., Wódz K. (red.) „Techniczne i społeczne problemy zastosowania Internetu”. WKiŁ, 2005, 147–154. Pyka M., Wieczorek T.: Zastosowanie algorytmu drzew decyzyjnych C4.5 do konstrukcji reguł dla systemu ekspertowego stalowniczego pieca łukowego. W: Piela A., Lisok J., Grosman F. (red.) „Informatyka w technologii metali”, Mat. XII Konf. KomPlasTech, Ustroń, 2005, 19–28. 392 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007