AKWIZYCJA I WSTĘPNE OPRACOWANIE DANYCH
Transkrypt
AKWIZYCJA I WSTĘPNE OPRACOWANIE DANYCH
KOMISJA BUDOWY MASZYN PAN – ODDZIAà W POZNANIU Vol. 29 nr 1 Archiwum Technologii Maszyn i Automatyzacji 2009 ROBERT SIKA*, ZENON IGNASZAK** AKWIZYCJA I WSTĉPNE OPRACOWANIE DANYCH NIEJEDNORODNYCH NA POTRZEBY SYSTEMÓW DATA MINING NA PRZYKàADZIE PRZEMYSàU ODLEWNICZEGO W artykule przedstawiono zaáoĪenia, jakie powinny obowiązywaü w systemie zapewnienia jakoĞci na etapie akwizycji danych w przemyĞle odlewniczym. Zwrócono uwagĊ na aspekt akwizycji danych pochodzących z róĪnych systemów pomiarowych – automatycznych, póáautomatycznych oraz manualnych – istotny w wykorzystaniu danych pochodzących z systemów informatycznych. UwzglĊdniono pochodzenie i rodzaj danych gromadzonych przez wielu uĪytkowników. PoáoĪono nacisk na stabilnoĞü procedur pomiarowych oraz systemów gromadzenia i przetwarzania danych. Wskazano na duĪą rolĊ wáaĞciwego rejestrowania niejednorodnych danych pochodzących ze zróĪnicowanych Ĩródeá informacji o procesach technologicznych odlewania. Zaprezentowane przykáady akwizycji i wstĊpnej obróbki danych oparto na badaniach autorów pochodzących z praktyki odlewniczej. Sáowa kluczowe: odlewnictwo, akwizycja danych, data mining, wáaĞciwoĞci mas formierskich, temperatura odlewania 1. WPROWADZENIE Badania i wdroĪenia systemów pomiarowych i przetwarzania danych [3 – 8] wskazują, szczególnie na przestrzeni ostatniego dziesiĊciolecia, na znaczenie tych danych, które pochodzą z wiarygodnych Ĩródeá. Dotyczy to nie tylko danych z administracyjno-finansowego obszaru dziaáania firmy, ale równieĪ danych produkcyjnych, zwanych danymi warsztatowymi. W dobie wszechobecnej informatyzacji systemy techniczne CAx są wykorzystywane prawie w kaĪdym przedsiĊbiorstwie produkcyjnym i stanowią istotny element zarządzania firmą. WáaĞciwa interpretacja przetwarzanych danych przez sáuĪby technologiczne danego systemu produkcyjnego pozwala uzyskaü dodatkową wiedzĊ do wykorzystania w kontroli jakoĞci – do ustalenia przyczyn pogorszenia jakoĞci, * ** Mgr inĪ. Prof. dr hab. inĪ Instytut Technologii Materiaáów Politechniki PoznaĔskiej. 58 R. Sika, Z. Ignaszak a w konsekwencji do zapobiegania im w produkcji. Potrzeba gromadzenia danych wspomagających nadzór procesu i sterowanie nim jest szczególnie widoczna w záoĪonych materiaáowo i technologicznie systemach produkcyjnych (np. w odlewniach), w których o powodzeniu procesu technologicznego decyduje wiele czynników wpáywających na jakoĞü wyrobu koĔcowego. Widaü to wyraĨnie na przykáadzie odlewu. Liczba parametrów opisujących te czynniki moĪe byü w zasadzie nieograniczona i zaleĪy w duĪej mierze od dostĊpu do procesu i znajomoĞci jego sekwencji oraz od zakresu analiz i prognoz, w tym równieĪ od wybranego przez odlewniĊ systemu sterowania jakoĞcią. JakoĞü odlewów z Īeliwa sferoidalnego w zakresie wáaĞciwoĞci mechanicznych speániających WOK1 moĪna prognozowaü na podstawie struktury Īeliwa, na którą wpáyw mają m.in. skáad chemiczny (zawartoĞü dodatków stopowych), temperatura, czas zalewania formy oraz charakterystyki mechaniczne (wytrzymaáoĞü Rm, Re, wydáuĪenie A5). Perzyk [4] na przykáad proponuje optymalizacjĊ parametrów obróbki cieplnej Īeliwa ADI umoĪliwiającą przewidywanie wytrzymaáoĞci i wydáuĪenia odlewu. Badania potencjalnie dostĊpnych danych o przebiegu odlewania wskazują na ich duĪą niejednorodnoĞü i rozproszenie. Problemem pozostaje zatem wáaĞciwe wykorzystanie tych róĪnorodnych informacji, które powinny byü gromadzone za pomocą odpowiednio przystosowanych narzĊdzi informatycznych (np. technicznych CAx – ang. Computer Aided… czy administracyjnych PPC – ang. Planning Production and Control). Dodatkowym problemem jest opieszaáoĞü w akwizycji danych z róĪnych potencjalnych Ĩródeá. A zestawienia statystyczne, w których czĊsto przyjmuje siĊ zaáoĪenia upraszczające proces i związki miĊdzy mierzonymi parametrami, nie pozwalają na odpowiednią do specyfiki procesu korelacjĊ tych parametrów. W związku z tym w wielu firmach panuje przekonanie o znikomej przydatnoĞci systemów typu CAQ (ang. Computer Aided Quality) lub ERP (ang. Enterprise Resource Planning) do zarządzania jakoĞcią opartego na gáĊbokiej wiedzy technicznej o záoĪonym procesie wytwarzania. 2. DANE PODSTAWĄ PODEJMOWANIA DECYZJI Wiedza w przedsiĊbiorstwie nadal pozostaje dobrem uporządkowanym tylko dostatecznie i jest wykorzystywana fragmentarycznie [2]. Z jednej strony widoczne są starania kadr kierowniczych o usystematyzowanie akwizycji i interpretacji danych, z drugiej zaĞ istnieje duĪa rozbieĪnoĞü miĊdzy posiadaną wiedzą a umiejĊtnoĞcią jej wykorzystania, która w przemyĞle, a zwáaszcza w przemyĞle odlewniczym, ma szczególne znaczenie. DostĊpne juĪ niemal w kaĪdym 1 WOK – warunki odbioru podane przez klienta; WOT – warunki odbioru uĞciĞlone przez technologa. ZaáoĪenie, Īe WOT t WOK, jest wedáug propozycji autorów elementem struktury komunikacyjno-logistycznej w przedsiĊbiorstwie. Akwizycja i wstĊpne opracowanie danych niejednorodnych … 59 Ğrednim lub duĪym przedsiĊbiorstwie systemy ERP sáuĪą do gromadzenia danych administracyjnych i planistycznych. Przykáadowo dane dotyczące kosztów i finansów, kontroli i planowania oparte na metodach MRP/MRP II są wykorzystywane gáównie do przygotowywania raportów zdefiniowanych przez uĪytkownika. JednakĪe dane mogą byü rejestrowane bezpoĞrednio podczas procesów produkcyjnych. MoĪna zatem mówiü o dualnym charakterze platform systemów informatycznych w firmie produkcyjnej. Autor opracowania [14] proponuje podziaá na dane administracyjne, zarządcze, ksiĊgowe itd. oraz na dane technologiczne. Systemy techniczne CAx umoĪliwiają nadzór nad danymi technologicznymi, jednak nadal w wielu przypadkach moĪna dostrzec brak ĞwiadomoĞci i wiedzy o celowoĞü i przydatnoĞci prowadzenia profesjonalnej akwizycji niejednorodnych danych produkcyjnych (ang. NHD – Non-Homogenous Data). Autorzy proponują zastosowanie metod statystycznych, w tym metod i technik data mining, do wstĊpnej obróbki danych. Na wstĊpnym etapie odkrywania wiedzy (ang. Knowledge Discovery, KD), np. na etapie czyszczenia2 i integracji danych, moĪna korzystaü z metod statystycznych, a niekiedy z wybranych technik eksploracji danych (ang. data mining), natomiast do analiz, opartych gáównie na historii procesu produkcyjnego, stosowane są metody i techniki z dziedziny zaawansowanej eksploracji danych. 3. DOSTĉPNE ħRÓDàA DANYCH W PROCESACH ODLEWNICZYCH 3.1. Obszary gromadzenia danych KaĪdy rodzaj danych moĪe stanowiü istotne Ĩródáo nowej wiedzy dla technologa. Celem jej wykorzystania jest nie tylko poprawa warunków produkcji, ale równieĪ zapewnienie solidnych podstaw decyzyjnych na poziomie technicznym i komunikacyjno-logistycznym, które nie bĊdą odbiegaáy od oczekiwaĔ specjalistów. Pozyskanie wiedzy nie zawsze jest zadaniem prostym, co potwierdzają liczne przykáady autorów z praktyki odlewniczej [9 – 11]. Rejestracja danych moĪe byü [9]: – automatyczna (np. pomiar temperatury i czasu zalewania wnĊki form za pomocą pirometrów wysokotemperaturowych, dwubarwowych), – póáautomatyczna (koniecznoĞü áączenia danych pochodzących ze Ĩródeá automatycznych i pochodzących z zapisów manualnych, np. w pewnej polskiej odlewni Īeliwa rejestrowano automatycznie dane wytrzymaáoĞciowe z przylanej i poddanej obróbce próbki, rĊcznie natomiast dopisywano pomiar twardoĞci 2 PojĊcie „czyszczenie danych”, czyli data cleaning [7, 8, 13], jest dosáownym táumaczeniem z jĊzyka angielskiego i oznacza wyodrĊbnienie i usuniĊcie ze zbioru danych obarczonych ewidentnym báĊdem, co jest jednym z istotnych etapów procesu odkrywania wiedzy. 60 R. Sika, Z. Ignaszak w skali Brinella – zbiorczy plik, wygenerowany i uzupeániony o dodatkowe parametry, eksportowano nastĊpnie do systemu SAP R/3), – rĊczna (np. parametry mas formierskich, pobierane z róĪnych punktów linii formierskiej odlewni i oceniane pod wzglĊdem stabilnoĞci i identyfikacji wpáywu tejĪe stabilnoĞci na jakoĞü odlewów z Īeliwa). PoniĪej (rys. 1) zaprezentowano przykáadowe zbiory danych z róĪnych odlewni w Polsce i Europie. Rys. 1. Przykáadowe zbiory danych: A – rejestracja rĊczna z zapewnionymi polami do wstĊpnego czyszczenia danych (Francja), B – rejestracja pirometryczna, automatyczna bez moĪliwoĞci wstĊpnego czyszczenia danych (Polska), C – rejestracja rĊczna z zapewnionymi polami do wstĊpnego czyszczenia danych (Polska) Fig. 1. Examples of data sets: A – manual recording with secure field in preliminary data cleaning (France), B – automatic pyrometer registration with no-preliminary data cleaning (Poland), C – manual recording with secured field in preliminary data cleaning (Poland) 3.2. Rola akwizycji danych w róĪnych zadaniach procesów produkcyjnych Dane determinują rozwiązywanie róĪnych typów zadaĔ w produkcji, gáównie wspomaganych komputerowo. WyróĪniü moĪna nastĊpujące typu zadaĔ [4, 8]: – symulacja procesu, – bieĪąca kontrola procesów i sterowanie nimi, – identyfikacja prawidáowoĞci wystĊpujących w procesach. Zadaniem symulacji z wykorzystaniem informacji zwrotnych z pre-processingu, main-processingu oraz post-processingu jest przewidywanie wáaĞciwoĞci modelowanego odlewu na etapie jego projektowania (symulacje numeryczne wypeánienia wnĊki formy, przepáyw ciepáa czy efekty dyfuzyjne). DziĊki temu moĪna przewidzieü skutki wprowadzenia zmian w technologii. Istotny jest tutaj Akwizycja i wstĊpne opracowanie danych niejednorodnych … 61 model procesu – jego záoĪonoĞü powinna byü maáa, natomiast istotna jest znajomoĞü rządzących nimi reguá (aspekt pre-processingu). r C z – stopieĔ záoĪonoĞci problemu r – stopieĔ znajomoĞci reguá rządzących problemem Metody oparte na modelowaniu procesów, CAE A – niski, B – Ğredni, C – wysoki S – obszary synergii róĪnych modeli matematycznych s Metody statystyczne, systemy ekspertowe B s Sieci neuronowe, metody indukcyjne, metody i techniki data mining A z A B C Rys. 2. Zakres stosowania róĪnych typów modeli matematycznych (na podstawie [1, 4, 8]) Fig. 2. Application range of different mathematical model types (on basis [1, 4, 8]) BieĪąca kontrola procesów i sterowanie nimi pozwalają na szybką ocenĊ ich jakoĞci, co umoĪliwia wykrywanie zakáóceĔ w produkcji w czasie rzeczywistym. Znanych jest wiele praktycznych przykáadów wspomagania bieĪącej kontroli, z których najbardziej popularne są karty kontrolne ze wzglĊdu na bezpoĞrednie przeáoĪenie rejestrowanych danych na ocenĊ jakoĞci procesu. Identyfikacja prawidáowoĞci w zbiorze danych umoĪliwia wskazanie potencjalnych zakáóceĔ procesu, optymalnych wartoĞci parametrów i ich związku przyczynowo-skutkowego. W tym przypadku równieĪ naleĪy zastosowaü model procesu. W róĪnych przykáadach uczących lub w kontroli bieĪącej stosowane są dane róĪnych typów (atrybuty danych). NajczĊĞciej wykorzystywane są typy: nominalny, porządkowy i ciągáy. Nominalny typ danych (zwany równieĪ symbolicznym) stanowi skoĔczony zbiór nieuporządkowanych wartoĞci dyskretnych; kategorie danych są okreĞlane za pomocą dowolnych, czĊsto umownych znaków. Przykáadem moĪe byü klasyfikacja wad rodzajowych wedáug norm zakáadowych, tutaj kategorie danych stanowią kolejne poziomy klasyfikacji. 62 R. Sika, Z. Ignaszak Rys. 3. Zastosowanie nominalnego typu danych na przykáadzie klasyfikacji wad odlewów Īeliwnych wedáug wytycznych kontroli jakoĞci (technologia i badania nienieszczące NDT) Fig. 3. Application of nominal data type – example of cast iron defects classification according to assumption in quality control (technology and Non Destructive Testing) Porządkowy typ danych oparty jest na policzalnym i uporządkowanym zbiorze wartoĞci dyskretnych. Przykáadem moĪe byü przyporządkowanie liczby wad do grup rodzajowych (kategorie mają swój porządek i są policzalne). W tym przypadku moĪliwe jest policzenie wartoĞci mieszczących siĊ w danej kategorii i tym samym wstĊpne oszacowanie udziaáu procentowego. Nie ma natomiast moĪliwoĞci wykorzystania tradycyjnych metod statystycznych np. do wyznaczenia tolerancji parametru procesu. Wada stanowi wartoĞü binarną, nieciągáą, choü poĞrednio moĪe sáuĪyü do wstĊpnego okreĞlenia przyczyn rozregulowania procesu. Na rysunku 4 zaprezentowano wykres wybranych wad odlewniczych serii danego asortymentu odlewanej w pewnej polskiej odlewni. Na wykresie przedstawiono procentowy udziaá trzech zidentyfikowanych rodzajów wad przyporządkowanych do danego asortymentu w ujĊciu dziennym. Udziaá procentowy moĪe posáuĪyü do porządkowania znaczenia wystąpienia wady danego rodzaju w skali 5-punktowej: 1 – udziaá bardzo maáy, 2 – maáy, 3 – Ğredni, 4 – duĪy, 5 – bardzo duĪy. Pozwala to wstĊpnie zakwalifikowaü odlewy wadliwe do danej kategorii i zawĊziü liczbĊ czynników powodujących rozregulowanie procesu. Pokazano przyrost wad w wybranym interwale czasu, co moĪe stanowiü solidną podstawĊ do dalszych analiz innych parametrów (np. liczbowych ciągáych). Warto podkreĞliü fakt, Īe dane mogą byü zapisywane wedáug numeru kolejnego pomiaru lub wedáug czasu. Wykorzystując drugą opcjĊ, autorzy zwracają szczególną uwagĊ na dalsze uáatwienia w integracji danych pochodzących z róĪnych Akwizycja i wstĊpne opracowanie danych niejednorodnych … 63 Ĩródeá. Istnieje wiele procesów, których wyniki trudno powiązaü czasowo. Autorzy proponują wykorzystanie sesji czasowych. Zagadnienie to wykracza jednak poza ramy niniejszego artykuáu. Rys. 4. Wybrane rodzaje wad odlewniczych serii danego asortymentu jako przykáad porządkowego typu danych ujĊtych w porządkowej skali 5-punktowej (1 – (0–5)% odlewów wadliwych, 5 – (>20)% odlewów wadliwych); na wykresie pokazano dodatkowo przyrost udziaáu wszystkich wad w wybranym przedziale czasowym Fig. 4. Different type of cast defects for assortment of cast iron – example of ordinal data type for 5-point ordinal scale (1 – (0–5)% cast iron defected, 5 – (>20)% cast iron defected); in the graph there was shown additionally increment of all parts defects in optional time interval Liczbowy ciągáy typ danych obejmuje wartoĞci ze zbioru liczb rzeczywistych. Jest to zbiór przeliczalny, który najczĊĞciej wykorzystywany jest w praktyce do bieĪącej kontroli jakoĞci lub prawidáowoĞci oraz do prognoz procesu produkcyjnego. Operowanie na tym zbiorze moĪna wykorzystaü w odlewniach, które dziennie rejestrują kilka tysiĊcy rekordów danego parametru (np. dane pirometryczne dla serii odlewów maáogabarytowych). NaleĪy zatem szczególną uwagĊ zwróciü na wáaĞciwą akwizycjĊ danych, a przede wszystkim na analizĊ dziedziny zastosowania i celów uĪytkownika, selekcjĊ i czyszczenie danych. Dopiero odpowiednio wyselekcjonowane i oczyszczone dane powinny stanowiü Ĩródáo wiedzy i podstawĊ dalszych analiz. Ich atutem jest równieĪ fakt, Īe w przypadku zastosowania metod i technik data mining mniej problemów stwarza etap transformacji danych (tzn. przeksztaácania i re- 64 R. Sika, Z. Ignaszak dukcji, np. normalizacja danych numerycznych N(0;1)). Bez wzglĊdu na rodzaj danych naleĪy mieü na uwadze ich koĔcowe przeznaczenie. 4. ORGANIZACJA I SPOSOBY CZYSZCZENIA DANYCH (MOĩLIWOĝû WYKORZYSTANIA DANYCH W SYSTEMACH) NiezaleĪnie od charakteru danych juĪ na etapie akwizycji trzeba uwzglĊdniü ich wstĊpne czyszczenie, jeĞli jest to moĪliwe. Jest to szczególnie istotne w przypadku danych rejestrowanych w sposób póáautomatyczny lub manualny. Dla pozyskania wartoĞciowej wiedzy technologicznej waĪne jest zachowanie pewnej konsekwencji etapów odkrywania wiedzy, co ma poĞrednie odzwierciedlenie w stabilnoĞci i systematycznoĞci procedur pomiarowych. Autorzy proponują, aby w pierwszej kolejnoĞci zwróciü uwagĊ na ewentualne moĪliwoĞci integracji danych z róĪnych heterogenicznych i rozproszonych Ĩródeá danych. Kolejnym etapem odkrywania wiedzy powinna byü selekcja danych, które są istotne z punktu widzenia analizy procesu. Jest to o tyle waĪne, Īe w pewnych sytuacjach moĪna znacznie skróciü zbiór danych wykorzystywanych w nastĊpnych etapach, czyli selekcji i transformacji. Dane „surowe” charakteryzują siĊ licznymi báĊdami pomiarowymi – znieksztaáconymi lub brakującymi wartoĞciami. Konieczne jest zatem ich wstĊpne filtrowanie, najlepiej w czasie rzeczywistym. Ma to istotny wpáyw na funkcjonowanie systemów CAx, w tym równieĪ PPC. O ile w przypadku systemów PPC wstĊpne czyszczenie danych jest najczĊĞciej zdefiniowane juĪ na etapie wdraĪania moduáów ERP, o tyle do danych rejestrowanych z róĪnych Ĩródeá pomiarowych naleĪy czĊsto stosowaü rozwiązania wáasne. WaĪna jest tutaj merytoryczna spójnoĞü danych, a kryteria tej spójnoĞci powinny stanowiü podstawĊ systemów zbierania danych. W myĞl zasady GIGO (ang. garbage in – garbage out) wprowadzenie báĊdnych danych prowadzi do faászywych wyników i wniosków. NaleĪy zatem zadbaü o czystoĞü danych na jak najniĪszym poziomie ich wprowadzania do bazy (pola rekordów) [13]. Autorzy prezentują wybrane problemy jakoĞci rejestrowanych danych na podstawie wdroĪonych w wybranych odlewniach polskich i europejskich autorskich narzĊdzi akwizycji i eksploracji danych produkcyjnych. Dalej szczegóáowo opisano dwa z nich: dopasowanie Ĩródeá danych („translacja danych”) oraz wykorzystanie sáowników („sáownikowanie danych”). W jednej z polskich odlewni Īeliwa na wydziale odlewów maáogabarytowych napotkano oczywisty, z pozoru doĞü báahy problem porównania danych z dwóch róĪnych Ĩródeá: parametrów mas formierskich, które decydują o jej wáaĞciwoĞciach i tym samym stabilnoĞci technologicznej przygotowanej maszynowo wnĊki formy, oraz parametrów ciekáego Īeliwa. Problemem jest tutaj dopasowanie Ĩródeá danych do jednej serii zalewanego asortymentu. Zadanie to wymaga Akwizycja i wstĊpne opracowanie danych niejednorodnych … 65 zsynchronizowania czasów: pobrania próbek masy, przeprowadzenia peánego pomiaru parametrów w laboratorium mas oraz transportu masy z przenoĞnika na stanowisko formowania. Dodatkowo uwzglĊdniü naleĪy przestoje linii produkcyjnych. Priorytetowa jest zatem peána informacja o procesie. Dopiero z taką wiedzą moĪna przystąpiü do dopasowania parametrów mas i Īeliwa dla tej samej serii na podstawie godziny pomiaru oraz za pomocą filtrów asortymentowych. Drugi aspekt wymaga gáĊbszego wyjaĞnienia. Rys. 5. Moduá systemu KMES Quality do translacji nazw asortymentu za pomocą wyraĪeĔ regularnych Fig. 5. KMES Quality system module to translation of assortment names using regular expressions OtóĪ w przemyĞle odlewniczym produkt koĔcowy ma najczĊĞciej róĪne nazwy asortymentowe – inne są nazwy skáadników mas, mas formierskich, wybitych odlewów, próbek przylanych/oddzielnie lanych (np. do badania skáadu chemicznego lub charakterystyk mechanicznych) czy odlewów, które trafiają do obróbki. Jest to związane z niejednorodnoĞcią danych, bo kaĪdy odlew moĪe mieü unikatową nazwĊ, ale problemem jest szybka identyfikacja masy czy wytopu, które są przeznaczone do wykonania wiĊcej niĪ jednego odlewu. W systemie KMES Quality [9, 11] autorzy proponują wykorzystanie moduáu do filtrowania danych NS (nazwa asortymentu wedáug umownych oznaczeĔ wewnĊtrznych dla mas formierskich) oraz KT (numer wedáug karty technologicznej, który odpowiada nazwie asortymentowej odlewu). Algorytm wykorzystuje dane z systemu SAP R/3 i m.in. wyraĪenia regularne (ang. regular expressions – regex) do merytorycznego dopasowania áaĔcuchów na podstawie zdefiniowanych wzorców. Wykorzystując wiedzĊ z zakresu regeksów, uĪytkownik sam moĪe definiowaü reguáy translacji nazw asortymentu. WyraĪenia regularne zastosowano równieĪ w innej odlewni (Francja) do analizy parametrów piasku (m.in. AFS – analiza ziarnistoĞci, pH, zawartoĞü pyáu) 66 R. Sika, Z. Ignaszak na etapie wstĊpnego czyszczenia plików z danymi, które prawdopodobnie nie speániają zaáoĪonych kryteriów spójnoĞci danych (np. „puste dane”; wiĊcej na ten temat w nastĊpnym punkcie). Ma to szczególne znaczenie, gdy etap czyszczenia danych poprzedza etap ich integracji. Rys. 6. Zastosowanie wyraĪeĔ regularnych do czyszczenia báĊdnych nazw plików (Francja) Fig. 6. Application of regex to bad files cleaning Rys. 7. Przykáady sáowników danych: A – dane tekstowe, B – dane liczbowe (data/godzina – godzina w systemie liczbowym stanowi wartoĞü z zakresu liczb rzeczywistych (0,1), natomiast data moĪe byü zapisywana w formie liczb caákowitych od 1 dla daty 1900-01-01) Fig. 7. Example of data dictionaries: A – string data, B – numerical data (date/time – time in numerical system is a value from range of real number (0,1), whereas date can be recording as absolute number from 1 for 1900-01-01) Drugim przykáadem jest „sáownikowanie”, które moĪe dotyczyü zarówno danych wymiernych (policzalnych, np. zakres danych), jak i niewymiernych (nie- Akwizycja i wstĊpne opracowanie danych niejednorodnych … 67 policzalne wartoĞci nominalne). ZaáoĪeniem tej metody jest budowa sáownika, który uwzglĊdnia dane z innych systemów, w tym ERP typu SAP R/3 czy QAD. Baza danych, z której korzysta sáownik, jest uzupeániana i korygowana na bieĪąco. W tym przypadku wystarczy zastosowanie kartotekowych baz danych (tzw. páaskie bazy danych), choü w zaleĪnoĞci od poziomu uszczegóáowienia takich sáowników moĪna wspomóc siĊ bazami relacyjnymi, zwáaszcza gdy dane do nich bĊdą importowane bezpoĞrednio z systemów ERP. Na rysunku 7 podano przykáad wykorzystania sáowników dwóch typów danych: tekstowego i liczbowego. W kaĪdym z przedstawionych przypadków naleĪy mieü na uwadze ergonomiĊ pracy „operatorów danych”, w tym koszt i jakoĞü obsáugi systemu w odniesieniu do oczekiwanej czystoĞci danych. System nadmiernie „wyuczony” zamiast pomagaü, moĪe zaszkodziü i skutecznie zniechĊciü pracownika. 5. ISTOTA CHRONOLOGII I STRUKTURYZACJI DANYCH W PROCESIE ODKRYWANIA WIEDZY Do jakoĞci czystoĞci danych moĪna podejĞü na wiele sposobów. Inne jest podejĞcie do danych na etapie bieĪącej ewidencji, a inne do danych juĪ zarejestrowanych. Problem w tym, aby wskazaü ewentualne báĊdy. Wnioskowanie o populacji najczĊĞciej jest oparte na reprezentatywnej próbie losowej. Na podstawie wartoĞci obliczonych z próbki moĪna oszacowaü wartoĞci parametru rozkáadu. Im próba wiĊksza, tym precyzja wiĊksza, natomiast mniejsze jest obciąĪenie szacowania. Gdy populacja jest stosunkowo maáa, moĪna próbowaü oceniaü wszystkie jej parametry. Przykáadem mogą byü zmiany wartoĞci parametrów tej samej serii odlewów (maáo licznej) w zaleĪnoĞci od czasu. Tak zwany dryft populacji moĪe mieü związek z warunkami cieplnymi otoczenia. Badania wpáywu otoczenia odlewni na warunki prowadzenia procesu prezentuje m.in. Perzyk [5]. Statystycznie badaü moĪna zawartoĞü pól rekordów pod kątem odpowiedniego formatu danych, báĊdnych danych, które wynikają z báĊdnie przyjĊtych lub maáo odpornych na zakáócenia procedur pomiarowych, brakujących wartoĞci (ang. missing values) czy punktów oddalonych (ang. outliers). Zakres i ewentualne odchyáki danych moĪna przyjąü na etapie akwizycji danych, choü czĊsto báĊdne dane zaleĪą od odpornoĞci procedur pomiarowych oraz systemu nadzorującego akwizycjĊ. Nieco trudniej zidentyfikowaü brakujące wartoĞci lub punkty oddalone. NajczĊĞciej są one dostrzegane dopiero na etapie transformacji danych w celu wykorzystania odpowiednich metod data mining, gdy okazuje siĊ, Īe wzorce opisujące anomalie w produkcji są dalekie od zaáoĪonej doskonaáoĞci. Tutaj moĪna zastosowaü tzw. fabrykowanie danych. Wykorzystuje siĊ do tego wartoĞci do- 68 R. Sika, Z. Ignaszak brane przez specjalistĊ, modĊ lub Ğrednią atrybutu z tej samej klasy, wartoĞci losowe z wybranego przedziaáu klasowego, estymacjĊ wartoĞci najbardziej prawdopodobnych. Rys. 8. Ewidencja wartoĞci parametrów mas formierskich wedáug zaáoĪonej tolerancji przypisanej do pól rekordów na etapie akwizycji danych Fig. 8. Green sand parameters recording according to assumed tolerance attributed to fields of records on acquisition data stage Punkty skrajne (oddalone) to takie, które poáoĪone są blisko granic dolnego i górnego zakresu danych, choü mogą caákowicie odstawaü od dominującego trendu. Tutaj moĪna stosowaü standaryzacjĊ i oddalenie od r3V, choü metoda ta nie jest najkorzystniejsza ze wzglĊdu na to, Īe punkty oddalone wpáywają na Ğrednią, a wiĊc nakáadają pewne ograniczenia standaryzacji zmiennych. Innym przykáadem moĪe byü zidentyfikowanie rozstĊpów miĊdzykwartylowych Q1 oraz Q3 dla punktowych lub przedziaáowych szeregów rozdzielczych, w zaleĪnoĞci od kategoryzacji dostĊpnych danych (porządkowe lub ciągáe). W identyfikacji báĊdnych klasyfikacji zmiennych moĪna wykorzystaü równieĪ histogramy, w tym zasadĊ Pareto (20 – 80 lub 30 – 70) koncentrującą udziaá 20 – 30% zjawisk dla 70 – 80% skutków (krzywa koncentracji). W obu przypadkach naleĪy dokonaü wyboru danych, co do których istnieje podejrzenie o báĊdne klasyfikacje wartoĞci, a nastĊpnie zaprojektowaü tabelĊ szeregu rozdzielczego (punktowego lub przedziaáowego). Autorzy proponują opisowe lub graficzne metody statystyczne do identyfikowania punktów oddalonych. PoniĪej zaprezentowano fragment bazy danych wybranego parametru z procesu odlewniczego. Kolumny stanowią numer kolejnego dnia roku, natomiast wiersze rekordy danych. Dla wszystkich dni roku (1 – 366) wyznaczono szczytową amplitudĊ róĪnicy wartoĞci maksymalnej i minimalnej (1). Jak widaü na rys. 9, wartoĞü ta wynosi 2,3 dla 72. dnia roku. Kolejnym krokiem jest analiza parametrów dla wskazanego dnia. WartoĞü 1 znacznie odbiega od reszty wartoĞci pomiarowych. MetodĊ wykorzystuje siĊ Akwizycja i wstĊpne opracowanie danych niejednorodnych … 69 iteracyjnie, odrzucając wartoĞci juĪ wyznaczone, do momentu uzyskania akceptowalnej granicy tolerancji. Rys. 9. Wykorzystanie opisowej (amplituda szczytowa) oraz graficznej metody statystycznej do identyfikacji punktów oddalonych (outliers) Fig. 9. Use of descriptive (top amplitude) and graphical statistical method to outliers points identification AS MAX(i : i DRZ [max{P1 , P2 ,..., Pn }DRi min{P1 , P2 ,..., Pn }DRi ] ), (1) gdzie: AS DRz Px x i – – – – – amplituda szczytowa dla rozpatrywanych wartoĞci, zbiór rozpatrywanych dni roku o wartoĞciach z przedziaáu (1 – 366), wartoĞü pomiaru, numer pomiaru, numer dnia roku w zbiorze DR. 6. PODSUMOWANIE Wiele Ĩródeá danych z pozoru maáo znaczących moĪe stanowiü cenny element uzupeániający bazĊ danych. Punkty gromadzenia danych mogą sáuĪyü nie tylko do tworzenia ogólnych zestawieĔ statystycznych na wzór systemów ERP, ale równieĪ mogą stanowiü istotny element chronometraĪowych wykresów porównawczych parametrów technologicznych w bieĪącym sterowaniu jakoĞcią (kontrola odbiorcza, kontrola statystyczna) czy prognoz w produkcji (data mining). Autorzy podkreĞlili istotne znacznie wstĊpnego przygotowania i opracowania danych, a tym samym aspekt doskonalenia algorytmów do zarządzania 70 R. Sika, Z. Ignaszak danymi. Niniejszy artykuá nie wyczerpuje wszystkich problemów związanych z poprawną akwizycją danych, gáównie z jednego powodu – metody gromadzenia i wstĊpnej obróbki danych naleĪy dostosowaü do charakteru dziaáalnoĞci firmy (posiadanych danych), a przede wszystkim do ich niejednorodnoĞci. Przykáadowo, dane z systemów informatycznych PPC, np. ekonomiczno-techniczne czy z systemów CRM (ang. Customer Relationship Management), o klientach najczĊĞciej kupujących wybrany produkt są gromadzone w zaawansowanych repozytoriach danych (hurtownie danych). Ich czyszczenie jest najczĊĞciej wstĊpnie wymuszane przez zaawansowane systemy baz danych (co nie znaczy, Īe báĊdy nie wystĊpują), a poza jakoĞcią i integralnoĞcią danych [12] istotnym aspektem jest w tym przypadku czas prowadzenia obliczeĔ. W przypadku danych warsztatowych, gromadzonych gáównie przez techniczne systemy CAx lub inne systemy pomiarowe, waĪne jest z jednej strony czyszczenie i przetwarzanie danych, z drugiej zaĞ dopasowanie danych pochodzących z wielu procesów. Nie jest to jednak moĪliwe bez odpowiedniej wiedzy odlewniczej i znajomoĞci procesu. LITERATURA [1] Ignaszak Z., Bazy danych i walidacja w zagadnieniach wirtualizacji w odlewnictwie ze szczególnym uwzglĊdnieniem problematyki formy, Archive of Foundry Engineering, 2009, artykuá przyjĊty do druku. [2] Materska K., Wiedza w organizacjach. Prolegomena do zarządzania wiedzą, Instytut Informacji Naukowej i Studiów Bibliologicznych, UW. [3] Perzyk M., SoroczyĔski A., Porównanie wybranych narzĊdzi do tworzenia wiedzy inĪynierskiej dla produkcji odlewniczej, Archives of Foundry Engineering, 2008, vol. 8, issue 3. [4] Perzyk M., Komputerowe metody analizy i sterowania procesami produkcyjnymi, METRO – Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology. [5] Perzyk M., Sztuczne sieci neuronowe w analizie procesów odlewniczych, METRO – Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology. [6] Perzyk M., Statystyka w sterowaniu i kontroli procesów odlewniczych, METRO – Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology. [7] Perzyk M., Data mining in foundry production, w: Conference METALURGIA 2006, Krynica, October 11 – 14, 2006. [8] Perzyk M., Data mining w odlewni. MoĪliwoĞci, problemy, projekty, referat wygáoszony podczas XI International Symposium Modeling of Casting and Foundry Processes, Poznan – ĝrem (Poland), October 26 – 27, 2008. [9] Sika R., Ignaszak Z., System do eksploracji wybranych danych produkcyjnych oraz jego testowanie w odlewni, Archiwum Technologii Maszyn i Automatyzacji, 2008, vol. 28, nr 1, s. 61 – 72. [10] Sika R., Ignaszak Z., Data mining w przemyĞle odlewniczym – problemy rejestracji niejednorodnych danych i ich gromadzenia, referat wygáoszony na XI International Symposium Modeling of Casting and Foundry Processes, Poznan – ĝrem (Poland), October 26 – 27, 2008. [11] Sika R., Ignaszak Z., Implementation of the KMES Quality system for data acquisition and processing on the example of chosen foundry, Archives of Foundry Engineering, 2008, vol. 8, issue 3, s. 97 – 102. Akwizycja i wstĊpne opracowanie danych niejednorodnych … 71 [12] Stecyk A., JakoĞü i integralnoĞü danych w hurtowniach danych, 19 paĨdziernika 2005, Copyright © 2002-2005 Gazeta IT. [13] Wyrozumski T., Jak sprawiü, aby dane byáy czyste?, w: IX Konferencja PLOUG, KoĞcielisko, paĨdziernik 2003. [14] Wyrozumski T., Dlaczego nie w przemyĞle?, w: VIII Konferencja PLOUG, KoĞcielisko, paĨdziernik 2002. Praca wpáynĊáa do Redakcji 16.03.2009 Recenzent: dr hab. inĪ. Edward Pająk ACQUISITION AND PRELIMINARY PREPARATION ASPECT OF NON-HOMOGENOUS DATA FOR DATA MINING SYSTEMS NEEDS ON THE EXAMPLE OF FOUNDRY INDUSTRY S u m m a r y In the paper the main assumptions of Assurance Quality system for data acquisition in foundry manufacturing were presented. The authors concentrated to aspect of data acquisition from various measurement systems – automatic, semi-automatic and manual which are significant to use data from information systems. It was taken into account the source and type of data collected through many users. Authors emphasized the stability of measurement procedures and systems for collected and process data. Authors shown large significance non-homogenous data registration process from diverse measurement points which are potential source of new technological knowledge. In the paper some examples for acquisition and preliminary data processing were presented which based on author’s casting practice experiences. Key words: foundry, data acquisition, data mining, mould sands properties, pouring temperature