AKWIZYCJA I WSTĘPNE OPRACOWANIE DANYCH

Transkrypt

AKWIZYCJA I WSTĘPNE OPRACOWANIE DANYCH
KOMISJA BUDOWY MASZYN PAN – ODDZIAà W POZNANIU
Vol. 29 nr 1
Archiwum Technologii Maszyn i Automatyzacji
2009
ROBERT SIKA*, ZENON IGNASZAK**
AKWIZYCJA I WSTĉPNE OPRACOWANIE
DANYCH NIEJEDNORODNYCH NA POTRZEBY
SYSTEMÓW DATA MINING
NA PRZYKàADZIE PRZEMYSàU ODLEWNICZEGO
W artykule przedstawiono zaáoĪenia, jakie powinny obowiązywaü w systemie zapewnienia jakoĞci na etapie akwizycji danych w przemyĞle odlewniczym. Zwrócono uwagĊ na aspekt akwizycji danych pochodzących z róĪnych systemów pomiarowych – automatycznych, póáautomatycznych oraz manualnych – istotny w wykorzystaniu danych pochodzących z systemów informatycznych. UwzglĊdniono pochodzenie i rodzaj danych gromadzonych przez wielu uĪytkowników.
PoáoĪono nacisk na stabilnoĞü procedur pomiarowych oraz systemów gromadzenia i przetwarzania
danych. Wskazano na duĪą rolĊ wáaĞciwego rejestrowania niejednorodnych danych pochodzących
ze zróĪnicowanych Ĩródeá informacji o procesach technologicznych odlewania. Zaprezentowane
przykáady akwizycji i wstĊpnej obróbki danych oparto na badaniach autorów pochodzących
z praktyki odlewniczej.
Sáowa kluczowe: odlewnictwo, akwizycja danych, data mining, wáaĞciwoĞci mas formierskich, temperatura odlewania
1. WPROWADZENIE
Badania i wdroĪenia systemów pomiarowych i przetwarzania danych [3 – 8]
wskazują, szczególnie na przestrzeni ostatniego dziesiĊciolecia, na znaczenie
tych danych, które pochodzą z wiarygodnych Ĩródeá. Dotyczy to nie tylko danych z administracyjno-finansowego obszaru dziaáania firmy, ale równieĪ danych produkcyjnych, zwanych danymi warsztatowymi. W dobie wszechobecnej
informatyzacji systemy techniczne CAx są wykorzystywane prawie w kaĪdym
przedsiĊbiorstwie produkcyjnym i stanowią istotny element zarządzania firmą.
WáaĞciwa interpretacja przetwarzanych danych przez sáuĪby technologiczne
danego systemu produkcyjnego pozwala uzyskaü dodatkową wiedzĊ do wykorzystania w kontroli jakoĞci – do ustalenia przyczyn pogorszenia jakoĞci,
*
**
Mgr inĪ.
Prof. dr hab. inĪ
Instytut Technologii Materiaáów Politechniki PoznaĔskiej.
58
R. Sika, Z. Ignaszak
a w konsekwencji do zapobiegania im w produkcji. Potrzeba gromadzenia danych wspomagających nadzór procesu i sterowanie nim jest szczególnie widoczna w záoĪonych materiaáowo i technologicznie systemach produkcyjnych
(np. w odlewniach), w których o powodzeniu procesu technologicznego decyduje wiele czynników wpáywających na jakoĞü wyrobu koĔcowego. Widaü to wyraĨnie na przykáadzie odlewu. Liczba parametrów opisujących te czynniki moĪe
byü w zasadzie nieograniczona i zaleĪy w duĪej mierze od dostĊpu do procesu
i znajomoĞci jego sekwencji oraz od zakresu analiz i prognoz, w tym równieĪ od
wybranego przez odlewniĊ systemu sterowania jakoĞcią.
JakoĞü odlewów z Īeliwa sferoidalnego w zakresie wáaĞciwoĞci mechanicznych speániających WOK1 moĪna prognozowaü na podstawie struktury Īeliwa,
na którą wpáyw mają m.in. skáad chemiczny (zawartoĞü dodatków stopowych),
temperatura, czas zalewania formy oraz charakterystyki mechaniczne (wytrzymaáoĞü Rm, Re, wydáuĪenie A5). Perzyk [4] na przykáad proponuje optymalizacjĊ
parametrów obróbki cieplnej Īeliwa ADI umoĪliwiającą przewidywanie wytrzymaáoĞci i wydáuĪenia odlewu.
Badania potencjalnie dostĊpnych danych o przebiegu odlewania wskazują na
ich duĪą niejednorodnoĞü i rozproszenie. Problemem pozostaje zatem wáaĞciwe
wykorzystanie tych róĪnorodnych informacji, które powinny byü gromadzone za
pomocą odpowiednio przystosowanych narzĊdzi informatycznych (np. technicznych CAx – ang. Computer Aided… czy administracyjnych PPC – ang. Planning
Production and Control). Dodatkowym problemem jest opieszaáoĞü w akwizycji
danych z róĪnych potencjalnych Ĩródeá. A zestawienia statystyczne, w których
czĊsto przyjmuje siĊ zaáoĪenia upraszczające proces i związki miĊdzy mierzonymi parametrami, nie pozwalają na odpowiednią do specyfiki procesu korelacjĊ
tych parametrów. W związku z tym w wielu firmach panuje przekonanie o znikomej przydatnoĞci systemów typu CAQ (ang. Computer Aided Quality) lub
ERP (ang. Enterprise Resource Planning) do zarządzania jakoĞcią opartego na
gáĊbokiej wiedzy technicznej o záoĪonym procesie wytwarzania.
2. DANE PODSTAWĄ PODEJMOWANIA DECYZJI
Wiedza w przedsiĊbiorstwie nadal pozostaje dobrem uporządkowanym tylko
dostatecznie i jest wykorzystywana fragmentarycznie [2]. Z jednej strony widoczne są starania kadr kierowniczych o usystematyzowanie akwizycji i interpretacji danych, z drugiej zaĞ istnieje duĪa rozbieĪnoĞü miĊdzy posiadaną wiedzą a umiejĊtnoĞcią jej wykorzystania, która w przemyĞle, a zwáaszcza w przemyĞle odlewniczym, ma szczególne znaczenie. DostĊpne juĪ niemal w kaĪdym
1 WOK – warunki odbioru podane przez klienta; WOT – warunki odbioru uĞciĞlone przez
technologa. ZaáoĪenie, Īe WOT t WOK, jest wedáug propozycji autorów elementem struktury
komunikacyjno-logistycznej w przedsiĊbiorstwie.
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
59
Ğrednim lub duĪym przedsiĊbiorstwie systemy ERP sáuĪą do gromadzenia danych administracyjnych i planistycznych. Przykáadowo dane dotyczące kosztów
i finansów, kontroli i planowania oparte na metodach MRP/MRP II są wykorzystywane gáównie do przygotowywania raportów zdefiniowanych przez uĪytkownika. JednakĪe dane mogą byü rejestrowane bezpoĞrednio podczas procesów
produkcyjnych. MoĪna zatem mówiü o dualnym charakterze platform systemów
informatycznych w firmie produkcyjnej. Autor opracowania [14] proponuje
podziaá na dane administracyjne, zarządcze, ksiĊgowe itd. oraz na dane technologiczne.
Systemy techniczne CAx umoĪliwiają nadzór nad danymi technologicznymi,
jednak nadal w wielu przypadkach moĪna dostrzec brak ĞwiadomoĞci i wiedzy
o celowoĞü i przydatnoĞci prowadzenia profesjonalnej akwizycji niejednorodnych danych produkcyjnych (ang. NHD – Non-Homogenous Data). Autorzy
proponują zastosowanie metod statystycznych, w tym metod i technik data mining, do wstĊpnej obróbki danych. Na wstĊpnym etapie odkrywania wiedzy
(ang. Knowledge Discovery, KD), np. na etapie czyszczenia2 i integracji danych,
moĪna korzystaü z metod statystycznych, a niekiedy z wybranych technik eksploracji danych (ang. data mining), natomiast do analiz, opartych gáównie na
historii procesu produkcyjnego, stosowane są metody i techniki z dziedziny zaawansowanej eksploracji danych.
3. DOSTĉPNE ħRÓDàA DANYCH W PROCESACH ODLEWNICZYCH
3.1. Obszary gromadzenia danych
KaĪdy rodzaj danych moĪe stanowiü istotne Ĩródáo nowej wiedzy dla technologa. Celem jej wykorzystania jest nie tylko poprawa warunków produkcji, ale
równieĪ zapewnienie solidnych podstaw decyzyjnych na poziomie technicznym
i komunikacyjno-logistycznym, które nie bĊdą odbiegaáy od oczekiwaĔ specjalistów. Pozyskanie wiedzy nie zawsze jest zadaniem prostym, co potwierdzają
liczne przykáady autorów z praktyki odlewniczej [9 – 11]. Rejestracja danych
moĪe byü [9]:
– automatyczna (np. pomiar temperatury i czasu zalewania wnĊki form za
pomocą pirometrów wysokotemperaturowych, dwubarwowych),
– póáautomatyczna (koniecznoĞü áączenia danych pochodzących ze Ĩródeá
automatycznych i pochodzących z zapisów manualnych, np. w pewnej polskiej
odlewni Īeliwa rejestrowano automatycznie dane wytrzymaáoĞciowe z przylanej
i poddanej obróbce próbki, rĊcznie natomiast dopisywano pomiar twardoĞci
2 PojĊcie „czyszczenie danych”, czyli data cleaning [7, 8, 13], jest dosáownym táumaczeniem
z jĊzyka angielskiego i oznacza wyodrĊbnienie i usuniĊcie ze zbioru danych obarczonych ewidentnym báĊdem, co jest jednym z istotnych etapów procesu odkrywania wiedzy.
60
R. Sika, Z. Ignaszak
w skali Brinella – zbiorczy plik, wygenerowany i uzupeániony o dodatkowe
parametry, eksportowano nastĊpnie do systemu SAP R/3),
– rĊczna (np. parametry mas formierskich, pobierane z róĪnych punktów linii formierskiej odlewni i oceniane pod wzglĊdem stabilnoĞci i identyfikacji
wpáywu tejĪe stabilnoĞci na jakoĞü odlewów z Īeliwa).
PoniĪej (rys. 1) zaprezentowano przykáadowe zbiory danych z róĪnych odlewni w Polsce i Europie.
Rys. 1. Przykáadowe zbiory danych: A – rejestracja rĊczna z zapewnionymi polami do wstĊpnego
czyszczenia danych (Francja), B – rejestracja pirometryczna, automatyczna bez moĪliwoĞci
wstĊpnego czyszczenia danych (Polska), C – rejestracja rĊczna z zapewnionymi polami do wstĊpnego czyszczenia danych (Polska)
Fig. 1. Examples of data sets: A – manual recording with secure field in preliminary data cleaning
(France), B – automatic pyrometer registration with no-preliminary data cleaning (Poland), C –
manual recording with secured field in preliminary data cleaning (Poland)
3.2. Rola akwizycji danych w róĪnych zadaniach procesów produkcyjnych
Dane determinują rozwiązywanie róĪnych typów zadaĔ w produkcji, gáównie
wspomaganych komputerowo. WyróĪniü moĪna nastĊpujące typu zadaĔ [4, 8]:
– symulacja procesu,
– bieĪąca kontrola procesów i sterowanie nimi,
– identyfikacja prawidáowoĞci wystĊpujących w procesach.
Zadaniem symulacji z wykorzystaniem informacji zwrotnych z pre-processingu, main-processingu oraz post-processingu jest przewidywanie wáaĞciwoĞci
modelowanego odlewu na etapie jego projektowania (symulacje numeryczne
wypeánienia wnĊki formy, przepáyw ciepáa czy efekty dyfuzyjne). DziĊki temu
moĪna przewidzieü skutki wprowadzenia zmian w technologii. Istotny jest tutaj
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
61
model procesu – jego záoĪonoĞü powinna byü maáa, natomiast istotna jest znajomoĞü rządzących nimi reguá (aspekt pre-processingu).
r
C
z – stopieĔ záoĪonoĞci problemu
r – stopieĔ znajomoĞci reguá
rządzących problemem
Metody oparte na
modelowaniu procesów, CAE
A – niski, B – Ğredni, C – wysoki
S – obszary synergii róĪnych
modeli matematycznych
s
Metody statystyczne,
systemy ekspertowe
B
s
Sieci neuronowe,
metody indukcyjne,
metody i techniki data
mining
A
z
A
B
C
Rys. 2. Zakres stosowania róĪnych typów modeli matematycznych (na podstawie [1, 4, 8])
Fig. 2. Application range of different mathematical model types (on basis [1, 4, 8])
BieĪąca kontrola procesów i sterowanie nimi pozwalają na szybką ocenĊ ich
jakoĞci, co umoĪliwia wykrywanie zakáóceĔ w produkcji w czasie rzeczywistym. Znanych jest wiele praktycznych przykáadów wspomagania bieĪącej kontroli, z których najbardziej popularne są karty kontrolne ze wzglĊdu na bezpoĞrednie przeáoĪenie rejestrowanych danych na ocenĊ jakoĞci procesu.
Identyfikacja prawidáowoĞci w zbiorze danych umoĪliwia wskazanie potencjalnych zakáóceĔ procesu, optymalnych wartoĞci parametrów i ich związku
przyczynowo-skutkowego. W tym przypadku równieĪ naleĪy zastosowaü model
procesu.
W róĪnych przykáadach uczących lub w kontroli bieĪącej stosowane są dane
róĪnych typów (atrybuty danych). NajczĊĞciej wykorzystywane są typy: nominalny, porządkowy i ciągáy. Nominalny typ danych (zwany równieĪ symbolicznym) stanowi skoĔczony zbiór nieuporządkowanych wartoĞci dyskretnych; kategorie danych są okreĞlane za pomocą dowolnych, czĊsto umownych znaków.
Przykáadem moĪe byü klasyfikacja wad rodzajowych wedáug norm zakáadowych, tutaj kategorie danych stanowią kolejne poziomy klasyfikacji.
62
R. Sika, Z. Ignaszak
Rys. 3. Zastosowanie nominalnego typu danych na przykáadzie klasyfikacji wad odlewów Īeliwnych wedáug wytycznych kontroli jakoĞci (technologia i badania nienieszczące NDT)
Fig. 3. Application of nominal data type – example of cast iron defects classification according to
assumption in quality control (technology and Non Destructive Testing)
Porządkowy typ danych oparty jest na policzalnym i uporządkowanym zbiorze wartoĞci dyskretnych. Przykáadem moĪe byü przyporządkowanie liczby wad
do grup rodzajowych (kategorie mają swój porządek i są policzalne). W tym
przypadku moĪliwe jest policzenie wartoĞci mieszczących siĊ w danej kategorii
i tym samym wstĊpne oszacowanie udziaáu procentowego. Nie ma natomiast
moĪliwoĞci wykorzystania tradycyjnych metod statystycznych np. do wyznaczenia tolerancji parametru procesu. Wada stanowi wartoĞü binarną, nieciągáą,
choü poĞrednio moĪe sáuĪyü do wstĊpnego okreĞlenia przyczyn rozregulowania
procesu.
Na rysunku 4 zaprezentowano wykres wybranych wad odlewniczych serii
danego asortymentu odlewanej w pewnej polskiej odlewni. Na wykresie przedstawiono procentowy udziaá trzech zidentyfikowanych rodzajów wad przyporządkowanych do danego asortymentu w ujĊciu dziennym. Udziaá procentowy
moĪe posáuĪyü do porządkowania znaczenia wystąpienia wady danego rodzaju
w skali 5-punktowej: 1 – udziaá bardzo maáy, 2 – maáy, 3 – Ğredni, 4 – duĪy, 5 –
bardzo duĪy. Pozwala to wstĊpnie zakwalifikowaü odlewy wadliwe do danej
kategorii i zawĊziü liczbĊ czynników powodujących rozregulowanie procesu.
Pokazano przyrost wad w wybranym interwale czasu, co moĪe stanowiü solidną
podstawĊ do dalszych analiz innych parametrów (np. liczbowych ciągáych).
Warto podkreĞliü fakt, Īe dane mogą byü zapisywane wedáug numeru kolejnego
pomiaru lub wedáug czasu. Wykorzystując drugą opcjĊ, autorzy zwracają szczególną uwagĊ na dalsze uáatwienia w integracji danych pochodzących z róĪnych
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
63
Ĩródeá. Istnieje wiele procesów, których wyniki trudno powiązaü czasowo. Autorzy proponują wykorzystanie sesji czasowych. Zagadnienie to wykracza jednak
poza ramy niniejszego artykuáu.
Rys. 4. Wybrane rodzaje wad odlewniczych serii danego asortymentu jako przykáad porządkowego
typu danych ujĊtych w porządkowej skali 5-punktowej (1 – (0–5)% odlewów wadliwych, 5 – (>20)%
odlewów wadliwych); na wykresie pokazano dodatkowo przyrost udziaáu wszystkich wad w wybranym przedziale czasowym
Fig. 4. Different type of cast defects for assortment of cast iron – example of ordinal data type for
5-point ordinal scale (1 – (0–5)% cast iron defected, 5 – (>20)% cast iron defected); in the graph
there was shown additionally increment of all parts defects in optional time interval
Liczbowy ciągáy typ danych obejmuje wartoĞci ze zbioru liczb rzeczywistych. Jest to zbiór przeliczalny, który najczĊĞciej wykorzystywany jest w praktyce do bieĪącej kontroli jakoĞci lub prawidáowoĞci oraz do prognoz procesu
produkcyjnego. Operowanie na tym zbiorze moĪna wykorzystaü w odlewniach,
które dziennie rejestrują kilka tysiĊcy rekordów danego parametru (np. dane
pirometryczne dla serii odlewów maáogabarytowych).
NaleĪy zatem szczególną uwagĊ zwróciü na wáaĞciwą akwizycjĊ danych,
a przede wszystkim na analizĊ dziedziny zastosowania i celów uĪytkownika, selekcjĊ i czyszczenie danych. Dopiero odpowiednio wyselekcjonowane i oczyszczone
dane powinny stanowiü Ĩródáo wiedzy i podstawĊ dalszych analiz. Ich atutem
jest równieĪ fakt, Īe w przypadku zastosowania metod i technik data mining
mniej problemów stwarza etap transformacji danych (tzn. przeksztaácania i re-
64
R. Sika, Z. Ignaszak
dukcji, np. normalizacja danych numerycznych N(0;1)). Bez wzglĊdu na rodzaj
danych naleĪy mieü na uwadze ich koĔcowe przeznaczenie.
4. ORGANIZACJA I SPOSOBY CZYSZCZENIA DANYCH
(MOĩLIWOĝû WYKORZYSTANIA DANYCH W SYSTEMACH)
NiezaleĪnie od charakteru danych juĪ na etapie akwizycji trzeba uwzglĊdniü
ich wstĊpne czyszczenie, jeĞli jest to moĪliwe. Jest to szczególnie istotne
w przypadku danych rejestrowanych w sposób póáautomatyczny lub manualny.
Dla pozyskania wartoĞciowej wiedzy technologicznej waĪne jest zachowanie
pewnej konsekwencji etapów odkrywania wiedzy, co ma poĞrednie odzwierciedlenie w stabilnoĞci i systematycznoĞci procedur pomiarowych. Autorzy proponują, aby w pierwszej kolejnoĞci zwróciü uwagĊ na ewentualne moĪliwoĞci integracji danych z róĪnych heterogenicznych i rozproszonych Ĩródeá danych. Kolejnym etapem odkrywania wiedzy powinna byü selekcja danych, które są istotne z punktu widzenia analizy procesu. Jest to o tyle waĪne, Īe w pewnych sytuacjach moĪna znacznie skróciü zbiór danych wykorzystywanych w nastĊpnych
etapach, czyli selekcji i transformacji.
Dane „surowe” charakteryzują siĊ licznymi báĊdami pomiarowymi – znieksztaáconymi lub brakującymi wartoĞciami. Konieczne jest zatem ich wstĊpne
filtrowanie, najlepiej w czasie rzeczywistym. Ma to istotny wpáyw na funkcjonowanie systemów CAx, w tym równieĪ PPC. O ile w przypadku systemów
PPC wstĊpne czyszczenie danych jest najczĊĞciej zdefiniowane juĪ na etapie
wdraĪania moduáów ERP, o tyle do danych rejestrowanych z róĪnych Ĩródeá
pomiarowych naleĪy czĊsto stosowaü rozwiązania wáasne.
WaĪna jest tutaj merytoryczna spójnoĞü danych, a kryteria tej spójnoĞci powinny stanowiü podstawĊ systemów zbierania danych. W myĞl zasady GIGO
(ang. garbage in – garbage out) wprowadzenie báĊdnych danych prowadzi do
faászywych wyników i wniosków. NaleĪy zatem zadbaü o czystoĞü danych na
jak najniĪszym poziomie ich wprowadzania do bazy (pola rekordów) [13]. Autorzy prezentują wybrane problemy jakoĞci rejestrowanych danych na podstawie
wdroĪonych w wybranych odlewniach polskich i europejskich autorskich narzĊdzi akwizycji i eksploracji danych produkcyjnych. Dalej szczegóáowo opisano
dwa z nich: dopasowanie Ĩródeá danych („translacja danych”) oraz wykorzystanie sáowników („sáownikowanie danych”).
W jednej z polskich odlewni Īeliwa na wydziale odlewów maáogabarytowych
napotkano oczywisty, z pozoru doĞü báahy problem porównania danych z dwóch
róĪnych Ĩródeá: parametrów mas formierskich, które decydują o jej wáaĞciwoĞciach i tym samym stabilnoĞci technologicznej przygotowanej maszynowo
wnĊki formy, oraz parametrów ciekáego Īeliwa. Problemem jest tutaj dopasowanie Ĩródeá danych do jednej serii zalewanego asortymentu. Zadanie to wymaga
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
65
zsynchronizowania czasów: pobrania próbek masy, przeprowadzenia peánego
pomiaru parametrów w laboratorium mas oraz transportu masy z przenoĞnika na
stanowisko formowania. Dodatkowo uwzglĊdniü naleĪy przestoje linii produkcyjnych. Priorytetowa jest zatem peána informacja o procesie. Dopiero z taką
wiedzą moĪna przystąpiü do dopasowania parametrów mas i Īeliwa dla tej samej
serii na podstawie godziny pomiaru oraz za pomocą filtrów asortymentowych.
Drugi aspekt wymaga gáĊbszego wyjaĞnienia.
Rys. 5. Moduá systemu KMES Quality do translacji nazw asortymentu za pomocą wyraĪeĔ regularnych
Fig. 5. KMES Quality system module to translation of assortment names using regular expressions
OtóĪ w przemyĞle odlewniczym produkt koĔcowy ma najczĊĞciej róĪne nazwy asortymentowe – inne są nazwy skáadników mas, mas formierskich, wybitych odlewów, próbek przylanych/oddzielnie lanych (np. do badania skáadu
chemicznego lub charakterystyk mechanicznych) czy odlewów, które trafiają do
obróbki. Jest to związane z niejednorodnoĞcią danych, bo kaĪdy odlew moĪe
mieü unikatową nazwĊ, ale problemem jest szybka identyfikacja masy czy wytopu, które są przeznaczone do wykonania wiĊcej niĪ jednego odlewu. W systemie KMES Quality [9, 11] autorzy proponują wykorzystanie moduáu do filtrowania danych NS (nazwa asortymentu wedáug umownych oznaczeĔ wewnĊtrznych dla mas formierskich) oraz KT (numer wedáug karty technologicznej, który
odpowiada nazwie asortymentowej odlewu). Algorytm wykorzystuje dane
z systemu SAP R/3 i m.in. wyraĪenia regularne (ang. regular expressions – regex) do merytorycznego dopasowania áaĔcuchów na podstawie zdefiniowanych
wzorców. Wykorzystując wiedzĊ z zakresu regeksów, uĪytkownik sam moĪe
definiowaü reguáy translacji nazw asortymentu.
WyraĪenia regularne zastosowano równieĪ w innej odlewni (Francja) do analizy parametrów piasku (m.in. AFS – analiza ziarnistoĞci, pH, zawartoĞü pyáu)
66
R. Sika, Z. Ignaszak
na etapie wstĊpnego czyszczenia plików z danymi, które prawdopodobnie nie
speániają zaáoĪonych kryteriów spójnoĞci danych (np. „puste dane”; wiĊcej na
ten temat w nastĊpnym punkcie). Ma to szczególne znaczenie, gdy etap czyszczenia danych poprzedza etap ich integracji.
Rys. 6. Zastosowanie wyraĪeĔ regularnych do czyszczenia báĊdnych nazw plików (Francja)
Fig. 6. Application of regex to bad files cleaning
Rys. 7. Przykáady sáowników danych: A – dane tekstowe, B – dane liczbowe (data/godzina –
godzina w systemie liczbowym stanowi wartoĞü z zakresu liczb rzeczywistych (0,1), natomiast
data moĪe byü zapisywana w formie liczb caákowitych od 1 dla daty 1900-01-01)
Fig. 7. Example of data dictionaries: A – string data, B – numerical data (date/time – time in numerical system is a value from range of real number (0,1), whereas date can be recording as absolute number from 1 for 1900-01-01)
Drugim przykáadem jest „sáownikowanie”, które moĪe dotyczyü zarówno danych wymiernych (policzalnych, np. zakres danych), jak i niewymiernych (nie-
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
67
policzalne wartoĞci nominalne). ZaáoĪeniem tej metody jest budowa sáownika,
który uwzglĊdnia dane z innych systemów, w tym ERP typu SAP R/3 czy QAD.
Baza danych, z której korzysta sáownik, jest uzupeániana i korygowana na bieĪąco. W tym przypadku wystarczy zastosowanie kartotekowych baz danych (tzw.
páaskie bazy danych), choü w zaleĪnoĞci od poziomu uszczegóáowienia takich
sáowników moĪna wspomóc siĊ bazami relacyjnymi, zwáaszcza gdy dane do
nich bĊdą importowane bezpoĞrednio z systemów ERP. Na rysunku 7 podano
przykáad wykorzystania sáowników dwóch typów danych: tekstowego i liczbowego.
W kaĪdym z przedstawionych przypadków naleĪy mieü na uwadze ergonomiĊ pracy „operatorów danych”, w tym koszt i jakoĞü obsáugi systemu
w odniesieniu do oczekiwanej czystoĞci danych. System nadmiernie „wyuczony” zamiast pomagaü, moĪe zaszkodziü i skutecznie zniechĊciü pracownika.
5. ISTOTA CHRONOLOGII I STRUKTURYZACJI DANYCH
W PROCESIE ODKRYWANIA WIEDZY
Do jakoĞci czystoĞci danych moĪna podejĞü na wiele sposobów. Inne jest podejĞcie do danych na etapie bieĪącej ewidencji, a inne do danych juĪ zarejestrowanych. Problem w tym, aby wskazaü ewentualne báĊdy. Wnioskowanie o populacji najczĊĞciej jest oparte na reprezentatywnej próbie losowej. Na podstawie
wartoĞci obliczonych z próbki moĪna oszacowaü wartoĞci parametru rozkáadu.
Im próba wiĊksza, tym precyzja wiĊksza, natomiast mniejsze jest obciąĪenie
szacowania.
Gdy populacja jest stosunkowo maáa, moĪna próbowaü oceniaü wszystkie jej
parametry. Przykáadem mogą byü zmiany wartoĞci parametrów tej samej serii
odlewów (maáo licznej) w zaleĪnoĞci od czasu. Tak zwany dryft populacji moĪe
mieü związek z warunkami cieplnymi otoczenia. Badania wpáywu otoczenia
odlewni na warunki prowadzenia procesu prezentuje m.in. Perzyk [5].
Statystycznie badaü moĪna zawartoĞü pól rekordów pod kątem odpowiedniego formatu danych, báĊdnych danych, które wynikają z báĊdnie przyjĊtych lub
maáo odpornych na zakáócenia procedur pomiarowych, brakujących wartoĞci
(ang. missing values) czy punktów oddalonych (ang. outliers). Zakres i ewentualne odchyáki danych moĪna przyjąü na etapie akwizycji danych, choü czĊsto
báĊdne dane zaleĪą od odpornoĞci procedur pomiarowych oraz systemu nadzorującego akwizycjĊ.
Nieco trudniej zidentyfikowaü brakujące wartoĞci lub punkty oddalone. NajczĊĞciej są one dostrzegane dopiero na etapie transformacji danych w celu wykorzystania odpowiednich metod data mining, gdy okazuje siĊ, Īe wzorce opisujące anomalie w produkcji są dalekie od zaáoĪonej doskonaáoĞci. Tutaj moĪna
zastosowaü tzw. fabrykowanie danych. Wykorzystuje siĊ do tego wartoĞci do-
68
R. Sika, Z. Ignaszak
brane przez specjalistĊ, modĊ lub Ğrednią atrybutu z tej samej klasy, wartoĞci
losowe z wybranego przedziaáu klasowego, estymacjĊ wartoĞci najbardziej
prawdopodobnych.
Rys. 8. Ewidencja wartoĞci parametrów mas formierskich wedáug zaáoĪonej tolerancji przypisanej
do pól rekordów na etapie akwizycji danych
Fig. 8. Green sand parameters recording according to assumed tolerance attributed to fields of
records on acquisition data stage
Punkty skrajne (oddalone) to takie, które poáoĪone są blisko granic dolnego
i górnego zakresu danych, choü mogą caákowicie odstawaü od dominującego
trendu. Tutaj moĪna stosowaü standaryzacjĊ i oddalenie od r3V, choü metoda ta
nie jest najkorzystniejsza ze wzglĊdu na to, Īe punkty oddalone wpáywają na
Ğrednią, a wiĊc nakáadają pewne ograniczenia standaryzacji zmiennych.
Innym przykáadem moĪe byü zidentyfikowanie rozstĊpów miĊdzykwartylowych Q1 oraz Q3 dla punktowych lub przedziaáowych szeregów rozdzielczych,
w zaleĪnoĞci od kategoryzacji dostĊpnych danych (porządkowe lub ciągáe).
W identyfikacji báĊdnych klasyfikacji zmiennych moĪna wykorzystaü równieĪ histogramy, w tym zasadĊ Pareto (20 – 80 lub 30 – 70) koncentrującą udziaá
20 – 30% zjawisk dla 70 – 80% skutków (krzywa koncentracji). W obu przypadkach naleĪy dokonaü wyboru danych, co do których istnieje podejrzenie
o báĊdne klasyfikacje wartoĞci, a nastĊpnie zaprojektowaü tabelĊ szeregu rozdzielczego (punktowego lub przedziaáowego).
Autorzy proponują opisowe lub graficzne metody statystyczne do identyfikowania punktów oddalonych. PoniĪej zaprezentowano fragment bazy danych
wybranego parametru z procesu odlewniczego. Kolumny stanowią numer kolejnego dnia roku, natomiast wiersze rekordy danych. Dla wszystkich dni roku
(1 – 366) wyznaczono szczytową amplitudĊ róĪnicy wartoĞci maksymalnej i
minimalnej (1). Jak widaü na rys. 9, wartoĞü ta wynosi 2,3 dla 72. dnia roku.
Kolejnym krokiem jest analiza parametrów dla wskazanego dnia. WartoĞü 1
znacznie odbiega od reszty wartoĞci pomiarowych. MetodĊ wykorzystuje siĊ
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
69
iteracyjnie, odrzucając wartoĞci juĪ wyznaczone, do momentu uzyskania akceptowalnej granicy tolerancji.
Rys. 9. Wykorzystanie opisowej (amplituda szczytowa) oraz graficznej metody statystycznej do
identyfikacji punktów oddalonych (outliers)
Fig. 9. Use of descriptive (top amplitude) and graphical statistical method to outliers points identification
AS MAX(i : i  DRZ [max{P1 , P2 ,..., Pn }DRi min{P1 , P2 ,..., Pn }DRi ] ), (1)
gdzie: AS
DRz
Px
x
i
–
–
–
–
–
amplituda szczytowa dla rozpatrywanych wartoĞci,
zbiór rozpatrywanych dni roku o wartoĞciach z przedziaáu (1 – 366),
wartoĞü pomiaru,
numer pomiaru,
numer dnia roku w zbiorze DR.
6. PODSUMOWANIE
Wiele Ĩródeá danych z pozoru maáo znaczących moĪe stanowiü cenny element uzupeániający bazĊ danych. Punkty gromadzenia danych mogą sáuĪyü nie
tylko do tworzenia ogólnych zestawieĔ statystycznych na wzór systemów ERP,
ale równieĪ mogą stanowiü istotny element chronometraĪowych wykresów porównawczych parametrów technologicznych w bieĪącym sterowaniu jakoĞcią
(kontrola odbiorcza, kontrola statystyczna) czy prognoz w produkcji (data mining). Autorzy podkreĞlili istotne znacznie wstĊpnego przygotowania i opracowania danych, a tym samym aspekt doskonalenia algorytmów do zarządzania
70
R. Sika, Z. Ignaszak
danymi. Niniejszy artykuá nie wyczerpuje wszystkich problemów związanych
z poprawną akwizycją danych, gáównie z jednego powodu – metody gromadzenia i wstĊpnej obróbki danych naleĪy dostosowaü do charakteru dziaáalnoĞci
firmy (posiadanych danych), a przede wszystkim do ich niejednorodnoĞci.
Przykáadowo, dane z systemów informatycznych PPC, np. ekonomiczno-techniczne czy z systemów CRM (ang. Customer Relationship Management),
o klientach najczĊĞciej kupujących wybrany produkt są gromadzone w zaawansowanych repozytoriach danych (hurtownie danych). Ich czyszczenie jest najczĊĞciej wstĊpnie wymuszane przez zaawansowane systemy baz danych (co nie
znaczy, Īe báĊdy nie wystĊpują), a poza jakoĞcią i integralnoĞcią danych [12]
istotnym aspektem jest w tym przypadku czas prowadzenia obliczeĔ.
W przypadku danych warsztatowych, gromadzonych gáównie przez techniczne systemy CAx lub inne systemy pomiarowe, waĪne jest z jednej strony
czyszczenie i przetwarzanie danych, z drugiej zaĞ dopasowanie danych pochodzących z wielu procesów. Nie jest to jednak moĪliwe bez odpowiedniej wiedzy
odlewniczej i znajomoĞci procesu.
LITERATURA
[1] Ignaszak Z., Bazy danych i walidacja w zagadnieniach wirtualizacji w odlewnictwie ze
szczególnym uwzglĊdnieniem problematyki formy, Archive of Foundry Engineering, 2009,
artykuá przyjĊty do druku.
[2] Materska K., Wiedza w organizacjach. Prolegomena do zarządzania wiedzą, Instytut Informacji Naukowej i Studiów Bibliologicznych, UW.
[3] Perzyk M., SoroczyĔski A., Porównanie wybranych narzĊdzi do tworzenia wiedzy inĪynierskiej dla produkcji odlewniczej, Archives of Foundry Engineering, 2008, vol. 8, issue 3.
[4] Perzyk M., Komputerowe metody analizy i sterowania procesami produkcyjnymi, METRO
– Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology.
[5] Perzyk M., Sztuczne sieci neuronowe w analizie procesów odlewniczych, METRO – Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology.
[6] Perzyk M., Statystyka w sterowaniu i kontroli procesów odlewniczych, METRO – Metalurgiczny Trening On-line, Edukacja i Kultura, Warsaw University of Technology.
[7] Perzyk M., Data mining in foundry production, w: Conference METALURGIA 2006, Krynica, October 11 – 14, 2006.
[8] Perzyk M., Data mining w odlewni. MoĪliwoĞci, problemy, projekty, referat wygáoszony
podczas XI International Symposium Modeling of Casting and Foundry Processes, Poznan –
ĝrem (Poland), October 26 – 27, 2008.
[9] Sika R., Ignaszak Z., System do eksploracji wybranych danych produkcyjnych oraz jego testowanie w odlewni, Archiwum Technologii Maszyn i Automatyzacji, 2008, vol. 28, nr 1,
s. 61 – 72.
[10] Sika R., Ignaszak Z., Data mining w przemyĞle odlewniczym – problemy rejestracji niejednorodnych danych i ich gromadzenia, referat wygáoszony na XI International Symposium
Modeling of Casting and Foundry Processes, Poznan – ĝrem (Poland), October 26 – 27,
2008.
[11] Sika R., Ignaszak Z., Implementation of the KMES Quality system for data acquisition and
processing on the example of chosen foundry, Archives of Foundry Engineering, 2008, vol.
8, issue 3, s. 97 – 102.
Akwizycja i wstĊpne opracowanie danych niejednorodnych …
71
[12] Stecyk A., JakoĞü i integralnoĞü danych w hurtowniach danych, 19 paĨdziernika 2005, Copyright © 2002-2005 Gazeta IT.
[13] Wyrozumski T., Jak sprawiü, aby dane byáy czyste?, w: IX Konferencja PLOUG, KoĞcielisko, paĨdziernik 2003.
[14] Wyrozumski T., Dlaczego nie w przemyĞle?, w: VIII Konferencja PLOUG, KoĞcielisko,
paĨdziernik 2002.
Praca wpáynĊáa do Redakcji 16.03.2009
Recenzent: dr hab. inĪ. Edward Pająk
ACQUISITION AND PRELIMINARY PREPARATION ASPECT
OF NON-HOMOGENOUS DATA FOR DATA MINING SYSTEMS
NEEDS ON THE EXAMPLE OF FOUNDRY INDUSTRY
S u m m a r y
In the paper the main assumptions of Assurance Quality system for data acquisition in foundry
manufacturing were presented. The authors concentrated to aspect of data acquisition from various
measurement systems – automatic, semi-automatic and manual which are significant to use data
from information systems. It was taken into account the source and type of data collected through
many users. Authors emphasized the stability of measurement procedures and systems for collected and process data. Authors shown large significance non-homogenous data registration process from diverse measurement points which are potential source of new technological knowledge.
In the paper some examples for acquisition and preliminary data processing were presented which
based on author’s casting practice experiences.
Key words: foundry, data acquisition, data mining, mould sands properties, pouring temperature

Podobne dokumenty