pobierz plik referatu

Transkrypt

pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Rozdział 38
w
Priorytety standaryzacji procesu zgłębiania danych
w
w
Streszczenie. Rozdział opisuje problemy standaryzacji technologii informacyjnej oraz główne typy standardów zgłębiania danych. Przedstawiono pokrótce wybrane metodologie, szczegółowo opisano standardowy model procesu dla zgłębiania danych, niezależny od dziedziny zastosowania – CRISP
DM oraz przedstawiono prace nad jego modernizacją.
1 Wstęp
da
.b
pl
s.
Standardy technologiczne odgrywają kluczową rolę w rozwoju technologii informacyjnej.
Standard można zdefiniować jako „zestaw technicznych specyfikacji określonych przez
producenta, albo taktycznie, albo jako rezultat formalnych uzgodnień” [2]. Standaryzacja,
jako proces tworzenia standardów, jest jednym z zadań związanym z procesem tworzenia
i implementacji systemów informatycznych. Przedmiotem badań teorii ekonomicznych jest
określenie: dlaczego standardy pojawiają się, jak postępuje postęp technologii, jak korzystne są implikacje pojawiających się standardów. Istnieją różnorodne modele procesów standaryzacji, do których należą: model wykorzystujący teorię gier, tworzenia wiedzy, teorii
sieci aktorów itp.
Działalność międzynarodowa w dziedzinie standaryzacji jest podejmowana wówczas,
gdy przedmiot standaryzacji jest dojrzały. Zakłada się, że osiągnięcie konsensusu odnośnie
wprowadzanego standardu zajmuje tak dużo czasu, że związana z nim technologia nie
zmieni się do czasu, kiedy standard zostanie opublikowany. W dziedzinie systemów informacyjnych mamy do czynienia z sytuacją, w której twórcy standardów odgrywają przewodnią rolę w dziedzinie technologii informacyjnej. Połączony Komitet Techniczny
(JTC1) Międzynarodowej Organizacji Standaryzacji (ISO) [4] i Międzynarodowa Komisja
Elektrotechniczna (IEC), zajmujące się technikami informacyjnymi [3], następująco wyraża
problem wprowadzenia standardów:
„Standard międzynarodowy powinien zostać wówczas opracowany, gdy korzyści społeczne i gospodarcze usprawiedliwiają koszt jego przygotowywania, zaadoptowania i utrzymania. Techniczna analiza powinna wykazać, że proponowany standard jest technicznie możliwy i aktualny oraz że jest mało prawdopodobne, aby stał się szybko przestarzały w wyniku
rozwoju technologii, albo wprowadzenie go zahamuje korzyści z technologii dla użytkowników”.
Chociaż standardy mogą nie uwzględniać najnowszych postępów w technologii zwykle
stanowią one nadal wielką wartość dla większości użytkowników. Zbyt wczesne wprowaJanusz Świerzowicz
Politechnika Rzeszowska, Zakład Informatyki w Zarządzaniu, ul. W. Pola 2, 35-959 Rzeszów, Polska
email:[email protected]
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
J. Świerzowicz
w
dzenie standardów może zahamować innowacje. Każdy standard międzynarodowy musi
być rozwijany zgodnie z formalną, wielooetapową procedurą od propozycji do opublikowania. Zajmuje to w praktyce minimum kilka lat, dla zapewnienia dostatecznego czasu dla uściślanie i konsultacji przez społeczność użytkowników. Standardy międzynarodowe są później prezentowane w produktach technologii.
W przeciwieństwie do rozwijania produktów technologii, rozwijanie nowych idei albo
praw w technologii informacyjnej, które mają implikacje dla sposobów pracy, takie jak metody tworzenia oprogramowania, metody projektowania baz danych itd., postępuje wyraźnie w dużo wolniejszym tempie. Na przykład kaskadowa metoda tworzenia aplikacji została opracowana na podstawie cyklu tworzenia sprzętu komputerowego, w latach 80. ubiegłego wieku.
Opisy głównych typów standardów przedstawiono w tabeli 1, opracowanej na podstawie
[8]. W dalszej części rozdziału przedstawiono różnorodne aspekty standaryzacji zgłębiania
danych.
w
Tabela 1. Opisy głównych typów standardów
w
Typ standardu
Zamknięty
De facto
De jure
Ograniczony przez właściciela definiującego dokument
lub projekt. Jest stosowany wówczas, gdy producent chce
związać użytkownika ze specyficzną linią produktu.
Używa go liczna rzesza użytkowników, ale nie jest wspierany przez międzynarodowe organizacje standaryzujące.
Opracowany przez międzynarodowe instytucje standaryzujące.
Jest do dyspozycji zainteresowanych użytkowników na
równych warunkach bez znaczących ograniczeń.
pl
s.
Otwarty
Stosowany wyłącznie przez specyficzne organizacje, nie
jest szeroko rozpowszechniony, dostęp do niego jest ograniczony do niewielkiej grupy użytkowników.
da
.b
Zastrzeżony
Opis
2 Różnorodne aspekty standaryzacji zgłębiania danych
W procesie standaryzacji coraz ważniejsze staje się uczestnictwo użytkowników, którzy
stają się członkami komitetów standaryzujących. Obecnie wielu producentów oraz organizacji zrzeszających zaawansowanych użytkowników baz danych i usług analitycznych rozwija technologiczne standardy dla różnych aspektów zgłębiania danych. Różnorodne wysiłki standaryzacji, dotyczące procesów, modeli, atrybutów, interfejsów programowania aplikacji, przetwarzania danych zdalnych i rozproszonych, jak na rys. 1 przedstawiono w literaturze [16], [17].
Kwestie standaryzacji de facto procesów zgłębiania danych zostaną omówione w dalszej
części rozdziału. Przedstawiono pokrótce zalecenia SEMMA, szczegółowo opisano stan-
402
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Priorytety standaryzacji procesu zgłębiania danych
M
O
PR
O
E
EL
D
w
C
ES
Y
dardowy model procesu dla zgłębiania danych, niezależny od dziedziny zastosowania
CRISP-DM w wersji 1.0. oraz przedstawiono prace związane z jego modernizacją.
PR
I N OG
T R
AP ER AM
L I FE O
KA J W
C SY E
JI
O
R
E
E
N
N
AL
O
ZD I SZ
O
R NE
ZP DA
w
w
Standardy
Zgłębiania
Danych
da
.b
Rys. 1. Różne aspekty standardów zgłębiania danych
3 Zalecenia SEMMA
pl
s.
SEMMA to logiczna organizacja zestawu narzędzi Enterprise Miner firmy SAS dla realizacji podstawowych zadań związanych ze zgłębianiem danych. Można zastosować Enterprise
Miner jako fragment iteracyjnej metodologii zgłębiania danych, adaptowanej przez klienta.
Nazwa ta pochodzi od pierwszych liter wyrazów: Sample, Explore, Modify, Model, Assess
(próbkuj, eksploruj, modyfikuj, modeluj, oszacuj) i odwołuje się do podstawowych procesów zgłębiania danych [10]. Rozpoczynając od próbki danych statystycznie reprezentatywnej, SEMMA ułatwia stosowanie eksploracyjnych metod statystycznych i wizualnych,
wybór i transformację najistotniejszych zmiennych predykcyjnych, tworzenia modeli w celu predykcji wyników oraz określenia dokładności modelu.
Poniżej opisano poszczególne fazy w SEMMA:
− próbkowanie jest fazą opcjonalną, w której z całego zbioru danych wyznacza się reprezentatywne próbki. Wielkość analizowanej próbki powinna stanowić kompromis
pomiędzy reprezentatywnością a szybkością manipulacji;
− eksploracja umożliwia wyszukiwanie trendów i anomalii. Można tu stosować wizualizację oraz statystyczne techniki analityczne;
− modyfikacja obejmuje selekcję i transformację czynników opartą na odkryciach dokonanych w poprzednim etapie. Dane mogą być grupowane na podstawie pewnych
czynników, można wychwycić odchylenia, zredukować liczbę czynników oraz modyfikować dynamicznie zmieniające się dane;
403
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
J. Świerzowicz
w
− modelowanie obejmuje symulację prognozowanego modelu danych wyjściowych.
Używane są różne techniki modelowania np. sieci neuronowe, drzewa decyzyjne,
analiza szeregów czasowych, modele logistyczne;
− oszacowanie obejmuje weryfikację opracowanego modelu. Sprawdza się tutaj jego
użyteczność, niezawodność oraz ocenia się, w jakim stopniu model spełnia specyfikacje użytkownika.
Zalecenia SEMMA są stosowane w SAS Enterprise Miner, do analiz danych w dużych
organizacjach. Zamiast ręcznego kodowania używa się diagramów procesów przepływu,
począwszy od etapu pobrania danych źródłowych do oceny modeli. SEMMA ułatwia [10]:
− zastosowanie metod eksploracji statystycznej oraz wizualizacji;
− wybór i transformacje najbardziej istotnych zmiennych;
− tworzenie na ich bazie modeli;
− przewidywanie wyników, potwierdzanie dokładności modelu oraz jego późniejsze
wykorzystanie.
Zalecenia SEMMA nie biorą pod uwagę takich czynników krytycznych dla każdego projektu zgłębiania danych, jak dobre określenie problemu badawczego lub przygotowanie reprezentatywnych źródeł danych o wysokiej jakości, natomiast koncentruje się aspektach
rozwoju modelu zgłębiania danych. Są stosowane przez kilkanaście procent respondentów
zajmujących się zgłębianiem danych [6], [7]. Znacznie więcej użytkowników stosuje metodologię CRISP-DM opisaną w następnym podrozdziale.
da
.b
w
w
4 Metodologia CRISP-DM
pl
s.
Celem opracowania standardowego modelu procesu dla zgłębiania danych jest dążenie do
ujednolicenia procesu niezależnego od dziedziny zastosowań, w oparciu o istniejące opisy,
pozwalające na użycie rozwojowych technologii dla rozwiązywania problemów biznesowych w praktyce. Standardowy model procesu dla zgłębiania danych (Cross Industrial
Standard Process for Data Mining) opracowało w 1999 roku konsorcjum producentów i zaawansowanych użytkowników oprogramowania zgłębiania danych (między innymi SPSS,
NCR Daimler-Benz i OHRA) [1].
Głównym założeniem tego modelu była jego neutralność w stosunku do dziedziny zastosowań, aplikacji, narzędzia i dostawcy oprogramowania. W modelu tym można wyróżnić
zadania opisane na czterech poziomach abstrakcji:
− poziomie faz F,
− poziomie zadań ogólnych ZO,
− poziomie zadań wyspecjalizowanych ZS,
− poziomie instancji procesów IP.
Model procesu zgłębiania danych (MPZD) można przedstawić w postaci macierzowej:
MPZD = [F1 ... ... Fn ]
[
Fi = ZOi ,1 ... ZOi ,m (i )
[
(1)
]
ZOi , j = ZS i , j ,1 ... ZS i , j , r (i , j )
(2)
]
404
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
(3)
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Priorytety standaryzacji procesu zgłębiania danych
[
ZS i , j ,k = IPi , j ,k ,1 ... IPi , j ,k , s (i , j ,k )
]
(4)
w
gdzie: n – liczba faz w procesie zgłębiania danych, Fi – i-ta faza w procesie zgłębiania,
ZOi,j – j-te zadanie ogólne i-tej fazy, m(i) – liczba zadań ogólnych w i-tej fazie, ZSi,j,k – k-te
zadanie wyspecjalizowane j-tego zadania ogólnego, i-tej fazy, r(i,j) – liczba zadań specjalizowanych j-tego zadania ogólnego w i-tej fazie, IPi,j,k,l – l-ta instancja procesu k-tego zadania specjalizowanego j-tego zadania ogólnego i-tej fazy, s(i,j,k) – liczba instancji procesu
dla k-tego zadania specjalizowanego, j-tego zadania ogólnego w i-tej fazie. Rys. 2 przedstawia poziom faz i pozostałe poziomy modelu CRISP-DM.
Zrozumi
enie
danych
Przygotowanie
danych
Modelo wanie
Oszacowanie
modelu
Wdrażanie
Zadania ogólne
Zadania wyspecjalizowane
Instancje procesów
da
.b
w
w
Zrozumie
nie
dziedziny
Rys. 2. Schemat modelu CRISP-DM
pl
s.
Na rysunku tym przedstawiono fazy:
− zrozumienia dziedziny F1, dotyczącą zrozumienia celów projektu i wymagań użytkownika z perspektywy dziedziny. Efektem wyjściowym tej fazy jest przetworzenie
celów biznesowych lub badawczych do zdefiniowanego problemu zgłębiania danych;
− zrozumienia danych F2, dotyczącą wstępnego zbierania danych, identyfikacji problemów jakości danych i odkrywania interesujących zestawów danych dla sformułowania hipotez o ukrytej wartościowej informacji oraz określenia podzbiorów danych dla dalszych badań;
− przygotowania danych F3, obejmującą konstruowanie zestawu danych dla narzędzi
modelowania. W fazie tej nacisk jest położony na wybór tabel, rekordów i atrybutów,
jak również na transformacje i czyszczenie danych;
− modelowania F4, dotyczącą wyboru różnych technik modelowania i ustalenia optymalnych wartości parametrów;
− oszacowania jakości modelu F5, w odniesieniu do osiągnięcia celów dziedziny,
− wdrażania F6, obejmującą zastosowanie modelu w procesie podejmowania decyzji.
W fazie tej będą generowane raporty, a proces zgłębiania danych będzie powtarzalny.
Poziom zadań ogólnych ZO obejmuje całkowity proces zgłębiania danych, wszystkie
możliwe aplikacje i techniki modelowania.
Poziom zadań wyspecjalizowanych ZS opisuje jak ogólne zadanie może różnić się
w różnych sytuacjach.
Poziom instancji procesu IP rejestruje działania, decyzje i wyniki związane z aktualnym
zastosowaniem zgłębiania danych.
405
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
J. Świerzowicz
w
Model CRISP-DM wyróżnia następujące wymiary rozpatrywane w kontekście zgłębiania danych:
− dziedzina aplikacji w jakiej projekt znajduje zastosowanie. Problematyka zgłębiania
danych najczęściej znajduje zastosowanie w takich dziedzinach, jak zarządzanie relacjami z klientami CRM, wykrywanie oszustw finansowych, marketing bezpośredni,
biotechnologie, medycyna, farmacja, edukacja, przemysł, handel, bankowość, analiza
treści witryn internetowych i poczty elektronicznej [12], [13], [14], [15], [21];
− typ problemu zgłębiania danych (np. opis lub agregacja danych, segmentacja, opis
kontekstu, klasyfikacja, predykcja, analiza zależności), opisujący specyficzne klasy
celów, które proces zgłębiania danych obsługuje.
Model CRISP-DM zastosowano z powodzeniem w różnorodnych dziedzinach gospodarki np. w przemyśle motoryzacyjnym, lotniczym oraz w sektorze ubezpieczeń [1]. Wykorzystano go w projekcie systemu – CRM, który firma Daimler Benz wyeksportowała do 40
krajów [12]. Model ten został zaprojektowany w taki sposób, aby można było łatwo wdrożyć proces zgłębiania danych jako kluczowy czynnik procesu gospodarczego. Z analizy ankiet przeprowadzonych przez KDDNugets wynika, że około połowa respondentów używa
tej metodologii dla zgłębiania danych [6], [7]. Ogólny schemat faz modelu CRISP DM,
opracowany na podstawie [1], przedstawiono na rys. 3. Na rysunku zaznaczono oszacowany nakład pracy na poszczególne fazy procesu.
da
.b
w
w
CRISP
DM
20 - 30%
50 - 70%
*
Zrozumienie
dziedziny
Zrozumienie
danych
Przygotowanie
danych
Określenie
celów
dziedziny
Zebranie danych
początkowych
Wybór
danych
Wybór techniki
modelowania
Ocena
sytuacji
Opisanie
danych
Czyszczenie
danych
Projektowanie
generowania
testu
Określenie
celów
DM
Eksploracja
danych
Konstruowanie
danych
Tworzenie
planu
projektu
Weryfikacja
jakości danych
Integracja danych
Modelowanie
* 10-20%
5-10%
Ocena
Wdrożenie
Ocena
wyników
Planowanie
wdrożenia
Planowanie
monitoringu i
obsługi
pl
s.
Przegląd
procesu
DM
Budowanie
modelu
Określenie
następnych
kroków
Oszacowa
nie
Modelu
Formatowanie
danych
Rys. 3. Fazy modelu CRISP-DM 1.0
406
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Tworzenie
finalnego
raportu
Podsumowanie
projektu
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Priorytety standaryzacji procesu zgłębiania danych
5 Konieczność uaktualnienia metodologii CRISP-DM
w
Ponieważ główne założenia modelu powstały w latach 90. ubiegłego wieku, nie zostały w
nim ujęte nowe kwestie, które są przedmiotem aktualnych badań [11], [12], [23]. Badania
te dotyczą między innymi:
− eksploracji nowych typów danych (tekstowych, semistrukturalnych, multimedialnych) i technik ich przetwarzania oraz analizy [20], [21],
− zwiększenia wymagań dotyczących skalowalności eksploracji danych i wdrażania
tych rozwiązań w systemach czasu rzeczywistego,
− integracji rozwiązań zgłębiania danych i wdrażania wyników w adaptacyjnych witrynach internetowych oraz w sprzężeniu zwrotnym z procesami gospodarczymi,
− zastosowania zaawansowanych metod analitycznych dla zmian w procesach gospodarczych,
− opracowania pakietów zadań analitycznych dla użytkowników końcowych, nie będących ekspertami,
− otwartości rozwiązań na istniejące systemy informatyczne i źródła danych.
W pracach nad uaktualnieniem wersji modelu procesu CRISP-DM dyskusyjnymi obecnie kwestiami są:
− analiza liczby faz n, wprowadzenie dodatkowej fazy F7 ,monitorowania całego procesu i zamknięcia pętli sprzężenia zwrotnego z fazą F1,, przesunięcie planowania wdrożenia do fazy F1, uwzględniając pomiar wydajności, monitorowanie modelu oraz
skalowalność procesu,
− wprowadzenie bardziej szczegółowej definicji fazy zrozumienia dziedziny F1, włączenie planowanych zmian w dziedzinie na skutek pozytywnych efektów eksploracji
danych, uszczegółowienie procesu mapowania celów dziedziny do celów eksploracji
danych,
− powiązanie wymagań analitycznych z istniejącymi danymi w fazie zrozumienia danych F2, uwzględniając aspekty dostępu do danych, jakości danych i znaczenia danych oraz identyfikacji dostępności danych w trakcie wdrażania,
− interpretacja przetransformowanych danych w fazie przygotowania danych F3, ocena
jak dane „surowe” i dane po transformacji wpływają na budowę modelu, włączenie
klasyfikacji różnych rodzajów danych oraz określenie jak wykorzystać wiedzę dziedzinową dla wyboru użytecznych atrybutów prognostycznych i jak tę wiedzę uogólnić. W fazie przygotowywania danych powinno się utworzyć model konceptualny
procesu ekstrakcji, transformacji i ładowania danych ETL, który za pomocą niewielkiej liczby symboli pozwoli w prosty sposób odzwierciedlić złożone połączenia konceptów źródłowych z konceptami docelowymi oraz transformacje i mapowanie atrybutów [22]. Dla modelowania konceptualnego można wykorzystać narzędzia grafiki
wektorowej lub narzędzia CASE. Na podstawie opracowanego modelu konceptualnego można później przygotować pakiet obsługi procesów ETL w wybranym środowisku programistycznym.
W dalszej części rozdziału przedstawiono propozycje modyfikacji faz rozwiązania problemów „brudnych” danych z wykorzystaniem taksonomii.
da
.b
w
w
pl
s.
407
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
J. Świerzowicz
6 Analiza problemu jakości danych w zastosowaniu do metodologii
CRISP-DM
w
Efekt końcowy procesu zgłębiania danych zależy w znacznej mierze od rozwiązania problemów związanych z jakością danych zgodnie z zasadą „garbage in, garbage out”. Cykl
istnienia danych obejmuje takie zagadnienia jak pozyskiwanie, oczyszczenie gromadzenie,
uaktualnianie, transmisję, udostępnianie, archiwizowanie, odtwarzanie i usuwanie.
Problem jakości danych jest coraz częściej odnotowywany w literaturze [7], [9], [18],
[19], [23]. Zazwyczaj pewnej części danych brakuje, w innych danych występują pomyłki,
lub te same dane mają różne reprezentacje. Mówimy wówczas o „brudnych” danych. Dane
są „brudne”, jeżeli użytkownik lub aplikacja nie jest w stanie uzyskać poprawnych wyników z powodu wewnętrznych problemów występujących w danych. Mogą to być błędy
wprowadzania danych przez człowieka lub system komputerowy, błędy transmisji oraz
błędy oprogramowania.
Problem jakości danych pojawia się w różnym kontekście, np. gdy należy skorygować
anomalie występujące w pojedynczym źródle danych, takim jak plik lub baza danych, kiedy przekształcamy dane źle ustrukturyzowane lub nieustrukturyzowane w dane
ustrukturyzowane oraz kiedy integrujemy dane z różnych źródeł w jedno źródło np. przy
tworzeniu hurtowni danych [22]. Stworzenie odpowiednich mechanizmów dla
rozwiązywania problemów jakości danych jest pierwszym krokiem w budowaniu
automatycznych narzędzi do rozwiązywania problemów jakości informacji. Jednym
z podejść w rozwiązywaniu jakości danych jest opracowanie jej taksonomii. Taksonomie
mogą być reprezentowane w formie drzewa. Każdy węzeł w taksonomii reprezentuje
zestaw (klasę, kategorię) obiektów d. Każdy obiekt zawiera przypisane do niego zestawy
deskryptorów: E alternatywnych definicji klasy d oraz I – zestaw faktów, który można
wywnioskować pod warunkiem, że obiekt należy do klasy d. Kategoria nadrzędna jest
dzielona na podkategorie klasyfikowanych obiektów [24].
Taksonomie dotyczące problemów jakości danych są ważne, ponieważ umożliwiają
stwierdzanie, w jakim stopniu wybrane narzędzie jest zdolne do wykrywania i korygowania
problemów jakości. Na przykład pozwalają porównać zakresy działania odpowiednich instancji procesów IP2,4,k,l i IP3,2,k,l oraz ukierunkować dalsze badania lub rozbudowę narzędzi. Bez taksonomii trudno jest określić stopień jakości informacji uzyskanej ze źródeł i
jakości działań podejmowanych przez użytkowników informacji.
Przykładami taksonomii zastosowanych do rozwiązywania problemów „brudnych” danych są taksonomie opracowane przez Kima [7] i Oliveirę [9]. W taksonomi Kima [7] przyjęto następująca hierarchię problemów: brakujące dane, dane istniejące ale nieprawidłowe,
dane istniejące i prawidłowe ale bezużyteczne. Taksonomia Oliveiry [9] odwołuje się do
hierarchii granulacji danych obejmującej: wielorakie źródła danych, wielokrotne relacje,
pojedynczą relację oraz pojedyncze atrybuty. W taksonomiach tych ograniczono się do
problemu wprowadzania i dostępu do danych numerycznych i tekstowych. Dla wprowadzenia taksonomii Kima w hierarchię wymiarów dla analizy jakości przyjęto tabele przedstawioną na rys. 4 natomiast na rys. 5 pokazano fragment hierarchii wymiaru „brudne” dane i techniki ich obsługi.
da
.b
w
w
pl
s.
408
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Priorytety standaryzacji procesu zgłębiania danych
w
da
.b
w
w
Rys. 4. Tabela źródłowa dla określenia taksonomii „brudnych” danych
pl
s.
Rys. 5. Fragment hierarchii wymiaru „brudne” dane i techniki ich obsługi
409
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
J. Świerzowicz
7 Uwagi końcowe i wnioski
w
Standardy technologiczne odgrywają istotną rolę w rozwoju technologii informacyjnej.
Wielu producentów oraz użytkowników baz danych i narzędzi analitycznych rozwija technologiczne standardy zgłębiania danych. Różnorodne wysiłki standaryzacji dotyczą procesów, modeli, atrybutów, interfejsów programowania aplikacji. Standardowy model procesu
dla zgłębiania danych CRISP-DM jest najczęściej stosowanym standardem de facto. Dzięki
swojej neutralności w stosunku do dziedziny zastosowań, metody, narzędzia i aplikacji
można łatwiej wdrożyć proces zgłębiania danych jako kluczowy czynnik procesu gospodarczego.
Główną przyczyną zmian standardów zgłębiania danych jest fakt występowania rozmaitych reprezentacji danych oraz że zgłębianie jest używane w różnorodnych dziedzinach dla
danych strukturalnych, semistrukturalnych, tekstowych i multimedialnych. Daje to w kombinacji z wieloma systemami i usługami często niekompatybilne rozwiązania. Można zaobserwować wysiłki czołowych producentów baz danych i narządzi analitycznych zmierzających do ujednolicenia terminologii i integracji standardów.
Zastosowanie modelowania konceptualnego procesu ETL, wykorzystując odpowiednie
narzędzia grafiki wektorowej może znacznie ułatwić przygotowanie pakietu obsługi procesu ETL w wybranym środowisku programistycznym. Istotne kierunki prac dotyczą czyszczenia, transformowania i przygotowania danych oraz zastosowania taksonomii w rozwiązywaniu problemów jakości. Opisane prace mają istotny wpływ na dalszy rozwój technologii informatycznej.
1.
2.
3.
7.
8.
9.
10.
11.
12.
13.
Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shaerer C., Wirth R. : CRISP-DM
1.0. Step -by - step data mining guide, CRISP-DM Consortium, 2000.
Fomin V., Keil T.: Standardization: bridging the gap between economic and social theory, Proceedings of the Twenty First International Conference on Information Systems, Brisbane,
Queensland, Australia, 2001, str. 206–217.
IEEE Standards Online: New and Revised Standards http://standards.ieee.org/catalog
/olis/arch_se.html (2007-01-28).
ISO International Organization for Standardization – Home page
http://www.iso.ch/iso/en/ISOOnline.frontpage (2007-01-28).
KDnuggets : Polls : Data Mining Methodology (Apr 2004),
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm, (2007-01-28).
KDnuggets : Polls : What main methodology are you using for data mining? (Jul 2002),
http://www.kdnuggets.com/polls/2002/methodology.htm, (2007-01-28).
Kim W., Choi B. J., Hong E. K., Kim S. K., Leea D.: Taxonomy of Dirty Data. Data Mining and
Knowledge Discovery, 7, 2003, Kluwer Academic Publishers, str. 81–99.
Moreton R., Simon E. Sloane, A.: Implementing Information Management and Technology
Standards: A Framework ,Technology Management, 1995, V3 N6, str. 275–288.
Oliveira P., Rodrigues F., Henriques P.: A Formal Definition of Data Quality Problems, Proceedings of the 2005 International Conference on Information Quality (MIT IQ Conference)
SEMMA http://www.sas.com/technologies/analytics/datamining/miner/semma.html
(2007-01-28).
Shearer C., Khabaza T., Watkins D., Ross D.: CRISP-DM 2.0 Update Webinar,
https://spssevents.webex.com/spssevents/onstage/g.php?t=a&d=660451261 (2006-12-14).
Shearer C.: CRISP 2.0 Past, Present, Future, CRISP-DM 2.0 SIG Workshop, London, January
18, 2007.
pl
s.
4.
5.
6.
da
.b
w
w
Literatura
410
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
Priorytety standaryzacji procesu zgłębiania danych
w
14. Świerzowicz J.: A Management Information System for Classification of Scientific Achievements, Evolution and Challenges in System Development, Zupancic et all (ed)., Kluwer Academic/Plenum Publishers, New York, str. 735–740, 1999.
15. Świerzowicz J.: Analiza możliwości wykorzystania technik drążenia danych, VI Konferencja
„Sieci komputerowe”, Zeszyty Naukowe Politechniki Śląskiej, Seria INFORMATYKA z.36.
nr.1414, Gliwice, 1999, str. 387–400.
16. Świerzowicz J.: Decision Support System for Data and Web Mining Tools Selection, Issues and
Trends of Information Technology Management in Contemporary Organizations, Khosrow-Pour
M. (ed), Idea Group Publishing, Hershey, London, 2002, str. 1118–1120.
17. Swierzowicz J.: “Analysis of Current Data Mining Standards”, “Information Technology and
Organizations: Trends, Issues, Challenges and Solutions”, (Mehdi Khosrow-Pour red.), Idea
Group Publishing, 2003, Hershey, London, Singapore, Beijing, str. 764–765.
18. Świerzowicz J.: Impact of Data Mining Standardization on Information Technology Development, Studia Informatica, Vol. 24, Number 2A (53), Gliwice, 2003, str. 129–137.
19. Świerzowicz J.: Ocena jakości modeli baz danych, Współczesne problemy sieci komputerowych, Nowe Technologie, Praca zbiorowa pod red. S. Węgrzyna, B. Pochopienia, T. Czachórskiego, Rozdział XXXIX, WNT, Warszawa, 2004, str. 379–390.
20. Świerzowicz J.: Wielowymiarowa analiza aplikacji bazodanowych, Wysokowydajne Sieci
Komputerowe, Zastosowania i bezpieczeństwo, Praca zbiorowa pod red. A.Kwietnia
i A. Grzywaka, Rozdział 21, WKiŁ, Warszawa, 2005, str. 231–239.
21. Świerzowicz J.: Multimedia Data Mining Concept, Encyclopedia of Multimedia Technology and
Networking, (Red. M. Pagani), Idea Group Reference, Hershey, London, Singapore, 2005,
str. 696–703.
22. Świerzowicz J.: “Multimedia Data Mining – Past, Present, and Future”, "Pozyskiwanie wiedzy
i zarządzanie wiedzą", red. M. Nycz, M.,L. Owoc, PN AE Nr 1064 Wrocław, 2005,
str. 280–289.
23. Świerzowicz J.: Modelowanie konceptualne oraz projektowanie fizyczne procesów ETL dla hurtowni danych, „Bazy danych: Struktury, Algorytmy, Metody”, Rozdział 31, Kozielski S., Małysiak B., Kasprowski P., Mrozek D.(red.), WKŁ, Warszawa, 2006, str. 309–318.
24. Świerzowicz J.: Top priorities for CRISP DM 2.0: Data Quality Issues In CRISP-DM Update
Model, CRISP-DM 2.0 SIG Workshop, London, January 18, 2007.
25. Żytkow J.M.: Taxonomies and Concept Hierarchies, Handbook of Data Mining and Knowledge
Discovery, red. Klosgen W., Żytkow J.M., Oxford University Press, 2002, str. 61–64.
da
.b
w
w
pl
s.
411
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007
w
da
.b
w
w
pl
s.
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007

Podobne dokumenty