pobierz plik referatu
Transkrypt
pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Rozdział 38 w Priorytety standaryzacji procesu zgłębiania danych w w Streszczenie. Rozdział opisuje problemy standaryzacji technologii informacyjnej oraz główne typy standardów zgłębiania danych. Przedstawiono pokrótce wybrane metodologie, szczegółowo opisano standardowy model procesu dla zgłębiania danych, niezależny od dziedziny zastosowania – CRISP DM oraz przedstawiono prace nad jego modernizacją. 1 Wstęp da .b pl s. Standardy technologiczne odgrywają kluczową rolę w rozwoju technologii informacyjnej. Standard można zdefiniować jako „zestaw technicznych specyfikacji określonych przez producenta, albo taktycznie, albo jako rezultat formalnych uzgodnień” [2]. Standaryzacja, jako proces tworzenia standardów, jest jednym z zadań związanym z procesem tworzenia i implementacji systemów informatycznych. Przedmiotem badań teorii ekonomicznych jest określenie: dlaczego standardy pojawiają się, jak postępuje postęp technologii, jak korzystne są implikacje pojawiających się standardów. Istnieją różnorodne modele procesów standaryzacji, do których należą: model wykorzystujący teorię gier, tworzenia wiedzy, teorii sieci aktorów itp. Działalność międzynarodowa w dziedzinie standaryzacji jest podejmowana wówczas, gdy przedmiot standaryzacji jest dojrzały. Zakłada się, że osiągnięcie konsensusu odnośnie wprowadzanego standardu zajmuje tak dużo czasu, że związana z nim technologia nie zmieni się do czasu, kiedy standard zostanie opublikowany. W dziedzinie systemów informacyjnych mamy do czynienia z sytuacją, w której twórcy standardów odgrywają przewodnią rolę w dziedzinie technologii informacyjnej. Połączony Komitet Techniczny (JTC1) Międzynarodowej Organizacji Standaryzacji (ISO) [4] i Międzynarodowa Komisja Elektrotechniczna (IEC), zajmujące się technikami informacyjnymi [3], następująco wyraża problem wprowadzenia standardów: „Standard międzynarodowy powinien zostać wówczas opracowany, gdy korzyści społeczne i gospodarcze usprawiedliwiają koszt jego przygotowywania, zaadoptowania i utrzymania. Techniczna analiza powinna wykazać, że proponowany standard jest technicznie możliwy i aktualny oraz że jest mało prawdopodobne, aby stał się szybko przestarzały w wyniku rozwoju technologii, albo wprowadzenie go zahamuje korzyści z technologii dla użytkowników”. Chociaż standardy mogą nie uwzględniać najnowszych postępów w technologii zwykle stanowią one nadal wielką wartość dla większości użytkowników. Zbyt wczesne wprowaJanusz Świerzowicz Politechnika Rzeszowska, Zakład Informatyki w Zarządzaniu, ul. W. Pola 2, 35-959 Rzeszów, Polska email:[email protected] (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 J. Świerzowicz w dzenie standardów może zahamować innowacje. Każdy standard międzynarodowy musi być rozwijany zgodnie z formalną, wielooetapową procedurą od propozycji do opublikowania. Zajmuje to w praktyce minimum kilka lat, dla zapewnienia dostatecznego czasu dla uściślanie i konsultacji przez społeczność użytkowników. Standardy międzynarodowe są później prezentowane w produktach technologii. W przeciwieństwie do rozwijania produktów technologii, rozwijanie nowych idei albo praw w technologii informacyjnej, które mają implikacje dla sposobów pracy, takie jak metody tworzenia oprogramowania, metody projektowania baz danych itd., postępuje wyraźnie w dużo wolniejszym tempie. Na przykład kaskadowa metoda tworzenia aplikacji została opracowana na podstawie cyklu tworzenia sprzętu komputerowego, w latach 80. ubiegłego wieku. Opisy głównych typów standardów przedstawiono w tabeli 1, opracowanej na podstawie [8]. W dalszej części rozdziału przedstawiono różnorodne aspekty standaryzacji zgłębiania danych. w Tabela 1. Opisy głównych typów standardów w Typ standardu Zamknięty De facto De jure Ograniczony przez właściciela definiującego dokument lub projekt. Jest stosowany wówczas, gdy producent chce związać użytkownika ze specyficzną linią produktu. Używa go liczna rzesza użytkowników, ale nie jest wspierany przez międzynarodowe organizacje standaryzujące. Opracowany przez międzynarodowe instytucje standaryzujące. Jest do dyspozycji zainteresowanych użytkowników na równych warunkach bez znaczących ograniczeń. pl s. Otwarty Stosowany wyłącznie przez specyficzne organizacje, nie jest szeroko rozpowszechniony, dostęp do niego jest ograniczony do niewielkiej grupy użytkowników. da .b Zastrzeżony Opis 2 Różnorodne aspekty standaryzacji zgłębiania danych W procesie standaryzacji coraz ważniejsze staje się uczestnictwo użytkowników, którzy stają się członkami komitetów standaryzujących. Obecnie wielu producentów oraz organizacji zrzeszających zaawansowanych użytkowników baz danych i usług analitycznych rozwija technologiczne standardy dla różnych aspektów zgłębiania danych. Różnorodne wysiłki standaryzacji, dotyczące procesów, modeli, atrybutów, interfejsów programowania aplikacji, przetwarzania danych zdalnych i rozproszonych, jak na rys. 1 przedstawiono w literaturze [16], [17]. Kwestie standaryzacji de facto procesów zgłębiania danych zostaną omówione w dalszej części rozdziału. Przedstawiono pokrótce zalecenia SEMMA, szczegółowo opisano stan- 402 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Priorytety standaryzacji procesu zgłębiania danych M O PR O E EL D w C ES Y dardowy model procesu dla zgłębiania danych, niezależny od dziedziny zastosowania CRISP-DM w wersji 1.0. oraz przedstawiono prace związane z jego modernizacją. PR I N OG T R AP ER AM L I FE O KA J W C SY E JI O R E E N N AL O ZD I SZ O R NE ZP DA w w Standardy Zgłębiania Danych da .b Rys. 1. Różne aspekty standardów zgłębiania danych 3 Zalecenia SEMMA pl s. SEMMA to logiczna organizacja zestawu narzędzi Enterprise Miner firmy SAS dla realizacji podstawowych zadań związanych ze zgłębianiem danych. Można zastosować Enterprise Miner jako fragment iteracyjnej metodologii zgłębiania danych, adaptowanej przez klienta. Nazwa ta pochodzi od pierwszych liter wyrazów: Sample, Explore, Modify, Model, Assess (próbkuj, eksploruj, modyfikuj, modeluj, oszacuj) i odwołuje się do podstawowych procesów zgłębiania danych [10]. Rozpoczynając od próbki danych statystycznie reprezentatywnej, SEMMA ułatwia stosowanie eksploracyjnych metod statystycznych i wizualnych, wybór i transformację najistotniejszych zmiennych predykcyjnych, tworzenia modeli w celu predykcji wyników oraz określenia dokładności modelu. Poniżej opisano poszczególne fazy w SEMMA: − próbkowanie jest fazą opcjonalną, w której z całego zbioru danych wyznacza się reprezentatywne próbki. Wielkość analizowanej próbki powinna stanowić kompromis pomiędzy reprezentatywnością a szybkością manipulacji; − eksploracja umożliwia wyszukiwanie trendów i anomalii. Można tu stosować wizualizację oraz statystyczne techniki analityczne; − modyfikacja obejmuje selekcję i transformację czynników opartą na odkryciach dokonanych w poprzednim etapie. Dane mogą być grupowane na podstawie pewnych czynników, można wychwycić odchylenia, zredukować liczbę czynników oraz modyfikować dynamicznie zmieniające się dane; 403 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 J. Świerzowicz w − modelowanie obejmuje symulację prognozowanego modelu danych wyjściowych. Używane są różne techniki modelowania np. sieci neuronowe, drzewa decyzyjne, analiza szeregów czasowych, modele logistyczne; − oszacowanie obejmuje weryfikację opracowanego modelu. Sprawdza się tutaj jego użyteczność, niezawodność oraz ocenia się, w jakim stopniu model spełnia specyfikacje użytkownika. Zalecenia SEMMA są stosowane w SAS Enterprise Miner, do analiz danych w dużych organizacjach. Zamiast ręcznego kodowania używa się diagramów procesów przepływu, począwszy od etapu pobrania danych źródłowych do oceny modeli. SEMMA ułatwia [10]: − zastosowanie metod eksploracji statystycznej oraz wizualizacji; − wybór i transformacje najbardziej istotnych zmiennych; − tworzenie na ich bazie modeli; − przewidywanie wyników, potwierdzanie dokładności modelu oraz jego późniejsze wykorzystanie. Zalecenia SEMMA nie biorą pod uwagę takich czynników krytycznych dla każdego projektu zgłębiania danych, jak dobre określenie problemu badawczego lub przygotowanie reprezentatywnych źródeł danych o wysokiej jakości, natomiast koncentruje się aspektach rozwoju modelu zgłębiania danych. Są stosowane przez kilkanaście procent respondentów zajmujących się zgłębianiem danych [6], [7]. Znacznie więcej użytkowników stosuje metodologię CRISP-DM opisaną w następnym podrozdziale. da .b w w 4 Metodologia CRISP-DM pl s. Celem opracowania standardowego modelu procesu dla zgłębiania danych jest dążenie do ujednolicenia procesu niezależnego od dziedziny zastosowań, w oparciu o istniejące opisy, pozwalające na użycie rozwojowych technologii dla rozwiązywania problemów biznesowych w praktyce. Standardowy model procesu dla zgłębiania danych (Cross Industrial Standard Process for Data Mining) opracowało w 1999 roku konsorcjum producentów i zaawansowanych użytkowników oprogramowania zgłębiania danych (między innymi SPSS, NCR Daimler-Benz i OHRA) [1]. Głównym założeniem tego modelu była jego neutralność w stosunku do dziedziny zastosowań, aplikacji, narzędzia i dostawcy oprogramowania. W modelu tym można wyróżnić zadania opisane na czterech poziomach abstrakcji: − poziomie faz F, − poziomie zadań ogólnych ZO, − poziomie zadań wyspecjalizowanych ZS, − poziomie instancji procesów IP. Model procesu zgłębiania danych (MPZD) można przedstawić w postaci macierzowej: MPZD = [F1 ... ... Fn ] [ Fi = ZOi ,1 ... ZOi ,m (i ) [ (1) ] ZOi , j = ZS i , j ,1 ... ZS i , j , r (i , j ) (2) ] 404 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 (3) Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Priorytety standaryzacji procesu zgłębiania danych [ ZS i , j ,k = IPi , j ,k ,1 ... IPi , j ,k , s (i , j ,k ) ] (4) w gdzie: n – liczba faz w procesie zgłębiania danych, Fi – i-ta faza w procesie zgłębiania, ZOi,j – j-te zadanie ogólne i-tej fazy, m(i) – liczba zadań ogólnych w i-tej fazie, ZSi,j,k – k-te zadanie wyspecjalizowane j-tego zadania ogólnego, i-tej fazy, r(i,j) – liczba zadań specjalizowanych j-tego zadania ogólnego w i-tej fazie, IPi,j,k,l – l-ta instancja procesu k-tego zadania specjalizowanego j-tego zadania ogólnego i-tej fazy, s(i,j,k) – liczba instancji procesu dla k-tego zadania specjalizowanego, j-tego zadania ogólnego w i-tej fazie. Rys. 2 przedstawia poziom faz i pozostałe poziomy modelu CRISP-DM. Zrozumi enie danych Przygotowanie danych Modelo wanie Oszacowanie modelu Wdrażanie Zadania ogólne Zadania wyspecjalizowane Instancje procesów da .b w w Zrozumie nie dziedziny Rys. 2. Schemat modelu CRISP-DM pl s. Na rysunku tym przedstawiono fazy: − zrozumienia dziedziny F1, dotyczącą zrozumienia celów projektu i wymagań użytkownika z perspektywy dziedziny. Efektem wyjściowym tej fazy jest przetworzenie celów biznesowych lub badawczych do zdefiniowanego problemu zgłębiania danych; − zrozumienia danych F2, dotyczącą wstępnego zbierania danych, identyfikacji problemów jakości danych i odkrywania interesujących zestawów danych dla sformułowania hipotez o ukrytej wartościowej informacji oraz określenia podzbiorów danych dla dalszych badań; − przygotowania danych F3, obejmującą konstruowanie zestawu danych dla narzędzi modelowania. W fazie tej nacisk jest położony na wybór tabel, rekordów i atrybutów, jak również na transformacje i czyszczenie danych; − modelowania F4, dotyczącą wyboru różnych technik modelowania i ustalenia optymalnych wartości parametrów; − oszacowania jakości modelu F5, w odniesieniu do osiągnięcia celów dziedziny, − wdrażania F6, obejmującą zastosowanie modelu w procesie podejmowania decyzji. W fazie tej będą generowane raporty, a proces zgłębiania danych będzie powtarzalny. Poziom zadań ogólnych ZO obejmuje całkowity proces zgłębiania danych, wszystkie możliwe aplikacje i techniki modelowania. Poziom zadań wyspecjalizowanych ZS opisuje jak ogólne zadanie może różnić się w różnych sytuacjach. Poziom instancji procesu IP rejestruje działania, decyzje i wyniki związane z aktualnym zastosowaniem zgłębiania danych. 405 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 J. Świerzowicz w Model CRISP-DM wyróżnia następujące wymiary rozpatrywane w kontekście zgłębiania danych: − dziedzina aplikacji w jakiej projekt znajduje zastosowanie. Problematyka zgłębiania danych najczęściej znajduje zastosowanie w takich dziedzinach, jak zarządzanie relacjami z klientami CRM, wykrywanie oszustw finansowych, marketing bezpośredni, biotechnologie, medycyna, farmacja, edukacja, przemysł, handel, bankowość, analiza treści witryn internetowych i poczty elektronicznej [12], [13], [14], [15], [21]; − typ problemu zgłębiania danych (np. opis lub agregacja danych, segmentacja, opis kontekstu, klasyfikacja, predykcja, analiza zależności), opisujący specyficzne klasy celów, które proces zgłębiania danych obsługuje. Model CRISP-DM zastosowano z powodzeniem w różnorodnych dziedzinach gospodarki np. w przemyśle motoryzacyjnym, lotniczym oraz w sektorze ubezpieczeń [1]. Wykorzystano go w projekcie systemu – CRM, który firma Daimler Benz wyeksportowała do 40 krajów [12]. Model ten został zaprojektowany w taki sposób, aby można było łatwo wdrożyć proces zgłębiania danych jako kluczowy czynnik procesu gospodarczego. Z analizy ankiet przeprowadzonych przez KDDNugets wynika, że około połowa respondentów używa tej metodologii dla zgłębiania danych [6], [7]. Ogólny schemat faz modelu CRISP DM, opracowany na podstawie [1], przedstawiono na rys. 3. Na rysunku zaznaczono oszacowany nakład pracy na poszczególne fazy procesu. da .b w w CRISP DM 20 - 30% 50 - 70% * Zrozumienie dziedziny Zrozumienie danych Przygotowanie danych Określenie celów dziedziny Zebranie danych początkowych Wybór danych Wybór techniki modelowania Ocena sytuacji Opisanie danych Czyszczenie danych Projektowanie generowania testu Określenie celów DM Eksploracja danych Konstruowanie danych Tworzenie planu projektu Weryfikacja jakości danych Integracja danych Modelowanie * 10-20% 5-10% Ocena Wdrożenie Ocena wyników Planowanie wdrożenia Planowanie monitoringu i obsługi pl s. Przegląd procesu DM Budowanie modelu Określenie następnych kroków Oszacowa nie Modelu Formatowanie danych Rys. 3. Fazy modelu CRISP-DM 1.0 406 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Tworzenie finalnego raportu Podsumowanie projektu Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Priorytety standaryzacji procesu zgłębiania danych 5 Konieczność uaktualnienia metodologii CRISP-DM w Ponieważ główne założenia modelu powstały w latach 90. ubiegłego wieku, nie zostały w nim ujęte nowe kwestie, które są przedmiotem aktualnych badań [11], [12], [23]. Badania te dotyczą między innymi: − eksploracji nowych typów danych (tekstowych, semistrukturalnych, multimedialnych) i technik ich przetwarzania oraz analizy [20], [21], − zwiększenia wymagań dotyczących skalowalności eksploracji danych i wdrażania tych rozwiązań w systemach czasu rzeczywistego, − integracji rozwiązań zgłębiania danych i wdrażania wyników w adaptacyjnych witrynach internetowych oraz w sprzężeniu zwrotnym z procesami gospodarczymi, − zastosowania zaawansowanych metod analitycznych dla zmian w procesach gospodarczych, − opracowania pakietów zadań analitycznych dla użytkowników końcowych, nie będących ekspertami, − otwartości rozwiązań na istniejące systemy informatyczne i źródła danych. W pracach nad uaktualnieniem wersji modelu procesu CRISP-DM dyskusyjnymi obecnie kwestiami są: − analiza liczby faz n, wprowadzenie dodatkowej fazy F7 ,monitorowania całego procesu i zamknięcia pętli sprzężenia zwrotnego z fazą F1,, przesunięcie planowania wdrożenia do fazy F1, uwzględniając pomiar wydajności, monitorowanie modelu oraz skalowalność procesu, − wprowadzenie bardziej szczegółowej definicji fazy zrozumienia dziedziny F1, włączenie planowanych zmian w dziedzinie na skutek pozytywnych efektów eksploracji danych, uszczegółowienie procesu mapowania celów dziedziny do celów eksploracji danych, − powiązanie wymagań analitycznych z istniejącymi danymi w fazie zrozumienia danych F2, uwzględniając aspekty dostępu do danych, jakości danych i znaczenia danych oraz identyfikacji dostępności danych w trakcie wdrażania, − interpretacja przetransformowanych danych w fazie przygotowania danych F3, ocena jak dane „surowe” i dane po transformacji wpływają na budowę modelu, włączenie klasyfikacji różnych rodzajów danych oraz określenie jak wykorzystać wiedzę dziedzinową dla wyboru użytecznych atrybutów prognostycznych i jak tę wiedzę uogólnić. W fazie przygotowywania danych powinno się utworzyć model konceptualny procesu ekstrakcji, transformacji i ładowania danych ETL, który za pomocą niewielkiej liczby symboli pozwoli w prosty sposób odzwierciedlić złożone połączenia konceptów źródłowych z konceptami docelowymi oraz transformacje i mapowanie atrybutów [22]. Dla modelowania konceptualnego można wykorzystać narzędzia grafiki wektorowej lub narzędzia CASE. Na podstawie opracowanego modelu konceptualnego można później przygotować pakiet obsługi procesów ETL w wybranym środowisku programistycznym. W dalszej części rozdziału przedstawiono propozycje modyfikacji faz rozwiązania problemów „brudnych” danych z wykorzystaniem taksonomii. da .b w w pl s. 407 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 J. Świerzowicz 6 Analiza problemu jakości danych w zastosowaniu do metodologii CRISP-DM w Efekt końcowy procesu zgłębiania danych zależy w znacznej mierze od rozwiązania problemów związanych z jakością danych zgodnie z zasadą „garbage in, garbage out”. Cykl istnienia danych obejmuje takie zagadnienia jak pozyskiwanie, oczyszczenie gromadzenie, uaktualnianie, transmisję, udostępnianie, archiwizowanie, odtwarzanie i usuwanie. Problem jakości danych jest coraz częściej odnotowywany w literaturze [7], [9], [18], [19], [23]. Zazwyczaj pewnej części danych brakuje, w innych danych występują pomyłki, lub te same dane mają różne reprezentacje. Mówimy wówczas o „brudnych” danych. Dane są „brudne”, jeżeli użytkownik lub aplikacja nie jest w stanie uzyskać poprawnych wyników z powodu wewnętrznych problemów występujących w danych. Mogą to być błędy wprowadzania danych przez człowieka lub system komputerowy, błędy transmisji oraz błędy oprogramowania. Problem jakości danych pojawia się w różnym kontekście, np. gdy należy skorygować anomalie występujące w pojedynczym źródle danych, takim jak plik lub baza danych, kiedy przekształcamy dane źle ustrukturyzowane lub nieustrukturyzowane w dane ustrukturyzowane oraz kiedy integrujemy dane z różnych źródeł w jedno źródło np. przy tworzeniu hurtowni danych [22]. Stworzenie odpowiednich mechanizmów dla rozwiązywania problemów jakości danych jest pierwszym krokiem w budowaniu automatycznych narzędzi do rozwiązywania problemów jakości informacji. Jednym z podejść w rozwiązywaniu jakości danych jest opracowanie jej taksonomii. Taksonomie mogą być reprezentowane w formie drzewa. Każdy węzeł w taksonomii reprezentuje zestaw (klasę, kategorię) obiektów d. Każdy obiekt zawiera przypisane do niego zestawy deskryptorów: E alternatywnych definicji klasy d oraz I – zestaw faktów, który można wywnioskować pod warunkiem, że obiekt należy do klasy d. Kategoria nadrzędna jest dzielona na podkategorie klasyfikowanych obiektów [24]. Taksonomie dotyczące problemów jakości danych są ważne, ponieważ umożliwiają stwierdzanie, w jakim stopniu wybrane narzędzie jest zdolne do wykrywania i korygowania problemów jakości. Na przykład pozwalają porównać zakresy działania odpowiednich instancji procesów IP2,4,k,l i IP3,2,k,l oraz ukierunkować dalsze badania lub rozbudowę narzędzi. Bez taksonomii trudno jest określić stopień jakości informacji uzyskanej ze źródeł i jakości działań podejmowanych przez użytkowników informacji. Przykładami taksonomii zastosowanych do rozwiązywania problemów „brudnych” danych są taksonomie opracowane przez Kima [7] i Oliveirę [9]. W taksonomi Kima [7] przyjęto następująca hierarchię problemów: brakujące dane, dane istniejące ale nieprawidłowe, dane istniejące i prawidłowe ale bezużyteczne. Taksonomia Oliveiry [9] odwołuje się do hierarchii granulacji danych obejmującej: wielorakie źródła danych, wielokrotne relacje, pojedynczą relację oraz pojedyncze atrybuty. W taksonomiach tych ograniczono się do problemu wprowadzania i dostępu do danych numerycznych i tekstowych. Dla wprowadzenia taksonomii Kima w hierarchię wymiarów dla analizy jakości przyjęto tabele przedstawioną na rys. 4 natomiast na rys. 5 pokazano fragment hierarchii wymiaru „brudne” dane i techniki ich obsługi. da .b w w pl s. 408 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Priorytety standaryzacji procesu zgłębiania danych w da .b w w Rys. 4. Tabela źródłowa dla określenia taksonomii „brudnych” danych pl s. Rys. 5. Fragment hierarchii wymiaru „brudne” dane i techniki ich obsługi 409 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 J. Świerzowicz 7 Uwagi końcowe i wnioski w Standardy technologiczne odgrywają istotną rolę w rozwoju technologii informacyjnej. Wielu producentów oraz użytkowników baz danych i narzędzi analitycznych rozwija technologiczne standardy zgłębiania danych. Różnorodne wysiłki standaryzacji dotyczą procesów, modeli, atrybutów, interfejsów programowania aplikacji. Standardowy model procesu dla zgłębiania danych CRISP-DM jest najczęściej stosowanym standardem de facto. Dzięki swojej neutralności w stosunku do dziedziny zastosowań, metody, narzędzia i aplikacji można łatwiej wdrożyć proces zgłębiania danych jako kluczowy czynnik procesu gospodarczego. Główną przyczyną zmian standardów zgłębiania danych jest fakt występowania rozmaitych reprezentacji danych oraz że zgłębianie jest używane w różnorodnych dziedzinach dla danych strukturalnych, semistrukturalnych, tekstowych i multimedialnych. Daje to w kombinacji z wieloma systemami i usługami często niekompatybilne rozwiązania. Można zaobserwować wysiłki czołowych producentów baz danych i narządzi analitycznych zmierzających do ujednolicenia terminologii i integracji standardów. Zastosowanie modelowania konceptualnego procesu ETL, wykorzystując odpowiednie narzędzia grafiki wektorowej może znacznie ułatwić przygotowanie pakietu obsługi procesu ETL w wybranym środowisku programistycznym. Istotne kierunki prac dotyczą czyszczenia, transformowania i przygotowania danych oraz zastosowania taksonomii w rozwiązywaniu problemów jakości. Opisane prace mają istotny wpływ na dalszy rozwój technologii informatycznej. 1. 2. 3. 7. 8. 9. 10. 11. 12. 13. Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shaerer C., Wirth R. : CRISP-DM 1.0. Step -by - step data mining guide, CRISP-DM Consortium, 2000. Fomin V., Keil T.: Standardization: bridging the gap between economic and social theory, Proceedings of the Twenty First International Conference on Information Systems, Brisbane, Queensland, Australia, 2001, str. 206–217. IEEE Standards Online: New and Revised Standards http://standards.ieee.org/catalog /olis/arch_se.html (2007-01-28). ISO International Organization for Standardization – Home page http://www.iso.ch/iso/en/ISOOnline.frontpage (2007-01-28). KDnuggets : Polls : Data Mining Methodology (Apr 2004), http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm, (2007-01-28). KDnuggets : Polls : What main methodology are you using for data mining? (Jul 2002), http://www.kdnuggets.com/polls/2002/methodology.htm, (2007-01-28). Kim W., Choi B. J., Hong E. K., Kim S. K., Leea D.: Taxonomy of Dirty Data. Data Mining and Knowledge Discovery, 7, 2003, Kluwer Academic Publishers, str. 81–99. Moreton R., Simon E. Sloane, A.: Implementing Information Management and Technology Standards: A Framework ,Technology Management, 1995, V3 N6, str. 275–288. Oliveira P., Rodrigues F., Henriques P.: A Formal Definition of Data Quality Problems, Proceedings of the 2005 International Conference on Information Quality (MIT IQ Conference) SEMMA http://www.sas.com/technologies/analytics/datamining/miner/semma.html (2007-01-28). Shearer C., Khabaza T., Watkins D., Ross D.: CRISP-DM 2.0 Update Webinar, https://spssevents.webex.com/spssevents/onstage/g.php?t=a&d=660451261 (2006-12-14). Shearer C.: CRISP 2.0 Past, Present, Future, CRISP-DM 2.0 SIG Workshop, London, January 18, 2007. pl s. 4. 5. 6. da .b w w Literatura 410 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 Priorytety standaryzacji procesu zgłębiania danych w 14. Świerzowicz J.: A Management Information System for Classification of Scientific Achievements, Evolution and Challenges in System Development, Zupancic et all (ed)., Kluwer Academic/Plenum Publishers, New York, str. 735–740, 1999. 15. Świerzowicz J.: Analiza możliwości wykorzystania technik drążenia danych, VI Konferencja „Sieci komputerowe”, Zeszyty Naukowe Politechniki Śląskiej, Seria INFORMATYKA z.36. nr.1414, Gliwice, 1999, str. 387–400. 16. Świerzowicz J.: Decision Support System for Data and Web Mining Tools Selection, Issues and Trends of Information Technology Management in Contemporary Organizations, Khosrow-Pour M. (ed), Idea Group Publishing, Hershey, London, 2002, str. 1118–1120. 17. Swierzowicz J.: “Analysis of Current Data Mining Standards”, “Information Technology and Organizations: Trends, Issues, Challenges and Solutions”, (Mehdi Khosrow-Pour red.), Idea Group Publishing, 2003, Hershey, London, Singapore, Beijing, str. 764–765. 18. Świerzowicz J.: Impact of Data Mining Standardization on Information Technology Development, Studia Informatica, Vol. 24, Number 2A (53), Gliwice, 2003, str. 129–137. 19. Świerzowicz J.: Ocena jakości modeli baz danych, Współczesne problemy sieci komputerowych, Nowe Technologie, Praca zbiorowa pod red. S. Węgrzyna, B. Pochopienia, T. Czachórskiego, Rozdział XXXIX, WNT, Warszawa, 2004, str. 379–390. 20. Świerzowicz J.: Wielowymiarowa analiza aplikacji bazodanowych, Wysokowydajne Sieci Komputerowe, Zastosowania i bezpieczeństwo, Praca zbiorowa pod red. A.Kwietnia i A. Grzywaka, Rozdział 21, WKiŁ, Warszawa, 2005, str. 231–239. 21. Świerzowicz J.: Multimedia Data Mining Concept, Encyclopedia of Multimedia Technology and Networking, (Red. M. Pagani), Idea Group Reference, Hershey, London, Singapore, 2005, str. 696–703. 22. Świerzowicz J.: “Multimedia Data Mining – Past, Present, and Future”, "Pozyskiwanie wiedzy i zarządzanie wiedzą", red. M. Nycz, M.,L. Owoc, PN AE Nr 1064 Wrocław, 2005, str. 280–289. 23. Świerzowicz J.: Modelowanie konceptualne oraz projektowanie fizyczne procesów ETL dla hurtowni danych, „Bazy danych: Struktury, Algorytmy, Metody”, Rozdział 31, Kozielski S., Małysiak B., Kasprowski P., Mrozek D.(red.), WKŁ, Warszawa, 2006, str. 309–318. 24. Świerzowicz J.: Top priorities for CRISP DM 2.0: Data Quality Issues In CRISP-DM Update Model, CRISP-DM 2.0 SIG Workshop, London, January 18, 2007. 25. Żytkow J.M.: Taxonomies and Concept Hierarchies, Handbook of Data Mining and Knowledge Discovery, red. Klosgen W., Żytkow J.M., Oxford University Press, 2002, str. 61–64. da .b w w pl s. 411 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007 Rozdział monografii: 'Bazy Danych: Nowe Technologie', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2007 w da .b w w pl s. (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2007