clip starsze kobiety
Transkrypt
clip starsze kobiety
Problem jakości danych • • • • • • Żyjemy w epoce informacji, w której dane są jednym z najcenniejszych towarów. Korporacje, urzędy, szkoły, praktycznie każdy rodzaj działalności człowieka zależy w jakiś sposób od systemów informatycznych i danych przez nie gromadzonych. Koszty związane z posiadaniem danych niskiej jakości są ogromne, a zapobieganie temu zjawisku wydaje się zasadne. Potwierdzeniem może być przypadek firmy naftowej Amec, która szacuje oszczędności poczynione dzięki poprawie jakości swoich danych, na około milion funtów. Zastanawia fakt niewielkiego zainteresowania przedsiębiorstw tego rodzaju oszczędnościami, w szczególności wśród międzynarodowych korporacji. Dodatkowo, na rynku praktycznie brak jest ofert rozwiązań służących do zarządzania jakością danych skierowanych do firm średniej wielkości. Problem jakości danych • Wirusy komputerowe spowodowały w 2003 roku straty na kwotę 55 miliardów dolarów[1] • Roczne straty wynikające z posiadania danych słabej jakości są szacowane na 611 miliardów dolarów dla przedsiębiorstw z samych Stanów Zjednoczonych [2]. • Mimo to inwestycje w bezpieczeństwo ukierunkowane są przede wszystkim na zabezpieczenia przed atakami zewnętrznymi. Potrzeba ochrony posiadanych danych przed erozją wewnętrzną jest postrzegana jako marginalna. Definicje jakości danych • Wg Redmana [3]. • Dane są wysokiej jakości jeżeli nadają się do użycia zgodnie z przeznaczeniem w zakresie działania, podejmowania decyzji i planowania. Dane nadają się do użycia zgodnie z przeznaczeniem, jeżeli nie zawierają defektów i posiadają pożądane cechy. • Data are of high quality if they are fit for their intended uses in operations, decision-making, and planning. Data are fit for use if they are free of defects and possess desired features. Cechy danych dobrej jakości • • • • • dostępność – możliwość wykorzystania; fakt występowania danych w postaci łatwej do przetworzenia, do których użytkownik ma dostęp oraz które są gotowe do wykorzystania nie później, niż z maksymalnie tolerowanym opóźnieniem, zrozumiałość – możliwość łatwej interpretacji; czytelna charakterystyka danych w celu ich prawidłowego użycia, spójność i poprawność – prawidłowość; przystawanie do rzeczywistych faktów, brak błędów i wzajemnych sprzeczności, kompletność – występowanie wszystkich elementów, które w rzeczywistym świecie odpowiadają występującemu zakresowi faktów, użyteczność – zgodność z oczekiwaniami; dopasowanie do potrzeb użytkownika i/lub realizowanego procesu biznesowego Definicje jakości danych • • • Tayi i Ballou [4] zauważają, że dane o wystarczającej jakości pewnych cech dla jednego zadania, mogą się okazać niedostatecznie dobre do innego celu. Jest to sygnał do tego, by podejść do zagadnienia jakości danych jako do problemu wielowymiarowego i wielowątkowego. Skoro te same dane mogą być jednocześnie dobrej i złej jakości z różnych punktów widzenia, to należałoby ustalić pewne kryteria bardziej dokładnej oceny jakości danych pod kątem różnych ich cech. Definicje jakości danych • • • • • Wang i Strong [5] opracowali 15 wymiarów jakości danych z perspektywy użytkownika danych. Podzielili je na cztery kategorie: • wewnętrzną, • dostępu, • kontekstu • reprezentacji. Taki podział został przyjęty i zastosowany w wielu firmach i agendach rządowych a jego przydatność potwierdzona została w licznych badaniach. Zmierzenie jakości danych pod kątem wszystkich 15 wymiarów jest jednak przydatne jedynie w teorii. Z praktycznego punktu widzenia nie ma sensu używać wszystkich wymiarów do oceny danych, a jedynie tych, które mają dla nas faktyczne jakieś znaczenie. Kategorie i wymiary jakości danych Kategoria Wymiar Wewnętrzna dokładność, obiektywność, wiarygodność, reputacja Dostępu Kontekstu Reprezentacji dostępność, bezpieczeństwo dostępu relewancja, wartość dodana, aktualność, kompletność, ilość danych interpretowalność, łatwość zrozumienia, zwięzłość, spójna reprezentacja Tabela. Kategorie i wymiary jakości danych [6] Kategorie i wymiary jakości danych Tabela. Kategorie i wymiary jakości danych w oryginale Kategorie i wymiary jakości danych • • • • • • • • Dokładność – zakres w jakim dane są poprawne i odpowiadają rzeczywistości Obiektywność – zakres w jakim dane są bezstronne i pozbawione tendencyjności Wiarygodność – zakres w jakim dane postrzegane są jako prawdziwe i poprawne Reputacja – zakres w jakim dane posiadają wysokie uznanie pod względem źródła lub zawartości Dostępność – zakres w jakim dane są dostępne lub łatwe do uzyskania Bezpieczeństwo dostępu – zakres w jakim dostęp do danych został ograniczony aby zapewnić ich bezpieczeństwo Relewantność – zakres w jakim informacje zawarte w danych nadają się do stawianych im zadań Wartość dodana – zakres w jakim wykorzystanie danych przyniesie wymierne korzyści Kategorie i wymiary jakości danych • • • • • • • Aktualność – zakres w jakim dane są aktualne ze względu na potrzeby stawianych im celów Kompletność – zakres w jakim dane zawierają wszystkie wymagane informacje, zarówno ilościowo jak i jakościowo, potrzebne do stawianych im celów Ilość danych – zakres w jakim ilość danych wpływa na utrudnienie wykonania operacji na nich Interpretowalność – zakres w jakim dane są zapisane w odpowiednim języku, przy użyciu odpowiedniej symboliki i z zachowaniem odpowiednich jednostek Łatwość zrozumienia – zakres w jakim typowy użytkownik jest w stanie zrozumieć informacje zawarte w danych Zwięzłość – zakres w jakim dane nie zawierają nadmiarowych i zbędnych informacji oraz nie zajmują w sposób nieuzasadniony dużo miejsca Spójna reprezentacja – zakres w jakim dane przestawiane są w jednolity sposób Problemy wewnętrznej jakości danych Rys. Model problemów związanych z wewnętrzną jakością danych [6] Problemy wewnętrznej jakości danych • • • • • • Załóżmy, że nasze dane pochodzą z wielu źródeł. Każde z nich dostarcza niezależnie od siebie dane, w wyniku czego, powstają różnego rodzaju niezgodności. Odbiorca danych na samym początku nie bardzo jeszcze wie, z czego wynikają te niezgodności, wie tylko że one występują, co obniża w jego oczach wiarygodność danych. Ponadto, część wprowadzonych danych zależała od uznania operatorów – mogły być to dane z zakresu dobry, średni, zły lub też inne, zalenie jedynie od uznania jednej osoby. Takie dane posiadają wątpliwą obiektywność, gdyż przyjmuje się, że dane nieinterpretowane posiadają z reguły wyższą jakość niż dane po interpretacji lub zakodowaniu. Z biegiem czasu, następuje weryfikacja dokładności danych, czego wynikiem jest zebranie informacji o przyczynach powstawania niezgodności w danych. Akumulacja negatywnych wyników badania dokładności owocuje złą reputacją dla mniej dokładnych źródeł danych. Dane o złej reputacji i niskiej dokładności nie posiadają prawie żadnej wartości dla ich odbiorcy i w związku z tym, dane przestają być używane Problemy dostępności do danych Rys. Model problemów związanych z dostępnością do danych [6] Problemy dostępności do danych • • • Typ problemów (1) można łatwo zobrazować sytuacją pozbawienia dostępności do danych. Za przykład może posłużyć praca zdalna, gdzie użytkownik pracuje na danych znajdujących się na innym komputerze, które musi pobierać i przetwarzać u siebie, w sytuacji, gdy z powodów technicznych uszkodzeniu uległo łącze internetowe lub działające łącze jest obciążone w stopniu uniemożliwiającym pracę. Typ problemów (2) występuje w sytuacji, kiedy przechowywane dane mają charakter poufny. Wymagane jest wtedy zapewnienie bezpieczeństwa dostępu do nich. Jednak w sytuacji, w której każdorazowy dostęp do danych wymaga czasochłonnego uzyskania odpowiedniej autoryzacji, przestają być one traktowane jako dostępne. Problemy (3) mają miejsce, gdy przetworzone dane nabierają charakteru danych specjalistycznych, posługujących się specjalistycznym słownictwem, specyficznym sposobem zapisu bądź kodowania. W momencie, kiedy do interpretacji i zrozumienia danych potrzeba zaciągać opinii jednego lub więcej ekspertów, dane, podobnie jak w poprzednich przypadkach, tracą na dostępności. Problemy dostępności do danych • • Typ (4) dotyczy przypadków, w których dane zawierają oprócz tekstu również wykresy, diagramy, skany itp. Ze względu na brak zwięzłości i konsystencji w reprezentacji danych nie można ich łatwo podsumować (np.: dysponując tysiącem zeskanowanych zdjęć rentgenowskich, nie można łatwo uzyskać odpowiedzi na pytanie ilu pacjentów ma zapalenie płuc). Typ (5) odnosi się do stanu rzeczy, w którym posiadamy ogromne ilości danych (np. hurtownia danych) i w momencie uaktualnienia ich nowymi danymi uzyskanie aktualnych wyników musi zostać poprzedzone długotrwałym procesem przetworzenia. Problemy jakości danych wg Beckera • • Becker [6] odrzucił on wirtualne wymiary zaproponowane przez Wanga i Stronga i założył, że za jakość danych odpowiadają zjawiska odpowiedzialne za tworzenie błędów. Wymienił siedem typowych problemów jakości danych: • Problemy powstałe w wyniku niepoprawnej konwersji danych • Rozbieżności znaczeniowe pomiędzy bieżącymi i historycznymi danymi • Te same dane posiadają wiele funkcji lub znaczeń • Braki w danych • Ukryte dane • Niedostateczna dokładność • Naruszenie zasad integralności danych Błędy danych przestrzennych Kategoria Definicja Przykład Dokładność położenia Poziom dokładności położenia poziomego i pionowego w układzie współrzędnych Precyzja z jaką podawane są koordynaty Dokładność atrybutów Poziom błędów merytorycznych w danych Prawdopodobieństwo z którym jakość gleby w danym miejscu będzie się zgadzać z zapisem w danych Kompletność Poziom w jakim dane zawierają braki Ocena rozmieszczenia przestrzennego pewnych zjawisk może okazać się niemożliwa, jeśli nie dysponujemy danymi z jakiegoś obszaru Spójność logiczna Poziom pojawiania się sprzecznych relacji w danych Spójność logiczna nie będzie zachowana, jeżeli na przykład dla jednego obszaru badamy liczbę dokonanych przestępstw a dla drugiego liczbę zgłoszonych Pochodzenie danych Poziom w jakim wszystkie dane posiadają chronologiczną zgodność Problemem może się okazać fakt, że gdy chcemy zbadać jakieś zjawisko na przestrzeni lat, to okazuje się, że pomiary dla poszczególnych lat dokonywane były w różnych porach roku. Tabela. Pięć kategorii błędów dla Standardu Wymiany Danych Przestrzennych w USA [8 ] Podsumowanie podejść do jakości danych • • • • • Nie można zastosować jednego kryterium oceny do wszystkich możliwych sytuacji. W każdej sytuacji, gdy chcemy zbadać jakość danych potrzebna jest przede wszystkim głęboka analiza i poznanie charakteru danych oraz zapoznanie się z przeznaczeniem danych i procesów, jakim są one poddawane. Dopiero wtedy można dobrać odpowiednie do danej sytuacji wymiary, w jakich będziemy rozważać jakość danych. Zazwyczaj należy połączyć wybrane elementy kilku różnych podejść oraz zaproponować własne i stworzyć z nich nową koncepcję oceny jakości danych, tak aby jak najlepiej pasowała do danej sytuacji. Ponieważ nie istnieje jak na razie jedno uniwersalne kryterium ani jeden ustalony zbiór wymiarów, można śmiało eksperymentować . Wymiary jakości danych (inny pogląd) • • • • W celu umożliwienia (bardziej) obiektywnej oceny jakościowej, wyróżniono cechy danych, które nie są zależne od procesu w którym są wykorzystywane, ani od oczekiwań konkretnego użytkownika, ale „tkwią w nich samych” : zgodność z definicją – zgodność z intencją twórcy (np. naruszeniem tej własności jest występowanie uwag dotyczących sposobu spedycji towaru w polu email klienta), zgodność ze źródłami rzeczywistymi i zastępczymi – przystawanie do pośrednich (np. zgromadzonych na ręcznie prowadzonych dokumentach) oraz faktycznych (istniejących w rzeczywistym świecie) stanów (np. dane z inwentaryzacji magazynu w systemie odpowiadać powinny formie zastępczej, jaką są notatki osób weryfikujących bieżące stany towarowe, a przez to ilościom faktycznym), dokładność – szczegółowość na ustalonym poziomie (np. sam rok urodzenia nie jest, w ogólności, wystarczający do ustalenia możliwości nabywania wyrobów alkoholowych), Wymiary jakości danych (inny pogląd) • • • kompletność – ujęcie wszystkich obiektów rzeczywistych, których dotyczy ewidencja (np. złamaniem tej zasady jest brak ewidencji w systemie przeprowadzonej transakcji bankowej), brak duplikatów – reprezentacja każdego obiektu świata rzeczywistego wyłącznie za pomocą jednego elementu (np. każdy obywatel powinien być zarejestrowany wyłącznie raz w bazie urzędu skarbowego, inaczej mógłby zostać poproszony o składanie kilku zeznań podatkowych rocznie), spełnianie reguł biznesowych – poprawne względem ogólnie przyjętych norm i szczegółowych ustaleń właściciela i/lub twórcy systemu dotyczących ewidencji określonych faktów rzeczywistych (np. data przyjęcia do pracy nie może być wcześniejsza od momentu narodzin pracownika). Klasyfikacja danych w kontekście występujących w nich problemów • • • • Analizując dane w aspekcie ich jakości, można podzielić je według rodzaju problemów w nich występujących [2]: dane prawidłowe (np. mieszkaniec Wrocławia wskazał „Wrocław” jako miejsce zamieszkania), dane poprawne ale nieprawdziwe (np. mieszkaniec Wrocławia wskazał „Poznań” jako miejsce zamieszkania), dane niepoprawne (np. mieszkaniec Wrocławia wskazał „Jakościolandie II” jako miejsce zamieszkania). Klasyfikacja danych w kontekście występujących w nich problemów Klasyfikacja defektów według analitycznych technik detekcji • • • • analiza wartości – wykrywa błędy pojedynczych wartości, które nie należą do zadanej dziedziny, analiza strukturalna – pozwala na wykrycie błędów wynikających ze struktury bazy danych – w relacjach, w danych redundantnych i zdenormalizowanych, analiza reguł operujących na zależnościach danych – pozwala na wykrycie złych kombinacji poprawnych danych poprzez zastosowanie stosownych reguł, które muszą być zawsze spełnione, analiza reguł operująca na wartościach danych – pozwala wykryć błędy opierając się na agregacjach i rozkładach występujących wartości (np. zbyt częste występowanie różnych studentów przedstawiających się jako Józef Stalin na liście obecności, w stosunku do pozostałych). Oczywistym jest fakt, iż nie każdy defekt da się wykryć za pomocą technik analitycznych, stąd też możliwa jest klasyfikacja określona jako brak możliwości analitycznych wykrycia błędu. Klasyfikacja defektów według budowy relacyjnych baz danych • • • • błąd wartości atrybutu – gdy problem dotyczy wartości pojedynczego pola (np. zły format daty), błąd encji – kiedy problem dotyczy zestawu atrybutów pojedynczego rekordu, ale niemożliwe jest wskazanie jednego atrybutu odpowiedzialnego za błąd (np. kwota brutto pozycji faktury nie jest sumą wartości netto i należnego podatku VAT), błąd tabeli – kiedy problem dotyczy szeregu wierszy jednej tabeli, ale niemożliwe jest wskazanie jednego błędnego wiersza (np. naruszenie unikalności klucza, duplikaty rekordów, itd.), błąd bazy danych – gdy problem wiąże się z danymi znajdującymi się w wielu tabelach (np. występowanie zagubionych pod-rekordów, bez rekordu nadrzędnego). Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Powtórzona wartość domeny (synonimy) Różne sposoby określania tej samej cechy obiektów Płeć osoby określana literą K/M lub cyfrą 1,2. Powoduje to brak możliwości zestawienia wg płci. Dane prawidłowe (zła reprezentacja), analiza wartości, zakres atrybutu Brakujące wartości (puste) Brak określenia wymaganego atrybutu Brak informacji o roku studiów w podaniu o praktyki zagraniczne. Powoduje brak możliwości automatycznego kojarzenia dostępnych praktyk z sytuacją studenta. Dane nieprawidłowe (brakujące), analiza wartości, zakres atrybutu Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Kontekstowe wykorzystanie atrybutu Wykorzystywanie jednego pola do przechowywania zamiennie różnych cech obiektu rzeczywistego Katalog klientów zawierać może zarówno firmy jak i osoby prywatne. Jeżeli jedno pole przechowywać będzie zależnie – formę prawną lub drugie imię – kłopotliwe będzie zestawienie obrotów klientów wg formy prawnej. Defekt ten występuje przede wszystkim w starszych systemach ze względów oszczędnościowych. Klasyfikacja Dane prawidłowe, analiza reguł operująca na wartościach danych, zakres atrybutu Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Nieatomowe wykorzystanie atrybutu Wykorzystanie atrybutu niezgodne z założeniami pierwszej postaci normalnej – przechowywanie wielu cech w jednym polu Przechowywanie listy numerów telefonów jako wartość pojedynczego pola uniemożliwia funkcje automatycznego wybierania lub identyfikacji rozmówcy (CLIP) Dane prawidłowe (zła reprezentacja),, analiza wartości, zakres atrybutu Podanie ujemnego wieku lub wieku w postaci słownej kiedy oczekiwano liczbowej uniemożliwia zagregowane przetwarzanie zbioru danych Dane nieprawidłowe, analiza wartości, zakres atrybutu Wartości Przypisanie atrybutu spoza nieprawidłowej domeny wartości atrybutu, naruszając dopuszczalny zakres Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Nieprawdziwe wartości atrybutu Przypisanie wartości możliwej do wystąpienia (zgodnej z domeną) ale niezgodnej z rzeczywistością Podanie zmyślonego adresu email, podczas rejestracji na formularzu internetowym konkursu uniemożliwi kontakt w przypadku wygranej. Dane nieprawdziwe, analiza reguł oparta na zależnościach i wartościach czasem brak możliwości analizy, zakres atrybutu Nieprecyzyjna wartość atrybutu Przypisanie prawidłowej, ale niewystarczająco szczegółowej informacji Podanie jedynie pierwszej litery imienia mającego więcej niż jedno rozwiązanie (P. może oznaczać Piotra, Pawła, Patryka, itd.) Dane prawdziwe, (zła reprezentacja), analiza reguł oparta na zależnościach i wartościach, zakres atrybutu Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Wartość atrybutu naruszająca reguły Istnienie atrybutu z wartością nieprawidłową dla reprezentowanych obiektów rzeczywistych Jeżeli pole reprezentuje osobę, jeżeli imię i nazwisko nie będzie reprezentowane przez przynajmniej dwa wyrazy – wartość jest nieprawidłowa Dane nieprawidłowe, analiza wartości, zakres atrybutu Wartości atrybutów wzajemnie sprzeczne (naruszenie zależności funkcyjnej) Współwystępowanie w kontekście jednego faktu rzeczywistego wzajemnie wykluczających się wartości atrybutów Karta chorobowa pacjenta – mężczyzny, dla którego kod diagnozy wskazuje na chorobę związaną z narządami płciowymi kobiet. Brak wiarygodności statystycznych analiz zachorowalności w regionie. Dane nieprawidłowe, analiza reguł oparta na zależnościach, zakres wiersza, tabeli lub bazy Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Brakujące elementy Niekompletność reprezentacji rzeczywistych obiektów Elektroniczny rozkład jazdy pociągów zawiera jedynie część faktycznie kursujących pociągów. Brak możliwości odnalezienia faktycznych połączeń, a w szczególności utrudnione planowanie podróży z przesiadkami. Dane nieprawidłowe (brakujące), mieszane techniki analityczne lub brak możliwości wykrycia, zakres tabeli Duplikaty Reprezentacja obiektu rzeczywistego przez więcej niż jeden element danych Powtórzone wpisy w katalogu dostawców, nie pozwolą firmie na prawidłowe określenie średniego poziomu miesięcznych zamówień od każdego z nich w celu renegocjacji warunków. Dane prawidłowe, analiza reguł operująca na wartościach danych, zakres tabeli Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Naruszenie reguł zadanego zbioru danych Istnienie zbioru rekordów, który nie jest prawidłowy z punktu widzenia reprezentowanego obiektu rzeczywistego Jeżeli przechowujemy zbiór transakcji bankowych opatrzonych kolejnym numerem oraz datą wprowadzenia do systemu to nieprawidłowa jest sytuacja kiedy wpis o większym numerze posiada mniejszą datę Dane nieprawidłowe, analiza reguł oparta na wartościach, zakres tabeli Brak spójności bazy danych Brak zgodności w przypadku reprezentowania cechy lub obiektu rzeczywistego równocześnie w więcej niż jednym atrybucie lub encji (denormalizacja). Jest to związane z niestosowaniem się do zasad drugiej i trzeciej postaci normalnej. Jeżeli wartość faktury przechowywana jest zarówno w poszczególnych jej pozycjach jak i łącznie (suma) w nagłówku dokumentu, to w przypadku defektu tego rodzaju otrzymamy różne kwoty łącznej sprzedaży firmy w zależności od wykorzystanego źródła. Dane nieprawidłowe, analiza strukturalna, zakres bazy Rodzaje defektów występujących w systemach informatycznych Opis szczegółowy Przykład Klasyfikacja Naruszenie więzów relacyjnych Wskazanie klucza obcego w tabeli powiązanej na nieistniejący rekord w tabeli nadrzędnej Jeżeli fizycznie usunięcie pojazdu z bazy danych ASO nie spowoduje usunięcia historii jego napraw, w systemie mogą pozostać „zagubione” rekordy, które spowodować niespójne działanie systemu (różne wyniki zestawień w zależności od opcji) Dane nieprawidłowe (brakujące lub nadmiarowe), analiza strukturalna, zakres bazy danych Cykle w relacji samdo-siebie Wykrycie cykli dłuższych niż jeden w relacji hierarchicznej (drzewiastej) samdo-siebie. Jeżeli pracownik ma szefa, który jest podwładnym tegoż pracownika to sytuacja nie jest prawidłowa. Dane nieprawidłowe, analiza wartości, zakres tabeli Defekt Rodzaje defektów występujących w systemach informatycznych Defekt Opis szczegółowy Przykład Klasyfikacja Naruszenie unikalności klucza głównego Powtórzenie w kolumnie (kolumnach) klucza głównego w obrębie jednej tabeli. Przydzielenie jednakowego „unikalnego„ identyfikatora (klucza) prowadzi do katastrofalnych w skutkach błędów – typu przelewanie składek ubezpieczeniowych pracowników jednej firmy na rzecz innej. Dane nieprawidłowe, analiza strukturalna, zakres tabeli Rodzaje defektów występujących w systemach informatycznych (Przykład) Przykład defektu danych – duplikaty w słowniku miejscowości Źródła defektów w danych Przyczyny problemów w danych, można podzielić na: • spowodowane czynnikiem ludzkim • błędy użytkowników, • wady aplikacji • wielokrotne migracje i integracje danych, • powstałe wskutek czynników zewnętrznych. • awarie sprzętowe • samoistne starzenie się danych Źródła defektów w danych Błędy użytkowników: • Błędy nieświadome to przede wszystkim: • • Pomyłki wszelkiego rodzaju: literówki, błędy ortograficzne, skróty i skrótowce, zanieczyszczenia przypadkowymi znakami; powstają przede wszystkim z pośpiechu i małej staranności, Nie znane oczekiwania co od wprowadzanych danych, ich znaczenia, poprawnego sposobu reprezentacji, akceptowalnej dziedziny; powodem tej kategorii są najczęściej wady aplikacji lub niedostateczne przeszkolenie użytkowników. Źródła defektów w danych Błędy użytkowników: • Błędy świadome zostały podzielone następująco [2]: • Brak wymaganej informacji dla przeprowadzenia procesu biznesowego. Operator nie ma możliwości zasygnalizowania braku swojej wiedzy, co do określonego faktu rzeczywistego lub cechy, więc aby kontynuować proces wprowadza świadomie nieprawdziwą, lecz akceptowalną wartość. Przykładem mogą być tu kwestionariusze internetowe, które dla pobrania wersji demo produktu, wymagają podania nazwy pracodawcy. W sytuacji kiedy osoba nie jest aktualnie zatrudniona (np. student) musi ona wypełnić wymagane pole czymkolwiek – co nie prowadzi do gromadzenia przez dystrybutora wysokiej jakości danych o potencjalnych nabywcach. Źródła defektów w danych Błędy użytkowników: • Błędy świadome (cd.): • Brak chęci ujawnienia prawdziwej informacji. Dzieje się tak w przypadku kiedy osoba wprowadzająca (udostępniająca) swoje dane nie jest zainteresowana przekazaniem informacji prawidłowych. Nie wspominając o kobietach, które nie lubią ujawniać swojego wieku, przykładem mogą być ponownie formularze internetowe, na których w celu założenia konta email, wymagane jest podanie danych osobowych. Duża część wprowadzonych informacji jest w całości lub w części fikcyjna, ponieważ internauci lubią pozostawać anonimowi. Źródła defektów w danych Błędy użytkowników: • Błędy świadome (cd.): • Korzyści z podania nieprawdziwej informacji. Sytuacja ta występuje w przypadkach kiedy istnieją procedury promujące wpisywanie złych danych. Przykładem z literatury może być tu producent samochodów, który w zależności od kodu skargi zwracał koszty napraw serwisowych natychmiast lub dopiero po 60 dniach. Dilerzy znający funkcjonujące reguły podawali nieprawdziwe fakty w celu szybszego uzyskania pieniędzy. Źródła defektów w danych Wady aplikacji: • Błędy logiki i zachowania aplikacji stanowią: • • błędy programistyczne powodujące wadliwe działanie lub złą obsługę sytuacji wyjątkowych. Oprócz typowych „niedoróbek” można tu przytoczyć skomplikowane zagadnienie zarządzania transakcyjnością w systemach rozproszonych (np. obsługa kart płatniczych), niedopasowanie merytoryczne aplikacji do potrzeb użytkowników, co zmusza ich do niezamierzonego przez twórców wykorzystania elementów systemu. (np. przeciążanie znaczenia pól danych). Źródła defektów w danych Wady aplikacji: • Źle zaprojektowane mechanizmy interakcji z użytkownikiem • powodują najczęściej, wspomniane wcześniej, nieświadome błędy użytkowników. Nie rozumieją oni wprowadzanej informacji, a sposób komunikacji z aplikacją jest mało intuicyjny lub wręcz denerwujący. Z badań wynika, iż dobre przystosowanie interfejsu mogłoby znacząco ograniczyć liczbę powstających defektów na styku człowiek-komputer. Źródła defektów w danych Procesy migracji i integracji danych: • • • W przedsiębiorstwach następują ciągłe zmiany. Zmienia się profil działalności, właściciele, systemy produkcyjne, ich technologia, a za tym wszystkim podążają ciągłe przekształcenia posiadanych danych. Te ostatnie są integrowane z nowo pojawiającymi się rozwiązaniami lub migrowane do nowych wersji istniejących systemów. Z doświadczenia wynika, iż powoduje to nie tylko przenoszenie starych błędów do nowej struktury, ale także powstanie wielu nowych problemów [7]. Źródła defektów w danych Awarie sprzętowe: • • W obecnych czasach, awarie sprzętowe są jednym z rzadszych powodów występowania jakościowych problemów w danych. Wynika to z faktu znaczącego podwyższenia stopnia bezawaryjności serwerów, wprowadzenia rozwiązań klastrowych, ale także zastosowania przemyślanych rozwiązań architektonicznych w systemach informatycznych, które mają zabezpieczać przed potencjalnymi skutkami takiej awarii (np. mechanizm transakcyjności) Źródła defektów w danych Starzenie się danych: • • Ostatnim źródłem błędów w bazach danych są zmiany zachodzące w rzeczywistym świecie, które nie są odnotowywane (aktualizowane). Jest to czynnik całkowicie zewnętrzny, ale ma on bezpośrednio wpływ na jakość i wartość zgromadzonych danych. Jedną z najbardziej zmiennych ewidencji jest ewidencja osób. Ich cechy zmieniają się samoczynnie, stosunkowo często i praktycznie w pełnym zakresie – od wady wzroku, poprzez stan cywilny, adres do nazwiska włącznie. Brak stałej i konsekwentnej aktualizacji bazy danych prowadzi do szybkiej deprecjacji jej wartości. Straty powodowane niską jakością danych • • • • Koszty bezpośrednie stanowią wydatki, które wprost wynikają z niskiej jakości zgromadzonych danych. Straty tej grupy to przede wszystkim: praca ludzka, związaną z usuwanie powstałych defektów w danych lub usuwaniu skutków błędnych procesów biznesowych z nich wynikających, utrata produktywności pracowników (np. kiedy w systemie faktury numerowane są według różnych formatów, odnalezienie konkretnego dokumentu może zająć znacznie więcej czasu), utrata produktywności przedsiębiorstwa poprzez utrudnienia w łańcuchu dostaw (kiedy stany magazynowe wskazują na obecność dużej ilości potrzebnego w produkcji surowca, którego faktycznie brak – może to spowodować nieoczekiwane zatrzymanie procesu produkcji), Straty powodowane niską jakością danych • • • Koszty bezpośrednie (cd.): wycofywanie zamówień klientów (klient może wybrać innego dostawcę, jeżeli zamówienie realizowane jest zbyt długo, a w systemie brak informacji o nim), inwestycja w nieskuteczną kampanie promocyjną, zbudowaną w oparciu o niewiarygodne analizy, zły wybór adresatów lub błędne ich adresowane. Straty powodowane niską jakością danych • • • Utracone korzyści to wszystkie potencjalne konsekwencje finansowe wynikające z bieżącego użytkowania niskiej jakości danych oraz utracone szanse na przyszłe zyski. Są to między innymi: utrata obecnych i potencjalnych klientów (pośrednio więc zysków) niezadowolonych niską jakością usług, którzy nie tylko rezygnują ze współpracy, ale także zniechęcają innych do jej podjęcia, koszty błędnych decyzji biznesowych podjętych na podstawie nieprawdziwych lub niekompletnych danych (zdarzają się rzeczywiste sytuacje [7], w których brakuje 70% danych - na podstawie takiego zbioru trudno trafnie wnioskować). Zapotrzebowanie na jakość danych • W tabeli pokazano wymagany poziom jakości danych w zależności od ich przeznaczenia. Różne zapotrzebowanie na jakość najlepiej zobrazować przykładem kodów medycznych wybieranych przy realizacji usługi medycznej. Do wystawienia rachunku za usługę nie jest potrzebne określenie właściwego kodu, a jedynie właściwej kwoty – z punktu widzenia pracownika operacyjnego wybranie kodu „pierwszego z listy” nie stanowi żadnego utrudnienia. Do analizy zdrowotnej sytuacji w kraju dane, bez właściwego wskazania na rodzaj schorzenia, są jednak bezużyteczne. Przeznaczenie danych Sprawozdawczość biznesowa Analiza danych (hurtownie danych, wzorce, związki, segmentacje) Praca operacyjna (systemy transakcyjne) Wymagany poziom jakości 95-97% >80% 40-80% Total Quality data Managment • • Na podstawie tradycyjnego zarządzania przez jakość (TQM) powstała metodologia dedykowana zapewnieniu danych wysokiej jakości – Total Quality data Managment. Twórcy jej zwracają uwagę, iż najważniejsze jest, aby: • • • • wszyscy pracownicy firmy wiedzieli, iż współzależą od siebie informacyjnie, wszyscy wierzyli, iż dobra jakość danych jest cenna dla przedsiębiorstwa, istniał system wartości, który łączy satysfakcję klienta z dobra jakością danych, istniała kultura organizacyjna, w której wszyscy biorą odpowiedzialność za ciągłe udoskonalanie procesów [5]: Total Quality data Managment • Powyższe wytyczne dają nam obraz tego, iż kluczowe czynniki sukcesu leżą po stronie działań organizacyjnych, sam TQdM ma być zwyczajem doskonalenia następujących procesów: • procesów wytwarzania aplikacji, ich architektur i baz danych, • procesów biznesowych, podczas których są tworzone, aktualizowane, kasowane, przetwarzane lub prezentowane dane, Total Quality data Managment • Sposób doskonalenia procesów powinien być zgodny z przedstawionym na rysunku ogólnym spojrzeniem na metodologię TQdM: Uogólniony proces zapewnienia jakości danych • • Istnieje wiele różnych podejść koncepcyjnych do zapewnienia jakości danych, pozornie odmiennych. Okazuje się jednak, iż mają one cechy wspólne – wszystkie one są cykliczne, i wszystkie zawierają w sobie trzy podstawowe kroki: – identyfikacja problemu, – naprawa problemu, – kontrola problemu [8]. Uogólniony proces zapewnienia jakości danych • Na tej podstawie powstała uogólniona metoda, pozwalająca na rozwiązywanie skomplikowanych problemów z jakością danych, zwaną Analyze-ImproveControl (Analiza-Usprawnienie-Kontrola) przedstawiona na rysunku. Analiza problemu jakości danych Identyfikacja problemu jakości danych • • Metoda „od wewnątrz” ” (ang. Inside-Out) koncentruje się na monitorowaniu danych, poszukiwaniu w nich defektów za pomocą dokładnej weryfikacji. Następnie bada się wpływ odnalezionych problemów na funkcjonowanie biznesu. Przykładem takiego działania może być wykrycie ogromnej liczby duplikatów w tabeli kontrahentów, a następnie badanie skutków tego zjawiska dla działania przedsiębiorstwa. Mogą nimi być: – – – – – czas pracowników tracony na poszukiwanie, rozstrzyganie i wprowadzanie powtórzonych informacji, koszty przechowywania redundantnych danych, brak możliwości analizy historii współpracy z klientem, irytacja klienta proszonego o powtórne podawanie swoich danych, itd. Analiza problemu jakości danych Identyfikacja problemu jakości danych (cd.) • • • • Metoda „od zewnątrz” (ang. Outside-In) skupia się na poszukiwaniu problemów w świecie biznesowym, których przyczyną może być potencjalnie niska jakość posiadanych danych. Zgromadzone przesłanki są następnie zamieniane na reguły poprawności dla danych, a proces monitorowania może potwierdzić lub odrzucić postawioną tezę. Jednym ze sposobów na przeprowadzenie tej metody identyfikacji problemu jest przegląd zwrotów od klienta, reklamacji oraz dokumentów korygujących. Analiza przyczyn fiaska, może wskazać nam na błędne adresowanie, niestaranne wypełnianie zamówień co do ilości lub produktów lub też błędy w procesie produkcyjnym, który także może być sterowany danymi. Analiza problemu jakości danych Monitorowanie danych w systemach informatycznych • Monitorowanie danych, nazywane także audytowaniem lub profilowaniem, jest czynnością pozwalającą na wyspecyfikowanie niezgodności występujących w systemie (ich grup lub konkretnych defektów) oraz wskazanie syntetycznego obrazu jakości posiadanych danych (lub ich aspektu) w postaci metryk • Istnieje kilka metod sprawdzania jakości danych w zgromadzonych bazach danych – Ankiety, listy kontrolne – Metody analityczne – Wizualna inspekcja Analiza problemu jakości danych Ankieta weryfikującą jakość meta-danych i wartość danych dla użytkownika Analiza problemu jakości danych Rys. Grupy technik analitycznych Techniki analityczne wykrywające defekty w danych Grupa technik Opis techniki analitycznej Przykład Analiza wartości Nieakceptowanie pustych wartości Nazwa klienta nie może być pusta Wartość musi odpowiadać jednemu z elementów określonej dziedziny. Jeżeli cechą „K‟ określa się kontrahenta krajowego a „Z‟ zagranicznego, wartości inne nie są dopuszczalne Wartość musi należeć do wskazanego zakresu Wiek człowiek musi być liczbą naturalną z przedziału 0-200 Wartość nie może być zadanego rodzaju. (wyłączenia z dziedziny) Data zatrudnienia pracownika nie może przypadać na niedzielę lub święto Wartość musi mieć zadany format (maskę) zgodną z świecie rzeczywistym Kod pocztowy w Polsce zawsze ma postać xx-xxx Wartość tekstowa musi spełniać zadane cechy (długość, występujące znaki) Nazwa miejscowości nie powinna być 1 literowa i zawierać znaków &*$@! itd. Wartość musi być poprawna względem wbudowanego kodu kontrolnego. Numer NIP posiada cyfrę kontrolną, która pozwala na określenie poprawności Techniki analityczne wykrywające defekty w danych Grupa technik Opis techniki analitycznej Przykład Analiza strukturalna Wartość atrybutu musi być unikalna w obrębie całej tabeli Numer PESEL dla każdego obywatela musi być unikalny Element nadrzędny, wskazanych kluczem obcym, musi wystąpić Transakcja sprzedaży towaru musi wskazywać na towar występujący w kartotece towarowej Hierarchia w relacji „sam-do-siebie” musi prowadzić do korzenia Nieakceptowalne są cykle w podległości służbowej przedsiębiorstwa Element nadrzędny musi zawierać określoną (minimalną, maksymalną, dokładną) liczbę elementów podrzędnych Prawidłowa faktura zawiera przynajmniej jedną pozycję Dane redundantne muszą być zgodne. Jeżeli odniesienie do klienta występuje w każdej pozycji zamówienia a nie tylko w nagłówku – to w każdej pozycji musi być takie samo Techniki analityczne wykrywające defekty w danych Grupa technik Opis techniki analitycznej Przykład Analiza reguł operujących na zależnościach danych Wartość jednego atrybutu musi być większa / mniejsza / niewiększa / niemniejsza niż wartość innego atrybutu W bazie postaci historycznych data urodzin musi być niemniejsza od daty śmierci. Musi być zachowana zależność funkcyjna pomiędzy atrybutami (lub niektórymi wartościami atrybutów). Jeżeli pole kwota brutto zależy od pola kwota VAT i kwota netto, to zależność ta powinna być zawsze prawdziwa. Musi być zachowana formuła pomiędzy wartościami Data zatrudnienia – Data urodzin > 18 lat Weryfikacja prawidłowości wartości atrybutów przez współwystępowanie ze sobą Kod pocztowy i miasto powinno być zgodne. Bilansowanie się danych określonych typów. W księgowości dekrety księgowe umieszczone po stronie winien muszą dokładnie równoważyć te ze strony ma. Techniki analityczne wykrywające defekty w danych Grupa technik Opis techniki analitycznej Przykład analiza reguł operująca na wartościach danych Wykrywanie powtórzeń w danych na podstawie ich podobieństwa. Każdy klient powinien posiadać tylko jeden opisujący go rekord. Częstotliwość występowanie jednego atrybutu nie może być znacząco większa niż innych lub musi być zgodna z określonym rozkładem. Kolor oczu powinien występować w większej populacji zgodnie z zasadami natury. Dane transakcji nie powinny odbiegać od normy ustanowionej przez historię. (wykrywanie anomalii) Zakupy małego klienta, którego rachunki były na około tysiąc złotych nie powinny wynosić nagle milion złotych. Spełnianie kryteriów dla określonych agregacji danych (suma, minimum, maksimum, mediana, ilość) Baza rejestrująca ilość przejeżdżających pociągów przez dany punkt powinna zawierać mniej więcej określoną ilość rekordów z każdego dnia . Miary jakości danych • Metryki stanowią dobre podsumowanie procesu monitorowania. Obrazują one syntetycznie jakość testowanych danych, stanowiąc podstawę do podejmowania decyzji o działaniach naprawczych przez kierownictwo. Wyróżniamy metryki: • lokalne (liczone dla fragmentu danych) [9] • globalne (oceniające łącznie cały zbiór danych), • • celowe [10] (nastawione na mierzenie określonego rezultatu) ogólne (ich zadaniem jest określenie obiektywnego stanu jakościowego danych). Miary jakości danych • • • • • Niezależnie od wyboru rodzaju, określone zostały cechy, które musi spełniać dobra metryka [11]. Najważniejsze z nich to: czytelność – osoba która nie jest specjalistą zrozumie sposób jej obliczania, mierzalność i łatwość uzyskania – możliwość fizycznego zmierzenia w rozsądnym czasie, porównywalność wyników – możliwość zestawienia rezultatów w czasie i między różnymi zbiorami danych, mobilizacja do działań naprawczych – „wysokie” wyniki metryki powinny mobilizować do podjęcia działań naprawczych. Miary jakości danych (GQM) • • • • • Bobrowski [12] sugeruje podejście typu Cel-Pytanie-Miara (ang. GQM: Goal-Question-Metric), czyli tradycyjne podejście do jakości z zakresu inżynierii oprogramowania. Dla każdego z wymiarów: wiarygodność, relewantność, przydatność, aktualność i spójność, przyjmuje ona cel składający się z przedmiotu, celu faktycznego, typu mierzonej jakości oraz środowiska. Każdemu celowi przyporządkowane jest jedno lub kilka pytań a każdemu pytaniu odpowiednia metryka. Większość z nich to proste miary typu procentowego lub liczby rekordów (nie)spełniających kryteria. Jedną z ciekawszych miar, jest miara przydatności danych wyrażona w ilości dolarów, jakie udało się zarobić dzięki informacjom z danych w jednostce czasu. Miary jakości danych (Piattini) • • Piattini [13] podchodzi do kwestii miar jakości od strony struktury a nie celów. Zajmuje się on zagadnieniem jakości w relacyjnej bazie danych. Przyjmuje dwustopniowy podział na miary jakości dla poziomu tabel i całego schematu. Dla poziomu tabel proponuje szereg metryk wyznaczających złożoność struktury, takich jak: – maksymalna długość ścieżki referencyjnej wychodzącej z tabeli – liczba kluczy obcych użytych w tabeli – procentowy udział kompleksowych kolumn w tabeli – liczba użytych klas obiektów użytych do reprezentacji kolumn tabeli Miary jakości danych (Piattini) • • • • Dla poziomu schematu bazy relacyjnej stosuje podobne miary: – maksymalna długość ścieżki referencyjnej pomiędzy tabelami w bazie – liczba kluczy obcych użytych w całej bazie – procentowy udział kompleksowych kolumn w bazie – liczba użytych klas obiektów do reprezentacji kolumn w bazie Ponadto każdej kolumnie przyznawana jest pewna waga, określająca jej rozmiar. Wagi wykorzystywane są następnie do określenia złożoności tabel i docelowo również całej bazy. Podane miary mają na celu wykrycie problemów nie tyle w samych danych, co w strukturze, w jakiej są przechowywane. Problemy związane ze strukturą danych mogą bowiem zaowocować problemami w dostępie do danych lub stanowić ułatwienie dla niepożądanych zjawisk takich jak powielanie w bazie tej samej informacji itp. Badania jakości danych katastralnych (Siarkowski) Kataster nieruchomości (Ewidencja gruntów i budynków) Przedmioty Grunty Budynki Mapa katastralna Mapa taksacyjna Podmioty Lokale Właściciele Władający Badania jakości danych katastralnych (Siarkowski) Podmioty budynków Działki Podmioty lokali Jednostki rej. lokali Jedn. rej. budynków Jednostki rej. gruntów Podmioty gruntów Budynki Lokale Badania jakości danych katastralnych (Siarkowski) Tabele systemu katastralnego: • • • • • • • • • • JednostkiRejestroweB (JRB) JednostkiRejestroweG (JRG) JednostkiRejestroweL (JRL) PodmiotyG (PB) PodmiotyG (PG) PodmiotyL (PL) RejestrBudynkow (RB) RejestrGruntow (RG) RejestrLokali (RL) OsobyFizPrawne (OFP) Badania jakości danych katastralnych (Siarkowski) JednostkiRejestroweG (JRG) PodmiotyG (PG) RejestrGruntow (RG) DzialkiBudynki JednostkiRejestroweB (JRB) PodmiotyB (PB) RejestrBudynkow (RB) BudynkiLokale JednostkiRejestroweL (JRL) RejestrLokali (RL) PodmiotyL (PL) OsobyFizPrawne (OFP) Badania jakości danych katastralnych (Siarkowski) • • • • • Do kategorii błędów dziedzinowych zaliczane są wszelkiego rodzaju błędy na poziomie pojedynczych pól rekordów ale nie tylko. Błędy dziedzinowe odnoszą się również do merytorycznego poziomu jakości obiektów logicznych. Kontrole sprawdzają na przykład czy dwie osoby zarejestrowane jako małżeństwo są różnych płci lub czy suma udziałów do danego przedmiotu wynosi 100% itp. Na koniec, do błędów dziedzinowych zaliczane są wszelkie niezgodności wpisów z istniejącymi słownikami. Z błędów dziedzinowych możemy wyróżniono trzy podkategorie: – Błędne lub niezgodne z przepisami wpisy (BNPW) – Brakujące wpisy (BW) – Wpisy niezgodne ze słownikami (NSW) Badania jakości danych katastralnych (Siarkowski) Do kategorii błędów relacyjnych zaliczono sytuacje, w których: • następuje odwołanie się do nieistniejącego rekordu • następuje odwołanie się do rekordu, który wzbudza podejrzenia • następuje odwołanie się do rekordu w momencie, kiedy nie powinno występować • istnieje rekord, na który nie powołuje się żaden z rekordów, które powinny się do niego odwoływać • w relacji M:N nie istnieje któryś z obiektów • w relacji M:N korespondujące ze sobą rekordy wzbudzają podejrzenia Błędy relacyjne podzielono na trzy podkategorie: • Błędy kluczy obcych (BKO) • Błędy rekordów w wiązaniach M:N (MN) • Żadnych odwołań do rekordu (ZO) Badania jakości danych katastralnych (Siarkowski) • Moduł kontroli błędów w bazie katastralnej. Badania jakości danych katastralnych (Siarkowski) Zaproponowano 3 kategorie miar: 1. Miary proste. Zostały one wyznaczone bezpośrednio w oparciu o liczbę wykrytych nieprawidłowości w bazie. Ich zaletą jest łatwa mierzalność i dość duża obiektywność, jednak oferują one tak naprawdę bardzo płytkie spojrzenie na jakość danych traktując wszystkie błędy jednakowo. 2. Miary oceniające wykryte błędy pod względem istotności oraz kosztu ich naprawy. Ich wyznaczenie jest o wiele trudniejsze, gdyż wymagało przede wszystkim ustalenia kosztu i istotności każdego błędu, ale za to oferują one znacznie bliższy prawdzie obraz jakości danych. 3. Specyficzne miary jakości dla danych katastralnych zawarto w grupie trzeciej. Uwzględnia ona jakość logicznych obiektów systemu katastralnego jakimi są jednostki rejestrowe. Badania jakości danych katastralnych (Siarkowski) • • • • • • Wszystkie miary uwzględniają w swoim zapisie wynik pojedynczej kontroli z tym jednak zastrzeżeniem, że pojedyncza kontrola odwołuje się do gminy, natomiast w badaniach całej bazy, uznajemy że wynikiem kontroli jest suma wyników ze wszystkich gmin. Czyli wynikiem kontroli jest liczba błędów danego typu występujących w całej bazie. Oznaczenia: ddom i oznacza ilość błędów dziedzinowych typu i w bazie, dref j oznacza ilość błędów referencyjnych typu j w bazie. REK oznacza liczbę przebadanych rekordów a kREK oznacza tę liczbę podzieloną przez 1000. JR oznacza jednostkę rejestrową. Badania jakości danych katastralnych (Siarkowski) 1. Liczba błędów dziedzinowych wykrytych w bazie LDdom 2. d dom i i 1 Liczba błędów referencyjnych wykrytych w bazie LDref 3. m n d ref j 1 j Całkowita liczba błędów w bazie jako suma błędów dziedzinowych i referencyjnych m LDcalk LDdom LDref d dom i i 1 n d ref j j 1 Badania jakości danych katastralnych (Siarkowski) 4. Liczba błędów dziedzinowych przypadających na 1000 rekordów m LDTdom 5. 6. d dom i i 1 kREK Liczba błędów referencyjnych przypadających na 1000 rekordów n d ref j j 1 LDTref kREK Całkowita liczba błędów przypadających na 1000 rekordów jako suma błędów dziedzinowych i referencyjnych na 1000 rekordów LDTcalk LDTdom LDTref m n i 1 j 1 d dom i d ref kREK j Badania jakości danych katastralnych (Siarkowski) 7. Procentowy udział błędnych rekordów (LBR – liczba błędnych rekordów) w bazie LBR PUBR 100% REK Badania jakości danych katastralnych (Siarkowski) 8. Koszt usunięcia błędów dziedzinowych z bazy m o i 1 k 1 K dom k domi d domi (tdom k ) k domk • • • • Pierwsza część tego równania przedstawia sytuację błędów wymagających osobnego rozpatrzenia dla każdorazowego ich wystąpienia. ddom i oznacza tu ilość wystąpień błędów rodzaju i kdom i koszt usunięcia jednego błędu rodzaju i. funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie występuje w bazie ani razu, 1 gdy występuje przynajmniej raz. Badania jakości danych katastralnych (Siarkowski) 9. Koszt usunięcia błędów referencyjnych z bazy n p j 1 l 1 K ref k ref j d ref j (t ref l ) * k ref l • • • • Pierwsza część tego równania przedstawia sytuację błędów wymagających osobnego rozpatrzenia dla każdorazowego ich wystąpienia. dref j oznacza tu ilość wystąpień błędów rodzaju j kref j koszt usunięcia jednego błędu rodzaju j. funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie występuje w bazie ani razu, 1 gdy występuje przynajmniej raz. Badania jakości danych katastralnych (Siarkowski) 10. Całkowity koszt usunięcia błędów z bazy K calk K dom K ref 11. Średni koszt naprawy 1000 rekordów K dom K ref KT kREK Badania jakości danych katastralnych (Siarkowski) 12. 13. Liczba błędnych jednostek rejestrowych (w których przynajmniej jeden element zawiera błąd) – LBJR Procentowy udział bezbłędnych jednostek rejestrowych PUBJRerrf LBBJR 100% JR • Stosunek jednostek, których żaden obiekt nie zawiera błędu (LBBJR) do wszystkich jednostek (JR) 14. Procentowy udział jednostek rejestrowych bez błędów krytycznych LJRBBK PUJRBBK 100% JR • Stosunek jednostek, których żaden obiekt nie zawiera błędów krytycznych (LJRBBK) do wszystkich jednostek (JR). Badania jakości danych katastralnych (Siarkowski) Liczba rekordów w tysiącach Ośr1 Ośr2 Ośr3 Ośr4 1400 1200 1000 800 600 400 200 0 I/03 II/03 I/04 II/04 I/05 II/05 I/06 Czas Rysunek 5.1 Liczba rekordów w poszczególnych ośrodkach na przestrzeni czasu Badania jakości danych katastralnych (Siarkowski) • • • Pierwsze badanie dotyczyło zmiany liczby aktualnych rekordów w bazach w czasie (rysunek 5.1). Jak widać na wykresie, liczba aktualnych rekordów w badanych ośrodkach różniła się miedzy sobą znacznie i wynosiła w skrajnych przypadkach raz 200 tysięcy a raz prawie półtora miliona rekordów. Dla wszystkich baz możemy zaobserwować tendencję wzrostową ilości danych. Dzieje się tak ponieważ od roku 2004 ośrodki zostały zobowiązane o systematycznie uzupełnianie swoich baz danymi dotyczącymi budynków i lokali (początkowo obowiązkowa była jedynie ewidencja gruntów). Badania jakości danych katastralnych (Siarkowski) Metrics value Cen1 Cen2 Cen3 Cen4 40% 30% 20% 10% 0% I/03 II/03 I/04 II/04 I/05 II/05 I/06 Period Rysunek 5.2 Procent błędnych rekordów Liczba błędów w tysiącach dziedzinow e referencyjne 160 140 120 100 80 60 40 20 0 Liczba błędów na tysiąc rekordów Badania jakości danych katastralnych (Siarkowski) dziedzinow e referencyjne 250 200 150 100 50 0 I/03 II/03 I/04 II/04 I/05 II/05 I/06 Czas I/03 II/03 I/04 II/04 I/05 II/05 I/06 Czas Rysunek 5.3 Rozkład błędów na błędy dziedzinowe i referencyjne w ośrodku 2 Badania jakości danych katastralnych (Siarkowski) Cen2 Cen3 Cen1 Cen4 Cost units Cost units Cen1 60000 50000 40000 Cen3 Cen4 120 100 80 30000 60 20000 40 10000 20 0 0 I/03 II/03 I/04 II/04 I/05 II/05 I/06 Cen2 I/03 II/03 I/04 II/04 I/05 II/05 I/06 Period Rysunek 5.4 Koszt naprawy poszczególnych baz w czasie Period Badania jakości danych katastralnych (Siarkowski) istotne mało istotne 100000 10000 1000 krytyczne Koszt naprawy Liczba błędów krytyczne 10000 1000 100 10 10 1 1 Ośr2 Ośr3 Ośr4 mało istotne 100000 100 Ośr1 istotne Ośr1 Ośr2 Rysunek 5.5 Poziom błędów krytycznych, istotnych i mało istotnych oraz koszty ich usunięcia (Uwaga skala osi Y jest logarytmiczna) Ośr3 Ośr4 JRG JRB JRL 30000 25000 20000 15000 10000 5000 0 I/03 II/03 I/04 II/04 I/05 II/05 I/06 Procentowy udział dobrych jednostek Liczba błędnych jednostek rejestrowych . Badania jakości danych katastralnych (Siarkowski) dobre dopuszczalne dobre bez d.o. dop. bez d.o. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Ośr1 Ośr2 Ośr3 Rysunek 5.6 Liczba poprawnych jednostek rejestrowych Ośr4 Literatura 1. 2. 3. 4. 5. 6. 7. 8. Bates R., Guess F., Wan I.: FedEx & Information Quality, International Conference on Information Quality, 2002. Olsen J. E.: Data Quality: The Accuracy Dimension. Morgan Kaufmann Publishers, 2003 . Redman, T.C., “Data Quality. The Field Guide”. 2001, Boston: Digital Press. Tayi, G.K. and D.P. Ballou, “Examining data quality”. Communications of the ACM, 1998. 41(2): s. 54-57. Wang R., Strong D. "Beyond Accuracy: What Data Quality Means to Data Consumers," Journal of Management Information Systems, wiosna 1996, tom 12, Nr. 4. s. 5-33. Becker S. "A Practical Perspective on Data Quality Issues," Journal of Database Management, 1998, s. 35-37 . ComputerWorld Raport: Jakość Danych, IDG Poland, Luty 2002 Data Monitoring: Taking Control of Your Information Assets, DataFlux Corp., 2004 Literatura 9. 10. 11. 12. 13. Kovac R., Lee Y. W., Pipino L. L.: Total Data Quality Management: The Case of IRI. Conference on Information Quality, Cambridge 1997 . Lee Y. W., Pipino L. L., Wang R. Y.: Data Quality Assessment. Communications of the ACM, Kwiecień 2002, s. 211-218 . Loshin D.: Developing Information Quality Metrics. DM Review Magazine, Maj 2005 . Bobrowski M., Marré M., Yankelevich D., „Measuring Data Quality”, Universidad de Buenos Aires, 1999 . Piattini1 M., Calero1 C., Sahraoui H., Lounis H., “Objectrelational database metrics” . Dziękuję za uwagę