clip starsze kobiety

Transkrypt

clip starsze kobiety
Problem jakości danych
•
•
•
•
•
•
Żyjemy w epoce informacji, w której dane są jednym z
najcenniejszych towarów.
Korporacje, urzędy, szkoły, praktycznie każdy rodzaj działalności
człowieka zależy w jakiś sposób od systemów informatycznych i
danych przez nie gromadzonych.
Koszty związane z posiadaniem danych niskiej jakości są
ogromne, a zapobieganie temu zjawisku wydaje się zasadne.
Potwierdzeniem może być przypadek firmy naftowej Amec, która
szacuje oszczędności poczynione dzięki poprawie jakości swoich
danych, na około milion funtów.
Zastanawia fakt niewielkiego zainteresowania przedsiębiorstw tego
rodzaju oszczędnościami, w szczególności wśród
międzynarodowych korporacji.
Dodatkowo, na rynku praktycznie brak jest ofert rozwiązań
służących do zarządzania jakością danych skierowanych do firm
średniej wielkości.
Problem jakości danych
• Wirusy komputerowe spowodowały w 2003 roku straty na
kwotę 55 miliardów dolarów[1]
• Roczne straty wynikające z posiadania danych słabej
jakości są szacowane na 611 miliardów dolarów dla
przedsiębiorstw z samych Stanów Zjednoczonych [2].
• Mimo to inwestycje w bezpieczeństwo ukierunkowane są
przede wszystkim na zabezpieczenia przed atakami
zewnętrznymi. Potrzeba ochrony posiadanych danych
przed erozją wewnętrzną jest postrzegana jako
marginalna.
Definicje jakości danych
• Wg Redmana [3].
• Dane są wysokiej jakości jeżeli nadają się do użycia
zgodnie z przeznaczeniem w zakresie działania,
podejmowania decyzji i planowania. Dane nadają się do
użycia zgodnie z przeznaczeniem, jeżeli nie zawierają
defektów i posiadają pożądane cechy.
• Data are of high quality if they are fit for their intended
uses in operations, decision-making, and planning. Data
are fit for use if they are free of defects and possess
desired features.
Cechy danych dobrej jakości
•
•
•
•
•
dostępność – możliwość wykorzystania; fakt występowania danych
w postaci łatwej do przetworzenia, do których użytkownik ma dostęp
oraz które są gotowe do wykorzystania nie później, niż z
maksymalnie tolerowanym opóźnieniem,
zrozumiałość – możliwość łatwej interpretacji; czytelna
charakterystyka danych w celu ich prawidłowego użycia,
spójność i poprawność – prawidłowość; przystawanie do
rzeczywistych faktów, brak błędów i wzajemnych sprzeczności,
kompletność – występowanie wszystkich elementów, które w
rzeczywistym świecie odpowiadają występującemu zakresowi
faktów,
użyteczność – zgodność z oczekiwaniami; dopasowanie do potrzeb
użytkownika i/lub realizowanego procesu biznesowego
Definicje jakości danych
•
•
•
Tayi i Ballou [4] zauważają, że dane o wystarczającej jakości
pewnych cech dla jednego zadania, mogą się okazać
niedostatecznie dobre do innego celu.
Jest to sygnał do tego, by podejść do zagadnienia jakości danych
jako do problemu wielowymiarowego i wielowątkowego.
Skoro te same dane mogą być jednocześnie dobrej i złej jakości z
różnych punktów widzenia, to należałoby ustalić pewne kryteria
bardziej dokładnej oceny jakości danych pod kątem różnych ich
cech.
Definicje jakości danych
•
•
•
•
•
Wang i Strong [5] opracowali 15 wymiarów jakości danych z
perspektywy użytkownika danych.
Podzielili je na cztery kategorie:
• wewnętrzną,
• dostępu,
• kontekstu
• reprezentacji.
Taki podział został przyjęty i zastosowany w wielu firmach i
agendach rządowych a jego przydatność potwierdzona została w
licznych badaniach.
Zmierzenie jakości danych pod kątem wszystkich 15 wymiarów jest
jednak przydatne jedynie w teorii.
Z praktycznego punktu widzenia nie ma sensu używać wszystkich
wymiarów do oceny danych, a jedynie tych, które mają dla nas
faktyczne jakieś znaczenie.
Kategorie i wymiary jakości danych
Kategoria
Wymiar
Wewnętrzna
dokładność, obiektywność,
wiarygodność, reputacja
Dostępu
Kontekstu
Reprezentacji
dostępność, bezpieczeństwo
dostępu
relewancja, wartość dodana,
aktualność, kompletność,
ilość danych
interpretowalność, łatwość
zrozumienia, zwięzłość,
spójna reprezentacja
Tabela. Kategorie i wymiary jakości danych [6]
Kategorie i wymiary jakości danych
Tabela. Kategorie i wymiary jakości danych w oryginale
Kategorie i wymiary jakości danych
•
•
•
•
•
•
•
•
Dokładność – zakres w jakim dane są poprawne i odpowiadają
rzeczywistości
Obiektywność – zakres w jakim dane są bezstronne i pozbawione
tendencyjności
Wiarygodność – zakres w jakim dane postrzegane są jako
prawdziwe i poprawne
Reputacja – zakres w jakim dane posiadają wysokie uznanie pod
względem źródła lub zawartości
Dostępność – zakres w jakim dane są dostępne lub łatwe do
uzyskania
Bezpieczeństwo dostępu – zakres w jakim dostęp do danych został
ograniczony aby zapewnić ich bezpieczeństwo
Relewantność – zakres w jakim informacje zawarte w danych
nadają się do stawianych im zadań
Wartość dodana – zakres w jakim wykorzystanie danych przyniesie
wymierne korzyści
Kategorie i wymiary jakości danych
•
•
•
•
•
•
•
Aktualność – zakres w jakim dane są aktualne ze względu na potrzeby
stawianych im celów
Kompletność – zakres w jakim dane zawierają wszystkie wymagane
informacje, zarówno ilościowo jak i jakościowo, potrzebne do stawianych
im celów
Ilość danych – zakres w jakim ilość danych wpływa na utrudnienie
wykonania operacji na nich
Interpretowalność – zakres w jakim dane są zapisane w odpowiednim
języku, przy użyciu odpowiedniej symboliki i z zachowaniem odpowiednich
jednostek
Łatwość zrozumienia – zakres w jakim typowy użytkownik jest w stanie
zrozumieć informacje zawarte w danych
Zwięzłość – zakres w jakim dane nie zawierają nadmiarowych i zbędnych
informacji oraz nie zajmują w sposób nieuzasadniony dużo miejsca
Spójna reprezentacja – zakres w jakim dane przestawiane są w jednolity
sposób
Problemy wewnętrznej jakości danych
Rys. Model problemów
związanych z wewnętrzną
jakością danych [6]
Problemy wewnętrznej jakości danych
•
•
•
•
•
•
Załóżmy, że nasze dane pochodzą z wielu źródeł. Każde z nich dostarcza
niezależnie od siebie dane, w wyniku czego, powstają różnego rodzaju
niezgodności.
Odbiorca danych na samym początku nie bardzo jeszcze wie, z czego
wynikają te niezgodności, wie tylko że one występują, co obniża w jego
oczach wiarygodność danych.
Ponadto, część wprowadzonych danych zależała od uznania operatorów –
mogły być to dane z zakresu dobry, średni, zły lub też inne, zalenie jedynie
od uznania jednej osoby. Takie dane posiadają wątpliwą obiektywność,
gdyż przyjmuje się, że dane nieinterpretowane posiadają z reguły wyższą
jakość niż dane po interpretacji lub zakodowaniu.
Z biegiem czasu, następuje weryfikacja dokładności danych, czego
wynikiem jest zebranie informacji o przyczynach powstawania
niezgodności w danych.
Akumulacja negatywnych wyników badania dokładności owocuje złą
reputacją dla mniej dokładnych źródeł danych.
Dane o złej reputacji i niskiej dokładności nie posiadają prawie żadnej
wartości dla ich odbiorcy i w związku z tym, dane przestają być używane
Problemy dostępności do danych
Rys. Model problemów związanych z dostępnością do danych [6]
Problemy dostępności do danych
•
•
•
Typ problemów (1) można łatwo zobrazować sytuacją pozbawienia
dostępności do danych. Za przykład może posłużyć praca zdalna, gdzie
użytkownik pracuje na danych znajdujących się na innym komputerze,
które musi pobierać i przetwarzać u siebie, w sytuacji, gdy z powodów
technicznych uszkodzeniu uległo łącze internetowe lub działające łącze jest
obciążone w stopniu uniemożliwiającym pracę.
Typ problemów (2) występuje w sytuacji, kiedy przechowywane dane mają
charakter poufny. Wymagane jest wtedy zapewnienie bezpieczeństwa
dostępu do nich. Jednak w sytuacji, w której każdorazowy dostęp do
danych wymaga czasochłonnego uzyskania odpowiedniej autoryzacji,
przestają być one traktowane jako dostępne.
Problemy (3) mają miejsce, gdy przetworzone dane nabierają charakteru
danych
specjalistycznych,
posługujących
się
specjalistycznym
słownictwem, specyficznym sposobem zapisu bądź kodowania. W
momencie, kiedy do interpretacji i zrozumienia danych potrzeba zaciągać
opinii jednego lub więcej ekspertów, dane, podobnie jak w poprzednich
przypadkach, tracą na dostępności.
Problemy dostępności do danych
•
•
Typ (4) dotyczy przypadków, w których dane zawierają oprócz tekstu
również wykresy, diagramy, skany itp. Ze względu na brak zwięzłości i
konsystencji w reprezentacji danych nie można ich łatwo podsumować
(np.: dysponując tysiącem zeskanowanych zdjęć rentgenowskich, nie
można łatwo uzyskać odpowiedzi na pytanie ilu pacjentów ma zapalenie
płuc).
Typ (5) odnosi się do stanu rzeczy, w którym posiadamy ogromne ilości
danych (np. hurtownia danych) i w momencie uaktualnienia ich nowymi
danymi uzyskanie aktualnych wyników musi zostać poprzedzone
długotrwałym procesem przetworzenia.
Problemy jakości danych wg Beckera
•
•
Becker [6] odrzucił on wirtualne wymiary zaproponowane przez
Wanga i Stronga i założył, że za jakość danych odpowiadają
zjawiska odpowiedzialne za tworzenie błędów.
Wymienił siedem typowych problemów jakości danych:
• Problemy powstałe w wyniku niepoprawnej konwersji danych
• Rozbieżności znaczeniowe pomiędzy bieżącymi i
historycznymi danymi
• Te same dane posiadają wiele funkcji lub znaczeń
• Braki w danych
• Ukryte dane
• Niedostateczna dokładność
• Naruszenie zasad integralności danych
Błędy danych przestrzennych
Kategoria
Definicja
Przykład
Dokładność
położenia
Poziom dokładności położenia
poziomego i pionowego w układzie
współrzędnych
Precyzja z jaką podawane są koordynaty
Dokładność
atrybutów
Poziom błędów merytorycznych w
danych
Prawdopodobieństwo z którym jakość gleby w
danym miejscu będzie się zgadzać z zapisem
w danych
Kompletność
Poziom w jakim dane zawierają braki
Ocena rozmieszczenia przestrzennego
pewnych zjawisk może okazać się niemożliwa,
jeśli nie dysponujemy danymi z jakiegoś
obszaru
Spójność logiczna
Poziom pojawiania się sprzecznych
relacji w danych
Spójność logiczna nie będzie zachowana,
jeżeli na przykład dla jednego obszaru badamy
liczbę dokonanych przestępstw a dla drugiego
liczbę zgłoszonych
Pochodzenie
danych
Poziom w jakim wszystkie dane
posiadają chronologiczną zgodność
Problemem może się okazać fakt, że gdy
chcemy zbadać jakieś zjawisko na przestrzeni
lat, to okazuje się, że pomiary dla
poszczególnych lat dokonywane były w
różnych porach roku.
Tabela. Pięć kategorii błędów dla Standardu Wymiany Danych Przestrzennych w USA [8 ]
Podsumowanie podejść do jakości danych
•
•
•
•
•
Nie można zastosować jednego kryterium oceny do wszystkich
możliwych sytuacji.
W każdej sytuacji, gdy chcemy zbadać jakość danych potrzebna jest
przede wszystkim głęboka analiza i poznanie charakteru danych
oraz zapoznanie się z przeznaczeniem danych i procesów, jakim są
one poddawane.
Dopiero wtedy można dobrać odpowiednie do danej sytuacji
wymiary, w jakich będziemy rozważać jakość danych.
Zazwyczaj należy połączyć wybrane elementy kilku różnych podejść
oraz zaproponować własne i stworzyć z nich nową koncepcję oceny
jakości danych, tak aby jak najlepiej pasowała do danej sytuacji.
Ponieważ nie istnieje jak na razie jedno uniwersalne kryterium ani
jeden ustalony zbiór wymiarów, można śmiało eksperymentować .
Wymiary jakości danych
(inny pogląd)
•
•
•
•
W celu umożliwienia (bardziej) obiektywnej oceny jakościowej,
wyróżniono cechy danych, które nie są zależne od procesu w którym
są wykorzystywane, ani od oczekiwań konkretnego użytkownika, ale
„tkwią w nich samych” :
zgodność z definicją – zgodność z intencją twórcy (np. naruszeniem
tej własności jest występowanie uwag dotyczących sposobu
spedycji towaru w polu email klienta),
zgodność ze źródłami rzeczywistymi i zastępczymi – przystawanie
do pośrednich (np. zgromadzonych na ręcznie prowadzonych
dokumentach) oraz faktycznych (istniejących w rzeczywistym
świecie) stanów (np. dane z inwentaryzacji magazynu w systemie
odpowiadać powinny formie zastępczej, jaką są notatki osób
weryfikujących bieżące stany towarowe, a przez to ilościom
faktycznym),
dokładność – szczegółowość na ustalonym poziomie (np. sam rok
urodzenia nie jest, w ogólności, wystarczający do ustalenia
możliwości nabywania wyrobów alkoholowych),
Wymiary jakości danych
(inny pogląd)
•
•
•
kompletność – ujęcie wszystkich obiektów rzeczywistych, których
dotyczy ewidencja (np. złamaniem tej zasady jest brak ewidencji w
systemie przeprowadzonej transakcji bankowej),
brak duplikatów – reprezentacja każdego obiektu świata
rzeczywistego wyłącznie za pomocą jednego elementu (np. każdy
obywatel powinien być zarejestrowany wyłącznie raz w bazie urzędu
skarbowego, inaczej mógłby zostać poproszony
o składanie kilku zeznań podatkowych rocznie),
spełnianie reguł biznesowych – poprawne względem ogólnie
przyjętych norm i szczegółowych ustaleń właściciela i/lub twórcy
systemu dotyczących ewidencji określonych faktów rzeczywistych
(np. data przyjęcia do pracy nie może być wcześniejsza od momentu
narodzin pracownika).
Klasyfikacja danych w kontekście
występujących w nich problemów
•
•
•
•
Analizując dane w aspekcie ich jakości, można podzielić je według
rodzaju problemów w nich występujących [2]:
dane prawidłowe (np. mieszkaniec Wrocławia wskazał „Wrocław”
jako miejsce zamieszkania),
dane poprawne ale nieprawdziwe (np. mieszkaniec Wrocławia
wskazał „Poznań” jako miejsce zamieszkania),
dane niepoprawne (np. mieszkaniec Wrocławia wskazał
„Jakościolandie II” jako miejsce zamieszkania).
Klasyfikacja danych w kontekście
występujących w nich problemów
Klasyfikacja defektów według
analitycznych technik detekcji
•
•
•
•
analiza wartości – wykrywa błędy pojedynczych wartości, które nie
należą do zadanej dziedziny,
analiza strukturalna – pozwala na wykrycie błędów wynikających ze
struktury bazy danych – w relacjach, w danych redundantnych i
zdenormalizowanych,
analiza reguł operujących na zależnościach danych – pozwala na
wykrycie złych kombinacji poprawnych danych poprzez
zastosowanie stosownych reguł, które muszą być zawsze spełnione,
analiza reguł operująca na wartościach danych – pozwala wykryć
błędy opierając się na agregacjach i rozkładach występujących
wartości (np. zbyt częste występowanie różnych studentów
przedstawiających się jako Józef Stalin na liście obecności,
w stosunku do pozostałych).
Oczywistym jest fakt, iż nie każdy defekt da się wykryć za pomocą
technik analitycznych, stąd też możliwa jest klasyfikacja określona
jako brak możliwości analitycznych wykrycia błędu.
Klasyfikacja defektów według
budowy relacyjnych baz danych
•
•
•
•
błąd wartości atrybutu – gdy problem dotyczy wartości pojedynczego
pola (np. zły format daty),
błąd encji – kiedy problem dotyczy zestawu atrybutów pojedynczego
rekordu, ale niemożliwe jest wskazanie jednego atrybutu
odpowiedzialnego za błąd (np. kwota brutto pozycji faktury nie jest
sumą wartości netto i należnego podatku VAT),
błąd tabeli – kiedy problem dotyczy szeregu wierszy jednej tabeli, ale
niemożliwe jest wskazanie jednego błędnego wiersza (np.
naruszenie unikalności klucza, duplikaty rekordów, itd.),
błąd bazy danych – gdy problem wiąże się z danymi znajdującymi
się w wielu tabelach (np. występowanie zagubionych pod-rekordów,
bez rekordu nadrzędnego).
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis
szczegółowy
Przykład
Klasyfikacja
Powtórzona
wartość
domeny
(synonimy)
Różne sposoby
określania tej
samej cechy
obiektów
Płeć osoby określana
literą K/M lub cyfrą 1,2.
Powoduje to brak
możliwości zestawienia
wg płci.
Dane prawidłowe
(zła
reprezentacja),
analiza wartości,
zakres atrybutu
Brakujące
wartości
(puste)
Brak określenia
wymaganego
atrybutu
Brak informacji o roku
studiów w podaniu o
praktyki zagraniczne.
Powoduje brak
możliwości
automatycznego
kojarzenia dostępnych
praktyk z sytuacją
studenta.
Dane
nieprawidłowe
(brakujące),
analiza wartości,
zakres atrybutu
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy Przykład
Kontekstowe
wykorzystanie
atrybutu
Wykorzystywanie
jednego pola do
przechowywania
zamiennie różnych
cech obiektu
rzeczywistego
Katalog klientów zawierać
może zarówno firmy jak i
osoby prywatne. Jeżeli
jedno pole przechowywać
będzie zależnie – formę
prawną lub drugie imię –
kłopotliwe będzie
zestawienie obrotów
klientów wg formy prawnej.
Defekt ten występuje
przede wszystkim w
starszych systemach ze
względów
oszczędnościowych.
Klasyfikacja
Dane
prawidłowe,
analiza reguł
operująca na
wartościach
danych,
zakres atrybutu
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy Przykład
Klasyfikacja
Nieatomowe
wykorzystanie
atrybutu
Wykorzystanie
atrybutu niezgodne
z założeniami
pierwszej postaci
normalnej –
przechowywanie
wielu cech w
jednym polu
Przechowywanie listy
numerów telefonów jako
wartość pojedynczego
pola uniemożliwia
funkcje automatycznego
wybierania lub
identyfikacji rozmówcy
(CLIP)
Dane prawidłowe
(zła
reprezentacja),,
analiza wartości,
zakres atrybutu
Podanie ujemnego wieku
lub wieku w postaci
słownej kiedy
oczekiwano liczbowej
uniemożliwia
zagregowane
przetwarzanie zbioru
danych
Dane
nieprawidłowe,
analiza wartości,
zakres atrybutu
Wartości
Przypisanie
atrybutu spoza nieprawidłowej
domeny
wartości atrybutu,
naruszając
dopuszczalny
zakres
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy
Przykład
Klasyfikacja
Nieprawdziwe
wartości
atrybutu
Przypisanie
wartości możliwej
do wystąpienia
(zgodnej z domeną)
ale niezgodnej z
rzeczywistością
Podanie zmyślonego
adresu email, podczas
rejestracji na
formularzu
internetowym konkursu
uniemożliwi kontakt w
przypadku wygranej.
Dane
nieprawdziwe,
analiza reguł oparta
na zależnościach i
wartościach
czasem brak
możliwości analizy,
zakres atrybutu
Nieprecyzyjna
wartość
atrybutu
Przypisanie
prawidłowej, ale
niewystarczająco
szczegółowej
informacji
Podanie jedynie
pierwszej litery imienia
mającego więcej niż
jedno rozwiązanie (P.
może oznaczać Piotra,
Pawła, Patryka, itd.)
Dane prawdziwe,
(zła reprezentacja),
analiza reguł oparta
na zależnościach i
wartościach,
zakres atrybutu
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy
Przykład
Klasyfikacja
Wartość
atrybutu
naruszająca
reguły
Istnienie atrybutu z
wartością
nieprawidłową dla
reprezentowanych
obiektów
rzeczywistych
Jeżeli pole reprezentuje
osobę, jeżeli imię i
nazwisko nie będzie
reprezentowane przez
przynajmniej dwa wyrazy
– wartość jest
nieprawidłowa
Dane
nieprawidłowe,
analiza wartości,
zakres atrybutu
Wartości
atrybutów
wzajemnie
sprzeczne
(naruszenie
zależności
funkcyjnej)
Współwystępowanie
w kontekście
jednego faktu
rzeczywistego
wzajemnie
wykluczających się
wartości atrybutów
Karta chorobowa
pacjenta – mężczyzny,
dla którego kod diagnozy
wskazuje na chorobę
związaną z narządami
płciowymi kobiet. Brak
wiarygodności
statystycznych analiz
zachorowalności w
regionie.
Dane
nieprawidłowe,
analiza reguł
oparta na
zależnościach,
zakres wiersza,
tabeli lub bazy
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy
Przykład
Klasyfikacja
Brakujące
elementy
Niekompletność
reprezentacji
rzeczywistych
obiektów
Elektroniczny rozkład jazdy
pociągów zawiera jedynie
część faktycznie
kursujących pociągów. Brak
możliwości odnalezienia
faktycznych połączeń, a w
szczególności utrudnione
planowanie podróży z
przesiadkami.
Dane
nieprawidłowe
(brakujące),
mieszane techniki
analityczne lub
brak możliwości
wykrycia,
zakres tabeli
Duplikaty
Reprezentacja
obiektu
rzeczywistego przez
więcej niż jeden
element danych
Powtórzone wpisy w
katalogu dostawców, nie
pozwolą firmie na
prawidłowe określenie
średniego poziomu
miesięcznych zamówień od
każdego z nich w celu
renegocjacji warunków.
Dane prawidłowe,
analiza reguł
operująca na
wartościach
danych,
zakres tabeli
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy
Przykład
Klasyfikacja
Naruszenie
reguł
zadanego
zbioru
danych
Istnienie zbioru rekordów,
który nie jest prawidłowy z
punktu widzenia
reprezentowanego obiektu
rzeczywistego
Jeżeli przechowujemy zbiór
transakcji bankowych
opatrzonych kolejnym numerem
oraz datą wprowadzenia do
systemu to nieprawidłowa jest
sytuacja kiedy wpis o większym
numerze posiada mniejszą datę
Dane
nieprawidłowe,
analiza reguł
oparta na
wartościach,
zakres tabeli
Brak
spójności
bazy danych
Brak zgodności w
przypadku
reprezentowania cechy lub
obiektu rzeczywistego
równocześnie w więcej niż
jednym atrybucie lub encji
(denormalizacja).
Jest to związane z
niestosowaniem się do
zasad drugiej i trzeciej
postaci normalnej.
Jeżeli wartość faktury
przechowywana jest zarówno w
poszczególnych jej pozycjach
jak i łącznie (suma) w nagłówku
dokumentu, to w przypadku
defektu tego rodzaju otrzymamy
różne kwoty łącznej sprzedaży
firmy w zależności od
wykorzystanego źródła.
Dane
nieprawidłowe,
analiza
strukturalna,
zakres bazy
Rodzaje defektów występujących
w systemach informatycznych
Opis
szczegółowy
Przykład
Klasyfikacja
Naruszenie
więzów
relacyjnych
Wskazanie klucza
obcego w tabeli
powiązanej na
nieistniejący
rekord w tabeli
nadrzędnej
Jeżeli fizycznie usunięcie
pojazdu z bazy danych ASO
nie spowoduje usunięcia
historii jego napraw, w
systemie mogą pozostać
„zagubione” rekordy, które
spowodować niespójne
działanie systemu (różne
wyniki zestawień w
zależności od opcji)
Dane
nieprawidłowe
(brakujące lub
nadmiarowe),
analiza
strukturalna,
zakres bazy
danych
Cykle w
relacji samdo-siebie
Wykrycie cykli
dłuższych niż
jeden w relacji
hierarchicznej
(drzewiastej) samdo-siebie.
Jeżeli pracownik ma szefa,
który jest podwładnym tegoż
pracownika to sytuacja nie
jest prawidłowa.
Dane
nieprawidłowe,
analiza wartości,
zakres tabeli
Defekt
Rodzaje defektów występujących
w systemach informatycznych
Defekt
Opis szczegółowy
Przykład
Klasyfikacja
Naruszenie
unikalności
klucza
głównego
Powtórzenie w
kolumnie
(kolumnach) klucza
głównego w obrębie
jednej tabeli.
Przydzielenie
jednakowego
„unikalnego„
identyfikatora (klucza)
prowadzi do
katastrofalnych w
skutkach błędów – typu
przelewanie składek
ubezpieczeniowych
pracowników jednej
firmy na rzecz innej.
Dane
nieprawidłowe,
analiza
strukturalna,
zakres tabeli
Rodzaje defektów występujących
w systemach informatycznych (Przykład)
Przykład defektu danych – duplikaty w słowniku miejscowości
Źródła defektów w danych
Przyczyny problemów w danych, można podzielić na:
• spowodowane czynnikiem ludzkim
• błędy użytkowników,
• wady aplikacji
• wielokrotne migracje i integracje danych,
• powstałe wskutek czynników zewnętrznych.
• awarie sprzętowe
• samoistne starzenie się danych
Źródła defektów w danych
Błędy użytkowników:
• Błędy nieświadome to przede wszystkim:
•
•
Pomyłki wszelkiego rodzaju: literówki, błędy ortograficzne, skróty i
skrótowce, zanieczyszczenia przypadkowymi znakami; powstają
przede wszystkim z pośpiechu i małej staranności,
Nie znane oczekiwania co od wprowadzanych danych, ich
znaczenia, poprawnego sposobu reprezentacji, akceptowalnej
dziedziny; powodem tej kategorii są najczęściej wady aplikacji lub
niedostateczne przeszkolenie użytkowników.
Źródła defektów w danych
Błędy użytkowników:
• Błędy świadome zostały podzielone następująco [2]:
•
Brak wymaganej informacji dla przeprowadzenia procesu
biznesowego. Operator nie ma możliwości zasygnalizowania braku
swojej wiedzy, co do określonego faktu rzeczywistego lub cechy,
więc aby kontynuować proces wprowadza świadomie nieprawdziwą,
lecz akceptowalną wartość. Przykładem mogą być tu
kwestionariusze internetowe, które dla pobrania wersji demo
produktu, wymagają podania nazwy pracodawcy. W sytuacji kiedy
osoba nie jest aktualnie zatrudniona (np. student) musi ona wypełnić
wymagane pole czymkolwiek – co nie prowadzi do gromadzenia
przez dystrybutora wysokiej jakości danych o potencjalnych
nabywcach.
Źródła defektów w danych
Błędy użytkowników:
• Błędy świadome (cd.):
•
Brak chęci ujawnienia prawdziwej informacji. Dzieje się tak w
przypadku kiedy osoba wprowadzająca (udostępniająca) swoje dane
nie jest zainteresowana przekazaniem informacji prawidłowych. Nie
wspominając o kobietach, które nie lubią ujawniać swojego wieku,
przykładem mogą być ponownie formularze internetowe, na których
w celu założenia konta email, wymagane jest podanie danych
osobowych. Duża część wprowadzonych informacji jest w całości lub
w części fikcyjna, ponieważ internauci lubią pozostawać anonimowi.
Źródła defektów w danych
Błędy użytkowników:
• Błędy świadome (cd.):
•
Korzyści z podania nieprawdziwej informacji. Sytuacja ta występuje
w przypadkach kiedy istnieją procedury promujące wpisywanie złych
danych. Przykładem z literatury może być tu producent samochodów,
który w zależności od kodu skargi zwracał koszty napraw
serwisowych natychmiast lub dopiero po 60 dniach. Dilerzy znający
funkcjonujące reguły podawali nieprawdziwe fakty w celu szybszego
uzyskania pieniędzy.
Źródła defektów w danych
Wady aplikacji:
• Błędy logiki i zachowania aplikacji stanowią:
•
•
błędy programistyczne powodujące wadliwe działanie lub złą obsługę
sytuacji wyjątkowych. Oprócz typowych „niedoróbek” można tu
przytoczyć skomplikowane zagadnienie zarządzania
transakcyjnością w systemach rozproszonych (np. obsługa kart
płatniczych),
niedopasowanie merytoryczne aplikacji do potrzeb użytkowników, co
zmusza ich do niezamierzonego przez twórców wykorzystania
elementów systemu. (np. przeciążanie znaczenia pól danych).
Źródła defektów w danych
Wady aplikacji:
• Źle zaprojektowane mechanizmy interakcji z
użytkownikiem
•
powodują najczęściej, wspomniane wcześniej, nieświadome błędy
użytkowników. Nie rozumieją oni wprowadzanej informacji, a
sposób komunikacji z aplikacją jest mało intuicyjny lub wręcz
denerwujący. Z badań wynika, iż dobre przystosowanie interfejsu
mogłoby znacząco ograniczyć liczbę powstających defektów na
styku człowiek-komputer.
Źródła defektów w danych
Procesy migracji i integracji danych:
•
•
•
W przedsiębiorstwach następują ciągłe zmiany. Zmienia się profil
działalności, właściciele, systemy produkcyjne, ich technologia, a za
tym wszystkim podążają ciągłe przekształcenia posiadanych
danych.
Te ostatnie są integrowane z nowo pojawiającymi się rozwiązaniami
lub migrowane do nowych wersji istniejących systemów.
Z doświadczenia wynika, iż powoduje to nie tylko przenoszenie
starych błędów do nowej struktury, ale także powstanie wielu
nowych problemów [7].
Źródła defektów w danych
Awarie sprzętowe:
•
•
W obecnych czasach, awarie sprzętowe są jednym z rzadszych
powodów występowania jakościowych problemów w danych.
Wynika to z faktu znaczącego podwyższenia stopnia
bezawaryjności serwerów, wprowadzenia rozwiązań klastrowych,
ale także zastosowania przemyślanych rozwiązań
architektonicznych w systemach informatycznych, które mają
zabezpieczać przed potencjalnymi skutkami takiej awarii (np.
mechanizm transakcyjności)
Źródła defektów w danych
Starzenie się danych:
•
•
Ostatnim źródłem błędów w bazach danych są zmiany zachodzące
w rzeczywistym świecie, które nie są odnotowywane
(aktualizowane). Jest to czynnik całkowicie zewnętrzny, ale ma on
bezpośrednio wpływ na jakość i wartość zgromadzonych danych.
Jedną z najbardziej zmiennych ewidencji jest ewidencja osób. Ich
cechy zmieniają się samoczynnie, stosunkowo często i praktycznie
w pełnym zakresie – od wady wzroku, poprzez stan cywilny, adres
do nazwiska włącznie. Brak stałej i konsekwentnej aktualizacji bazy
danych prowadzi do szybkiej deprecjacji jej wartości.
Straty powodowane niską jakością danych
•
•
•
•
Koszty bezpośrednie stanowią wydatki, które wprost wynikają z
niskiej jakości zgromadzonych danych. Straty tej grupy to przede
wszystkim:
praca ludzka, związaną z usuwanie powstałych defektów w danych
lub usuwaniu skutków błędnych procesów biznesowych z nich
wynikających,
utrata produktywności pracowników (np. kiedy w systemie faktury
numerowane są według różnych formatów, odnalezienie konkretnego
dokumentu może zająć znacznie więcej czasu),
utrata produktywności przedsiębiorstwa poprzez utrudnienia w
łańcuchu dostaw (kiedy stany magazynowe wskazują na obecność
dużej ilości potrzebnego w produkcji surowca, którego faktycznie
brak – może to spowodować nieoczekiwane zatrzymanie procesu
produkcji),
Straty powodowane niską jakością danych
•
•
•
Koszty bezpośrednie (cd.):
wycofywanie zamówień klientów (klient może wybrać innego
dostawcę, jeżeli zamówienie realizowane jest zbyt długo, a w
systemie brak informacji o nim),
inwestycja w nieskuteczną kampanie promocyjną, zbudowaną w
oparciu o niewiarygodne analizy, zły wybór adresatów lub błędne ich
adresowane.
Straty powodowane niską jakością danych
•
•
•
Utracone korzyści to wszystkie potencjalne konsekwencje
finansowe wynikające z bieżącego użytkowania niskiej jakości
danych oraz utracone szanse na przyszłe zyski. Są to między innymi:
utrata obecnych i potencjalnych klientów (pośrednio więc
zysków) niezadowolonych niską jakością usług, którzy nie tylko
rezygnują ze współpracy, ale także zniechęcają innych do jej
podjęcia,
koszty błędnych decyzji biznesowych podjętych na podstawie
nieprawdziwych lub niekompletnych danych (zdarzają się
rzeczywiste sytuacje [7], w których brakuje 70% danych - na
podstawie takiego zbioru trudno trafnie wnioskować).
Zapotrzebowanie na jakość danych
•
W tabeli pokazano wymagany poziom jakości danych w zależności od ich
przeznaczenia. Różne zapotrzebowanie na jakość najlepiej zobrazować
przykładem kodów medycznych wybieranych przy realizacji usługi
medycznej. Do wystawienia rachunku za usługę nie jest potrzebne
określenie właściwego kodu, a jedynie właściwej kwoty – z punktu widzenia
pracownika operacyjnego wybranie kodu „pierwszego z listy” nie stanowi
żadnego utrudnienia. Do analizy zdrowotnej sytuacji w kraju dane, bez
właściwego wskazania na rodzaj schorzenia, są jednak bezużyteczne.
Przeznaczenie danych
Sprawozdawczość biznesowa
Analiza danych (hurtownie danych, wzorce,
związki, segmentacje)
Praca operacyjna (systemy transakcyjne)
Wymagany poziom jakości
95-97%
>80%
40-80%
Total Quality data Managment
•
•
Na podstawie tradycyjnego zarządzania przez jakość (TQM)
powstała metodologia dedykowana zapewnieniu danych wysokiej
jakości – Total Quality data Managment.
Twórcy jej zwracają uwagę, iż najważniejsze jest, aby:
•
•
•
•
wszyscy pracownicy firmy wiedzieli, iż współzależą od
siebie informacyjnie,
wszyscy wierzyli, iż dobra jakość danych jest cenna dla
przedsiębiorstwa,
istniał system wartości, który łączy satysfakcję klienta z
dobra jakością danych,
istniała kultura organizacyjna, w której wszyscy biorą
odpowiedzialność za ciągłe udoskonalanie procesów [5]:
Total Quality data Managment
• Powyższe wytyczne dają nam obraz tego, iż kluczowe
czynniki sukcesu leżą po stronie działań organizacyjnych,
sam TQdM ma być zwyczajem doskonalenia
następujących procesów:
• procesów wytwarzania aplikacji, ich architektur i baz
danych,
• procesów biznesowych, podczas których są tworzone,
aktualizowane, kasowane, przetwarzane lub
prezentowane dane,
Total Quality data Managment
•
Sposób doskonalenia procesów powinien być zgodny z przedstawionym na
rysunku ogólnym spojrzeniem na metodologię TQdM:
Uogólniony proces zapewnienia jakości danych
•
•
Istnieje wiele różnych podejść koncepcyjnych do zapewnienia jakości
danych, pozornie odmiennych.
Okazuje się jednak, iż mają one cechy wspólne – wszystkie one są
cykliczne, i wszystkie zawierają w sobie trzy podstawowe kroki:
– identyfikacja problemu,
– naprawa problemu,
– kontrola problemu [8].
Uogólniony proces zapewnienia jakości danych
•
Na tej podstawie powstała uogólniona metoda, pozwalająca na rozwiązywanie
skomplikowanych problemów z jakością danych, zwaną Analyze-ImproveControl (Analiza-Usprawnienie-Kontrola) przedstawiona na rysunku.
Analiza problemu jakości danych
Identyfikacja problemu jakości danych
•
•
Metoda „od wewnątrz” ” (ang. Inside-Out) koncentruje się na
monitorowaniu danych, poszukiwaniu w nich defektów za pomocą
dokładnej weryfikacji. Następnie bada się wpływ odnalezionych
problemów na funkcjonowanie biznesu.
Przykładem takiego działania może być wykrycie ogromnej liczby
duplikatów w tabeli kontrahentów, a następnie badanie skutków
tego zjawiska dla działania przedsiębiorstwa. Mogą nimi być:
–
–
–
–
–
czas pracowników tracony na poszukiwanie,
rozstrzyganie i wprowadzanie powtórzonych informacji,
koszty przechowywania redundantnych danych,
brak możliwości analizy historii współpracy z klientem,
irytacja klienta proszonego o powtórne podawanie swoich danych, itd.
Analiza problemu jakości danych
Identyfikacja problemu jakości danych (cd.)
•
•
•
•
Metoda „od zewnątrz” (ang. Outside-In) skupia się na
poszukiwaniu problemów w świecie biznesowym, których
przyczyną może być potencjalnie niska jakość posiadanych
danych.
Zgromadzone przesłanki są następnie zamieniane na reguły
poprawności dla danych, a proces monitorowania może
potwierdzić lub odrzucić postawioną tezę.
Jednym ze sposobów na przeprowadzenie tej metody identyfikacji
problemu jest przegląd zwrotów od klienta, reklamacji oraz
dokumentów korygujących.
Analiza przyczyn fiaska, może wskazać nam na błędne
adresowanie, niestaranne wypełnianie zamówień co do ilości lub
produktów lub też błędy w procesie produkcyjnym, który także
może być sterowany danymi.
Analiza problemu jakości danych
Monitorowanie danych w systemach informatycznych
•
Monitorowanie danych, nazywane także audytowaniem lub
profilowaniem, jest czynnością pozwalającą na wyspecyfikowanie
niezgodności występujących w systemie (ich grup lub konkretnych
defektów) oraz wskazanie syntetycznego obrazu jakości
posiadanych danych (lub ich aspektu) w postaci metryk
•
Istnieje kilka metod sprawdzania jakości danych w zgromadzonych
bazach danych
–
Ankiety, listy kontrolne
–
Metody analityczne
–
Wizualna inspekcja
Analiza problemu jakości danych
Ankieta weryfikującą jakość meta-danych i wartość danych dla użytkownika
Analiza problemu jakości danych
Rys. Grupy technik analitycznych
Techniki analityczne wykrywające defekty w danych
Grupa technik
Opis techniki analitycznej
Przykład
Analiza
wartości
Nieakceptowanie pustych wartości
Nazwa klienta nie może być pusta
Wartość musi odpowiadać jednemu z
elementów określonej dziedziny.
Jeżeli cechą „K‟ określa się kontrahenta
krajowego a „Z‟ zagranicznego, wartości
inne nie są dopuszczalne
Wartość musi należeć do wskazanego
zakresu
Wiek człowiek musi być liczbą naturalną z
przedziału 0-200
Wartość nie może być zadanego rodzaju.
(wyłączenia z dziedziny)
Data zatrudnienia pracownika nie może
przypadać na niedzielę lub święto
Wartość musi mieć zadany format (maskę)
zgodną z świecie rzeczywistym
Kod pocztowy w Polsce zawsze ma
postać xx-xxx
Wartość tekstowa musi spełniać zadane
cechy (długość, występujące znaki)
Nazwa miejscowości nie powinna być 1
literowa i zawierać znaków &*$@! itd.
Wartość musi być poprawna względem
wbudowanego kodu kontrolnego.
Numer NIP posiada cyfrę kontrolną, która
pozwala na określenie poprawności
Techniki analityczne wykrywające defekty w danych
Grupa technik
Opis techniki analitycznej
Przykład
Analiza
strukturalna
Wartość atrybutu musi być unikalna w
obrębie całej tabeli
Numer PESEL dla każdego obywatela
musi być unikalny
Element nadrzędny, wskazanych kluczem
obcym, musi wystąpić
Transakcja sprzedaży towaru musi
wskazywać na towar występujący w
kartotece towarowej
Hierarchia w relacji „sam-do-siebie” musi
prowadzić do korzenia
Nieakceptowalne są cykle w podległości
służbowej przedsiębiorstwa
Element nadrzędny musi zawierać
określoną (minimalną, maksymalną,
dokładną) liczbę elementów podrzędnych
Prawidłowa faktura zawiera przynajmniej
jedną pozycję
Dane redundantne muszą być zgodne.
Jeżeli odniesienie do klienta występuje w
każdej pozycji zamówienia a nie tylko w
nagłówku – to w każdej pozycji musi być
takie samo
Techniki analityczne wykrywające defekty w danych
Grupa technik
Opis techniki analitycznej
Przykład
Analiza reguł
operujących na
zależnościach
danych
Wartość jednego atrybutu musi być
większa / mniejsza / niewiększa /
niemniejsza niż wartość innego atrybutu
W bazie postaci historycznych data
urodzin musi być niemniejsza od daty
śmierci.
Musi być zachowana zależność funkcyjna
pomiędzy atrybutami (lub niektórymi
wartościami atrybutów).
Jeżeli pole kwota brutto zależy od pola
kwota VAT i kwota netto, to zależność ta
powinna być zawsze prawdziwa.
Musi być zachowana formuła pomiędzy
wartościami
Data zatrudnienia – Data urodzin > 18 lat
Weryfikacja prawidłowości wartości
atrybutów przez współwystępowanie ze
sobą
Kod pocztowy i miasto powinno być
zgodne.
Bilansowanie się danych określonych
typów.
W księgowości dekrety księgowe
umieszczone po stronie winien muszą
dokładnie równoważyć te ze strony ma.
Techniki analityczne wykrywające defekty w danych
Grupa technik
Opis techniki analitycznej
Przykład
analiza reguł
operująca na
wartościach
danych
Wykrywanie powtórzeń w danych na
podstawie ich podobieństwa.
Każdy klient powinien posiadać tylko
jeden opisujący go rekord.
Częstotliwość występowanie jednego
atrybutu nie może być znacząco większa
niż innych lub musi być zgodna z
określonym rozkładem.
Kolor oczu powinien występować w
większej populacji zgodnie z zasadami
natury.
Dane transakcji nie powinny odbiegać od
normy ustanowionej przez historię.
(wykrywanie anomalii)
Zakupy małego klienta, którego rachunki
były na około tysiąc złotych nie powinny
wynosić nagle milion złotych.
Spełnianie kryteriów dla określonych
agregacji danych (suma, minimum,
maksimum, mediana, ilość)
Baza rejestrująca ilość przejeżdżających
pociągów przez dany punkt powinna
zawierać mniej więcej określoną ilość
rekordów z każdego dnia .
Miary jakości danych
•
Metryki stanowią dobre podsumowanie procesu monitorowania.
Obrazują one syntetycznie jakość testowanych danych, stanowiąc
podstawę do podejmowania decyzji o działaniach naprawczych
przez kierownictwo.
Wyróżniamy metryki:
• lokalne (liczone dla fragmentu danych) [9]
• globalne (oceniające łącznie cały zbiór danych),
•
•
celowe [10] (nastawione na mierzenie określonego rezultatu)
ogólne (ich zadaniem jest określenie obiektywnego stanu
jakościowego danych).
Miary jakości danych
•
•
•
•
•
Niezależnie od wyboru rodzaju, określone zostały cechy, które musi
spełniać dobra metryka [11]. Najważniejsze z nich to:
czytelność – osoba która nie jest specjalistą zrozumie sposób jej
obliczania,
mierzalność i łatwość uzyskania – możliwość fizycznego
zmierzenia w rozsądnym czasie,
porównywalność wyników – możliwość zestawienia rezultatów w
czasie i między różnymi zbiorami danych,
mobilizacja do działań naprawczych – „wysokie” wyniki metryki
powinny mobilizować do podjęcia działań naprawczych.
Miary jakości danych (GQM)
•
•
•
•
•
Bobrowski [12] sugeruje podejście typu Cel-Pytanie-Miara (ang.
GQM: Goal-Question-Metric), czyli tradycyjne podejście do jakości z
zakresu inżynierii oprogramowania.
Dla każdego z wymiarów: wiarygodność, relewantność, przydatność,
aktualność i spójność, przyjmuje ona cel składający się z przedmiotu,
celu faktycznego, typu mierzonej jakości oraz środowiska.
Każdemu celowi przyporządkowane jest jedno lub kilka pytań a
każdemu pytaniu odpowiednia metryka.
Większość z nich to proste miary typu procentowego lub liczby
rekordów (nie)spełniających kryteria.
Jedną z ciekawszych miar, jest miara przydatności danych wyrażona
w ilości dolarów, jakie udało się zarobić dzięki informacjom z danych
w jednostce czasu.
Miary jakości danych (Piattini)
•
•
Piattini [13] podchodzi do kwestii miar jakości od strony struktury a
nie celów. Zajmuje się on zagadnieniem jakości w relacyjnej bazie
danych. Przyjmuje dwustopniowy podział na miary jakości dla
poziomu tabel i całego schematu.
Dla poziomu tabel proponuje szereg metryk wyznaczających
złożoność struktury, takich jak:
– maksymalna długość ścieżki referencyjnej wychodzącej z tabeli
– liczba kluczy obcych użytych w tabeli
– procentowy udział kompleksowych kolumn w tabeli
– liczba użytych klas obiektów użytych do reprezentacji kolumn
tabeli
Miary jakości danych (Piattini)
•
•
•
•
Dla poziomu schematu bazy relacyjnej stosuje podobne miary:
– maksymalna długość ścieżki referencyjnej pomiędzy tabelami w
bazie
– liczba kluczy obcych użytych w całej bazie
– procentowy udział kompleksowych kolumn w bazie
– liczba użytych klas obiektów do reprezentacji kolumn w bazie
Ponadto każdej kolumnie przyznawana jest pewna waga,
określająca jej rozmiar. Wagi wykorzystywane są następnie do
określenia złożoności tabel i docelowo również całej bazy.
Podane miary mają na celu wykrycie problemów nie tyle w samych
danych, co w strukturze, w jakiej są przechowywane.
Problemy związane ze strukturą danych mogą bowiem zaowocować
problemami w dostępie do danych lub stanowić ułatwienie dla
niepożądanych zjawisk takich jak powielanie w bazie tej samej
informacji itp.
Badania jakości danych
katastralnych (Siarkowski)
Kataster nieruchomości
(Ewidencja gruntów i budynków)
Przedmioty
Grunty
Budynki
Mapa katastralna
Mapa taksacyjna
Podmioty
Lokale
Właściciele
Władający
Badania jakości danych
katastralnych (Siarkowski)
Podmioty
budynków
Działki
Podmioty
lokali
Jednostki rej. lokali
Jedn. rej. budynków
Jednostki rej. gruntów
Podmioty
gruntów
Budynki
Lokale
Badania jakości danych
katastralnych (Siarkowski)
Tabele systemu katastralnego:
•
•
•
•
•
•
•
•
•
•
JednostkiRejestroweB (JRB)
JednostkiRejestroweG (JRG)
JednostkiRejestroweL (JRL)
PodmiotyG (PB)
PodmiotyG (PG)
PodmiotyL (PL)
RejestrBudynkow (RB)
RejestrGruntow (RG)
RejestrLokali (RL)
OsobyFizPrawne (OFP)
Badania jakości danych
katastralnych (Siarkowski)
JednostkiRejestroweG
(JRG)
PodmiotyG
(PG)
RejestrGruntow
(RG)
DzialkiBudynki
JednostkiRejestroweB
(JRB)
PodmiotyB
(PB)
RejestrBudynkow
(RB)
BudynkiLokale
JednostkiRejestroweL
(JRL)
RejestrLokali
(RL)
PodmiotyL
(PL)
OsobyFizPrawne
(OFP)
Badania jakości danych
katastralnych (Siarkowski)
•
•
•
•
•
Do kategorii błędów dziedzinowych zaliczane są wszelkiego
rodzaju błędy na poziomie pojedynczych pól rekordów ale nie
tylko.
Błędy dziedzinowe odnoszą się również do merytorycznego
poziomu jakości obiektów logicznych.
Kontrole sprawdzają na przykład czy dwie osoby zarejestrowane
jako małżeństwo są różnych płci lub czy suma udziałów do danego
przedmiotu wynosi 100% itp.
Na koniec, do błędów dziedzinowych zaliczane są wszelkie
niezgodności wpisów z istniejącymi słownikami.
Z błędów dziedzinowych możemy wyróżniono trzy podkategorie:
–
Błędne lub niezgodne z przepisami wpisy (BNPW)
–
Brakujące wpisy (BW)
–
Wpisy niezgodne ze słownikami (NSW)
Badania jakości danych
katastralnych (Siarkowski)
Do kategorii błędów relacyjnych zaliczono sytuacje, w których:
•
następuje odwołanie się do nieistniejącego rekordu
•
następuje odwołanie się do rekordu, który wzbudza podejrzenia
•
następuje odwołanie się do rekordu w momencie, kiedy nie
powinno występować
•
istnieje rekord, na który nie powołuje się żaden z rekordów, które
powinny się do niego odwoływać
•
w relacji M:N nie istnieje któryś z obiektów
•
w relacji M:N korespondujące ze sobą rekordy wzbudzają
podejrzenia
Błędy relacyjne podzielono na trzy podkategorie:
•
Błędy kluczy obcych (BKO)
•
Błędy rekordów w wiązaniach M:N (MN)
•
Żadnych odwołań do rekordu (ZO)
Badania jakości danych
katastralnych (Siarkowski)
•
Moduł kontroli błędów w bazie katastralnej.
Badania jakości danych
katastralnych (Siarkowski)
Zaproponowano 3 kategorie miar:
1.
Miary proste. Zostały one wyznaczone bezpośrednio w oparciu o
liczbę wykrytych nieprawidłowości w bazie. Ich zaletą jest łatwa
mierzalność i dość duża obiektywność, jednak oferują one tak
naprawdę bardzo płytkie spojrzenie na jakość danych traktując
wszystkie błędy jednakowo.
2.
Miary oceniające wykryte błędy pod względem istotności oraz
kosztu ich naprawy. Ich wyznaczenie jest o wiele trudniejsze, gdyż
wymagało przede wszystkim ustalenia kosztu i istotności każdego
błędu, ale za to oferują one znacznie bliższy prawdzie obraz
jakości danych.
3.
Specyficzne miary jakości dla danych katastralnych zawarto w
grupie trzeciej. Uwzględnia ona jakość logicznych obiektów
systemu katastralnego jakimi są jednostki rejestrowe.
Badania jakości danych
katastralnych (Siarkowski)
•
•
•
•
•
•
Wszystkie miary uwzględniają w swoim zapisie wynik pojedynczej
kontroli z tym jednak zastrzeżeniem, że pojedyncza kontrola
odwołuje się do gminy, natomiast w badaniach całej bazy, uznajemy
że wynikiem kontroli jest suma wyników ze wszystkich gmin. Czyli
wynikiem kontroli jest liczba błędów danego typu występujących w
całej bazie.
Oznaczenia:
ddom i oznacza ilość błędów dziedzinowych typu i w bazie,
dref j oznacza ilość błędów referencyjnych typu j w bazie.
REK oznacza liczbę przebadanych rekordów a kREK oznacza tę
liczbę podzieloną przez 1000.
JR oznacza jednostkę rejestrową.
Badania jakości danych
katastralnych (Siarkowski)
1.
Liczba błędów dziedzinowych wykrytych w bazie
LDdom 
2.
 d dom i
i 1
Liczba błędów referencyjnych wykrytych w bazie
LDref 
3.
m
n
 d ref
j 1
j
Całkowita liczba błędów w bazie jako suma błędów dziedzinowych
i referencyjnych
m
LDcalk  LDdom  LDref   d dom i 
i 1
n
 d ref j
j 1
Badania jakości danych
katastralnych (Siarkowski)
4.
Liczba błędów dziedzinowych przypadających na 1000 rekordów
m
LDTdom 
5.
6.
 d dom i
i 1
kREK
Liczba błędów referencyjnych przypadających na 1000 rekordów
n
 d ref j
j 1
LDTref 
kREK
Całkowita liczba błędów przypadających na 1000 rekordów jako
suma błędów dziedzinowych i referencyjnych na 1000 rekordów
LDTcalk  LDTdom  LDTref 
m
n
i 1
j 1
 d dom i   d ref
kREK
j
Badania jakości danych
katastralnych (Siarkowski)
7.
Procentowy udział błędnych rekordów (LBR – liczba błędnych
rekordów) w bazie
LBR
PUBR 
 100%
REK
Badania jakości danych
katastralnych (Siarkowski)
8.
Koszt usunięcia błędów dziedzinowych z bazy
m
o
i 1
k 1
K dom   k domi  d domi    (tdom k )  k domk
•
•
•
•
Pierwsza część tego równania przedstawia sytuację błędów
wymagających osobnego rozpatrzenia dla każdorazowego ich
wystąpienia.
ddom i oznacza tu ilość wystąpień błędów rodzaju i
kdom i koszt usunięcia jednego błędu rodzaju i.
funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie
występuje w bazie ani razu, 1 gdy występuje przynajmniej raz.
Badania jakości danych
katastralnych (Siarkowski)
9.
Koszt usunięcia błędów referencyjnych z bazy
n
p
j 1
l 1
K ref   k ref j  d ref j    (t ref l ) * k ref l
•
•
•
•
Pierwsza część tego równania przedstawia sytuację błędów
wymagających osobnego rozpatrzenia dla każdorazowego ich
wystąpienia.
dref j oznacza tu ilość wystąpień błędów rodzaju j
kref j koszt usunięcia jednego błędu rodzaju j.
funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie
występuje w bazie ani razu, 1 gdy występuje przynajmniej raz.
Badania jakości danych
katastralnych (Siarkowski)
10.
Całkowity koszt usunięcia błędów z bazy
K calk  K dom  K ref
11.
Średni koszt naprawy 1000 rekordów
K dom  K ref
KT 
kREK
Badania jakości danych
katastralnych (Siarkowski)
12.
13.
Liczba błędnych jednostek rejestrowych (w których przynajmniej
jeden element zawiera błąd) – LBJR
Procentowy udział bezbłędnych jednostek rejestrowych
PUBJRerrf
LBBJR

 100%
JR
•
Stosunek jednostek, których żaden obiekt nie zawiera błędu (LBBJR) do
wszystkich jednostek (JR)
14.
Procentowy udział jednostek rejestrowych bez błędów krytycznych
LJRBBK
PUJRBBK 
100%
JR
•
Stosunek jednostek, których żaden obiekt nie zawiera błędów krytycznych
(LJRBBK) do wszystkich jednostek (JR).
Badania jakości danych
katastralnych (Siarkowski)
Liczba rekordów w tysiącach
Ośr1
Ośr2
Ośr3
Ośr4
1400
1200
1000
800
600
400
200
0
I/03 II/03 I/04 II/04 I/05 II/05 I/06
Czas
Rysunek 5.1 Liczba rekordów w poszczególnych ośrodkach na przestrzeni czasu
Badania jakości danych
katastralnych (Siarkowski)
•
•
•
Pierwsze badanie dotyczyło zmiany liczby aktualnych rekordów w
bazach w czasie (rysunek 5.1).
Jak widać na wykresie, liczba aktualnych rekordów w badanych
ośrodkach różniła się miedzy sobą znacznie i wynosiła w skrajnych
przypadkach raz 200 tysięcy a raz prawie półtora miliona rekordów.
Dla wszystkich baz możemy zaobserwować tendencję wzrostową
ilości danych. Dzieje się tak ponieważ od roku 2004 ośrodki zostały
zobowiązane o systematycznie uzupełnianie swoich baz danymi
dotyczącymi budynków i lokali (początkowo obowiązkowa była
jedynie ewidencja gruntów).
Badania jakości danych
katastralnych (Siarkowski)
Metrics value
Cen1
Cen2
Cen3
Cen4
40%
30%
20%
10%
0%
I/03 II/03 I/04 II/04 I/05 II/05 I/06
Period
Rysunek 5.2 Procent błędnych rekordów
Liczba błędów w tysiącach
dziedzinow e
referencyjne
160
140
120
100
80
60
40
20
0
Liczba błędów na tysiąc rekordów
Badania jakości danych
katastralnych (Siarkowski)
dziedzinow e
referencyjne
250
200
150
100
50
0
I/03 II/03
I/04 II/04 I/05
II/05 I/06
Czas
I/03
II/03
I/04
II/04
I/05
II/05
I/06
Czas
Rysunek 5.3 Rozkład błędów na błędy dziedzinowe i referencyjne w ośrodku 2
Badania jakości danych
katastralnych (Siarkowski)
Cen2
Cen3
Cen1
Cen4
Cost units
Cost units
Cen1
60000
50000
40000
Cen3
Cen4
120
100
80
30000
60
20000
40
10000
20
0
0
I/03 II/03 I/04 II/04 I/05 II/05 I/06
Cen2
I/03 II/03 I/04 II/04 I/05 II/05 I/06
Period
Rysunek 5.4 Koszt naprawy poszczególnych baz w czasie
Period
Badania jakości danych
katastralnych (Siarkowski)
istotne
mało istotne
100000
10000
1000
krytyczne
Koszt naprawy
Liczba błędów
krytyczne
10000
1000
100
10
10
1
1
Ośr2
Ośr3
Ośr4
mało istotne
100000
100
Ośr1
istotne
Ośr1
Ośr2
Rysunek 5.5 Poziom błędów krytycznych, istotnych i mało
istotnych oraz koszty ich usunięcia (Uwaga skala osi Y jest
logarytmiczna)
Ośr3
Ośr4
JRG
JRB
JRL
30000
25000
20000
15000
10000
5000
0
I/03 II/03 I/04 II/04 I/05 II/05 I/06
Procentowy udział dobrych jednostek
Liczba błędnych jednostek rejestrowych .
Badania jakości danych
katastralnych (Siarkowski)
dobre
dopuszczalne
dobre bez d.o.
dop. bez d.o.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Ośr1
Ośr2
Ośr3
Rysunek 5.6 Liczba poprawnych jednostek rejestrowych
Ośr4
Literatura
1.
2.
3.
4.
5.
6.
7.
8.
Bates R., Guess F., Wan I.: FedEx & Information Quality,
International Conference on Information Quality, 2002.
Olsen J. E.: Data Quality: The Accuracy Dimension. Morgan
Kaufmann Publishers, 2003 .
Redman, T.C., “Data Quality. The Field Guide”. 2001, Boston:
Digital Press.
Tayi, G.K. and D.P. Ballou, “Examining data quality”.
Communications of the ACM, 1998. 41(2): s. 54-57.
Wang R., Strong D. "Beyond Accuracy: What Data Quality
Means to Data Consumers," Journal of Management Information
Systems, wiosna 1996, tom 12, Nr. 4. s. 5-33.
Becker S. "A Practical Perspective on Data Quality Issues,"
Journal of Database Management, 1998, s. 35-37 .
ComputerWorld Raport: Jakość Danych, IDG Poland, Luty 2002
Data Monitoring: Taking Control of Your Information Assets,
DataFlux Corp., 2004
Literatura
9.
10.
11.
12.
13.
Kovac R., Lee Y. W., Pipino L. L.: Total Data Quality
Management: The Case of IRI. Conference on Information
Quality, Cambridge 1997 .
Lee Y. W., Pipino L. L., Wang R. Y.: Data Quality Assessment.
Communications of the ACM, Kwiecień 2002, s. 211-218 .
Loshin D.: Developing Information Quality Metrics. DM Review
Magazine, Maj 2005 .
Bobrowski M., Marré M., Yankelevich D., „Measuring Data
Quality”, Universidad de Buenos Aires, 1999 .
Piattini1 M., Calero1 C., Sahraoui H., Lounis H., “Objectrelational database metrics” .
Dziękuję za uwagę

Podobne dokumenty