35. Omów zadania wykonywane podczas procesu ETL

Transkrypt

35. Omów zadania wykonywane podczas procesu ETL
35.Omów zadania wykonywane podczas procesu ETL
Co to jest ETL (Extraction Translation (Transformation) Loading) a raczej do czego służy w
hurtowniach danych:
Heterogeniczne i rozproszone źródła danych zasilają hurtownię danymi za pośrednictwem
warstwy oprogramowania ETL. Jego podstawowymi zadaniami są wykrywanie zmian
w źródłach, transformacja danych do wspólnej postaci, uspójnianie i czyszczenie danych,
agregowanie danych. Uspójnione dane są następnie ładowane do centralnej hurtowni danych.
•
Zadania ETL:
o ekstrakcja danych
odbywa się poprzez bramki (gateways), standardowe interfejsy (ODBC,
JDBC, Oracle Open Connect, Informix Enterprise Gateway), własne
procedury
identyfikacja pól w tabelach źródłowych, z których czerpane będą dane
o czyszczenie danych
zapewnienie jakości i poprawności danych
detekcja i korekcja błędów: niekompletne dane, błędne dane, informacje
niezrozumiałe, niekonsekwencje w danych, konflikty strukturalne
czyszczenie specjalne
czyszczenie oparte na regułach
o transformacja danych
analiza tematyczna danych
ustalenie wspólnego formatu danych
rozdzielenie i łączenie kolumn, konwersja typów, agregaty
określenie zbioru reguł sterujących tą transformacją
o ładowanie danych
integracja i umieszczenie nowych danych w hurtowni
sprawdzanie ograniczeń integralnościowych, sortowanie, podsumowanie,
budowanie indeksów
ładowanie wsadowe, sekwencyjne, równoległe
o monitorowanie zmian
mechanizmy wyzwalaczy
analiza pliku logu
procedury własne
zapytania do źródeł
36.Opisz operacje podczas następujących procesów w hurtowniach danych:
dopływ, wznoszenie, odpływ, wypływ i przepływ metadanych.