35. Omów zadania wykonywane podczas procesu ETL
Transkrypt
35. Omów zadania wykonywane podczas procesu ETL
35.Omów zadania wykonywane podczas procesu ETL Co to jest ETL (Extraction Translation (Transformation) Loading) a raczej do czego służy w hurtowniach danych: Heterogeniczne i rozproszone źródła danych zasilają hurtownię danymi za pośrednictwem warstwy oprogramowania ETL. Jego podstawowymi zadaniami są wykrywanie zmian w źródłach, transformacja danych do wspólnej postaci, uspójnianie i czyszczenie danych, agregowanie danych. Uspójnione dane są następnie ładowane do centralnej hurtowni danych. • Zadania ETL: o ekstrakcja danych odbywa się poprzez bramki (gateways), standardowe interfejsy (ODBC, JDBC, Oracle Open Connect, Informix Enterprise Gateway), własne procedury identyfikacja pól w tabelach źródłowych, z których czerpane będą dane o czyszczenie danych zapewnienie jakości i poprawności danych detekcja i korekcja błędów: niekompletne dane, błędne dane, informacje niezrozumiałe, niekonsekwencje w danych, konflikty strukturalne czyszczenie specjalne czyszczenie oparte na regułach o transformacja danych analiza tematyczna danych ustalenie wspólnego formatu danych rozdzielenie i łączenie kolumn, konwersja typów, agregaty określenie zbioru reguł sterujących tą transformacją o ładowanie danych integracja i umieszczenie nowych danych w hurtowni sprawdzanie ograniczeń integralnościowych, sortowanie, podsumowanie, budowanie indeksów ładowanie wsadowe, sekwencyjne, równoległe o monitorowanie zmian mechanizmy wyzwalaczy analiza pliku logu procedury własne zapytania do źródeł 36.Opisz operacje podczas następujących procesów w hurtowniach danych: dopływ, wznoszenie, odpływ, wypływ i przepływ metadanych.