modelowanie danych i integracja

Transkrypt

modelowanie danych i integracja
ETL
- wykład III
Paweł Skrobanek, C-3 pok. 321
[email protected]
oprac. Wrocław 2006 - 2008
Zagadnienia do omówienia
1.
2.
3.
4.
5.
Identyfikacja wymagań na dane
Specyfikacja wymagań / systemu
Integracja informacji
Dyskusja – wybrane zagadnienia
Podsumowanie
Identyfikacja wymagań
PROBLEM: Budowa systemu
często o „niezbyt dokładnie”
określonych wymaganiach.
1
Identyfikacja wymagań
WYMAGANIA (dla twórcy/twórców HD):
- zrozumienie zasad funkcjonowania firmy, metod pracy,
potrzeb w zakresie informacji przydatnych przy
podejmowaniu decyzji,
- umiejętność zrozumienia wymagań końcowych,
odbiorców informacji oraz najlepszej formy jej
prezentacji,
- umiejętności pozyskiwania informacji od personelu,
z dokumentacji itp.
- umiejętności w zakresie modelowania danych,
- zdolność kierowania oczekiwaniami uŜytkowników.
Identyfikacja wymagań
Przykłady pytań - zrozumienie zasad funkcjonowania firmy:
• Jakie analizy są obecnie przeprowadzane? Czemu słuŜą?
• Jaka jest hierarchia/hierarchie danych (np. mogą być
generowane zestawiania dla działów, a potem zbiorcze
dla placówek) ?
• Jakie są uwarunkowania czasowe (np. mogą być raporty
miesięczne, okresowe, wynik finansowy roczny lub
miesięczny, czy teŜ kwartalny itp.)?
• Jaka jest struktura organizacyjna?
• Jakie obowiązują procedury decyzyjne (np. w bankach
jasno określona procedura zatwierdzania kredytu) i jakie
informacje są w nich wykorzystywane?
Identyfikacja wymagań
Przykładowe „źródła informacji”
Analitycy i uŜytkownicy
zasadniczych (dla HD)
działów
Kierownicy
zasadniczych działów
Zarząd/dyrekcja
przedsiębiorstwa
Eksperci zewnętrzni
– z „branŜy” przedsiębiorstwa
Analitycy i uŜytkownicy
pozostałych (dla HD)
działów
Kierownicy
pozostałych działów
Klienci
Osoby doświadczone/eksperci
w dziedzinie tworzenia
Hurtowni Danych
2
Identyfikacja wymagań
Przykłady wytycznych prowadzenie rozmów:
1. Analitycy/uŜytkownicy końcowi:
Cel: zapoznanie z pracą, wykorzystywanymi danymi (raporty,
pytania, zadania), generowaną dokumentacją i jej adresatami,
Ilość: grupy kilkuosobowe
Czas: nawet do kilku godzin (początkowo)
Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób)
UWAGA:
•
problemy związane ze stosunkami międzyludzkimi (relacje
interpersonalne) – problem z doborem grup, przydatna znajomość
psychologii,
•
nagrywania pozwala na wnikliwszą analizę, ale moŜe „krępować”
rozmówcę (konieczna zgoda!)
Identyfikacja wymagań
Przykłady wytycznych prowadzenie rozmów:
1. Kierownicy przedsiębiorstwa:
Cel:
-
zapoznanie ze strategią i celami przedsiębiorstwa,
i/lub połączenie (weryfikacja) informacji zebranej od pracowników
oraz naszego „wyobraŜenia” o firmie,
i/lub oddziaływanie psychologiczne (sygnał dla pracowników
o waŜności prac nad HD)
i/lub wskazanie osób, które posiadają duŜą wiedzę i mogą być
przydatne,
Ilość: jedna osoba
Czas: krótki (np. ¼, ½ godziny),
Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób)
Identyfikacja wymagań
Przykłady konkretnych pytań moŜna znaleźć w:
V.Poe, P.Klauer, S.Brobst Tworzenie hurtowni danych,
WNT, Warszawa 2000, str. 151 - 160
3
Specyfikacja wymagań / systemu
TYPOWO
•zidentyfikowane
i szczegółowo opisane
wymagania,
• zidentyfikowane
i wstępnie określone
interfejsy,
• ściśle określone
problemy
DLA HD
• brak ściśle określonych
wymagań (raczej
„sądzimy, Ŝe …”
• często brak wiedzy
o interfejsach
• konieczność
identyfikacji problemów
Specyfikacja wymagań / systemu
TYPOWO
DLA HD
• etapowość pracy
(zazwyczaj specyfikacja
zakończona
dokumentem)
• konieczność
modyfikacji wymagań
/systemu do zmian
w organizacji i jej
otoczeniu
• wymogi prawne
• konieczność
związane z działalnością uzasadnienia
(np. ustawa
biznesowego lub
o działalności gosp.)
utylitarnego
Specyfikacja wymagań / systemu
TYPOWO
•sprawdzone i opisane
metody zarządzania
DLA HD
• trudne zarządzanie
– niepewność celów,
– nieprecyzyjność
kryteriów,
– obawa nieudanego
przedsięwzięcia,
- wysokie koszty.
4
Integracja informacji źródłowej
Integracja moŜe obejmować:
1. Integrację schematów
Dane: schematy źródeł
Wynik: pojedynczy schemat (docelowy) oraz
specyfikacja odwzorowania
2. Integrację danych zmaterializowanych
Dane: zbiory danych źródłowych
Wynik: zbiór danych < reprezentacja zbiorów źródeł
3. Integracja danych wirtualnych
Dane: zbiory danych źródłowych
Wynik: specyfikacja dostępu do danych („fizycznie”
dane pozostają w źródłach)
Integracja informacji źródłowej
Przykład etapów integracji:
IDENTYFIKACJA ŹRÓDEŁ
ORAZ WYSELEKCJONOWANIE PÓL
KONSOLIDACJA DANYCH
KONWERSJA DANYCH
PRZENOSZENIE DANYCH
Integracja informacji źródłowej
IDENTYFIKACJA ŹRÓDEŁ
ORAZ WYSELEKCJONOWANIE PÓL
- zrozumienie potrzeb i oczekiwań uŜytkowników,
- zidentyfikowanie źródeł danych i określenie, czy są
wystarczające (UWAGA: źródła danych, to nie tylko
istniejące bazy, to takŜe np. procedury w firmie, dane
zewnętrzne jak np. dane o pogodzie, kursy walut,
indeksy giełdowe),
- przegląd dostępnych źródeł, klasyfikacja oraz określenie
zakresu początkowej HD,
- zaprojektowanie dostępu do danych (np. w oparciu
o przegląd interfejsów, raportów z analiz)
5
Integracja informacji źródłowej
KONSOLIDACJA DANYCH
Proces polegający na identyfikacji wspólnych danych,
zaleŜności pomiędzy nimi, reguł dostępu do nich
w celu
zbudowania nowego modelu dla potrzeb HD.
Integracja informacji źródłowej
KONSOLIDACJA DANYCH
Konsolidacja obejmuje m. in.:
- analizę dokumentacji źródeł (jeśli jest i najlepiej przy
wsparciu administratorów/architektów istniejących
źródeł),
- dodatkowo: opracowanie „słownika terminologii”,
- określenie zasad postępowanie w sytuacjach
konfliktowych:
konflikty róŜnorodności – zróŜnicowane modele
danych (poziom konceptualny),
Integracja informacji źródłowej
KONSOLIDACJA DANYCH
Konsolidacja obejmuje m. in.:
- określenie zasad postępowanie w sytuacjach
konfliktowych, cd.:
konflikty nazewnictwa – zróŜnicowana terminologia:
• Homonimy – te same nazwy, ale róŜne pojęcia (np. TYP dla
auta w jednej bazie moŜe oznaczać model: „CIVIC”,
„FIESTA”, „ASTRA”, a w innej rodzaj: terenowy, osobowy),
• Synonimy – róŜne nazwy, ale to samo pojęcie
(np. ID_pracownika i Numer_pracownika),
• Analogie – atrybuty opisujące „to samo”, ale w róŜnym
zakresie (np. formy płatności: „gotówka”, „przelew”, „czek”
oraz „PLN”, „Euro”, „VISA Electron”, „Master Card”)
6
Integracja informacji źródłowej
KONSOLIDACJA DANYCH
Konsolidacja obejmuje m. in.:
- określenie zasad postępowanie w sytuacjach
konfliktowych, cd.:
konflikty semantyczne – modelowanie podobnej
„rzeczywistości” na róŜnym poziomie abstrakcji,
konflikty strukturalne – reprezentowanie tych samych
pojęć przez róŜne konstrukcje
(np. kraj, region, kod_produktu jako xxyyaaa
PLDS112, gdzie PL – Polska, DS – dolnośląskie)
Integracja informacji źródłowej
KONSOLIDACJA DANYCH
Konsolidacja obejmuje m. in.:
- analiza dziedzin atrybutów (typ, rozmiar, zakres
wartości, opcjonalność, zgodność ze specyfikacją),
- wybór kluczy głównych (ewentualna eliminacja kluczy
sztucznych oraz rozpoznanie kluczy obcych – jeśli
konieczne),
prz. ID_klienta
ulica_zameld
kod_zameld
miasto_zameld
poczta_zameld
…
ulca_korespond
…
ulica_zamieszk
Przykład
transformacji
ID_klienta
Typ_adresu
ulica
kod
miasto
poczta
Integracja informacji źródłowej
KONWERSJA DANYCH
Zadania stojące przed twórcą/twórcami HD, to m. in.:
opracowanie wytycznych (specyfikacji) przekształcenia
danych (atrybutów) źródłowych do postaci w HD,
określenie zasad postępowania dla atrybutów odbiegających
od normy (np. dopuszczalny: Wrocław, jest: Wroclaw,
Wrocllaw, Wrocła DS. T-19),
ustalenie wartości domyślnych,
dodatkowo: np. zastosowanie data maining (do wykrywania
tych samych obiektów – w bazach ubezpieczeniowych,
energetycznych jedna osoba moŜe nawet w jednej bazie
występować jako dwa „obiekty” itp.),
opracowanie reguł postępowanie w sytuacjach wyjątkowych.
7
Integracja informacji źródłowej
PRZENOSZENIE DANYCH
-
-
opracowanie programów (szablonów, pakietów –
zaleŜnie od narzędzia),
testowanie (uzyskanie informacji o niepasujących
danych oraz skuteczności opracowanych
i zaimplementowanych metod),
testowanie pod kątem wydajności,
walidacja.
DYSKUSJA
1. Czy są róŜnice pomiędzy systemem raportowym, a hurtownią danych?
SYSTEM RAPORTOWY
• określona struktura systemu
i raportów,
• dotyczy zazwyczaj określonej
części („wycinka”)
przedsiębiorstwa
• określone źródła informacji
(zazwyczej na bazie jednego
systemu),
• opracowania metodami
statystycznymi
HD
• moŜliwość generowania
raportów ad-hoc,
• szeroki zbiór danych –
moŜliwość opracowania
nowych raportów.
• zazwyczaj wsparcie w zakresie
analizy danych (np. algorytmy
genetyczne, sieci neuronowe,
metody statystyczne)
DYSKUSJA
2. Problem związany z kosztem budowy HD
oraz obecnych cen oprogramowania.
(materiały pomocnicze: http://www.bakk.com oraz
http://www.microsoft.com/sqlserver/2008/en/us/pricing.aspx)
3. Problem budowy i wdroŜenia HD
(materiałów konferencyjnych dotyczących: budowy HD w BZ WBK,
wdroŜenie systemu informatycznego w placówce medycznej ).
8
Podsumowanie
Tworzenie HD – materiały ksero.
9

Podobne dokumenty