modelowanie danych i integracja
Transkrypt
modelowanie danych i integracja
ETL - wykład III Paweł Skrobanek, C-3 pok. 321 [email protected] oprac. Wrocław 2006 - 2008 Zagadnienia do omówienia 1. 2. 3. 4. 5. Identyfikacja wymagań na dane Specyfikacja wymagań / systemu Integracja informacji Dyskusja – wybrane zagadnienia Podsumowanie Identyfikacja wymagań PROBLEM: Budowa systemu często o „niezbyt dokładnie” określonych wymaganiach. 1 Identyfikacja wymagań WYMAGANIA (dla twórcy/twórców HD): - zrozumienie zasad funkcjonowania firmy, metod pracy, potrzeb w zakresie informacji przydatnych przy podejmowaniu decyzji, - umiejętność zrozumienia wymagań końcowych, odbiorców informacji oraz najlepszej formy jej prezentacji, - umiejętności pozyskiwania informacji od personelu, z dokumentacji itp. - umiejętności w zakresie modelowania danych, - zdolność kierowania oczekiwaniami uŜytkowników. Identyfikacja wymagań Przykłady pytań - zrozumienie zasad funkcjonowania firmy: • Jakie analizy są obecnie przeprowadzane? Czemu słuŜą? • Jaka jest hierarchia/hierarchie danych (np. mogą być generowane zestawiania dla działów, a potem zbiorcze dla placówek) ? • Jakie są uwarunkowania czasowe (np. mogą być raporty miesięczne, okresowe, wynik finansowy roczny lub miesięczny, czy teŜ kwartalny itp.)? • Jaka jest struktura organizacyjna? • Jakie obowiązują procedury decyzyjne (np. w bankach jasno określona procedura zatwierdzania kredytu) i jakie informacje są w nich wykorzystywane? Identyfikacja wymagań Przykładowe „źródła informacji” Analitycy i uŜytkownicy zasadniczych (dla HD) działów Kierownicy zasadniczych działów Zarząd/dyrekcja przedsiębiorstwa Eksperci zewnętrzni – z „branŜy” przedsiębiorstwa Analitycy i uŜytkownicy pozostałych (dla HD) działów Kierownicy pozostałych działów Klienci Osoby doświadczone/eksperci w dziedzinie tworzenia Hurtowni Danych 2 Identyfikacja wymagań Przykłady wytycznych prowadzenie rozmów: 1. Analitycy/uŜytkownicy końcowi: Cel: zapoznanie z pracą, wykorzystywanymi danymi (raporty, pytania, zadania), generowaną dokumentacją i jej adresatami, Ilość: grupy kilkuosobowe Czas: nawet do kilku godzin (początkowo) Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) UWAGA: • problemy związane ze stosunkami międzyludzkimi (relacje interpersonalne) – problem z doborem grup, przydatna znajomość psychologii, • nagrywania pozwala na wnikliwszą analizę, ale moŜe „krępować” rozmówcę (konieczna zgoda!) Identyfikacja wymagań Przykłady wytycznych prowadzenie rozmów: 1. Kierownicy przedsiębiorstwa: Cel: - zapoznanie ze strategią i celami przedsiębiorstwa, i/lub połączenie (weryfikacja) informacji zebranej od pracowników oraz naszego „wyobraŜenia” o firmie, i/lub oddziaływanie psychologiczne (sygnał dla pracowników o waŜności prac nad HD) i/lub wskazanie osób, które posiadają duŜą wiedzę i mogą być przydatne, Ilość: jedna osoba Czas: krótki (np. ¼, ½ godziny), Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) Identyfikacja wymagań Przykłady konkretnych pytań moŜna znaleźć w: V.Poe, P.Klauer, S.Brobst Tworzenie hurtowni danych, WNT, Warszawa 2000, str. 151 - 160 3 Specyfikacja wymagań / systemu TYPOWO •zidentyfikowane i szczegółowo opisane wymagania, • zidentyfikowane i wstępnie określone interfejsy, • ściśle określone problemy DLA HD • brak ściśle określonych wymagań (raczej „sądzimy, Ŝe …” • często brak wiedzy o interfejsach • konieczność identyfikacji problemów Specyfikacja wymagań / systemu TYPOWO DLA HD • etapowość pracy (zazwyczaj specyfikacja zakończona dokumentem) • konieczność modyfikacji wymagań /systemu do zmian w organizacji i jej otoczeniu • wymogi prawne • konieczność związane z działalnością uzasadnienia (np. ustawa biznesowego lub o działalności gosp.) utylitarnego Specyfikacja wymagań / systemu TYPOWO •sprawdzone i opisane metody zarządzania DLA HD • trudne zarządzanie – niepewność celów, – nieprecyzyjność kryteriów, – obawa nieudanego przedsięwzięcia, - wysokie koszty. 4 Integracja informacji źródłowej Integracja moŜe obejmować: 1. Integrację schematów Dane: schematy źródeł Wynik: pojedynczy schemat (docelowy) oraz specyfikacja odwzorowania 2. Integrację danych zmaterializowanych Dane: zbiory danych źródłowych Wynik: zbiór danych < reprezentacja zbiorów źródeł 3. Integracja danych wirtualnych Dane: zbiory danych źródłowych Wynik: specyfikacja dostępu do danych („fizycznie” dane pozostają w źródłach) Integracja informacji źródłowej Przykład etapów integracji: IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL KONSOLIDACJA DANYCH KONWERSJA DANYCH PRZENOSZENIE DANYCH Integracja informacji źródłowej IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL - zrozumienie potrzeb i oczekiwań uŜytkowników, - zidentyfikowanie źródeł danych i określenie, czy są wystarczające (UWAGA: źródła danych, to nie tylko istniejące bazy, to takŜe np. procedury w firmie, dane zewnętrzne jak np. dane o pogodzie, kursy walut, indeksy giełdowe), - przegląd dostępnych źródeł, klasyfikacja oraz określenie zakresu początkowej HD, - zaprojektowanie dostępu do danych (np. w oparciu o przegląd interfejsów, raportów z analiz) 5 Integracja informacji źródłowej KONSOLIDACJA DANYCH Proces polegający na identyfikacji wspólnych danych, zaleŜności pomiędzy nimi, reguł dostępu do nich w celu zbudowania nowego modelu dla potrzeb HD. Integracja informacji źródłowej KONSOLIDACJA DANYCH Konsolidacja obejmuje m. in.: - analizę dokumentacji źródeł (jeśli jest i najlepiej przy wsparciu administratorów/architektów istniejących źródeł), - dodatkowo: opracowanie „słownika terminologii”, - określenie zasad postępowanie w sytuacjach konfliktowych: konflikty róŜnorodności – zróŜnicowane modele danych (poziom konceptualny), Integracja informacji źródłowej KONSOLIDACJA DANYCH Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty nazewnictwa – zróŜnicowana terminologia: • Homonimy – te same nazwy, ale róŜne pojęcia (np. TYP dla auta w jednej bazie moŜe oznaczać model: „CIVIC”, „FIESTA”, „ASTRA”, a w innej rodzaj: terenowy, osobowy), • Synonimy – róŜne nazwy, ale to samo pojęcie (np. ID_pracownika i Numer_pracownika), • Analogie – atrybuty opisujące „to samo”, ale w róŜnym zakresie (np. formy płatności: „gotówka”, „przelew”, „czek” oraz „PLN”, „Euro”, „VISA Electron”, „Master Card”) 6 Integracja informacji źródłowej KONSOLIDACJA DANYCH Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty semantyczne – modelowanie podobnej „rzeczywistości” na róŜnym poziomie abstrakcji, konflikty strukturalne – reprezentowanie tych samych pojęć przez róŜne konstrukcje (np. kraj, region, kod_produktu jako xxyyaaa PLDS112, gdzie PL – Polska, DS – dolnośląskie) Integracja informacji źródłowej KONSOLIDACJA DANYCH Konsolidacja obejmuje m. in.: - analiza dziedzin atrybutów (typ, rozmiar, zakres wartości, opcjonalność, zgodność ze specyfikacją), - wybór kluczy głównych (ewentualna eliminacja kluczy sztucznych oraz rozpoznanie kluczy obcych – jeśli konieczne), prz. ID_klienta ulica_zameld kod_zameld miasto_zameld poczta_zameld … ulca_korespond … ulica_zamieszk Przykład transformacji ID_klienta Typ_adresu ulica kod miasto poczta Integracja informacji źródłowej KONWERSJA DANYCH Zadania stojące przed twórcą/twórcami HD, to m. in.: opracowanie wytycznych (specyfikacji) przekształcenia danych (atrybutów) źródłowych do postaci w HD, określenie zasad postępowania dla atrybutów odbiegających od normy (np. dopuszczalny: Wrocław, jest: Wroclaw, Wrocllaw, Wrocła DS. T-19), ustalenie wartości domyślnych, dodatkowo: np. zastosowanie data maining (do wykrywania tych samych obiektów – w bazach ubezpieczeniowych, energetycznych jedna osoba moŜe nawet w jednej bazie występować jako dwa „obiekty” itp.), opracowanie reguł postępowanie w sytuacjach wyjątkowych. 7 Integracja informacji źródłowej PRZENOSZENIE DANYCH - - opracowanie programów (szablonów, pakietów – zaleŜnie od narzędzia), testowanie (uzyskanie informacji o niepasujących danych oraz skuteczności opracowanych i zaimplementowanych metod), testowanie pod kątem wydajności, walidacja. DYSKUSJA 1. Czy są róŜnice pomiędzy systemem raportowym, a hurtownią danych? SYSTEM RAPORTOWY • określona struktura systemu i raportów, • dotyczy zazwyczaj określonej części („wycinka”) przedsiębiorstwa • określone źródła informacji (zazwyczej na bazie jednego systemu), • opracowania metodami statystycznymi HD • moŜliwość generowania raportów ad-hoc, • szeroki zbiór danych – moŜliwość opracowania nowych raportów. • zazwyczaj wsparcie w zakresie analizy danych (np. algorytmy genetyczne, sieci neuronowe, metody statystyczne) DYSKUSJA 2. Problem związany z kosztem budowy HD oraz obecnych cen oprogramowania. (materiały pomocnicze: http://www.bakk.com oraz http://www.microsoft.com/sqlserver/2008/en/us/pricing.aspx) 3. Problem budowy i wdroŜenia HD (materiałów konferencyjnych dotyczących: budowy HD w BZ WBK, wdroŜenie systemu informatycznego w placówce medycznej ). 8 Podsumowanie Tworzenie HD – materiały ksero. 9