1. Hurtownia danych definicja oraz cechy: Jest to

Transkrypt

1. Hurtownia danych definicja oraz cechy: Jest to
1. Hurtownia danych definicja oraz cechy:
Jest to dziedzinowo zorientowana baza danych organizacji, która potrafi połączyd informacje z wielu modeli danych
wykorzystywanych w różnych aplikacjach pracujących na różnych platformach sprzętowych.
Cechy hurtowni danych:









Unifikowalnośd danych
Inna charakterystyka danych
Wsadowe modyfikacje danych
Głównie odczyty
Małe transakcje w małych oknach czasowych, innych brak
Wolumeny danych ogromne i ogromne operacje na danych
Podatnośd na optymalizację zapytao
Przetwarzanie masowe – raportowanie za systemy transakcyjne.
Podatnośd na audyt owalnośd prawidłowości danych.
Cechy informacji przechowywanych w HD:
 Separacja – od systemów operacyjnych
 Integracja – zintegrowana informacja w bazie modelu danych organizacji
 Zorientowanie dziedzinowe – informacja jest ustrukturyzowana dziedzinowo (tematycznie)
 Znakowanie czasem – każda informacja posiada znacznik czasu
 Niezmiennośd – zmiany mogą byd dokonywane tylko globalnie tzn. wszyscy użytkownicy muszą widzied te
same dane.
 Przystępnośd – łatwośd użytkowania dla użytkowników nie będących specjalistami komputerowymi
Różne systemy pracują na różnych ziarnistościach, niektóre ubogacają opisy, inne zmniejszają ziarnistośd danych.
Dlaczego stosujemy hurtownie danych?
Spłaszczenie struktur organizacyjnych = więcej władzy na niższych szczeblach. Jak agregowad wtedy informacje w
jednym miejscu i jak pokazad, dostarczyd je na biurko?
2. Architektura Hurtowni Danych.
a) Najprostsza hurtownia – wirtualna hurtownia nie przechowuje informacji, a jedynie je wyciąga, dzięki
dołączonym meta-danym. Pierwszy krop przed wprowadzeniem hurtowni to zadanie sobie pytania czy
wirtualna potrafi ułatwid życie
b) Prosta hurtownia – Jedno główne repozytorium z przedsionkiem ODS (lub bez jeśli zgadzamy się na
wymazywanie niepotrzebnej historii).
c) Rozproszona z centralnym głównym modelem (repozytorium) + Dzidzinowe Data Marty, gdzie korzysta się z
perspektyw
d) Federacyjna hurtownia danych:
Bez centrali, Same główne repozytoria zorientowane dziedzinowo, dedykowane do zastosowao
realizowanych przez grupy użytkowników. …
3. Modele danych wykorzystywane w Hurtowniach Danych, powiązanie z użytkownikami...jakieś poziomy
abstrakcji.
Perspektywa właściciela:
•
Model korporacyjny – koncepcyjny.
Perspektywa projektanta
•
Transakcyjny Logiczny model danych
•
Analityczny Logiczny model danych
Perspektywa wykonawcy
•
•
•
•
Transakcyjne systemy źródłowe (FMD)
ODS (FMD)
HD (FMD)
DM (FMD)
Różne charakterystyki działania, żądao i wymagao systemu.
4. Rodzaje systemów

Systemy operacyjne ( transakcyjne):
Cechy:
 Powtarzalnośd
 Przewidywalnośd
 Skupienie na przeszłośd
 Pochodzenie z wewnątrz organizacji
 Zorientowane na zadania
 Ścisła kontrola poprawności informacji ustrukturyzowana forma
Odbiorcy informacji: Menadżerowie pierwszych linii.

Systemy taktyczne zarządcze średniego szczebla
Cechy:
 Dane zagregowane z systemów operacyjnych
 Natura periodyczna
 Niekoniecznie przewidywalne rezultaty
 Elementy porównawcze (np. względem innych okresów)
 Forma podsumowao/zestawieo
 Źródła informacji zarówno wewnętrzne i zewnętrzne
 Zorientowana na planowanie i kontrolę
Przykładowe systemy: Rachunkowości zarządczej, Controllingowe, Marketingowe (często real-time).
Odbiorcy informacji: managerowie średniego szczebla.

Systemy planowania strategicznego
Cechy:





Informacja przygotowywana ad-hoc na żądanie
Natura informacji o charakterze predyktywnym
Elementy symulacji
Forma podsumowao zestawieo
Informacje w dużej części ze źródeł zewnętrznych (trendy na rynku, dane dotyczące
konkurencji/koniunktury
 Często nieustrukturyzowana forma danych wejściowych.
Przykładowe systemy: EIS DSS systemy eksperckie
Odbiorcy: Managerowie najwyższego szczebla.
5. Technicze i nietechniczne elementy studium wykonywalności.
Techniczne:
• Podejście do technicznej strony architektury
• Wstępne wymagania pojemnościowe
• Wymagania czasowe (uptime)
• Wymagane pojedyncze komponenty architektury technicznej gromadzone w jednym miejscu.
• Harmonogramowanie prac
• Wydajnośd systemu VLDB
• Konwencje nazw
• Strategie czyszczenia danych
• Etapu oraz używane narzędzia procesu ETL.
• Kluczowe mierniki wydajnościowe
• Wybór typu narzędzi dostępu do danych przez użytkowników koocowych
• Modelowanie danych
• Monitoring bazy danych
Nietechniczne:
• Wymagania biznesowe (funkcjonalne, grupy użytkowników)
• Definicja obszarów danych.
• Wymagania do meta-danych
• Model danych wysokiego poziomu
• Struktura organizacji
• Plan implementacji
• Analiza predykcji oraz ryzyka
• Dokumentacja
• Zagadnienia wspomagające zarządzanie
6. Poziomy procesów decyzyjnych w firmie

Planowanie strategiczne – działania długookresowe określające politykę firmy w okresie 3-5 lat.

Działania taktyczne – działania średnio okresowe określające działania oraz posunięcia firmy w okresie
półrocznym do dwuletniego.

Działania operacyjne – działania obejmujące codzienną aktywnośd organizacji.
7. Procesy zarządcze
• Planowanie (stawianie celów firmy )
• Organizacja (rozwój struktur organizacyjnych)
• Budżetowanie ()
• Monitorowanie (Nadzór operacji)
• Kontrolowanie (Ewaluacja…)
• Przywództwo (Monitorowanie i nadzór pracowniczy, zarządzanie grupami i zespołami)
8. Data mining –opis:
eksploracja danych- proces poszukiwania nowych, nietrywialnych i użytecznych wzorców w zbiorach danych.
Proces ten składa się z trzech zasadniczych etapów:
 wstępnej eksploracji,
 budowania modelu (z określaniem wzorców) oraz oceny i weryfikacji
 wdrożenia i stosowania modeli (ang. deployment) dla nowych danych, w celu uzyskania przewidywanych
wartości lub klasyfikacji.
Kategorie technik wykorzystywanych w systemach DM:
 Wyszukiwanie zależności What-if
 Klasyfikacja obiektów
 Generalizacja obiektów
 Metody statystyczne
Kryteria wyboru systemu Data Mining:
 Jaka wielkośd przykładów i próbek wymagana jest do przetwarzania na raz,
 Jaka wielkośd przetwarzania wstępnego jest niezbędna,
 Czy system umożliwia użytkownikom modyfikacje.
9. Data mining – metodyki :
a) Metodologia SEMMA ( od ang. Sampling, Exploration, Modification, Modeling, Assessment).
Sampling –wybór zbiorów uczących - sampling danych, sampling modelu(nauczyd model). Trzeba znad dane i ich
specyfikę.
Exploration – razem z samplingiem 40% czasu . Poszukiwanie w danych nieprzewidzianych trendów, anomalii, w
celu uzyskania zrozumienia problemów oraz idei stosowania dm.
Modification – Modyfikowanie danych poprzez tworzenie, wyznaczanie i transformacje zmiennych
wyznaczonych w fazie exploracji. Manipulacja danymi tak aby dodad do nich niezbędne informacje pozwalające
pomagad np. grupowad, czy dodawanie nowych zmiennych do modelu.
Modeling – modelowanie danych, czyli pozwalanie oprogramowaniu na automatyczne przeszukiwanie
kombinacji danych, które godnie przewidują oczekiwane rezultaty. Tutaj stosuje się metody opisane poniżej
Assessment – 40% czasu, czy dane wygenerowane, mają biznesowy sens. Analityk wykonujący i nadzorujący cały
proces o tym decyduje.
W tej metodologii istnieje sprzężenie zwrotne i tunning osiąganych wyników w pozostałych punktach.
b) Jednym z modeli data mining jest CRISP (Cross-Industry Standard Process for data mining) zaproponowany w
połowie lat dziewięddziesiątych przez europejskie konsorcjum przedsiębiorstw, jako powszechnie dostępny
standard dla procesu data mining. Model ten postuluje następujący ciąg etapów projektu data mining (raczej nie
budzą one większych kontrowersji):
c) Innym podejściem jest metodyka Sześd Sigma (Six Sigma) . Jest to dobrze zorganizowana, bazująca na danych
strategia unikania wad i problemów z jakością we wszystkich rodzajach produkcji i usług, zarządzaniu i innej
działalności biznesowej. Metodyka Sześd Sigma staje się ostatnio coraz bardziej popularna (ze względu na wiele
udany wdrożeo) w USA i na całym świecie. Zaleca ona następujące etapy (tzw. DMAIC):
Definiowanie. Ta faza obejmuje określenie celu i zakresu projektu oraz identyfikację problemów, których
rozwiązanie jest wymagane do osiągnięcia wyższego poziomu sigma.
Pomiar. Celem tego etapu metodyki Sześć Sigma jest zebranie informacji o aktualnej sytuacji, uzyskanie
wstępnych danych o wydajności procesów i identyfikacja problemów.
Analiza. Celem etapu Analiza jest rozpoznanie przyczyn problemów z jakością i potwierdzenie ich wpływu za
pomocą analizy danych.
Udoskonalenie. Na tym etapie strategii Sześć Sigma wdrażane są rozwiązania problemów (przyczyn głównych)
zidentyfikowanych na etapie Analizy.
Kontrola. Celem tego etapu jest ocena i monitorowanie wyników poprzedniej fazy (Udoskonalenie).
Wywodzą się one z tradycji doskonalenia jakości i sterowania procesami i szczególnie dobrze nadają się do
zastosowania w produkcji i świadczeniu usług.
10. Data mining – metody
drzewa decyzyjne - Na podstawie tabel decyzyjnych (zebranych wielu faktów w postaci różnych atrybutów i
związanych z nimi decyzji) tworzących drzewo decyzyjne, które umożliwia nam podejmowanie w przyszłości decyzji
w sposób automatyczny, a przy tym jest czytelne dla człowieka.
grupowanie (analiza skupieo) - Jest metodą tzw. klasyfikacji bez nadzoru. Jest to metoda dokonująca grupowania
elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieostwo
pomiędzy elementami – wyrażone przy pomocy funkcji (metryki) podobieostwa.
szeregi czasowe - Szeregi czasowe są seriami obserwacji dokonanymi w równych odstępach czasu. Służą one do
określenia na podstawie danych historycznych przyszłych wartości, ich prognozowania.
reguły asocjacyjne - Odnajdywanie reguł asocjacyjnych służy analizie koszyka zakupów. Załóżmy , że mamy zbiór
produktów k1, ... , kn. Przykładową regułą asocjacyjną, jaką otrzymamy może byd reguła: k7 =>k2,k5 co będzie
oznaczało, że z faktu , że klienci kupili produkt k7 wynika, że kupili również k2 i k5. Reguły asocjacyjne są
charakteryzowane przez 2 wartości wyrażone w procentach:
 wsparcie ( określa dla ilu procent wszystkich dokonanych transakcji zachodzi dana sytuacja, gdzie ta
implikacja jest spełniona)
 pewnośd ( określa jaki jest procent spełnionych implikacji wśród wszystkich transakcji, dla których były
prawdziwe warunki implikacji)
sieci neuronowe - Na wejściu mamy pewne wejścia (zmienne niezależne), natomiast na wyjściu znajdują się zmienne
zależne (prognozowane). Tak dobieramy współczynniki sieci neuronowej aby zminimalizowad błąd pomiędzy zapognozowanymi zmiennymi a rzeczywistymi wynikami jakie potem otrzymaliśmy.
11. Data Mart
A data mart (DM) is the access layer of the data warehouse (DW) environment that is used to get data out to the
users. The DM is a subset of the DW, usually oriented to a specific business line or team.
• Easy access to frequently needed data
• Creates collective view by a group of users
• Improves end-user response time
• Ease of creation
• Lower cost than implementing a full Data warehouse
• Potential users are more clearly defined than in a full Data warehouse
No jest cachem HD ze względu na specyficzną grupę użytkowników.
12. ETL od extraction, transforamtion, loading.
Organizacja danych w strukturze wielowymiarowej nie jest jedynym wyróżnikiem hurtowni danych. Ważnym
elementem tych systemów są procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang.
Extract, Transformation, Load – ETL).
Transformacja danych obejmuje przetwarzanie danych do postaci wymaganej w hurtowni danych. Transformacja ta
obejmuje następujące procedury / czynności:







integracja danych
walidacja danych
czyszczenie danych
redukcja danych
wzbogacanie
de normalizacja
stemplowanie znacznikiem czasowym
Procedury ekstrakcji danych z systemów OLTP uruchamiane są w czasie minimalnego obciążenia tych systemów.
Dane wyekstrahowane są następnie weryfikowane względem reguł i danych słownikowych przechowywanych w
repozytorium metadanych, przekształcane do pożądanej w hurtowni postaci i następnie ładowane do bazy. Dzięki
procedurom ETL dane w hurtowni charakteryzują się wysoką jakością, przewyższającą znacznie jakośd danych
systemów OLTP.
Procedury walidacji danych są niezbędne dla zapewnienia poprawności i spójności informacji przechowywanych w
hurtowni danych. Powinny obejmowad takie elementy weryfikujące jak:





Brakujące dane
Niespójne dane
Błędne dane
Niepewne dane
Dane spoza zakresu
13. Operational Data Store:
ODS - jest to zintegrowana baza operacyjnych danych pochodzących z wielu różnych systemów i aplikacji
biznesowych źródłowych.

Zapewnia dostęp do przetrzymywanych danych w czasie rzeczywistym.

Wspiera funkcje do realizacji celów raportów operacyjnych.

Może byd użyty jako tymczasowy obszar gromadzenia danych dla hurtowni danych lub data martu.

Integruje dane używane w raportach operacyjnych oraz pozwala na zasilanie systemów DSS (Decision
support systems).

Odkąd mamy doczynienia z danymi pochodzącymi z różnych źródeł, integracja ODS pozwala na oczyszczanie,
rozwiązywanie nadmiarowości oraz walidacje reguł biznesowych.

Pozwala przechowywad dane o największym poziomie szczegółowości, aktualizowane częściej niż odbywa się
to w hurtowni oraz przechowuje bardzo małą ilośd historii (krótkie okno czasowe), lub wcale.

Dane są wysoce znormalizowane w celu uniknięcia nadmiarowości.

Musi podoład i jest zaprojektowany aby zmierzyd się z nieustannymi aktualizacjami.

Wysoce użyteczny gdy istnieje potrzeba wykonywania raportów, które wymagają małej latencji danych (
5min do 24 godzin).
14. Korporacyjny model danych definicja i zastosowanie.
Podstawą do wdrożenia efektywnego, elastycznego i wysokiej jakości rozwiązania BI, jest przeprowadzenie Analizy
Potrzeb Informacyjnych w firmie, w wyniku której zostanie stworzony Korporacyjny Model Danych.
Celem stworzenie Korporacyjnego Modelu Danych jest wypracowanie wspólnego i spójnego dla wszystkich komórek
sformalizowanego języka opisu danych. Dzięki temu zostaną osiągnięte następujące korzyści:
•

•
•
•
Mniejsze koszty utrzymania i rozwoju Hurtowni Danych.
Hurtownia danych będzie zawierad struktury danych, które zaspokoją większośd potrzeb informacyjnych w
firmie
Rozwiązania BI będzie elastyczne, tzn. dodawanie nowych obszarów informacyjnych nie będzie wymagało
zmiany architektury i nie naruszy spójności danych
Niezależnośd od źródeł danych
Możliwośd etapowego wdrażania BI, przy zachowaniu spójności koncepcyjnej. Mniejsze inwestycje na
początku w budowę Hurtowni Danych, szybciej pierwsze rezultaty przy ograniczonym zakresie informacji.
Korporacyjny Model Danych zawiera:
• Struktury Danych w raz z opisem, w postaci diagramów
• Źródła danych
• Reguły biznesowe – relacje między danymi, definicja miar, definicja hierarchi.
• Klasyfikacje i słowniki – tj. lista produktów, kategoryzację zdarzeo biznesowych
Korporacyjny model danych powinien posiadad właścicieli danych. Projekt hurtowni zakłada co jest potrzebne, cykl
życia danych oraz reguły walidacji modelu
15. Implementacje OLAP:
a) ROLAP (Relational).
Cechy:
 zbudowane w relacyjnej bazie danych,
 wielka objętośd danych(TB),
 złożone struktury danych,
 problemy z wydajnością,
 łatwa modyfikacja danych,
 potrzeba stworzenia kopii bazy do celów analitycznych,
 niedoskonałośd SQL,
 stosowane dla centralnych hurtowni
Opis Typowym sposobem przechowywania kostek danych jest schemat gwiazdy, płatka śniegu, konstelacji faktów
Agregacja danych odbywa się w hurtowni danych lub na bieżąco. Architektura ta cechuje się wykonaniem operacji
transformowanych na zapytanie SQL, dostępem do danych sumarycznych jak i do danych szczegółowych, szerokim
zakresem realizacji zapytao wyspecyfikowanych jak i ad hoc. Najistotniejszym zastrzeżeniem do architektury ROLAP
jest niska wydajnośd zapytao i długi czas oczekiwania na odpowiedź. Jednak wydajnośd nie jest jedynym kryterium
oceny efektywności architektury OLAP. System DSS ma bowiem głównie zapewnid podejmowanie racjonalnych
decyzji. Użytkownicy wykorzystujący zapytania ad hoc zgadzają się na niską wydajnośd w zamian za możliwośd
zadawania jednostkowych, nieoczekiwanych zapytao do danych szczegółowych w ogromnym zbiorze danych.
b) MOLAP(Multidimensional)
Cechy:
 zoptymalizowane struktury danych – duża wydajnośd analizy wielowymiarowej,
 specjalne serwery wielowymiarowe,
 mniejsze objętości danych(GB),
 naturalna reprezentacja struktur wielowymiarowych,
 modyfikacje danych kosztowne,
 stosowane często dla składnic danych (nie radzą sobie z tb danych)
Opis architektura ta opiera się na wielowymiarowych tablicach zawierających dane zagregowane (wg różnych
hierarchii i wymiarów - w postaci kostki) gotowe do zaawansowanych analiz tak by użytkownik mógł otrzymad
wymagany widok danych
c) HOLAP(HYBRID)
Cechy:


współdziałające bazy: relacyjna i wielowymiarowa,
włącznie rozwiązao molap do relacyjnego dbms
Opis: relacyjna baza danych jako źródło danych; najczęściej przetwarzane informacje w wielowarstwowej bazie,
minusy są dziedziczone z obu rozwiązao, wydajnośd większa od ROLAP lecz nie dorównuje MOLAP, HOLAP jest
przyśpieszaczem ROLAP.
16. Relacyjna implementacja modelu (ROLAP):
Schematy logiczne:



schemat gwiazdy
schemat płatka śniegu
konstelacja faktów
Schemat gwiazdy:



centralna tabela faktów
wymiary zdenormalizowane
tabela faktów połączona z tabelami wymiarów poprzez klucze obce

uproszczony schemat płatka śniegu
Charakterystyka:




prosta struktura
duża efektywnośd zapytao ze względu na niewielką liczbę złączeo
duży czas ładowania danych do tabel wymiarów ze względu na denormalizację
struktura dominująca w hurtowniach danych
Schemat płatka śniegu:


centralna tabela faktów
wymiary znormalizowane
Charakterystyka:




spadek wydajności zapytao w porównaniu ze schematem gwiazdy ze względu na większą ilośd złączeo
(wymiary znormalizowane, składające się z kilku tabel, np. sklepy ->miejscowosci -> regiony)
struktura łatwiejsza w modyfikacji
krótszy czas ładowania danych do tabel wymiarów
mniej popularna niż gwiazda – efektywnośd zapytao jest ważniejsza niż szybkośd ładowania danych
Konstelacja faktów:
Różne tabele faktów mogą odwoływad się do różnych poziomów danego wymiaru
FAKT_1------- MIESIAC -------- ROK ----------- FAKT_2
Tabela faktów:




przeważnie kolumny numeryczne (można np agregowad)
wieloatrybutowy klucz główny z kluczy obcych do tabel wymiarów
zwykle zawiera 90% danych umieszczonych w schemacie
szybki przyrost danych
Tabele wymiarów:


17.
zawierają dane statyczne (informacje o klientach, produktach etc)
zawierają atrybuty opisowe (ciągi znaków)