Hurtownie danych wykład 2

Transkrypt

Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Hurtownie danych wykład 2
dr Sebastian Zając
SGH
Warszawa
6 marca 2017
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
1
OLTP vs OLAP
OLTP
OLAP
2
Architektura hurtowni danych
3
Rodzaje implementacji
4
Architektura relacyjna i wielowymiarowa
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Dane
Rozwój technologii generowania, gromadzenia i przetwarzania
danych oraz upowszechnienie systemów komputerowych (spadek
cen i wzrost świadomości użytkowników) oznacza olbrzymi
wolumen danych do przechowywania. Narzędzia cyfrowego
generowania danych: kody kreskowe, karty płatnicze, aparaty
cyfrowe, email, sieci RFID, edytory tekstu itp. a do tego
zwiększanie i zmniejszanie ceny pamięci masowych.
Raport UC Berkeley 2002
w 2002 wygenerowano 5 × 1018 B nowych danych. Od 2002 30%
wzrost nowych danych rocznie - email - 400000 TB rocznie
(Biblioteka kongresu USA - 10 TB) USA - ok 40% wszystkich
danych na świecie.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
Dane - OLTP
Dane → Bazy danych (hurtownie). Tradycyjny dostęp do danych
to najczęściej realizowanie prostych zapytań przez aplikacje lub
raporty. Sposób korzystania i realizacji dostępu do danych
nazywamy modelem przetwarzania. Tradycyjny model
przetwarzania to tzw. przetwarzanie transakcji w trybie on-line
(on-line transaction processing - OLTP. Sprawdza się gdy
potrzebujemy obsługiwać działalność firmy dla dobrze
zdefiniowanych procesów np: obsługa klienta, rejestracja
zamówienia itp. Model OLTP rozwiązuje problemy z: efektywne i
bezpieczne przechowywanie danych, transakcyjne odtwarzanie
danych po awarii, optymalizacja dostępu do danych.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
On Line Transaction Processing
Dzięki systemom OLTP mamy info o:
ilość zrealizowanych zamówień,
których produktów brakuje w magazynach,
stan realizacji konkretnego zamówienia,
ilość posiadanych klientów ,
jakie było konkretne zamówienie klienta x .
Czy te informacje są wystarczające do podejmowania decyzji
biznesowych ?
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
OLTP
Pytania biznesowe:
które produkty cieszą się duża, a które małą popularnością ?
które produkty (bądź kategorie) są sezonowe ?
jakie cech mają dobry i zły klient ?
kto zrezygnuje z usług ?
Na te pytania można uzyskać odpowiedź z danych przetwarzanych
przez OLTP , ale ile czasu zajmie ręczne przeszukiwanie i
przetwarzanie wielu takich systemów ?
Informacje o przedsiębiorstwie ukryte są w danych !!!
ale nie wprost.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
Pytanie
Jakie zaproponować rozwiązanie ?
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
Odpowiedź
Zbudować nowy system !!!
budujemy nową bazę danych - stworzoną pod kątem konkretnej
analizy biznesowej, gdzie rekordy ładujemy z odpowiednio
wyselekcjonowanych danych z różnych źródeł.
Extract, Transform, Load - Cyklicznie wykonujemy proces
ETL.
Raz załadowane dane pozostają niezmienione i są
przechowywane przez długi czas.
taka baza danych (HURTOWNIA DANYCH) wspomaga
proces analizy, do którego możemy wykorzystać narzędzia
OLAP.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
OLAP
OLTP
Ułatwienie codziennej pracy
System używany również w życiu
codziennym: bilingi, wyciągi z
konta, rachunki przez internet,
bilety, systemy zakupów.
Niezawodne i skuteczne
przetwarzanie transakcji.
dr Sebastian Zając
Wspomaganie procesu decyzji
Przeznaczone dla pracowników
wysokiego szczebla i analityków
biznesowych. Obserwujemy
efekty: wycofanie produktów,
rozkład towarów na półce.
Skuteczna wielowymiarowa
analiza ogromnej ilości danych.
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
OLTP
OLAP
OLTP — OLAP
Użytkownicy
Funkcje
OLTP
urzędnicy, personel
Ułatwienie pracy
Projekt
Schemat
Bazy Danych
Dane
zorientowany na działanie
Duża liczba tabel
wiele ścieżek złączeń
bieżące, aktualne
Dane hist.
l. użytkownik.
brak danych
tysiące
dr Sebastian Zając
OLAP
kierownicy, analitycy
wspomaganie procesu
decyzyjnego
zorientowany na temat
mała liczba tabel
jedna ścieżka złączeń
historyczne, wielowym.,
zintegrowane
pełna historia
setki
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Architektura Hurtowni Danych
TSA - Temporary Staging Area
Warstwa Zasilania – zajmuje się przetwarzaniem danych, ich
czyszczeniem, standaryzacją, łączeniem. Źródła danych – relacyjne
bazy danych, arkusze kalkulacyjne, pliki tekstowe, pliki XML,
urządzenia rejestrujące. Zazwyczaj zróżnicowane pod względem
sposobu dostępu, struktury logicznej, wielkości i jakości danych.
Centralna hurtownia danych
Warstwa danych właściwych – , czyli podstawowe miejsce
przechowywania ukierunkowanych tematycznie danych. Zazwyczaj
dane szczegółowe ale również i częściowe podsumowania.
Cyklicznie zasilana ze źródeł, przy czym nowe dane są dodawane
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Architektura Hurtowni Danych c.d.
Hurtownie tematyczne
Data Marts – cel: przyśpieszenie dostępu do najczęściej
wykorzystywanych danych. Zaprojektowana pod kątem szybkości,
obsługuje standardowe zapytania, niewielka liczba danych
zagregowanych. Tworzone pod kątem różnych działów. Zazwyczaj
relacyjne bazy danych bądź struktury wielowymiarowe.
Operacyjny magazyn danych
ODS operational data store – , Wprowadzane często pomiędzy
źródłami a centralną HD. Pierwsza faza ładowania danych, zawiera
dane zintegrowane i zorganizowane tematycznie oraz bardzo
szczegółowe, ale jest częściej aktualizowana. Tworzona zazwyczaj
aby odciążyć hurtownie centralną oraz ze względów technicznych
(geograficzne rozproszenie źródeł).
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Front-End
Warstwa udostępniania danych:
Narzędzia analityczne,
generatory zapytań,
specjalizowane aplikacje,
serwery www umożliwiające dostęp do analiz przez
przeglądarkę www.
Wszystko z dostępem dla użytkownika hurtowni danych.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Implementacja fizyczna
W praktyce spotyka się trzy podstawowe architektury fizyczne
hurtowni danych:
1
architekturę scentralizowaną (korporacyjną),
2
architekturę federacyjną (wydziałowa),
3
architekturę wielowarstwową
Architektura scentralizowana – wszystkie dane wykorzystywane
do analiz przechowywane są w jednej fizycznej hurtowni danych
(firmy - scentralizowana działalność operacyjna). Zaletami są:
łatwiejsze tworzenie i administracja, uproszczony dostęp do
danych, wspólne metadane, brak konieczności przesyłania danych.
Wady: jedna baza to jedno miejsce wykonywania wszystkich
zapytań i modyfikacji.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Architektura federacyjna
Architektura rozproszona, w której logicznie jednorodne dane
przechowywane są w różnych bazach danych zlokalizowanych w
jednym lub wielu systemach. Przechowywane lokalnie tematyczne
hurtownie danych zawierają informacje właściwe konkretnemu
działowi danej instytucji. Cechą charakterystyczną jest to, iż
centralna hurtownia danych jest wirtualna (stanowi wspólny model
logiczny i pojęciowy danych). Fizycznym miejscem przechowywania
danych są magazyny danych operacyjnych bądź hurtownie
tematyczne.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Architektura wielowarstwowa
Architektura, w której hurtownię centralną będącą rzeczywistą
bazą danych uzupełniają kolejne poziomy lokalnych tematycznych
hurtowni danych, zawierających kopie danych poprzedniej warstwy
lub ich podsumowania.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Architektura relacyjna i wielowymiarowa
Ze względu na przechowywanie danych na serwerze możemy
zdecydować się na relacyjną bazę danych (RDB Relational
Database), bądź też na wielowymiarową bazę danych (MDDB
Multidimensional Database).
Relational OLAP
Dane przechowywane są w tabelach relacyjnych, przy czym
schemat odzwierciedla wielowymiarową strukturę
danych.Charakterystyczne dla tego podejścia są schematy: gwiazdy,
płatka śniegu oraz konstelacji faktów.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
ROLAP
Wielkie objętości danych (+)
łatwa modyfikacja (+)
problemy z wydajnością (-)
złożoność struktur danych (-)
potrzeba tworzenia kopii bazy relacyjnej do celów
analitycznych (-)
niedoskonałości SQL (-)
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Multidimensional OLAP
Dane przechowywane w wielowymiarowych tablicach, zwanych też
kostkami danych. Rozróżniamy dwa rodzaje baz
wielowymiarowych: disk based oraz RAM based. Zalety: bardzo
wysoka wydajność wyszukiwania i prezentacji danych.Naturalna
budowa struktur wielowymiarowych Wady: bardzo mała
elastyczność - Jeśli chcemy dodać lub zmodyfikować kostkę trzeba
ją usunąć i stworzyć od nowa. Bardzo niska skalowalność co
powoduje, iż zalecana jest dla nie za dużych danych.
Hybrid OLAP
Oba podejścia mają wady i zalety - stąd pomysł na połączenie obu
podejść. W tym rozwiązaniu dane przechowywane są tabelach na
serwerze relacyjnym, zaś przetwarzanie danych realizowane jest na
serwerze wielowymiarowym.
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Model pojęciowy, logiczny, fizyczny
Każdy z elementów hurtowni danych modelowany jest w trzech
etapach:
1
model pojęciowy
2
model logiczny
3
model fizyczny
Model pojęciowy
Opis struktury, zawartości i przeznaczenia hurtowni danych z
punktu widzenia celów biznesowych. w etapie tym używane są
często zwroty specjalistyczne. Co chcemy analizować, jakie dane
gromadzić, jakie pytania, jakie raporty będziemy generować. Czas
na zdefiniowanie ”oczywistych” pojęć (klient, sprzedaż).
dr Sebastian Zając
Hurtownie danych wykład 2
Outline
OLTP vs OLAP
Architektura hurtowni danych
Rodzaje implementacji
Architektura relacyjna i wielowymiarowa
Model logiczny
Tworzony na podstawie modelu pojęciowego. Zawiera opis logiczny
faktów, miar, wymiarów, atrybutów, hierarchi itp. W architekturze
relacyjnej (ROLAP) przyjmuje postać schematu gwiazdy, płatka
śniegu itp.Wraz z definicją wszystkich tabel, pól, nazw kolumn,
typów danych. Dla MOLAP przyjmuje postać kostki. etap ETL.
Model fizyczny
generowany na podstawie modelu logicznego. Opis parametrów
technicznych - indeksy, partycje, formaty danych, rozmieszczenie
dysków itp.
dr Sebastian Zając
Hurtownie danych wykład 2