Hurtownie danych wykład 2
Transkrypt
Hurtownie danych wykład 2
Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Hurtownie danych wykład 2 dr Sebastian Zając SGH Warszawa 6 marca 2017 dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa 1 OLTP vs OLAP OLTP OLAP 2 Architektura hurtowni danych 3 Rodzaje implementacji 4 Architektura relacyjna i wielowymiarowa dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Dane Rozwój technologii generowania, gromadzenia i przetwarzania danych oraz upowszechnienie systemów komputerowych (spadek cen i wzrost świadomości użytkowników) oznacza olbrzymi wolumen danych do przechowywania. Narzędzia cyfrowego generowania danych: kody kreskowe, karty płatnicze, aparaty cyfrowe, email, sieci RFID, edytory tekstu itp. a do tego zwiększanie i zmniejszanie ceny pamięci masowych. Raport UC Berkeley 2002 w 2002 wygenerowano 5 × 1018 B nowych danych. Od 2002 30% wzrost nowych danych rocznie - email - 400000 TB rocznie (Biblioteka kongresu USA - 10 TB) USA - ok 40% wszystkich danych na świecie. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP Dane - OLTP Dane → Bazy danych (hurtownie). Tradycyjny dostęp do danych to najczęściej realizowanie prostych zapytań przez aplikacje lub raporty. Sposób korzystania i realizacji dostępu do danych nazywamy modelem przetwarzania. Tradycyjny model przetwarzania to tzw. przetwarzanie transakcji w trybie on-line (on-line transaction processing - OLTP. Sprawdza się gdy potrzebujemy obsługiwać działalność firmy dla dobrze zdefiniowanych procesów np: obsługa klienta, rejestracja zamówienia itp. Model OLTP rozwiązuje problemy z: efektywne i bezpieczne przechowywanie danych, transakcyjne odtwarzanie danych po awarii, optymalizacja dostępu do danych. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP On Line Transaction Processing Dzięki systemom OLTP mamy info o: ilość zrealizowanych zamówień, których produktów brakuje w magazynach, stan realizacji konkretnego zamówienia, ilość posiadanych klientów , jakie było konkretne zamówienie klienta x . Czy te informacje są wystarczające do podejmowania decyzji biznesowych ? dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP OLTP Pytania biznesowe: które produkty cieszą się duża, a które małą popularnością ? które produkty (bądź kategorie) są sezonowe ? jakie cech mają dobry i zły klient ? kto zrezygnuje z usług ? Na te pytania można uzyskać odpowiedź z danych przetwarzanych przez OLTP , ale ile czasu zajmie ręczne przeszukiwanie i przetwarzanie wielu takich systemów ? Informacje o przedsiębiorstwie ukryte są w danych !!! ale nie wprost. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP Pytanie Jakie zaproponować rozwiązanie ? dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP Odpowiedź Zbudować nowy system !!! budujemy nową bazę danych - stworzoną pod kątem konkretnej analizy biznesowej, gdzie rekordy ładujemy z odpowiednio wyselekcjonowanych danych z różnych źródeł. Extract, Transform, Load - Cyklicznie wykonujemy proces ETL. Raz załadowane dane pozostają niezmienione i są przechowywane przez długi czas. taka baza danych (HURTOWNIA DANYCH) wspomaga proces analizy, do którego możemy wykorzystać narzędzia OLAP. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP OLAP OLTP Ułatwienie codziennej pracy System używany również w życiu codziennym: bilingi, wyciągi z konta, rachunki przez internet, bilety, systemy zakupów. Niezawodne i skuteczne przetwarzanie transakcji. dr Sebastian Zając Wspomaganie procesu decyzji Przeznaczone dla pracowników wysokiego szczebla i analityków biznesowych. Obserwujemy efekty: wycofanie produktów, rozkład towarów na półce. Skuteczna wielowymiarowa analiza ogromnej ilości danych. Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa OLTP OLAP OLTP — OLAP Użytkownicy Funkcje OLTP urzędnicy, personel Ułatwienie pracy Projekt Schemat Bazy Danych Dane zorientowany na działanie Duża liczba tabel wiele ścieżek złączeń bieżące, aktualne Dane hist. l. użytkownik. brak danych tysiące dr Sebastian Zając OLAP kierownicy, analitycy wspomaganie procesu decyzyjnego zorientowany na temat mała liczba tabel jedna ścieżka złączeń historyczne, wielowym., zintegrowane pełna historia setki Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Architektura Hurtowni Danych TSA - Temporary Staging Area Warstwa Zasilania – zajmuje się przetwarzaniem danych, ich czyszczeniem, standaryzacją, łączeniem. Źródła danych – relacyjne bazy danych, arkusze kalkulacyjne, pliki tekstowe, pliki XML, urządzenia rejestrujące. Zazwyczaj zróżnicowane pod względem sposobu dostępu, struktury logicznej, wielkości i jakości danych. Centralna hurtownia danych Warstwa danych właściwych – , czyli podstawowe miejsce przechowywania ukierunkowanych tematycznie danych. Zazwyczaj dane szczegółowe ale również i częściowe podsumowania. Cyklicznie zasilana ze źródeł, przy czym nowe dane są dodawane dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Architektura Hurtowni Danych c.d. Hurtownie tematyczne Data Marts – cel: przyśpieszenie dostępu do najczęściej wykorzystywanych danych. Zaprojektowana pod kątem szybkości, obsługuje standardowe zapytania, niewielka liczba danych zagregowanych. Tworzone pod kątem różnych działów. Zazwyczaj relacyjne bazy danych bądź struktury wielowymiarowe. Operacyjny magazyn danych ODS operational data store – , Wprowadzane często pomiędzy źródłami a centralną HD. Pierwsza faza ładowania danych, zawiera dane zintegrowane i zorganizowane tematycznie oraz bardzo szczegółowe, ale jest częściej aktualizowana. Tworzona zazwyczaj aby odciążyć hurtownie centralną oraz ze względów technicznych (geograficzne rozproszenie źródeł). dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Front-End Warstwa udostępniania danych: Narzędzia analityczne, generatory zapytań, specjalizowane aplikacje, serwery www umożliwiające dostęp do analiz przez przeglądarkę www. Wszystko z dostępem dla użytkownika hurtowni danych. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Implementacja fizyczna W praktyce spotyka się trzy podstawowe architektury fizyczne hurtowni danych: 1 architekturę scentralizowaną (korporacyjną), 2 architekturę federacyjną (wydziałowa), 3 architekturę wielowarstwową Architektura scentralizowana – wszystkie dane wykorzystywane do analiz przechowywane są w jednej fizycznej hurtowni danych (firmy - scentralizowana działalność operacyjna). Zaletami są: łatwiejsze tworzenie i administracja, uproszczony dostęp do danych, wspólne metadane, brak konieczności przesyłania danych. Wady: jedna baza to jedno miejsce wykonywania wszystkich zapytań i modyfikacji. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Architektura federacyjna Architektura rozproszona, w której logicznie jednorodne dane przechowywane są w różnych bazach danych zlokalizowanych w jednym lub wielu systemach. Przechowywane lokalnie tematyczne hurtownie danych zawierają informacje właściwe konkretnemu działowi danej instytucji. Cechą charakterystyczną jest to, iż centralna hurtownia danych jest wirtualna (stanowi wspólny model logiczny i pojęciowy danych). Fizycznym miejscem przechowywania danych są magazyny danych operacyjnych bądź hurtownie tematyczne. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Architektura wielowarstwowa Architektura, w której hurtownię centralną będącą rzeczywistą bazą danych uzupełniają kolejne poziomy lokalnych tematycznych hurtowni danych, zawierających kopie danych poprzedniej warstwy lub ich podsumowania. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych (RDB Relational Database), bądź też na wielowymiarową bazę danych (MDDB Multidimensional Database). Relational OLAP Dane przechowywane są w tabelach relacyjnych, przy czym schemat odzwierciedla wielowymiarową strukturę danych.Charakterystyczne dla tego podejścia są schematy: gwiazdy, płatka śniegu oraz konstelacji faktów. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa ROLAP Wielkie objętości danych (+) łatwa modyfikacja (+) problemy z wydajnością (-) złożoność struktur danych (-) potrzeba tworzenia kopii bazy relacyjnej do celów analitycznych (-) niedoskonałości SQL (-) dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Multidimensional OLAP Dane przechowywane w wielowymiarowych tablicach, zwanych też kostkami danych. Rozróżniamy dwa rodzaje baz wielowymiarowych: disk based oraz RAM based. Zalety: bardzo wysoka wydajność wyszukiwania i prezentacji danych.Naturalna budowa struktur wielowymiarowych Wady: bardzo mała elastyczność - Jeśli chcemy dodać lub zmodyfikować kostkę trzeba ją usunąć i stworzyć od nowa. Bardzo niska skalowalność co powoduje, iż zalecana jest dla nie za dużych danych. Hybrid OLAP Oba podejścia mają wady i zalety - stąd pomysł na połączenie obu podejść. W tym rozwiązaniu dane przechowywane są tabelach na serwerze relacyjnym, zaś przetwarzanie danych realizowane jest na serwerze wielowymiarowym. dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Model pojęciowy, logiczny, fizyczny Każdy z elementów hurtowni danych modelowany jest w trzech etapach: 1 model pojęciowy 2 model logiczny 3 model fizyczny Model pojęciowy Opis struktury, zawartości i przeznaczenia hurtowni danych z punktu widzenia celów biznesowych. w etapie tym używane są często zwroty specjalistyczne. Co chcemy analizować, jakie dane gromadzić, jakie pytania, jakie raporty będziemy generować. Czas na zdefiniowanie ”oczywistych” pojęć (klient, sprzedaż). dr Sebastian Zając Hurtownie danych wykład 2 Outline OLTP vs OLAP Architektura hurtowni danych Rodzaje implementacji Architektura relacyjna i wielowymiarowa Model logiczny Tworzony na podstawie modelu pojęciowego. Zawiera opis logiczny faktów, miar, wymiarów, atrybutów, hierarchi itp. W architekturze relacyjnej (ROLAP) przyjmuje postać schematu gwiazdy, płatka śniegu itp.Wraz z definicją wszystkich tabel, pól, nazw kolumn, typów danych. Dla MOLAP przyjmuje postać kostki. etap ETL. Model fizyczny generowany na podstawie modelu logicznego. Opis parametrów technicznych - indeksy, partycje, formaty danych, rozmieszczenie dysków itp. dr Sebastian Zając Hurtownie danych wykład 2