HURTOWNIE DANYCH - wykład 1

Transkrypt

HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
HURTOWNIE DANYCH - wykład 1
dr Sebastian Zając
SGH
Warszawa
7 lutego 2017
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
1
Wstęp
Business Inteligence
Historia
2
Definicje Hurtowni Danych
Kimball
Inmon
Etapy tworzenia
3
Cele
Statystyki
4
Zastosowania
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Business Inteligence
Historia
Business Inteligence (BI)
Business Inteligence - dziedzina obejmująca aplikacje i technologie
służące do gromadzenia i analizowania danych w celu
wspomagania procesu podejmowania decyzji biznesowych.
Obszary:
Data Warehouse - Hurtownie danych
Data Mining
OLAP (On Line Analytical Processing)
MIS (Management Information Systems)
Raportowanie - wizualizacja informacji
CRM (Customer Relationship Management)
DSS - Decision Support System
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Business Inteligence
Historia
Historia Hurtowni Danych
Fakty Historyczne:
1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na
przygotowanie raportu to zbieranie danych.
Kluczowe nurty :
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Business Inteligence
Historia
Historia Hurtowni Danych
Fakty Historyczne:
1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na
przygotowanie raportu to zbieranie danych.
1985 - Pierwszy komercyjny system analityki biznesowej dla
firmy Procter & Gamble.
Kluczowe nurty :
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Business Inteligence
Historia
Historia Hurtowni Danych
Fakty Historyczne:
1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na
przygotowanie raportu to zbieranie danych.
1985 - Pierwszy komercyjny system analityki biznesowej dla
firmy Procter & Gamble.
1988 - B.Derlin, P.Murphy ”An architecture for a business and
information system” . IBM System Journal - wprowadzenie
definicji hurtowni danych.
Kluczowe nurty :
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Business Inteligence
Historia
Historia Hurtowni Danych
Fakty Historyczne:
1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na
przygotowanie raportu to zbieranie danych.
1985 - Pierwszy komercyjny system analityki biznesowej dla
firmy Procter & Gamble.
1988 - B.Derlin, P.Murphy ”An architecture for a business and
information system” . IBM System Journal - wprowadzenie
definicji hurtowni danych.
Kluczowe nurty :
Ralph Kimball - http://www.kimballgroup.com
Bill Inmon
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Kimball
Inmon
Etapy tworzenia
Hurtownia Danych – Kimball vs. Inmon
Definicja 1. Hurtownia Danych (Kimball)
to system, który pozyskuje dane z systemów źródłowych,
przekształca je i ładuje do wielowymiarowych struktur, a następnie
dostarcza zapytania i analizy wspierające podejmowanie decyzji.
Definicja 2. Hurtownia Danych (Inmon)
to baza danych mająca służyć wspomaganiu procesu
podejmowania decyzji, która jest:
zorientowana tematycznie (subject oriented),
nieulotna (nonvolatile),
zintegrowana (integrated),
zróżnicowana czasowo (time variant).
proces vs. baza danych
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Kimball
Inmon
Etapy tworzenia
Baza danych - Inmon
Zorientowanie na temat Przetwarzane informacje dotyczą
pewnego tematu biznesowego (np. sprzedaży) a nie działań (np.
zbieranie zamówień). Dane gromadzone są pod względem analizy
biznesowej i zorganizowane tak by ułatwić analizę i szybko
odpowiedzieć na cel biznesowy.
Nieulotność Dane raz wprowadzone do hurtowni nie ulegają
modyfikacji. Zapytanie o tych samych parametrach wejściowych
zawsze zwróci ten sam wynik.
Zróżnicowanie czasowe Zbierane są dane historyczne.
Gromadzone dane mogą być przechowywane z okresu kilku lat.
Wszystkie dodawane dane posiadają wymiar czasowy (jeśli go brak
trzeba go dodać ręcznie). Każde zdarzenie (fakt) musi odbywać się
w czasie.
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Kimball
Inmon
Etapy tworzenia
Baza danych - Inmon
Zintegrowanie czyli inaczej spójność danych (nie chodzi o
spójność relacyjną ale o spójność formatów i sposobu
przechowywania). Dane przedstawiające te same informacje
powinny mieć:
ten sam format,
sposób kodowania,
postać.
Typowe problemy
daty w różnym formacie (DATA, TIMESTAMP, CHAR,
VARCHAR),
kodowanie dokumentów ASCII, UTF-8
informacje tekstowe przechowywane w różnych typach
VARCHAR(50), CHAR(25)
wartości liczbowe - DECIMAL, FLOAT, INT - dokładność
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Kimball
Inmon
Etapy tworzenia
Kimball vs Inmon
Hurtownia Danych to kompleksowe środowisko złożone z wielu
elementów. Każdy z tych elementów należy traktować jako
kompletne środowisko zawierające swój projekt, specyficzne
narzędzia, metodologię. Po połączeniu wszystkich elementów
dostajemy HD.
Hurtownia to proces a nie produkt !!!
Kimball = Inmon + ...
Uwaga! Żadna z definicji nie określa formy bazy danych.
Definiujemy tylko funkcje i cechy.
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Kimball
Inmon
Etapy tworzenia
Etapy tworzenia Hurtowni
W życiu hurtowni danych możemy wydzielić następujące etapy:
1
Zbieranie wymagań.
2
Modelowanie.
3
Wdrożenie.
4
Monitorowanie.
5
Analiza działania.
Tworzenie HD to nie proces liniowy ale zamknięty cykl. Wynik
działania powinien służyć nie tylko na etapie monitorowania
(dostrajanie systemu).
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Statystyki
Cele budowy Hurtowni Danych
1
2
3
4
Przetwarzanie analityczne danych (OLAP) - kwerendy
pozwalające na wykonywanie zestawień statystycznych,
wykresów i raportów, podsumowujących znaczne ilości danych.
Wspomaganie decyzji (DS) - wykonywanie bardziej
złożonych analiz, symulacji scenariuszy biznesowych itd.
Centralizacja danych - gromadzenie szczegółowych danych
napływających z różnych źródeł, często związanych z bazami
OLTP, często przetwarzanych i integrowanych przy użyciu
narzędzi Extract Transform Load (ETL), celem
udostępniania szerokiego zakresu danych dla poszczególnych
hurtowni tematycznych, narzędzi OLAP czy też narzędzi Data
Mining (DM).
Archiwizacja.
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Statystyki
Statystyki
Co najmniej 50 % danych w bazach operacyjnych służy
potrzebom analitycznym i podejmowaniu decyzji
40% raportów produkcyjnych jest niewykorzystywana (raport
IBM, 1995)
30% raportów jest używana nie zgodnie z ich przeznaczeniem
(raport IBM, 1995)
Kierownictwo Strategiczne ocenia dokładność i użyteczność
danych na 2 w skali (od 1 do 10) (raport IBM, 1995)
Średnie trzyletnie dochody z inwestycji (ROI) w HD wynoszą
401%. W tym 90% badanych firm osiągnęło dochody powyżej
40%, połowa firm osiągnęła dochody powyżej 160%, a jedna
czwarta > 600% (International Data Corporation 1996).
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Statystyki
Rysunek: Hurtownia Danych
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1
Outline
Wstęp
Definicje Hurtowni Danych
Cele
Zastosowania
Typowe Zastosowania
Analiza trendów i zachowań - predykcja przyszłości na
podstawie danych historycznych.
Wykrywanie oszustw - dziwne zachowania
Umiarkowany marketing - dla wszystkich czy tylko grupa
docelowa ?
Analiza rentowności - 80% zysków generuje 20% klientów
Zapobieganie odejściu klienta
Zarządzanie zasobami - brak towaru = klient u konkurencji
Analiza ryzyka kredytowego
Długoterminowa ocena klienta
dr Sebastian Zając
HURTOWNIE DANYCH - wykład 1

Podobne dokumenty